期刊大全 杂志订阅 SCI期刊 SCI发表 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 大数据分析论文

大数据分析论文精品(七篇)

时间:2023-03-14 15:12:39

大数据分析论文

大数据分析论文篇(1)

煤矿安全生产和管理是一个与时间和空间相关的过程,其综合决策分析离不开时间和空间维度的参与,而现有的煤矿信息系统往往缺乏时空维度的决策分析工具,如拓扑分析、缓冲区分析、密度分析、叠置分析、时间和空间趋势探测分析、时间/空间关联分析、时间/空间自回归分析等。煤矿安全生产内涵丰富,既包含了日常性事务性的风险超前预控管理,又包含即时性的风险识别、监测、预测乃至预警,这就给安全生产管理的各类信息系统建设提出了很高的要求,需要满足监控实时化、系统集成化、数据海量化、分析决策在线化和智能化,这些都是目前信息系统建设的短板。上述问题的存在使得我国煤矿安全生产形势没有本质的好转,诸多信息化建设成果(硬件、软件)在煤矿安全生产过程中也没有起到预期的成效。

2煤矿安全生产大数据分析系统

2.1大数据分析的概念大数据分析

是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限,大数据与传统数据比较起来,有四大特征:数据体量巨大(Volume)、数据类型繁多(Variety)、数据价值密度低(Value)、更新速度快时效高(Velocity)。大数据分析需要全新的数据处理理念和分析工具,洞察发现海量高速增长信息中潜藏的价值[4]。从理念上,大数据分析与传统数据分析有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。针对大数据,既有的技术架构和分析工具已经无法满足要求,需要全新的数据分析方法和技术,这其中包括:(1)大数据分析可视化方法;(2)大数据挖掘算法;(3)预测性分析能力;(4)语义处理能力;(5)数据质量和数据管理技术。

2.2大数据分析系统的建设

根据大数据处理和分析的理念,煤矿安全大数据分析系统的建设目标包括:数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括:(1)基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统,首先要利用物联网和云计算技术实现全面综合的数据集成,将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来,构建煤矿安全综合数据库。(2)基于专家系统的煤矿安全专家知识库。针对知识集成的目标,整理规范规程体系中的经验或者理论知识(煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识),构建煤矿安全动态分析诊断的专家知识库。(3)建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析,主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台,实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后,基于三维虚拟矿井平台,实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。(4)研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策,需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据,根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎,动态分析诊断煤矿安全生产的现状与趋势、预测未来,并针对煤矿应急现象做出科学合理的响应对策。

3结语

大数据分析论文篇(2)

一、研究的方法和数据处理

文献计量研究方法是图书情报领域的传统研究技术,近来开始被引入到我国教育研究界,并且成为比较热门的研究方法之一。这种方法主要是通过定量的数据客观地反映不同时期的研究状况。一般来说,同专著和研究报告等学术文献相比,期刊发表的论文对学术领域的热点把握相对更为连续、敏锐和直接。[1]而博士论文和硕士的文章在一定程度上可以对期刊文章进行补充,使下载的文献数据能够更加全面、丰富。因此,本文选取CNKI中期刊、博士论文和硕士论文三个领域有关高考志愿的刊载文献关键词作为数据进行分析,这三个领域的文献资料包含了一定数量和范围的热点问题,至少能够充分反映出我国高考志愿研究领域的热点主线问题。

研究分析的工具CiteSpace软件是美国费城德雷塞尔大学、大连理工大学陈超美博士开发的信息可视化应用软件,其适用于多元、分时、动态的复杂网络分析,成为近年来在全美信息分析中最具特色和影响力的信息可视化软件。[2]该软件的功能主要包括作者合作分析、关键词共词分析、机构合作分析、作者共被引分析、文献共被引分析等。

二、高考志愿填报研究的知识图谱

本研究选取CNKI中关键词为高考志愿的论文作为研究数据,运用CiteSpace软件作为研究工具,旨在揭示我国高考志愿领域的研究热点。本研究的下载资料时间从1981年开始,到2012年为止,将数据转化正确格式输入到CiteSpace软件,进行关键词共现分析,在软件分析的过程中,2000年之前的数据很少并且较为分散,对分析的整体结果影响不大。因此,在此忽略不计。本文的研究数据时间段为2000年至2012年止,最终通过软件分析得到的关键词共现网络知识图谱,如图1所示。

图1中各个节点的大小代表其频次的多少,节点越大说明该关键词出现的频次就越高,同时图中也可以清晰地表现出关键词的中心性强度,关键词在网格中的连线越多,中心性越强,就说明该关键词越具影响力。根据图1和CiteSpace软件后台运行数据,我们可以得到2000~2012年我国高考志愿领域中心性较高的关键词,即热点关键词主要有:高考志愿、高考、招生宣传、对策、影响因素、平行志愿、大学生、填报志愿、Data Mining,以上是中心性较高的九个关键词(见表1)。

根据以上资料我们可以看出,我国高考志愿领域的研究既有理论方面的研究,也有技术方面的研究。理论方面的研究相对较多,主要有高考志愿领域的对策分析、影响因素分析以及填报志愿分析;技术方面的研究主要以data mining(数据挖掘技术)分析为主。无论是理论方面的研究还是技术方面的研究,在我国高考志愿领域中的作用都是不可言喻的。

1. 高考志愿领域的理论研究。

(1)对策分析。高考志愿领域的对策分析主要分为高校招生宣传工作的对策分析和高考志愿填报的对策分析。

随着高校的不断扩招,生源竞争越来越激烈,生源问题也越来越受到各个高校的重视,有的高校或者专业出现录不满的现象,也有的专业出现招收的考生不去报到的现象。朱惠媛[3]总结出考生不报到的原因,根据形成的原因对高校提出可行性对策供高校参考。在高考志愿领域的高校生源问题对策分析中,多从高校的角度进行探析,找出问题形成的原因,针对具体问题具体分析,探讨解决方案,促进高校招生工作的顺利进行。

在高校招生宣传工作中,为了争取到高质量的生源,高校对招生宣传工作高度重视,但是在工作的开展过程中,各个高校或多或少地存在一些误区。宣传工作的对策分析主要体现在宏观指导方面,杨凤勇[4]通过调查发现,有些地方高校在招生工作中出现了宣传内容求全、宣传媒体贪大、宣传时段集中、宣传队伍单薄、宣传投入失衡等诸多误区,通过对这些问题的分析提出应该形成宣传机制、把握宣传重点、定位宣传对象、壮大宣传队伍、完善宣传方式的相关对策建议。张宏波[5]认为,高校招生宣传的对策分析重在精心策划和组织制订行之有效的招生宣传方案、加强招生宣传队伍的建设、充分发挥校友、家长的作用,提高宣传亲和力和可信度、充分发挥学校网站的功能、宣传的对象要有针对性,确保招生宣传工作的成功率等方面。

同时有关高考志愿领域的对策分析,还包括高考志愿填报中的对策分析,这部分将在填报志愿分析板块进行分析。

(2)影响因素分析。在高考志愿填报的影响因素分析中,研究人员通过运用问卷、访谈等调查研究方法对考生进行数据收集,最后通过数据处理得出影响考生志愿填报的影响因素,主要有家长建议、个人爱好、学校名气、学校地域环境、高考成绩、就业前景等,同时对于专业选择的影响因素以及专业选择的满意度研究也是通过问卷调查法进行研究,通过对考生志愿填报的影响因素和专业选择的影响因素的调查,分析我国高校招生宣传应采取的途径,提出有效的对策分析。李令青、刘彦楼、李建伟[6]运用自编问卷对大学新生进行测试,最终得出影响考生报考决策的因素主要有发展前景、兴趣特长、他人意见、录取把握。黄玮[7]运用问卷、访谈调查研究方法,对大一新生和高中教师进行访谈,得到了影响高考志愿决策的七大因素:未来发展、人际影响、大学实力、兴趣理想、高中影响、地缘家庭和高考情况。

同时,对于影响因素的分析还包括考生的学校归属感影响因素分析、职业认同感的影响因素分析等,李倩[8]运用质性研究方法,选择大一到大三的同学作为研究对象,通过分析学校归属感水平较高和学校归属感水平较低大学生的特点,归纳得出影响大学生学校归属感水平的主要因素,大学生的高考志愿、学校的知名度、生活环境这三方面因素在学校归属感形成的前期有一定的影响力,其中高考志愿的影响力最大。在此,充分证明了高考志愿在考生未来学业生活中的重要作用。

综上所述,我们可以发现考生在高考志愿填报时,所考虑的影响因素中微观因素影响比重较大,而宏观影响因素比重相对较小,很少有考生在填报高考志愿的时候会考虑所填报的专业在未来会为国家的建设做出多大的贡献。

(3)填报志愿分析。有关高考填报志愿方面的研究文献有很多,视角也非常广阔,主要有高考志愿填报模式分析、高考志愿填报的录取机制、高考志愿填报的原则、高考志愿影响因素分析、高考志愿填报对策分析等等。

学者们对于高考志愿填报模式的研究主要体现在模式的分类、对比分析、模式的研究上。模式的分类普遍有两种划分方法:一种是按时间的划分,可以分为考前志愿填报模式、考后估分填报模式和考后知分填报模式;另一种是按填报类型来划分,主要有顺序志愿填报模式、平行志愿填报模式和实时动态志愿填报模式;对比分析是对填报志愿的模式之间的比较,总结出各自的利弊,针对不同的填报模式提供最优的填报技巧。同时,值得一提的是高考志愿填报模式中平行志愿的研究,自从2008年我国全面推行平行志愿之后的几年中,有关平行志愿的研究纷至沓来,成为高考志愿领域研究的热点主题。

有关填报志愿原则的文献讲解非常细致,既包括宏观的指导建议,又包括具体的填报技巧。潘黎[9]从宏观的角度提出志愿的填报要把握以下几个原则:学校应拉开档次、保持梯度;精挑专业、辩证对待;慎重对待服从志愿;审时度势,吃透章程;在具体填报技巧方面,多数学者把信息收集工作放在首要位置,其它的填报注意事项还包括认真填报第一志愿,要注意“冲-稳-保-垫”的原则,要了解高校往年的分数线、各专业的分数线、专业和地域的热门和冷门、做好各档次志愿之间的关系、注意保持志愿之间的梯度、慎重对待服从志愿、家长和老师的指导建议等。

填报志愿的对策分析,针对高考志愿领域存在的各种问题,其研究分类多样,视角丰富。牛庆玮[10]研究学生高考志愿选择的影响研究,为高校提出提高生源质量的对策,属于对志愿填报的影响因素对策分析;李德铭[11]针对志愿填报的招生政策和录取规则提出相应的对策分析;赵小明、王晓峰[12]以平行志愿的投档模式为基础,对其影响因素进行分析,提出志愿填报分析方法及策略,作志愿填报参考之用。综上所述,志愿填报的对策分析以具体分析为主,事事巨细,研究角度多样化。

2. 高考志愿领域的技术研究。Data mining,中文意思为数据挖掘,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘技术在高考志愿领域的应用主要是通过对考生的高考志愿相关数据进行处理,建立数据库,在庞大的数据库中发现潜在的联系,找出规律,最终提出可行性的建议,供广大考生参考,在未来的考生志愿填报过程中提供决策性帮助。

在高考志愿研究领域中,学者们多数采用的数据挖掘方法有层次分析法、决策树方法、数据仓库技术、关联规则、ID3算法、商务智能技术、Spss技术。其数据挖掘方法种类繁多,研究手段多样。殷员分[13]在其硕士论文中通过建立招考数据仓库,利用OLAP技术从多角度、多侧面、多层次对考生志愿数据进行分析,最后利用数据挖掘技术对考生志愿数据进行挖掘,得到一些可资借鉴的结果;罗志磊[14]在其硕士论文中灵活运用决策树方法,根据高考志愿数据的特点,在对其进行预处理的基础上,对高考志愿数据进行知识挖掘,获取其中规律性的潜在信息,构建高考志愿录取预测模型,提供给考生进一步的决策建议;赵文波、傅志刚,[15]在对高考志愿填报的研究中采用了层次分析法(Analytic Hierarchy Process AHP),对高考考生填报大学志愿的影响因素进行了系统的分析。所得数据通过微机处理,定量地给出了各种不同影响因素的重要性排序,同时提出了相应的对策性建议;张丹丹[16]在其硕士学位论文中首先对关联规则分析算法和决策树分类算法进行改进,其次对高考志愿领域数据进行预处理,生成数据库,最后建立一个考生志愿数据智能分析系统,其目的是为了得到一个有效的关联规则和分类规则,期望能为今后高考考生的志愿填报提供决策支持。

综上所述,学者运用科学的分析方法深入分析高考志愿填报的相关数据,发现内在规律,为考生提供决策性帮助,促使我国高考志愿领域的发展更加成熟、完善。

3. 研究结论。本研究运用citespace信息可视化软件对高考志愿领域的数据分析,探测出我国高考志愿领域的研究热点主要有理论分析和技术分析两个方面。理论分析主要有对策分析、影响因素分析以及填报志愿分析;技术分析以数据挖掘技术分析为主。

在整体文献中高考志愿领域的理论分析相对较多。其中对策分析主要集中在高校招生宣传工作的对策分析和考生志愿填报的对策建议两个方面。高校招生宣传的对策分析:一方面是针对考生不报到的原因进行探究,为高校提供对策分析;另一方面是针对高校宣传工作的误区进行探究,总结出高校在宣传工作过程中存在的错误,对此提出可行性建议供高校参考;志愿填报的对策分析:以具体分析为主,事事巨细,研究角度多样化;高考志愿领域的影响因素分析研究比较广泛,有高校招生宣传工作的影响因素分析、高考志愿填报的影响因素分析、考生专业选择的影响因素、考生职业认同、考生学校归属感的影响因素分析等等,其中占整体比例最多的为高考志愿填报的影响因素分析;有关高考填报志愿方面的研究文献也有很多,视角非常广阔,主要有高考志愿填报模式分析、高考志愿填报的录取机制、高考志愿填报的原则、高考志愿影响因素分析、高考志愿填报对策分析。

在高考志愿领域的技术分析中,通过文献分析可以发现,文献大多出自于硕士学位论文库,多数是高考志愿填报建立系统模型的研究,学者运用科学的数据分析技术建立数据库,应用数据库深入研究高考志愿领域的相关数据,挖掘这些庞大数据背后的关联知识和内在规律,提供相关对策分析,期望在未来考生的志愿填报过程中为考生提供决策性帮助,为我国高考志愿领域的发展提供有力的支持,促进领域的发展。

参考文献:

[1]潘黎,王素.近十年来中国教育研究热点主线的计量研究—基于八种CSSCI教育学期刊文献关键词共现知识图谱的分析[J].教育研究与实验,2011,(6): 20-24.

[2]潘黎,王素.近十年来教育研究的热点领域和前沿主题—基于八种教育学期2000-2009年刊载文献关键词共现知识图谱的计量分析[J].教育研究,2011,(2): 47-53.

[3]朱惠媛.高校录取新生不报到的原因与对策[J].江苏高教,2008,3:90-92.

[4]杨凤勇,郭素珍,张波.地方高校招生宣传对策初探[J].石家庄学院学报,2007,9(5):111-115.

[5]张宏波.关于高校招生宣传媒介应用的调查分析与对策[J].浙江海洋学院学报(人文科学版),2004,21(3):93-96.

[6]李令青,刘彦楼,李建伟.高考专业填报决策的影响因素探析[J].中国健康心理学杂志,2008,16(8):883-884.

[7]黄玮.高考志愿决策结构模型研究[D].南京师范大学,2008年硕士学位论文.

[8]李倩.大学生学校归属感的影响因素分析[D].华东师范大学,2011年硕士学位论文.

[9]潘黎.高考志愿填报综述[J].中学课堂资源,2007(4):30-35.

[10]牛庆玮.影响高考志愿的因素分析与提高生源质量的对策研究[J].石油大学学报(社会科学版),2004,20(2):105-107.

[11]李德铭.高考志愿填报问题及其对策[J].甘肃教育,2007(5):7-8.

[12]赵小明、王晓峰.平行志愿填报因素分析与对策研究[J].沈阳工程学院学报(社会科学版),2012,8(4):478-480.

[13]殷员分.高考考生志愿数据分析与挖掘研究[D].西南大学,2010年硕士学位论文.

[14]罗志磊.决策树方法在高考志愿分析中的应用研究[D].河南大学,2007年硕士学位论文.

大数据分析论文篇(3)

关键词 情报学;硕士论文;关键词

中图分类号G251 文献标识码A 文章编号 1674-6708(2014)114-0013-02

当前,世界各国的许多高等院校和科学研究机构都在加强对图书情报的研究,许多世界一流院校,比如Harvard University(哈佛大学)、Princeton University(普林斯顿大学)、Yale University(耶鲁大学)、Massachusetts Inst. of Technology(麻省理工学院)等都建立了比较完善的情报学教育体系。而比较而言,在我国高等院校与科研院所对图书情报学的相关研究,明显要相对落后,近年来随着改革开放的深入推进,有关情报学的招生和课题研究有所提升,并呈现出较为快速的增长态势,然而由于研究内容相对较为高深,而且研究的靶场显得较为前沿化与多元化。基于关键词对学位论文进行统计、研究与分析是文献计量学的范畴,是图书情报学研究的重要内容。即以学位文献或学位文献的某些特点为标的,以聚集梳理一定数量文献为基础,由此展开对某一时域某一领域科学技术基本状况与基本特征的研究,并由此论述和预测该领域科学技术在今后一段时期的研究趋势与特点规律态势。基于独特关键词进行图书情报领域的硕士学位论文进行分析,是情报学研究的一项重要方法,是一种将文献资料中的众多核心要素关联起来,进行统计分析的引证分析方法,其可以较为科学地评价文献所研究与发展的现状和趋势,揭示学科当时研究的热点,较为准确地评价文献所代表的学术水平。

1 研究对象数据来源

本文研究的对象定位于对国内图书情报领域这一总体框架,并于此基础上将“靶向”集中于硕士学位论文的统计、分析与研究,将“靶标”聚集到硕士学位论文的研究热点、趋势、重点、前沿以及其变化情况,从而更加清晰地梳理出我国情报学研究的发展脉络,从而为我国情报学教育发展提供参考。研究的主要数据来源集中于国内著名的学位论文收集库――中国知网CNKI学术文献总库、维普期刊资源整合服务平台与万方数据知识服务平台“三大论文数据库”,以及国内高等院校图书馆自建特色数据库。其中,中国知网CNKI和万方数据库是国内收录学位论文最为全面的数据库,因此,为了确保分析研究的数据具有较高可信度与代表性,分析研究检索的数据源即来自该两个数据库,着重定位于“学科专业名称”、“学科专业分类”选项进行检索,而检索的时间区域定位于近10年,对于两个数据库检索出来的文献,对于相同的通过采用SQL 语句进行筛选,剔除重复的以及不符合的。

由此,以“情报学”作为检索词,从中国知网CNKI数据库获得1640篇硕士论文,从万方数据库中获致1315篇硕士论文,通过SQL筛选剔除重复的以及不符合的795篇,总共获得有效国内图书情报领域硕士论文2160篇。

2 基于高频关键词的国内图书情报领域硕士学位论文特点

通过对获取到的2160篇国内图书情报领域硕士论文进行研究,综合统计论文的关键词,累计关键词有13976个,经过分析研究,去除不能表达论文主题概念的关键词3645个,共得10331个,平均每篇硕士文献关键词数为4.78个,由此可说明该统计是科学的,与国外科文献资料对关键词的标引规则相符(国内外科技期刊要求的每篇关键词应标出 3-8 个),接着对关键词的词频进行统计分析,将关键词的频度大于60作为标准,将其定义为“高频词”,通过对“高频词”的统计分析,可以非常清晰地看出,有关“知识管理”这一主题的频次最高,多达126次。无疑,这也证实了近些年来,学术界对知识管理这个方向的研究热点。此外,“电子商务”为121次、“信息化”为118次、“信息技术”为112次、“竞争情报”为102次、“信息服务”为98次、“信息检索”为96次、“数据挖掘”为87次、“数字图书”为84次、“信息资源”为79次、“电子政务”为75次、 “知识服务”为71次、“知识共享”为68次、“数据仓库”为63次,从中也反映了我国对信息化建设、知识服务、数字化建设等关注在日益提升,也验证了我国国务院学位委员会重新颁布的《授予博士、硕士学位和培养研究生的学科、专业目录》中“图书馆、情报与档案管理”的实效,表明了情报学与管理学之间渗透和结合日益加强,也可以折射出当前研究的重点、热点仍然集中在情报学基础领域,并预示着今后情报学研究的一个重点将是对网络信息资源的开发、整合与利用。

3 基于聚类共词的国内图书情报领域硕士学位论文特点

通常来说,仅仅通过孤独地察看论文的某一关键词,通常是难以有充足的理由说明该论文所研究的主题,然而通过关注两个或者两个以上的关键词,将可以给予人们更加充分的信息去把握论文的大致内容和论文的主题脉络。通过采取计算机数字高效处理作用,充分发挥Excel的数据透视功能,再次对出现次数高于60的高频出现的关键词进行“聚类性”分析,统计在同一论文中两两同时出现的关键词,从而构建出60 × 60的“聚类共词矩阵”,通过这一矩阵的研究,非常清晰地显示出“聚类共词矩阵”是一个对称矩阵,其中位于矩阵对角线上的数据显示的是某关键词自身一同出现的频次,这个一同出现的现象就实质来说,就是论文之间的相关度,对于非对角线上的数据,则表示不同关键词之间的共现频次。通过这个矩阵可以从另一个侧反题出,关键词分布既有交叉、相互渗透又具有群组分布的独立性。通过Excel的数据透视处理得到共现频次较高的有:“知识管理”为124次,“电子商务”为106次,“竞争情报”为101次,“高校图书馆”为98次,“信息服务”为92次,“数据挖掘”为87次,“数学图书馆”为83次,“信息资源”为81次,“电子政务”为79次,“知识共享”为72次,“数据仓库”为66次。由此可以看出,在国内图书情报领域硕士学位论文的研究主题中,当前基于数字化、信息化、电子化的知识管理与数据挖掘是个热点,同时也说明我国情报学教育研究的领域在不断拓宽。

综合以上,关注独特关键词下国内图书情报领域硕士学位论文研究的学科结构特点,获得了基于高频关键词的国内图书情报领域硕士学位论文特点,以及基于聚类共词的国内图书情报领域硕士学位论文特点,通过对研究结果的比较分析,得出了一些有较为充足理由支撑的结论,那就是从中可以较为清晰地得出,当前以及今后一段时期国内图书情报领域硕士学位论文研究的侧重点在于“数字化、信息化、电子化的知识管理与数据信息挖掘”。

参考文献

[1]曾学喜.网络舆情突发事件预警指标体系构建[J].情报理论与实践,2013(11).

[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).

大数据分析论文篇(4)

[关键词]数字化参考咨询;引文分析;统计分析

引言

数字化参考咨询又称虚拟参考咨询或实时参考咨询。主要负责解答读者在利用图书馆过程中产生的各种问题,内容涉及馆藏资源及其利用、文献查找途径及查找中遇到的问题、图书馆的各项服务与规则等等,目的在于帮助读者更有效地利用图书馆[1]。所谓引文分析(citationanalysis),就是引用各种数学及统计学的方法以及比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用现象进行分析,以便揭示其数量特征和内在规律的一种文献计量方法[2]。通过引文分析的方法,从定量分析的角度能对我国数字化参考咨询研究中的引用或被引用现象进行分析,进而了解科研成果的交流规律与价值以及发现研究中存在的不足。

一、引文数据来源

本文以CSSCI数据库为数据源,以CSSCI收录的图书情报专业核心期刊为检索范围,以检索式“KW=数字化参考咨询”作为检索入口,对2003―2010年发表的相关论文进行检索,排除其中重复和关系不密切的论文共获得源文献126篇,引文1041条;被引篇数142篇,总被引351次。利用SPSSStatistics与Excel对引文的引文量等分析下文将对统计分析进行详细阐述。

二、统计分析

1.引文量分析

引文量分析是根据来源论文参考文献的平均数量进行文献分析,是表征学科交流与文献利用程度的重要参数,通过研究数字化参考咨询研究领域的引文量分布特征,可了解此领域著者利用文献与吸收信息能力及发展现状。引文量统计如表1所示:

根据表1和图1可以看出,2003至2004年这一时期是“数字化参考咨询”兴起初期;自2005年至2007年,“数字化参考咨询”发文量逐年增加,同时引文量及篇均引文量也是逐年增加,且呈现出周期性增长;自2004年起,英文引文量和篇均英文引文量大幅度增加,但随后却呈现出周期性波动。

除此之外,根据引文数量和发文数量的相关数据我们可以计算出“数字化参考咨询”类的文献老化系数,即普莱斯指数为0.627,篇均引文量为8.26,篇均被引次数为2.79。

根据对数据的描述,可归纳结论如下:(1)自2004年以来,对数字化参考咨询的研究越来越频繁,2005至2007年为数字参考咨询研究的热门期,07年至今研究热度有所下降。(2)对外文资料的研究仍踏步不前,篇均英文引文量相对较少,波动幅度较大,说明我国研究学者获取其他语种专业信息能力较低,同时说明我国该领域研究人员的英语水平较高,能够掌握和利用英文研究成果,及时捕获最新国际研究动态。(3)引文量呈周期性波动下降,篇均引文量8.26条这一数值低于我国科学论文8.86条的平均引文量,与国际科技论文平均引文量15条相比仍有较大差距[2],说明研究人员吸收、利用文献信息的意识和能力仍有挖掘潜力。

2.数字化参考咨询存在的问题

通过以上分析,我们大致可以了解2003―20110年我国数字化参考咨询研究的现状:我国数字化参考咨询研究经过2005年的高潮后逐渐走向稳步发展态势,但此后却逐年减缓,不排除2010年资料统计不全的状况,但同时我国数字化参考咨询研究仍存在一些问题,主要表现在:①我国数字化参考咨询研究仍处于初级阶段,对数字化参考咨询的称谓、学科范围仍存在争议,这不利于数字化参考咨询研究的稳定发展,容易造成学科建设上的混乱;②数字化参考咨询研究者获取英文之外的外文文献能力差,需要加强其他外语语种学习。

三、建议

1.加强数字化参考咨询的基础理论研究

理论研究是应用研究的基础,对应用研究具有指导作用?3?。我国数字化参考咨询理论研究尚处在初级阶段,制约着我国数字化参考咨询的理论发展和实践工作。因此,加强基础理论的研究具有至关重要的作用。

2.加强数字化参考咨询的应用技术研究

数字化参考咨询是以网络为平台的参考咨询服务模式,网络技术在数字化参考咨询中扮演着不可或缺的角色,一个好的数字化咨询平台应包括如下功能:(1)建立能解答各种问题的知识库,这是用户在求助于参考馆员之前自行查找答案和参考馆员提供参考服务的重要资源。(2)建立通畅的网上聊天和邮件传送功能,这是解决咨询问题的重要手段。(3)数据记录与统计报告。能够知道系统如何被使用,利用模式,评价整个系统的效益?4?。加强数字化参考咨询的应用技术研究有助于实现理论与实践相结合,也有助于扩展理论研究度和广度。

参考文献:

大数据分析论文篇(5)

关键词:数字图书馆 文献计量分析 CNKI 可视化

中图分类号: G250.76;G250.252 文献标识码: A 文章编号: 1003-6938(2013)05-0072-06

1 引言

数字图书馆是对图书馆的虚拟化,不仅可以实现纸质图书、期刊文献的电子化,而且极大地促进了文献信息的跨时间、跨区域交流。因此,数字图书馆是图书馆服务的一次革命性转变,从根本上突破了传统图书馆的时空限制[1]。自从20世纪90年代初美国科学家首次提出数字图书馆这一概念以来,数字图书馆的相关技术研究就迅速进入学术研究的视角,我国从1994年开始对该领域的相关理论和技术进行研究[2]。本文基于CNKI中国期刊全文数据库,拟从论文文献的年代分布特征、高被引论文的期刊分布、高产作者分布和高频关键词分布等角度分析国内数字图书馆领域的研究现状,强调数字图书馆相关技术的研究价值和研究方向,从而为国内的研究学者提供一定的参考,为促进数字图书馆领域的快速发展提供数据支撑和理论支持,以推进数字图书馆研究的进一步突破。

国内已经发表了一些和数字图书馆文献计量分析相关的文献,从这些文章的研究内容来看,《近十年我国数字图书馆学术论文的计量分析》对2000~2010年数字图书馆领域发表的2062篇学术论文进行了作者、主题、时空分布分析[3], 《以用户为中心的数字图书馆个性化服务研究的文献计量分析》从年代分布、主题分布以及作者分布角度分析了2002~2011年的997篇期刊文献[4],《国内近十年数字图书馆领域研究热点分析——基于共词分析》基于1999~2008年CNKI数据库收录的1356篇学术论文重点进行了关键词共词分析[5],《基于Web of Science的数字图书馆研究论文定量分析》统计了1993~2004年SCI和SSCI数据库收录的819篇文章的时间、期刊、被引频次、作者分布情况[6],《近6年我国数字图书馆研究论文定量分析》对1996~2001年间24种图书馆学情报学期刊发表的618篇文献进行较为全面的论文年代、主题、来源期刊和作者分析[7],《1999~2008年我国数字图书馆研究论文的计量分析》则选取了1999~2008年间CNKI收录的13727篇论文进行了较为系统的核心作者群、高产作者群、关键词分析[8]。

可见,这些研究主要局限在2008年以前的论文分析,缺少对我国数字图书馆近期成果的分析。另一方面,多数论文的分析主要针对某一个方面,如仅以关键词进行共词分析或仅针对国外文献的分析,为了弥补现有文献的不足,本文针对2008~2012年CNKI中发表的数字图书馆论文展开分析,以帮助学人了解我国数字图书馆领域最新研究状况,促进我国数字图书馆研究与实践更加健康快速发展。

2 数据来源和处理方法

CNKI中国期刊全文数据库是我国收录学术信息最为全面的数字资源。选择CNKI作为数据来源分析我国数字图书馆的研究可以较为全面地把握该领域的研究现状。但是由于《数字图书馆论坛》、《情报学报》等期刊并没有收录在CNKI中,一定程度上影响到研究数据的完整性。为了弥补中国期刊全文数据库期刊收录方面的不足,本文基于万方学术期刊全文数据库对《情报学报》、《数字图书馆论坛》两本期刊进行了全面的数据调研。两种期刊在2008~2012年间共收录数字图书馆方向的文章267篇,其中《数字图书馆论坛》的载文量达到245篇。

考虑到研究国内数字图书馆发展现状的时效性、精准性和全面性的要求,本文在CNKI中国期刊全文数据库和万方学术期刊全文数据库中,将主题字段“数字图书馆”和中图分类号字段G250.7进行检索或运算,发文年代限制为2008~2012年,同时选用期刊全文数据库将文献类型限定为论文类型,共检索得到有效文献数20152篇。

本文主要采用文献计量学方法以及共词分析法进行研究。文献计量学方法是基于数学、统计学等学科,对文献进行定量分析的方法。而共词分析法则是一种利用专业术语(通常选择关键词)进行共现分析,以揭示内容结构特征的文献统计学方法。

本文使用的辅助软件工具是一种基于.NET平台和c#高级程序语言的文献题录信息统计分析工具SATI。这种统计分析软件可以实现导入并处理EndNote格式、NoteExpress格式及NoteFirst格式的国内文献题录信息和HTML格式的WoS国际文献题录信息。同时还可以利用该软件进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建[9]。

3 定量分析

3.1 文献年代和学科分布

通过一个研究领域的文献年代分布研究,可以分析出该领域的研究走势。根据文献增长规律特征,一个领域在研究初期文献量呈指数增长,发展到鼎盛时期增长变缓,成熟后数量会逐步下降。为了考察数字图书馆研究的成长性,本文统计了2008~2012年CNKI收录的数字图书馆的期刊论文(见表1)以及其年化分布趋势图(见图1)。

由表1可以看出,2008~2012年我国数字图书馆领域每年的发文总量都在3600篇以上,2008至2009年的发文量更是突破了4000篇。但是2009年以后每年的发文量呈现出明显的下滑趋势。由图1可以发现,2009年是2008~2012年数字图书馆发文量最多的年度。自2009年之后发文量出现明显下滑。本文查阅文献[10]后发现,在2000~2008年期间,数字图书馆文献一直处于上升期,但后几年的上升出现了缓慢情形,因此2009年应该是数字图书馆发展的顶峰时期。技术的发展标志着将会有新的技术取代数字图书馆,就像10多年前图书馆自动化被数字图书馆所取代一样,所以在未来的数字图书馆发展历程中,云图书馆技术也许会取代数字图书馆技术。

数字图书馆的发文情况还可以从学科角度深入分析。每年数字图书馆领域发文的学科分布除了可以了解热点发文年限,还能够更深入地着眼于其多学科性质和重点学科的研究。基于CNKI中国期刊全文数据库的学科统计功能,图2形象直观地显示了2008~2012年图书情报与数字图书馆和计算机软件及计算机应用学科的发文情况。根据CNKI学科类别载文量的统计,这两个学科的总发文量是每年最多的,占全年数字图书馆领域发文量的90%左右,因此选择这两个学科进行分析具有一定的代表性。

从图2可以看出,2008~2012年图书情报与数字图书馆学科的发文量比较稳定,基本保持在3500篇左右。但是计算机软件及计算机应用学科的发文量变化波动比较明显。尤其是2010年以来,在数字图书馆领域发表的研究论文有所下降,2012年的发文量甚至不足500篇。从学科角度可以看出,数字图书馆的技术问题已基本解决,计算机领域在探索并考虑如何用新的技术和理念取代数字图书馆,这也和数字图书馆的成熟以及论文数量的下滑形成呼应。

3.2 代表性期刊分布

代表性期刊分布可以有效地引导研究者的阅读方向,研究者可以反复研读和参考这些业内的权威期刊,在把握现有学术成果的基础上获取学术灵感和潮流化的研究主题。表2直观地显示了CNKI中国期刊全文数据库数字图书馆领域篇均被引排在前20位的核心期刊以及通过万方数据库检索得到的《情报学报》和《数字图书馆论坛》两种期刊。这里的篇均被引频次指标,是通过期刊2008~2012年数字图书馆领域的总载文量和这些论文的总被引量相除得到的。

由表2可以看出,这22种期刊都是图书情报领域期刊,大多数是图书情报领域的核心期刊。这些期刊的数字图书馆论文的篇均被引频次基本在两次以上,最高的甚至达到10次左右。另外根据CNKI的期刊发文量统计,仅仅2008~2012年,数字图书馆领域载文量在115篇以上的期刊就有40种,其中包含了《医学信息学杂志》、《中国科技信息》、《科技咨询》、《农业图书情报学刊》等多学科方向的各种期刊。

这些数据有力地证明了数字图书馆研究是图书情报学科的一个重要领域。图书情报学期刊非常重视数字图书馆领域的。同时数字图书馆研究也受到其他学科相关领域的重视,具有实用性和多学科性的研究特征。

3.3 高产作者分析

高被引文献的作者一般都是具有一定学术影响力的学者。这些专家学者在自己的专攻领域或多或少都有一定的建树,所以他们的学术研究成果比较具有说服力和权威性。因此,了解他们的知识结构和主攻方向显得尤为重要。基于2008~2012年的统计数据,数字图书馆领域的高被引文献作者的基本情况如表3所示,其中篇均被引频次指标是通过CNKI高发文量作者的详细发文情况列表,统计出发文总量和被引总量,然后相除得到的。

根据表3,这些学者五年来的发文量基本都在10篇以上,篇均被引频次保持在4次以上。他们所从事的工作、职务基本都是大学教授或是图书馆研究员。从这些数据可以发现,这些专家学者在数字图书馆研究领域已经取得相当的成绩,已经有学者大量参考和引用他们的学术成果。另外还可看到,武汉大学、中山大学以及中国科学院国家科学图书馆是高度重视数字图书馆领域的研究机构。因此,重视这些专家学者的成果以及密切关注这些研究机构的研究动向,将有助于数字图书馆相关技术的研究突破。

3.4 国家基金项目资助情况分析

针对某一具体研究主题的基金项目资助情况分析,尤其是部级项目的支持情况分析,可以挖掘出相应主题的学术地位以及受重视程度。基于CNKI中国期刊全文数据库的基金项目统计功能,表4统计了2008~2012年国内数字图书馆领域部级基金项目数量变化情况。

从表4的统计数据来看,尽管部级基金资助项目的总量出现一定的波动:2009~2011年三年来国家基金支持的总量明显下降。但从2008~2012年的总体发展趋势来看,国家对数字图书馆研究的支持并没有大幅度削减,尤其是2012年,的总量又重新回升至120篇。这些数据表明国家并没有减少在数字图书馆研究领域的投入,数字图书馆领域仍然是国家较为关注的前沿研究方向。

国家自然科学基金和国家社会科学基金是国家支持基金中的两大具有代表性的基金项目。从表4的统计数据可以看出,国家社会科学基金支持的总量要显著高于国家自然科学基金。这一定程度上是由社会科学和自然科学的学科性质决定的。在数字图书馆领域,自然科学关注更多的是技术的实现,而社会科学则更多地从管理角度着手进行研究。因此,自然科学基金支持的量的下降并不说明数字图书馆研究重视度的下降,因为要在现有完善的技术层面上取得突破需要更多时间和精力的投入,以及更有新意的选题。

3.5 高频关键词分析

关键词往往是文章的核心切入点,对文献关键词进行分析可以全面把握文献的内容结构,同时还可以推断出某一具体学术领域的研究热点和方向,给予研究者在学术选题方面一定的参考,更好地着眼于前沿研究主题。表5统计了国内数字图书馆领域使用频次在160次以上的关键词并且进行了关键词的简单整理:将同义的关键词进行合并,同时将“管理”、“服务”等不具实际含义的关键词排除。

根据表5的统计数据,可以简单地概括出2008~2012年数字图书馆领域的研究热点。云计算、数据库构建、知识产权保护、知识服务、个性化服务、元数据、信息资源共享、数据资源管理等主题一直是2008~2012年备受欢迎的研究主题。另外高校图书馆作为数字图书馆的一种,也成为学界较有影响力的研究热点。当然,仅仅从关键词频次的角度来推断某一具体研究领域的研究热点还是远远不够的。研究关键词之间的共现关系,构建出关键词内容之间的网状关系结构对于分析相应主题领域的研究热点是个很好的补充。因此,本文使用ucinet和sati软件对五年来被引频次在10次以上的文献关键词进行两两共现关系统计,构建出使用频次在8次以上的四十个关键词共词矩阵,并通过ucinet的可视化制作软件利用有向性指针呈现出来,如表6所示,其中节点数字分别表示关键词频次降序排列的序号。

根据共现知识图谱(见图3)可以看出,数字图书馆处于网络节点的中心位置,其中介中心性最大,是网络中最重要的节点,其他节点围绕中心节点紧密联系[11]。根据图3中有向性指针的标注情况,一些重要的共现关键词显而易见。基于高频关键词统计表和知识图谱可以归纳出2008~2012年数字图书馆领域的研究热点:

(1)数字图书馆技术的发展在很大程度上推动着学术成果的交流,因此知识服务成为数字图书馆领域研究的一大热点。知识服务的研究重在服务模式的构建和个性化服务的研究。

(2)云计算、RFID、开放存取技术这些新兴技术是数字图书馆研究过程中重要的技术支撑。从知识图谱可以看出,在进行数字图书馆具体技术研究时,这些新兴技术往往被同时涉及。云计算的研究强调数字图书馆的移动性,而开放存取技术的研究注重一个重要概念——机构知识库,以便推动信息共享空间的进一步扩展,RFID技术的研究则着眼于现有的网络环境。总之,对于新兴技术的研究也是数字图书馆领域研究的热点主题。

(3)数字图书馆的研究内容涉及方方面面,高校数字图书馆、移动数字图书馆、泛在数字图书馆、手机图书馆都是较受关注的研究领域。无论是手机图书馆、移动图书馆、还是泛在图书馆都强调在3G网络环境下,跨越时间和空间的限制对图书馆信息资源的共享。而高校数字图书馆更偏向于个性化信息共享服务和图书馆联盟方式的研究。

(4)数字图书馆最重要的是数字资源管理,因此信息资源整合、信息资源的共享、特色数据库的构建成为数字图书馆领域研究的一大热点,这些数据服务研究趋向于一种趋势——网络环境下的图书馆联盟建设,尤其是高校图书馆。至于具体技术的实现,有些专家学者将其与云计算技术紧密联系在一起。

4 结语

在信息化时代,数字图书馆作为一个新兴的研究主题一直备受学界关注。本文选取了2008~2012年度CNKI中国期刊全文数据库和万方学术期刊数据库的文献数据,并对其进行年代、学科、高产作者、代表性期刊、高频关键词、项目基金支持情况以及热点研究等方面的定量分析,用数据说话,客观地揭示了五年来数字图书馆领域的发展现状和研究热点,以便给予研究专家一定的学术参考,从而取得更大的学术突破,进一步推动国内数字图书馆的研究进展。

从2008~2012年五年的文献数据来看,2009年是数字图书馆发文的峰值年,发文量是五年来最高的,此后的文献量呈现出明显的下滑趋势。因此,2009年是数字图书馆研究过程中的重要转折点。在这种文献背景下,数字图书馆的研究很有可能出现研究角度转移的趋势,就像10多年前图书馆自动化被数字图书馆所取代一样。另外,数字图书馆的研究是一种理论和实践的完美结合。图书情报学科主要着眼于理论方向的研究,许多研究成果刊载在本学科的核心期刊上,而计算机软件及计算机应用学科则更多关注数字图书馆技术层面的研究。从这两个学科每年的发文量可以看出,随着数字图书馆实现技术的逐步完善,理论方向的研究开始处于主导地位。当然,数字图书馆研究的不断突破离不开一批专业知识深厚、投入全部研究精力的专家学者的支持。更为重要的是,国家对数字图书馆研究也表现出高度重视,每年由国家基金项目支持的论文数高达百篇左右。

综上所述,专攻数字图书馆研究的专家学者如果对选择的主攻方向始终满含自信,并着眼于当前数字图书馆的研究热点,从中找出新的突破点,不仅能够实现个人研究的飞跃,还能从宏观上推动国内数字图书馆研究的发展进程。

参考文献:

[1]苏新宁,李思舒.我国数字图书馆研究十年:概况统计分析[J].数字图书馆论坛,2011,(5):2-11.

[2]苏新宁,夏立新,胡守敏等.我国数字图书馆研究十年:基于科研项目分析[J].数字图书馆论坛,2011,(5):12-19.

[3]刘成山,张秀君.近十年我国数字图书馆学术论文的计量分析[J].现代情报,2011,(3):113-116.

[4]张小平,张争,杜媛鲲.以用户为中心的数字图书馆个性化服务研究的文献计量分析(2002年~2011年)[J].农业图书情报学刊,2012,(11):47-52.

[5]董伟.国内近十年数字图书馆领域研究热点分析——基于共词分析[J].图书情报知识,2009,(5):58-63.

[6]周静怡,孙坦.基于Web of Science的数字图书馆研究论文定量分析[J].情报科学,2005,(10):1521-1525.

[7]王惠翔,高凡.近6年我国数字图书馆研究论文定量分析[J].图书情报工作,2002,(5):37-40.

[8]邱均平,王明芝.1999-2008年国内数字图书馆研究论文的计量分析[J].情报杂志,2010,(2):1-5.

大数据分析论文篇(6)

关键词:毕业论文;就业;关联度

毕业论文是本科生大学期间最重要的实践活动,是培养科研和实际工作能力的关键环节,对大学生就业有一定影响已成共识。但毕业论文对就业的具体影响因子及其影响程度等,缺乏相关统计分析。

本文首先分析用人单位的能力要求,然后分析高校毕业论文的评分标准,在此基础上,采用关联度分析法,建立了毕业论文与就业的关联度方程;然后逐条比较高校毕业论文评分标准与用人单位的要求以发现二者之间的偏差,以此为据,寻求毕业论文指导中可增加的质量评分指标或能力培养目标,为毕业论文环节增强大学生就业能力、更科学地指导和管理毕业论文提供依据,以真正实现毕业论文的初衷。

一、用人单位的能力要求分析

文献4统计了具有较高知名度、就业热门的30家企业对大学生素质的要求,涉及22个能力及特征指标的普遍程度,其普遍程度=(看重该项能力的企业数/30)x100%,其研究结果如表1中的第1列-3列。原表中诸如年龄、性别、宗教及政治信仰等与毕业论文关系不密切的特征在本文中没列入表中。对照参考文献5、6,用人单位看重的大学生素质及其排序列在表1的第4列-5列。

文献7对120家用人单位进行实地调查和深度访谈,发现用人单位对大学毕业生的实际动手能力、再学习能力、社交能力、应变能力和创新能力提出了很高要求,更看重大学毕业生良好的个人品质,能力与素质相比退居到次要位置,其中对个人品质的要求包括:诚信、吃苦耐劳、工作责任心、团队精神、忠诚度、谦虚等。浙江统计局2009年6月组织面向用人单位的问卷调查,在杭州、宁波两地随机抽取的5939家样本,发现用人单位在招收大学生时,居前3位的需求分别为能吃苦耐劳、实践能力强和专业对口。

综合以上研究,用人单位对大学生的要求基本集中在知识、素质、能力3个方面(见表2)。

对表2中的B1-B9指标进行两两比较,具体地:设n个具体影响指标B1,B2,…Bn,其分值为qij。当Bi比Bj重要时,qij=1;当Bi与Bj同等重要时,qij=0.5;当Bi没有Bj重要时,qij=0。分值构成矩阵Q=(qij)lnxn,该矩阵单元间存在如下关系:qii=0.5;qij+qii=1。计算出各项指标的权重关系(见表3),进而得出用人单位对大学生的各项要求的重要性排序。

由表3可见,用人单位对应聘者的能力要求分别是专业知识与技艺(权重0.21)、敬业精神(权重0.18)、创新能力(权重0.16)、实践能力(权重0.14)、学习意愿(权重0.11)、沟通协调能力(权重0.08)、解决问题能力(权重0.04)、团队精神(权重0.04)和吃苦耐劳(权重0.02)。

二、高校毕业论文环节对学生的培养目标及论文质量评分标准分析

不同专业在毕业论文环节对学生知识、素质、技能等方面的培养目标不同。本文仅就国际贸易专业在毕业论文环节的培养目标进行分析,选择了中山大学、华南理工大学、广东工业大学、集美大学、广东培正学院、广东白云学院等高校国际贸易专业的毕业论文质量评分标准,涵盖的国贸专业背景包括理工科、文科以及民办学校。将这些高校国贸专业毕业论文评价指标体系转化为评分表(表4的1列-3列)。

总分设定为100,根据指标内容的特点将指标划分若干等级,对每个等级予以质和量的规定并相应评分。如“数据处理能力”中“数据收集准确可靠”,若数据准确可靠4分、较准确3分、基本准确2分、尚可靠1分、不可靠0分,其他数据的等级划分与评分也大致如此。

三、用人单位要求与毕业论文质量评分体系的关联性研究

(一)指标的规范化处理

灰色关联度是一种因素比较分析方法,通过对灰色系统有限数据序列的分析,确定参考数列和若干比较数列几何形状的相似程度,判断灰色过程发展态势的关联程度,寻求系统诸因素间的关系,找出影响目标值的主要因素,进而分析各因素间的关联程度。为了比较用人单位对大学生的要求与毕业论文质量评分体系,本文借鉴灰色关联度分析思想,先对表3和表4进行指标规范化处理,即无量纲处理。具体地,先将指标权重或分值标准化成介于0-1之间的数据。由表2和表3可见,用人单位对大学生的要求按照知识、素质和能力一级评价要素的分值分别是0.21、0.35和0.46。将这组数据设为X0。

将表4中2列-3列中的二级评价要素全部统一改换为如表4中的第4列-5列所示的3个评价因子。以X0为基准,对表4第5列数据进行无量纲化处理得到表5。

(二)对应差数列的生成

求出各比较数列与参考数列的对应差数列(见表6)。表6中:

a=X0(k)-X1(K);b=X0(k)-X2(K);

c=X0(k)-X3(K);d=X0(k)-X4(K);

e=X0(k)-X5(K);f= X0(k)-X6(K) 。

(三)关联系数的计算

设分辨系数ζ=0.5(ζ的取值原则是务必使关联系数ξi(k)小于1)。计算比较数列Xi上各点k与参考数列X0参考点的关联系数,最终求系数的平均值即Xi与X0的关联度ri。关联系数ξi(k)的计算公式如下:

(四)关联度大小的比较

ri值愈大,关联度越高。由表7可见,毕业论文所考察的科研能力、创新能力、分析解决能力、写作表达能力、数据处理能力、应用文献资料的能力与用人单位对大学生要求的关联度都很高,分别是:0.9、0.92、0.91、0.88、0.95、0.92。可见,各高校的毕业论文质量评价体系的设计与用人单位对大学生的要求一致性很高。

四、毕业论文培养的能力目标与用人单位要求之间的偏差分析

将毕业论文质量评分体系所考察的高校培养能力目标与用人单位的要求逐项比较(见表8,表中小数为权重)。可见,毕业论文质量评分体系不能完全涵盖用人单位所有的能力要求。用人单位对敬业精神、团队精神和吃苦耐劳精神比较看重,但高校毕业论文质量评分体系没有很好地反映这些能力培养目标。

五、建议

从上述分析来看,创新能力、团队精神、沟通表达能力及学习能力是用人单位最为看重的4种能力和素质,其中创新能力和学习能力属于智力型素质,团队精神和沟通表达能力属于情感型素质,“既要高智商,更要高情商”是用人单位选才用人标准。为了使高校毕业论文在学生的能力素质培养方面更好地适应用人单位的要求,应注意毕业论文指导上要关注学生智力型素质和情感型素质的培养。

参考文献:

1、杨任尔,曾兴斌,黄青年.毕业论文过程中学生综合能力培养的探索[J].电气电子教学学报,2008(1).

2、冯晓明,赵伟.改进毕业论文管理,提高管理类本科毕业生就业能力[J].中国市场,2007(52).

3、徐小波.用人单位对大学毕业生要求的实证分析[J].理论与实践,2007(4).

4、浙江省统计局课题组.2009年浙江大学生就业状况调查[J].浙江统计,2009(10).

5、李亚楠,杜春艳,蔡心田.灰色关联度在设计方案优选中的应用[J].华中科技大学学报(城市科学版),2005(22).

大数据分析论文篇(7)

关键词:数据分析;统计学;课程体系;大数据

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2014)49-0248-02

随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、互联网应用的丰富,更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度将比历史上的任何时期都要多,都要快。“大数据”时代已经来临,它对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。大数据是指海量数据集,其来源包括动漫数据、企业IT应用带来的数据、博客、点击流数据、社交媒体、机器和传感数据等。它是互联网、电子商务的又一次重大革命,对数据处理、数据挖掘、数据分析提出了新的挑战。如今互联网行业、电子商务行业中的数据应用及分析已经相当普遍,为了应对大数据时代的要求,同时要具备较强的统计学功底和娴熟的计算机软件运用能力,而今完全具备这些能力的数据分析专业人才是极其匮乏的。数据分析师便应运而生,不仅互联网行业、电子商务行业需要大量的数据分析师,近年来项目数据分析事务所不断涌现,而项目数据分析师因其专业技能及量化的数据分析为客户以及所在单位控制决策风险、保证利益最大化而备受各界青睐,以待遇优厚和地位尊崇而闻名国际,也被视为我国21世纪的黄金职业。《华商报》将项目数据分析师纳入了新七十二行,《HR管理世界》将项目数据分析师评为七大赚钱职业。本文就如何在统计学专业开展数据分析方向进行了阐述,首先论述了数据分析的重要意义,其次讨论了数据分析方向的课程构建,最后分析了如何加强理论与实践环节的结合。

一、数据分析的重要意义

大数据预测美国总统:美国时代周刊报道称,数据驱动的竞选决策才是奥巴马竞选获胜的关键。数据分析团队在筹集竞选经费、锁定目标选民、督促选民投票等各个环节的决策中都发挥了重要作用。这意味着华盛顿竞选专家的作用极具下降,能够分析大数据的量化分析家和程序员的地位却大幅提升。如今从事专业数据分析工作的企业如项目数据分析师事务所、数据挖掘公司等都应市场需求而大力发展,并且受到风险投资的青睐。如美国社交数据挖掘公司Datasift于2012年宣布,获得1500万美元风险投资。2013年,DataSift成为Twitter的“认证合作伙伴”,主要负责海量微博社交数据分析。这是该公司今年第二笔融资,五月份其曾融资720万美元。又如面向开发者的大数据应用软件平台服务提供商Continuity最近获得1000万美元的融资,目前融资总额已经达到1250万美元。

数据分析的应用无处不在,那什么是数据分析呢?数据分析就是用适当的统计方法对数据进行分析,以求最大化地开发数据的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析技术不仅能通过对真实数据的分析去发现问题,还能够通过经济学原理建立数学模型,对投资或其他决策是否可行进行分析,预测未来的收益及风险情况,为做出科学合理的决策提供依据。在提高工作效率的基础上,也增强企业管理的科学性。无论是在国家政府部门,还是企事业单位中,数据分析工作都是进行决策和做出工作决定之前至关重要的一个环节。因此,针对项目可行性、风险承载力、投资回报率以及相关经济效益指标等方面的分析工作显得格外重要。在这个工作过程中,专业的数据分析人员扮演着无比重要的角色,数据分析成果的质量高低直接决定着项目投资、企业经营决策计划最终的方向。所以,各个行业对数据分析人员的需求之多是不言而喻的。传统行业,如政府机构:一类是计委、经委、统计局等一些经济综合管理部门所设有的调研处、研究室和情报所。第二类是商业、粮食、物资、银行等经济主管业务部门会设有信息中心或调研室,从本系统、本部门的业务出发进行专业性调研,提供支持本部门的市场信息。而伴随着数据分析应用的扩大,其在新兴行业中也得到了发展,如计算机软硬件及IT行业、电子商务与网络游戏、金融保险、消费品、咨询业与广告媒体、大型设备与重工业以及房地产行业等对数据分析师的需求量很大,尤其是电子商务,由于利用互联网,能够比传统零售业具有更好的数据收集和管理能力,能积累海量的数据,因此更看重从海量数据中挖掘出用户偏好和市场机会。研究机构:比如市场研究公司、咨询公司、证券公司、研究院。自主创业:取得注册项目数据分析师(CPDA)资格证可以自主创建或就业于项目数据分析师事务所等。所以,数据分析的行业应用是极其广泛的,并且随着大数据时代的到来,数据分析尤其是数据挖掘将借助互联网的发展,逐步形成人们依靠的重点,并可能成为未来发展与竞争的重点之一。由此我们可以看到数据分析师的就业前景是非常广泛而乐观的,无论是数学专业、统计专业,还是计算机专业的学生,都可以通过系统的学习数据分析课程来适应对数据分析人才的要求。

二、课程体系构建

1.主干课程。主干课程包含高代、数分、概率论、数理统计、多元统计分析、时间序列分析、市场调查与分析、统计预测与决策、数据结构、C语言、数据分析、数据挖掘、大数据分析与展示。理论课程的学习可以使学生了解数据分析的基本内容,学会如何对已获取的数据进行加工处理,如何对实际问题进行定量分析,以及如何解释分析的结果。掌握几种常用数据分析方法的统计思想及基本步骤,并具备一定的分析论证能力。

2.实验课程。数据分析的操作离不开计算机。目前数据分析行业常用的一些统计软件有SAS、SPSS和R软件。SAS软件是一个模块化、集成化的大型应用统计系统。它的功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等。SPSS软件是一个社会科学统计软件包,是采用图形菜单驱动界面的统计软件,SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。R软件是一套完整的数据处理、计算和制图软件系统,包括:数据存储和处理系统、完整连贯的统计分析工具、优秀的统计制图功能、可操纵数据的输入和输入等功能。这三个软件在数据分析中针对不同行业的需求有不同方向的应用。

3.专业课程。从数据分析的行业需求出发,好的数据分析人员不仅要有较强的数据分析能力,还要有该行业的背景及相关知识的储备,这样才能将数据分析与行业特性联系起来,发挥数据分析的最大功能,即所谓的“因地制宜”。同时要兼顾学生的兴趣与学习的联系,需提供多领域的课程选择,如:经济学、金融学、保险学、管理学、会计学等。而在软件学习方面也要拓宽渠道,除了实验课程安排学习的软件,学生可根据自身发展意向再多掌握一些软件如:SQL数据库,熟悉office常用功能,尤其熟练运用Word和PowerPoint、Excel图表及数据分析等。同时还应该结合对数据分析师的要求设置一些相关课程:投资数据分析、市场调研与预测、预测技术分析、现金流量表编制、风险投资项目筛选、不确定性分析、编制数据分析报告等。

三、实践环节

培养数据分析的专业型人才目的就是为了学以致用。数据分析本身就是为了从数据中发现问题、建立模型、预测收益风险企业决策进而做出合理正确的决策判断。因此,学习了基本的知识和技能就要运用到实际操作中。学校可以和本地的数据分析事务所,或者大量需求数据分析人员的互联网行业建立实训基地,进行合作式教学,使得学生在实习的过程中能够理论联系实际,切身体会数据分析的商业操作体系,这样就能够促进学生有目的、有取舍地针对自身情况学习钻研,继而就能够培养出适应经济发展,满足市场需求的应用型人才。

四、结语

在大数据时代到来之时,数据分析在互联网中的应用将会空前广泛,与此同时对数据分析师的需求也将会井喷,无论是在军事、工业、企业还是在政治上,大数据分析都将会十分紧缺。因此,目前对数据分析师的培养刻不容缓。本文从分析数据分析行业发展及其重要意义、数据分析专业课程设置以及教学实践环节方面对构建数据分析课程体系进行了探讨。不仅从教学课程的内容上予以安排,而且更加注重引导学生自主学习,特别强调理论结合实践的合作式教学。希望能够结合行业需求合理地构建课程,培养出专门从事数据分析的项目数据分析师,从而能够满足市场需求和自身发展。

参考文献:

[1]范金城.数据分析[M].科学出版社,2010.

[2]http:///jrt/120922/70953.shtml