聚类分析论文精品(七篇)

时间：2023-03-16 15:59:34

聚类分析论文

聚类分析论文篇(1)

国家统计局在其《中国信息能力报告》中，设计了一套评价我国信息化水平的指标：指标体系共分4级，有25个指标：①信息技术和信息设备应用能力：a.每千人拥有PC数；b.每千人拥有传真机数；c.每百人拥有电话数；d.每千人拥有电视机数；e.每千人拥有收音机数；f.每万人接入因特网用户；g.每百万人互联网上网主机数；h.每平方公里光缆长度；i.每百家企事业单位上网数；j.基础信息产业产值占GDP比重。②信息资源及开发利用能力：a.每户打国际电话时间；b.每百人期刊发行量；c.每日信息量；d.网络用户平均上网时间；e.每万人Web站点数。③人口素质：a.每万人平均科学家和工程师数；b.第三产业从业人数占就业总人口比重；c.大学入学率；d.每十万人在校学生数；e.计算机专家和工程师数。④国家对信息产业发展的支撑：a.信息产业产值占GDP比重；b.研究开发(R&G)支出占GDP比重；c.每主线电信投资；d.人均GNP；e.教育投入。

鉴于遵循数据的客观性和代表性，以及易得性，本文采取以下指标：每千人工业增加值x1；每千人电信业务量x2；每千人移动通信交换机容量x3；移动电话普及率x4；电话普及率x5；广播综合人口覆盖率x6；电视综合人口覆盖率x7；有线电视普及率x8；每十户宽带上网用占有户数x9；R&D经费支出占GDP比重x10；每十人从事科技活动人员总数占有的人数x11；每十人在校大学生人数占有的人数x12；每千人专利授权数占有数x13。其中缺省值用平均值代替或者临近年数内值代替。由于篇幅有限，指标数据省略。

2、因子分析

因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据相关性大小把变量分组，使得同组内的变量之间相关性较高，使不同组的变量相关性较低，每组变量代表一个基本结构，这个基本结构称为公共因子。运用因子分析法，借助EXCEL多元统分析，对已得的指标数据进行分析处理，在处理过程中选取方差贡献比率为0.80。

按照方差贡献比率大于80%，应提取前四个因子，它们所解释的方差占总方差的84.58%，这四个因子就可以解释原始数据的大部分信息了。

分析结果中可以得到每个城市的四个因子得分情况F1，F2，F3和F4。最后，对28个城市的信息化水平进行综合评价并排序。以旋转后四个因子的方差贡献率为权数计算综合得分，计算公式为：F=0.5923F1+0.09957F2+0.0804F3+0.0736F4，最终可以得到所有城市的综合得分排名。

由于变量指标取值的同向性，得分越高代表信息化水平越高。排名依次为：北京，天津、广东、浙江、江苏、湖南、福建等等。

3、聚类分析

聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法，在统计分析的应用领域已经得到了极为广泛的应用。其思路为：首先每个数据对象自成一类，并且计算各个类之间的“距离”或者相似性。然后每次将最相似的两类合并，合并后重新计算新类与其他各个类之间的距离或相似度。这一“凝聚”的过程一直继续直到所有对象都归为一类为止。利用各城市的因子得分，还可对28个城市进行分类，得分值相近的城市被认为具有较相似的属性。

4、结果分析

由所得到的聚类图可以看出，全国信息化水平基本上可以分为五类，北京，山西各成一类，从上面的综合水平排名可以看出，北京信息化水平处于全国领先地位，这首先归功于北京的地理位置和政治人文环境，其次结合因子得分矩阵，北京在因子1上的得分最高，而根据因子载荷矩阵可以看出，因子1在13个变量指标上的载荷系数都比较大，证明北京在城市信息化的各个方面都比较出色。山西的信息化综合水平排名第10，属于中等偏上的水平，在因子4上的得分较高，因子4在变量指标x1，x2上的载荷量较大，这正好符合山西是个煤矿大省的特征，通信电信比较发达繁荣。天津、广东、江苏、福建、浙江归为一类，这几个城市都是发达城市，信息化水平偏高，在每个指标上得分都比较平均。而河北、黑龙江、河南、江西、辽宁、吉林、湖北、湖南、安徽、山东、四川、海南、重庆可以归为一类，这几个城市由于地理环境、产业结构、人口众多等因素使得信息化水平中等偏下。最后一类，信息化水平偏下的一类包括：内蒙古、甘肃、青海、宁夏、广西、云南、和陕西，信息化水平底下源于经济发展水平不高、对于信息化认识薄弱以及对信息产业的投入不够。

5、政策建议

虽然我国信息化应用工作已取得了较大的成绩，但在发展的过程中还存在着一些问题和不足使信息化带动经济发展的优势难以更好地发挥与国外发达国家相比还有很大差距，就是同亚洲一些发展中国家(或地区)比较也存在不小的距离。当前，经济全球化、我国加入世界贸易组织和世界信息产业的新发展，都对我国信息化应用发展提出了新的要求，因此，我们应认真分析中国信息化水平现状，分析与国外信息化发展的差距，有效地针对问题和不足进行改进，正确地规划未来发展方向和应采取的对策。

对策和建议主要有：(1)加快有关信息化法律、法规的制定，确保应用中的可靠性和安全性(2)降低成本，普及大众。(3)加强信息化知识普及与培训力度。(4)加大国家对信息化投资力度缩小地区间差距。(5)加强信息资源建设，提高信息化服务质量与水平。(6)建立信息化数据采集系统和评价监测体系。

另外，由上文的分析，信息化水平测度的数据很不全面，在每个地区城市的报告中尚未包括有些信息化水平测度指标，比如说信息产业增加值占地区生产值的比重。完整的数据不仅可以帮助很好的测度信息化水平，同时可以鞭策及时发现问题，提出相应的解决办法，这对于提高信息化水平是必要的途径。

参考文献：

[1]张海永.基于因子分析和聚类分析的江苏省13个城市社会发展水平研究.西南民族大学学报·自然科学版，2007，(2).

[2]陈小磊，郑建明，万里鹏.信息化水平测度指标体系理论研究述评.图书情报知识，2006，(9).

[3]卢纹岱.SPSSforWindows统计分析.电子工业出版社(第三版)，2006.480-483.

聚类分析论文篇(2)

房地产投资环境属于城市投资环境的子系统，纵观国内外学者建立的各种投资环境评价方法，现阶段用的比较多的方法有：灰色关联分析法（邓聚龙，1988），层次分析法（SAATYTL，1908），模糊评判法（CHUATW，1979），人工神经网络法（HECHT－NIELSENR，1987），物元分析法（蔡文，1994）以及投影寻踪法（FriedmanJH，TukeyJW，1974）等．其中灰色关联分析法、模糊评判法、物元分析法是主观分析方法，在此类方法的应用中主要由人为的根据经验确定各个指标的权重，因此其评价结果具有一定的人为随意性；人工神经网络方法能够消除评价过程中的人为随意性，但是其学习训练需要相当多的样本，况且还容易陷入局部极小点，因此不便于推广应用；投影寻踪方法能够将高维数据转变为低维数据，通过低维空间数据来分析高维空间数据，但是其中的密度半径窗口参数需要根据经验来确定，其评价结果仍然带有一定的主观性；当然也有一些经典的传统降维方法能够利用指标数据信息对投资环境做出较客观的评价，比如主成分分析法和因子分析法，但是此类方法是从众多指标中提取少量指标来反应样本信息，使得样本的信息损失量较大，同时对样本数据也有严格的要求．投影寻踪动态聚类模型依据动态聚类思想来构建投影指标，完全依靠样本数据自身特性根据投影指标来寻找投影向量，利用投影向量将高维样本数据投影到低维数据，然后通过研究处理低维数据达到研究高维数据目的，同时实现样本数据的排序和自动聚类分析．投影寻踪动态聚类模型已经在洪水灾害管理、气候分区和区域水安全评价等领域的多元数据分析中取得了一定的应用．本文将投影寻踪动态聚类模型应用到房地产投资环境评价中，以期为房地产投资环境评价提供更多的方法论。

2实例研究

为了验证投影寻踪动态聚类模型在房地产投资环境评价中的适用性，下文将进行实例研究．考虑指标数据的易获得性，以辽宁省工业地产的投资环境分析为例．张军涛和刘建国利用主成分分析法筛选了影响辽宁省主要城市投资环境评价的主要指标，之后利用聚类原理对数据进行了聚类分析；杨建喜和宋永发利用基于遗传算法的投影寻踪方法将高维数据降维到低维数据，然后利用雷达图对投影特征值进行聚类分析，研究了辽宁工业地产投资环境的排序．以上两篇论文中使用两类不同的方法得到了类似的排序和聚类结论．本文的研究以此为基础，通过投影寻踪动态聚类模型进行辽宁省工业地产投资环境评价，然后与文献的结论进行比较，以检验投影寻踪动态聚类模型的适用性．工业地产是区别于住宅地产，商业地产和综合用地以外的工业性质的房地产．影响工业地产投资环境评价的因素众多，参考文献从社会文化环境、基础设施环境、经济发展环境、工业发展环境4个方面选择36个指标对辽宁省14个地级市的工业地产投资环境进行分析评价。首先，确定辽宁省工业地产投资环境的分类数，这里参照文献的分类，将整个样本分为3类。同时得各个城市的投影特征值，投影特征值排序以及投影特征值聚类结果。最后，将本文的分析结果与文献的分析结果进行对比。所得排序和分类结果与用投影寻踪分析方法和用主成分分析方法基本一致，验证了本模型在房地产投资环境评价中的适用价值．但与文献中的基于遗传算法的投影寻踪算法相比：克服了需要根据经验来确定投影指标函数的密度窗口半径参数和对投影特征值要借助雷达图进行聚类再处理的过程；与文献的主成分分析方法相比：投影寻踪动态聚类模型能够更多的利用原始指标信息，使得出的结论可能更加客观可靠．同时投影寻踪动态聚类模型在对数据的排序过程中自动输出聚类结果，不需要再借助其他方法进行聚类分析．这具有文献中所用方法无法比拟的优势．在同一聚类数据中，个别数据的排序结果与文献中结论稍微不一致，这主要是由于在用遗传算法求解时每次生成的单位投影向量带有一定的随机性所致。

3结语

聚类分析论文篇(3)

一、论文的研究内容

论文的研究内容包括两个方面：一是研究新的高效的聚类算法;一是把已有的聚类算法或论文提出的新算法和入侵检测技术相结合，从而提出一个好的入侵检测模型。具体的研究内容包括以下几个点：

第一、针对聚类算法的研究问题：

1、如何提高算法的可扩展性

许多聚类算法在小于200个数据对象的小数据集上是高效率的，但是无法处理一个大规模数据库里的海量对象。现有的聚类算法只有极少数适合处理大数据集，而且只能处理数值型数据对象，无法分析具有类属性的数据对象。

2、如何处理离群点

在实际应用中，估计数据集中的离群点可能是非常困难的，很多算法通常丢弃增长缓慢的簇，这样的簇趋向于代表离群点。然而在某些应用中，用户可能对相对较小的簇比较感兴趣，比如入侵检测中，这些小的簇可能代表异常行为，那么我们需要考虑在对算法影响更小的前提下，如何更好的处理这些离群点。

3、研究适合具有类属性数据的聚类算法的有效性

对聚类分析而言，有效性问题通常可以转换为最佳类别数K的决策。而目前有关聚类算法的有效性分析，大都集中在对数值数据的聚类方式分析上。对于具有类属性的数据聚类，还没有行之有效的分析方法。

第二、针对聚类算法在IDS应用中的研究问题：

1、如何结合聚类技术和入侵检测技术取得更好的效果

很多的聚类算法都已经和IDS应用环境结合起来了，很多研究者对前人提出的算法作出改进后，应用到IDS系统中去，或者提出一个全新的算法来适应IDS的要求。随着聚类技术的不断发展，聚类技术在入侵检测中的应用将是一个很有前景的工作。我们需要把更好的聚类技术成果应用到入侵检测中。

2、利用聚类技术处理入侵检测中的频繁误警

虽然入侵检测是重要的安全措施，然而它常常触发大量的误警，使得安全管理员不堪重负，事实上，大量的误警是重复发生并且频繁发生的，可以利用聚类技术来寻找导致IDS产生大量误警的本质原因。

二、学位论文研究依据

学位论文的选题依据和研究意义，以及国内外研究现状和发展趋势

聚类分析研究已经有很长的历史，其重要性及其与其他研究方向的交叉特性已经得到了研究者的充分肯定。对聚类算法的研究必将推动相关学科向前发展。另外，聚类技术已经活跃在广泛的应用领域。作为与信息安全专业的交叉学科，近年来，聚类算法在入侵检测方面也得到大量的应用。然而，聚类算法虽取得了长足的发展，但仍有一些未解决的问题。同时，聚类算法在某些应用领域还没有充分的发挥作用，聚类技术和入侵检测技术结合得还不够完善。在这种背景下，我们认为，论文的选题是非常有意义的。

本论文研究的内容主要包括两个方面：聚类算法的研究以及聚类算法在入侵检测中的应用。下面从两个方面阐述国内外这两个方面的发展现状和趋势：

前人已经提出很多聚类算法，然而没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构，根据数据在聚类中的积聚规则以及应用这些规则的方法，可以将聚类算法分为以下几种：

1.划分聚类算法

划分聚类算法需要预先指定聚类数目或聚类中心，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数收敛时，得到最终的聚类结果，划分聚类算法典型代表是k-means算法[1]和k-modoids算法。这些算法处理过程简单，运行效率好，但是存在对聚类数目的依赖性和退化性。迄今为止，许多聚类任务都选择这两个经典算法，针对k-means及k-modoids的固有弱点，也出现了的不少改进版本。

2.层次聚类算法

又称树聚类算法，它使用数据的联接规则，透过一种层次的架构方式，反复将数据进行分裂和聚合，以形成一个层次序列的聚类问题解。由于层次聚类算法的计算复杂性比较高，所以适合于小型数据集的聚类。20xx年，Gelbard等人有提出一种新的层次聚合算法，称为正二进制方法。该方法把待分类数据以正的二进制形式存储在二维矩阵中，他们认为，将原始数据转换成正二进制会改善聚类结果的正确率和聚类的鲁棒性，对于层次聚类算法尤其如此。Kumar等人[9]面向连续数据提出一种新的基于不可分辨粗聚合的层次聚类算法，既考虑了项的出现次序又考虑了集合内容，该算法能有效挖掘连续数据，并刻画类簇的主要特性。

3.基于密度-网格的聚类算法

与传统的聚类方法不同：基于密度的聚类算法，通过数据密度来发现任意形状的类簇;基于网格的聚类算法，使用一个网格结构，围绕模式组织由矩形块划分的值空间，基于块的分布信息实现模式聚类，基于网格的聚类算法常常与其他方法相结合，特别是与基于密度的聚类方法相结合。基于网格和密度的聚类方法在以空间信息处理为代表的众多领域有着广泛的应用。特别是伴随着近来处理大规模数据集、可伸缩的聚类方法的开发，它在空间数据挖掘研究子域日趋活跃。

开题报告研究方法大全

实证研究法

实证研究法是科学实践研究的一种特殊形式。其依据现有的科学理论和实践的需要，提出设计，利用科学仪器和设备，在自然条件下，通过有目的有步骤地操纵，根据观察、记录、测定与此相伴随的现象的变化来确定条件与现象之间的因果关系的活动。主要目的在于说明各种自变量与某一个因变量的关系。

定量分析法

在科学研究中，通过定量分析法可以使人们对研究对象的认识进一步精确化，以便更加科学地揭示规律，把握本质，理清关系，预测事物的发展趋势。

定性分析法

定性分析法就是对研究对象进行质的方面的分析。具体地说是运用归纳和演绎、分析与综合以及抽象与概括等方法，对获得的各种材料进行思维加工，从而能去粗取精、去伪存真、由此及彼、由表及里，达到认识事物本质、揭示内在规律。

聚类分析论文篇(4)

[关键词]文体学；科学知识图谱；研究热点

文体学衍生于修辞学，是一门专门研究语言使用风格的学科。[1]20世纪90年代以前，我国曾成立过中国修辞学会，开展文体学的相关研究，但在较长时间内将文体学局限到文学批评的领域。1999年6月，来自全国35所高等院校和出版单位的60名代表，在南京国际关系学院召开了第一届全国文体学研讨会，针对文体学的教学与研究展开讨论，揭开了文体学发展的新篇章。21世纪以来，随着理论界对文体学研究的日渐重视，我国的文体学研究成绩斐然，水平明显提高，但是由于起步晚等原因，仍然存在一些问题。通过Citespace软件对2000年以来的文体学研究进行科学知识图谱的可视化分析，探析新时期文体学领域的研究热点，归纳文体学研究的现状特征，对于指导文体学理论研究，推进文体学教学改革具有重要的理论与现实意义。

一、文体学研究文献数据处理

Citespace软件是由陈超美博士和大连理工大学Wiselab团队共同开发的基于JAVA平台的科学知识图谱绘制工具，目前在国内外研究者中使用较多。相比传统的研究，文献筛选标准主观、方法偏于定性归纳、耗费时间较长的缺点，Citespace可以通过数据读入、检查、更新、输出，利用自带的数据标准，[2]实现代表性文献的自动筛选与归类，生成科学知识图谱，直观反映出某一领域研究的发展历程、研究热点、研究紧密度与研究走向，实现研究的科学化与高效化。

以中国知识资源总库（CNKI）为数据源，以2000-2013年间被CNKI收录的1103篇中文文献为分析对象，在Citespace中，设置时间跨度为14，单个时间分区为一年，即2000年―2013年，分为14个时间分区；设置阈值为30，即选取每年30篇高被引文献；以关键词为基准，绘制出了科学知识图谱（图1），共包含240个结点，303条连线。

■

二、文体学研究的热点主题

在一段时间内，数量多、联系紧密的一组论文共同探讨的问题或者专题就是研究热点。立足于研究热点这一特征，利用科学计量学的方法，可以对施引文献进行共被引分析，这样共被引的文献就会形成聚类，几个聚类形成的知识群能够映某一领域的研究热点。但是由于文体学的相关研究较少，且研究范围较窄，因此采用单个聚类为研究热点的方法，相对于多个聚类群的方法，能够实现文体学研究热点的具体化、清晰化。利用Cite Space软件自带的LLR对数似然率算法，自动生成具体聚类的标识词，权值最大的标识词代表这一聚类的研究热点主题，结合二次文献分析法，总结出文体学的前四大研究热点分别是：文体学理论研究、现代文体研究、戏曲文体研究、中国古代文体学研究。

第一个研究热点，也就是排名首位的聚类是Cluster10，共包含了56个节点，文献135篇，文献紧密度0.914。聚类的最大标识词是文体学理论，通过文献分析法进行总结，得出这一聚类是文体学理论的相关研究。研究文体学，应该明确的基本问题是文体学的内涵与研究任务。但是在文体学的长期发展过程中，并没有一个明确的内涵界定，这就导致了学者们对于传统文体学、修辞学、诗学三者难以划分；并且随着现代语言学的出现与发展，出现了对新文体学、话语分析、语篇语言学三者的区分模糊。围绕文体学的研究任务，刘世生在《文体学的理论、实践与探索》中，借用Lang和Toolan的文体学研究理论，提出文体学应该是为外语教学服务、为语言学理论提供实践平台、为文学研究提供可行性方法。但是胡壮麟认为文体学的研究任务是明确文体的本质，丰富文本分析方法，归纳文体特征的表现形式和交际效果，并运用到具体语篇的分析上。[3]

排名第二位的聚类是Cluster11，共包含了47个节点，文献63篇，文献紧密度0.158。该聚类虽然在整个图谱中占据较大的比重，但是文献间的紧密度很小。结合聚类的标识词和施引文献，可以发现，该聚类的文献主要是对现代文体的研究，例如：科技文体、新闻文体等。在庞大的文献数据中，文献的写作用途决定了其写作特点与格式。科技语言旨在揭示自然规律、求证实验结果，因此要求条理清晰、思维缜密，但同时语言难度大、趣味性低。科技文体具有正式、客观、精确、简练、程式化、国际化等特征。[4]而新闻作为一种即时性和评论性兼顾的文体，在词、句、篇乃至标点上都有别于普通的文本，词语种类较丰富、长短句交替、修饰词量大等。[5]

排名第三位的聚类是Cluster9，共包含了30个节点，文献42篇，文献紧密度0.986。结合聚类的标识词和施引文献，得出这一聚类是对戏曲文体的专门研究，可见戏曲文体研究的重要性与特殊性。郭英德先生作为戏剧文体研究方面的专家，著有《明清传奇戏曲文体研究》，是从文体学角度研究中国古典文学作品的先例，也是戏曲文体研究的典范。[6]从文体学的的专业视角出发，对明清传奇戏曲进行历史描述和理论探讨，一方面，开创了明清戏曲文化研究的新思路，另一方面，也丰富了文体学的研究范围。[7]

排名第四位的聚类是Cluster6，共包含了17个节点，文献26篇，文献紧密度0.999。结合聚类的标识词和施引文献，得出这一聚类是关于中国古代文体学的相关研究。中国古代文体学植根于中国厚重的文学传统中，相比现代文体学具有门径宽、挖掘深的特点，支撑了中国古代文学的理论发展。[8]要实现中国古代文体学的发展，应该在研究古代文学、文体的内涵及特征的基础上，借鉴国外文体学的先进研究方法，参照现代文体学研究范式，突破以往的研究视角，推动古代文体学向现代学科发展。[9]

三、研究结论

对文体学领域的研究热点进行可视化分析，对于了解文体学的研究现状，把握研究方向具有重要的借鉴意义。根据文献共被引网络的知识图谱，21世纪以来，文体学的相关研究较少，同时存在研究视角较窄，研究领域过于集中，研究方法单一等问题，有限的文体学研究主要集中于文体学理论、现代文体、戏曲文体、中国古代文体学，对于文体学的美学意义等方面的研究仍然较少。进一步深化对文体学基本理论的认识，通过多学科多文化间的互动，不断丰富文体学的研究对象与研究手段，对于实现文体学的体系化发展、规范化教学、规模化研究具有积极的推动作用，同时也会促进文化与文体的互动式发展。

参考文献：

[1]陈兵.文体学的发展[J].广西教育学院学报，2003（4）：97.

[2]刘则渊，陈悦，侯海燕.科学知识图谱方法与应用[M].北京：人民出版社，2008：29.

[3]胡壮麟，刘世生.文体学研究在中国的进展[J].山东师大外国语学院学报，2000（3）：4.

[4]魏绪涛.科技英语文体学研究[J].宁波职业技术学院学报，2013（6）：67.

[5]李由.中英新闻语言文体学对比研究[D].武汉：武汉理工大学，2010：4.

[6]范红娟.文体学研究的成功范例[J].戏曲研究，2004（66）：349.

[7]郭英德.明清传奇戏曲文体研究[M].北京：商务印书馆，2004：258.

聚类分析论文篇(5)

[摘要] 基于知识图谱理论，采用Citespace软件，对CSSCI中1998-2011年间的产业集聚研究相关文献的关键词、被引文献、发文和被引作者、发文期刊和被引期刊、机构等进行可视化分析。发现产业集聚研究主要围绕产业集聚、产业集群发展的动力及其演化、产业集群竞争力、产业集群升级和产业集群创新研究五个方面展开；聂鸣、胡汉辉、王缉慈、魏江教授等为重要学者；国际和国内一些权威的机构或者课题组以及有关产业集聚概念、理论等开创性研究成果被引较多；《科技进步与对策》、《科技管理研究》、《科学学与科学技术管理》等为高载文期刊；《经济研究》、《管理世界》、《中国工业经济》、American Economic Review、Harvard Business Review等为高被引期刊；南京大学商学院、东南大学经济管理学院、华中科技大学管理学院为高发文机构。多角度清晰地展示了产业集聚研究领域的知识结构视图，为深入研究提供参考。

[关键词] 产业集聚；中国；知识图谱

[中图分类号] F012[文献标识码] A[文章编号] 1008―1763（2013）06―0062―06

前人的研究成果对后人的研究起到铺垫作用，对文献中所包含的若干信息分析有利于科研工作者了解学科研究动向，把握学科研究方向。知识图谱理论与方法成为近年来科学计量学研究的前沿[1]，运用可视化图谱形象地展示学科的研究状况[2-5]，它将应用数学、图形学、信息可视化技术等方法与传统科学计量学中的引文分析方法相结合。近年来，在国内出现运用知识图谱方法分析学科研究状况的动向[6-7]。例如，采用知识图谱对我国旅游管理、低碳研究热点进行分析[8-9]。但目前未有学者对产业集聚研究的文献进行知识图谱分析，可视化展示产业集聚研究状况。

产业集聚是指产业内的生产活动、销售活动以及为这种生产和销售所服务的经济活动高度集中于一定区域内的现象。作为一种典型的经济现象，中国产业集聚研究已经成为一个较为成熟的研究命题，研究论文数量较多，需从整体把握其研究现状，以便于更好地深入研究。本文借助知识图谱分析工具和中文数据库资源处理软件，分析1998-2011年CSSCI数据库中收录的有关产业集聚的文献，用可视化图谱的形式展示这个时期我国年产业集聚研究的知识谱系，以期对我国产业集聚研究有一个整体的认识，为学者掌握我国产业集聚研究的状况提供借鉴。

一研究方法与数据来源

（一）研究方法

知识图谱（Mapping knowledge domains）是通过数据挖掘、信息计量和绘制图形等一系列手段进行可视化研究的方法[10]，它是科学计量学（Scientometrics）的一种方法[11]，其概念出现在文献计量学[12、13]。本文利用CSSCIREC软件将CSSCI数据格式转换成能被Citespace处理的格式，然后采用美国德雷克塞大学陈超美博士研发的Citespace软件[14]，对命中文献记录中的相关指标进行分析，构建产业集聚领域的知识图谱，探寻研究热点，揭示产业集聚的研究现状及发展趋势。

（二）数据来源

按照徐康宁教授在《产业集聚形成的原因和影响研究》一文中对产业集聚及相关概念的定义[15]，以及多次试检索，确定以“产业集聚”、“产业集群”、“产业聚集”为检索关键词，对1998-2011年间CSSCI数据库中所收录的文献进行检索，经过去重、辨别、整理，得产业集聚研究相关论文3074篇。以此作为分析的对象，利用CSSCIREC软件和Citespace软件进行进一步分析与处理。

二统计分析

（一）论文数量年度分布

我国近14年关于产业集聚研究的论文数量年度分布见图1所示。我国产业集聚研究发文量从1998年的零篇，稳步增加，逐渐增长，到2009年左右基本稳定，现略有下滑。可见产业集聚这一经济现象从未引起国内研究者的关注，到开始引起国内学者的广泛关注和重视，逐渐发展为经济学研究领域的一个热点问题，现已成为一个成熟的研究命题。

（二）研究热点

关键词是对文献研究内容的高度概括和描述，对研究领域内文献关键词的共现分析，可以发现该领域的研究热点和方向[16]。通过CiteSpace软件，对所有文献的关键词共被引分析，将1998-2011年为一个时间跨度，选择每一年内高被引的前50个关键词，生成关键词共被引网络。在此基础之上，进行聚类视角，得到关键词的共被引聚类知识图谱（见图2），在可视化图谱中显示为较大的节点为频次较高的关键词，共有551个节点，369个连接，网络密度为0.0066。可见，“产业集群”的使用频次最高（3177），其次是 “产业集聚” （772）、“竞争优势”（183）等。

对词频（取40次以上）进行统计排序，得到高频关键词分布情况（见表1），并结合关键词知识图谱，可以将产业集聚研究归纳为5个主要方面：一是产业集聚研究；二是产业集群发展动力及演化研究；三是产业集群竞争力研究；四是产业集群升级研究；五是产业集群创新研究。

（三）被引文献

基于文献共被引关系，按照一定的共被引频次，可以在引文网络中形成不同的文献聚类。在知识图谱中处于中心位置的聚类代表了产业集聚研究的核心学术群体，拥有强大的学术团队和科研实力。将“参考文献”作为网络节点，以“标题”、“摘要”、“描述”作为术语来源，绘制文献共被引聚类知识图谱（见图3），其中被引越多的文献在可视化图谱中表现为圆点越大。共有345个节点，478个连接，网络密度为0.0131。

从图3可识别出5个具有主导地位和影响力的关键节点：一是国内王缉慈的《创新的空间：企业集群与区域发展》（2001）一书，该书是以地方企业集群为焦点探讨如何营造区域创新环境、增强国家竞争优势以应对全球化挑战；二是梁琦的《产业集聚论》（2004）一书，该书在国际经济背景下对产业集聚理论进行研究，针对从封闭经济走向开放经济的情况下，一国产业是否重新布局，产业集聚中心是否迁徙等问题进行分析；三是仇保兴的《小企业集群研究》（1999）一书，该书论述了小企业在国民经济中的作用，尤其是对“小”与“大”的转换，即在某一区域形成“小企业集群”之后，对该区域经济发展产生的影响作了全面的理论分析；四是迈克尔・波特（李明轩译）的《国家竞争优势》（2002）一书，本书介绍了波特的“钻石”模型，是认识国家或地区竞争地位的方法；五是Porter M的《Clusters and The New Economics of Competition》（Harvard Business Review，1998），对基于产业集群的国家竞争优势进行了广泛研究，认为国家竞争优势的获得，关键在于产业竞争，而产业的发展取决于能否形成有竞争力的产业集群。另外，Krugman P 的《Increasing Returns and Economic Geography》（Journal of Political Economy，1991）（该文提出中心-边界理论，即一个地区如何发展成为差异性的区域，中心是工业化区域而是农业区域）和韦伯・阿尔弗雷德（李刚剑译）的《工业区位论》（1997）（论述了区位因子决定生产场所，将企业吸引到生产费用最小、节约费用最大的地点）也有较高的被引频次。它们共同构成了产业集聚研究领域内的经典文献。

（四）发文作者和被引作者

（1）发文作者

对文献进行发文作者共被引分析，得到发文作者共被引聚类的知识图谱（见图4），较大的节点出现频次较高的发文作者，共有308个节点，67个连接，网络密度为0.0023。从图4可知，聂鸣出现频次最高，其次是胡汉辉、王缉慈、魏江等。但是在产业集聚研究领域的学者基本处于相对独自研究的状态。

图4产业集聚研究发文作者的知识图谱（1998～2011）

对发文量（取15篇以上）进行统计排序，得到产业集聚研究领域高发文作者的分布情况，见表2所示。有14位作者的发文量在15篇以上，其中华中科技大学的聂鸣教授、东南大学的胡汉辉教授、北京大学的王缉慈教授、浙江大学的魏江教授、浙江师范大学的陆立军教授等为产业集聚研究领域的高发文作者。对高发文作者的研究方向进行分析，发现产业集聚研究领域的学者大多数主要从事产业经济学、区域经济学、政治经济学、技术创新管理、企业战略管理等方面的研究，这些方向的研究人员对产业集聚的关注较高。（2）被引作者

对文献进行被引作者共被引分析，得到被引作者聚类知识图谱（见图5），共有255个节点，404个连接，网络密度为0.0356。Porter M的被引频次最高，其次是王缉慈、Krugman、魏江、梁琦等。

按照被引频次（取60次以上）排序统计，重要被引作者见表3所示。结合图5，可见高被引的作者主要有三大大类，第一大类是一些国内各大院所著名的经济管理方面的学者，如王缉慈、魏江、梁琦、魏守华、蔡宁等；第二大类是国际和国内一些权威的机构或者是课题组，如国家统计局、OECD；第三类是国外有关产业集聚概念、理论以及论述或者开创性的研究成果的作者，如Porter M、Krugman P、Marshall A、Alfred Weber。

（五）发文期刊和被引期刊

（1）发文期刊

按照载文量（取15篇以上）排序统计，重要发文期刊见表4所示。载文量大于15篇的期刊共46个，载文量从高往低排名依次是《科技进步与对策》、《科技管理研究》、《科学学与科学技术管理》、《生产力研究》、《经济地理》、《统计与决策》、《中国科技论坛》、《经济纵横》、《中国软科学》等。

（2）被引期刊

被引期刊知识图谱共有232个节点，468个连接，网络密度为0.0425。从图6可见，1998-2011年产业集聚研究领域被引较多的期刊主要有两类：一类是国外经济、地理和政治方面的期刊，如American Economic Review、Harvard Business Review、Regional Studies、Journal of Political Economy、World Development、Economic Geography、Research Policy等；另一类是国内经济管理方面的顶级期刊，如《经济研究》、《管理世界》、《中国工业经济》、《外国经济与管理》、《科研管理》等。

按照被引次数（取150次以上）排序统计，重要被引期刊见表5所示。被引150次以上的期刊共28个，《中国工业经济》被引最多，其次是Harvard Business Review、《中国软科学》、《经济研究》等。

（六）发文机构

1998-2011年间，产业集聚研究高发文机构分布情况见表6所示。从表6可知，产业集聚研究的高发文机构主要是高校，发文量最多的是南京大学商学院，其次是东南大学经济管理学院、华中科技大学管理学院、天津大学管理学院、上海交通大学安泰经济与管理学院等。这些研究机构是产业集聚研究的重要单位，在产业集聚研究方面处于领先地位，显示出较强的科研实力。高发文城市主要位于南京、上海、武汉、西安、天津、北京、广州等中心经济城市。

三总结

本文采用知识图谱对我国产业集聚研究进行分析，通过对其发展趋势、研究热点、重要学术文献、学术代表人物、主要研究机构和高载文期刊等多个角度进行了可视化展示。帮助研究者发现产业集聚领域研究状况及内部关联，为深入进行产业集聚研究提供参考。

（1）产业集聚研究从未引起国内研究者的关注，逐渐发展为经济学研究领域内一个成熟的研究命题。

（2）现有产业集聚研究主要集中在产业集聚研究、产业集群发展动力及演化研究、产业集群竞争力研究、产业集群升级研究和产业集群创新研究五个方面。

（3）王缉慈的《创新的空间：企业集群与区域发展》（2001）、梁琦的《产业集聚论》（2004）、仇保兴的《小企业集群研究》（1999）、迈克尔・波特（李明轩译）的《国家竞争优势》（2002）以及Porter M的《Clusters and The New Economics of Competition》（Harvard Business Review，1998）是被引最多的文献。

（4）聂鸣、胡汉辉、王缉慈、魏江、陆立军教授等为产业集聚研究领域的重要学者。国内各大院所的经济管理类学者、国际和国内一些权威的机构或课题组以及国外有关产业集聚概念、理论以及论述或者开创性的研究成果的创新者为被引最多的作者。

（5）《科技进步与对策》、《科技管理研究》、《科学学与科学技术管理》、《生产力研究》、《经济地理》、《统计与决策》、《中国科技论坛》、《经济纵横》、《中国软科学》等为高载文期刊。《经济研究》、American Economic Review、Harvard Business Review、Regional Studies、Journal of Political Economy、《管理世界》、《中国工业经济》、《外国经济与管理》、《科研管理》等为高被引期刊。

（6）产业集聚研究的高发文机构主要是高校，南京大学商学院、东南大学经济管理学院、华中科技大学管理学院、天津大学管理学院、上海交通大学安泰经济与管理学院等为高发文机构。高发文城市主要位于南京、上海、武汉、西安、天津、北京、广州等中心经济城市。

[参考文献]

[1]沈建通，姚乐野.多元统计与社会网络分析法在知识图谱应用的实证研究[J].情报杂志，2009，28（ 8）：33-36，20.

[2]FéLIX MOYA -ANEGóN，BENJAMíN VARGAS - QUE-SADA，VICTOR HERRERO-SOLANA，et al.A New Technique for Building Maps of Large Scientific Domains Based on the Cocitation of Classes and Categories[J].Scientometrics，2004，61（1）：129-145.

[3]Fidelia Ibekwe-SanJuan.How Thematic Maps can Assist Collection Management：A Qualitative Assessment of Journals'Thematic Focus[J].Library Collections，Acquisitions&Technical Services，2005，29（3）： 295-306.

[4]Katy B，Chaomei C，Kevin W B.Visualizing Knowledge Domains[J].Annual Review of Information Science & Technology，2003，37（1）： 179-255.

[5]I Samoylenko，T-C Chao，W-C Liu，et al.Visualizing the Scientific World and Its Evoluti[J].Journal of the American Society for Information Science and Technology，2006，57（ 11）：1461-1469.

[6]陈悦，刘则渊.悄然兴起的科学知识图谱[J].科学学研究，2005，23（2）：149-154.

[7]Persson O.The Intellectual Base and Research Fronts of JASIS 1986-1990[J].Journal of the American Society for Information Science，1994，45（1）31-38.

[8]廉同辉，余菜花，宗乾进，等. 基于CSSCI的2000一2010年旅游学科研究知识图谱分析[J].旅游学刊，2013，28（3）：114-119.

[9]余菜花，廉同辉，刘军.中国低碳研究的知识图谱分析[J].资源科学，2012，34（10）：1959-1964.

[10]Shiffrin R M，Brner K. Mapping Knowledge Domains[J]. Proceedings of the National Academy of Sciences of the USA，2004，101（1）： 5183-5185.

[11]陈悦，刘则渊，陈劲，等.科学知识图谱的发展历程[J].科学学研究，2008，26（3）：449-460.

[12]Price D. Science since Babylon [M].New Haven： Yale University Press，1961.

[13]Garfield E，Sher I H，Torpie R J. The Use of Citation Data in Writing the History of Science [M].Philadelphia： Institute for Scientific Information，1964.

[14]Chen C. CiteSpace II： Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature [J].Journal of the American Society for Information Science and Technology，2006，57（3）：359-377.

聚类分析论文篇(6)

Abstract： This paper evaluated College Information Technology's teaching and learning effect based on network instruction platforms by using the software SPSS， which accorded to the theory of Hierarchical Cluster Analysis module. Cluster Analysis' data analysis result clearly demonstrated that Network Instruction Platform could greatly accelerate the College Information Technology's teaching effect.

关键词：系统聚类法；社会科学统计软件包；网络教学平台；大学计算机教育

Key words： Hierarchical Cluster Analysis；SPSS；Network Instruction Platform；College Information Technology Education

中图分类号：G642.4 文献标识码：A 文章编号：1006-4311（2017）03-0167-03

1 研究背景

随着信息化社会的到来，高等教育自身围绕教育教学活动的探索也逐渐数字化、信息化，出现了大量基于计算机网络、电化教育手段的教育教学改革实践与探索的热潮。高校不仅加大了对于新时代背景下的教育教学方法的探索与实践，而且引入了大量的数字化教学平台，以期促进高等教育教学活动，为自1997年以来的高等教育大众化提供优质的教育教学资源。目前高校不再局限于为学生提供广播电视远程教学资源，而且通过自身建设或外购的网络教学平台为学生提供大量的数字虚拟教育教学生态环境。这些数字化的网络教学平台为高等教育教学提供了跨越时空的虚拟教育教学环境，极大地促进了高等教育教学的演化与发展。目前，网络教学绩效评价的方法、技术、视角多样。对于网络教学平台的教育教学效果的评价、对于高校所投入的大量的软件及硬件教育教学资源的投入产出衡量，尚缺乏权威性的评价体系。部分院校制定了自己的网络教学绩效评价指标及实施方法[1]，部分学者结合国际国内的网络教学平台的运行情况提出了独具特色的评价体系[2]。目前有部分文献以四点量表的形式考察了网络教学效果的不同的维度[3]。有学者以实证分析的角度，利用绩效技术理论与方法角度来确定影响网络教学平台效能发挥的阻碍因素[4][5]。而为了解与掌握网络教学平台教学效果，基于系统聚类模型分析评价高校网络教学平台教学绩效尚不多见。

本文所涉及的网络教学平台专指吉林农业科技学院为提升计算机公共教学而外购或自建的网络化、数字化教学平台（以下简称网络教学平台）。这些平台包含有各类在线考试（模拟练习）系统、大学计算机基础/精品课网站、高级程序设计优秀课/精品课网站、泛雅网络教学平台、图书馆各类电子书籍与文献系统、教师围绕大学计算机教育类课程所开发的视频课资源等。随着持续性的建设与投资，学校迫切需要了解网络教学平台的教学绩效。本文选择了学校计算机公共教学课程《大学计算机教育》（College Information Technology Education，以下简称CITE）相关网络教学资源平台为评价对象。

2 研究方法

2.1 对象

吉林农业科技学院2015-2016学年第一学期全校本科新生开设CITE课程。该课程包含三个独立的模块，即计算机基础知识与应用模块（以下简称基础模块）、高级程序设计语言模块（以下简称语言模块）、吉林省普通高校计算机共同课教学专业委员会组织的吉林省计算机二级（以下简称省二模块）考试模块（以处简称省二模块）。按照权重0.4，0.3，0.3对基础模块、语言模块、省二模块进行加和，求得学生总评成绩。CITE课程学习需要学生完成前两个模块的基础上，参加省二级考试。这三个模块分别考察了学生计算机基本知识、计算机编程能力、标准考试环境下的综合应用能力的，能够全面反映学生的记忆、认知、应变能力。本文根据实验组及控制组设计的需要对相应的教学分组分别依三个模块采集了相应的学生成绩。

通过考试系统数据的调取，获取了每个实验组（本文以授课班级为实验组）学生各模块的成绩。随后在此基础上，对实验组授课教师依学生成绩进行分类汇总，求得每组任课教师所带学生成绩的各个模块平均值，如表1所示。

通过对表1中数据分析，Group1组学生成绩中基础模块、语言模块、省二模块及总评成绩（72.79，75.00 ，59.57，69.49）明显低于相应实验组Group2的成绩（88.71，91.54，71.83，84.50）。

2.2 实验设计

吉林农业科技学院2015-2016学年度第一学期本科新生最终在计算机考试系统中注册选修CITE课程的人数共计2012人。本文研究从中选择了15组教学任务。为了掌握网络教学平台对于CITE教学质量的影响，对承担CITE教学任务分组的教师提出了教学方法、手段方面的不同要求。第一组作为控制组（Group1）；本组采用传统教育教学方法，以理论教学为主，重在教师对课堂的控制及信息的传输与表达；第二组作为实验组（Group2）；本组要求教师依托于网络教学平台开展教育教学活动，将多种基于网络的数字化教学平台应用于教学的各个环节。并引导实验组的教师采用了翻转式课堂教学方法来完成相应教学任务，以强化学生在课外自主学习的时间比重，引导学生通过网络教学平台获取教学内容的理论知识与技能；并引导教师在课堂上通过学生上讲台演示、群组讨论的方式完成课程教授。通过实验组教学方法与手段的变化，以强化网络教学平台在教学中的应用深度，从而为利用实验组学生不同模块成绩来分析评价网络教学平台在教学中的绩效。CITE教学分组授课教师情况见表1。

2.3 研究过程

对于选修CITE课程的学生成绩数据进行预处理。其中学生成绩任一模块因违纪、旷考、缺考而没有成绩的记录共计32个。由于这些异常情况随机出现在不同的班级，因此采取了删除的处理。最后获得有效学生CITE成绩数据1980项记录。

通过Microsoft EXCEL对有效学生成绩按照实验分组任课教师排序（以姓氏笔划为序），随后对三个模块成绩进行分类汇总以计算各模块平均分，获得每个实验分组学生计算机基础模块平均成绩、高级程序设计语言平均成绩、省二计算机平均成绩。

利用SPSS对15组学生三个模块成绩进行系统聚类分析方法，以获取聚类信息。

3 结果与分析

3.1 系统聚类分析选项设定

采用系统聚类分析对表1中的数据进行处理，以定量的方式来分析网络教学平台相对于传统教育教学的差异。本文系统聚类分析中聚类方法采用的距离度量是系统默认的Between-group Linkage（即组间平均距离法）；而其中Measure（即度量距离标准）采用了Euclidean Distance（即欧氏距离）；数据标准化采用的是Z Scores（即Z得分），从而保证数据标准化后均值为0，标准差为1。随后将聚类数根据实验设计分类数目初步确定为2个。

3.2 系统聚类分析过程表的分析与评价

SPSS所给出的系统聚类分析过程表如表2所示。从表中第四列聚类系数（Coefficients）可以看出每次被合并的两个类之间的距离大小。在系统进行相应的聚类分析过程中，可以根据这一系数的变化来分析15个实验分组经过系统聚类分析后最佳的分类数目。

如表2所示，第13阶的聚类系数是3.339，这一数字仅比第13阶的聚类系数2.93大0.409个单位；而第14阶的聚类系数比第13阶的聚类系数大6.995个单位。由此，我们可以认为系统聚类分析过程结束于第13阶是合理的，此时所有的数据被分成两类。而这正好与我们的实验设计思想一致，即反映了实验组与控制组的学生成绩的差异。

3.3 聚类分析结果表与聚类树的分析与评价

经过系统聚类分析后的聚类结果如表3所示，可以清楚地看到Group1的6名教师所教授实验组的学生成绩为第1类；而Group2组的9名教师所教授实验组的学生成绩为第2类。这一结果可以清晰地通过相应的聚类树形图表示出来，如图1所示。其中第2类成绩反映了教师教学过程中网络教学平台对教学效果的影响。这说明网络教学平台的引入对于教育教学有着很大的影响。

根据图1进一步分析可以看出，最终聚类后所生成的第1类中Teacher_01所教授的实验分组成绩与Group1其余组的成绩有着明显的差异。第2类中的Teacher_15所教授的实验组分组成绩与Group2其余组的成绩也有着明显的差异。

经过分析，前者是由于承担相应教学任务的教师是一位新任教师，教学管理能力、学科专业知识把握能力弱于其他教师而导致相应教学任务组学生的成绩明显低于Group1的平均成绩。后者是一名教学骨干教师，该教师教学能力很强，能够有意识地将网络教学资源平台与传统教育教学过程无疑衔接，并能够充分利用网络教学平台的组织管理功能强化对于学生学习过程的控制与管理，因此其所教授实验组的学生的成绩明显优于其他实验分组的成绩。

4 结论与思考

实验所测试的课程由理论性强的模块、操作性强的模块、综合考核模块组成，能够体现出多种不同的网络教学平台的效果。本研究差异性地设计实验组教学手段与教学方法，使得实验分组中实验组的教学过程能够充分利用网络教学平台来完成教学过程、教学管理控制、数字化教学资源，从而实现实验组与控制组学生成绩的差异化。理论性教学模块一般由优秀课网络教学平台支撑；高级程序设计类技能性教学由交互性在线数字化网络教学平台支撑；而省二这样综合性的学习环节由数字化考试平台为学生提供了平时的练习与正式的考核支持，学生通过大量的、多次的模拟考试来完成相应的教学任务的学习。在此基础上，本研究基于系统聚类对于实验组及控制组学生的成绩进行了聚类分析，根据聚类结果提出了一种网络教学平台绩效的评价新方法。这种基于《大学计算机教育》并以系统聚类分析为手段对于网络教学平台绩效的评价有着独特的视角。

在影响教师在教学中采纳教育信息技术的诸多因素中，教师的个人特质占有重要位置，这些特质包括与技术采纳有关的人口学特征、技术使用经验、自我效能、个人创新性等由于承担教学任务的教师个人技术使用经验、自我效能、个人创新性等特质不同，其对于网络教学资源及平台的使用能力有着一定的差异[6]。有的教师在教学过程中能够充分利用现有网络教学平台，有的教师只能简单地将网络教学平台与现有教学相整合，部分教师教学智慧不足难以将教学平台应用于教学过程。因此，利用系统聚类分析法来聚类不同教学组成绩，可能存在着一定的影响因子，会影响到教学实验组的分组的准确性。因此，控制影响因子，保证系统聚类法的应用准确性还需要进一步思考。

参考文献：

[1]付强，李晓铭，邓少鸿.高校网络教学总体绩效评价的探索与实践[J].当代教育理论与实践，2015（08）.

[2]刘敏斯.基于高校网络教学平台的学习绩效评价研究[D].南昌大学，2011.

[3]王海燕.高校网络教学实施效果调查与分析――以宁波大学为例[J].宁波大学学报（教育科学版），2005（03）：89-93.

[4]王换超，张庆秀.绩效技术视角下的高校网络教学平台应用研究――以Blackboard网络教学平台为例[J].中国远程教育，2014，10：88-94.

聚类分析论文篇(7)

关键词：通识选修课；CNKI；文献计量；战略坐标；象限结构

中图分类号：G250.2 文献标识码：A

一、引言

通识教育是将受教育者作为一个具有主体性的、完整的人而施以全面教育的教育方式。目前我国的通识教育课程体系包括两部分：一是公共必修课，

二是通识教育选修课。通识教育选修课一般是由各高校根据办学定位、人才培养目标和学校自身的实际条件自主设立。通识教育选修课作为通识教育课程的一个重要组成部分，其课程体系自建成以来，受到研究学者的广泛关注。通识选修课领域的新的研究专家和学者的学术研究颇丰，推动了我国通识教育选修课课程体系的发展与完善。本文为了全面科学地展示通识教育选修课自1980―2015年的研究状况、研究热点以及其变化趋势等规律性的结论，运用文献计量法对CNKI收录的1980―2015年通识教育选修课论文进行分析解读，以战略坐标图示法展示研究现状特点及象限结构等。

二、研究热点的战略坐标分析

1.数据标准化处理

本文以中国知网（CNKI）的期刊数据库作为数据来源，根据CiteSpace软件对数据的格式要求，对期刊文献数据进行转换。在获得的16039篇论文中，存在书评简介、会议通知、年鉴数据统计、刊文目录总表、杂志卷首语、期刊投稿须知等文献，它们不属于学术论文，为了保证计量分析结果的客观性，需要对这类文献进行标准化处理，最终获得有效期刊文献数据3850篇。最后对可计量的期刊文献数据进行关键词、机构的标准化处理，如同义词、缩写词、中英文关键词等，从而保证计量结果的客观性和科学性。

2.研究方法和计量指标

本文主要将文献计量法应用于通识教育选修课程领域，对CNKI全部期刊来源中所刊发的通识教育选修课领域的期刊文献进行计量分析，主要采用聚类分析与战略坐标图示相结合的计量方法。

运行CiteSpace软件，将“Time Slicing”设置为“1980―2015”，并以3年为一个时间切片，将“Keywords”设置为“分析内容”，阈值设置为（1，1，10）（2，4，20）（2，4，20）。运行结果生成了1980―2015年通识教育选修课研究领域的关键词共现知识图谱，图谱中获得高频关键词470个，并在Project文件夹中生成关键词矩阵。

3.关键词共现矩阵

共词分析中所采用的聚类分析参考借鉴了Callon 及其他人（1991）的聚类原则来进行关键词划分。基本步骤原则如下。

（1）在Project文件夹中生成关键词矩阵（470×470），在方阵中找出余弦指数值最大的一对关键词。

（2）将470×470方阵中的470个关键词与已找出的这对关键词中每一个关键词的余弦指数值进行自定义降序排列，如果排序后的关键词所对应的余弦指数值大于0的关键词不足10个，则只选择余弦指数值不为0的关键词；如果排序后的关键词所对应的余弦指数值大于0的关键词超过10个，则只选择余弦指数值较大的前10个，超过10个的其他关键词不再划入该聚类，即表明该聚类达到了饱和状态。

（3）第一个聚类生成以后，在470×470方阵中删除已划入第一个聚类中的关键词，行和列均做删除操作。

（4）重复以上1～3步操作，依次生成聚类，直到方阵中所有的关键词之间的余弦指数值得最大值为0，表明剩下的关键词之间没有共现关系，即所有的关键词之间余弦指数值为0，划分聚类的操作结束。

按照以上1～4步骤，划分出57个聚类，剔除掉只有两个关键词的聚类，因其不能客观、科学反映聚类所代表的研究内容，最后53个为有效聚类。

4.战略坐标图示分析

（1）研究内容象限分布。以聚类的关注度为横坐标轴，以聚类的新颖度为纵坐标轴绘制战略坐标图，如图所示。

在图中，一共有53个聚类，其中有9个聚类位于第一象限，有0个聚类位于第二象限，有45个聚类位于第三象限，有3个聚类位于第四象限。以战略坐标图各个象限的含义来看，体育锻炼通选课（点4）和医学类通选课（点8）关注度较高，是1980―2015年通识教育选修课领域研究的热点。而计算机初步基础通选课（点1）、中医理论通选课（点2）、中等师范和小学教育（点3）、古代诗歌通选课（点5）、化学类通选课（点6）、心理学基础通选课（点7）和哲学类通选课（点9）新颖度较高，是这期间通识教育选修课研究中比较新颖的研究领域，它们有可能成为未来通识教育选修课的研究热点。

位于第一象限的1，2，3，4，5，6， 7，8，9，这些聚类的新颖度和关注度均不小于0，表明这些聚类所代表的内容是1980―2015年间通识教育选修课领域相对比较成熟的研究内容和研究方向，即这一时期通识教育选修课领域的研究热点，也是目前我国通识教育选修课领域的核心内容，具体包括计算机初步基础通选课、中医理论通选课、中等师范和小学教育、体育锻炼通选课、古代诗歌通选课、化学类通选课、心理学基础通选课、医学类通选课、哲学类通选课内容。

在第二象限中，没有聚类出现，显示出高校对通识选修课的研究没有更多创新性成果。

位于第三象限的10，11，12，13， 14，15，16，17，18，19，20，21，22， 23，24，25，26，27，28，29，30，31，32等聚类，关注度和新颖度都小于0，关注程度不高，研究时间比较靠前，近些年的研究极少，属于被边缘化的研究内容。这些聚类有两类：一类是曾经是通识教育选修课领域比较热门的课题，但由于其具有一定的时效性或者受通识教育选修课动态变化的影响，近几年逐渐退出了学术研究的主流视野；另一类是在1980―2015年间通识教育选修课领域一直关注度不高，近几年研究仍相对较少的领域，它们分别是中文字系通选课、材料加工通选课、色彩类通选课、身体发展通选课、师范院校通选课、卫生类选修课、音美类通选课、生物物理学通选课、学士教育类通选课、电化学通选课、物理实验通选课、通选课的教学计划、通选课的教学改革、学习方法类通选课、道德教育通选课、音乐类通选课、中国文学通选课、物理数学方法通选课、马克思主义理论课、科技信息通选课、运动技术通选课、党校教学通选课、物理学史通选课等。

位于第四象限的17，30，56聚类，关注度大于0，新颖度小于0，表明这几个聚类所代表的研究内容属于当前国内通识教育选修课领域的基础性研究，虽不是近年来新出现的课题，但是多年以来一直受到关注，主要有生物物理学通选课、运动技术通选课、高职高专课程设置。

（2）研究热点和潜在热点。在战略坐标图中，横轴为关注度，纵轴为新颖度，客观、科学显示出了当前关注度和新颖度都比较高的研究领域。聚类8的关注度和新颖度均比较高，根据聚类8的成员构成可以确定其主要是关于医学类通选课的研究。医学类通选课的课程设置等问题得到了国内外专家、学者的高度关注。在战略坐标图中，1980―2015年间具关注度较高但是新颖度较低的领域主要有生物物理学通选课，这类研究方向的提出较早并且备受关注，理论研究方面较为成熟，在我国通识教育选修课研究中处于基础支撑的地位。另外，具有较高的新颖度而关注度却较低的领域主要有聚类1，2，3，4，5，6，7，9。

聚类1主要是计算机初步基础通选课。在信息技术迅速发展的今天，计算机当前已经进入多平台时代，面对科技不断向前发展的趋势，开设并丰富深化计算机类通识教育选修课就显得尤为重要。

现今国内各高校针对学生中现有的计算机设备和学习要求，提出了增加相关教学内容的具体方案，并在实施中不断加以改进和完善，逐渐建立计算机通识教育选修课的课程体系，以提高新时代大学生的信息技术素质。由此，关于计算机初步基础通选课的相关研究其新颖度较高。聚类2主要是中医理论通选课。近年来，现代中医理论逐渐得到发展。相对于历史悠久的传统中医理论，现代中医理论的发展主要着眼于空间维度，相关的研究也达到了很高的水平。我国各高校也开设了各种不同中医理论类的通选课。而中医理论通选课课程设置的发展也就得到了学术界的广泛关注。聚类3主要是中等师范和小学教育。随着教育改革步伐的加快和政府对教育的重视，提高各级各类学校的教育质量，进而从根本上提高公民的素质，是我国教育改革的主要目的。由此，有关中等教育和小学教育的研究逐渐出现在公众的视野中，相关课题也就比较新颖。聚类4主要是体育锻炼通选课。自教育部颁布《全国普通高等学校体育课程教学指导纲要》后，各高校积极贯彻“健康第一，以人为本”的指导思想，开设了各种各样的体育锻炼类必修课程和通选课程。研究学者也在这一通识教育选修课领域进行探讨和科学研究。因此该聚类新颖度较高。聚类5主要是古代诗歌通选课。当前，我国的高等教育基本属于“就业主导型”，越来越重视专业化技能的培养，忽视了对大学生心理素质的形成过程的关注。有学者指出，就业主导型教育虽可以让学生在较短时间内获得专业技能，但从长期来看，这种教育对其形成会产生不利影响。因此，加强高等教育综合素质的培养已成为我国当前高等教育的一个突出问题。各高校相继开设古代文学类通选课，以期培养学生的文学素养，收到良好成效，学术界对这类课程的体系建设开始进行研究。然而，关注该领域的学者并不多，因此，该聚类的新颖度较高，而关注度较低。聚类6主要是化学类通选课。聚类7主要是心理学基础通选课，而聚类9主要是哲学类通选课。

三、结束语

本文采用了聚类分析与战略坐标图示相结合的文献计量方法，客观、科学地展示了当前通识教育选修课领域中文献的研究现状、热点和趋势，从中发现医学类通选课和生物物理学通选课等相关学科是学界关注的热点。这说明通识教育选修课领域的学者对这些内容研究较多，这是与当前我国医学教育事业蓬勃发展和医学科学研究创新能力显著增强的现状相符合的。而新颖度较高的则是计算机初步基础通选课、中医理论通选课、中等师范和小学教育、体育锻炼通选课、古代诗歌通选课、化学类通选课、心理学基础通选课、哲学类通选课，这些通识教育选修课研究领域是学界比较新且有待加强研究的重要领域。计量分析结果能为我国今后的通识教育选修课课程体系建设提供参考和借鉴。但需要指出的是，本文运用了聚类分析与战略坐标图示相结合的方法，虽能比较客观、科学地展示我国通识教育选修课课程体系研究领域的研究现状、热点和趋势，但也存在一些不足之处，如数据标准化、阈值的设定以及标引者效应等。这可能对分析结果有一定程度的影响，但不会影响基本结论。这些不足虽不会影响计量结果的基本结论，但也是本领域研究中需要不断加以探索的问题，研究人员要力争更加客观科学地展示一个领域的研究现状、热点和趋势。

参考文献：

[1]撒凯悦，沈君.世界经济研究领域前沿动态研究――基于2000年以来CNKI数据库的文献计量分析[J].经济学动态，2015，（6）：93-101.

[2]张颖，沈君.体育学科的知识网络结构研究――基于10种CSSCI体育期刊的文献计量[J].北京体育大学学报，2015，38，（9）：34-41.

[3]刘，陈美君，王行恒.多平台下计算机通识课程的教学研究[J].教育教学论坛，2015，（8）：229- 230.

[4]玉海素.通识选修课存在的问题及对策研究――基于天津市某高校的实证分析[J].教育观察（上旬刊），2015，（5）：58-59.

[5]乔娟.通识选修课考核方式改革的必要性及途径――以甘肃政法学院为调研对象[J].教育教学论坛，2015，（51）：104-105.

[6]高丽芳.地方本科院校通识选修课开设的现状及对策研究――以吕梁学院为例[J].教书育人（高教论坛）2016，（15）：64-66.

聚类分析论文