时间:2022-09-28 02:20:43
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇主成分分析论文范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

主成分分析法,又称主分量分析法是指相关的经济变量间通常存在着起主导作用的决定性因素,通过对原始变量的相关矩阵内部结构进行分析,找出几个不相关的综合指标来线性表示原来的变量,主成分之间既互不相关,又尽可能多的包含了原指标集合。这种方法首先由Hotelling提出,其主要思想是降维。Stone(1947)对美国1929-1938年间的17项国民经济统计指标进行主成分分析,发现完全可以用三个经济指标来概括原来的17项指标,大大简化了数据分析。M.Scott(1961)对英国157个城镇的发展水平进行主成分分析,发现原57个测度指标完全可以由5个综合变量替代,既解决了原指标间的信息重叠问题,又简化了原指标体系的指标结构,主成分分析由此推广。邱东(1990)系统阐述了主成分分析法的定义、基本思想、基本步骤和特点,认为主成分分析法可以消除评价指标间的相关影响,并且伴随数学变换过程生成信息量权数和系统效应权数,保证了客观性。同时也指出了主城分析法在计算综合评价值未充分考虑指标的重要程度等不足,主要适用于被评价对象较多的综合评价。随后,众多学者对此提出了改进:孟生旺(1992)针对原始数据的标准化处理和主成分个数的选择问题,认为标准化不如均值化的无量纲处理方法,提出了非标准化主成分分析法。陈述云等(1995)通过对原始数据作对数—中心化转换,用原始变量的非线性组合表示主成分,同时重点分析样本协方差矩阵而非相关系数矩阵,提出了非线性主成分法。朱泰英等(2004)提出了加权主成分分析法,认为可以将主成分分析法的客观分析和层次分析法的主观分析有机结合。王璐等(2006)在对主成分分析法的权数、降维等问题的研究上,提出了首先要按主成分分析法对指标体系进行分类,得到各方面的评价值后再进行主成分分析,最终得到综合评价值的二重主成分分析法。段力誌等(2009)在传统主成分分析法基础上,首先对原始指标值进行预处理,再借助软件,将原始数据转化为少数几个主成分的线性组合,并进行加权变换,得到改进的主成分综合值。白雪梅等(1995)则分析了“均值化”、“标准化”、“极差正规化”三种方法的选择条件是保证方差损失最小。陈衍泰等(2004)认为主成分分析法具有全面性、可比性和客观合理性等优点,比较适合对评价对象进行分类,但需要大量数据,函数意义不够明显,不能反映客观发展水平。苏为华(2012)提出经典的R型主成分本质是单项指标标准化结果的加权算术平均值,比当量平均法复杂。赵利等(2013)通过主成分分析法对宏观经济中影响城镇劳动就业因素分析时,提出主成分为宏观经济和技术进步,通过VAR模型对主成分进行分析,得出宏观成分中对城镇劳动就业影响最大的是消费、产业结构和城市化水平,而技术进步成分中影响最大的是技术进步的结论。黄利文(2013)针对主成分分析中存在的未考虑负向因子的影响,以及采用线性加权法时确定权重方法不统一,评价结果非唯一等缺陷,提出了逼近理想点的主成分分析法,更好地反映了原始数据信息,并较为客观地给出了综合评价结果。林海明等(2013)认为主成分分析因缺乏应用条件的考虑而导致评价结果不具合理性甚至错误,通过分析因子分析法因子载荷阵的简单结构、加权算术平均数的合理性,得出主成分分析的应用条件是:指标是正向、标准化的;主成分载荷阵达到更好的简单结构时,主成分正向,且主成分与变量显著相关。
二、因子分析
法因子分析法是指从被评对象的观察变量的相关度出发,利用降维的思想,把繁杂的变量尽可能归纳为几个综合因子进行分析的的一种多变量统计分析方法。其基本思想是:将观察变量按相关度的高低或联系的紧密程度进行分类,类别内部变量相关性高,联系紧密,而类别之间的变量则相关度较低,联系稀疏,每一类变量则代表一个公共因子。具体步骤为:
三、逼近理想解的排序法
关键词 期刊评价;区间数据;主成分分析;相关分析
中图分类号 文献标识码 A
Analyzing the Current Development of Periodicals
Based on Interval-Censored Data
LI Jing-bo
(Periodical Agency, Hunan University, Changsha, Hunan 410082, China)
Abstract The article uses all periodicals' data collected in CSSCI database to build a model by the ways of relative analysis and interval-censored data's principal component analysis. It analyzes all periodicals in the database objectively and systematically, and explores its characters, regularity and reasons, which provides some ways to manage academic journal better.
Key words periodicals' comment; interval-censored data; principal component analysis; relative analysis
1 引 言
学术期刊作为科学技术事业的重要组成部分,具有传播知识、传播思想、传播信息的重要功能,与科技创新和进步有着密不可分的关系.另一方面,学术期刊作为衡量一个国家的科技发展水平的尺度,标志着该国家的生产力水平高低及科学文化事业的兴旺发达程度,会产生巨大的社会影响和经济效益.因此,办好学术期刊是建立我国科学和技术创新体系的重要环节[1].
自20 世纪80 年代以来,中国的学术期刊出现了一个“黄金时代”,数量急剧增长,似乎呈现出一片繁荣的景象.据统计,目前,全世界共有近24万种期刊,85%在发达国家出版发行;学术性期刊约10 万种,其中重要科技期刊8 万种,几乎全为发达国家所拥有.与发达国家相比较而言,我国所拥有的学术期刊并不多,2008年全国共出版期刊95 49种,平均期印数16 767万册,总印数31.05亿册,总印张157.98亿印张,其中,学术期刊有6 000余种(哲学、社会科学类2 339种),在整个期刊中所占比例在40%左右[2].
从数量上讲,我国仅次于美国,成为世界学术期刊第二大国.虽然从学术期刊和学术论文的绝对数量上来看,我国算得上是一个学术期刊大国,但是我国学术期刊发展仍面临着发展水平参差不齐、优秀稿源外流等诸多问题.因此,建立科学的评价模型,分析我国学术期刊的发展现状和特点,以期对我国学术期刊的健康发展发挥有效的导向作用,并促进其管理的标准化、规范化.
期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律.
评价学术期刊的文献计量指标多种多样,各有侧重.在评价期刊时,单一使用任何一种指标都可能造成某些方面不同程度的片面性,而选择许多个指标时,又常因个数太多而增加对问题分析的复杂性,且人为确定指标权重会产生主观偏差,加上对于指标之间的相关性未给充分的考虑,造成所确定的权重并不是实际计算过程中所体现的真实权重[3].
随着人们对期刊评价工作重要性认识的不断加深,评价方法有了很大的进展,出现了诸如综合评分、专家讨论、费用效益分析、层次分析、模糊聚类、模糊评判、灰色统计、熵值法以及改进熵值法,灰色关联分析、人工神经网络方法、主成分分析方法等评价方法.这些方法在评价工作中展示了各自的优点,同时也暴露出各自的弱点和缺陷,在此不一一赘述.
现有期刊评价的研究大多聚焦于通过建立指标体系,对某一类学术期刊进行综合排序,并且所使用的数据样本规模较小.本文将采用CSSCI数据库中收录的全部期刊数据,通过相关分析、区间数据主成分分析等方法建立模型,实现数据降维和可视化,客观地对整个数据库中各学科期刊的整体特征进行全面、系统的分析,探寻其中的特征、规律以及原因.
2 数据描述与指标选择
本文的数据来自于中文社会科学引文索引(Chinese Social Sciences Citation Index,简称CSSCI)是由南京大学中国社会科学研究评价中心开发研制的引文数据库,用来检索中文人文社会科学领域的论文收录和被引用情况.CSSCI中收录期刊均为学术性期刊,以反映我国社会科学研究和科研成果应用为主要方向,充分显示我国的科研水平,因此利用其数据可以一定程度反映我国学术期刊的整体情况.
2007-2008年,CSSCI来源期刊共收录528种期刊,CSSCI扩展版收录期刊的数量为152种,CSSCI来源集刊共收录86种期刊,共计收录766种期刊.
CSSCI使用的指标分为两类:(一类反映情况,包括发文量、基金论文数、发文机构数、篇均参考文献量、自引率、引用半衰期等6个指标,
另一类属于引证指标,包括影响因子、即年指标、总被引频次、自被引率、被引半衰期等5个指标[4].
下面对上述11个指标的含义进行简要介绍[5].
1)发文量.绝对数量指标,指某一期刊在一定时期内(一年)所刊登的全部论文数,反映了期刊的信息含量.发文量越高,说明期刊的信息含量就越大.
2)基金论文数.
绝对数量指标,指期刊在当年中受基金资助的论文数量可测度期刊在学术交流中的地位,表征论文产出性质的重要指标,可以衡量期刊论文学术质量.基金论文数越多,说明期刊论文的学术质量就越高.
3)发文机构数.绝对数量指标,指期刊当年所中所涉及的不同机构的数量,可测度期刊论文的机构分布情况,衡量期刊科学生产能力,机构分布越广,说明期刊具有开放性和作者队伍具有广泛性.发文机构数越多,说明期刊的影响范围就越广.
4)篇均参考文献量.相对数量指标,指在给定的时间内(一年),期刊中的平均参考文献量,在数值上等于期刊参考文献数/期刊论文总数,通常可以反映期刊吸收信息的能力以及科学交流程度的高低.篇均参考文献量越多,说明期刊吸收的信息越多.
5)自引率.相对数量指标,指该刊在当年的自引次数占该刊当年参考文献总数的比例.自引率越高,说明期刊引用论文中的大部分是发表在自身期刊上的,学术交流程度则越低,且若自引率过高,往往说明该期刊有不良的非正常自引现象.
6)引用半衰期.绝对数量指标,指该期刊当年引用类型为期刊的参考文献中较新的一半是在多长时间中发表的,可测度期刊文献老化的速度[6].
一般来说,半衰期长的期刊比短的期刊影响更深远一些.但该指标受学科的内容、性质等因素的制约,比如说发展稳定的学科比发展较快、较活跃的学科长,基础理论学科的比技术学科的长,历史悠久的比新兴学科的长.因此该指标在判断期刊学术质量时往往不易解释和操作.
7)影响因子.相对数量指标,指期刊前2 年的被引次数占前2 年该刊所总数的比例.
表征论文被引强度的重要指标,反映学术影响力.影响因子可克服由于发文量不同所造成的对期刊被引率的偏差,使期刊总被引频次这一绝对指标变成了相对指标,所以能较好地反映期刊被使用的真实客观情况,从而可以对不同期刊的引用次数和质量进行比较,以说明其利用率在科学上的重要性.通常影响因子越大,可以认为期刊在科学发展和文献交流过程中的作用和影响较大,其学术水平也较高.影响因子是期刊评价中最重要的指标之一.
8)即年指标.相对数量指标,指某刊当年的被引次数占该刊当年总数的比例,是表征论文被引速度的主要指标.即年指标越大,说明期刊论文被引的数量多且速度快.
9)总被引频次.绝对数量指标,指某刊自创刊以来所刊登的全部论文在某一年被其他期刊(包括本刊)引用的总次数,可测度期刊自创刊以来的学术影响力,是从信息反馈的角度评价期刊的基本指标之一,表征期刊学术质量的重要指标[4].
体现了被引用过程的总体规模.总被引频次也是期刊评价中最重要的指标之一.
10)自被引率.相对数量指标,指某期刊当年被本刊引用的次数占该刊当年被引用总次数的比例.与自引率类似,自被引率越高反而不好.
11)被引半衰期.绝对数量指标,指某期刊在某年被引用的全部论文中较新的一半是在多长时间中发表的.
与引用半衰期类似,被引半衰期在期刊评价中的受各种因素影响大且不易直接判断好坏.
以上11个指标中,自引率和自被引率两个指标属于反映期刊水平的逆向指标,而引用半衰期和被引半衰期两个指标不能简单地用数值大小来解释期刊水平的优劣,故只选取余下的7个指标(发文量、基金论文数、发文机构数、篇均参考文献量、影响因子、即年指标、总被引频次)进行以下的建模分析.
3 模型建立及结果分析
本节采用相关分析和区间数据主成分分析等方法建立模型,从期刊计量指标进行筛选和大规模期刊数据的“打包”处理两方面,评价期刊的发展水平.
3.1 相关分析
相关分析是研究随机变量之间是否存在某种依存关系,并对具体有依存关系的变量探讨其相关方向以及线性相关程度的一种统计方法.
采用SPSS 15.0软件对7个指标的原始数据进行相关分析,得到见表1.
表1显示了7个指标之间的相关系数,可以看出,发文量与基金论文数、发文机构数的相关性很强,影响因子与即年指标、总被引频次中度相关[4].
由于基金论文数、发文机构数和发文量的相关程度非常高,仅用其中一个指标就能够代表三者所包含的绝大部分信息.而发文量的应用更具普遍性,这里筛掉基金论文数、发文机构数两个指标,用余下的5个指标继续对全部期刊进行数据分析.
3.2 区间数据主成分分析
区间数据是一种非常重要的数据概念.与传统的分析方法不同,区间数据分析研究的数据表单元不再是一般意义下的定量和定性数值,而是一个实数域区间.经打包处理后的数据集合在几何上表现为一个高维的超矩形,这种处理方式不仅能够反映大规模数据的集中趋势和离散程度,同时有助于从整体上把握数据集合的表现特征和内在规律[7].
设有一个N个样本点和p个变量的数据表XN×p=xijN×p.根据数据系统中的某些重要属性,将这N个样本点划分成n类子集合:S1,S2,…,Sn.如果用区间数据ek来概括Sk,常用的方法有:
ek=x-kj,kj=min i∈Sk(xij),max i∈Sk(xij),
j=1,2,…,p. (1)
在实际应用中,还可以采用适当的分位点作为每个区间的上下限.
一般地, n个数据集合Sk,k=1,…,n,可以被概括成一个n×p维的“样本点×定量区间变量”类型的数据表,其形式为.
n×p=[x11,11][x12,x12]…[x1p,x1p][x21,x21][x22,x22]…[x2p,x2p]……
[xn1,xn1][xn2,xn2]…[xnp,xnp]
=(e1)′(e2)′(en)′.(2)
这里,ei=[xi1,xi1][xi2,xi2]…[xip,xip]′,被称为区间数据表的样本点.
由于区间数据的特殊性,在对以区间数据为单元的数据表进行主成分分析时,首先要按照一定的展平算法,将区间数据表展平为普通数据表.本文采用因素区间数据展平算法.该方法首先对每一个数据集合求主成分,然后分别用各个主成分的最大值和最小值来概括区间数据,并用高维超矩形的顶点作为样本点生成普通数据表.该方法能够以很高的精度代表原始数据的取值范围,计算出的主轴误差较小[8].
本文采用发文量、总被引频次、篇均参考文献量、影响因子、即年指标等5个文献计量指标对CSSCI收录的全部期刊进行区间数据的主成分分析.
采用Matlab软件对区间数据进行主成分分析,得到结果见表2.
由表2的分析结果,前两个主成分累计贡献率接近70%,能够较好地代表5个原始变量的大部分信息,因此模型提取第一和第二主成分对期刊进行综合评价,其结果是合理和有效的.
表3的因子载荷矩阵反映了第一和第二主成分和5个原始变量的相关性.可以看到,第一主成分与5个原始变量均正相关,与影响因子、总被引频次呈强正相关,说明第一主成分主要反映的是期刊被引用的情况,体现其学术影响力,以影响因子这一指标为代表.
第二主成分与发文量、总被引频次正相关,特别是和发文量强正相关,与剩下其他三个变量负相关,说明第二主成分反映期刊的载文信息含量,以发文量这一指标为代表.
根据主成分分析的结果,可将符号对象在第一、第二主成分上的得分情况绘制成图,观察期刊的特征.如图1所示,主平面图的横轴和纵轴的含义与主成分分析的第一主轴和第二主轴相同,描述期刊的区间数据在主平面上均以“十”字表示.其中,每一个“十”字的交叉点表示相应学科期刊的中心位置,而十字的长短则分别表示该类期刊在第一与第二主轴的离散范围.通过观察期刊在主平面图上的位置,可以把握它们各自在两方面指标上的表现特征,进而了解各学科期刊的整体特点.
图1 因子载荷图4 结论与建议
近年来,我国科技水平快速发展,学术论文的数量和质量也在不断提高,然而相较而言,我国学术期刊与国际的差距却非常明显.因此必须正确认识我国学术期刊的发展现状,采用客观、科学、合理的手段评价学术期刊,指导学术期刊的管理工作和发展方向.
本文的研究对CSSCI数据库中收录的数百种学术期刊进行了全面、系统描述,并且通过建立模型,得出了一些有益的结论.
首先,学术期刊的发展差异很大,一方面反映在不同学科之间,另一方面反映在同一学科内水平参差不齐,因此在评价期刊时,不宜用同一套指标对全部期刊大排名,而用学科内排名.
其次,就评价指标而言,各种指标反映的信息主要集中在两个维度.其一是体现被引用情况的一类指标,如影响因子、总被引频次等,其次是反映信息含量的一类指标,如发文量等.在对学术期刊进行综合评价时,要挖掘系统的内部特性,重点把握其主要差异所在,便于期刊的管理和遴选.
近年来,随着经济的发展和社会的变革,学术界的浮燥之风,也影响到学术期刊的质量.这一方面表现在有重大影响的社会科学成果和具有深远意义的原创性成果比较匮乏,缺少创新,缺少健康和必要的学术探讨,有水准的争鸣和书评少之又少.另一方面则表现为低水平重复的社会科学成果大量剩余,大部分学术论文质量平平,甚至偏低[2].
学术期刊所面临的问题已经引起了广泛的重视.随着科研体制的进一步完善,学术期刊也将与时俱进,顺应时代和社会的发展,寻找自身的出路.
首先要提高期刊的综合质量,引领学术创新.提高刊物的质量首先就是要争取好的稿源,通过扩大交流,举办研讨会等方式,主动争取好的稿源.
其次提高编辑队伍的专业素质.应由掌握除编辑学之外的某一领域的专业知识,且学有所长、有一定影响力的专家担任学术期刊的领导,而其领导下的编辑工作者队伍是由一批具备一定科研能力、在某一领域已有所成就或有较强科研潜力的中青年学者组成.学术期刊编辑自身的科研能力对于学术期刊发展具有十分重要的作用.
还有就是加快学术期刊国际化步伐.学术期刊承载着重要的社会责任,要努力推进合作中的学术交流,跻身于世界知名期刊行列.提高学术意识,反映我国学术研究的状况,尤其是科技期刊要依托我国学术研究的专业优势,真正在国际上代表这一领域的较高水平.学术期刊应与时俱进,打造亚洲一流乃至世界一流的学术期刊.参考文献
[1] 杜玲.我国学术期刊数字化面临的问题与对策[J].天水行政学院学报,2010,(6):114-117.
[2] 冷晓玲.学术期刊现状和发展的思考[J]. 潍坊学院学报,2008,(5):119-122.
[3] 邱均平. 文献计量学[M ]. 北京:科学技术文献出版社,1988:2-34.
[4] 杜飞,房涛,葛学铭,等.1999~2008年中国应用生理学杂志载文统计分析[J].中国应用生理学杂志,2010,(2):252-255.
[5] 张建勇.中国科学计量指标:期刊引证报告[M].北京:中国科学院文献情报中心出版社,2006.
[6] 谭果林.科技情报信息出版物有效性评价指标分析[J].太原科技,2009(10):42-44.
【关键词】人脸识别 判别过程 欧氏距离 马氏距离
随着技术的不断进步,人脸识别系统正在逐渐进入日常应用,在企业、住宅安全、刑侦、自助服务、信息安全等领域有着广泛的市场前景。目前人脸识别方法主要有:几何特征的人脸识别方法,基于主成分分析(PCA)的人脸识别方法等。
1 识别方法简介
几何特征的人脸识别方法研究开始于上世纪60年代末,通过考量眼、鼻、嘴等的形状和它们之间的几何关系实现人脸几何特征的提取。此方法识别速度快,所占内存小,但识别率较低。
基于主成分分析的人脸识别方法主要是基于KL(Karhunen-Loeve)变换的识别方法,KL变换以矢量信号的协方差矩阵的归一化正交特征矢量所构成的正交矩阵来对该矢量信号正交变换。在图像处理中,高维的图像空间经过KL变换后得到一组新的正交基,保留其中重要的正交基,由这些基可以张成低维线性空间。如果人脸在这些低维线性空间的投影具有可分性,将这些投影作为识别的特征矢量。PCA具有良好的去相关特性,KL变换后的矢量信号分量互不相关。同时KL变换是在均方误差测度下,失真最小的一种变换。PCA也是目前人脸识别的主流方法。
PCA特征值提取时首先计算矩阵样本的协方差矩阵,然后计算协方差矩阵的本征向量e1,e2,…,eN的本征值。通过PCA训练多个样本的特征值即可作为此人的特征,在识别过程中,用已有的特征值和提取出的本征值计算距离,作为人脸识别的判别依据。
2 主要算法分析
距离计算主流的方法有欧式距离和马氏距离。
欧氏距离(Euclidean distance)可以描述为在n维空间内,最短的线的长度。欧氏距离可以表示为:
欧氏距离将脸部特征的之间的差别等同看待,并没有对于主要特征重点考量,而马氏距离可以解决此问题。
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度。对于样本集Xi,马氏距离可以表示为:
其中为样本平均值,S表示样本的协方差。
马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关,马氏距离还可以排除变量之间的相关性的干扰。
3 系统实现方法
在人脸识别系统的判别方法设计中,参考马氏距离的加权思想,对特征值的欧氏距离进行加权。在提取人脸特征值时,取(样本数-1)作为提取的特征值的数量。查看特征值所对应的图片效果,以29个特征值为例,效果如下:
对于权值的选取,考虑到相近特征值所表示的特征之间差异性很小,并且其表示的实质性参量的不确定性,所以将一组固定数量且相邻的特征值取同一权值。得到经过加权的距离后,计算置信度,置信度定义为:
其中 为训练样本值,aj为样本权值。
如训练样本取30张人脸图片,其特征值选30-1=29个,固定若干个特征值一组,每组用同一权值aj。特征值越靠前,表示其可参考性越大,所赋予的权值也应该越高。
对于非加权算法的欧氏距离,通常认为置信度高于0.5表示两张图片相似程度高,低于0.5表示相似程度低。但在人脸识别过程中发现,在训练样本不是特别多的情况下判决门限会随着训练样本的增加而增加,而且判决门限值也会高于0.5,实验中判决门限一般定在0.8以上,判决门限的设定也和前期图片预处理的方法有关。
4 实验结果分析
实验训练样本数分别取30,40,50,60,70,综合10个不同的人在同一位置分别计算加权算法置信度和非加权算法置信度来作对比。分析实验结果,得到4条平均置信度随训练样本数变化的曲线。训练样本数较小的时候置信度随训练样本数的增加而增加比较明显。但在训练样本数较大的情况下,置信度随训练样本数变化不明显。对于正确的样本,加权算法所得到的置信度高于非加权算法得到的值,而对于错误的样本,加权算法所得到的置信度低于非加权算法得到的值,所以采用加权算法可以加强判别过程的区分度,提高样本的识别度。
参考文献
[1]吴迪.基于特征脸改进算法的人脸识别技术的研究[D].哈尔滨:哈尔滨工业大学硕士论文,2007.
[2]李.基于主成分分析的人脸识别[D].济南:山东大学硕士学位论文,2008.
[3]柯晓华.人脸识别算法研究及实现[D].哈尔滨:哈尔滨工程大学硕士学位论文,2008.
[4]孙伟,李晓飞.基于PCA的实时人脸识别系统[J].中国多媒体通信,2013(04).
[5]何振学,张贵仓,谯钧,杨林英.对称核主成分分析及其在人脸识别中的应用[J].计算机工程,2013(03).
[6]郭浩,王国宇.一种基于中值思想的改进人脸识别方法[J].现代电子技术,2013(02).
[7]李冠楠,李强.一种基于人脸核心特征的PCA人脸识别算法及应用[J].电子器件,2012(05).
关键词:主成分分析 证券公司 竞争力
中图分类号:F830.91 文献标志码:A文章编号:1673-291X(2011)28-0074-03
一、研究背景
随着中国经济持续稳定的发展,证券化程度的不断提高,中国资本市场的规模不断扩大,这为证券公司创新发展提供了良好的机遇,券商特别是已上市的证券公司的综合竞争力也得到了长足的发展。在当前激烈的市场竞争中,如何对上市类证券公司的综合竞争力进行衡量和分析,以达到科学比较,相互借鉴的良性市场机制,从而提升公司的竞争力,已成为证券监管部门、证券公司和投资者关注的问题。
关于证券公司综合竞争力评价的研究,具有代表性的有单项指标评价法和综合指标评价法。单项指标评价法以证券业协会公布的证券公司业绩排名为代表,包括资产、利润、承销收入等单项指标排名,单项指标排名只能反映证券公司某一方面的能力,不能反映证券公司的综合实力,具有一定的局限性。王晓芳、王学伟等(2008)选取中国50家证券公司为研究对象,选择经营中的18个参考指标,运用因子分析法对证券公司2006年度的经营状况做出了客观全面的评价。运用综合指标评价法对中国证券公司竞争力进行研究具有积极的意义,但是很少有学者运用综合评价法对中国上市类证券公司股票竞争力进行评价和分析。
本文以15家上市证券公司为研究对象,选择其2008―2010年度反映上市公司获利能力和经营发展能力的六个指标,运用主成分分析法提取影响这些上市证券公司竞争力的综合指标,并对这些公司的综合竞争力进行了排名和分析,希望能够给证券公司和投资者有所帮助。
二、主成分分析法的基本原理
主成分分析是在降低维度思想下产生的处理高维数据的统计方法,即用为数较少的、信息互不重叠的新变量来反映原变量提供的大部分信息,从而通过对为数较少的新变量的分析达到解决问题的目的。
主成分分析可广泛的应用于经济指标的评价,其具体的步骤如下:
首先,对原始指标数据矩阵进行标准化处理,并基于标准化的数据计算相关系数矩阵R。计算相关系数矩阵R的目的是通过其求出主成分。
其次,求出相关系数矩阵R的特征值λk(k=1,2,…n)以及各样本主成分的方差贡献率、累计方差贡献率,并根据累计方差贡献率选取主成分Zj(j=1,2,…r)。
最后,以每个主成分的方差贡献率为权数,构造综合评价函数F:
F=■αiZi,其中,αi=■,1≤i≤r。
并根据综合评价函数对上市证券公司综合竞争力进行排名。
三、实证结果与分析
1.样本数据的选取及指标体系的构建。为了较为全面了解中国上市证券公司的综合竞争力,特选取如下六个指标进行分析:X1:每股净收益;X2:净资产收益率;X3:主营业务收益率;X4:主营业务增长率;X5:净资产增长率;X6:总资产增长率。其中前三个变量反映了上市证券公司的获利能力,后三个变量反映了公司的经营发展能力。下页表1给出了15家上市证券公司关于以上六个指标在2008―2010年三年取值的加权平均,权数分别取0.2、0.3和0.5。
由于广发证券在2010年2月借壳巨亏的S延边路上市,在2008―2010年度的相关财务指标异常,因此,本文选取其余14家上市证券公司为研究对象。
2.用统计数据进行主成分分析。首先,对原始指标数据矩阵进行标准化处理,并求出其相关系数矩阵:
RR=1 0.661-0.06-0.596 -0.152-0.361 0.661 1-0.591 -0.513 0.0700.013-0.06-0.5911 0.340 -0.309 -0.412-0.596-0.513 0.340 10.0290.343-0.1520.070 -0.309 0.029 1 0.742-0.3610.013-0.4120.343 0.742 1
其次,确定主成分分量。其特征值、方差贡献率和方差累计贡献率(如表2所示)。
表2各主成分特征值、方差贡献率和累计方差贡献率
由表2可知,前两个主成分的累计贡献率已达到76.033%(大于75%),这说明提取的两个主成分能够解释这六个变量75%以上的信息。因此选取前两个主成分做进一步分析,这两个主成分分量的计算公式是:
Z1=-0.844X1-0.835X2+0.397X3+0.835X4+0.176X5+
0.381X6
Z2=-0.162X1+0.363X2-0.739X3-0.017X4+0.819X5+
0.864X6
分析上述数据和公式,发现:第一主成分Z1主要反映在X3,X4指标上,说明主营业务利润高,主营业务增长快。第二主成分Z2主要反映在X5,X6指标上,说明净资产和总资产增长快。在第一主成分和第二主成分中,X1指标的系数都是负数,表明每股净收益指标在描述上市证券公司获利能力上是不足的。上市证券公司获利能力主要体现在反映主营业务指标的第一主成分上,经营发展能力主要反映在净资产和总资产的增长速度上。
3.各主成分排序。基于上面提取的两个主成分对14家上市证券公司排名,每个公司在各个主成分上的得分是按照主成分公式计算而得。然后根据提取的两个主成分计算出综合评价函数F,F=0.4067Z1+0.3536Z2。
该函数使用各主成分的贡献率为权重。利用F函数对14家上市证券公司进行综合排名。所有排名(如表3所示)。
四、结论与分析
从表3可以看出,在主成分Z1中,太平洋、西南证券和山西证券排名靠前,说明这三家公司获利能力较强,在主成分Z2中,西南证券,山西证券和华泰证券排名靠前,说明这三家公司经营发展能力较强。在综合评价函数F中,西南证券、山西证券和太平洋证券排名靠前,说明这三家上市证券公司的综合竞争能力较强。在证券业协会的行业排名中居前的中信证券、东北证券在这里排名却靠后,说明这几家公司的综合竞争力在证券类上市公司中不具优势。无论是第一主成分、第二主成分还是综合评价函数的得分比较接近,差距不大,说明中国的这些上市类证券公司处于平稳发展期,综合竞争力差别不大。
上市类证券公司的排名情况与公司财务状况有直接的关系,然而,选取不同的财务指标可能会产生不同的结果,并且主成分分析法对指标的选择带有一定的主观性。同时,衡量公司竞争力的因素还有很多。
参考文献:
[1]王晓芳,王学伟.基于因子分析的中国证券公司竞争力研究[J].现代商贸工业,2008,(1):139-141.
[2]哈达.基于主成分分析的上市公司核心竞争力评价研究[J].内蒙古科技与经济,2009,(11):10-13.
[3]诸艺方,章亚男.制酒行业上市公司股票竞争力分析[J].经济研究导刊,2010,(36):72-73.
关键词:生态城市;主成分分析;综合评价
“生态城市”是20世纪70年代联合国教科文组织发起的“人与生物圈(MAB)”计划首先提出了“生态城市”这一概念。随着人口的迅速增长,工业化的深入发展,诸如城市的大气污染、水污染、垃圾污染、地面沉降、噪音污染;城市的基础设施落后、水资源短缺、能源紧张;城市的人口膨胀、交通拥挤、住宅短缺、土地紧张,以及城市的风景旅游资源被污染、名城特色被破坏等一系列问题日益突出。如何实现城市经济社会发展与生态环境建设的协调统一,就成为国内外城市建设共同面临的一个重大理论和实际问题。因此,建设生态城市已成为城市之间竞争的焦点,许多城市纷纷加快了城市转型发展的步伐,把建设“生态城市”、“花园城市”、“山水城市”、“绿色城市”作为奋斗目标和发展模式。近年来,关于生态城市建设的研究成为国内外的热点话题。曾芳芳介绍了国内外“生态城市”的研究背景以及中外学者对其内涵的认识,重点阐述了国内外学者对其的研究理论,并提出生态城市建设的理论研究在生态城市评估方面的不足,为后期的生态城市发展理论研究起着重要的作用;李文君等以西安市为例,对西安市生态城市建设进行分析,为以后具体的生态城市的建设研究提供了借鉴等。商洛作为国家“南水北调”中线工程的主要水源地之一,加强对商洛生态环境的保护,显得尤为重要。本文以商洛市为研究对象,结合商洛市城市建设实际,构建商洛生态城市评价指标体系,运用主成分分析等方法,深入探讨商洛市生态城市发展水平及其影响因素,为打造中国西部最美的山水园林城市规划提供建设性的意见。
一、生态城市建设评价指标体系的构建与评价方法
(一)生态城市综合评价指标的选取本文指标选取主要是通过频度统计方法,参考关于生态城市评价的相关研究论文中的指标体系,结合商洛城市建设的实际,坚持科学合理、针对性强,反映生态城市发展本质的指标作为商洛市生态城市综合评价指标体系进行科学评价,具体指标体系构建详见表1。(二)数据来源及评价方法指标体系所用原始数据来源于《商洛市统计年鉴》(2007-2016),城市环境质量报告书、统计公报、政府部门的调研数据等资料和相关文献资料、书籍、学术论文、研究报告等。本文拟采用主成分分析方法,通过对城市经济、社会和环境3个子系统39个指标进行分析确定权重,综合评价商洛市生态城市发展水平。
二、商洛市生态城市建设水平的实证分析
生态城市建设的主要目标就是实现可持续发展,是一项涉及到经济、社会、人口、科技、资源与环境等子系统组成的时空尺度高度耦合的复杂动态开放巨系统的系统工程。因此,在生态城市建设过程当中,要以生态学理论为指导,充分考虑生态城市的自身特点,不仅关注生态城市的整体发展,还要关注城市社会、经济、环境子系统在“关系”上的协调。文章从经济、社会与环境三个子系统方面入手,通过SPSS19.0对这39个指标10年来的各具体数据进行主成分分析,提取影响生态城市发展的因子,更好地为商洛生态城市建设规划提供参考。
(一)经济子系统生态化建设水平的影响因素
对经济子系统的12个指标通过主成分分析,确定两个主成分F1、F2,由表2分析可以看出各指标与各主成分之间的相关程度。第一主成分与城镇人均可支配收入、农村人均纯收入、人均GDP、财政一般预算收入、固定资产投资占GDP比重等指标相关程度较高,均达75%以上,且都是衡量经济发展水平的重要指标,主要反映了经济发展的整体水平。F1中尤其是城镇人均可支配收入、农村人均纯收入、人均GDP、财政一般预算收入的相关程度高达97%以上,说明这几个指标在反映商洛经济发展水平上,对其影响更大。第二主成分主要与GDP增长率、一般财政预算收入增长率、旅游业增加值占GDP比重等指标有一定的相关性,这些指标相比第一主成分指标,相关程度所占百分比较低,但是对经济发展的影响又不可忽视。经济被视为一个城市、区域、乃至国家发展的“硬实力”,其发展水平的高低将直接决定社会发展的各个方面。因此,在建设生态城市的同时,要统筹好影响经济发展的基础指标和潜在影响力指标因子,才能为生态城市的建设提供更好的发展基础和动力。
(二)社会子系统生态化建设水平的影响因素
通过对社会子系统15个指标进行主成分分析,确定三个主成分F1、F2、F3,由表3可以看出:第一主成分(F1)与人均保险费、在校大学生人数、城市化水平、卫生技术人员、医院床位数等指标相关程度较高,其相关程度都在90%以上,这些指标既是对城市功能建设、社会保障、教育医疗等基础设施方面的成绩的反映,同时也是影响社会生态化发展的主要因素。因此,商洛市生态城市建设中社会子系统生态化的发展要对上述指标不断优化和升级,有利于商洛生态城市的总体建设。与第二主成分(F2)相关程度较高的指标有:城镇恩格尔系数、农村恩格尔系数、人均城市道路面积等指标,主要反映了商洛人民生活质量和城市社保障水平,这是对第一主成分的有力补充,其发展程度必然对社会生态化产生重要影响。第三主成分(F3)主要是常住人口、人均生活用水量、授权专利数指标,其中关于人口的发展又是对经济、社会和生态发展等方面都起着巨大的影响。较多的人口可以为区域的发展提供充足的劳动力和消费市场;但是过多的人口也会对资源、环境保护等方面产生巨大的压力。所以,可以将第三主成分解释为人口质量与数量对商洛生态城市建设的影响因素。
(三)环境子系统生态化建设水平的影响因素
由表4可以看出,第一主成分(F1)与废气治理设施处置能力、城镇人均公园绿地面积、工业废水排放量、工业固体废物综合处置量、工业固体废物排放量等指标其相关程度达到75%以上,这些指标主要说明工业三废的处理水平及环境质量状况。同时说明在生态城市的建设中对生态环境的改善应重点放在工业三废的处理方面,不断提高生态环境质量。第二主成分(F2)与污水处理率、工业固体废物利用率、人均水资源量等指标有较大的相关性,说明商洛在生态城市建设过程中对水资源的保护及固体废弃物的利用程度。第三主成分(F3)与全年城市空气质量达标率等指标有关,主要反映了城市环境治理后的天气状况。通过分析说明,商洛生态化城市建设中对环境的保护不仅要注重工业三废的处理,同时还要兼顾水环境污染和空气污染保护防治,进而使商洛环境质量整体水平得到有效提高。
三、结论
生态城市建设的主要目标就是实现可持续发展,本文通过经济、社会与环境系统的实证分析结果来看,生态城市建设涉及到各个方面,商洛市生态城市建设不仅要注重整体发展水平,还要重视经济、社会、环境各子系统之间的协调发展,共同促进商洛市生态城市建设的步伐,促进商洛经济又好又快发展。通过经济子系统12个指标主成分分析得出:在生态城市建设过程中,经济生态化要把重点放在与第一主成分相关程度较高的指标(城镇人均可支配收入、农村人均纯收入、人均GDP、财政一般预算收入、固定资产投资占GDP比重)方面,主要反映在经济发展水平方面。但由于商洛地处秦岭腹地,自然环境复杂,基础薄弱,经济发展水平低。因此在生态城市化建设中应不断加强对外交流学习,借鉴成功经验,大力发展特色区域经济,不断提高经济发展水平,促进商洛经济生态化建设步伐。但与第二主成分相关的指标也不容忽视。通过对社会子系统的15个指标主成分分析得出:在生态城市建设过程中,社会生态化的重点放在与第一主成分(F1)相关程度较高的指标(人均保险费、在校大学生人数、城市化水平、卫生技术人员、医院床位数)等方面,不断完善城市功能、社会保障、教育医疗等基础设施的建设,促进商洛市社会生态化进程。通过对社会子系统的12个指标进行主成分分析得出:环境生态化重点要放在与第一主成分相关程度高的指标(废气治理设施处置能力、城镇人均公园绿地面积、工业废水排放量、工业固体废物综合处置量、工业固体废物排放量)等方面。生态环境是经济和社会协调发展的前提,随着城市人口的不断增多,工业化发展的不断深入,商洛市环境生态化要不断提高对工业三废的处理及利用水平,合理开发利用各种资源,防治水污染和空气污染,优化生态环境,不断提高环境质量,确保经济、社会和环境的协调发展,促进商洛市生态城市建设整体水平的提高。
作者:王高建 单位:商洛学院
参考文献:
[1]曾芳芳.国内外生态城市建设的理论研究[J].科技广场,2011(10)
[2]李文君;田巧娣.基于主成分分析法的生态城市建设综合评价———以陕西省西安市为例.经济视角(上旬刊),2015(1)
[3]周晓唯,王拓.陕西省生态城市建设评价指标体系[J].城市环境与城市生态,2009(6)
[4]赵维良,纪晓岚,柳中权.主成分分析在城市生态安全评价中的应用——以上海为例[J].科技进步与对策,2009(3)
关键词 PM2.5 线性插值 Box-Cox变换 主成分分析 预测分析
中图分类号:X823 文献标识码:A DOI:10.16400/ki.kjdkz.2016.11.071
0 引言
从长春市2014年10、11、12月份月平均PM2.5浓度以及优良级天数监测结果(数据来自吉林省环境保护厅)可以看出:这三个月长春市优良级天数比例均小于50.0%,几乎整个冬季都处于连续污染状态,雾霾问题严重,再加上严寒的天气,使得市民易于感染呼吸道疾病,甚至加重比如敏感、哮喘病等类患者的病情。因此准确预测并及时公布大气环境状况变得越来越重要。
近年来,专家学者开展了一些相关的研究工作。刘小生等①提出了一种基于基因表达式编程的PM2.5浓度预测研究;彭斯俊等②提出了一种基于ARIMA模型的PM2.5预测模型;陈俏等③提出了一种基于支持向量机和回归法的大气污染物浓度预测模型。这些文献通过研究个别因素对大气环境状况提出了预测方法,但是气象因素对PM2.5的影响是十分复杂的,实际情况中往往是不同气象因素相互影响的结果。尤其是ARIMA模型只突出了时间因素在预测中的作用,没有考虑到外界具体因素的影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化往往会有较大偏差。
本文旨在用与PM2.5浓度相关性强的因素,综合考虑PM10、CO、NO2、SO2四项指标对PM2.5浓度的影响,并基于主成分分析理论提取几个互不相关的主成分进行回归分析,最终得到准确度较高的大气环境预测模型。
1 材料与方法
1.1 数据预处理
1.1.1 补充缺失数据
本文数据来自天气后报网,共研究PM2.5、PM10、CO、NO2、SO2五项指标,个别日期(共4天)的数据缺失。这时,我们使用SAS统计分析软件,运用插值法补全缺失值。
1.1.2 Box-Cox非线性变换④⑤
将原始数据中PM2.5、PM10、CO、NO2、SO2等因子依次记为、、、、,因事先由散点图分析可得,PM2.5与PM10、CO具有良好的线性关系,考虑到变换的简便性最终选定对PM2.5、PM10和CO做变换%d的值为0,记变换后的PM2.5、PM10和CO为、和;对NO2和SO2进行Box-Cox变换的过程中,最优%d的取值是依据最大似然估计的方法原理来确定,由SAS统计软件计算得到,最终选择NO2和SO2的最优%d值依次为0.5、0,经过Box-Cox变换后的NO2和SO2依次用下列符号标记:和。
1.2 主成分分析原理
主成分分析⑥是将多指标化为少数几个综合指标的一种统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合,且各个主成分之间互不相关。这样在研究复杂问题时就可以只考虑少数几个主成分且不止于损失太多信息,从而更容易抓住主要矛盾,解释事物内部变量之间的规律性,同时使问题得以简化,提高分析效率。
2 结果
2.1 主成分分析
本过程主要通过SAS软件⑦实现,详细程序参照附件。输出结果(表1)给出了各变量之间的相关系数矩阵。可以看出:与之间的相关系数为0.8341,呈现非常强的相关性;
与,与之间的相关系数均为0.6800以上,有较强的相关性,其他变量之间相关性则相对较弱。不满足多元线性回归的基本假定条件,这也是本文选择主成分回归的主要原因之一。
输出结果(表2)给出了相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率以及累计贡献率。可以看出,第一主成分的方差贡献率为71.34%,前两个主成分的累计贡献率已达87.69%,因此,只需前面两个主成分就可以概括这组数据。根据相关系数矩阵的各个特征值的特征向量,可以写出前三主成分得分:
2.2 主成分回归
现在用对前两个主成分和做普通最小二乘回归,得到主成分回归方程为:
=3.93932+0.36567Ha0.01363 (3)
但是斜率的t检验p值0.4123>0.05,未通过显著性检验,即认为与之间的线性回归关系不显著,需对模型进一步的调整。
经过多次对u和主成分、、之间进行不同模型模拟对比分析,最终采用逐步回归法选取与、做最小二乘回归,输出结果如表3。虽然信息量从原来的87.69%降到了79.78%,但截距和斜率的t检验p值
为了得到和、、、之间的关系,运用R软件⑧编写计算系数的函数代码作变换,得到还原后的主成分回归方程为:
3 结果分析
3.1 残差分析
回归方程通过了t检验,只是表明变量之间的线性关系是显著的,但不能保证数据拟合得很好,也不能排除由于意外原因而导致的数据不完全可靠,比如异常值出现、周期性因素干扰等。借助SAS统计分析软件以回归预测值作横轴,以残差 =Ha作纵轴,将相应的残差点画在直角坐标系上,得到残差图如图1。
从残差图上看出,残差是围绕随机波动的,表明模型中不存在异方差、相关性问题,模型的基本假定是满足的。
3.2 预测
为了更好地反映模型的拟合效果,我们对2015年1月2日到3月27日的PM2.5进行预测,并与实际值对比。预测曲线图如图2,除了少数几天PM2.5预测值偏差较大外,其它模拟效果比较乐观,而且相对误差相对较小,很大程度上接近了PM2.5的实际观测值。进一步地证明该模型能够较准确地预测未来短期的PM2.5趋势和水平。
4 结论
本文利用长春市2014年空气质量历史数据,基于主成分分析理论建立了大气环境预测模型,并预测2015年1月至3月的污染物PM2.5浓度,通过将其与实际值检测值进行对比分析,表明运用此模型在PM10、CO、NO2、SO2各项指标已知的情况下,能够对PM2.5进行准确性预测。
模型的判定系数和修正分别为0.9225和0.9221,均方残差平方根为0.1866。这说明回归方程的拟合效果非常好,能够很好地反映并及时公_大气环境状况,让公众更加精确地感知到本地空气质量的真实情况,还可以有的放矢地治理大气污染,通过数据分析找出污染源头。
注释
① 刘小生,李胜,赵相博.基于基因表达式编程的PM2.5浓度预测研究[J].江西理工大学学报,2013.34(5):1-5.
② 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM2.5预测[J].安全与环境工程,2014.21(6):125-128.
③ 陈俏,曹根牛,陈柳.支持向量机应用于大气污染浓度预测[J].计算机技术与发展,2010.20(1):250-252.
④ 张诚.基于Box-Cox变换的城市火灾起数的模型研究[D].合肥工业大学硕士学位论文,2013.
⑤ 胡宏昌,樊献花.广义Box-Cox变换[J].周口师范学院学报,2006.23(5):17-19.
⑥ 何晓群.应用回归分析(第三版)[M].北京:中国人民大学出版社,2011.
[论文摘要]根据相似性度量理论中的χ2统计量,在专家评级的基础上,构造出定性指标的相关系数矩阵,利用主成分分析法选取主成分,并作因子分析,进而根据因子载荷矩阵,得到主成分与各原始指标间的相关系数,最后在一定阈值标准下,舍掉相关系数绝对值较小的指标,从而达到用客观合理的方法对定性指标进行筛选的目的。该方法可被借鉴应用于物流领域中供应商定性评估指标的筛选。
一、引言
供应商评估和选择是企业的一个重要决策,一个好的供应商是指供应商拥有制造高质量产品的加工技术,拥有足够的生产能力,以及能够在获得利润的同时提供有竞争力的产品。同一产品在市场上的供应商数目越来越多,供应商的多样性更使得供应商的评估和选择工作变得复杂,需要一个规范的标准来操作。供应商评估首先要解决的是供应商评估指标体系的确立问题。
一个具体的综合评价问题,评价指标的选取是否合适,直接影响到综合评价的结论[1]。指标并不是选得越多越好,太多重复性的指标会增加指标权重确定的难度。综合各学者的观点,对供应商评估的指标可以包括技术水平、产品质量、生产能力、供应能力、价格、地理位置、可靠性(信誉)、售后服务、柔性等[2],这些都是定性指标。对定性指标的筛选,以前用得较多的是模糊数学的方法[3],主观性较强,最后得出的结果可能差异非常大。这两年,有一些学者引进粗糙集理论对指标进行属性约简[4],该方法实用性强,不失为定性指标筛选的一个好方法。然而,需要事先知道各样本对应的决策属性的值,使得该方法在很多的综合评价问题得不到应用。
对定量指标的筛选有一些统计的方法,如:条件广义方差极小[5]、极大不相关[6]、灰关联分析[7]等,这些方法客观性较强,评价结果比较稳定。定性指标与定量指标区别的关键在于定量指标是可度量的而定性指标不可度量,如果把定性指标定量化,定量指标的筛选方法就可以为定性指标所用。然而,对定性指标的定量化研究多采用模糊数学的方法[8],该方法应用结果并不能让人满意。那么,是否可以考虑避开定性指标定量化这一问题,另辟蹊径,嫁接定量指标筛选的统计分析方法对定性指标进行筛选呢?
在定量的指标分析中,相关系数是一个重要的量,它能相当好地反映变量之间的线性相关的程度。主成分分析法就是建立在相关系数矩阵基础上的,在主成分分析法基础上作因子分析,根据因子载荷矩阵中主成分与各原始指标的相关系数的绝对值大小,就可以实现对原始指标的取舍。因此,对于定性指标,如果能求出两两指标间的相关系数,而不必对指标一一进行定量化处理,也能对指标进行筛选。现在问题的关键在于,对定性指标是否能找出较好地反映变量间线性相关程度的量?Pearson的χ2统计量为这一问题的解决带来了曙光。
二、用Pearson的χ2统计量求定性指标的相关系数
设x,y都是离散的随机变量,x可以是r个状态x,x,…,x之一,x不一定是数,但可以用指定的数或字母等来表示这一状态,这样的离散变量是定性资料的一种概率性的描述方法。类似地,y可以处于y,y,…,y这c个状态之一。如果观察了(x,y)的n个样本,就可以计算出x=x,y=y的频数、x=x的频数以及y=y的频数i Pearson据此定义了χ2统计量[9]
三、供应商定性指标筛选模型的构建及其求解
作为x与y关联性的度量值。文献[1]指出,χ2有下列性质:0≤x≤n(min(r,c)-1)(2)由此,如果引入θ=x/n(min(r,c)-1)θ≥0(3)θ就在[0,1]之内,它与相关系数ρ的平方在[0,1]之内相仿,那么θ就可以作为x与y相关系数的近似值。
相关系数问题的解决,为定性指标筛选方法的寻找提供了一块垫脚石。主成分分析是建立在相关系数矩阵基础上的一种多元统计方法,对该方法的进一步分析可以达到对指标筛选的目的。因此,结合Pearson的χ2统计量和因子分析法,可以构造定性指标筛选模型及其求解步骤如下:
(一)利用χ2统计量求定性指标的相关系数为避免符号过多引起歧义,对定性指标仍用x和y来表示,只是对x和y的描述稍加改变即可。为简明起见,下面列了一个r×c双向列联表。指标x有r个水平x,x,…,x,指标y有c个水平y,y,…,y。观察了(x,y)的n个样本,其中指标x处在水平x、指标y处在水平y的个体数为表中之
分别是x处在水平x的个体数和y处在水平四、计算示例y的个体数。于是,首先计算式(1),然后计算式(3),把得到的数开方并取非负值,即可求得x与y的相关系数。同理,可以求出其他两两指标的相关系数,并构造出关于所有指标的相关系数矩阵。
(二)在相关系数矩阵基础上用主成分分析法确定主成分求相关系数矩阵的特征值和特征向量,对特征值按照从大到小的顺序进行排序,并一一计算贡献率和累积贡献率,按照累积贡献率的值对综合指标进行取舍。一般的,取临界值为85%。一旦累积贡献率超过85%,剩下的特征值对应的综合指标即被舍掉了,前面的几个综合指标被确定为主成分。
(三)在主成分分析基础上作因子分析,求得因子载荷矩阵对主成分作因子分析,即用各主元对应的特征值的平方根乘以该特征值对应的特征向量各分量,组合而成的矩阵即为因子载荷矩阵,该矩阵的各分量反映的是各原始指标与主成分的相关系数。
(四)确定阈值,对定性指标进行筛选在综合评价中,主成分是最后确定为对样本进行综合评价的量。因此,原始指标与主成分相关系数越小,对综合评价的结果影响力也就越小。对原始指标与主成分的相关系数进行排序,按一定标准确定阈值,把小于该阈值的相关系数对应的原始指标筛选掉,就可以达到对定性指标筛选的目的。
某生产企业针对供应商的评估列出下列指标:技术水平(X1)、产品质量(X2)、生产能力(X3)、供应能力(X4)、价格(X5)、地理位置(X6)、可靠性(信誉)(X7)、信息共享和相互信任(X8)、类似的产品经验(X9)、地理范围和提供的服务范围(X10)、客户的兼容性(X11)、售后服务(X12)、供货期(X13)、交货准确率(X14)、柔性(X15)[10]。现在要对某供应商进行评估,首先需要对评价指标进行筛选。可以考虑在供应商评估和选择小组评级的基础上用上述模型实现对上述15个指标进行筛选。
供应商评估和选择小组选择A、B、C、D、E五个等级之一分别对被评价对象的上述15个指标进行评价,其中,A、B、C、D、E分别代表“很好”、“较好”、“一般”、“差”和“很差”。9份评级结果如下表2:
现在要根据前述理论、模型及求解方计算出这15个指标两两间的相关系数。以标X1和X2为例,X1和X2有同样的5个水平AB、C、D、E,分别对应脚标1、2、3、4、5比如
如此类推,穷极X1和X2的5个水平的率,即可计算出(1)式,然后计算(3式,最后开方取非负值,就可以得到X1X2的相关系数约为0.14。类似地,可以求其他指标间的相关系数,进而可以构建出下的相关系数矩阵:
由R的特征值我们计算出第一主成分的差贡献率为79.6%,于是,我们只用第一成分这一综合评价指标就能较好地反映原数据的变换情况。对第一主成分的特征值方再与第一主成分对应的特征向量各分量法指乘,这样得到的向量的每个分量分别对应第一主成分与各原始指标的相关系数,相关系数绝对值的大小反映了综合评价指标(第一主成分)与各原始指标的关系密切程度,因此,对相关系数先取绝对值,再按照绝对值的大小从大到小进行排列。排列结果如下表3:
由表3可以看出,X4、X9、X11这三项指标与综合评价指标的密切度明显低于其他指标。经过分析发现,供货能力(X4)与供货期(X13)和交货准确率(X14)内容重合度很高,用供货期和交货准确率这两项指标就可以代表供货能力,因此供货能力属重复指标,应该删掉。同时,类似的产品经验(X9)和客户的兼容性(X11)与综合评价指标的密切度低很可能是因为对这两项指标的界定没有一个很明确的标准,从表2也可以看出9位评价者对这两项指标评级差异度非常大。因此,X9和X11对整个评价中干扰度较大,也应该考虑删除。
五、结束语
本文根据相似性度量理论中的χ2统计量,在专家评级的基础上,构造出相关系数矩阵,进而用主成分分析法和因子分析法,对一个评价对象的多评价因素指标进行筛选。而且,为提高计算的精度,可以采取增加样本的方法,使频率尽可能地接近于概率。从前面的示例可以看出,基于Pearson的χ2统计量的定性指标筛选方法能取得比较科学、合理的结果,因此可以为涉及主观因素众多的供应商评估和选择问题所借鉴。
参考文献
[1]胡永宏,贺思辉,综合评价方法[M],北京:科学出版社,2000:21
[2]魏际刚,郑志军,企业物流管理基础[M],深圳:海天出版社,2004:42-43