期刊大全 杂志订阅 SCI期刊 SCI发表 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据分析方向

数据分析方向精品(七篇)

时间:2023-06-27 15:55:25

数据分析方向

数据分析方向篇(1)

为了进一步了解馆藏图书的利用情况,现从社科类、自科类及综合类的角度对2008年—2012年5年数据进行结构划分,其中社科类包含《中图法(第四版)》中的A-K类,自科类包含N-X类,综合类指Z类。综合类每年的购置量很少,此次在表2中体现,仅供参考,重点将社科与自科类图书进行分析。从馆藏册数方面,由表2的数据统计得知自科类图书占据主导地位,分别占到55%,54.5%,56%,54.5%,56.2%,这与图书馆每年制定的自科社科6:4的图书入藏比例基本相符,也表明了图书馆的馆藏结构符合学校以工为主的办学特色。流通比例是指图书的借阅量与总的借阅量的比例,可以从很多方面进行划分,时间段内读者对各类图书的整体需求比例,从类别结构划分流通比例就可以客观的反映出来。由表2的数据统计得知,2008年—2012年,社科类的流通比例每年都高于自科类,分别占到了56%,58%,60%,57%,66%。

入藏比例与流通比例的分析比对

取自科与社科的入藏比例和流通比例的差值Z,以数值0为分界点,分为正负两个区间,如果Z值落在同区间内,则表示馆藏图书与读者需求在整体上保持一致,反之,若Z值落在不同的区间,则表示馆藏图书与读者需求存在矛盾。计算公式Z=X-YX:入藏比例Y:流通比例如图1所示,图书馆5年内的Z值均分布于两个不同的区间,从而说明,入藏的图书与读者的需求存在出入,没有达到一致。那么,为了使图书更好的被利用,是应该继续按照图书馆原有的采购比例继续采购,还是要改变采购方向迎合读者的需求,就要进一步的了解利用率较高的几大类图书。

文献的利用率衰减对文献采购的影响

1图书利用率的分类排名

通过统计,借阅率排名前10位的有文学(I)、哲学(B)、艺术(J)、语言、文字(H)、社科总论(C)、历史、地理(K)、经济(F)、工业技术(T)、政治法律(D)、数理科学和化学(O)。以2008年入藏的中文图书作为统计对象,以2008年—2012年5年作为5个借阅时间段,前10位的借阅率统计结果如表3。表3的统计结果清晰表明,在每年的借阅率排名前10类中,社科类占到了80%,而自科类只占到了20%,社科类中文学(I)的借阅率更是高居榜首,文学类图书受到读者的欢迎,在其他各个高校中的借阅率排名亦是居高不下。社科类更是占据了借阅率排行的前6位。自科类排名中T大类遥遥领先,这是由于工业技术本身就涵盖了TB、TD、TM等众多类别,受众面较为广泛,但与社科类的图书利用率进行比较,自科类的图书利用率还是有一定的差距。一个图书情报机构是为某一个或几个专业研究、教育培训服务,还是为一般参考咨询或娱乐欣赏服务,这是设计藏书结构的基本出发点和目标[2]。西安理工大学属于理工院校,以工为主亦应该在图书馆馆藏结构中得以体现。

2文献利用率的衰减分析

文献可看作是一种信息,信息有其时效性,文献的价值也会随着时间的流逝而逐渐降低(特种文献除外)[3],图书的利用率也符合这种规律逐年衰减。这一点可从表3的各类图书的年利用率中清晰看到。文学(I)从91.19%降至47.70%,其它各类图书都有不同程度的降低。如果用U来表示图书利用率的衰减程度,那么U就应该等于同样的入藏图书大类在不同时间段内的借阅率之差。U的值越大,说明该类图书利用率的衰减程度大,利用价值损耗大,反之,说明该类图书的利用价值时间长,采购图书时应加以考虑。2008年入藏的图书,在2008年的借阅率与2012年的借阅率之差结果如图2所示。其中U值较小的为T类与O类,I类排在第4位。自科类的图书利用率虽然较低,但是,随着时间的推移,自科类的图书利用率衰减值小,所以利用价值可持续的周期比较长,可供读者的参考价值也较高。社科类的图书借阅率较高,但是时效性低,而且衰减值高,图2中显示,J类,H类,C类,F类的借阅率之差相当,而且数值较高,I类图书借阅率最高,但是属于非专业图书,应控制采购比例。2008年入藏的图书,5年之后,2012年的利用率排名前3位的分别为文学(I)47.70%、哲学(B)47.62%、工业技术(T)40.90%。T与O大类的借阅率排名分别从第8位与第10位上升为第3位与第6位。这说明自科类的图书保值期比社科类图书时间长,例如2008年购置的自科类《电子线路CADProtel99SE》一书,在2008年流通量为6次,2012年仍然流通量4次,而社科类《经济学的分析方法》一书,2008年的流通量为11次,在2012年就只流通了1次。

数据分析方向篇(2)

一、大数据对审计工作带来的影响和挑战

大数据审计是对各类电子数据、账套、文件进行审计,是计算机审计的延伸和发展,是对多行业、多领域、多种形式海量数据的电子审计方式。大数据审计既要处理结构化数据,又要处理大量的非结构化数据,对审计目标、审计内容、分析技术和审计思维模式都提出了新的、更高的要求。

1.审计目标的转变

在信息化发展初期,计算机审计能够通过对数据的观察和分析发现疑点,为审计提供线索。随着大数据时代的到来,审计目标逐步转向发现线索、评估风险、关注效益等方面,审计不仅要发现违法违规问题,更多的是要揭示制度方面存在的问题,评估内控风险,通过对经济社会相关大数据的获取和分析,洞察行业整体走向,探索发展规律,对国家、行业、部门的制度出台与发展策略做出前瞻性的思考和战略性的分析。

2.审计内容的转变

传统意义上的“数据”大多是指数字,如主营业务收入金额、营业费用等,由简单数字或用数字编码的简单文本组成,传统的数据分析工具基本上能够满足其需要。而大数据不再单纯指数字,其涵盖的内容更加宽泛;传统意义上的 “数据”是关系型的、结构化的二维表数据,而大数据则是指在不同时间生成的复杂、异构、多样化的数据,包括xml、html、文本、音频、视频和“影子数据”(如访问日志和web搜索历史记录)等。

3.分析技术的转变

顾名思义,大数据分析就是指对规模巨大的数据进行分析。大数据分析包括5个基本方面:一是可视化分析,利用图表完整展示数据分析的过程和数据链走向;二是数据挖掘算法,从海量的、随机的、不相关的数据中构建数据挖掘模型,提取有价值的、隐含在数据内部的信息;三是预测性分析能力,根据可视化分析和数据挖掘的结果,做出预测性的判断;四是语义引擎,借助一系列的工具去提取、解析和分析数据,从“文档”数据中自动提取信息;五是数据质量和数据管理,通过标准化的流程和工具对数据进行处理,保证数据分析结果的质量。

4.审计思维模式的转变

大数据时代带来审计思维模式三大转变:一是实现审计全覆盖而非抽样审计,对公共资金、国有资产、国有资源和领导干部履行经济责任情况实行审计全覆盖[2]。二是审计数据的混杂性而非精准性。传统审计以财务数据为审计重点,其核心是结构化的报表和凭证信息,而大数据具有高度的数据混杂性,数据类型涵盖了结构化、非结构化和半结构化的数据,保留了最宝贵、最有价值的信息,其内涵具备更深、更广的洞察力。三是大数据主要反映事物的相关关系而非因果关系。大数据没有改变审计事务间的因果关系,而是注重对相关关系的开发和利用,使得数据分析对因果逻辑关系的依赖性降低了,甚至更多地倾向于基于相关关系的数据分析。

二、大数据审计的方式和途径

面对大数据时代对审计工作带来的挑战,审计方式和途径将实现以下4个方面的转变。

1.应用大数据分析技术,实现审计方法从数据验证性分析向数据挖掘性分析转变

传统的计算机审计,是通过电子数据采集转换对数据进行验证,通过构建查询分析、多维分析等方法模型进行数据分析,而应用大数据分析技术,则能够使审计数据分析逐步由传统的验证性分析向挖掘性分析转变。挖掘性分析是指采用大数据处理技术,利用数据仓库、数据挖掘和模型预测工具进行审计分析[3],从大量数据中发现蕴涵的数据模式和规律,包括分类分析、聚类分析、关联分析和序列分析等。其中,分类分析按照数据属性,将数据分派到不同的组中;聚类分析根据数据的相似性原则,将数据划分为若干类别,使同类数据差别极小,不同类别数据差异尽可能大;关联分析可发现隐藏在数据间的相互关系,通过挖掘发现不同数据间的密切度或关系;序列分析可发现数据出现时间、出现序列的规律,分析数据间的关联性。

例如,在金融审计中,运用数据挖掘中决策树的关联规则和挖掘方法,可对不良贷款与正常贷款之间相互错分的规律进行研究,创建对不良贷款和正常贷款具有较强分类能力的条件属性指标,从而增加分类预测模型的可理解性,并在一定程度上揭示商业银行信贷资产风险等级分类的相关规律[4];在税收征管审计中,利用聚类方法,根据聚簇规则,可将纳税户进行分组,使组内纳税户具有最大的相似性,组间纳税户具有尽可能大的相异性,从而产生聚类标准,并按照标准对纳税户进行分行业、分税种聚类分析,确定纳税群体的总体情况和特征,为审计目标和审计重点的建立提供依据。

2.应用大数据分析模式,实现审计方式从发现问题向风险预警转变

传统审计工作以发现问题为主,对经济形势进行预测分析,因而须等到相关事件发生并且形成一定规模后,再根据搜集到的足够数据进行分析研究,具有滞后性[7]。而大数据技术可通过对跨领域的大规模经济、社会行为数据进行分析,对经济社会相关异常动态实现早期关注,利用其对异常数据的敏感性实现早期预警。当前,审计可以运用大数据相关技术,对宏观经济社会风险问题展开初步分析。例如,可以综合利用政府债务审计数据、社保审计数据、宏观经济运行数据、金融市场数据等多种数据库构建大数据集合,运用数据挖掘等数据分析工具,结合多个数据库信息交叉分析与宏观经济社会运行相关的事件,通过基于个别领域、结构化的数据分析,不断将半结构化、非结构化的跨领域数据加入分析框架中,逐步提高大数据审计的分析能力。

3.应用大数据审计作业平台,实现单机审计向云审计转变

以审计大数据为中心建设“云审计”平台,实现远程存储和移动计算,使审计机关能够通过网络接入“云”实施审计,利用大数据分析、人工智能等信息技术,解决数据采集分析和管理中存在的问题,实现审计成果共享。其次,应完善联网审计系统,逐步建立预算、执行、财政、地税、社会保障、医疗机构、公积金等重要行业和部门的审计实时监督系统。再次,应建设审计数据综合分析平台,运用大数据技术,加大业务数据与财务数据、单位数据与行业数据,以及跨行业、跨领域数据的综合比对和关联分析,提高运用信息化技术查核问题、评价判断、宏观分析的能力。最后,应推广“总体分析、发现疑点、分散核实、系统研究”的审计模式。

4.构建专业的审计分析队伍,实现传统纸质账本审计向大数据审计转变

审计工作应实现“六大转变”,即由单点离散审计向多点联动审计转变、由局部审计向全覆盖审计转变、由静态审计向静态与动态审计相结合转变、由事后审计向事后与事中审计相结合转变、由现场审计向现场审计与非现场审计相结合转变、由微观审计向微观与宏观审计相结合转变。为此,需要在组织方式、人员结构、思维方式等方面与之相适应。在组织方式上,应尝试开展无项目审计,依托审计数据中心积累的数据资源,横向关联比对分析,纵向深入挖掘分析,从数据中发现审计疑点和线索。在人员结构上,应不断提升“四种能力”,即大数据分析能力、综合研究能力、创新能力和跨领域知识运用能力,不断加强对大数据先进理念和前沿技术的学习,掌握大数据分析方法,提升审计人员综合素质。在思维方式上,应培养“数据先行”意识,以数据为核心,使数据分析在审计工作开展前先行实施,根据数据分析结果,有重点、有步骤、有深度地在审计实施过程中进行核查验证、追踪线索、发现问题,全面深化大数据技术在审计工作中的应用。

三、大数据技术在审计中的应用

大数据技术在审计中的应用广泛,具体说来,主要表现在以下4个方面。

1.创新大数据工作模式,探索部门预算执行审计全覆盖

传统的以处(科)室为单位的孤立审计,已不适应大数据审计的要求,需要打破部门界限,以审计项目为管理主线成立大审计组,进行扁平化管理。大审计组分领导小组、数据分析组和问题核查组三个层面:领导小组负责审计方案的制定、领导决策等,由牵头机构组建;数据分析组由审计能手和计算机操作骨干组成,具体负责审计实施,筛查审计疑点和线索;问题核查组由审计一线人员组成,进行实地延伸核查。例如,在“同级审”项目中,采集各部门预算执行审计数据,通过对数据进行集中分析,发现是否存在部分预算项目缺乏科学论证、影响预算执行的问题;结合各预算部门的财务数据,发现是否存在预算项目因连年结转的情况下仍然安排新增预算、造成资金闲置的问题;通过对数据进行宏观整体分析,发现是否存在预算执行效率不高、分配下达预算不及时、拨付转移支付资金超期等情况。

2.应用数据分析作业平台,开展跟踪审计

通过建设审计数据综合分析平台,搭建关系国计民生的重点行业联网审计系统,用Hadoop等专业工具处理半结构化、非结构化数据,规范高效地汇集和处理大规模数据信息。例如,在地税审计中,可利用地税联网审计系统,集中进行全省地税数据整理分析,探索“数据集中采集、集中统一分析、疑点分布落实、资源充分共享”的大数据审计模式,实现全省联动审计;通过构建查询分析模型、多维分析模型,固化审计思路,对地税数据进行全面分析,重点选择税款征收、税款缴纳和税款管理等信息,在财政审计中,运用部门预算执行分析平台,将独立运行、分散存储的各部门预算编制、预算指标、部门决算、部门财务核算等业务数据,进行标准化清洗和整理,同时与组织预算执行数据进行整合,实现各类资金的横向关联,对资金分配结构、资金使用流向、资金管理情况进行总体分析,全面反映预算执行整体情况,实现对预算单位的审计监督全覆盖。

3.多领域数据融合,开展经济责任审计

运用关联分析,找出数据间的相互联系,分析关联规则,发现异常联系和异常数据,寻找审计疑点。在经济责任审计中,可利用财政、税务、社保、公安、工商、养老、房管、教育、培训等数据,进行纵向比对、横向关联分析。例如,可将城镇居民医保、城镇职工医保、新农合等信息进行综合分析,检查是否存在同时参保、重复报销、虚假报销、套取资金等情况;将小额担保贷款与人社部门行政事业单位人员信息进行关联分析,检查是否存在违规向行政事业单位人员发放担保贷款和进行财政贴息的问题;将职业技能培训补贴、创业培训补贴与企业法人和行政事业单位人员进行关联分析,检查是否存在向不符合条件人员发放就业补贴的问题;将人社、农业、扶贫、教育、民政管理的各项培训资金进行关联分析,检查是否存在虚报冒领财政资金的问题;将义务教育、中职中专、中学学籍数据与中职助学金发放、免学费补贴等信息进行关联分析,检查是否存在虚报冒领或者套取中职助学金、免学费补贴等专项资金的问题。

4.深入挖掘数据,开展宏观经济形势预测

数据分析方向篇(3)

智能时代的到来,模式识别得到了广泛的重视和应用。支持向量机(SVM)由于有着坚实的统计学理论基础,能够实现结构风险最小化,特别是能够克服机器学习中经常遇到的“维数灾难”问题,并且在二类分类中表现出优异的性能,从而在分类中占有重要地位。SVM不仅能够进行线性分类,而且在非线性分类中也表现出良好的性能。这归因于SVM中成功应用了核函数的思想,把在低维空间中不可分的输入数据映射到高维的特征空间(也叫希尔伯特空间)中去,在高维空间中就有可能可分。核函数思想在SVM中的成功应用,打开了核函数的应用领域,从本质上来说,只要一个应用中直接或间接地需要用到两个向量内积的运算,核函数都有可能在该领域有所作为。这样,核函数的应用,并没有改变本来应用的思路,同时,核函数注重的是两个向量之间的内积结果,使得在应用中并不需要知道真正的变换函数是什么,从而方便了分类或聚类等应用。主成分分析(Principal component analysis,PCA)在模式识别中得到了广泛的应用,是一个对线性输入空间进行降维的有效方法,但实际工程应用中的数据空间往往不是线性的,如果能够将核函数的思想应用到PCA中,就能够使得PCA对非线性的数据空间也能够进行有效降维,能够有效改进模式识别的算法效率,降低对存储空间的要求。

当前对核主成分分析的研究取得了很多成果,在应用中也得到了有效应用。但是,核主成分分析的具体实现过程、核函数的参数选择、核函数的直接构造、由函数产生核以及主成分分析不考虑分类类别的改进上,还有很多工作需要做,该文在以上几方面予以分析,并在应用中予以实验验证。

1 核函数

核函数的研究起源于1909年,Mercer提出了核的定理与条件,1940年后,再生核得到研究,1964年Aizermann等人将核的思想运用到机器学习领域,1992年Vapnik等人在SVM中成功应用了核函数,从此核函数得到了深入的研究与应用。

核函数是一个n维欧氏空间Rn到希尔伯特空间H的变换上的内积函数,即K(x1,x2)= (Φ(x1)Φ(x2) )。

核函数具有一个重要特性:一个对称函数K(x1,x2)是核函数,那么K(x1,x2)对应于x1,x2…xn的Gram矩阵非负定;反过来,若K(x1,x2)对应于x1,x2…xn的Gram矩阵非负定,则K(x1,x2)是核函数。

因此寻找核函数可以利用以上性质,只要找到一个对称函数K(x1,x2),做出其对应的Gram矩阵,判断该矩阵的正定性就可以得出K(x1,x2)是否是核函数。当前较为广泛使用并有效的核函数有高斯径向基核函数[K(x1,x2)=exp(-||x1-x2||2/(2σ)2))]、多项式函数K(x1,x2)=((x1x2)+1)d。

但是,在实际工程应用中,有些应用场合,数据分布具有一定的特殊形式,通过多项式核函数或高斯径向基核函数并不能达到最佳效果,即使通过大量的实验,也很难找到最恰当的核函数参数。这时,可以根据数据分布的特点,进行核函数构造,这样构造出的核函数在数据处理上有可能达到很高的效率。

另外,还可以根据某些不是核函数的函数,通过一定的方式,构造出核函数。因为,根据核函数的性质,一个函数若是核函数,它对应的Gram矩阵必是非负定的。那么,若一个函数不满足这个特性,则可以通过一个过渡函数,运用以下公式将它改造为核函数:

[K(x1,x2)=i=1Ntrans(xi,x1)trans(xi,x2)]

其中,N为输入空间

2 主成分分析

2.1 主成分分析(PCA)

在对输入数据进行模式识别时,经常会发现样本数和输入的向量的维数很大的情况,这对处理时间和所占用的空间有很高的要求,处理得不好,会导致主存溢出的情况。因此,对于很大的维数,往往需要通过某种手段,将维数降低。实际上,这种情况是可行的。因为,在采集的数据样本中,很多属性之间有着关联。例如对学生考试进行分析,若有七门功课:语文、数学、英语、政治、生物、物理、化学,这些科目的成绩中很多科目成绩之间是相关的;再如,在定制衬衣时,需要身高、胸围、坐高、臂长、腰围、肋围等六项数据,但这些数据往往是相关的,实际中只要身高、胸围、腰围几项即可。

主成分分析(PCA)是数据降维的有效手段,特别是对于线性数据。PCA通过变换使得结果具有最大的均方差,在二维空间中,能够将每个样本投影到一个一维空间中。对于n维空间,可以将输入数据样本的协方差矩阵求出。协方差矩阵cov为:

[cov(A)pXp=1N-1i=1p(xi-x)(xj-x)] A为nXp数据输入矩阵

协方差矩阵是个对称矩阵,对角线上diag(cov(A))的元素即为对应向量的标准差。协方差矩阵保持了原始输入空间的信息,特别是,若原始输入空间数据满足高斯分布,则该输入数据的所有信息都在协方差矩阵中反映出来。

将协方差矩阵cov(A)求出特征值和特征向量,并将这些向量按照特征值的大小按降序排列。根据应用的需要,对特征值进行分析。将特征值的累计贡献率计算出来,并根据应用的要求,若一般应用环境,累计贡献率取85%即可;对于一些精度要求高的应用,累计贡献率取95%甚至以上。这样,将大于累计贡献率的特征值取出,将对应的特征向量排列成矩阵,将输入空间的数据通过该特征向量矩阵进行转换,就得到降维后的输入数据。

例如,当一个输入空间有30个数据,每个数据7个特征,经过计算得到7X7的协方差矩阵,对此协方差矩阵求特征值、特征向量,假设根据累计贡献率的要求,只需要4个主特征,得到一个7X4的特征向量矩阵。用输入样本数据或测试样本乘以这个矩阵,就得到降维后的数据。当然,数据原始信息会有一定的损失,但很小,一般不影响分类结果。

经 过PCA降维后的数据,可以通过降维过程的逆操作,恢复成原来的数据。累计贡献率阈值越大,恢复数据的精度也就越高。注意降维过程减去了均值,恢复数据要加上这个均值。

2.2 Fisher判别分析(FDA)

PCA主要应用在线性数据降维上,在降维的过程中,可以发现主要通过协方差矩阵,对原始输入数据进行处理,并没有用到类别的信息,因此PCA是一种无监督的线性降维方式,这种降维方式对于有些分类,对导致较大偏差。

Fisher判别分析(FDA)在对主要成分进行分析时,不仅要进行原始数据的处理,同时要关注类别信息,因此,被称为有监督的主成分分析。FDA采用类间散布矩阵和类内散布矩阵,然后计算特征值和对应的特征向量。

Fisher判别分析(FDA)采用类内聚集程度与类间离散程度的比值也决定,该比值越大,说明对分类的贡献越大,该成分就有可能成为是主成分。

2.3 核主成分分析与核Fisher判别分析

主成分分析(PCA)对线性输入空间数据有良好的降维效果,采用核函数的思想,将核函数应用到PCA中,形成核主成分分析,这样,将在低维空间非线性很难降维的数据通过核函数映射到高维特征空间(希尔伯特空间)中,通过选择适当的核函数与参数,就有可能在高维空间中进行有效降维。FDA也可以采用核函数思想改进为核Fisher判别分析。

在分类中,有了降维后的数据,时间和空间效率能够提升,但在核主成分分析时没有对类别信息加以利用,因此在实际的分类中,可以采用核主成分分析结合核Fisher判别分析进行,这样对有些难以分类的数据集能够有效进行分类。

3 核主成分分析及其应用

3.1 核主成分分析的过程

传统PCA中,首先需要计算协方差矩阵:

[cov(A)pXp=1N-1i=1p(xi-x)(xj-x)]

采用核函数的特征空间的协方差矩阵为:

[cov(A)pXp=1N-1i=1p(?(xi)-?(x))(?(xj)-?(x))],其中[K(xi,xj)=?(xi)?(xj)]

若输入空间数据满足“中心化”,即[?(x)]=0,则上式可简化为:

[cov(A)pXp=1N-1i=1p(?(xi)(?(xj)]

根据PCA的特点及再生核理论,最优投影轴应该是特征空间中的样本的线性组合,写成拉格朗日函数形式并对线性相关系数求导,得:

[Kα=λα],其中[α]为特征空间的样本之间线性组合的系数。到了这一步,就可以对K矩阵求特征值和特征向量即可。

以上核主成分分析是假设数据的中心化即均值为零的情况。若不满足此条件,可以通过对特征空间的所有数据在希尔伯特空间平移一个均值的距离,这样的平移不改变特征数据的形状。

在进行核主成分分析时,也可以通过以下公式进行核矩阵K的中心化(标准化):

3.2 核主成分分析的应用与实现要点

Matlab在模式识别上具有直观、有强大的计算能力以及绘图能力,下面以Matlab 7.1作为平台,对核主成分分析进行实现。

3.2.1 传统PCA在Matlab上的实现

传统PCA在Matlab中有两个函数可以完成数据降维。

若输入数据的协方差矩阵已知,则可以通过pcacov()函数进行PCA降维。设协方差矩阵为V,则通过[c,l,e]=pcacov(V)就能得到V的所有特征值的降序排列l,每个主成分的贡献率e以及主成分系数c。可以通过函数barttest()进行Bartlett维数校验,通过pcares()函数进行主成分的残差分析。

最常用的做PCA分析的函数是pcacomp(),只需要输入数据矩阵X,就可以通过:

[c,s,l ,t2]=princomp进行PCA降维分析。C代表主成分的系数矩阵,s代表主成分矩阵,l代表降序排列的样本协方差矩阵的特征值,t2代表某个样品对应的霍特林(Hotelling) T2的统计量,这个统计量可以用来进行设备运行的故障检测,用来表示某个观测值与观测数据中心的距离,可以用作异常点分析。

在对输入数据矩阵计算协方差矩阵时,需要进行数据的标准化。可以用三种方法进行标准化(设输入数据矩阵为X,是一个nXp矩阵):

1) s=std(X)

stds=X./s(ones(n,1),:)

comp(stds)

2) s=std(X)

stds=X./repmat(s,n,1)

[c,s,l ,t2]=princomp(stds)

3) s=zscore(X)

[c,s,l ,t2]=princomp(stds)

此外,在协方差的计算上,计算的顺序将会大大影响最终的结果。如100个样本30维特征,应该计算出的协方差矩阵是30X30,若没有注意到这一点,最终可能算出的协方差矩阵是100X100。

3.2.2 核主成分分析在Matlab上的实现

Matlab在模式识别工具箱stprtool里提供了进行核主成分分析的kpca()函数。stprtool工具箱不是Matlab 7.1的标准工具箱,需要下载后并设置到Matlab路径下。

%X是数据输入矩阵,数据分布可以不是线性,可以是圆状、椭圆状等

opt.ker=’rbf’%opt是结构变量,ker分量指出核函数类型,arg是参数

opt.arg=5

opt.new_dim=2 %new_dim是输出维数

Y=kpca(X,opt)

采用kpca函数很简单,但并不灵活。下面采用类Matlab来进行核主成分分析的算法实现。由于很多场合下的数据分布接近高斯分布,并且高斯分布的协方差矩阵对原始信息无丢失,下面核函数采用高斯径向基函数,高斯径向基函数需要输入一个参数。步骤如下:

1) 准备好训练数据T,测试数据TT,并设置高斯径向基函数的参数rbf,累计贡献率大小为thres;

2) 训练数据T、测试数据TT标准化;

3) 运用高斯核函数计算核矩阵,由于核矩阵是对称的,只需要计算出上三角矩阵即可,另一半元素用赋值完成,可以提高运算效率;

K(i,j)=exp(-norm(T(i,:)-T(j,:))^2/rbf);

4) 运用K_new=K-U*K-K*U+U*K*U中心化高斯核矩阵;

5) 对K_new进行特征值及特征向量的计算:[ev,evalues]=eig(K_new);

6) 计算累计贡献率;

7) 找出累计贡献率大于或等于thres的特征值,将对应的特征向量组成矩 阵;

8) 对测试数据TT进行测试。

上述算法可以看出,采用了核函数,PCA成为核主成分分析,但具体的实现过程与传统的PCA很类似,但带来的效果是可以进行非线性降维。并且采用了核函数,从线性空间向高维空间的转换并不需要具体关心转换函数的形式。

3.3 核主成分分析的效果

下面用上述的核主成分分析算法对Matlab 7.1自带的cities.mat数据进行分析。cities.mat共收集了美国329个城市在历史上一段时期内城市生活质量的数据统计,共有9个指标:艺术、住房、健康、气候、娱乐、犯罪率、经济、交通和教育。

不同指标的数据值相差很大,需要进行标准化处理。

图1 核主成分分析后的第1主成分和第3主成分

图2 cities的主成分pareto图

从运行的结果看,核主成分分析能够对cities.mat的数据进行降维,效果与传统PCA精度相当,运用tic、toc指令进行计时,传统PCA执行时间约 2.6秒,核主成分分析需时4.6秒,这是因为核主成分分析需要计算核矩阵,高斯核需要计算二范数以及exp运算。但核主成分分析由于采用了核,计算量上有所增加,但对线性、非线性输入空间都能进行有效降维。

4 结束语

核主成分分析在传统的主成分分析的基础上,有机地结合了核函数的思想,从而使得核主成分分析能够有效处理非线性的输入空间数据的降维。核主成分分析如果结合核聚类、核Fisher判别分析,充分利用输入数据的特点和分类类别,进行数据维度的降低,不仅能够加速分类的效率,而且能够提高精度。由于核函数的引入,因此,对于核函数的参数选择,核函数根据数据输入特点的直接构造,或从任一函数生成一个核函数就显得至关重要。未来的进一步应用将会在核函数的生成与核主成分分析、核Fisher判别分析的结合上,作为模式识别的预处理,将做深入的探讨。

参考文献:

[1] 徐勇,张大鹏,杨健.模式识别中的核方法及其应用[M].北京:国防工业出版社,2010:27-39,138-142.

[2] 邓乃扬,田英杰.支持向量机-理论、算法与拓展[M].北京:科学出版社,2009:92-96,105-114.

[3] 万家强,王越,刘羽.改进KPCA对分类数据的特征提取[J].计算机工程与设计,2010,31(18):4085-4092.

数据分析方向篇(4)

【关键词】情感倾向分析 微博 情感词典 算法

微博情感倾向算法的改进与实现

自2006年Twitter在国外兴起开始,微博以其方便、快捷的特点迅速风靡全球。据统计,Twitter在2012年平均每天都有1亿7 500万Tweet被;在国内,新浪在率先推出微博服务后,已经聚集了4.24亿微博用户,平均每天活跃用户多达4 230万[1]。同时,腾讯微博也借助于其在即时通讯领域的优势,用户数量很快就突破了2亿,处于强势追赶阶段。各种形式的微博服务已经成为网民信息、交换对于事件的看法、观点与态度的重要途径。

微博用户数量的快速增长,使得网络上出现了海量的、以文本形式存在的数据信息。这些信息包含了用户对于特定事物的心情、看法、评价等。由于微博特有的文本长度限制,单条微博所能提供的信息相对有限,因此需要通过增加数据量来弥补这一缺陷。面对大量的文本数据信息,采用人工手段进行倾向分析往往会力不从心,因此,需要一种可以快速准确地对大规模文本进行倾向标注的方法,微博情感倾向分析研究就是在这种背景下发展起来的。

背景及相关研究

微博情感倾向性分析就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进行分析[2]。早期的微博情感倾向分析主要是进行词语语义的倾向计算[3]和文本情感分类[4-6]等工作。随着研究的不断深入,分析的重点逐渐转移到了更加精细的粒度上,如产品属性挖掘[7]、情感摘要[8]、情感分类器等[9]。

现有的情感倾向分析大致可以分成4个级别: 词语级别、短语级别、语句级别和篇章级别[10]。词语级别的分析主要是基于词典的语义相似度或层次结构来计算单词的情感倾向[11]。短语级别的情感倾向分析是在词语级别之上引入了程度词、否定词等分析内容,从而增加了判断情感倾向正负强弱的准确性。短语级别的情感倾向分析可以采用语料库[12-13]和词典[14-15]两种方法。句子级别的情感倾向分析主要包括主客观语句的区分、主观语句的倾向性计算以及语句中细粒度内容的提取[16-18]。篇章级别的情感倾向分析就是从一个整体的角度对文本进行情感倾向性分析[19-20]。在这4个级别上已有了一定数量的研究成果。

2009年,Yang Shen[14]提出了MBEWC微博情感倾向计算器。 该方法在算法设计时考虑了目标数据的特殊性,并进行了一些针对微博文本分析的改进。但在进行数据分析时,仍然存在以下缺陷:①沿用了由情感词词典、程度词词典和否定词词典三个词典组成的短语情感倾向分析体系,没有添加其他针对微博数据特征的词典系统;②计算子句倾向时,采用的是直接统计的方式,没有将词汇之间的修饰关系考虑在内;③分析子句之间关系时,虽然考虑到了子句先后顺序对子句情感倾向权重的影响,但是却没有进一步将逻辑关系考虑在内,导致该算法在分析转折句、感叹句等特殊句式时正确率下降。

本文在Yang Shen等所提出的MBEWC微博情感倾向计算器的基础上,在清华大学人机交互与媒体集成研究所的支持下,提出了针对微博文本信息的特殊性的改进算法。本算法以微博文本中的情感倾向元素以及相关的语法特征作为情感倾向证据,在原有的以情感词、程度词、否定词为核心的分析系统基础上,针对微博的语言特征及用户使用习惯,添加了表情、语气词以及用于进行主客观判断的部分特殊词,以有效地提升情感倾向分析的准确度。除此之外,本算法还引入了修饰语法和逻辑语法的概念,以确定文本信息中词与词之间、子句与子句之间的逻辑关系。新算法通过子句分割、子句倾向计算、逻辑关系计算、整句倾向汇总等步骤实现。算法验证程序可根据获取的词典、语法库等数据信息,对微博情感倾向进行自动标定。最后进行了网络真实微博信息的相关测试。

情感倾向词典构建与分析

文本情感倾向分析的基础是判断词语的语义倾向[21]。现有的情感倾向词典构建中,比较常见的是情感词词典、否定词词典以及程度词词典。分析时通常以单个词作为目标,而忽略了词与词之间的顺序、修饰关系,导致分析准确率有限。本文在对现有的上述三个词典进行改进的基础上,添加了特殊标识符词典、表情词典以及语气词词典三个新的词典。以这六个不同功能的词典构成一个新的词典系统,对文本数据进行综合分析,以期得到一个更加准确的结果。

首先,本文对现有的情感倾向词典系统进行了改造与重构。新的情感倾向词典系统不仅对MBEWC中提到的情感词词典、程度词词典和否定词词典进行了内容和结构上的改进,而且新添加了表情词典、语气词词典以及特殊标记符词典,从而提升文本分析的准确度。其中,情感词词典包含可以反映用户情感倾向的名词、形容词和副词,如“高兴”、“失望”等;程度词词典包含可以反映用户情绪激烈程度的形容词和副词,如“非常”、“特别”等;否定词词典包含表示否定关系的词汇,如“不”、“非”等;表情词典包含微博中可能出现的表情符号,如“ ”(大笑)、“OTZ”(膜拜)等;语气词词典包含各种语气助词和感叹词,如“哈哈”、“唉”等;特殊标识符用于识别微博中的特定标记,包含各种新闻、广告的对应标记。在以上六个词典中,前三个词典适用于大多数文本倾向分析工作,后三个则是针对微博的文本特征特别设计的,可以有效地提升分析的准确率。

随后,对网络上1万条新浪微博数据进行分词、统计,为词典中的各个词条计算对应的权值:情感词、表情词与语气词的权值表示用户的基础倾向,权值范围是[-20,20];否定词表示否定关系,权值为-1;程度词表示情感激烈程度,权值范围是[0.7,1.3];特殊标记符用于判断情感倾向的可信度,权值为1或0。每个词条均由多人分别进行标记,取其平均值作为结果,从而保证这一过程的客观性。

新建立的词典系统共包括词条2 637条(见表1)。

通过这种方法建立的词典系统的优点是:①针对性强。由于词典组中的词条均来自真实的微博数据,因此与其他方式建立的词典组相比,该词典组包含了较多的网络用语和专有词汇(这些内容在其他文本数据中十分少见),从而更加适合处理微博数据。②分析全面。这个词典组由六个词典构成,可以对微博文本数据进行表情符号、语气特征以及可信度进行评判,使得整个分析过程更加全面合理。

微博情感倾向算法主要流程

在进行数据分析之前,先要对数据进行筛选,剔除微博系统自动的广告和新闻信息,仅保留能够反映用户真实情感倾向的微博数据。这部分工作主要依靠特殊标识符词典的识别和判断。

微博情感倾向分析改进算法的主要流程如下:

子句分割。根据标点符号将读入的微博数据分割为多个子句c1,c2,…,cn。由于部分标点符号会对子句的倾向值产生影响(例如小括号中的内容多为解释说明,属于次要信息),因此需要对部分子句进行额外的权值运算,权值取值范围为[0.5,1.5]。

表情符号分析。利用表情词典,对于ci中的表情符号a1,a2,…,an进行匹配(见图1),并累计表情符号的权值为Ai。如果Ai大于特定阈值,则以Ai作为子句ci的情感倾向值Eci,并直接执行“重复计算”流程;如果Ai小于特定阈值,则将表情符号从ci中删去,生成ci’,并进行后续分析。

修饰关系分析。利用情感词词典、程度词词典以及否定词词典识别ci’中的情感词(e1,e2,…,en)、程度词(d1,d2,…,dn)和否定词(n1,n2,…,nn)。修饰关系的分析主要是根据特定方向的最近原则来确定,即根据每个程度词和否定词在词典中的修饰标记位,确定其修饰方向,并将该方向最近的一个情感词作为其修饰目标。程度词和否定词的权值会与被修饰的情感词相乘,作为修饰后的情感词权重ei’。随后,已经完成修饰的程度词和否定词会被从ci’中删去,生成ci’’(见图2)。

语气分析。利用感叹词词典,识别ci’’中的语气词(m1,m2,…,mi),从而进行子句的语气分析。

子句倾向汇总。将子句中的表情(ai)、情感词(ei’)以及语气词(mi)的系数进行加和,得到子句的倾向值Eci。

重复计算。当子句ci的倾向值计算完成后,转至下一子句,并重复上述的过程,直至所有子句的倾向值计算完成。

子句逻辑分析。根据子句中所包含的逻辑连词,对特定子句进行额外的权值运算,从而增强和削弱部分子句的重要程度。此外,还需要根据子句的先后顺序,进行权值运算,突出位置靠后子句的重要程度,得到逻辑分析后的子句倾向值Eci’。

子句倾向汇总。对每一个子句倾向值Eci’进行累加,得到该微博的情感倾向系数E。

至此,微博数据的情感倾向分析已经完成,E即为所求的倾向系数。

算法测试评估

在完成上述工作后,利用C++编写算法验证程序。该程序可以读入词典系统以及微博数据,并按照算法流程进行计算,最后得出相应的情感倾向。笔者使用这个程序对算法进行测试。测试中将以下结果视为判断成功:积极倾向微博的计算结果>0;中立倾向微博的计算结果=0;消极倾向微博的计算结果

4.1 数据准备

利用网络爬虫重新获取了一定量的微博数据,并从中随机抽取了10 000条用于测试。这样做可以有效降低爬虫软件带来的数据来源局限性,使得测试结果更加客观。

测试数据的情感倾向由多人分别进行标定,并在最后进行统一汇总。汇总时,将情感倾向标定意见相同的微博作为样例,对意见不同的微博进行讨论,直至所有测试数据的情感倾向被确定。测试数据的分布如表2所示:

4.2 算法测试

使用对比试验的方式,借用现在比较成熟的ROST_EA[14]微博情感倾向分析系统与本文所提出的改进算法进行比较,从而明确新算法的特点、优势与不足。本文主要比较了两种算法的召回率与准确率。

召回率代表原有的某种倾向微博(积极、中立或消极)被算法成功识别的概率。即召回率越高,算法在处理该类微博时遗漏越少。

测试结果如表3所示:

准确率代表在算法做出某种倾向判断(积极、中立或消极)时,判断为正确的概率,即准确率越高,算法在做出该类判断时错误越少。

测试结果见表4。

从表4可以看出,与ROST_EA相比,新算法在处理情感倾向比较明显的微博时略逊于ROST_EA,分别低0.84%和3.48%;但是在处理情感倾向比较模糊或偏向中性的微博时,准确率提高了46.53%。 整体而言,在分析微博数据的过程中,新算法的正确率高达80.74%,远高于ROST_EA的58.02%。

尽管ROST_EA在处理情感倾向明显的微博时召回率略微高于本算法,但是这并不代表该算法的分析模式占优。在分析这些微博时,ROST_EA总共将4 901条微博标记为积极倾向、将3 053条微博标记为消极倾向,但它们之中判断正确的仅有2 678条和1 314条。这说明该算法在判断出较多的具有倾向性微博的同时,也包含了大量的错误判断,导致整体效果有限。反观新算法,其不但在判断倾向性明显的微博时表现优秀,在面对中立倾向的微博时也一样具有很高的召回率,达到了召回率和正确率的平衡。改进的算法与

4.3 测试结果分析

新算法针对现有算法的缺陷进行了改进和完善,具体改进效果如表5所示:

从表5可以看出,新算法在词典系统、词法分析和语法分析等方面的改进提升了数据分析的正确率。其中,仅词典系统改进就使得分析正确率提升了16.05%,从而证明了词典系统改进方案的有效性。此外,词法分析与语法分析分别使分析正确率提升了4.15%和3.52%,这一方面显示出本文所提出的词法语法分析体系的合理性,另一方面也反映了现有的修饰规则和语法库还不够完善,有进一步改善的空间。最后,改进算法中的格式统一、文字翻译等其他改进项也使得正确率得到了0.33%的提升。

整体而言,本文提出的改进算法对现有算法的缺陷进行了弥补,并提出了一系列改进措施,使得微博文本数据分析的正确率有了较大的提升。

结 语

本文提出了一种针对微博系统的情感倾向分析算法,用于对网络微博文本进行倾向性分析。与现有的微博情感倾向分析算法相比,这套算法考虑了更多的语法因素,从而使分析计算过程更加科学合理。最后,本文还对所提出的算法进行了测试并与现有的微博情感倾向算法进行对比,证明新算法具备明显的优势和特点。

[参考文献]

[1] 新浪网. 新浪2012年第三季度财务报告[EB/OL].[2013-04-17].http://.cn.

[2] 冯希莹,王来华. 舆情概念辨析[J]. 社会工作(学术版), 2011(5):83-87.

[3] Hatzivassiloglous V, MCKeown K. Predicting the semantic orientation of adjectives[C]// Proceedings of ACL-97, 35th Annual Meeting of the Association for Computational Linguistics. Madrid: ACL, 1997:174-181.

[4] Zagibalov T, Carroll J. Automatic seed word selection for unsupervised sentiment classification of Chinese text[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008).Manchester: Coling 2008 Organizing Committee, 2008:1073-1080.

[5] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing(EMNLP 2002). Philadelphia:ACL,2002:79-86.

[6] Turney P D, Littman M L. Measuring praise and criticism: Inference of semantic orientation form association[J]. ACM Transactions on Information Systems, 2003, 21(4):315-346.

[7] 王素格. 基于Web的评论文本情感分类问题研究[D].上海:上海大学, 2008.

[8] Tan S, Wu G, Tang H. A Novel scheme for domain-transfer problem in the context of sentiment analysis[C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management. Lisbon: ACM, 2007:979-982.

[9] Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle: ACM, 2004:168-177.

[10] 魏,向阳. 中文文本情感分析综述[J].计算机应用,2011(12):3321-3323.

[11] 杜伟夫,谭松波,云晓春,等. 一种新的情感词汇语义倾向计算方法[J].计算机研究与发展,2009,46(10):1713-1720.

[12] Yuen R W M, Chan T Y W, Lai T B Y. Morpheme-based derivation of bipolar semantic orientation of Chinese words[C]//Proccedings of the 20th International Conference of Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2004: 1008 - 1014.

[13] 张靖,金浩. 汉语词语情感倾向自动判断研究[J]. 计算机工程, 2010, 36(23): 194-196.

[14] Yang Shen. Emotion mining research on Micro-blog[C]//2009 1st IEEE Symposium on Web Society(SWS 2009). Lanzhou: Lanzhou University,2009.

[15] 朱嫣岚,闵锦,周雅倩,等. 基于HowNet的词汇语义倾向计算[J]. 中文信息学报, 2006, 20(1): 14-20.

[16] 熊德兰,程菊明,田胜利. 基于HowNet的句子褒贬倾向性研究[J]. 计算机工程与应用, 2008, 44(22): 143- 144.

[17] 李实,叶强,李一军. 中文网络客户评论的产品特征挖掘方法研究[J]. 管理科学学报, 2009, 12(2): 142-152.

[18] 刘鸿宇,赵妍妍,秦兵,等. 评价对象抽取及其倾向性分析[J]. 中文信息学报, 2010, 24(1): 84-88.

[19] 唐慧丰,谭松波,程学旗. 基于监督学习的中文情感分类技术比较研究[J].中文信息学报, 2007, 21(6):88 - 94.

数据分析方向篇(5)

关键词地理信息系统,计算机系统,空间数据库.

以计算机为核心的信息处理系统技术是二次世界大战后科技革命的主要标志之一.在信息的诸多类型中与空间相关的信息是十分重要的一类.人类生存的地球这个三维空间中的万物无不与空间位置相关,如何利用计算机处理空间相关信息是地理信息系统(geographicinformationsystem,简称GIS)产生和发展的原动力.GIS技术在国防、城市规划、交通运输、环境监测和保护等与国民经济乃至国家命脉相关的重要领域的成功应用,极大地推动了社会生产力的发展,同时,也极大地刺激了GIS技术的迅速发展,使之成为世界各国激烈竞争的高科技热点之一[1].国家科委将其列入九五重中之重科技攻关项目.MAPGIS,VIEWGIS,CITYSTAR,GEOSTAR等一批优秀国产GIS软件已经开始在许多领域得到广泛应用,成为国内GIS市场一支不可忽视的力量.

本文将侧重从GIS技术的角度讨论GIS的定义、研究内容及研究动态.1.GIS的定义和研究内容1.1GIS的定义

GIS是计算机科学、地理学、测量学、地图学等多门学科综合的技术.要给出GIS的准确定义是困难的,因为GIS涉及的面太广,站在不同的角度,给出的定义就不同.通常可以从4种不同的途径来定义GIS[2].(1)面向功能的定义.GIS是采集、存储、检查、操作、分析和显示地理数据的系统.(2)面向应用的定义.这种方式根据GIS应用领域的不同,将GIS分为各类应用系统,例如土地信息系统、城市信息系统、规划信息系统、空间决策支持系统等.(3)工具箱定义方式.GIS是一组用来采集、存储、查询、变换和显示空间数据的工具的集合.这种定义强调GIS提供的用于处理地理数据的工具.(4)基于数据库的定义.GIS是这样一类数据库系统,它的数据有空间次序,并且提供一个对数据进行操作的操作集合,用来回答对数据库中空间实体的查询.

我们认为,虽然GIS是一门多学科综合的边缘学科,但其核心是计算机科学,基本技术是数据库、地图可视化及空间分析(见图1);因此,可以这样定义:GIS是处理地理数据的输入、输出、管理、查询、分析和辅助决策的计算机系统.

虽然GIS使用了地图、可视化、数据库等技术,但与CAD系统、计算机地图系统、数据库系统等均有很大的区别.

CAD系统提供交互式的图形处理功能,以辅助象建筑、VLSI等人造对象的设计,其主要特点是设计者与计算机模型的交互.目前许多CAD开始支持对象的非图形性质,而GIS处理的数据大多来自现实世界,较之CAD的人造对象更为复杂,数据量更大.另外,CAD中的拓扑关系较为简单.更重要的是,GIS强调对空间数据的分析,CAD这方面的功能要弱得多.

计算机地图系统侧重于数据查询、分类及自动符号化,具有辅助设计地图和产生高质量矢量形式的输出机制.它强调数据显示而不是数据分析,地理数据往往缺少拓扑关系;另外,它与数据库的联系通常是一些简单的查询.

数据库系统是各种类型信息系统的核心.通用数据库侧重非图形数据的优化存储与查询,其图形查询与显示功能极为有限,其数据分析功能也很有限.然而,数据库的一些基本技术,如数据模型、数据存储、数据检索等,都在GIS中广泛采用,成为GIS的核心技术.

由此可见,GIS已经形成了一个独立的、具有鲜明特色的研究领域.GIS的研究内容很广泛,下面我们从输入、存储、操作和分析、输出4个方面来讨论GIS的研究内容.1.2GIS的研究内容

(1)输入.地理数据如何有效地输入到GIS中是一项琐碎、费时、代价昂贵的任务,大多数的地理数据是从低质地图输入GIS.常用的方法是数字化和扫描.数字化的主要问题是低效率和高代价;扫描输入则面临另一个问题,扫描得到的栅格数据如何变换成GIS数据库通常要求的点、线、面、拓扑关系属性等形式.就这一领域目前的研究进展而言,全自动的智能地图识别短期内没有实现的可能;因而,交互式的地图识别是矢量化方法的一种较为现实的途径.市场上已有多种交互式矢量化软件出售.

目前GIS的输入正在越来越多地借助非地图形式,遥感就是其中的一种形式.遥感数据已经成为GIS的重要数据来源.与地图数据不同的是,遥感数据输入到GIS较为容易,但如果通过对遥感图象的解释来采集和编译地理信息则是一件较为困难的事情;因此,GIS中开始大量融入图象处理技术,许多成熟的GIS产品,如MAPGIS中都具有功能齐全的图象处理子系统.

地理数据采集的另一项主要进展是GPS技术.GPS可以准确、快速地定位在地球表面的任何地点,因而,除了作为原始地理信息的来源外,GPS在飞行器跟踪、紧急事件处理、环境和资源监测、管理等方面有着很大的潜力.

(2)存储.GIS中的数据分为栅格数据和矢量数据两大类,如何在计算机中有效存储和管理这两类数据是GIS的基本问题.在计算机高速发展的今天,尽管微机的硬盘容量已达到GB级,但计算机的存储器对灵活、高效地处理地图这类对象仍是不够的.GIS的数据存储却有其独特之处.大多数的GIS系统中采用了分层技术,即根据地图的某些特征,把它分成若干层,整张地图是所有层叠加的结果.在与用户的交换过程中只处理涉及到的层,而不是整幅地图,因而能够对用户的要求作出快速反应.

地理数据存储是GIS中最低层和最基本的技术,它直接影响到其他高层功能的实现效率,从而影响整个GIS的性能.基于微机平台的MAPGIS能够快速、高效地处理多达上万幅的海量地图库,这不仅在国产GIS软件中处于领先地位,即使与国外同类产品相比仍是其中佼佼者,这与MAPGIS较好地解决了地理数据的存储问题密切相关.

(3)地理数据的操作和分析.GIS中对数据的操作提供了对地理数据有效管理的手段.对图形数据(点、线、面)和属性数据的增加、删除、修改等基本操作大多可借鉴CAD和通用数据库中的成熟技术;有所不同的是GIS中图形数据与属性数据紧密结合在一起,形成对地物的描述,对其中一类数据的操作势必影响到与之相关的另一类数据,因而操作带来的数据一致性和操作效率问题是GIS数据操作的主要问题.

地理数据的分析功能,即空间分析,是GIS得以广泛应用的重要原因之一.通过GIS提供的空间分析功能,用户可以从已知的地理数据中得出隐含的重要结论,这对于许多应用领域是至关重要的.

GIS的空间分析分为两大类:矢量数据空间分析和栅格数据空间分析.矢量数据空间分析通常包括:空间数据查询和属性分析,多边形的重新分类、边界消除与合并,点线、点与多边形、线与多边形、多边形与多边形的叠加,缓冲区分析,网络分析,面运算,目标集统计分析.栅格数据空间分析功能通常包括:记录分析、叠加分析、滤波分析、扩展领域操作、区域操作、统计分析.

(4)输出.将用户查询的结果或是数据分析的结果以合适的形式输出是GIS问题求解过程的最后一道工序.输出形式通常有两种:在计算机屏幕上显示或通过绘图仪输出.对于一些对输出精度要求较高的应用领域,高质量的输出功能对GIS是必不可少的.这方面的技术主要包括:数据校正、编辑、图形整饰、误差消除、坐标变换、出版印刷等.2地理信息系统的发展动态

近年来地理信息系统技术发展迅速,其主要的原动力来自日益广泛的应用领域对地理信息系统不断提高的要求.另一方面,计算机科学的飞速发展为地理信息系统提供了先进的工具和手段,许多计算机领域的新技术,如面向对象技术、三维技术、图象处理和人工智能技术都可直接应用到地理信息系统中[3].下面我们对当前地理信息系统研究中的几个热点研究领域作一介绍.2.1GIS中面向对象(objectoriented)技术研究

面向对象方法为人们在计算机上直接描述物理世界提供了一条适合于人类思维模式的方法,面向对象的技术在GIS中的应用,即面向对象的GIS,已成为GIS的发展方向.这是因为空间信息较之传统数据库处理的一维信息更为复杂、琐碎,面向对象的方法为描述复杂的空间信息提供了一条直观、结构清晰、组织有序的方法,因而倍受重视[4].图2展示了面向对象的GIS的一般结构.

面向对象的GIS较之传统GIS有下列优点:(1)所有的地物以对象形式封装,而不是以复杂的关系形式存储,使系统组织结构良好、清晰;(2)以对象为基础,消除了分层的概念;(3)面向对象的分类结构和组装结构使GIS可以直接定义和处理复杂的地物类型;(4)根据面向对象late_binding(后编译)的思想,用户可以在现有抽象数据类型和空间操作箱上定义自己所需的数据类型和空间操作方法,增强系统的开发性和可扩充性;(5)基于icon的面向对象的用户界面,便于用户操作和使用.

SmallworldGIS是目前面向对象GIS中最为典型的代表.一些传统的GIS也开始部分采用面向对象的技术,如ARC/INFO7.0,Intergraph的TIGRIS,SYSTEM9,FACET系统等.

面向对象的GIS也存在一些尚待进一步研究的问题:(1)大对象的操作仍受硬件条件的限制;(2)对象的独立性与颗粒度问题;(3)矢量和栅格数据统一的、支持动态拓扑结构和复合对象表示的面向对象的数据结构问题.2.2时空系统(spatio_temporalsystem)

传统的地理信息系统只考虑地物的空间特性,忽略了其时间特性.在许多应用领域中,如环境监测、地震救援、天气预报等,空间对象是随时间变化的,而这种动态变化的规律在求解过程中起着十分重要的作用.过去GIS忽略时态主要是受器件的限制,也有技术方面的原因.近年来,对GIS中时态特性的研究变得十分活跃,即所谓“时空系统”[5].

地物除了具有三维空间中的空间性质外,如何刻画时间维的变化也十分重要.通常把GIS的时间维分成处理时间维(transactiontimedimension)和有效时间维(validtimedimension).处理时间又称数据库时间或系统时间,它指在GIS中处理发生的时间.有效时间亦称事件时间或实际时间,它指在实际应用领域事件出现的时间.

根据处理时间和有效时间的划分,可以把时空系统分为4类:静态时空系统(staticSTsystem)、历史时态系统(historicalSTsystem)、回溯时态系统(rollbackSTsystem)和双时态系统(bitemporalSTsystem).

(1)静态时空系统.它既不支持处理时间,也不支持有效时间,系统只保留应用领域的一种状态,比如当前状态.(2)历史时态系统.它只支持有效时间,这种系统适用于事件实际发生的历史对问题求解十分重要的应用领域.(3)回溯时态系统.它只支持处理时间,这种系统适用于信息系统的历史对问题求解十分重要的应用领域.(4)双时态系统.它同时支持处理时间和有效时间.处理时间记录了信息系统的历史,有效时间记录了事件发生的历史.

时空系统主要研究时空模型,时空数据的表示、存储、操作、查询和时空分析.目前比较流行的作法是在现有数据模型基础上扩充,如在关系模型的元组中加入时间,在对象模型中引入时间属性.在这种扩充的基础上如何解决从表示到分析的一系列问题仍有待进一步研究.2.3地理信息建模系统(geographicinformationmodellingsystem,简称GIMS)

通用GIS的空间分析功能对于大多数的应用问题是远远不够的,因为这些领域都有自己独特的专用模型,目前通用的GIS大多通过提供进行二次开发的工具和环境来解决这一问题.如ARC/INFO提供的进行二次开发的宏语言AML.二次开发工具的一个主要问题是它对于普通用户而言过于困难.而GIS成功应用于专门领域的关键在于支持建立该领域特有的空间分析模型.GIS应当支持面向用户的空间分析模型的定义、生成和检验的环境,支持与用户交互式的基于GIS的分析、建模和决策.这种GIS系统又称为地理信息建模系统.GIMS是目前GIS研究的热点问题之一.

目前实现通用GIS空间分析功能与各种领域专用模型的结合主要有两种途径.(1)松散耦合式.即除GIS外,借助其他软件环境实现专用模型,其与GIS之间采用数据通讯的方式联系.(2)嵌入式.即在GIS中借助GIS的通用功能来实现应用领域的专用分析模型.上述两种方式总体上对用户定义自己的专用模型的支持程度都是不够的.目前的GIS离支持实现数据集定义、模型定义、模型生成和模型检验的全过程仍有相当大的距离.

GIMS的研究有几个值得注意的动向.(1)面向对象在GIS中的应用.面向对象技术用对象(实体属性和操作的封装)、对象类结构(分类和组装结构)、对象间的通讯来描述客观世界,为描述复杂的三维空间提供了一条结构化的途径.这种技术本身就为模型的定义和表示提供了有效的手段,因而在面向对象GIS基础上研究面向对象的模型定义、生成和检验,应当比在传统GIS上用传统方法要容易得多.(2)基于icon的用户建模界面.建模过程中的对象和空间分析操作均以icon形式展示给用户,用户亦可自定义icon.用户在对icon的定义、选择和操作中完成模型的定义和检验.这种方法较之AML这类宏语言要方便和直观得多.(3)GIS与其他的模型和知识库的结合.这是许多应用领域面临的一个非常实际的问题,即存在GIS之外的模型和知识库如何与GIS耦合成一个有机整体.2.4三维GIS的研究

三维GIS是许多应用领域对GIS的基本要求.目前的GIS大多提供了一些较为简单的三维显示和操作功能,但这与真三维表示和分析还有很大差距.真正的三维GIS必须支持真三维的矢量和栅格数据模型及以此为基础的三维空间数据库,解决了三维空间操作和分析问题.主要研究的方向包括:(1)三维数据结构的研究,主要包括数据的有效存储、数据状态的表示和数据的可视化;(2)三维数据的生成和管理;(3)地理数据的三维显示,主要包括三维数据的操作,表面处理,栅格图象、全息图象显示,层次处理等.

3结语

数据分析方向篇(6)

关键词 地理信息系统,计算机系统,空间数据库.

以计算机为核心的信息处理系统技术是二次世界大战后科技革命的主要标志之一.在信息的诸多类型中与空间相关的信息是十分重要的一类.人类生存的地球这个三维空间中的万物无不与空间位置相关,如何利用计算机处理空间相关信息是地理信息系统(geographic information system,简称GIS)产生和发展的原动力.GIS技术在国防、城市规划、交通运输、环境监测和保护等与国民经济乃至国家命脉相关的重要领域的成功应用,极大地推动了社会生产力的发展,同时,也极大地刺激了GIS技术的迅速发展,使之成为世界各国激烈竞争的高科技热点之一[1].国家科委将其列入九五重中之重科技攻关项目.MAPGIS,VIEWGIS,CITYSTAR,GEOSTAR等一批优秀国产GIS软件已经开始在许多领域得到广泛应用,成为国内GIS市场一支不可忽视的力量.

本文将侧重从GIS技术的角度讨论GIS的定义、研究内容及研究动态. 1.GIS的定义和研究内容 1.1 GIS的定义

GIS是计算机科学、地理学、测量学、地图学等多门学科综合的技术.要给出GIS的准确定义是困难的,因为GIS涉及的面太广,站在不同的角度,给出的定义就不同.通常可以从4种不同的途径来定义GIS[2].(1)面向功能的定义.GIS是采集、存储、检查、操作、分析和显示地理数据的系统.(2)面向应用的定义.这种方式根据GIS应用领域的不同,将GIS分为各类应用系统,例如土地信息系统、城市信息系统、规划信息系统、空间决策支持系统等.(3)工具箱定义方式.GIS是一组用来采集、存储、查询、变换和显示空间数据的工具的集合.这种定义强调GIS提供的用于处理地理数据的工具.(4)基于数据库的定义.GIS是这样一类数据库系统,它的数据有空间次序,并且提供一个对数据进行操作的操作集合,用来回答对数据库中空间实体的查询.

我们认为,虽然GIS是一门多学科综合的边缘学科,但其核心是计算机科学,基本技术是数据库、地图可视化及空间分析(见图1);因此,可以这样定义:GIS是处理地理数据的输入、输出、管理、查询、分析和辅助决策的计算机系统.

虽然GIS使用了地图、可视化、数据库等技术,但与CAD系统、计算机地图系统、数据库系统等均有很大的区别.

CAD系统提供交互式的图形处理功能,以辅助象建筑、VLSI等人造对象的设计,其主要特点是设计者与计算机模型的交互.目前许多CAD开始支持对象的非图形性质,而GIS处理的数据大多来自现实世界,较之CAD的人造对象更为复杂,数据量更大.另外,CAD中的拓扑关系较为简单.更重要的是,GIS强调对空间数据的分析,CAD这方面的功能要弱得多.

计算机地图系统侧重于数据查询、分类及自动符号化,具有辅助设计地图和产生高质量矢量形式的输出机制.它强调数据显示而不是数据分析,地理数据往往缺少拓扑关系;另外,它与数据库的联系通常是一些简单的查询.

数据库系统是各种类型信息系统的核心.通用数据库侧重非图形数据的优化存储与查询,其图形查询与显示功能极为有限,其数据分析功能也很有限.然而,数据库的一些基本技术,如数据模型、数据存储、数据检索等,都在GIS中广泛采用,成为GIS的核心技术.

由此可见,GIS已经形成了一个独立的、具有鲜明特色的研究领域.GIS的研究内容很广泛,下面我们从输入、存储、操作和分析、输出4个方面来讨论GIS的研究内容. 1.2 GIS的研究内容

(1)输入.地理数据如何有效地输入到GIS中是一项琐碎、费时、代价昂贵的任务,大多数的地理数据是从低质地图输入GIS.常用的方法是数字化和扫描.数字化的主要问题是低效率和高代价;扫描输入则面临另一个问题,扫描得到的栅格数据如何变换成GIS数据库通常要求的点、线、面、拓扑关系属性等形式.就这一领域目前的研究进展而言,全自动的智能地图识别短期内没有实现的可能;因而,交互式的地图识别是矢量化方法的一种较为现实的途径.市场上已有多种交互式矢量化软件出售.

目前GIS的输入正在越来越多地借助非地图形式,遥感就是其中的一种形式.遥感数据已经成为GIS的重要数据来源.与地图数据不同的是,遥感数据输入到GIS较为容易,但如果通过对遥感图象的解释来采集和编译地理信息则是一件较为困难的事情;因此,GIS中开始大量融入图象处理技术,许多成熟的GIS产品,如MAPGIS中都具有功能齐全的图象处理子系统.

地理数据采集的另一项主要进展是GPS技术.GPS可以准确、快速地定位在地球表面的任何地点,因而,除了作为原始地理信息的来源外,GPS在飞行器跟踪、紧急事件处理、环境和资源监测、管理等方面有着很大的潜力.

(2)存储.GIS中的数据分为栅格数据和矢量数据两大类,如何在计算机中有效存储和管理这两类数据是GIS的基本问题.在计算机高速发展的今天,尽管微机的硬盘容量已达到GB级,但计算机的存储器对灵活、高效地处理地图这类对象仍是不够的.GIS的数据存储却有其独特之处.大多数的GIS系统中采用了分层技术,即根据地图的某些特征,把它分成若干层,整张地图是所有层叠加的结果.在与用户的交换过程中只处理涉及到的层,而不是整幅地图,因而能够对用户的要求作出快速反应.

地理数据存储是GIS中最低层和最基本的技术,它直接影响到其他高层功能的实现效率,从而影响整个GIS的性能.基于微机平台的MAPGIS能够快速、高效地处理多达上万幅的海量地图库,这不仅在国产GIS软件中处于领先地位,即使与国外同类产品相比仍是其中佼佼者,这与MAPGIS较好地解决了地理数据的存储问题密切相关.

(3)地理数据的操作和分析.GIS中对数据的操作提供了对地理数据有效管理的手段.对图形数据(点、线、面)和属性数据的增加、删除、修改等基本操作大多可借鉴CAD和通用数据库中的成熟技术;有所不同的是GIS中图形数据与属性数据紧密结合在一起,形成对地物的描述,对其中一类数据的操作势必影响到与之相关的另一类数据,因而操作带来的数据一致性和操作效率问题是GIS数据操作的主要问题.

地理数据的分析功能,即空间分析,是GIS得以广泛应用的重要原因之一.通过GIS提供的空间分析功能,用户可以从已知的地理数据中得出隐含的重要结论,这对于许多应用领域是至关重要的.

GIS的空间分析分为两大类:矢量数据空间分析和栅格数据空间分析.矢量数据空间分析通常包括:空间数据查询和属性分析,多边形的重新分类、边界消除与合并,点线、点与多边形、线与多边形、多边形与多边形的叠加,缓冲区分析,网络分析,面运算,目标集统计分析.栅格数据空间分析功能通常包括:记录分析、叠加分析、滤波分析、扩展领域操作、区域操作、统计分析.

(4)输出.将用户查询的结果或是数据分析的结果以合适的形式输出是GIS问题求解过程的最后一道工序.输出形式通常有两种:在计算机屏幕上显示或通过绘图仪输出.对于一些对输出精度要求较高的应用领域,高质量的输出功能对GIS是必不可少的.这方面的技术主要包括:数据校正、编辑、图形整饰、误差消除、坐标变换、出版印刷等. 2 地理信息系统的发展动态

近年来地理信息系统技术发展迅速,其主要的原动力来自日益广泛的应用领域对地理信息系统不断提高的要求.另一方面,计算机科学的飞速发展为地理信息系统提供了先进的工具和手段,许多计算机领域的新技术,如面向对象技术、三维技术、图象处理和人工智能技术都可直接应用到地理信息系统中[3].下面我们对当前地理信息系统研究中的几个热点研究领域作一介绍. 2.1 GIS中面向对象(object oriented)技术研究

面向对象方法为人们在计算机上直接描述物理世界提供了一条适合于人类思维模式的方法,面向对象的技术在GIS中的应用,即面向对象的GIS,已成为GIS的发展方向.这是因为空间信息较之传统数据库处理的一维信息更为复杂、琐碎,面向对象的方法为描述复杂的空间信息提供了一条直观、结构清晰、组织有序的方法,因而倍受重视[4].图2展示了面向对象的GIS的一般结构.

面向对象的GIS较之传统GIS有下列优点:(1)所有的地物以对象形式封装,而不是以复杂的关系形式存储,使系统组织结构良好、清晰;(2)以对象为基础,消除了分层的概念;(3)面向对象的分类结构和组装结构使GIS可以直接定义和处理复杂的 地物类型;(4)根据面向对象late_binding(后编译)的思想,用户可以在现有抽象数据类型和空间操作箱上定义自己所需的数据类型和空间操作方法,增强系统的开发性和可扩充性;(5)基于icon的面向对象的用户界面,便于用户操作和使用.

Smallworld GIS是目前面向对象GIS中最为典型的代表.一些传统的GIS也开始部分采用面向对象的技术,如ARC/INFO 7.0,Intergraph的TIGRIS,SYSTEM 9,FACET系统等.

面向对象的GIS也存在一些尚待进一步研究的问题:(1)大对象的操作仍受硬件条件的限制;(2)对象的独立性与颗粒度问题;(3)矢量和栅格数据统一的、支持动态拓扑结构和复合对象表示的面向对象的数据结构问题. 2.2 时空系统(spatio_temporal system)

传统的地理信息系统只考虑地物的空间特性,忽略了其时间特性.在许多应用领域中,如环境监测、地震救援、天气预报等,空间对象是随时间变化的,而这种动态变化的规律在求解过程中起着十分重要的作用.过去GIS忽略时态主要是受器件的限制,也有技术方面的原因.近年来,对GIS中时态特性的研究变得十分活跃,即所谓“时空系统”[5].

地物除了具有三维空间中的空间性质外,如何刻画时间维的变化也十分重要.通常把GIS的时间维分成处理时间维(transaction time dimension)和有效时间维(valid time dimension).处理时间又称数据库时间或系统时间,它指在GIS中处理发生的时间.有效时间亦称事件时间或实际时间,它指在实际应用领域事件出现的时间.

根据处理时间和有效时间的划分,可以把时空系统分为4类:静态时空系统(static ST system)、历史时态系统(historical ST system)、回溯时态系统(rollback ST system)和双时态系统(bitemporal ST system).

(1)静态时空系统.它既不支持处理时间,也不支持有效时间,系统只保留应用领域的一种状态,比如当前状态.(2)历史时态系统.它只支持有效时间,这种系统适用于事件实际发生的历史对问题求解十分重要的应用领域.(3)回溯时态系统.它只支持处理时间,这种系统适用于信息系统的历史对问题求解十分重要的应用领域.(4)双时态系统.它同时支持处理时间和有效时间.处理时间记录了信息系统的历史,有效时间记录了事件发生的历史.

时空系统主要研究时空模型,时空数据的表示、存储、操作、查询和时空分析.目前比较流行的作法是在现有数据模型基础上扩充,如在关系模型的元组中加入时间,在对象模型中引入时间属性.在这种扩充的基础上如何解决从表示到分析的一系列问题仍有待进一步研究. 2.3 地理信息建模系统(geographic information modelling system,简称GIMS)

通用GIS的空间分析功能对于大多数的应用问题是远远不够的,因为这些领域都有自己独特的专用模型,目前通用的GIS大多通过提供进行二次开发的工具和环境来解决这一问题.如ARC/INFO提供的进行二次开发的宏语言AML.二次开发工具的一个主要问题是它对于普通用户而言过于困难.而GIS成功应用于专门领域的关键在于支持建立该领域特有的空间分析模型.GIS应当支持面向用户的空间分析模型的定义、生成和检验的环境,支持与用户交互式的基于GIS的分析、建模和决策.这种GIS系统又称为地理信息建模系统.GIMS是目前GIS研究的热点问题之一.

目前实现通用GIS空间分析功能与各种领域专用模型的结合主要有两种途径.(1)松散耦合式.即除GIS外,借助其他软件环境实现专用模型,其与GIS之间采用数据通讯的方式联系.(2)嵌入式.即在GIS中借助GIS的通用功能来实现应用领域的专用分析模型.上述两种方式总体上对用户定义自己的专用模型的支持程度都是不够的.目前的GIS离支持实现数据集定义、模型定义、模型生成和模型检验的全过程仍有相当大的距离.

GIMS的研究有几个值得注意的动向.(1)面向对象在GIS中的应用.面向对象技术用对象(实体属性和操作的封装)、对象类结构(分类和组装结构)、对象间的通讯来描述客观世界,为描述复杂的三维空间提供了一条结构化的途径.这种技术本身就为模型的定义和表示提供了有效的手段,因而在面向对象GIS基础上研究面向对象的模型定义、生成和检验,应当比在传统GIS上用传统方法要容易得多.(2)基于icon的用户建模界面.建模过程中的对象和空间分析操作均以icon形式展示给用户,用户亦可自定义icon.用户在对icon的定义、选择和操作中完成模型的定义和检验.这种方法较之AML这类宏语言要方便和直观得多.(3)GIS与其他的模型和知识库的结合.这是许多应用领域面临的一个非常实际的问题,即存在GIS之外的模型和知识库如何与GIS耦合成一个有机整体. 2.4 三维GIS的研究

三维GIS是许多应用领域对GIS的基本要求.目前的GIS大多提供了一些较为简单的三维显示和操作功能,但这与真三维表示和分析还有很大差距.真正的三维GIS必须支持真三维的矢量和栅格数据模型及以此为基础的三维空间数据库,解决了三维空间操作和分析问题.主要研究的方向包括:(1)三维数据结构的研究,主要包括数据的有效存储、数据状态的表示和数据的可视化;(2)三维数据的生成和管理;(3)地理数据的三维显示,主要包括三维数据的操作,表面处理,栅格图象、全息图象显示,层次处理等. 3 结语

数据分析方向篇(7)

关键词:数据仓库;数据挖掘;教务数据;深度挖掘

中图分类号:TP393 文献标识码:A

1 引言

在信息时代,信息技术的快速发展对社会各个领域都产生了一定的影响,在电子商务中反映尤为突出。对于学校教务系统的应用相对较晚,但教务数据对学校而言,是最基本的数据,这些数据的保留是学校运作的根本。对教务数据的分析也是对学校教学效果的评定,能够从庞大的教务数据中挖掘出更潜在的信息,既是对学校运行状况的更深入了解,又有利于学校对未来发展方向的决策。

2 教务管理状况分析

教务管理不仅是处理学校的日常事务,它更重要的作用体现在可以反映学校的教学效果和分析学校培养方向的正确性,并以此帮助学校向更好的方向发展。教务数据分析的处理到目前为止经历了人工和计算机处理的两大阶段。

2.1 人工处理阶段

为了反映较大范围教务情况的整体特征,教务部门通常要付出庞大的人力和物力收集和分析大量数据。这个数据的收集通常要经历一个较长的时间,间隔一段时间还必须重复执行。比如开课计划、学生成绩、教室使用情况等。然而,分析收集来的海量数据更是教务部门头疼的一件事。

还没有出现计算机前,光靠人工来处理数据有时还会面临这样的窘境:上一期的数据结果还没分析出来,下一期的数据收集又要开始了,因此整个数据收集和分析工作变得没有任何意义。另外,有些数据需要间隔一段时间重新收集,然后进行短期和长期的分析数据。比如成绩分析,若按照4年制本科为一个分析周期。首先,每学期教务部门要进行一次短期成绩分析。其次每学年教务部门就需对即将毕业的本科前4年的所有成绩做一次中长期成绩分析。然而,如果学校还需了解长期以来各级学生的学习情况,则还必须知道近10年、20年、50年甚至更长时间的成绩发展趋势,那么光靠人工去翻阅以前的数据就是件很困难的工作了。所以人工处理数据阶段,有许多教务数据分析工作受到很大限制。

2.2 计算机处理阶段

自计算机出现后,许多领域的工作发生了翻天覆地的变化,教务管理同样也不会忽略如此有效的技术手段。20世纪80年代以来,我国一直关注信息化在各领域的应用,教务管理信息化的发展大致经历了以下三个阶段:面向数据处理的第一代教务管理、面向信息处理的第二代教务管理、面向知识处理的第三代教务管理。在前两个阶段中,许多教务工作确实提高了效率,但是教务海量数据中隐含的价值仍不能被有效发掘与利用。正如在一大座金山中,获取更有价值的黄金还需更细致更有效的清理和挖掘。

虽然在前些年,学校各级部门具备了一定的信息化基础设施,为构建信息化教务系统奠定了基础。但是,由于缺乏统一的规划,学校各子系统或多或少存在“信息孤岛”的问题,也没有有效的方法从海量数据资源中快速挖掘更有价值的知识信息。因此,耗费成本收集的数据没有利用就被弃置了,教务数据分析仅停留在表面。

由于信息技术的发展,信息化时代逐渐进入第三展中,即有效应用数据仓库和数据挖掘技术挖掘知识。

3 DW和DM技术

数据仓库(DataWare,即DW)是指一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策[1]。当大量的数据被整合在一起后,从用户分析角度来看,使用这些数据的手段是多方面和多层次的。面向知识处理的教务系统应能够自动剔除掉不需要的数据,按照用户的要求整合杂乱的数据资源,获取某些可用的属性。而且,学校的决策通常是经过观察长期发展的状况而制定的。其间,需要分析5年、10年,甚至几十年的大量相关数据资源。因此,教务数据需要被长期且稳定的存储。在日常收集数据和整理数据时,利用数据仓库的思想来进行,有利于我们充分发挥数据挖掘技术进行知识的挖掘。

数据挖掘(Data Mining,即DM)是指从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘就是从大量数据中提取或“挖掘”知识。

首先,我们要确定数据挖掘的对象有哪些。数据资源可以从多方面获得,如系统分析设计人员向不同范围的业务对象调研获得,或反之业务对象主动向系统设分析设计人员提出;在互联网时代,从网络中获得数据资源更快更多了。

其次,要有效地应用数据挖掘技术,就要遵循科学的应用流程。一般的挖掘流程是:(1)确定挖掘对象;(2)数据准备;(3)数据挖掘,即模式提取;(4)结果分析,即模式评估。[2]

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。数据挖掘功能以及它们可以发现的模式类型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。

4 建立面向知识处理的教务数据分析系统

按照上述数据挖掘的基本流程,以教务系统中成绩分析为例介绍如何让教务系统实现面向知识的处理。

4.1 构建教务系统的数据仓库

这部分主要分为四个任务:确定教务系统中的数据源;Web数据的预处理;多维Web数据模式的建立;应用OLAP技术。

4.1.1确定教务系统中的数据源

教务系统的数据主要从两个方面获得:

(1)各学院开课计划、学校学计划;

(2)教师提交的各门课程的成绩。

第一方面的数据主要由学校、各学院按照培养计划每学期提交,包括各专业班级的课程安排、授课教师、课时、学分等。这部分数据主要以Excel表格形式提交,教务部门对这部分的数据收集与存储大部分停留在文档形式。

第二方面的数据主要在学期末由授课教师分专业班级和课程提交。目前,这部分的数据收集有的以纸质文档形式收集,有的以Excel文档形式收集,也有的实现了数据库收集存储。

在进行数据挖掘之前,首先要将这两方面的数据完全实现数据库收集与存储。随着教务数据与日俱增,还需使用数据仓库来管理这些数据。

目前,有许多学校实现了在线登录成绩的信息化。那么如何对庞大的Web数据建立数据仓库呢?

4.1.2 Web数据的预处理

通过Web收集的数据称之为原始数据,管理员可根据需要用某些字段记录相关数据。如:专业班级名称,教师登录名,课程名称,成绩比例,分数,提交时间等。对Web数据的预处理包括两步。第一步:清除噪音,即去掉对知识挖掘无关的数据。第二步:转化数据,即将原始数据按照挖掘需求,通过重新组织或简单计算转换成规范模式。

4.1.3多维Web数据模式的建立

分为三步进行。第一步,选取维。多维数据便于我们从多个角度、多个侧面对数据库中的数据进行观察、分析,以深入了解包含在数据中的信息和内涵。N维数据矩阵用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i维,i=1,2,...,n, count是变量,反映数据的实际意义。

数据单元用r[A1:a1,...,An:an,count]模式表示,即为维Ai选定一个维成员ai,i=l,…,n,这些维成员的组合唯一确定了变量count的一个值。通常,需要了解成绩的分布情况,可以选取专业班级维、时间维、课程维构建数据矩阵,以形成多维视图。

第二步,构造多维视图。先选取Date维(按学期组织)、Class维(按专业班级组织)用二维形式表示每个专业班级各学期的成绩状况。然后加入第三维Course维(按课程组织),进一步构建成绩分布的三维视图。视图显示的事实是Course_Class_Analyse(课程专业学习情况)。

第三步,创建多维数据模式。最流行的数据仓库数据模型是多维数据模型。最常见的模型范例是星型模式。

4.1.4应用OLAP技术

OLAP,即在线联机处理。应用OLAP技术可以很方便地从Web数据矩阵中作出一些简单的结论性分析,如回答一些问题:(1)哪些专业班级学习情况较好,哪些较差?(2)哪些专业课程成绩较高,哪些较低?我们可以充分利用多维数据模型上的OLAP操作,如下钻(drill-down)、上卷(roll-up)、切片分析(slice)和切块分析(dice)等技术对问题进行求解。

4.2 挖掘模式的有效应用

应用数据挖掘技术可以自动发现学生学习倾向和专业发展趋势。

4.2.1数据挖掘技术应用的范围

虽然现在已有很多学校都建立了自己的教务管理网站,但教职工与学生仅仅只在Web上进行成绩的登录和查询。这样的教务网站只是提供了收集数据的快捷途径,并没有从根本上体现本身应有的应用价值。教务系统希望能够从其门户网站中收集大量原始数据,并依此发掘更深入的服务信息。同时,学校高层也希望能从教务系统中发现学生的学习情况,课程计划的实施效果等。这些都需要从海量的教务数据中应用特定的挖掘模型反映出来。基于此,对于下一次培养计划的修订才有现实的数据支撑。

4.2.2应用挖掘模式提取和分析知识

根据不同的应用要求,在数据挖掘模式中选择合适的方法进行计算,提取有效数据,得出知识。对于教务系统而言,可以应用聚类方法确定特定不同成效的学生与课程的分布,从而识别出一些问题:

(1) 对于某个专业班级,哪些课程学习效果较好;

(2) 对于学习效果较好的课程,是因为教学效果好,还是开课计划恰当;

(3) 对比同一门课的不同专业班级,以辅助各学院分析培养计划的适应性。

5 结束语

关于DW and DW 技术对教务数据分析的应用,还有许多值得继续深入研究。但是,不论从哪个方向进行研究,都必须要以提高教务处理能力为宗旨,让教务资源发挥最大的辅助决策价值。

参考文献:

[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.

[2] 林宇. 数据仓库原理与实践[M],北京: 人民邮电出版社, 2003.