期刊大全 杂志订阅 SCI期刊 SCI发表 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据分析的方法

数据分析的方法精品(七篇)

时间:2023-05-30 14:35:51

数据分析的方法

数据分析的方法篇(1)

【关键词】 数据挖掘; 财务分析; 神经网络

一、前言

数据挖掘技术是人们长期对数据库技术进行研究和开发的成果。数据挖掘(DM,DataMining)的概念产生于20世纪80年代末,在90年代获得了长足的发展。目前,数据挖掘技术已经应用到市场分析、政府管理、医疗卫生、科学探索、金融、财经领域中并取得了一定的实效。

财务数据挖掘是一种新的财务信息处理技术,其主要特点是能对会计数据库及其它业务数据库中的大量数据进行抽取、转换、分析及其他模型化处理,从中提取辅助决策的关键性数据。在企业的财务状况分析中应用数据挖掘技术,报表使用者可以节省大量的时间和精力去关注更有用的信息,帮助报表使用者找出隐藏的、未知的、但对了解企业经营状况十分有用的信息。

二、应用于财务分析的数据挖掘方法

现有研究中,应用于财务分析的数据挖掘方法主要有以下几种:

(一)神经网络

神经网络主要应用于财务危机预测和财务状况评价两方面。

1.财务危机预测

目前神经网络在财务危机预测的应用中主要集中在模型的建立和优化上。在模型建立方面,通过选取一定的样本包括ST公司和非ST公司,选取其中一部分作为训练集,其余的作为测试集。先对训练集进行归一化处理,再运用神经网络算法建立模型,为了验证模型的预测准确率,用测试集检验模型的预测结果。

在模型优化方面,一方面不断改进指标的选取,通过一定的统计方法客观选取指标,降低主观性,提高模型的预测准确性;另一方面不断改进神经网络算法,把不同的技术引用到模型中从而不断优化模型。

2.财务状况评价

神经网络运用到企业财务状况评价时,首先都是建立系统的评价指标体系,然后在神经网络结构和算法研究的基础上,通过样本对网络进行训练,最后得到稳定的结构和权值,从而建立模型。

(二)模糊集理论

目前有关模糊集理论在财务分析的应用主要集中在模糊综合评价法在企业财务状况评价的应用。在运用模糊综合评价法建立评价模型时,首先要确定因素集,因素集为各种指标体系的集合;其次要确定权重集,权重的确定主要有市场调查法和德尔菲法;再次要建立等级评价标准,评价等级集是评价者对评价对象可能做出的各种评价结果所组成的集合;最后建立模糊评价矩阵,经过运算得到评价结果。

在运用模糊集理论建立评价模型时,一方面需要根据企业的具体情况建立因素集和权重系数矩阵,具有一定的客观性;另一方面评价集以隶属度的方式表示,使其评价结果留有余地。

(三)决策树

决策树在财务方面主要应用于财务预警方面。利用决策树进行数据挖掘建模,首先需要进行变量的指定,一般把上市公司是否“特别处理”为目标变量,已选定的财务指标为输入变量;然后运用软件建立模型;最后要根据检验样本进行检验。

决策树作为一种数据挖掘技术运用到财务预警中具有较好的预测效果。目前,利用决策树进行财务预警处于起步阶段,如何更好的应用决策树有很大的研究空间。但是决策树的输出变量只能有两个,只能简单的预测评价企业财务状况好或者不好。

(四)遗传算法

现有的研究一般把遗传算法和神经网络结合在一起,通过遗传算法的全局寻优能力,建立财务困境预测的遗传神经网络模型,该模型利用遗传算法对输入变量进行了优化,比单纯的神经网络模型具有更好的预测能力。

遗传算法主要适用于数值优化问题,在财务分析中主要运用于具体的问题中,例如内涵报酬率的分析和证券组合选择分析,它作为一种解决数值优化问题的算法,在数值优化问题中有广阔的应用前景。

(五)粗糙集

粗糙集理论目前主要运用在财务危机预测中。首先是财务指标的筛选过程,通过计算条件属性和决策属性的依赖度,进而确定各条件属性相对于决策属性的重要程度,并根据重要程度对其进行条件属性约简;之后,确定筛选后进入预测模型的财务指标的权重,对财务指标重要程度做归一化处理后得到权重;最后,得到基于粗糙集理论的综合预测模型,应用预测模型计算对象的综合预测值。通过实证分析可以看出与传统判别模型进行比较,基于粗糙集理论的模型预测效果更好。

(六)聚类分析

聚类分析主要是对事先不知道类别的数据进行分类,目前对于聚类分析的研究集中到模糊聚类分析。

在对企业财务状况进行评价时,大多是运用模糊聚类分析方法,选取一定的财务状况评价指标,建立模糊聚类分析模型,进行实证分析,形成模糊聚类图,再将具有财务状况相似性的行业进行归类。

三、数据挖掘方法评析

从现有基于数据挖掘的财务分析方法可以看出,它们都是以财务报表为基础,因而存在以下问题:

(一)数据采集欠缺真实和滞后

企业为标榜业绩,常常粉饰财务报告、虚增利润,使财务报告中的数据丧失了真实性,在此基础上进行的财务分析是不可靠的。此外,财务报告一般是半年报和年报,半年报在半年度结束之后两个月内报出,年报在年度结束后四个月内报出,缺乏及时的信息跟踪和反馈控制,存在明显的滞后性,在这个基础上进行财务状况分析具有一定的局限性,从而影响分析的结果。

(二)数据挖掘范围广泛性不足且分析方法片面

现有的财务状况分析在根据财务信息对企业财务状况进行定量的分析预测时缺乏非财务信息的辅助分析,使信息涵盖范围不够广泛。而且,现有的财务状况分析方法都不能很好的把定性分析与定量分析相结合。

四、数据挖掘在财务分析应用的改进

(一)在数据采集方面

不再是以财务报表的资料为数据源,而是从企业中采集原始数据,提高数据的可信度。当然,会计信息数据也可以有多种表现形式,可以是传统的关系数据库、文本形式的数据,也可以是面向对象的数据库以及Web数据库等。另外,利用XBRL和WEB挖掘等技术加入了非财务信息和外部信息。这样,财务分析所需要的财务信息、非财务信息和外部信息可以分别从会计信息系统、管理信息系统和Internet采集。

实时数据库的建立使实时数据挖掘成为可能,为企业财务状况分析的准确性提供了技术支持。实时数据库是数据库系统发展的一个分支,它适用于处理不断更新的快速变化的数据及具有时间限制的事务。XBRL开始广泛的应用,将会促进实时数据采集问题的实现。

(二)在数据挖掘过程中

应综合运用数据挖掘的各种技术,对净化和转换过后的数据集进行挖掘。将非财务信息纳入考察范围,以扩充信息的涵盖范围。

实际运用中,定性分析和定量分析方法并不能截然分开。量的差异在一定程度上反映了质的不同,由于量的分析结果比较简洁、抽象,通常还要借助于定性的描述,说明其具体的含义;定性分析又是定量分析的基础,定量分析的量必须是同质的。在需要时,有些定性信息也要进行二次量化,作为定量信息来处理,以提高其精确性。

【参考文献】

[1] 康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004:131-148.

[2] 李建锋.数据挖掘在公司财务分析中的应用[J].计算机工程与应用,2005(2).

[3] 姚靠华,蒋艳辉.基于决策树的财务预警[J].系统工程,2005(10):102-106.

[4] 林伟林,林有.数据挖掘在上市公司财务状况分析中的应用[J].市场周刊,2004(10).

数据分析的方法篇(2)

企业数据分析的编写,核心在于对数据的科学分析。数据分析除了要以档案为基础,遵循“全面、真实、客观、有效”的原则外,关键是要掌握和应用科学的分析方法,使数据分析应尽可能做到深入、准确,从而使我们对数据背后所隐含的问题、原因、趋势和规律的认识能更接近于真理。

企业数据分析编写过程中,常用的分析方法有对比分析法、趋势分析法、结构分析法和综合分析法等。本文结合工作实际,对如何运用这四种基本分析方法谈点想法。

对比分析法

所谓对比分析法,是指将两个或两组以上的数据进行比较,分析它们的差异性,从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法,在企业数据分析中的应用十分普遍。它的特点是,通过比较分析,可以非常直观地看出企业某方面工作的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

在实际应用中,企业数据的对比分析,一般有以下几种具体情况:

一是将企业当年的数据与历年(去年或前几年)的数据进行对比分析,目的是为了搞清楚与去年或前几年相比,企业某一方面或某些方面的发展变化情况。比如,某公司2006年利润100万元,2007年利润115万元,年增长率为15%。通过这种对比,我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然,在许多时候,这种对比分析不会局限在某一个数据,而是一组数据。比如,在对企业当年的利润与去年利润进行对比分析的同时,还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析,从而更全面了解掌握企业的发展现状。

二是将本单位数据与同行业(外单位、同行业平均水平)的数据进行对比分析,目的是为了搞清楚与外单位、同行业平均水平,本单位某一方面或各方面的发展水平处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。比如,2005年,某发电厂供电煤耗为340克/千瓦时,当年全国火电行业平均煤耗指标为310克/千瓦时,该发电厂的实际煤耗指标比全国火电行业平均煤耗多了30克/千瓦时。通过这样的对比分析,我们可以看出,该发电厂在能耗方面存在着比较突出问题,如何节能降耗应该成为企业下一步重点关注的一个工作内容,也是提高企业经济效益的一条重要途径。

为了一目了然地看出数据对比的直观效果,对比分析一般可用柱式图表表示。

趋势分析法

所谓趋势分析法,是指通过对某一个或几个数据在一定阶段的变化情况进行分析,从而发现该数据所代表事物的发展趋势和规律,并可进一步分析形成这种趋势的原因,为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法,在企业数据分析的编写中,主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察,进而得出趋势性的结论。

一般说来,对数据进行趋势分析的结果不外乎以下四种情况:

一是某项数据的变化呈逐年加大的趋势,称为上升趋势。比如某企业利润额:2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论:该企业的利润呈逐年上升的趋势。

二是某项数据的变化呈逐年减小的趋势,称为下降趋势。例某企业产品的市场占有率:2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论:该企业产品的市场占有率呈逐年下降的趋势,说明该产品的市场竞争力正在下降,企业应该对该产品进行升级换代,或者开发生产新的产品。

三是某项数据或上升或下降,每年都有较大变化,称为震荡趋势。比如某企业的经营成本:2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论:该企业每年的经营成本变化较大,呈震荡趋势,说明企业在控制经营成本方面还要进一步采取措施。

四是某项数据几年来基本不变,或变化很小,称为稳定趋势。例如某企业的人均产值:2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论:该企业的人均产值每年变化不大,呈稳定趋势。

为了更形象地看出数据在一定时期内的变化轨迹,对数据的趋势分析一般可以用曲线图表表示。

结构分析法

所谓结构分析法,就是通过分析数据的构成情况,即分析构成某一数据的各子数据的情况和权重,从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法,通过这一分析方法,有利于我们发现和把握事物的主要矛盾和矛盾的主要方面,对企业而言,可以据此确定工作重点或经营的主攻方向。

在实际工作中,当我们需要对企业的某一数据作深入分析时,常常需要用到结构分析法。例如我们分析某供电局利润的结构情况:2007年,企业利润为1000万元,其中主业占80%、三产占20%。这就是结构分析的方法,从中我们就可以清楚地知道,主业和三产对企业利润的贡献比例。在这个基础上,我们还可以作进一步的分析,在200万元的三产利润中:火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%,是发展三产的主力军。从供电局的角度而言,抓好三产工作,重点是要抓好火电建设公司和电力设计院的工作。

为了直观地反映某一数据的构成情况,结构分析法一般采用圆饼图表来表示分析的结果。

综合分析法

在编写企业数据分析时,往往不是单一地使用一种数据分析方法,为了使数据分析更透彻、更深入,更多时候我们都需要采用综合分析的方法。所谓综合分析法,就是将以上两种或两种以上的分析方法结合起来使用,从而多角度、多层次地分析揭示数据的变化、趋势和结构情况,以增加数据分析的深度。

综合分析法在具体应用中,有以下几种情况:

一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析,从而发现数据所代表事物的发展趋势、差别和关系,并可进一步分析原因,为企业领导决策提供依据和参考。比如,我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如,我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析,所应用的也就是对比分析与趋势分析相结合的方法。

二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较,从而可以看出构成这两个或两组以上的数据的各种因素的差异性,以此剖析产生这种差异的原因,并提出相应的对策措施。比如,2006年,A供电局利润500万元,B供电局利润700万元。如果只采取对比分析的方法,我们获得的结论就是:“B供电局利润比A供电局多200万元”。结合结构分析:A供电局利润500万元中,主业为450万元,三产为50万元;B供电局利润700万元中,主业为560万元,三产为140万元。由此看出,A、B供电局在主业利润差距并不大,差距主要在三产上。因此,发展三产应成为A供电局利润增长的主要着力点。

三是趋势分析与结构分析相结合的方法。就是通过对构成某一数据的子数据在一定阶段的变化情况进行分析,从而揭示构成某一事物的各方面因素在其中的作用大小和变化趋势。比如,我们分析某企业一定阶段销售额及各种产品销售额的构成和变化情况,就可以使用这一方法。这样的分析既可以了解销售额的变化趋势,也可以全面掌握各种产品在销售额中的权重比例和变化趋势,从而知道哪些产品需要扩大生产,哪些产品需要减产或停产,什么时候需要开发新的产品。

数据分析的方法篇(3)

关键词社会网络分析; 缺失数据; 缺失数据处理方法

分类号B841.2

DOI:10.16842/ki.issn2095-5588.2016.08.0021引言

“社会网络分析” (Social Network Analysis, SNA)是在人类学、社会学、心理学等众多领域中发展起来的研究个体之间关系结构的分析方法,是对社会关系进行量化分析的一门艺术和技术。SNA主要用于描述和测量个体之间的关系以及这些关系中所包含的资源、信息等,并根据这些关系建立模型,进而研究关系与行为之间的相互影响(刘军, 2004)。SNA从“关系”角度来揭示社会情境与嵌套于其中的个体的心理和行为的互动影响,即个体可以能动地构造他们的关系网络(选择效应,selection effect),同时这些关系又反过来影响个体的心理与行为(影响效应,influence effect)。因此,个体既形塑社会网络,也被社会网络形塑(刘军, 2006; 马绍奇, 2012; 马绍奇, 焦璨, 张敏强, 2011 )。在SNA中,反映个体之间关系的数据称为关系数据(relational data),通常的数据类型是0、1二分变量数据,即1表示两个行动者之间存在关系,0表示不存在关系(马绍奇, 2012)。

SNA从嵌入社会情境的个体之间的关系出发,分析群体结构及其与心理行为的相互作用,更能反映人际交往的社会性特点。如,运用SNA方法系统研究中学生班级的学习关系、友谊关系、咨询关系、信息交流关系等,运用SNA方法研究中学生的支持网络对中学生学业和心理健康等方面的影响。这不仅有利于从社会关系的视角理解学生人际关系的形成、特征和影响因素,还能及时掌握学生的心理动态,维护学生的心理健康(唐文清等, 2014)。但是,由于SNA的应用涉及到更多的人事物,数据的缺失是必然现象。研究者在SNA中常常会遇到数据应答率在65%至90%的情况(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于数据结构的依赖性,如果网络中的行动者或者关系存在缺失,就难以全面地描述缺失行动者及其邻近行动者的网络环境(Robins, Pattison, & Woolcock, 2004)。已有研究发现,缺失数据不仅对网络结构描述产生消极影响,还会低估关系强弱和聚类系数,并使得中心性和度数的测量出现不稳定的情况(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。这说明,网络结构描述和网络数据分析的结果会因为缺失数据而产生偏差。

心理技术与应用4卷

8期黄菲菲张敏强: 社会网络分析中缺失数据的处理方法

要使SNA方法得到更好的应用及认可,既要介绍理论及应用方法,同时还要解决方法使用中可能出现的各种问题。例如,在数据收集和研究结论的推广方面,如何在实际的应用分析中,完善相关的统计模型和参数估计方法的发展,如何提高数据收集的信效度,如何处理缺失值等问题(马绍奇, 焦璨, 张敏强, 2011; 焦璨, 吴换杰, 黄h娜, 黄菲菲, 张敏强, 2014)。由于社会网络数据的相互依赖性,对缺失数据的处理不能采用常规的缺失处理方法。本文就SNA中缺失数据的原因及缺失机制,比较分析了常用的四种缺失数据处理方法在实际应用中的优缺点,并就SNA中如何处理缺失数据提出建议。

2缺失数据的原因

21边界规范问题

边界规范问题指的是在网络研究中指定行动者或者关系之间包含的规则(Laumann, Marsden, & Prensky, 1983)。例如,学者在研究青少年的冒险行为过程中,想了解他们在学校里的人际关系情况。图1中的A、B、C、D是四位青少年在学校里的人际关系网络,E、F、G三位青少年虽然和A、B、C、D四位青少年的交往密切,但是学校外的人际关系与研究目的无关,因此,E、F、G三者和研究中的青少年的人际关系就容易被忽视(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。总体而言,边界规范是由研究者自行决定的。在实际包含网络的例子中,组织成员或者由位置界定的正式定义大部分取决于一个正式组织团队中成员占据的排列位置,例如一个学校最受欢迎的前10名老师或者一个班级成绩最好的前五名同学(Kossinets, 2006)。

社会网络是由行动者及行动者之间的关系组成的,因此研究者在规范网络边界时,除了需要考虑通过一组行动者来界定网络边界外,还要决定哪些关系应该纳入研究范围里。对于如何有效地规范网络边界,学者们提出了一个准则,即根据可测量行动者的交互作用确定。因此,研究中的网络边界被定义为该边界记录了在特定情境中行动者间的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,无论是情景还是交互作用的设置,研究者首先需要根据研究目的给出操作性定义,然后再确定在这个情境中包含哪些存在交互作用的行动者。随着电子科技时代的发展与进步,这个准则不再仅限于小网络,因为大规模的社会网络交互作用数据可以通过邮件传递或者虚拟社区的记录得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。

22固定选择的研究设计

固定选择的研究设计指的是网络中行动者和关系的缺失依赖于研究设计中提名选择的限定(Holland & Leinhard, 1973),即网络数据的偏差是由于研究设计造成的。假设图2中的行动者A属于Z团体,在这个团体中,他和其他5个行动者有关系,现研究者要求行动者A提名y个和他关系最好的行动者。如果y≤5,则行动者A和其他5个行动者之间的所有关系都包含在数据集中;如果y>5,则行动者会失去5-y个关系。例如,学者想研究班级的学业咨询网络对学生学业拖延的影响,要求学生提名2个在学习上遇到困难或疑问时会请教的同学。如果学生平时向同学请教问题的人数普遍都是3个,那么学者得到的学业咨询网络数据是有偏差的。因为在该网络中,大部分行动者(学生)都失去了1个关系。

在固定选择的研究设计中,会出现互惠提名(有关系的双方相互提名),非互惠提名(有关系的双方只有一方提名)和无提名(有关系的双方均不提名)三种情况。从本质上而言,非互惠提名和其他两种提名的情况不一样(例如:好朋友和普通朋友的区别),因此,研究者需要考虑是否将其纳入到研究范围内。固定选择的研究设计还容易使数据呈现非随机缺失的模式,如受欢迎的个体更有可能被其他行动者提名(Feld, 1991)。但是,在不同结构的网络中,这种影响会不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相称混合性(即受欢迎的行动者倾向于和不受欢迎的行动者相联系)的网络中,互惠提名将会导致更多关系缺失的情况出现。

23网络调查中的无应答

网络调查中的无应答包括应答者完全缺失和特定项目的数据缺失(Stork & Richands, 1992; Rumsey, 1993)。应答者完全缺失指的是行动者没有参与到调查研究中,因此行动者的发出关系对于分析而言是无效的(如图3所示,N表示缺失数据)。特殊项目的数据缺失指的是行动者参与了调查研究,但是在特定项目上的数据缺失,因此只有行动者的部分关系对于分析而言是无效的(如图4所示,N表示缺失数据)。例如,在一个关于学生情感咨询网络对学业成绩影响的调查中,要求学生提名3个班上的好朋友。图3中的A和D两位学生因事由请假没有参与此次研究,但图3应答者完全缺失是其余的学生在提名中提及到了A和D,所以A和D的无应答属于应答者完全缺失。如果A和D参与了调查研究(如图4),但是在提名中他们忽略了被提及的学生,即B提名了A,A没有提名B,则A和D的无应答属于特殊项目的数据缺失。对于1-模网络而言,即由一个行动者集合内部各个行动者之间的关系构成的网络(刘军, 2009),无应答对网络结构及统计指标的影响不大,但是对于存在多元交互作用情景的网络(例如,二元网络)而言,无应答可能会造成特定的影响(Robins, Pattison, & Woolcock, 2004)。例如,在一个隶属网络的调查研究中,假设研究者没有其他途径可以了解团队的任何信息,只能要求行动者报告他们隶属于哪个团队。如果任何一个行动者出现无应答的情况,那么可能会出现这个无应答行动者所隶属的团队缺失的情况。Huisman(2009)通过模拟研究发现,忽视网络调查中的无应答数据对社会网络的描述分析会造成消极的影响。进一步比较分析行动者无应答和特殊项目无应答的结果发现,特殊项目的无应答可能会造成更大的统计偏差。

网络调查中的无应答易导致行动者或者关系的缺失,但是网络环境中除无应答行动者以外的不完整观察行动者的部分信息仍然是有用的,如可利用这个信息来估计缺失状态的效果和分析不完整网络(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整观察行动者的部分信息还可用来估计行动者和网络的结构性能,并能给缺失数据机制提供参考。

和前两种缺失数据原因相比,无应答是社会网络调查中最经常出现的缺失情况。因此,有不少学者开始关注社会网络调查中无应答的缺失问题(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。

3缺失机制

不同的缺失数据来源,还涉及一个重要的问题,数据是否系统缺失。如果数据是系统缺失,那么缺失概率是否和观察变量(性质或属性)有关。已有研究表明,在社会网络中处理不同来源的缺失数据时,应考虑缺失机制以提高处理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。

缺失机制指的是数据的缺失概率和研究变量之间的关系(Schafer & Graham, 2002)。Rubin在1976年根据缺失引起的偏差程度定义了三种类型的缺失数据:完全随机缺失(Missing Complete At Random, MCAR),随机缺失(Missing At Random, MAR)和非随机缺失(Missing Not At Random, MNAR)。假设所有变量观测值Y中,完整的变量记为Yobs,缺失的变量记为Ymis。如果缺失概率和Yobs及Ymis相互独立无关,此类缺失称为MCAR。如果缺失概率和Yobs相关,和Ymis独立无关,则为MAR。MNAR是指缺失概率依赖于Yobs和Ymis。因为Ymis的未知性,研究者常常难以判断缺失数据属于哪种类型的缺失机制。叶素静,唐文清,张敏强和曹魏聪(2014)在对追踪研究中缺失数据处理方法及应用现状的分析中综述了三种类型缺失机制的粗略判断方法。

对于社会网络数据而言,完全随机缺失是指缺失概率和缺失关系的数值及观察数据(例如,行动者的属性)无关。在这种情况下,观察数据是原始观察值的一个随机样本,因此不存在系统偏差。随机缺失是指缺失概率和观察数据有关,但是和缺失关系的数值无关。尽管在这种情况下缺失数据会呈现出系统模式,但是这些模式是可控的,因为它们和样本中的观察数据有关。非随机缺失是指缺失概率不仅和观察数据有关,还和缺失关系的数值有关,这种类型的缺失数据会对统计分析的偏差程度造成很大的影响。因为在非随机缺失的情况下,应答者和无应答者之间的差异是由系统误差造成的,关于网络结构性质的统计指标将会受到影响(Costenbader & Valente, 2003)。

4缺失数据处理方法

41完整个案法

完整个案法,即删除部分已有的数据以保证所研究对象信息的完整性。完整个案法相当于行动者的列删除法,它不仅移除不完整观察行动者的列数据且一并移除该行动者的行数据,而移除行意味着在分析中移除不完整观察行动者和完整观察行动者之间的所有关系(Huisman & Steglich, 2008)。因此,使用完整个案法后用于分析的数据集是完整的,即每一个行动者既有接收的关系也有发出的关系。例如,图5(a)是一个班级情感关系网络的例子,其中有A、D、F三个无应答行动者,每一个无应答者都没有指向外部的情感关系,在观察网络的矩阵表达式中就会有几行缺失关系数据N,对数据进行完整个案法处理后,结果就会出现如图5(b)呈现的小网络。因此,完整个案法是在可完全观察行动者的小网络基础上进行分析处理的。nidaricˇ, Ferligoj和Doreian(2012)用完整个案法等多种缺失数据处理方法对社会网络区组模型中的无应答情况进行分析,结果发现,在小规模网络中,完整个案法对区组模型结构的稳定性影响最小。Robins, Pattison和Woolcock(2004)的研究结果则表明,完整个案法重新定义了网络边界:移除无应答行动者之后相当于生成了一个更小的网络。

完整个案法是一种加权方法,它丢弃了不完整个案的数据,对完整个案和缺失个案赋予了同样的权重。在分析的统计软件包里,完整个案法通常是默认处理缺失数据的方法。它最大的一个优点就是简便,缺点则是因为忽视不完整个案而丢失了大部分信息,很可能出现模型和数据无法拟合的情况。因此,只能在缺失概率较小的网络中使用完整个案法。Schafer和Graham(2002)认为,当无应答者是完全随机缺失时,完整个案法可能是有效的。然而,如果这个前提假设不成立,统计分析结果就会有偏差,因为剩余的行动者样本可能是不具有代表性的。也有学者认为,完全个案法从系统水平而言,严重损害了所有分析(Stork & Richards, 1992),且可能会暗中破坏社会网络模型的假设(Snijders, Bunt, & Steglich, 2010)。

42有效个案法

有效个案法是指忽略缺失的数据,只使用观测到的关系变量。有效个案法是直接对不完整数据进行分析,即根据SNA需要计算的统计值选择行动者的有效数据。例如,在一元统计分析中,在计算网络的平均数和标准差时,可以选择所有变量都完整观察的个体行动者的有效数据,而在计算网络的协方差或者相关系数时,则需要选择所有变量都完整观察的配对行动者的有效数据。

Littile和Rubin(1989)在探讨社会科学领域关于缺失数据处理的分析方法时,比较了完整个案法和有效个案法对网络的均值、方差、协方差及相关系数四个统计量的参数估计影响及二者的差异。研究结果表明,和完整个案法相比,使用有效个案法后,网络的均值参数估计值是无偏的。但是,其余三个统计量的参数估计值的偏差较大。随后,Little和Su(1989)进一步对两种方法的差异进行了详细的讨论,也得出了相同的结果。

有效个案法简单易行,和完整个案法相比,它的参数估计值较为精准。但是有效个案法具有较低的统计功效,且和没有缺失数据的网络参数估计值相比,存在很大的偏差。因此,研究者较少使用有效个案法对社会网络中的缺失数据进行处理。

43重建法

重建法指的是通过互惠关系来推断缺失连接的存在与否。重建法和插补法不一样,重建法在分析的过程中没有增加新的关系,它只是通过观察到的应答者的入度关系(即行动者接收的关系)来重建网络中无应答者的出度关系(即行动者发出的关系)。从本质上而言,即用已经报告的一个关系进行测量,且重建法仅允许两个人之间的关系。重建之后的网络中应答者和无应答者之间的关系是对称的。使用重建法对SNA中的缺失数据进行处理时,必须满足两个原则: (1)相似性,即应答行动者与无应答行动者之间的作答模式应具有相似性。因为重建法是通过应答行动者所描述的关系去构建无应答行动者的关系,所以两个行动者之间的应答模式不能存在系统的偏差;(2)可靠性,即应答行动者所描述的和无应答行动者之间的关系要确认是有效、可靠的(Stork & Richards, 1992)。自重建法提出以来,不少学者将其作为社会网络缺失数据常用的处理方法。Gabbay和Zuckerman(1998)在有向网络中,通过应答行动者报告的和无应答行动者之间的关系重建了网络中行动者之间的关系。Huisman和Steglich(2008)则用重建法研究了网络面板数据中的无应答缺失数据情况,结果表明重建法在构建完整的网络数据时几乎不会出现不收敛的问题。

一般而言,针对不同类型的网络,重建法的程序如下所示:

(1)在无向网络中,通过观察到的应答者之间的关系以及部分应答者和无应答者之间的关系对网络进行重构(Stork & Richards, 1992)。

(2)在有向网络中,通过对立关系来推断缺失关系。例如,对于应答行动者i和无应答行动者j,重建法假设行动者i描述的和行动者j之间的所有关系和行动者j所描述的关系是完全一致的,即研究者可以通过应答行动者i来插补对立关系的观察值,即ximpij=xji(Huisman, 2009)。

重建法最大的优点就是允许研究者最大化地利用有效信息去构建社会网络。有研究表明,当社会网络中存在缺失数据时,仅有437%的关系能够被解释,而使用重建法后,则能够解释缺失数据网络中897%的关系数据(Neal, 2008)。但是,重建法无法构建两个无应答行动者之间的关系。如果两个无应答行动者之间存在重要关系,研究者就无法使用重建法去正确地定义网络的结构。因此,需要用其它的插补方法来重建整个网络。例如,对于无应答行动者之间的所有关系,随机插补一个和观察密度成比例的关系,使重建网络中缺失关系的比例等于网络的观察密度。

44基于指数随机图模型的多重插补法

指数随机图模型(Exponential Random Graph Model, ERGM)又称为p

瘙 模型,是用来描述x分布情况的概率质量函数,其表达式为:

其中,q是网络的实值函数,常以θTz(x)的形式出现,z是网络的向量值函数,其取值为网络统计值。这些统计值也被称为结构统计值,用来描述网络中的结构,如连接、三方关系等的数量。θ是一个维度为p×1的向量参数(θ∈),ψ(θ)是一个常数,用于将函数值标准化(Koskinen, Robins, Wang, & Pattison, 2013)。

ERGM的原理是在综合了实测网络中的多种局部结构特征情况下来计算这些网络出现的可能性。具体过程为,首先使用马尔科夫链蒙特卡洛最大似然估计法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模拟出一个随机网络,然后将这个随机网络的参数与实测网络的参数进行对比,最后通过对比指标判断是否采纳结果。Robins(2009)用ERGM方法对有向社会网络数据进行分析时指出,如果模拟的随机网络不能很好地代表实测网络,那么参数将被调整并运用到下一次模拟中,且这样的循环可能至少要进行8000次,直到模拟网络能够很好地代表实测网络为止。

基于ERGM的多重插补法,指的是通过ERGM产生的多个插补值的向量代替每一个缺失数据的过程。例如,当网络数据中存在无应答的缺失数据时,基于ERGM的多重插补法则会将应答行动者和无应答行动者看作是两种不同类型的节点,然后区分应答者之间的关系以及应答者和无应答者之间的关系。最后,根据研究者的调查目的,对缺失数据进行相应的处理。如果无应答者是随机缺失,则在网络特定结构间同质性的前提下利用ERGM对缺失数据进行多重插补。如果无应答者是非随机缺失,且研究重点关注应答者的网络结构,则可以将包含无应答者相关关系的信息看作是外源变量,并使用标准的马尔科夫图模型进行分析(Koskinen, Robins, Wang, & Pattison, 2013)。

基于ERGM的多重插补法最大的优点是,不仅能有效地辨别应答者和无应答者之间的差异是由系统误差还是随机误差造成的,还可以在缺失数据是随机缺失的情况下,最大化地利用观察到的数据信息。基于ERGM的多重插补法从本质上而言是通过网络的局部结构去推断整体结构。因此,即使数据有较大的缺失概率,只要网络有足够数量的局部网络子结构,就能够通过观察到的数据进行有理的推断。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插补法对一个合作关系社会网络中的缺失数据进行处理,实证及模拟研究结果表明,这种基于模型的多重插补法能够正确地解释网络中80%的关系数据及允许有三分之一数据缺失的情况。但是,这种方法最大的缺点是运算过程较复杂,耗时较长。

5问题与展望

缺失数据对社会网络数据分析造成的消极影响主要体现在以下两个方面:(1)减少的样本量大小、行动者及关系的信息易导致模型和数据出现不拟合的情况;(2)缺失数据容易造成参数估计的偏差。例如,Kossinet(2006)和Huisman(2009)的研究发现,缺失数据会使社会网络数据分析的结果产生偏差,因为缺失数据不仅对网络结构描述产生消极影响,还会低估行动者之间的关系强弱和网络的聚类系数,容易造成中心性和度数测量不稳定的情况。因此,缺失数据是SNA广泛应用面临的严峻问题。

从表1的四种缺失处理方法的适用条件比较中可看到,缺失数据处理方法的选择和缺失概率、缺失机制存在较大的关联。进一步比较四种方法的优缺点可以发现,当缺失数据是完全随机缺失时,四种方法的参数估计是无偏的。当缺失数据是非随机缺失时,完整个案法和有效个案法虽简单易行,但容易导致信息的大量流失及具有较低的统计功效和较大的参数估计偏差。其中,和完整个案法相比,有效个案法在参数分布估计方面的偏差要略小,因为有效个案法分析的是全体有效样本的数据。但在其它参数估计方面,两种方法都出现了较大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插补法在非随机缺失的情况下,可以忽略缺失机制的影响而直接在缺失概率较小(20~30%)的网络中应用,两种方法在参数估计方面没有表现出太大的偏差,但是如果网络中的缺失概率较大时,两种方法会受到缺失机制的影响。

当数据是随机缺失时,重建法具有较好的统计功效,对社会网络进行描述性分析时,如计算网络的平均度数、互惠性和传递性等网络统计特征值,即使缺失概率达到50%,重建法仍然能够表现良好(Huisman, 2009)。但重建法只能用于特定网络的数据缺失处理,且在某些情况下会高估连接的数量。虽然,在社会网络中的数据缺失概率不大时,重建法和基于ERGM的多重插补法均没有太大的差异,但是后者能够利用插补值间的差异来衡量估计结果中不确定性的大量信息。和重建法一样,当社会网络中的缺失数据样本量在中等范围以下时,基于ERGM的多重插补法具有较小的参数估计偏差且不会低估标准误,但这种方法唯一的缺点就是运算过程复杂,需要做大量的工作来构建插补集以便于进行结果分析,且当缺失数据样本量大时,模拟网络和实测网络可能会出现不拟合的情况。

就应用现状而言,国内目前还没有关于SNA中缺失数据的处理方法这方面的研究,而国外的应用从2003年至今稳定增长(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。

根据缺失数据处理方法的优缺点比较和应用现状的分析,对其在心理学研究中的应用提出以下建议:

(1)在数据收集期间,应报告缺失数据的原因及缺失概率(同时报告网络样本的大小)的情况,以便于为后期缺失数据处理方法的选择提供参考;

(2)在数据分析期间,缺失数据处理方法的选择应该建立在缺失机制这一前提假设基础上。当数据是完全随机缺失时,如果网络数据样本大,建议选择较为简单易行的完整个案法和有效个案法。反之,则建议选择重建法或者基于ERGM的多重插补法;当数据是非随机缺失时,如果数据的缺失概率较小,建议选择重建法或者基于ERGM的多重插补法,如果数据的缺失概率较为严重,则无论选择任何方法,参数估计都会出现较大的偏差;当数据是随机缺失时,建议选择基于ERGM的多重插补法。

参考文献

蔡亚华, 贾良定, 尤树洋, 张t, 陈艳露(2013). 差异化变革型领导对知识分享与团队创造力的影响: 社会网络机制的解释. 心理学报, 45(5): 585-598.

侯珂, 邹泓, 刘艳, 金灿灿, 蒋索(2014). 同伴团体对青少年问题行为的影响: 一项基于社会网络分析的研究. 心理发展与教育,30 (3): 259-267.

焦璨, 吴换杰, 黄h娜, 黄菲菲, 张敏强(2014). 网络自相关模型在心理学研究中的作用――以同群效应、学习动机对青少年学业表现的影响. 心理学报, 46(12), 1933-1945.

刘军(2004). 社会网络分析导论. 北京: 社会科学文献出版社.

刘军(2006).法村社会支持网――一个整体研究视角. 北京: 社会科学文献出版社.

刘军(2009). 整体网分析讲义――UCINET软件使用指南. 上海: 格致出版社.

李永强, 黄姚(2014). 个性特征与社会网络特征的关系及其本土化发展. 心理科学进展, 22(11): 1801-1813.

马绍奇, 焦璨, 张敏强(2011). 社会网络分析在心理研究中的应用. 心理科学进展, 19(5): 755-764.

马绍奇(2012). 班级社会网络分析及其与人格特质、心理健康的关系. 广州: 华南师范大学教育科学学院.

唐文清, 钟阳, 张敏强, 叶素静, 刘晶, 黄兆峰(2014). 社会网络分析法在中学生班级友谊关系研究中的应用. 心理研究, 7(5): 42-50.

徐伟, 陈光辉, 曾玉, 张文新(2011). 关系研究的新取向: 社会网络分析. 心理科学, 34(2): 499-504.

叶素静, 唐文清, 张敏强(2014). 追踪研究中缺失数据处理方法及应用现状分析.心理科学进展, 22(12): 1985-1994.

张辉华(2014). 个体情绪智力与任务绩效: 社会网路的视角. 心理学报, 46(11): 1691-1703.

Albrecht, T. L. (1984). Managerial communication and work perception. In R. Bostrom(Ed.), Communication yearbook8(pp. 538-552). Beverly Hills: Sage.

Borgatti, S.P., & Molina, J.L.(2003). Ethical and strategic issues in organizational social network analysis. Journal of Applied Behavioral Science, 39(3), 337-349.

Burt, R.S.(1987). A note on missing network data in the general social survey. Social Networks, 9(1), 63-73.

Butts, C.(2003). Network inference, error, and informant(in) accuracy: a Bayesian approach. Social Networks, 25(2), 103-140.

Costenbader, E., & Valente, T.W.(2003). The stability of centrality measures when networks are sampled. Social Networks, 25(4), 283-307.

Daniel, W.W. (1975). Nonresponse in sociological surveys: a review of some methods for handling the Problem. Sociological Methods & Research, 3(3), 291-307

Dean, J.J.W., & Brass, D. J.(1985). Social interaction and the perception of job characteristics in an organization. Human Relations, 38(6), 571-582.

Ebel, H., Mielsch, L.I., & Bornholdt, S.(2002). Scalefree topology of email networks.Physical Review E 66, 035103, 1-4.

Feld, S.L.(1991). Why your friends have more friends than you do. American Journal of Sociology, 96(6), 1464-1477.

Gabby, S.S., & Zuckerman, E.W. (1998). Social capital and opportunity in corporate R&D: The contingent effect of contact density on mobility expectations. Social Science Research, 27(2), 189-197.

Gile, K., & Handcock, M.S.(2006). Modelbased assessment of the impact of missing data on inference for networks. Unpublished manuscript, University of Washington, Seattle.

Guimera, R., Danon, L., DiazGuilera, A., Giralt, F., & Arenas, A.(2003). Selfsimilar community structure in organisations. Physical Review E, 68: 065103.

Handcock, M.S., & Gile, K.(2007). Modeling social networks with sampled or missing data. Unpublished manuscript, University of Washington, Seattle.

Holland, P.W., & Leinhard, S.(1973). Structural implications of measurement error in sociometry. Journal of Mathematical Sociology, 3(1), 85-111.

Holme, P., Edling, C.R., & Liljeros, F.(2004). Structure and timeevolution of an Internet dating community. Social Networks, 26(2), 155-174.

Huisman, M., & Steglich, C.(2008). Treatment of nonresponse in longitudinal network studies. Social Networks, 30(4), 297-308.

Huisman, M.(2009). Imputation of Missing Network Data Some Simple Procedures Journal of Social Structure, 10(1), 1-29.

Koskinen, J., Snijders, T.A.B.(2007). Bayesian inference for dynamic network data.Journal of Statistical Planning and Inference, 137(12), 3930-3938.

Koskinen, J. H., Robins, G. L., & Pattison, P.E.(2010). Analysing exponential random graph(pstar) models with missing data using Bayesian data augmentation. Statistical Methodology, 7(3), 366-384.

Koskinen, J. H., Robins, G. L., Wang, P., & Pattison, P.E.(2013). Bayesian analysis for partially observed network data, missing ties, attributes and actors. Social Networks, 35(4), 514-527.

Kossinets, G.(2006). Effects of missing data in social networks. Social Networks, 28(3), 247-268.

Laumann, E.O., Marsden, P.V., & Prensky, D.(1983). The boundary specification problem in network analysis. In Burt, R.S., Minor, M.J(Eds.) (pp. 18-34). London: Applied Network Analysis Sage Publications.

Little, R.J.A., & Rubin, D.B.(1989). The analysis of social science data with missing values. Sociological Methods & Research, 18(2-3), 292-326.

Little, R.J.A., & Su, H. L.(1989). Item nonresponse in panel surveys. In D. Kasprzyk, G. Duncan, and M. P. Singh(Eds.)(pp.400-425).New York: John Wiley & Sons.

Moch, M. K. (1980). Job involvement, internal motivation, and employees integration into networks of work relationships. Organizational Behavior and Human Performance, 25(1), 15-31.

Monge, P. R., Edwards, J. A., & Kirste, K. K.(1983). Determinants of communication network involvement: Connectedness and integration.Group & Organization Management, 8(1), 83-111.

Newman, M.E.J.(2002). Assortative mixing in networks. Physical Review Letters, 89(20), 1-4.

Neal, J. W.(2008). “Kracking” the missing data problem: applying krackhardts cognitive social structures to schoolbased social networks. Sociology of Education, 81(2), 140-162.

Robins, G., Pattison, P., & Woolcock, J.(2004). Missing data in networks: exponential random graph(p*) models for networks with nonrespondents. Social Networks, 26(3), 257-283.

Robins, G.L., Pattison, P.E., & Wang, P.(2009). Closure, connectivity and degrees: new specifications for exponential random graph(p*) models for directed social networks. Social Networks, 31(2), 105-117.

Roberts, K. H., & OReilly, C. A.(1978). Organizations as communication structures: an empirical approach. Human Communication Research, 4(4), 283-293.

Roberts, K. H., & OReilly, C. A.(1979). Some correlations of communication roles in organizations. Academy of Management Journal, 22(1), 42-57.

Rubin, D.B.(1976). Inference and missing data. Biometrika, 63(3), 581-592.

Rumsey, D.J.(1993). Nonresponse models for social network stochastic processes. Unpublished doctorial dissertation. The Ohio State University.

Schafer, J.L., & Graham, J.W.(2002). Missing data: our view of the state of the art.Psychological Methods, 7(2), 147-177.

Snijders, T.A.B., Bunt, G.G., & Steglich, C.E.G.(2010). Introduction to stochastic actorbased models for network dynamics. Social Networks, 32(1), 44-60.

Snith, J.A., & Moddy, J. (2013). Structural effects of network sampling coverageⅠ: nodes missing at random. Social Networks, 35(4), 652-668.

Stork, D., & Richards, W. D.(1992). Nonrespondents in communication. Network Studies: Problems and Possibilities. Group & Organization Management, 17(2), 193-209.

Valente, T.W., Fujimoto, K., Unger, J.B., Soto, D.W., & Meeker, D.(2013). Variations in network boundary and type: a study of adolescent peer influences. Social Networks, 35(3), 309-316.

数据分析的方法篇(4)

关键词:大数据;数据分析;数据挖掘

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02

1 综述

1.1 简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

参考文献

数据分析的方法篇(5)

【关键词】电力企业 CIM模型 数据集成 问题 方法

国际电工委员会对CIM模型,即公共信息模型,做出了详细的定义,指出了CIM模型是对电力系统各实体做出详细定义的可拓展、剪裁的数据模型,并在多次的试验中证明了CIM模型有利于实现数据的交换与集成。只要实现各数据源实体数据模型向CIM模型的有效映射,便能对异构数据的共享、集成问题做出合理的处理,并且可促使数据交换接口开发成本的最小化。然而目前我国在以CIM模型给新老系统提供数据服务方面的研究还比较少见,因此,对于CIM下电力企业数据集成方法的研究与创新具有十分重要的现实意义。

1 电力企业数据集成的现状与问题

生产管理系统、客户信息系统、客户关系系统等为电力企业提供了主要的数据源。随着电力企业管理模式向资产管理的转变,给数据系统对地理信息、设备台账等的统一整合提出了更高的要求。GIS信息系统实现了电力系统资源空间、电气等属性与图数模的有机融合,涉及了电力企业中的各个业务部门,为电力企业的地理空间数据、电网运行数据以及电网拓扑等的联系创造了良好的桥梁,成为了电力企业当下主要应用到的系统模式,也是电力企业中最为重要的信息源。

目前电力企业中信息技术的官方应用促进企业中运行着不同类型的软件系统,并且不同的职能部门也在独立完成业务的过程中逐渐形成了各自的业务系统,这一现象造成了:

(1)数据的异构性不利于数据的集成。电力企业中由不同系统所储存与管理的电网结构、电力系统资源、电网运行等数据呈碎片化形式存在于不同的异构数据仓库当中,在结构、质量、格式等方面都存在着差异,其物理分布的相互孤立导致电力企业的数据很难实现关联与集成,在难以确定新增业务数据有无完整定义的情况下导致了电力企业对新增业务数据的重复建设。(2)数据实体实际存储的困难。由于同一类型的数据实体往往存储在不同数据源当中,具有各异的设计模式与标识符,并且各数据源中的数据实体无有效关联,在独立建设下对相互关联缺乏必要的存储、维护。在这种情况下电力企业的工作流被划分为与多个数据库关联的工作步,给企业的数据交换与集成带来了不便。

2 CIM下的电力企业数据集成方法

2.1 数据集成系统的构建

作为数据集成中的中间件,数据集成系统给异构数据源的数据集成提供了必要条件。该系统在分析整理电力系统数据实体的基础上利用CIM模型建立起各实体的关联,而后通过服务接口实现数据用户获取数据的一致性。数据集成系统利用数据服务接口在充分考虑用户需求的情况下向其提供以XML格式进行RDF编码的特定CIM剖面实例对象集,各个系统、技术的数据用户都可以对该CIM对象进行解析,同时数据集成系统还可以通过二进制格式CIM对象集的提供来促进数据交换效率的提升。

数据集成难以直接访问非结构化数据源、纯文本文件等,必须在对私有文件结构做出充分了解的基础上来进行数据的解析,这就要求软件提供商根据私有文件结构来对提供者的程序进行创建,对数据仓库采用非结构化的数据文件,同时为了方便数据源服务的顺利提供,应当在数据集成系统上接入标准服务的接口。

2.2 元数据库的设计

元数据是用来对数据进行描述的数据。元数据库的设计是对异构数据源进行描述以及对数据实体进行关联的必要手段。可以对异构数据源的来源、状态等信息进行记录。

(1)实体数据类型记录模式的设计。在元数据库当中需要设计一个可对实体数据类型进行记录的模式P={ETi},ETi表示电力系统的实体数据类型,其表达式为 。(ename指的是实体数据类型名称,esrc指的是对存储数据实体数据源信息的描述,eqi指的是实体数据查询访问的接口,estate指的是对应数据源针对实体数据类型所提供服务的正常、停止与暂停等不同状态,eversion指的是数据实体类型版本)。(2)资源标识符对照表的设计。资源标识符对照表I的设计主要是为了对不同数据源的同一资源实体所具有的资源标识符存在差异的现象进行处理,其表达式为:I={ename,rid,bid,esrc}(其中rid表示特定数据源中电力系统资源实体的标识符,bid是某资源实体基准标识符)。(3)数据实体关联表的设计。数据实体关联表的设计是实现资源实体间关联的建立的必要手段。其表达式为: (其中sbid、tbid分别代表两个有关联的资源实体基准标识符)。

3 结语

伴随着科技的发展和先进信息技术在电力企业日常经营、管理工作当中的普及,电力企业开发出了一系列将问题或者专业作为导向的应用系统,然而受到技术方法、IT基础架构规划不统一等多方面因素的影响,给信息应用系统之间的数据集成带来了很大的难度。通过实践应用证明,以CIM模型为基础的数据集成系统的建立实现了异构数据源向通用数据的映射,并利用服务接口给用户提供了规范化的数据服务,同时元数据库的设计实现了资源实体管理、编码映射等问题的合理解决,在电力企业的数据基础中的应用具有很高的可行性。

参考文献:

[1]陆一鸣,刘东,黄玉辉,于文鹏,顾建炜.基于CIM的馈线建模和应用[J].中国电机工程学报,2012,28:157-163+5.

[2]辛耀中,米为民,蒋国栋,徐丹丹,叶飞,杜鹏. 基于CIM/E的电网调度中心应用模型信息共享方案[J]. 电力系统自动化,2013,08:1-5.

数据分析的方法篇(6)

论文摘要:物理实验测得的数据,必须经过科学的分析和处理,才能揭示出各物理最之间的关系。就高中物理实验常用数据的处理方法进行分析,以期对物理实验教学有所帮助。

实验是物理学的重要组成部分,是物理教学不可缺少的环节。但学生在实际操作与处理中。往往容易在实验数据上出现错误,究其原因是学生没有牢固掌握数据处理的方法,不求甚解,一知半解,更不用说触类旁通了。根据我的教学经验,提出几种处理方法。(下面提出几种数据处理方法,供大家参考)

一、平均法

平均法是指对待测物理量进行很多次的测量,把测量的值相加再除以测量次数,或把每一次的测量值用固定的算式分别进行计算再求出结果,再把结果相加除以测量次数,最后取其平均值。这种方法就叫做平均法。

1.平均法的使用原理:每一次的测量因为多方面的因素都会不一样,测量值偏大或偏小,但其偏大或偏小的机会与程度往往均等,所以需要进行多次测量,再求其平均值,这样的测量值才会更真实、科学,有说服性。

2.数据的处理

(1)如果所求的结果是经过直接测量所得,应使用平均法。如“测定金属电阻率”的实验,在测定金属丝的直径d时,用“螺旋测微器”在金属丝的三个不同点上分别进行测量,然后取三次的测量结果,其平均值就是最后的直径。

(2)如果所求的结果不能经过直接测量得出,则要依据其实验的原理多次进行计算待测物理量的值,最终结果要把多次测量的物理量的值相加得出平均值。“用单摆测重力加速度”是个很典型的实验,求单摆周期的步骤如下:把单摆往一个方向拉开一个小角度,让小球顺利摆动,这时测出单摆完成n(20-30)次全振动的时间t,用公式T=t/n计算得出小球完成一次全振动的周期,这个步骤重复3次,用公式T=(T1+T2+T1)/3算出平均值,即求出单摆的振动周期。

二、描迹法

描迹法是指通过若干次描点、频闪照相、用打点计时器打点等记录形式,直观形象地显现实验结果的方法。如,在进行“平抛物体的运动”这个实验时,可以用频闪照相的方式记录小球的运动轨迹;在进行“匀变速直线运动”实验时,用打点计时器记录运动情况。在使用描迹法时,以下几个方面要高度注意:

1.在结果出来之前,应仔细观察、分析结果,去掉误差太大的数值。若中间出现个别的点偏离正常位置很远,有可能是偶然因素导致,应舍弃该点再重复进行实验,分析记录结果。如,在“匀变速直线运动”的实验中进行纸带选取的时候,首先多打出几条纸带,选择打点最清楚的一条进行研究分析,分析时一般去掉前面相对密集的点,在后面找出一个点作为开始的点。

2.若要根据记录的点进行描线,则应描平滑的实线,并尽可能让更多的记录点通过平滑线或靠滑线,而且这些记录点要在平滑线的两侧均匀分布,不能在描线的过程中出现折线。

3.为了使描述的结果比较精确,实验中记录的点不能太少,并且要在所描范围内合理、均匀分布。

三、图像法

图像法因其直观、形象、容易操作的特点被广泛应用于物理实验中,又被称为作图法,顾名思义是指在坐标纸上把实验数据之间的对应关系连成图线,由图线得出相应物理量之间的关系,并由此进一步得出实验结果。用图像法处理实验数据的步骤如下:

1.将测量的数据列表归类整理。

2.在坐标纸上以相应的物理量为横轴、纵轴建立坐标系,并定出标度。

3.描点。

4.连线:连线要遵循三个原则,一条直线上要描上尽可能多的点;其余的点要均匀分布两侧;离描线太远的点直接去掉。遵循这种连线原则处理数据,与多次测量取平均值殊途同归(但由于去掉偶然误差过大的数据点。使得结果比平均值法更加精确些)。

5.注明图像的名称、制图时间及其他说明:中学物理实验运用图像法,一般情况下会得出y=kx+b形式的一次函数关系,即结果是一条直线(一次函数拟合),图线画出后,可以用图线与坐标轴上的截距求出相应的物理量,也可以用图线的斜率或者用图线围成的面积求出相应物理量,还可以用图线反应一定的物理规律。如果描出的数据点连成了一条曲线。则应变换物理量,最终要得到一条直线(一次函数)。如,在验证“牛顿第二定律”的实验中,在研究“外力一定时物体的加速度和物质的质量之间的关系”时,假若a为纵坐标,m为横坐标,连接各数据点后得到一条曲线,实验结论就不会精确;但若以1/m为横坐标轴,连接各数据点则基本上可以画出一条过原点的直线,即得出正确的结论:外力一定时,物体的加速度a与物体的质量m成反比,即物体的加速度a与物体的质量m的倒数成正比。通过变换,完成了化曲线为直线,更直观、快捷地得出实验结果。

四、直接比较法

在做一些物理实验时。物理量之间的关系只需要定性地去确定,或把实验结果与标准值进行比较则可求出实验结论,都可以采用直接比较法。如,在“互成角度的两个共点力的合成”实验中,可将实验中测得的合力与根据实验画出的平行四边形对角线两矢量的大小与方向进行直接比较,就可以确定验证平行四边形定则的目的是否已经达到了。

五、计算机辅助处理数据

信息技术已被广泛运用到物理教学课堂上,也被广大师生所接收,中学生的计算机水平日益提高,已能熟练运用计算机记录与处理数据,对数据的图像进行分析等。计算机中的Excel软件功能非常强大,能够进行大量的数据记录与处理,还能画出物理实验中比较实用的x-y散点图,能够进行一次函数、幂函数以及拟合,求出相应的函数系数,从而得出物理量的值。

总之,在高中物理实验教学中引导学生学会合理使用数据处理方法。这样可以尽可能地减少学生在实验中的系统误差和过失误差,指导学生运用正确的分析方法,同时使其学会对实验结果的正确评估和描述。

参考文献:

[1]刘本才.物理实验数据的处理方法[J].实验教学与仪器,2005(6).

[2]李潮锐.实验数据处理方法的合理选择[J].实验技术与管理.2006(4).

[3]李潮锐.再谈实验数据处理方法的合理选择[J].实验技术与管理.2007(4).

[4]杨加余.浅谈实验数据的处理方法[J].物理教学探讨,2003(10).

数据分析的方法篇(7)

关键词:国库统计 大数据 分析与预测

一、大数据时代国库统计分析转变

(一)树立大数据思维

“大数据时代预言家”维克托认为:世界的本质就是数据,大数据将开启一次重大的时代转型,一直以来所延续的传统统计分析思想已变得陈旧且落后。国库统计分析思维应当在大数据背景下加以转变。一是关于大数据抽样调查工作的思想。抽样调查是目前统计分析工作中的重要调查方式,但应该清醒地认识到,传感器、网络和数据处理技术,为获取全局数据提供了可能,抽样调查方式越来越多的被大数据取代成为必然。二是大数据统计思想:允许数据存在不精确性。纵观目前的各类数据,一方面,数据来源不断扩展,另一方面数据处理方法飞速发展,我们应该把重心放在统计分析效率上,而不是一味地追求数据的精确性上。三是大数据相关关系的思想,由验证因果向寻求关联转变。统计分析报告是统计工作的下游产品,对决策的意义常常大于常规报表。大数据的应用,统计分析也将发生转变,在做好因果分析的基础上向寻求关联转变,原因分析更加精准和深刻,对策建议更具参考价值。

(二)被动统计到主动分析,从人工统计到智能统计

在这样一个信息爆炸的大数据时代,无论政府机构还是社会公众都可以通过多种途径获取信息,国库统计分析部门也不例外,更应该变被动为主动,对经济转型期的一些重大问题尤其是关系到可持续发展的重要问题,做好数据统计分析,提高发展质量,实现经济转型。涂子沛指出人类使用数据的巅峰形式,是通过数据赋予机器“智能”。大数据在包括国库统计分析中应用的终极形式就是分析智能化。

(三)从事后统计向事前预测转变

统计分析报告是统计工作的重要产品,完整的进度性常规分析应该包括对未来一定时期数据的预测。但由于小数据和信息量的局限,预测一般很少作为报告的重点,多是在假定发展条件、相关政策不变的情况下对未来情况做出的粗略研判,影响了统计对决策的参考价值。而大数据的核心就是将数学算法与海量的数据有效结合,来预测事情发生的可能性。大数据的广泛应用,将有利于统计报告实现由单一的事后分析,向注重事前预测转变。

二、大数据在国库统计分析全流程应用的探讨

当前,大数据浪潮带来了一场新的革命,面对经济发展的新形势新要求,国库统计分析要学会积极的运用大数据的思想和方法,来应对各种新挑战。国库统计分析要积极主动建立大数据分析应用机制,破解新常态下面对的各种问题,实现工作的创新与发展。本文重点分析国库统计分析全流程下大数据的应用。

(一)数据源:建立国库统计分析数据池

目前国库统计分析所用数据主要通过“3T”系统产生基础数据和监管类数据,通过收集各类型政策文件、影像资料、领导讲话、内网信息等形成综合性数据。但这些数据远未达到支撑大数据统计分析的基础。国库统计分析应当建立“数据池”这一基础工程,通过人行内部数据整合、银行和其它机构数据接入、互联网数据抓取和引入等多渠道扩充基础信息源和数据库,为国库统计分析的大数据应用奠定数据基础。

一是加速整合现有国库数据。我国国库汇集了各级政府财务数据和各级国库管理数据,包括从中央到县乡的各级机构化和非结构化数据,也包括税务、海关、财政、银行等部门处理的各类收支退存等国库资金运行数据,涵盖面极广。但现有数据资源存在着部门隶属、无法共享等问题,大数据要求建立统一、高效、共享的国库业务大数据池,就必须打破现有藩篱,尽早实施“国家金库工程”,完善内部数据源。

二是扩大国库统计分析数据源。最重要的是打通各级政府及其下属各部门之间的数据传输通道,实现政府办公、工商行政、招商引资、外贸出口、仲裁诉讼等政府活动所产生的数据接入共享。其次是实现一行三会、商业银行、行业协会、企业实体等生产运营数据的持续传输和报送。最后是互联网数据,互联网是大数据的重要载体,也是数据收集的快捷途径,通过各类互联网平台,门户以及行业网站,可以收集海量数据来增加国库统计分析领域数据采集的前置性和时效性。

(二)数据采集与存储:软件与硬件结合

大数据的应用中,由于数据来源非常广泛且类型多样化,需要存储和分析挖掘的数据量也是十分庞大的,因此数据展现和处理的高效性以及可用性十分重要。因而,大数据的收集和存储应当通过先进的计算机技术自动实现,并结合线下需求采取人工收集等传统方法,以补足系统无法收集的数据的遗漏。国库统计分析数据的采集应当在国库大数据资源池基础上,通过构建云计算应用平台,统筹整合各直属国库大量分散的数据和软硬件资源,通过应用云计算平台的资源和功能,以提升和优化整体效能,从而实现全国国库统计分析的大集成、大整合以及大应用。对于其他横向联网数据,比如一些保密性较强的科学研究数据和企业生产经营数据,则可以与研究机构和企业建立合作关系,使用特定系统接口等相关方式采集数据。

在数据存储方面,在通过完善的物理存储技术和云计算平台等软硬件设施的基础上,按国库统计层级建立分级仓储式数据中心,以人行总行为总库,各项业务与非业务数据达到汇总存储,各级行通过内部接口或云计算平台实现数据上传下载,同时本级行建立分中心数据存储仓,采集本级区域内纵向和横向数据并存储。同时按照保密和信息安全等要求,实施分级授权和设置防火墙、实时加密存储数据和卷标存储加密等技术。

(三)数据清洗与结构化处理

国库海量的、不规则的数据无法提供有效决策支持,只有通过数据清洗技术将大数据转变为结构化和规则化的数据,才能体现大数据价值。数据清洗包括检查数据一致性,处理无效值和缺失值等,是发现并纠正数据文件中可识别的错误的最后一道程序。经过数据清洗技术处理残缺数据、错误数据和重复数据后将有效数据写入数据库。

在国库大数据统计分析上,通过数学知识(概率、统计、离散化等)建立合理模型,充分利用和挖掘数据内容。综合运用开源类和非开源类数据分析工具包括R、Python、MATLAB、SPSS、EVIEWS等软件进行数据分析。具体实现统计分析、数据挖掘和模型预测等功能,并以可视化的结果予以呈现。统计分析包含假设检验、差异分析、相关分析、方差分析、回归分析、logistic回归分析、因子分析、聚类分析、主成分分析、判别分析、bootstrap技术等。数据挖掘包含相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘等。模型预测包含预测模型、机器学习、建模仿真等。

在统计分析过程中,国库统计分析应该重点实现云应用的创新与共享。统计人员可以根据业务的新要求,在云平台数据开放接口的基础上,自由构建合理的数学模型和算法,实现业务应用的创新和扩展。与此同时,以算法的方式将统计人员的智力成果和业务知识固化,当经验证为可信任应用时,可自动进入云平台的应用共享库,在得到授权的前提下,自由使用或补充完善,实现知识固化、资源共享。

(四)国库运行智能化统计分析

在云应用平台上,国库统计分析首先要将日、旬、月和年作为数据的时间维度,将国库收入、国库支出以及国库库存等统计指标作为数据的为空间维度,利用云计算的强大能力,并借助数据分析展示工具,预先计算处理数据。或者根据用户事先提交的数据挖掘需求自动完成相关数据预处理。统计分析人员随时可以从两个维度上深度挖掘数据,并使用QLikView等数据分析工具,实现统计大数据的多维度、可视化展示。

二是实现常规统计分析的智能化生产。可以通过完善和丰富大数据应用平台的分析功能,实现机器式的学习,输入必要的参数后,系统将自动计算数据,并关联提取大数据池中的相关数据和信息,进而依据特定的模板输出分析报告,最后由分析人员对输出的分析报告进行质量把关和进一步的补充完善。

三是构建统计分析数据模型,提高预警预测水平。不断进行新的分析预测数学模型的探索和构建,充分利用国库统计大数据平台上的海量数据和动态实时数据,不断提高预测水平。

(五)数据展示与反馈

以智能化统计分析为主的大数据应用技术,为数据结构化和可视化的展示提供了支持。简要国库运行数据、系统化运行指标、国库资金运行报告、国情和舆情监测报告、企业和金融服务报告、国库运行情况预测等为中央银行、各级政府部门制定有关政策提供统计信息和参考依据,充分发挥国库在国家预算执行中的促进、反映和监督作用。同时建立信息反馈机制,对现有统计分析结果予以反馈,还包括对未满足需求提出反馈,丰富和完善大数据应用成果,充分发挥国库统计分析应用大数据的社会价值。

综上所述,从全流程看,大数据应用自数据端建立“”数据池“”到处理端智能分析在到应用端数据展示,大致可以通过下图(图1)形象展示:

三、有效提升大数据应用的政策建议

(一)从制度层面保障大数据统计分析的有效开展

制定专门的大数据应用法律法规,在由总行统一部署、统一实施的基础上,各地区分支机构结合当地实际制定特色大数据应用和发展规章制度。从数据产生、采集、存储、挖掘和应用等大数据处理全流程做出明确安排。一是通过总行层面的发文、通知等鼓励通过大数据方法加强国库统计分析,建设大数据共享和应用平台;二是强化大数据统计所需软硬件采购、数据源互联互通及模块化分割等作出具体安排;三是要求大数据应用所应达到的在信息、统计报告、预测与预警等功能上的目标和绩效予以明确,充分利用大数据平台提供统计分析支持;四是强化信息技术安全,防止信息泄露、网络攻击、系统失灵等问题,明确应急处置方案。做到严格立法,有法可依,有章可循。

(二)加大基础设施建设和人才投入,满足大数据应用的软硬件要求

大数据基础设施可分为硬件和软件两类。硬基础设施主要包括用于收集、存储、分析和应用大数据的信息化系统架构;软件基础设施主要包括各类数据信息、数据挖掘和大数据应用专业软件以及金融企业的人力资源。人民银行应通过专项资金投入等方式构建大数据应用的软硬件设施和和培养专业人才,并通过持续培训使全体员工了解并使用大数据进行国库统计分析。也可邀请专业的大数据解决方案服务商作为咨询顾问,整合国库不同生产系统数据,优化数据应用行为,加快统计系统建设步伐。

(三)提高大数据管理和应用能力

国库统计分析应不断的加强国库运行数据的采集、储存、保护和管理工作,不断提升统计分析水平。加强对国库统计分析中涉及的地方债、营改增、房地产、小微企业经营、财政专户、盘活库存等热点领域可以设计建立相应跟踪监测指标体系。与此同时加强改革数据的统计制度、方法以及程序,研究大数据共享制度,为宏观经济分析提供便捷、坚实的大数据基础。

建立国库大数据分析应用机制是新形势下的当务之急。国库统计分析需不断改革创新,强化大数据的思维,提高大数据的意识和驾驭大数据的能力,积极探索新的大数据应用方法和途径,从而在国家宏观决策、服务经济社会发展、服务国库管理方面,进一步提升国库统计分析服务的能力和水平。

参考文献:

[1]沈昱池.大数据时代我国财政信息共享的思考[J].地方财政研究,2015(11):47-67

[2]陈健慧,赵昕.国库统计分析数据集中系统建设[J].金融电子化,2010,03:89-90