数据分析方法精品(七篇)

首页 > 精品范文 > 数据分析方法

数据分析方法精品(七篇)

时间：2022-02-01 16:20:05

数据分析方法

数据分析方法篇(1)

关键词：函数性数据；修匀；函数性主成份分析；资产收益率

中图分类号：F276．1

文献标识码：A

文章编号：1002―2848―2007(01)－0108―06

一、前　言

在经济数据的传统定量分析中，所分析的数据对象具有这样的特征，即数据要么是时间序列数据，要么是横截面数据。而实际中获得的许多经济数据，往往是在时间序列上取多个截面，再在这些截面上同时选取样本观测值所构成的样本数据。计量经济学中称这样的数据为“平行数据”(Panel Da―ta)，也被翻译成“面板数据”，或“纵向数据”(longitudinal data)。20多年来，许多学者研究分析了面板数据。事实上，关于面板数据的研究是计量经济学理论方法的重要发展之一，它在解决数据样本容量不足、估计难以度量的因素对经济指标的影响，以及区分经济变量的作用等方面，具有突出优点。但是，研究面板数据的计量模型，以线性结构描述变量之间的因果关系，且模型太过于依赖诸多的假设条件，使得方法的应用具有一定的局限性。为了弥补面板数据的计量模型分析方法及其它统计分析方法的缺陷，本文基于经济数据的函数性特征，介绍一种从函数视角对经济数据进行分析的全新方法一函数性数据分析(Functional Data Analysis，FDA)。

函数性数据分析的概念，始见于加拿大统计学家J．O．Ramsay和C．J．Dalzell于1991年发表的论文《函数性数据分析的一些工具》。6年后，J．O．Ramsay和B．w．Silverman(1997)将对函数性数据进行统计分析的已有理论和方法，总结在《函数性数据分析》一书中。但这本书偏重方法的理论介绍和数学推导，不利于统计基础薄弱者使用。经过5年的努力，J．O．Ramsay和B．w．Silverman研究了一些函数性数据案例，并将其具体的分析过程编入他们于2002年出版的专著中。虽然国外在这方面已经做了许多研究，也取得了许多有价值的结果，但是有关函数性数据的研究依然处于起步阶段，还有很多问题需要研究或进一步完善。另外，从方法应用的具体领域来看，很少涉及对经济函数性数据的分析。就目前研究文献来看，我国在此方面的研究尚是一片空白。

为填补我国在这方面研究的空白，本文从思想、方法等方面，对函数性数据分析进行系统介绍，并通过编写计算机程序，率先利用该方法分析实际的经济函数性数据。本文共分六部分，以下内容的安排为：数据的函数性特征及经济函数性数据实例、从数据的函数性视角研究数据的意义、函数性数据分析的目标和步骤、函数性数据分析方法的经济应用，最后一部分是本文的结论。

二、数据的函数性特征及经济函数性数据实例

一般地说，多元数据分析(Multivariate Data A-nalysis，MDA)处理的对象，是刻画所研究问题的多个统计指标(变量)在多次观察中呈现出的数据，样本数据具有离散且有限的特征。但是，现代的数据收集技术所收集的信息，不但包括传统统计方法所处理的数据，还包括具有函数形式的过程所产生的数据，例如，数据自动收集系统等，称具有这种特征的数据为函数性数据。

函数性数据的表现形式多种多样，但就其本质来说，它们由函数构成。这些函数的几何图形可能是光滑的曲线(如人体在成年前的身体高度变化等)，也可能是不光滑的曲线(如股票综合指数等)。许多研究领域的样本资料往往表现为函数形式，如考古学家挖掘的骨块的形状、按时间记录的经济数据、手写时笔尖的运动轨迹、温度的变化等。函数性数据分析(Functional Data Analysis，FDA)的基本原理是把观测到的数据函数看作一个整体，而不仅仅是一串数字。函数指的是数据的内在结构，而不是它们直观的外在表现形式。

实际中，之所以要从函数的视角对数据进行分析，是因为：(1)实际中，获得数据的方式和技术日新月异、多种多样，例如，越来越多的研究者可以通过数据的自动收集系统获得大量的数据信息。更重要的是，原本用于工程技术分析的修匀(smoothing)和插值(interpolation)技术，可以由有限组的观测数据产生出相应的函数表示。(2)尽管只有有限次的观测数据可供利用，但有一些建模问题，将其纳入到函数版本下进行考虑，会使分析更加全面、深刻。(3)在有些情况下，如果想利用有限组的数据估计函数或其导数，则分析从本质上来看就具有函数性的特征。(4)将平滑性引入到一个函数过程所产生的多元数据的处理中，对分析具有重要的意义。

在经济分析中，融合时间序列和横截面两者的数据很常见，例如，多个国家、地区、行业或企业的多年的年度经济总量、多家商业银行历年的资本结构、能源(如电力、煤炭、石油等)多年按月的消耗量、不同时间上多个省市的失业数据等。这些经济数据往往呈现函数性特征，即每个个体对应着一个函数或曲线。在对经济函数性数据进行分析时，将观测到的数据(函数)看作一个整体，而不是个体观测值的顺序排列，这是函数性数据分析不同于传统统计分析之根本所在。例如，表1是工商银行、农业银行、中国银行、建设银行1995年到2004年期间的资产收益率(ROA)数据。

利用基于MATLAB编写的程序，对数据进行平滑处理(smoothing)，并绘出四家国有银行的资产收益率(ROA)的修匀曲线(见图1)。由曲线图可以看出，每个个体(银行)对应着一条曲线(其数学表达式为函数)，这是将多家银行的历年ROA数据记录看作函数的根本理由，也是函数性数据分析的出发点。

三、从数据的函数性视角研究数据的意义

从函数的视角，对具有函数特征的经济数据进行研究，会挖掘出更多的信息。例如，对函数性数据的平滑曲线展示，不但能够诊断出拟合数据的可能数学模型，还能够通过对光滑曲线求一阶、或更高阶的导数，来进一步探索数据的个体(横截面)差异和动态变化规律。

图2是四家银行资产收益率的速度(一阶导数)曲线，观察发现：在1995年至2004年期间，农业

银行、中国银行及建设银行的资产收益率的变化率，呈现出较强的周期性，其中尤以建设银行的表现最为突出。加速度曲线图显示，四家银行资产收益率的变化率的波动状况不相同，转折变化的时间差异也较大。这些情况一定程度表明，各家银行的内部管理与经营机制，对市场信息的反应快慢程度各不相同。

四、函数性数据分析的目标和步骤

函数性数据分析的目标与传统统计学分析的目标基本一样，具体情况如下：

(一)以对进一步分析有利的方法来描述数据；

(二)为突出不同特征而对数据进行展示；

(三)研究数据类型的重要来源和数据之间的变化；

(四)利用输入(自变量信息)来解释输出(因变量)的变化情况；

(五)对两组或更多的某种类型的变量数据进行比较分析。

典型的FDA主要包括以下步骤：

第一步，原始数据的收集、整理和组织。假设我们考虑的自变量是一维的，记为t，一个的函数仅在离散抽样值　处被观测，而且这些ti可能等间隔分布，也可能不是。在函数性数据分析中，将这些离散的观测值看作一个整体。

第二步，将离散数据转换为函数形式。这是利用各次观察的原始数据定义出一个函数x(t)，它在某一区间上所有t处的值都被估算了出来。解决这个问题的基本方法是选定一组基函数 (t)，k=O，…，K，并用基函数的线性组合给出函数x(t)的估计

第三步，多种形式的初步展示与概括统计量。概括统计量包括均值和方差函数、协方差与相关函数、交叉协方差(cross―covafiance)与交叉相关(cross―correlation)函数等。

第四步，为了使每一条曲线的显著特征都在大体相同的自变量处(如月份、年份等)显现出来，可能需要对函数进行排齐(regigtration)，其目的是能够区别对待垂直方向的振幅变化与水平方向的相变化。

第五步，对排齐后的函数数据进行探索性分析，如函数性主成份分析(FPCA)、函数性典型相关份析(FCCA)等。

第六步，建立模型。建立的模型可能是函数性线性模型，也可能是微分方程。

第七步，模型估计。

五、函数性数据分析方法的经济应用

为了说明函数性数据分析方法的具体应用，同时出于使所绘图形简单明了，本文再次利用四家国有银行的数据，对资产收益率进行更深入的分析。虽然此实例中个体数少，但并不妨碍对方法应用的系统描述与理解。

在对实际问题的经济数据进行分析时，通常需要依照研究的目标编写计算机程序。就目前的研究现状来看，基于MATLAB或SPLUS等编写的程序，如绘图或综合计算函数等，完全可以满足分析的需要。本文首先基于MATLAB编写程序，然后对四家国有银行的资产收益率数据进行分析。

关于四家银行资产收益率数据的函数(曲线)展示与初步分析，本文在前面已进行了描述，具体结果见图1和图2。概括资产收益率特征的统计量(均值函数和标准差函数)的曲线见图3。

为了进一步探讨典型函数所呈现的特征，本文利用函数性主成份分析，对四家银行的资产收益率数据进行分析。一般来说，在函数性数据分析中，与多元统计中的某个主成份的权向量相对应的是主成份权函数(principal component weight function)，记为　，其中t在一个区间中变化。第i个样品(个体) 的主成份得分值为，第一主成份就是在的约束条件下，寻求使主成份得分的方差达到最大的权函数，即它是下面数学模型的最优解：类似地，可以求得第j个主成份，其权函数毛(t)是下面数学模型的解：

为了得到光滑的主成份，一种方法是对由上述方法求出的主成份进行修匀，另一种方法是将修匀处理过程，融入到主成份的求解过程中。具体作法是将描述主成份曲线波动程度的粗糙因子纳入到约柬条件中，形成带惩罚的约束条件。利用粗糙惩罚法求第j个主成份的数学模型是其中　称为修匀参数，用它可对粗糙惩罚项进行调整。

利用上述方法和基于MATLAB编写的程序，对四家银行进行函数性主成份分析(FPCA)。具体结果见图4。第一个主成份(PCI)的解释能力为85．5％，第二个主成份(Pc2)的解释能力为13．1％，前两个主成份的综合解释能力为98．6％。

为了清晰地显示主成份，并进行有意义的解释，在同一图中绘出三条曲线，一条是整体均值曲线，另两条是对均值曲线分别加上和减去主成份的一个适当倍数而形成的曲线，具体结果见图5(本文所选的倍数是0．12)。以上所述的三条曲线分别对应着图5中的实心曲线、‘+’曲线和‘*’曲线。第一个主成份反映了资产收益率(ROA)的一般变化，尤其反映了资产收益率的“两头”变化情况(1999年以前和2003年以后)。第二个主成份反映了资产收益率(ROA)的中段变化。

六、结论

在经济实践中，越来越多的领域所得到的样本观察资料是曲线或图像，即函数性数据。因此，对这种类型的经济数据进行统计分析和描述，具有重要的现实意义。因篇幅所限，还有一些函数性数据的分析方法未予以介绍，如函数性方差分析、函数线性模型、函数性典型相关分析以及描述动态性的微分方程等。由于本文的主要目的，是通过对函数性数据分析方法和具体应用的介绍，传述对数据进行分析的新思想，而不只是方法技术本身。因此，缺少的方法并不影响对思想的阐述。

另外，本文对四家银行资产收益率的分析，例证了函数性数据的分析方法，具有传统统计分析方法不可比拟的优越性，具体表现在：(1)通过对函数性数据的修匀，将一阶或多阶导数，如速度和加速度，引入到分析过程中。这一点在计量经济学和多元统计的分析方法中未予以考虑。(2)函数性数据分析，用最少的假设来研究曲线间和曲线内部的结构变化。关于这一点它优于计量经济学中处理“面板数据”的方法。事实上，面板数据只是函数性数据的一种类型，本文介绍的数据分析方法可用来处理许多领域的函数性数据，应用范围相对宽广，而且观测时点也可以不等间隔选取。(3)将数据曲线的振幅变化与相位变化分开处理，是函数性数据分析的一个中心理念，但在以前的分析中却被忽视了。

数据分析方法篇(2)

Larry Kerschberg George Mason University

USA

Peter J.H.King University of London UK

Alexandra Poulovassilis University of

London UK (Eds.)

The Functional Approach To

Data Management

Modeling, Analyzing And Integrating

Heterogeneous Data

2004,483pp.

Hardcover EUR:69.95

ISBN 9783540003755

数据管理的功能方法

建模、分析和综合异质数据

彼得M.D格林莱瑞.克斯伯格,

彼得J.H 金，亚历山大.波洛瓦斯里斯著

功能数据模型和功能编程语言首次引入到计算领域已有20多年的历史了。随着数据库技术在生物信息、国家安全、犯罪调查和高级工程领域的卓越应用，数据库技术的重要性日渐凸现，本书所提出的更成熟的方法就越显得重要。

本书分为五部分。第一部分介绍了如何将数据管理与功能语言融合在一起的方法。功能语言是最新发展起来的运用于计算和规范用途的工具，在本书中主要是数据模型和计算的功能方法，能够带来语义网络的新时代和网络世界的资源分流。这比相关模型更具灵活性，而且很适合半结构数据。

第二部分是介绍异质数据库和生物信息学的一体化数据。在这部分中介绍了有关异质数据库和生物信息学的一体化数据新近的研究成果。至关重要的观点就是功能性的提取数据创造了独特的观察数据的方法，不论这些数据是如何被存储的，这对于程序员来讲或许有些陌生，主要是因为他们习惯了操作数据内部的特定排列或者凭借记忆中记录的结构。不过当来自不同信息源的资料一体化之后，隐藏存储细节并且在一个更高的概念层次上作业就变得重要了。

第三部分是理解力表。从计算的角度讲，功能方法允许我们调定功能然后重新书写并利用有参考性的图片转化功能表达。在这一部分中，将运用到设计、常规分析和功能数据语言最优化，包括了重要的精炼理解，并以数学结构为基础，这些原理的应用贯穿了全书。

第四部分介绍关于管理半结构化的数据、信息和知识的功能方法。本部分各章均采用XML语言来描述半结构化数据，或者使用以XML语言为基础的开放标准的描述语言。XML语言能够将数据描述语言和数据本身放在一起，使描述数据的元数据成为数据自描述的一种形式。本章还强调了不同来源的信息源数据整合和互操作。当来自不同信息源的异质数据放到一起时，需要通过数据整合来构建一个分布式资源的概念模型。这部分内容向人们展示了功能方法在建模、执行、管理和整合这些系统中的效用。

第五部分为指南。它能够使读者将全书的各部分统观贯穿起来，并加深对其他部分的理解和应用。

本书适合于有志钻研本项目的读者研读、学习。对于正在这一领域工作的人来说本书不啻为有价值的参考资料。

刘丽，副教授

(中国农业大学管理工程学院)

数据分析方法篇(3)

关键词：大坝安全监测数据分析

中图分类号：P2 文献标识码：A 文章编号：1672-3791（2012）12（b）-0053-02

1 大坝安全监测的意义

大坝所具有的潜在安全问题既是一个复杂的技术问题，也是一个日益突出的公共安全问题，因此，我国对大坝安全越来越重视。随着坝工理论和技术的不断发展与完善，为了更好地实现水资源的进一步开发利用，我国的大坝建设正向着更高更大方向发展，如三峡重力坝、小湾拱坝（最大坝高294.5 m）、拉西瓦拱坝（最大坝高250 m）、溪洛渡拱坝（最大坝高285.5 m）等，这些工程的建设将为我国的经济发展做出巨大贡献，也将推动我国的坝工理论和技术水平上升到一个新的高度。但是，这些工程一旦失事，将是不可想象的毁灭性灾难，因此，大坝安全问题就显得日益突出和重要。保证大坝安全的措施可分为工程措施和非工程措施两种，两者相互依存，缺一不可。

回顾大坝安全监测的发展历史，最早可追溯到19世纪90年代，1891年德国的挨施巴赫重力坝开展了大坝位移观测，随后于1903年美国新泽西州Boont。n重力坝开展了温度观测，1908年澳大利亚新南威尔士州巴伦杰克溪薄拱坝开展了变形观测，1925年美国爱达荷州亚美尼加一佛尔兹坝开展了扬压力观测，1826年美国垦务局在Stevenson一creek试验拱坝上开展了应力及应变观测，这是最早开展安全监测的几个实例。我国从20世纪50年代开始进行安全监测工作，大坝安全监测的作用是逐渐被人们认识的，赵志仁将大坝安全监测的发展历程划分为以下3个阶段。

（1）1891年至1964年，原型观测阶段，原型观测的主要目的是研究大坝设计计算方法，检验设计，改进坝工理论。（2）1964年至1985年，由原型观测向安全监测的过度阶段，接连发生的大坝失事，让人们逐渐认识到大坝安全的重要性，逐步把保证大坝安全运行作为主要目的。（3）1985年至今，安全监测阶段，此阶段，大坝安全监测已经成为人们的共识，随着监测仪器、监测技术和资料分析方法的不断进步、发展与完善，将逐步实现大坝的安全监控。

2 大坝安全监测数据分析概述

大坝安全监测取得的大量数据为评价大坝运行状态提供了基础，但是，原始观测数据往往不能直观清晰地展示大坝性态，需要对观测数据进行分辨、解析、提炼和概括，从繁多的观测资料中找出关键问题，深刻地揭示规律并作出判断，这就需要进行监测数据分析。

2.1 监测数据分析的意义

大坝监测数据分析可以从原始数据中提取包含的信息，为大坝的建设和运行管理提供有价值的科学依据。大量工程实践表明：大坝监测数据中蕴藏了丰富的反映坝体结构性态的信息，做好观测资料分析工作既有工程应用价值又有科学研究意义。大坝安全监测数据分析的意义表现在如下几方面：（1）原始观测数据本身既包含着大坝实际运行状态的信息，又带有观测误差及外界随机因素所造成的干扰。必须经过误差分析及干扰辨析，才能揭示出真实的信息。（2）观测值是影响坝体状态的多种内外因素交织在一起的综合效应，也必须对测值作分解和剖析，将影响因素加以分解，找出主要因素及各个因素的影响程度。（3）只有将多测点的多测次的多种观测量放在一起综合考察，相互补充和验证，才能全面了解测值在空间分布上和时间发展上的相互联系，了解大坝的变化过程和发展趋势，发现变动特殊的部位和薄弱环节。（4）为了对大坝监测数据作出合理的物理解释，为了预测大坝未来的变化趋势，也都离不开监测数据分析工作。因此，大坝监测资料分析是实现大坝安全监测最终目的的一个重要环节。

2.2 监测数据分析的内容

监测资料分析的内容通常包括：认识规律、查找问题、预测变化、判断安全。

（1）认识规律：分析测值的发展过程以了解其随时间而变化的情况，如周期性、趋势、变化类型、发展速度、变动幅度等；分析测值的空间分布以了解它在不同部位的特点和差异，掌握它的分布特点及代表性测点的位置；分析测值的影响因素以了解各种外界条件及内部因素对所测物理量的作用程度、主次关系。通过这些分析，掌握坝的运行状况，认识坝的各个部位上各种测值的变化规律。（2）查找问题：对监测变量在发展过程和分布关系上发现的特殊或突出测值，联系荷载条件及结构因素进行考查，了解其是否符合正常变化规律或是否在正常变化范围之内，分析原因，找出问题。（3）预测变化：根据所掌握的规律，预测未来一定条件下测值的变化范围或取值；对于发现的问题，估计其发展趋势、变化速度和可能后果。（4）判断安全：基于对测值的分析，判断过去一段时期内坝的运行状态是否安全并对今后可能出现的最不利条件组合下坝的安全作出预先判断。

一般来讲，大坝监测资料分析可分为正分析和反演分析两个方面。正分析是指由实测资料建立原型物理观测量的数学模型，并应用这些模型监控大坝的运行。反演分析是仿效系统识别的思想，以正分析成果为依据，通过相应的理论分析，反求大坝材料的物理力学参数和项源（如坝体混凝土温度、拱坝实际梁荷载等）。吴中如院士提到通过大坝监测资料分析可以实现反馈设计，即“综合原型观测资料正分析和反演分析的成果，通过理论分析计算或归纳总结，从中寻找某些规律和信息，及时反馈到设计、施工和运行中去，从而达到优化设计、施工和运行的目的，并补充和完善现行水工设计和施工规范”。综上所述，大坝监测资料正分析中数学模型的研究与应用是实现大坝安全监测及资料分析的目的和意义的基础与根本。

3 监测数据分析方法

大坝安全监测数据分析涉及到多学科交叉的许多方法和理论，目前，常用的大坝监测数据分析方法主要有如下几种：多元回归分析、时间序列分析、灰色理论分析、频谱分析、Kalman滤波法、有限元法、人工神经网络法、小波分析法、系统论方法等等。（图1）

3.1 多元回归分析

多元回归分析方法是大坝监测数据分析中应用最为广泛的方法之一，最常用的方法就是逐步回归分析方法，基于该方法的回归统计模型广泛应用于各类监测变量的分析建模工作。以大坝变形监测的分析为例，取变形（如各种位移值）为因变量（又称效应量），取环境量（如水压、温度等）为自变量（又称影响因子），根据数理统计理论建立多元线性回归模型，用逐步回归分析方法就可以得到效应量与环境量之间的函数模型，然后就可以进行变形的物理解释和预报。由于它是一种统计分析方法，需要因变量和自变量具有较长且一致性较好的观测值序列。如果回归模型的环境变量之间存在多重共线性，可能会引起回归模型参数估计的不正确；如果观测数据序列长度不足且数据中所含随机噪声偏大，则可能会引起回归模型的过拟合现象，而破坏模型的稳健性。

在回归分析法中，当环境量之间相关性较大时，可采用主成分分析或岭回归分析，为了解决和改善回归模型中因子多重相关性和欠拟合问题，则可采用偏回归模型，该模型具有多元线性回归、相关分析和主成分分析的性能，在某些情况下甚至优于常用的逐步线性回归模型，例如王小军、杨杰、邓念武等在应用偏回归模型进行大坝监测数据分析时，还采用遗传算法进行模型的参数估计，取得了较好的效果。

3.2 时间序列分析

大坝安全监测过程中，各监测变量的实测数据自然组成了一个离散随机时间序列，因此，可以用时间序列分析理论与方法建立模型。一般认为时间序列分析方法是一种动态数据的参数化时域分析方法，它通过对动态数据进行模型阶次和参数估计建立相应的数学模型，以了解这些数据的内在结构和特性，从而对数据变化趋势做出判断和预测，具有良好的短期预测效果。进行时间序列分析时一般要求数据为平稳随机过程，否则，需要进行协整分析，对数据进行差分处理，或者采用误差修正模型。例如，徐培亮利用时间序列分析方法，对大坝变形观测资料进行分析建模得到一个AR（2）模型，并对大坝变形进行了预报，结果表明具有良好的预测精度。涂克楠、张利、郑箫等也利用时间序列对大坝监测数据进行分析，有效地提高了模型对实测数据的拟合能力和预测能力。

3.3 灰色理论分析

当观测数据的样本数不多时，不能满足时间序列分析或者回归分析模型对于数据长度的要求，此时，可采用灰色系统理论建模。该理论于20世纪80年代由邓聚龙首次提出，该方法通过将原始数列利用累加生成法变换为生成数列，从而减弱数据序列的随机性，增强规律性。例如，在大坝变形监测数据分析时，也可以大坝变形的灰微分方程来提取趋势项后建立组合模型。一般时间序列分析都是针对单测点的数据序列，如果考虑各测点之间的相关性而进行多测点的关联分析，有可能会取得更好的效果。1991年，熊支荣等人详述了灰色系统理论在水工观测资料分析中的应用情况，并对其应用时的检验标准等问题进行了探讨。同年，刘观标利用灰色系统模型对某重力坝的实测应力分析证明了灰色模型具有理论合理、严谨、成果精度较高的特点。

3.4 频谱分析

大坝监测数据的处理和分析主要在时域内进行，利用Fourier变换将监测数据序列由时域信号转换为频域信号进行分析，通过计算各谐波频率的振幅，最大振幅所对应的主频可以揭示监测量的变化周期，这样，有时在时域内看不清的数据信息在频域内可以很容易看清楚。例如，将测点的变形量作为输出，相关的环境因子作为输入，通过估计相干函数、频率响应函数和响应谱函数，就可以通过分析输入输出之间的相关性进行变形的物理解释，确定输入的贡献和影响变形的主要因子。将大坝监测数据由时域信号转换到频域信号进行分析的研究应用并不多，主要是由于该方法在应用时要求样本数量要足够多，而且要求数据是平稳的，系统是线性的，频谱分析从整个频域上对信号进行考虑，局部化性能差。

参考文献

数据分析方法篇(4)

我们在教学的过程中，也比较比较注重案例教学。例如，在讲授神经网络时，我们可以用上海证券交易所中股市中股票随时间变化的数据为例，让学生讨论如何应用神经网络对股票价格进行预测。人工神经网络是一种模仿自然界动物神经网络行为特征，进行分布式并行信息处理的算法数学模型，能够较好地处理具有一定复杂性的数据，在预测、拟合等方面取得了很好的应用效果。让学生采用神经网络进行实际数据分析和处理，可以增强他们学习的积极性，更主动地投入到学习中去。我们也要求他们使用回归分析的方法对股票价格进行预测，然后和神经网络预测的结果进行比较。通过这个过程，可以使学生们不但了解了神经网络与回归分析算法的异同，加深他们对神经网络的认识。

加强实验教学，增强学生动手能力

信息与计算科学专业是以信息领域为背景，数学与信息、管理相结合的交叉学科专业。该专业培养的学生具有良好的数学基础，能熟练地使用计算机，初步具备在信息与计算科学领域的某个方向上从事科学研究，解决实际问题，设计开发有关软件的能力。毕业生适合到企事业单位、高科技部门、高等院校、行政管理和经济管理部门，从事科研、教学和计算机应用软件的开发和管理工作，也可以继续攻读信息与计算科学及相关学科的硕士学位。从信息与计算科学专业的培养目标可以看出信息与计算科学专业的本科生不但需要掌握理论知识，还需要具有将所学知识用来解决实际问题的能力。数据挖掘作为一门应用性较强的课程，需要学生能够运用数据挖掘知识分析和解决实际问题，要求学生能够熟练掌握数据挖掘的程序设计，以便在将来的就业中具有更好的适应性，因此实验环节的教学有着其必要性。基于这些原因，我们在这门课中引入实验环节，并将其纳入考核要求。我们实验所用的基本软件是SAS统计分析软件。SAS软件是一个集统计分析、报表图形、信息系统开发和大型数据库管理等多种强大功能为一体的大型软件系统，是目前国际上主流的统计分析软件之一。我们信息专业在大三时开设这门课程，之前已经学过C语言和JAVA等程序设计方法，有了一定的编程基础，因此学习使用SAS软件并不是特别困难。而且，在SAS软件中，系统自带了许多数据挖掘函数，这方便了同学们的使用。我们在平时的学习中，将一些SAS软件的基本程序设计基础知识先发给同学们，让他们利用课后时间自己在个人电脑上进行熟悉，从而使得他们熟悉基本SAS程序设计方法，这样可以在实验课上直接运用SAS软件进行数据挖掘程序的编写。在实验课上，我们主要将要实验的内容和相关数据资料提供给同学，要求同学自己用数据挖掘的知识和SAS软件进行编程实现，并写出实验分析和小结。另外，在实验中，我们也要求学生尽可能将一些实验结果用图表的形式如崖底碎石图等表示出来，以利于进一步分析。对于少部分学有余力的同学，我们也引导他们自编相关的程序。比如说在SAS软件中进行K－均值聚类用fastclus这个函数就可以了，但是学生对程序具体实现过程可能不是很清楚。如果学生能够将程序K－均值聚类详细程序步骤自己编写出来，就可以表明学生对所K－均值聚类算法也有了较清楚的认识。另外，对于属于数学建模协会的同学，我们也引导他们将数据挖掘的知识和数学建模中某些问题相结合起来，对于以往出现的一些可以利用数据挖掘知识分析的问题让他们利用相关的数据挖掘知识对其进行分析和求解，通过这样的方式，可以这样拓展这些同学的思路，也为数学建模培养了人才。

灵活的课后作业形式，提高学生的综合能力

数据分析方法篇(5)

常用处理方法是删除含资料缺失的记录，后将剩余视为完全数据。这样可能产生偏倚，甚至误导性的结论。另有两大类方法，借补法在先用一个借补值替代缺失值，得到“完全数据”后运用标准完全数据分析方法，其经历两个发展阶段：单一借补、多重借补。前者包括极大似然估计的方法，后者由前者发展而来。第二类是不处理，直接分析数据。

一、数据缺失的程度与机制

数据缺失的程度、机制均影响处理方法的选择。方法不适当也会带来有偏的参数估计M1、方差估计与统计检验，甚至影响数据分析效用。

(一）数据缺失的程度

借助某一变量上数据缺失的比率X描述数据缺失的程度。缺失比率X如何应用方面，当X<10%时应当保留这些贼并对其哳搬的舰曾建议，当X>15%时可以考虑删除采用删除法；MRaymond与Roberts则认为X>40%时才考虑删除这些数据。

(二）缺失机制

缺失数据与诸多变量等相关,处理方法的性质依赖这些相依关系的特征。为论述方便，记全部变量Y观测值中那些完整的变量为Yobs、不完整的为Ymis。如果缺失值与Y相互独立无关，则缺失数据为完全随机缺失(MACR,missingcompletelyatrandom)的，是特殊情形。此时缺失值是总体的一个简单随机抽样。如果缺失值仅与Yobs相关联、与Ymis相互独立，则是随机缺失（MAR,missingatrandom)。如果Yobs与Ymis之间存在着依赖关系，则称非随机缺失（NMAR,notmissingatrandom)，是不可忽略的。

二、单一借补

单一借补用一个借补值替代全部缺失值,后用完全数据方法分析数据。单一借补是缺失数据处理中最通用方法之一，有多种方法。

(一)推理借补与最近邻借补

根据已有信息推断缺失数值，该方法简单易行，可提供准确借补值，或者近似准确借补值，同等情况下可优先进行推理借补。例，信息收集时已提供有姐弟信息的某被试“独生子女”一项空着，可推断为“否”。最近邻借补选用与缺失数据提供者相类似的被试数据替代该缺失值。按照匹配变量找到一个以缺失数据提供者类似的被试时，可还用例如欧式距离等来度量类似程度。

(二）均值借法

均值借补用已得数据的均值替代全部缺失值。借补值易均值形成尖峰，严重扭曲数据分布。当数据缺失非MACR时，将低估统计量方差，导致参数估计偏差，且不适用需方差的复杂分析。

(三）回归借补

回归借补可分为线性回归借补，非参数回归借补等。本文主要关注线性回归借补，用Yk关于数据完全的变量回归模型，回归值替代缺失值。建立回归方程时有一次或多次迭代之分。多次迭代中，预测变量以逐步进人模型，获得预测力最佳、最精简的变量组合；回归值替代缺失值，后建立新模型；如此，至回归系数变化不显著。是类别变量时，则考虑进行变换，进行线性回归。同时，我们还应注意到利用严格的回归方程进行预测，易人为增大变量之间的关系。多数情况下，教育学、心理学讨论的变量大多都不是相互独立的。选择该方法时，须考虑当预测变量与变量Y是否存在高度的相关关系。其构造借补值的逻辑清晰，相对客观。该方法能得到合乎逻辑的结果，尤其满足正态分布时。数据模拟实验表明,方法加精确。

三、多重借补

多重借补(multipleimputation,MI)基于缺失值的预测分布或统计模型的方法：提供多个借补值依次替代各个缺失值、构造个“完全数据”，121,191211后运用完全数据统计方法分别分析多个数据集；分别得到数个分析结果，拟合这多个结果，获得对缺失值的估计等，甚至是置信区间、P值。MI具备例如连续性的优良统计性质。

(一)回归预测法与倾向得分法

回归借补基于已有数据建立回归模型、嵌入借补值。先确定观察协变量，倾向得分法赋予一个条件概率。即对各Y产生一个观测值缺失概率，并以倾向得分表示。依据倾向得分对数据分组，组内进行近似贝叶斯Bootstrap(ABB)借补。

(二）似然的方法

1.极大似然估计

从理论上来看，极大似然法（MaximumLikelihood,ML)至今仍是参数点估计中的重要方法。既定模型下缺失值的诸多估计均可基于似然函数进行。ML利用总体数量特征的分布函数等，建立未知参数的估计量。将Y作为未知变量0，构造关于e的似然函数，后求的参数的极大似然估计量，甚至在参数空间内的置信区间，或者置信区域。

参数极大似然估计量(MLE)具有不变性，推广至多元变量时该优良性质亦成立。这恰能满足实际研究需要。基于其渐进最优性质等，ML成为参数估计的常用方法，诸如SPSS10.0、LISREL8.7等软件包均收人该方法。

2.期望极大化算法

期望极大化算法（Expectation-Maximizationalgorithm,EM)是ML有效方法，主要用来计算基于不完全数据的MLE15。当由于观测过程局限带来数据部分缺失时，或似然估计因似然函数不是解析函数而无效时可选用该方法。EM是一种迭代算法，每次迭代似然函数值都将有所增加，进而保证参数估计值收敛到一个局部极大值。此外，EM可自动实现参数约束。基于软件数据模拟表明X<30%时EM算法可得到比较好的结果。

3.MCMC方法

当缺失值分散在多个变量时，回归法基于对回归系数的估计获得借补值。复杂缺失模型中，回归系数的估算又依赖于借补值。这里似乎存在某种循环论证痕迹。此时，可考虑迭代法中马尔科夫蒙特卡洛方法（MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用马尔可夫链进行蒙特卡洛积分，可基于无后效性随机过程探讨数量关系、预测变量，还可有包括0出1?抽样等多种具体算法。基于多元抽样MCMC有诸多优点，足够长的时间使得雅过程驗时，MCMC可得卿常麵的结果。171MCMC是与具体的模型结合的，自身有不少扩展方法，且不同MCMC方法对缺失数据的参数估计之间存在差异。不过，X<30%时MCMC方法得到结果与完全数据时拟和较好。这些研究支持MCMC是处理缺失数据的有效方法，软件包SPSS17.0等均收人该方法。

四、不处理

借补值是缺失数据的主观估计值。引人的主观值可能改变原信息系统，甚至带进新噪音、导致分析错误。不处理确保了原有信息不变,并进行分析,其主要包含贝叶斯网与人工神经网络。不过，后者的具体应用仍有限、待进一步探索与实证。研究开始关注神经网络在心理学中的具体应用。

(一）贝叶斯网

贝叶斯网络(BayesianNetworks)是一个有向无圈图，W能描述不确定性因果关联的模型。该有向无圈图带有概率注解，能够表示随机变量的因果关系与概率关系，网络的拓扑结构能够表明如何从局部的概率分布获得完全的联合概率分布。分析缺失数据时，贝叶斯网将结合先验知识与样本数据对数值计算进行推理，得到最佳值。其最大程度利用数据蕴含的信息，是具有鲁棒性的方法。

缺失数据下学习贝叶斯网有各类算法，不少算法是通过对含缺失数据的信息系统完备化得到所需统计因子，最终将问题转化为完全数据下学习贝叶斯的网的问题。例如，结构EM(StructureEMAlgorithm)通过EM算法获得期望统计因子。数据非随机缺失可以通过引人隐藏变量转化为随机缺失问题，m似乎可以仅讨论随机缺失情况下算法。随着研究的推进，新的、优良的算法相继涌现，并得到模拟实验的支持。例如，数据缺失下贝叶斯网络增量学习算法IBN-M。甚至稳健的贝叶斯方法能够适用于含缺失数据的结构方程分析中，此时的结构方程模型选择固定方差。

建构贝叶斯网可由专家人工建构。其中，因果关系、网络结构是不可或缺的。这需对分析领域有相应了解，至少对变量间关系较清楚。在心理学等领域中应用尚待深入研究，该方法运用前景令人期待。

(二）贝叶斯网适用软件能够实现贝叶斯网的软件包不少。Netica是最重要软件之一，可免费下载功能有限的版本。专门进行数值计算的语言Matlab,其编程量较少、调试程序方便、呈现学习所得结构也不繁琐，国内文献也更多地涉及Matlab。BNTtolkit是基于Matlab开发的，提供不少基础函数库，能够进行参数学习与结构学习，且完全免费。缺乏图形用户界面、无法将基本函数集成相应系统是其“硬伤”。

五、结论与讨论

实际应用中，删法“浪费”不少数据，统计力低下，尽量选用其它方法。当满足MAR缺失机制且人在10%时，对删法可运用对有多个项目的量表的数据处理。当满足MAR、变量相关联，可考虑均值借补。当变量之间高相关且X>20%Ht,可考虑回归借补。

当变量多维正态分布时，可考虑稳健性较好的ML或EM。X在一定范围内时，基于似然的方法可获得良好的估计值。114121]变量间关系复杂时可考虑MCMC,入<30%时该方法所得结果与完全数据时的一样好，其可有效处理缺失数据。贝叶斯网是不确定性表达与推理最有效模型之一，缺失数据下的贝叶斯网络学习得到理论与实证支持。M71具备编程等条件时，可选用贝叶斯方法。

数据分析方法篇(6)

关键词：车牌识别；套牌车；大数据

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2015）34-0020-01

1 概述

随着社会的发展，人民生活水平的提高，道路上的机动车也越来越多。截至2014年底，我国汽车保有量新增1707万辆，目前全国机动车保有量达2.64亿辆，其中汽车1.54亿辆，因此，套牌机动车的数量也随着增高。由于套牌机动车发现难度大、检测难度高，有许多套牌机动车使用多年并没有被发现，严重地影响了道路交通安全秩序，如随意闯红灯、超速、跨越双实线、乱停乱放，给广大人民群众的安全出行带来隐患，也为肇事逃逸案件的侦破增加了难度。

为解决套牌车问题，本文具体介绍了基于视频图像处理技术实现套牌车的识别，主要从视频和图像中识别出车牌信息，并结合城市卡口的位置和时间信息，从而判断是否为套牌车辆。

2 技术实现方法

通过前端卡口摄像机识别的车牌号、位置信息，利用“时间差”判定，检测出涉嫌套牌车辆的方法[1]，即基于同一辆车在不可能时间内出现在两个地点的原理，分析各监控点的车牌信息，实现套牌车的自动检测及报警。

2.1卡口监控点的选取[2]

只有选取合适的监控点，才能最大程度减少套牌车漏分析，因此选取监控点应符合最少监控点、最大车流量的原则，一般优先选取以下监控点：

1）城市主干道路，尤其是繁华地段；2）大型停车场、车站、火车站等繁忙路段和交叉口。

2.2 实现原理

利用城市卡口摄像机，对抓拍的图像进行分析，识别出车牌号及车牌颜色，结合城市卡口的位置信息以及经过卡口的时间信息，判断套牌机动车，同时还可以实现套牌车实时轨迹、历史轨迹，为布控提供依据。具体实现原理如下：

1）在大数据平台上建立索引，由于不同车牌颜色有可能为同一车牌，防止误判，因此以车牌号及车牌颜色为基准建立索引，并存储经过卡口的时间、卡口的位置等信息；

2）预设城市各卡口之间的最短时间，设置时间矩阵，监控范围内经过任意两卡口所需的最短时间为卡口间的距离与这两个卡口之间道路最高时速之商[3]，将其作为套牌车时间阈值；

3）通过城市卡口摄像机获取经过各卡口摄像机的车牌号、车牌颜色、经过时间、卡口号等信息，通过城市网络将相关信息传输到大数据平台上；

4）将实时抓拍的车牌号及车牌颜色与索引表中的车牌号及车牌颜色比对分析；

5）若比对分析结果有历史信息，则需存储时间、卡口的位置等信息即可，并与存储中前一个历史车牌号经过卡口的时间进行比对分析，判断两次过车的时间差是否小于两个卡口间的时间阈值，若是，则为套牌车；若否，就记录为历史数据；

6）若比对分析结果无历史过车记录，在索引中将实时过车记录保存为历史过车记录。

2.3 大数据平台

由于以上布控方式要求处理海量的数据，处理的效率要足够高、数据要足够准确，因此，本文提出基于大数据技术快速分析套牌车方案。

基于开源的分布式计算架构 Hadoop，搭建大数据平台，构建1台管理节点和多台数据节点（根据城市实际卡口的数据量确定具体数量），其中1台管理节点用于构建索引和管理数据节点，多台数据节点用于存储车辆信息以及并行计算分析套牌车情况。

1） HDFS技术

Hadoop 提供了分布式文件系统HDFS，用于存储车牌号、车牌颜色、经过卡口的时间、卡口位置信息等，为分布式计算提供数据支撑。

2） MapReduce技术

MapReduce技术是并行计算模型，包括Map和Reduce两个函数，可以进行海量数据分割、任务分解与结果汇总，从而完成海量数据的并行处理，同时还可通过增加计算节点，使之在集群上并行执行，实现系统的可扩展性[4]。

MapReduce算法的核心由两部分构成，分别为Map算法和Reduce算法。其工作原理是先分后合的数据处理方式。Map算法即“分解”，将HDFS中存储的海量数据（车牌号、车牌颜色等信息）分割成若干部分，分给多台硬件计算资源上并行处理（从HDFS中寻找从前端卡口抓拍的车牌号信息）；Reduce算法即“合并”，把各台处理器处理后的结果进行汇总。若没有相关的信息记录则在存储中将实时过车记录保存为历史过车记录；若有相关信息的记录，则与前一条过车的历史记录进行比较分析，判断是否是套牌车。

3 结论

针对城市卡口海量数据的处理，采用传统的算法，会存在处理速度慢和计算瓶颈问题，提出了基于大数据技术快速分析套牌车方法，并结合车牌颜色识别，提高系统的反应速度、提高了识别的速度和准确率，使得系统性能更优，更加有利于对套牌嫌疑车辆的实时检测和识别。

参考文献：

[1] 卢晓春，周欣，蒋欣荣.一种基于车辆牌照识别和网格化监控的套牌车检测方法：中国，200910058943.9[P].2009-09-23.

[2] 卢晓春，周欣，蒋欣荣.基于网格化监控的套牌车检测系统[J].计算机应用，2009（10）.

数据分析方法篇(7)

关键词：环境空气检测；数据分析；处理方法；异常数据

abstract: with the rapid development of society, people's living standard is getting higher and higher, at the same time, with the coming of the decline in quality of the environment, now the city air quality problems frequently bright red light, people pay more and more attention to the quality of the environment. the rapid development of modern technology, the air environmental detection of artificial detection is less and less, more and more automatic detection, bring people a lot of convenience. this paper analysis the ambient air monitoring data, to detect abnormal data analysis, as well as to these abnormal data how to correctly handle.

keywords: environmental air monitoring; data analysis; data processing method; abnormal

中图分类号：f205文献标识码：a文章编号：2095-2104（2013）

环境空气自动检测系统早已在空气质量检测中运用娴熟，在我国的各个城市的空气质量检测得到广泛的运用。环境空气自动监测系统是基于干法仪器的生产技术，利用定电位电解传感器原理，结合电子技术和网络通讯技术，研制、开发出来的最新科技产品，是开展城市环境空气自动监测的理想仪器。

目前，我国有上百个城市都运用了此系统来进行城市空气质量的检测。但是，这个系统也并不是百利无一害的，因为检测中会面临一些气候异常现象、还有设备的维修、断电现象，诸如此类的现象会导致环境空气自动检测系统出现一些异常数据，这就需要工作人员对这些异常数据进行分析探讨，促进环境空气质量检测数据的标准化。

1环境空气自动检测系统的组成部分

环境空气自动检测系统可对环境空气质量进行24小时自动连续检测。该系统由检测中心站、检测子站和质量保证实验室组成。其中空气环境检测子站包括采样系统、气体分析仪器、校准装置、气象系统、子站数据采集等。子站检测的数据通过电话线传送至环境检测中心站进行实时控制、数据管理及图表生成。

检测的项目为：so2、no、no2、nox、co、o3、pm10、气象的五个参数（即：风向、风速、温度、相对湿度、大气压力）子站计算机可连续自动采集大气污染监测仪、气象仪、现场校准的数据及状态信息等，并进行预处理和贮存，等待中心计算机轮询或指令。采样集气管由采样头、总管、支路接头、抽气风机、排气口等组成。远程数据通讯设备由调制解调器和公用电话线路组成，有线调传或直接使用无线pc卡（支持gprs）。

2异常数据

环境空气自动检测系统在24小时无人值班的情况下检测中，经常会出现一些异常数据。据统计，我国每年实时检测的上万个检测数据中有0.95%——3.18%的异常数据，这些数据主要表现在一下几个方面：

2.1可预知的异常数据

有的异常数据是因为仪器自身出现的故障、断电等问题产生的，这种可预知的数据一般而言是不需要进行分析的，这种可预知的异常数据被视作为无效数据，不参与均值计算。

2.2数据出现负值

出现负值的数据会有两种情况，第一种是：检测的环境中气体浓度极低，接近于仪器的零点值，这个时候会因为仪器的零点漂移而产生负值的数据。第二种是因为仪器本身的故障导致的负值，这种就作为无效数据，不予分析。

2.3数据在零值附近徘徊

单个检测子站的某项污染物的浓度出现极高值时，就会导致数据在零值附近徘徊5个小时以上。这个时候，要根据周围的环境、气象、风向等来分析判断。

2.4突然产生的异常数据

有的时候，当外界环境发生急剧的变化时就会导致检测的数据突然的发生异常情况，一般情况下只有当发生突然的空气污染问题时才会出现这种情况，也就是空气中某一

或者几种大气污染物的浓度突然的急剧增加。这种情况需要工作人员根据当地的环境和以往的经验进行判断分析数据，对出现的异常数据进行正确的取舍，将无效的数据不参与均值计算。

3处理方法

子站临时停电或断电，则从停电或断电时起，至恢复供电后仪器完成预热为止时段内的任何数据都为无效数据，不参加统计。恢复供电后仪器完成预热一般需要0.5～1 小时。

对于低浓度未检出结果和在监测分析仪器零点漂移技术指标范围内的负值，应该取监测仪器最低检出限的1/2 数值，作为检测结果参加均值计算。

有子站自动校准装置的系统，仪器在校准零/跨度期间，发现仪器零点漂移或跨度漂移超出漂移控制限，应从发现超出控制限的时刻算起，到仪器恢复到调节控制限以下这段时间内的检测数据作为无效数据，不参加均值计算，但要对该数据进行标注，作为以后的参考数据保留。

对于手工校准的系统，仪器在校准零/跨度期间，发现仪器零点漂移或跨度漂移超出漂移控制限，应从发现超出控制限时刻的前一天算起，到仪器恢复到调节控制限以下这段时间内的监测数据作为无效数据，不参加统计，但对该数据进行标注，作为参考数据保留。

在仪器校准零/跨度期间出现的异常数据作为无效数据，不参加统计，但应对该数据进行标注，作为以后仪器检查的依据予以保留。

结束语

随着社会的发展，环境保护工作受到的关注越来越多，城市规模的不断扩大给城市环境带来了各种各样的问题，人们对环境质量的要求也越来越高。对环境的保护很重要的根据就是环境空气检测的数据，这些数据是做好环境保护工作的依据。而在环境空气检测系统中经常会出现一些异常数据。对这些异常数据，先判断是否是因为仪器自身的故障而产生的数据，排除这些无效的数据之外的异常数据，要根据具体情况进行分析，寻找出出现异常数据的原因，然后找出解决问题的具体方法，保证环境检测系统能够健康安全的运转下去，为环境保护工作贡献自己的一份力量。

参考文献：

[1]杨亚洋.环境空气监测数据分析及处理[j].中国新科技新产品，2011（23）

[2]娄明军.环境空气监测全程质量控制分析[j].科技致富向导，2012（33）

[3]王志新.城市环境空气质量监测数据管理系统的建立及应用[j].化学工程与装备，2010（08）