期刊大全 杂志订阅 SCI期刊 SCI发表 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据分析分析技术

数据分析分析技术精品(七篇)

时间:2023-05-31 15:11:02

数据分析分析技术

数据分析分析技术篇(1)

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据分析分析技术篇(2)

[关键词]大数据分析 批量处理计算 流式处理计算

中图分类号:X734.2 文献标识码:A 文章编号:1009-914X(2016)10-0206-01

1 引言

随着互联网技术的不断发展,物联网技术、移动互联技术、社交媒体等技术及其应用在是越来越多,全球的数据急剧膨胀,人类已经步入了大数据的时代。大数据中包含着大量的隐含信息,需要从这些隐含的信息中提取有价值的大知识,这些大的知识将在更高的层面上、更广阔的视角、更大范围内对用户提供洞察力、决策力,为人类以及社会创造更大的利益以及价值。目前主流的大数据库计算模式分为两种,分别为批量式计算和流式计算两种模式。

在批量计算模式中,首先是需要对海量数据进行存储,然后对这些存储的静态数据进行集中起来进行计算,目前的Hadoop就是一种非常典型的批量计算架构;在流式计算模式中,无法确定数据的到来时刻以及数据的次序,也不用将数据全部进行存储起来进行计算。而是当这些流动的数据到来之后直接在内存中进行实时性的处理,典型的Twitter、Storm、Yahoo的S4就是这种流式的数据计算模式。

2 应用场景及数据特征

2.1 批量处理系统

对于批量处理系统来说,这类系统比较适合对于静态数据进行数据挖掘,从海量信息中获取具体的含义,得到很明智的决策,最终为领导提供辅助决策制定相应的应对措施来实现业务目标。大数据中的批量处理系统适合先进行存储然后进行计算,对于数据处理的实时性要求不是很高,但是对于数据的准确性和全面性要求更高。

2.1.1 数据特征

对于批量数据来说,通常具备三个典型的特征,(1)数据量比较大,数据量从TB级别到PB级别,数据主要是以静态的形式存储在磁盘上,存储的时间比较大,一般不进行数据的更新数据,海量数据可以重复进行使用,这种数据不容易移动以及备份处理;(2)数据的精度比较高,存储的这些数据一般是属于企业中的一部分,是长时间积累下来的;(3)数据价值密度相对来说比较低。往往有价值的信息比较少,因此需要采用合理的分析算法对这些批量数据进行信息抽取,同时处理批量数据比较耗时,一般不提供交互功能,当提取结果与预期差别很大时,会浪费很多时间。因此,批量处理系统比较适合相对比较成熟的作业。

2.1.2 代表性处理系统

对于批处理系统来说,比较典型的代表是由Google公司开发的文件系统GFS(google File System)和研发的MapReduce编程模型。虽然Google公司没有对这两项技术进行源码的公开,但是基于发表的两篇文章,Nutch子项目中的Hadoop实现了开源的两个产品:HDFS和MapReduce。Hadoop成为批量处理架构中非常典型的一种架构模式,HDFS负责对静态的数据进行存储,通过MapReduce对这些静态数据进行计算逻辑的分配。Hadoop成为很多IT公司的大数据主流架构,基于HDFS和MapReduce建立了很多项目。

MapReduce编程模型收到很多主流IT的欢迎,主要有几个方面的原因:(1)MapReduce是一种没有共享的大规模集群系统,这种集群系统具有很好的性价比和伸缩性;(2)MapReduce模型比较简单,容易理解,便于使用。能够不仅仅处理大规模的数据,而且能够对很多细节进行隐藏(包括自动并行化、负载均衡、灾备管理等),能够很大程度上降低程序员的工作量。

2.2 流式处理系统

2.2.1 数据特征

一般情况下,对于流式数据来说,是一个无穷的数据序列信息,对于流式数据中的每个序列来说数据的来源是不同的,数据可能是结构化或非结构化,这些序列往往包含时间特征,或者有其他能够表示有序的标签信息。从数据库的角度来说,流式数据中的每个元素都可以看成是一个元祖。流式数据在不同的场景中能够表现出不同的特征信息,比如表现流速的大小、元素特征的数量、数据格式不同等。

2.2.2 代表性处理系统

流式计算处理系统目前得到广泛的应用,包括Twitter的Storm,Facebook的Scribe,Linkedin的Samza等。本节主要是对Twitter的Storm进行详细的介绍。

Storm的主要特点是一种基于分布式的、可靠、容错性好的流式处理系统,被分配的流式处理作业能够分发到不同的组件上,被分配的每个组件负责一项单一的、特定的处理任务。Storm集群中输入流由Spout来进行负责,Storm将流式数据分发给Blot的组件,Blot组件对其进行处理。Storm可以进行实时的数据处理以及对数据库进行更新,能够被用于进行持续的计算,对连续的数据流进行查询处理,在计算的过程中结果是以流的形式输出给用户。还可以用于进行分布式的处理RPC。

3 大数据关键技术

3.1 大数据批量计算关键技术

在大数据批量计算中,系统架构、分布式文件系统、分布式数据处理系统等关键技术成为制约其发展的关键技术。

(1)系统架构

在进行大数据处理的过程中,需要的关键技术主要是针对海量的数据进行存储以及分析计算,因此选择合理的架构对其进行批量处理是其中的重点。

(2)分布式文件系统

在大数据应用中,文件系统是其中非常重要的一个部分。对于海量的数据需要采取分布式存储的方式存储到磁盘上,方便后期的计算。

(3)分布式数据处理系统

对于分布到磁盘上的海量信息,如何选取合理的数据处理系统对其进行处理分析是其中的一个非常重要的关键点。

3.2 大数据流式计算关键技术

对于流式计算中,理想中的大数据流式计算应该具有比较低的延迟、高的吞吐量、保持持续运行、可以伸缩等特征,这些离不开系统的架构、海量数据的传输、编程的接口、高新技术等关键技术的合理设计与规划。

(1)系统架构设计

流式计算中的架构指不同的各个子系统之间的一种重新组合的方式,对于流式处理计算中需要选择特定的框架进行流式计算。目前主流的流式计算系统中采用的架构分为无中心节点的对称系统架构以及具备中心节点的主从式结构。

(2)数据传输

数据传输主要是完成从有向任务图到物理计算节点之间的部署,部署各个节点之间的数据传输方式。在流式计算系统中,为了能够具备高的吞吐量、比较低的延迟,需要不断的优化从有向任务图到物理计算节点之间的部署及其映射方式。目前主流的数据传输方式分为主动推送方式和被动拉取的方式。

(3)编程接口

在流式计算中,为了方便从有向任务图到物理计算节点之间的部署,需要进行编程实现任务图中各个节点的相应处理功能。需要编制大量的流式数据计算系来提供应用编程的接口,方便的接口能够方便用户实现内部的业务逻辑及处理,减少用户的编程的工作量。

4 总结与展望

互联网技术、云计算等高新技术的快速发展,多样化的应用不断的增加,数据在各行各业中都成为非常重要的一个组成部分,如何在海量的信息中获取有价值的信息是大数据需要完成的工作。本文根据大数据对数据处理的形式不同,介绍了批量处理系统和流式处理系统,并对大数据中的关键技术进行了介绍。

参考文献

[1] 刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014(06):957-972.

数据分析分析技术篇(3)

【关键词】数据挖掘;会计管理;计算机技术

一、数据挖掘

数据挖掘是从数据当中发现趋势和模式的过程,它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中,提取隐含在其中的潜在有用的信息和知识,揭示出大量数据中复杂的和隐藏的关系,为决策提供有用的参考。数据挖掘是从数据当中发现趋势和模式的过程,它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中,提取隐含在其中的潜存有用的信息和知识,揭示出大量数据中复杂的和隐藏的关系,为决策提供有用的参考。

二、数据挖掘的现代最新方法介绍

常用的数据挖掘方法主要有决策树(Decision Tree)、遗传算法(Genetic Algorithms)、关联分析(Association Analysis).聚类分析(C~smr Analysis)、序列模式分析(Sequential Pattern)以及神经网络(Neural Networks)等。

三、数据挖掘的实际应用

由于数据挖掘市场还处于起步的阶段,但是发展很快。在国外有一些著名的大公司对数据挖掘系统进行了开发。

1.Intelligent Miner这是IBM公司的数据挖掘产品,它提供了很多数据挖掘算法,包括关联、分类、回归、预测模型、偏离检测、序列模式分析和聚类。有2个特点:一是它的数据挖掘算法的可伸缩性;二是它与IBM/DB/2关系数据库系统紧密地结合在一起。

2.EineSet是由SGI公司开发的,它也提供了多种数据挖掘方法,包括关联分析和分类以及高级统计和可视化工具。特色是它具有的强大的图形工具,包括规则可视化工具、树可视化工具、地图可视化工具和多维数据分散可视化工具,它们用于实现数据和数据挖掘结果的可视化。

3.Clementine是由ISL公司开发的,它为终端用户和开发者提供提供了一个集成的数据挖掘开发环境。

4.DBMiner是由DBMiner Technology公司开发的,它提供多种数据挖掘算法,包括发现驱动的OLAP分析、关联、分类和聚类。特色是它的基于数据立方体的联机分析挖掘,它包含多种有效的频繁模式挖掘功能和集成的可视化分类方法。

四、数据挖掘与管理会计

1.提供有力的决策支持

面对日益激烈的竞争环境,企业管理者对决策信息的需求也越来越高。管理会计作为企业决策支持系统的重要组成部分,提供更多、更有效的有用信息责无旁贷。因此,从海量数据中挖掘和寻求知识和信息,为决策提供有力支持成为管理会计师使用数据挖掘的强大动力。例如,数据挖掘可以帮助企业加强成本管理,改进产品和服务质量,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。

2.赢得战略竞争优势的有力武器

实践证明数据挖掘不仅能明显改善企业内部流程,而且能够从战略的高度对企业的竞争环境、市场、顾客和供应商进行分析,以获得有价值的商业情报,保持和提高企业持续竞争优势。如,对顾客价值分析能够将为企业创造80%价值的20%的顾客区分出来,对其提供更优质的服务,以保持这部分顾客。

3.预防和控制财务风险

利用数据挖掘技术可以建立企业财务风险预警模型。企业财务风险的发生并非一蹴而就,而是一个积累的、渐进的过程,通过建立财务风险预警模型,可以随时监控企业财务状况,防范财务危机的发生。另外,也可以利用数据挖掘技术,对企业筹资和投资过程中的行为进行监控,防止恶意的商业欺诈行为,维护企业利益。尤其是在金融企业,通过数据挖掘,可以解决银行业面临的如信用卡的恶意透支及可疑的信用卡交易等欺诈行为。根据SEC的报告,美国银行、美国第一银行、联邦住房贷款抵押公司等数家银行已采用了数据挖掘技术。 转贴于

五、数据挖掘在管理会计中的应用

1.作业成本和价值链分析

作业成本法以其对成本的精确计算和对资源的充分利用引起了人们的极大兴趣,但其复杂的操作使得很多管理者望而却步。利用数据挖掘中的回归分析、分类分析等方法能帮助管理会计师确定成本动因,更加准确计算成本。同时,也可以通过分析作业与价值之间的关系,确定增值作业和非增值作业,持续改进和优化企业价值链。在Thomas G,John J和Il-woon Kim的调查中,数据挖掘被用在作业成本管理中仅占3%。

2.预测分析

管理会计师在很多情况下需要对未来进行预测,而预测是建立在大量的历史数据和适当的模型基础上的。数据挖掘自动在大型数据库中寻找预测性信息,利用趋势分析、时间序列分析等方法,建立对如销售、成本、资金等的预测模型,科学准确的预测企业各项指标,作为决策的依据。例如对市场调查数据的分析可以帮助预测销售;根据历史资料建立销售预测模型等。

3.投资决策分析

投资决策分析本身就是一个非常复杂的过程,往往要借助一些工具和模型。数据挖掘技术提供了有效的工具。从公司的财务报告、宏观的经济环境以及行业基本状况等大量的数据资料中挖掘出与决策相关的实质性的信息,保证投资决策的正确性和有效性。如利用时间序列分析模型预测股票价格进行投资;用联机分析处理技术分析公司的信用等级,以预防投资风险等。

4.产品和市场预测与分析

品种优化是选择适当的产品组合以实现最大的利益的过程,这些利益可以是短期利润,也可以是长期市场占有率,还可以是构建长期客户群及其综合体。为了达到这些目标,管理会计师不仅仅需要价格和成本数据有时还需要知道替代品的情况,以及在某一市场段位上它们与原产品竞争的状况。另外企业也需要了解一个产品是如何刺激另一些产品的销量的等等。例如,非盈利性产品本身是没有利润可言的,但是,如果它带来了可观的客户流量,并刺激了高利润产品的销售,那么,这种产品就非常有利可图,就应该包括在产品清单中。这些信息可根据实际数据,通过关联分析等技术来得到。

5.财务风险预测与评估

管理会计师可以利用数据挖掘工具来评价企业的财务风险,建立企业财务危机预警模型,进行破产预测。破产预测或称财务危机预警模型能够帮助管理者及时了解企业的财务风险,提前采取风险防范措施,避免破产。另外,破产预测模型还能帮助分析破产原因,对企业管理者意义重大。,数据挖掘技术包括多维判别式分析、逻辑回归分析、遗传算法、神经网络以及决策树等方法在管理会计中得到了广泛的应用。

数据分析分析技术篇(4)

关键词:施工企业;大数据技术;财务分析

一、大数据技术的含义

大数据源于信息化的不断发展,随着互联网技术的发展而不断的兴盛,大数据也被称作巨量资料,他是一种需要新的处理模式才能够让企业拥有更加强大的决策能力和洞察能力的信息资产。大数据技术就是一种能够很好的处理这些庞大数据信息的技术,它并不是采用随机分析法这一捷径,而是把所有的数据信息都进行分析从而得出最真实的分析结果。大数据技术特别适用于大型公司与互联网公司,因为这样的企业他们的数据量非常的庞大,利用人工进行数据分析不能很好的保证其数据分析结果的准确性,同时还特别浪费人工费用。

二、施工企业运用大数据技术进行财务分析的原因

(一)大数据技术能够提高施工企业财务分析的工作效率

作为施工企业的财务部门,在进行财务分析的过程中,我们既要对每一项管理费用进行仔细的分析判断,同时还要把这些数据与前期的数据进行对比,从而发现其费用的发展变化情况。大家都知道,施工企业其现场情况非常复杂,各种支出项目也非常的多,不同情况下管理费用的差距非常的大,财务部门想要对这些数据进行精准的分析,就需要花费大量的人力、物力,施工企业想要单纯的依靠财务人员来完成这项工作,其付出的劳务成本很可能超过其正确的财务决策给企业带来的利润,同时采用人工进行财务分析的结果其质量也很难把握。如果施工企业能够采用大数据技术,那么企业将省去大量分析数据的时间成本,而且数据分析的结果具有非常强的可靠性,既省人力也省时间,同时提高了企业财务分析的工作效率。

(二)有利于提高施工企业财务分析的水平

大家都知道,财务数据是施工企业最重要的数据之一,它的积累量非常的大,财务分析的结果直接影响了企业财务管理的质量。因此,施工企业在进行财务决策分析的时候,必须要做到客观、公正。运用大数据技术,施工企业在进行财务分析的过程中能够避免人为分析中由于个人问题发生的一些对财务数据不客观、公正的问题的出现,保证财务分析的质量,提高施工企业财务分析的水平。比如施工企业在进行融资的过程中,大数据技术能够通过对以前企业的融资情况进行准确的数据分析,财务工作人员根据分析结果,选择最有利于施工企业发展的融资方案,从而节约企业融资成本,增加企业的经营效益。

(三)有利于建筑物的各种数据信息与决策的及时互动

作为施工企业,其现场的情况非常的复杂,而且施工状况多变,管理者的决策都是从以前的数据的分析结果中得出来的,这种决策对于企业而言可能现在是非常合理的,但是随着施工进度的进一步变化,这种施工方案可能就不再适用于施工企业了。利用大数据技术,企业财务人员能够随时根据现场情况,调整企业数据情况,让企业管理者根据实际情况不断的调整经营决策方案。对于施工企业的融资方案而言,大数据技术能够根据市场变化以及企业需求的改变,选择最适用企业的融资方案,从而保障施工企业的正常运转及项目的顺利推进。

三、如何让施工企业更好的运用大数据技术提高企业的财务分析能力

(一)树立正确的财务分析理念

施工企业是我国的传统行业,想要大数据技术能够在施工企业中得到广泛的认可和运用,就必须从转变施工企业的财务分析理念入手。首先,要确定正确的财务分析理念,积极的宣传大数据技术在财务分析工作中的重要地位,让每个员工都能知道它的重要性,但是,我们也不能盲目的使用大数据技术,我们要清楚的知道这项技术也是有它自身的缺陷的,我们必须要从企业实际情况出发,制定出最适合企业的财务分析战略。其次,施工企业要把大数据的理念和企业的文化有效的融合在一起,让大数据理念能够深入人心,深入到每一个员工的行为当中去。

(二)建立标准的财务分析体系

大数据技术只是一项先进的数据分析技术,想要让这项技术发挥其最大的作用,施工企业需要建立标准的财务分析系统。首先,这一系统必须要与施工企业的核算系统形成很好的连接,让企业中的各种数据能够通过核算系统进行财务分析系统。其次,财务分析系统必须能够模拟经营企业的日常活动,预测财务决策可能产生的后果。再次,施工企业必须保证收集到的数据信息足够的广泛、全面,大数据技术只是对数据进行分析,如果数据本身就不准确或者数据范围狭窄,那么分析出来的数据信息质量也就无法得到保障。最后,施工企业的财务分析体系必须是从企业自身的实际情况出发,符合企业的自身需要,只有这样,通过财务分析体系进行的大数据技术分析的结果才更适合企业发展的需要。

(三)培养高素质的专业人才

施工企业想要真正的运用好大数据技术,从根本上提高企业的财务分析水平,就必须要培养一支专业的财务人员队伍,他们必须拥有较高的专业素质,能够熟练的运用大数据技术,对于网络信息技术也要有一定的了解,只有正确的运用了大数据技术才能让这项技术更好的为施工企业的财务分析服务,为企业进行正确的财务决策作出自己的一份贡献。此外,施工企业要重视对员工的培训,社会是不断发展的,技术也在不断的更新,企业工作人员的技术水平必须要能够紧跟时展的脚步,财务人员必须不断的提高自己的专业水平,永远走在时代的前沿,只有这样才能为企业发展更好的服务。

四、结束语

随着我国市场经济的不断发展,大数据技术在施工企业财务分析上的运用将会越来越广泛,因此,作为国内大型的施工企业,我们必须要抓准时机,顺应时代的发展潮流,正确的运用大数据技术,更好的为企业的财务分析做出贡献,同时也有利于施工企业进一步的发展壮大。

作者:段焰 单位:重庆渝发建设有限公司

参考文献:

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展.2013(01).

数据分析分析技术篇(5)

关键词:技术创新;大数据;双螺旋模型

一、引言

自2013年被确定为“大数据元年”以来,大数据应用已广泛渗透到各行各业。伴随着数据规模和类型的剧变、数据存储成本的迅速下降、数据采集更加密集和广泛,学术界和企业界开始站在战略的高度重新审视大数据的价值。2008年9月,《自然》杂志推出了名为“大数据”的封面专刊,随后IDC(2011)描述了大数据的“3V”:规模性(Volume)、多样性(Variety)、实时性(Velocity),之后又加入价值性(Value)来描述大数据特征,称之为“4V”[1]。麦肯锡(2011)将大数据定义为无法用常规软件收集、储存、处理、分析的庞大数据集。Forrester突破了以往单一对数据本身描述的局限,通过数据价值实现的角度将大数据定义为数据存储、处理和访问的流程与业务目标的集成。国内学者涂子沛在其专著《大数据》(2012)、《数据之巅》(2014)中反复表达“尊重事实,用数据说话”[2]以及“推崇知识和理性,用数据创新”的观点,并描述了未来对于建设“SmartCity”的构想[3]。孟小峰(2013)指出大数据研究的火热,并不能代表研究的深入,相反大数据的研究还处于一个非常起步的阶段,还有诸如关键技术、利用方式等很多基础性的问题需要解决[4]。大数据的发展和进步是以数字信息技术的发展和应用为主线的。数据分析、数据挖掘、数据存储是拉动大数据发展的“三驾马车”,这三项数据技术需要不断进行创新才能进一步发掘大数据的价值潜力。由于大数据具备准确预测趋势的能力、从海量数据中萃取有应用价值信息与知识的能力以及对市场技术需求方向突出的把控等能力,使得技术创新的效率有较大幅度的提升。同时,数据分析、挖掘和存储本身作为技术手段也需要进行创新。因此,大数据与技术创新之间存在着密切的联系。朱东华等(2013)提出了大数据环境下面向技术创新管理的双向决策模型,以期提升我国技术创新管理研究在大数据环境下提取知识与观点的能力[5]。赵亮等(2015)通过大数据的收集和预处理、大数据存储、创新源数据可视化以及创新应用子项目的实施,实现对技术创新评估预测、风险把控能力的提升[6]。针对大数据与技术创新有关文献的梳理,不难看出,在大数据时代下,大数据对于各类技术创新具有较大的提升作用,而“大数据”概念下作为技术支撑的数据技术同样需要创新,同时也需要对数据技术的创新进行管理。对于大数据和技术创新这种“你中有我,我中有你”的相互作用关系,论文尝试以双螺旋结构模型为研究工具,提出大数据———技术创新双螺旋模型,从而厘清在大数据与技术创新作用关系中的动力因素,以达到大数据与技术创新共同发展进步的目的。

二、双螺旋结构理论

双螺旋结构模型起源于生物学中的DNA双螺旋结构,生物学家为了研究人类的遗产规律,从人类遗传密码———“基因”的角度出发,提出并绘制了DNA双螺旋结构模型。1953年,沃森和克里克首次提出了DNA双螺旋结构模型,该模型开启了分子生物学时代。利用该模型,人类直观地认识到遗传信息的构成和传递路径,并对人类遗传信息复制上升的互融联动关系有了初步的了解。在生物分子学领域,DNA双螺旋结构模型是由两条主链和碱基对组成,两条主链相互盘旋形成类似于“麻花”状的螺旋结构,而碱基对位于螺旋内部,两两对应。碱基对的排列顺序就决定了生物体的不同性状,而在DNA双螺旋进行发展进化之时,碱基对的不同组合以及排列顺序就确定了未来生物的发展走向。随着管理科学的发展,在管理科学领域中有许多互相影响、互相促进、互相融合的二元关系,为了清晰地描述这种关系,管理学中引入分子生物学的DNA双螺旋结构模型进行描述,从而形成了管理科学中的双螺旋结构模型。质量管理学家戴明通过对计划———执行———检查的研究,提出这三个步骤不是原地循环往复的,而是一种螺旋式上升。于渤(2008)将知识创新双螺旋作为企业知识创新过程,指出创新的过程需要经历一套复杂的过程,最终实现自我超越的知识螺旋转化[7]。管理科学与分子生物学的结合提炼出螺旋式系统方法论,又称作螺旋式方法论。该方法论指导双螺旋结构模型在管理领域的应用,而其基本的解决问题的精神是,按照事物发展的规律和演变的过程,通过螺旋内部重大影响因素的互相作用,循环使用不同的方法,推进事物有序的发展,最终达到事物发展的某种目标。

三、大数据与技术创新双螺旋模型及分析

1.大数据与技术创新双螺旋模型对于各类技术创新,大数据提供了庞大的样本数据分析预测、精细的市场技术需求定位、详尽的技术创新需求对象画像刻画等服务,使得技术创新的效率大幅度提升。而数据分析、挖掘和存储是推动大数据自身发展的核心技术,这些技术的创新也将直接影响到大数据对其他技术创新的拉动作用。利用双螺旋结构模型研究大数据与技术创新相互作用关系具有积极的现实意义,论文提出大数据———技术创新双螺旋结构模型(BigData--Tech-nologyInnovation双螺旋结构模型;BT双螺旋结构模型)。依据BT双螺旋结构模型,本文将大数据与技术创新视为两条主链,即“大数据链”和“技术创新链”。这两条主链的相互作用是依靠碱基对进行链接的,为了推动“大数据链”与“技术创新链”的发展增长,碱基对的不同搭配,相互作用,促进BT双螺旋模型的不断发展。数据挖掘、数据分析、数据存储是推动大数据发展的技术核心,技术创新的发展需要技术创新管理理论的指导,以技术创新管理理论指导数据技术的创新,从而实现BT双螺旋模型的发展。故将数据挖掘、数据分析、数据存储和技术创新管理理论作为碱基,进行两两配对。图1BT2.大数据———技术创新双螺旋模型分析BT双螺旋结构模型中将大数据与技术创新作为研究的主要对象,将其作为两条主链进行分析。各类技术的创新需要在大数据以及大数据相关技术的支持下进行。同样的,大数据自身数据技术的创新又归属于技术创新范畴,需要相关技术创新管理理论来给予指导和管理。BT双螺旋结构模型需要向纵深发展,就必须要经历双螺旋结构的破裂———复制———重组———再破裂这样的一个循环过程,从而循环往复,推动BT双螺旋模型不断发展。碱基一:数据挖掘技术,大数据需要通过从海量的数据中提取有效信息和知识,因此,数据挖掘技术是大数据未来发展的一项核心技术。凭借数据挖掘技术提炼出有价值的信息与知识,可以为技术现状进行评估、技术创新未来趋势进行预测、技术创新源进行汇总提供强大的信息支撑。碱基二:数据分析技术,数据分析技术是通过对现有数据进行分析,归纳、整理、总结并对所分析对象提供相应的预测。该技术是连接数据与结论的重要桥梁,通过分析技术可以顺利地将“冷冰冰”的数据转化成为有价值的结论成果,碱基三:数据存储技术,存储技术是数据挖掘技术与数据分析技术的基础。信息时代的数据不仅仅是结构化的数据,更多的则是非结构化或是半结构化的数据,大量的数据需要有存储空间,并且要做到随用随取,这样才能使得数据的挖掘和分析更具时效性和针对性。碱基四:技术创新管理理论,数据技术的不断革新需要从管理学的角度给出指导性的建议。大数据的三项核心数据技术本身作为一种技术手段,需要进行科学的发展,在数据技术的创新过程中,离不开技术创新管理理论的协助。大数据链与技术创新链作为BT双螺旋模型的两条主链担负着不断进步发展的使命,以数据挖掘技术、数据分析技术、数据存储技术和技术创新管理理论为碱基对负责对两条主链的发展进行指导。在DNA双螺旋结构模型中,碱基对必须是A-T,G-C进行定位搭配互补,而在BT双螺旋模型中,通过借鉴DNA双螺旋结构模型的碱基对互补理论,从而进行多元轮回式的互补结合。BT双螺旋模型中的碱基对不再像DNA双螺旋模型那样必须定位对象式的配对,当进入破裂阶段,大数据链与技术创新链进行分离,两主链破裂时连带自己链条上所携带的碱基一并分离。进入到复制阶段,各碱基进行复制,也即各项数据技术以及技术创新管理理论的推广应用。而后,进入重组阶段,碱基随机两两结合,重新配对,在不同的空间、时间进行不断的随机结合,就会产生奇妙的化学反映。从而在不同随机两两碱基结合的过程中,产生创新,发挥动力作用,就如同图2所示地推动BT双螺旋模型向纵深方向进行发展进步。

四、结论与展望

数据分析分析技术篇(6)

【关键词】 网络数据存储技术 分析 应用

数据存数作为计算机系统中一个独立的模块,网络数据存数技术的发展目标是高智能化、低成本化,通过深入分析和研究网络数据存储技术,不断地进行改进和完善,使网络数据存储技术更加强大和安全,推动网络数据技术的快速发展。

一、传统网络数据存储技术的分析和应用

1、SAN。SAN是一种计算机存储区域的数据存储技术,将计算机网络服务器和存储设备联系起来,服务器使用SAN接入网络系统[1]。SAN存储区域基于LAN层次一下,是一种高效的存储网络,利用SAN数据存储技术,可以有效地缓解大容量数据传输对计算机网络的影响,能够优化大容量数据的分配。但是这种技术在日常的应用中操作性较差,在维护和构建SAN架构时,技术人员必须具有丰富的操作经验和专业知识积累,再加上SAN技术的网络互联装置价格昂贵,增加了这种技术的运行成本,使得SAN技术难以发展和普及。

2、DAS。DAS是一种和计算机网络直接相连的数据存储技术,它利用SCSI接口或光纤通道将网络服务器和存储设备直接相连,这种直接相连的数据存储技术,系统的运行成本相对较小,被广泛的应用在计算机网络集群环境中,具有良好的扩展性。例如,计算机网络中的服务器分布比较分散,利用普通的网络数据存储技术进行连接在技术上有很大的困难,这时可以利用DAS技术。但是这种技术最大的缺点是不具有共享性,需要计算机网络系统中每一个客户终端配置一个单独的服务器,给网络的管理存储维护带来了很大的难度,服务器一旦发生故障,存储数据信息很难进行恢复,网络数据存储的容量空间难以进行拓展,在这种背景下,网络数据存储技术的普及受到了很大程度的限制。

3、NAS。NAS是一种计算机网络系统中重要的数据存储附加技术,计算机网络数据存储附加技术能够直接将计算机磁盘序列和计算机网络系统连接起来,NAS技术的服务器主要由计算机存储硬件和计算机操作系统共同组成[2],在应用过程中,具有很强的拓展性,并且SAN技术和计算机网络互联的设备价格相对较低,安装操作简单便捷,具有可靠、安全、高容、高效等特点,被广泛的应用在法律环境、电子出版以及图像教育等领域,这些领域都对于数据存储容量有着很高的要求。与此同时,NAS技术的网络协议开销较大,在数据文件访问过程中,NAS技术很难适应高访问速度的网络应用,例如计算机网络数据库的存储应用,NAS会占据大量的带宽,并且NAS难以兼容多种不同存储设备,无法对设备进行统一的管理和控制,这样就限制了NAS技术在某些领域的应用。

二、现代化网络数据存储技术的分析和应用

1、云存储。云存储技术是依托云计算应用技术发展而来的,云存储技通过计算机网络中的相关软件将多种存数设备集合和联系在一起,协调运行和工作,充分运用了网络技术和集群应用等功能,实现了对外的数据存储和业务访问等功能。云存储是电子信息时代的一种非常具有代表性的存储技术,和其他的网络存储技术相比,不仅具有很大的价格优势,有效地降低了计算机网络系统数据储存的运行成本,还提高了计算机网络数据存储的拓展性和灵活性。

2、OBS。OBS是一种基于计算机应用对象的网络数据存储技术,其包含着存储属性可拓展的数据存储容器和存储长度可变的存储模块[3],是一种重要的组织逻辑方式,能够提供多种类似于文件的访问方式,如文件的关闭、读写、打开等,OBS数据存储技术融合了SAN和NAS技术的优点,利用计算机网络系统统一的对象接口,有效地提高了网络数据存储技术的拓展性,提高了计算机网络系统的运行性能。OBS技术最主要的特点就是将计算机网络系统中相关的物理数据存储图标放置在系统的存储设备中,当前OBS技术是计算机网络数据存储领域关注的重点技术,其较强的拓展性和高性能,使得OBS技术广泛的应用在计算机网络数据存储领域。

三、结束语

无论是传统的网络数据存储技术还是现代化的网络存储技术,都需要不断地改进和发展,不断提高网络数据存储技术的可靠性、安全性和拓展性,推动网络数据存储技术的广泛应用。

参 考 文 献

[1] 袁亮. 网络数据存储技术的分析与应用[J]. 华章,2012,11:296

数据分析分析技术篇(7)

关键词: 税务数据分析;OLAP技术

中图分类号:TP399文献标志码:A 文章编号:1009-3044(2008)26-1622-01

The Application of OLAP Technology For Tax Data Analysis

LV Jia

(School of Computer Science & Technology, Soochow University, Suzhou 215006,China)

Abstract: Introduce the application of OLAP technology for tax data analysis,provide assistance decision function for the tax administration department.

Key words: tax data analysis; OLAP

1 引言

随着税务信息化建设的深入开展,特别是在国税系统内基本上已经以省级集中的模式完成了各个应用系统的数据集中工作,税务机关积累了大量的涉税信息,作为信息化高级阶段的数据分析利用已经渐渐成为税务信息化工作的重点。如何突破传统的统计报表模式,利用OLAP技术和丰富的数据资源进行税收数据深度分析,从而更好的为税收管理和辅助决策服务,是当前税收分析工作必须思考的问题。

2 数据分析

联机分析处理OLAP(On-Line Analytical Processing)是基于数据仓库的一种数据分析技术。它使分析人员、经理及管理人员通过对信息的多种可能的观察角度进行快速、一致和交互的存取获得对信息的深入理解。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP技术在税收数据分析中可以应用于同行业税负分析。受市场均衡作用的影响,同一产品在生产技术工艺、原材料能源消耗方面有相近之处,适用税收政策有统一的要求,因此反映生产成本费用方面的指标有相同的规律特征。根据这种规律特征,以此检验个体数据指标的表现,找出差异较大的个体予以预警。

在具体实现时,使用星型架构进行建模。星型架构通过使用一个包含主题的事实表(用来存储数据和维关键字)和多个维度表(存放维的层次、成员类别等维的描述信息)来执行决策支持应用。在星形架构中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。

OLAP的基本多维分析操作有钻取、切片和切块、以及旋转等。钻取是改变维的层次,变换分析的粒度。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

当在OLAP服务器上建立好分析模型后,可以使用MDX多维查询语句进行查询,获取联机分析得出的多维数据集。MDX查询语句类似关系数据库中的SQL语句,也是通过SELECT语句获得查询结果。SELECT 语句可指定一个结果集,其中包含从多维数据集中返回的多维数据子集。若要指定结果集,MDX 查询必须包含以下信息:

1) 层次结构的轴或集的数目。最多可在 MDX 查询中指定 128 个轴;

2) 要包括在 MDX 查询的各个轴上的每个维度的成员;

3) 用于设置 MDX 查询上下文的多维数据集的名称;

4) 来自切片器轴的成员,将在该轴上对来自查询轴的成员进行数据切片。

3 结束语

如何从大量积累的历史数据中分析出有价值的信息,OLAP技术为此提供了一个有效的工具,通过建模后对数据切片旋转等操作,可以方便地对各项数据进行分析,从而为领导提供辅助决策功能。

参考文献: