期刊大全 杂志订阅 SCI期刊 SCI发表 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 大数据技术

大数据技术精品(七篇)

时间:2023-03-16 16:00:38

大数据技术

大数据技术篇(1)

关键词:大数据 数据处理 相关技术

中图分类号:TP334 文献标识码:A 文章编号:1674-098X(2014)02(a)-0048-01

“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。

1 大数据概念

大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。

2 大数据相关技术

2.1 大数据处理通用技术架构

大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。

MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。

2.2 大数据采集

大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。

2.3 大数据分享

目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。

2.4 大数据预处理

数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。

2.5 大数据存储及管理

大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。

2.6 大数据分析及挖掘

大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。

2.7 大数据检索

①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。

2.8 大数据可视化

可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。

2.9 大数据应用

①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。

2.10 大数据安全

大数据技术篇(2)

关键词:数据时代 数据库 技术应用

中图分类号:TP311.1 文献标识码:A 文章编号:1007-9416(2016)11-0241-02

社会各行各业之所以可以不断的改革和创新,与信息技术所具备的强大推动力有着密不可分的联系,同时在其推动下人们也进入了一个全新的信息化时代,增加了人们在生活中所涉及到的方方面面的信息亮。人计算机数据库技术的诞生为人们及时有效的管理这些信息提供了重要的技术支持。目前,在社会的很多领域比如:国防、通讯等行业都在大力的推广数据库技术,而这些也给人们的生活带来了极大的便利。就目前这项技术发展的情况而言,这项技术不但可以完成对信息的及时有效处理,而且其也积极的推动了社会的发展和进步。

1 数据库技术特点

数据的统一处理可以通过数据库实现。在没有广泛的应用计算机数据库之前,传统的数据库技术在信息处理时存在过于分散而且相互之间联系不够紧密的缺点,从而使得数据的作用没有充分的发挥出来。而计算机数据库则可以有效的在各个数据之间建立联系,并利用相关的逻辑顺序实现了数据结构模型的建立。同时数据库中的各个数据又可以保持其独立性,在进行某一数据的更改时不会对数据库的整体结构造成影响。正是因为数据库本身具备了数据的共享性,所以相关文件系统也就不用用户自己建立,只需要其借助计算机进行所需数据的调取就可以了,这样也就避免了信息重复。而且由于数据库中相关的信息还具备了整体性、一致性以及独立性,所以也进一步提高了数据调取和使用效率的提高。

1.1 组织性

数据库内所有的信息都具有一定的顺序和结构。数据库中左右的文件和信息之间都存在着联系,而且其排列也是按照一定的顺序,从而组成了信息结构体系的整体性。而且存储在同一数据库中的信息都有相似的特点。

1.2 共享性

计算机数据库建立的主要目的就是实现数据库的共享。如果数据库无法实现数据信息的共享的话,那么这个数据库也就失去了建立的意义。具备良好共享性的数据库不但可以进行内部信息的共享。而且和可以在不同的数据库之间建立联系,从而实现不同部门、不同个体之间的数据共享,甚至在不同的国家和地区之间也可以建立数据库的共享。

1.3 独立性

逻辑独立性和物理独立性是数据库独立所体现的两个方面。可以随意的改变某一个数据库的逻辑结构就是我们所说的逻辑独立性。比如,可以修改数据库内部数据的性质,或者将新的数据添加到数据库中,而且还可以调整数据的类型。而在调整这些信息的时候都不需要对原有的程序进行更换。数据的存储结构发生根本性的变化就是我们所说的物理独立性,比如,数据库原有的逻辑结构不会因为存储设备的更滑、存储位置的更滑或者存取方式的改变等情况而受到影响,同时也不会将程序运行的方式有任何的改变。

1.4 冗余度的可控性

冗余指的就是数据库中重复的数据。在需要对数据库中的数据进行专用的情况下,用户经常会在接收信息的过程中重复接收相同的数据,而此时也就出现了数据的冗余。而通过计算机数据库技术的应用就实现了系统自动删除重复信息数据的功能。而且,具体的操作人员也可以根据实际的需要保留一定数量的冗余数据,这样不但可以提高数据查询的效率,而且也更加方便了用户的操作。

1.5 灵活性

数据库不但要进行数据的存储,同时好不想具备管理、编辑、输入以及输出等相关的功能,同时在实际的使用和操作时灵活性也相对较大。而用户在使用的过程中可以根据自身的实际需要建立相关的信息数据库,并可以随时的调用数据库中所存储的相关数据信息。

2 数据时代数据库技术的具体应用

目前使用的最为广泛的信息管理手段就是计算机数据库技术,这项技术最大的优势就是提高了信息管理的效率,而且其在很多行业中都得到了广泛的应用和推广。数据存储不仅可以通过计算机数据库的应用得到满足,同时其还提供了更加个性化的服务给用户。就目前而言,计算机数据库在应用的过程中主要有以下几方面的特点:首先,用于对敏感、机密数据资料的处理中。计算机数据库可以通过设置数据访问的密码、防火墙等方式确保信息的保密性,避免了机密的信息数据被恶意的窃取或篡改。同时其对于用户个人的隐私也具有极为重要的作用,所以,计算机数据库技术已经被越来越多的商业机构用来进行数据的存储。其次,建立有效的数据模型。信息的内容不同其所具有的性质和价值也就不同,因此必须根据信息的特性对其进行分类和整理,切记不可所有的信息都采用统一的模式进行处理,只有这样才能从根本上保证信息处理的质量,为后期的查询与使用做好铺垫。同时计算机数据库技术还可以根据不同信息数据的特点按照需要迅速的建立数据模型,为人们查找数据提供了极大的便利。最后,保障数据信息的安全有效。安全管理信息是数据库所具备的另一大特点,这一特点为数据的安全可靠性的提高奠定了基础。目前,所使用的数据库一般都具有信息自动备份和文件恢复的功能。即便系统因为意外而出现故障,也不会造成信息丢失。而如果系统受到外部入侵窃取者被恶意篡改时,通过对之前备份好的数据进行还原就可以得到原始的数据。而这些度不仅对数据库的安全性提供了最大限度的保障,而且降低了因为数据故障而使数据安全受到威胁。

3 数据时代数据库技术在应用趋势

3.1 计算机数据库技术在信息管理中的应用范围日益广泛

将计算机技术和数据库技术紧密的结合,使得这两种技术的潜能得到了充分的发挥,而且其应用的前景也极为的广泛。随着计算机数据库自身应用范围在商业、农业以及服务业等领域的不断扩大,也进一步促进了相关产业管理效率和质量的提高,从根本上保证了产品的信息质量,而且也促进了相关产业的深化发展。安全性和实用性是计算机数据库技术最大的特点,而且通过各个领域的推广已经取得了显著的效果,不仅获得了各个产业的青睐,而且为这一技术的深化发展奠定了良好的基础。

3.2 计算机数据库技术在信息管理中的应用呈现出强劲的发展势头

在实际的应用过程中计算机数据库技术的优势已经越来越显著,所以这项技术已经得到了越来越多的行业的应用和推广。同时计算机数据库技术在其实际的应用过程中也在不断的进行自身的完善和创新,而这也促进了信息管理效率的提高。到目前为止数据库技术已经经历了几十年的发展,可以将其发展阶段分为:网状数据库的使用阶段和层次数据库的发展和使用两个阶段,目前为止,人们对于对象数据库的应用已经极为的广泛。数据库技术在其不断的发展和演变的历程中技术日趋的成熟。而且经过不断的实践检验之后,其在信息管理方面的能力有了更进一步的提高。从而使得目前所使用的数据库具备了更加便捷、高效、安全、稳定、操作性强以及稳定性高等优点,而这些优点对于其在各个领域的推广和应用都具有极为重要的意义。伴随着对媒体技术的迅速发展,在不久的将来。数据库在数据的编辑、整理以及展示等方面的能力也会得到进一步的提升。同时将其与多媒体技术有效的结合之后,实现了对文字、声音、影像等素材的综合展现,而且还可以进行复杂信息的处理,而这些不但提升了这一技术在信息管理方面的应用力度,同时也扩大了这项技术的使用范围。总体而言,数据库技术与计算机技术不但会更加紧密的结合在一起,而且其应用范围也会越来越广阔。同时信息管理的前景和市场也会随着计算机数据库技术的应用而不断的扩大,这项技术的身影会出现在农业、工业以及商业等众多的领域,不仅从根本上提高了这些行业的信息化水平,而且也带动了相关领域生产力水平和生产效率的提高。

3.3 计算机数据库技术的系统安全性能不断增强

计算机数据库技术在信息管理中的功能,随着数据库安全性能的提升而得到了充分的发挥。利用计算机数据库技术进行保密性较高的信息的存储可以有效的避免安全风险的发生,使信息资源的价值得以充分的体现出来。而且计算机数据库技术也具有便于管理的最大特点。数据信息利用计算机系统的备份功能进行备份从而避免因为误删信息而造成不必要的损失,同时也有效的降低了信息复制的成本。同时随着计算时数据库自身安全性能的不断提高,也增强了其在数据保护时的效果,不仅过滤了非法的信息,而且对于危害数据库安全的操作和行为也进行了有效的阻止。而计算机数据库不较之传统的安全保护手段而言,其不仅新增加了用户账户、新型密码等手段,而且还设置了更多的抵抗风险的系统,从而全面的提升了计算机数据库的管理性能,为广泛的推广计算机数据库技术奠定了良好的基础。

4 结语

总体而言,由于我们处于信息化时代中,而且每天都会面对新的事物的信息,而这也就增加了人们每天生活中所面临的信息量和数据量。而要想对这些信息和数据进行有效的整理和筛选就必须有先进的信息处理技术。所以将计算机技术和数据库技术紧密的结合在一起,就可以将两者的技术优势充分的发挥出来,使其具备更加完善、高效、全面的数据信息处理功能,从而促进信息处理效率和质量的提高。

参考文献

[1]金澈清,钱卫宁,周敏奇,周傲英.数据管理系统评测基准:从传统数据库到新兴大数据[J].计算机学报,2015,01:18-34.

[2]刘海英.数据挖掘技术在警务数据分析系统的应用研究[D].吉林大学,2015.

[3]梁宁宁.基于标准数据建立企业集团数据仓库及费用分析研究[D].重庆理工大学,2015.

大数据技术篇(3)

关键词:大数据 ORACLE 压缩技术

中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)11-0000-00

近两年来,大数据(big data)概念越来越引人瞩目,它被用来描述和定义在当前信息爆炸时代所产生的海量数据和与其相关的技术发展与创新。大数据时代对人类对海量数据的驾驭能力提出前所未有的挑战。如何管理这些迅速膨胀的海量数据,也成为每个数据库厂商必须面对的问题。本文介绍的是ORACLE的表/表空间压缩技术,这是ORACLE数据库在大数据环境下极为实用的一个属性。随着企业数据的爆炸性增长,很多决策支持系统和数据仓库对磁盘空间的需求也在急剧增长。目前很多大中型企业里,TB级甚至PB级的数据仓库已经越来越普遍。Oracle从9iR2 开始,提供一种表/表空间压缩技术,用以减少磁盘开销,节约存储空间,并在某些情况下获得查询性能的提高。

1 Oracle的压缩技术

Oracle的压缩技术实际上从8i就出现了,提供简单的索引压缩;到9ir2时,可以进行表级别的压缩,但只能对批量装载操作(比如直接路径装载,CTAS等)涉及的数据进行压缩,普通的DML操作的数据则无法压缩。Oracle 10g增加了对LOB的压缩,但并未解决压缩的写操作问题;从Oracle 11g开始,使用了"基于数据块的批次压缩技术",也就是说数据的压缩并不在执行DML语句时即时发生,当一个数据块开始写入数据时,插入的数据并不被立即压缩,这个时候对性能是没有影响的,对数据块的压缩动作发生在数据块即将被写满时,这样可以保证大部分DML语句的效率,从而真正支持了各种DML语句也能够用于OLTP环境(insert,update等)。

2 常用的压缩命令

下面列举一些常用的压缩命令。

2.1 表级别的使用

可以在建表时指定压缩属性,也可修改已有表的压缩属性。

create table tab1 compress as select * from user_tables;

create table tab2(cust_idnumber,cust_name varchar2(200))compress;

alter table tab3 move compress;-- 修改现有表为压缩表

alter table tab3 move nocompress;-- 解压已经压缩的表

如果要对分区表的不同分区设置压缩属性,我们可以在创建分区表时设置,也可等到需要对某个分区进行压缩时再设置。

Create table test(cust_id number,cust_name varchar2(200)) partition by range(cust_id)

partition P1 values less than (10000) compress,

partition P2 values less than (20000) compress,

partition PMAX values less than (maxvalue) );--

该命令表示P1和P2为压缩属性,PMAX则没有设置压缩属性。

Alter table test modify partition PMAX compress;--

该命令表示将PMAX分区设置为压缩属性。

2.2 表空间级别的使用

可以在建表空间时指定压缩属性,也可将现有表空间转换为压缩表空间。和其他存储参数一样,COMPRESS属性也具备一些继承特性。当在一个COMPRESS属性的表空间中创建一个新表时,这个新表从该表空间继承COMPRESS属性。需要注意的是,该属性只针对在该表空间建立的表,通过"alter table tab1 move tablespace test"方式移到该表空间的普通表和在该表空间用默认方式建立的索引,都不具备压缩属性。

create tablespace ETL datafile '/oracle/data03/oradata/stkhxf/test01.dbf' SIZE 500M default compress;--创建表压缩空间

alter tablespace ETL default compress;-- 将非压缩表空间转换为压缩表空间

alter tablespace ETL default nocompress;--取消表空间的压缩

2.3 索引的使用

除了表可以压缩之外,索引也同样可以压缩,当索引键值的重复率很高时,可以考虑压缩索引。注意,如果是主键索引或惟一约束索引,则无需压缩。

我们可以在建索引时进行指定:create index IDX_1 on tset(cust_id)compress.

也可以将现有索引转换为压缩属性:alter index IDX_2 rebuild compress.

2.4 通过数据字典查看对象是否被压缩

select owner,table_name,compression from dba_tables ;--查看表

select table_owner,table_name,partition_name,compression from dba_tab_partitions; --查看分区表

select owner,tablespace_name,def_tab_compression from dba_tablespaces;--查看表空间

select owner,index_name,compression from dba_indexes; --查看索引

大部分情况下,使用压缩技术对数据库性能提升是有利的。Orecle采用智能算法的压缩技术尽量降低写操作的负载,被压缩的数据可以存贮在更少的数据块中,这样就降低了磁盘空间使用。对一个压缩属性的表或索引的全表扫描和索引区间扫描所需要读取的数据块更少,减少了磁盘IO,查询可以更快完成。其次,由于需要处理的数据块减少,CPU搜索和处理数据块的时间会降低,同时需要读入内存的数据块也减少了,内存的资源消耗也随之降低。再次,由于数据压缩和解压是Oracle内部的行为,外部网络可以仅传输被压缩的数据块,这样也有效降低了网络负载。

3 结束语

从Oracle11g开始,没有什么是不可压缩的。Oracle数据库提供的高级压缩技术可以压缩所有类型的数据--无论是规范的结构化数据(数字、字符)、非结构化数据(文档、电子表格、XML 和其他文件)还是备份数据。不仅降低了所有数据类型的磁盘空间需求,还提高了应用程序性能,增强了内存和网络效率。在这个大数据时代,对使用Oracle数据库的企业的DBA和开发人员来说,了解并掌握Oracle针对海量数据的数据压缩技术,是一件极其迫切而重要的需求。

大数据技术篇(4)

本文首先对大数据时代的特点进行了介绍,其次对常用的数据挖掘方法进行了阐述,最后提出了展望。

【关键词】大数据 数据挖掘 分类 聚类

大数据(Big Data),也称为海量数据,是随着计算机技术及互联网技术的高速发展而产生的独特数据现象。现代社会正以不可想象的速度产生大量数据,如网络访问,微博微信,视频图片,手机通信,网上购物……等等都在不断产生大量的数据。如何更好的利用和分析产生的数据,从而为人类使用,这是非常重要的科学研究。在大数据时代,更好的利用云计算以及数据挖掘,显得尤为重要。

1 大数据的概念

大数据,是指无法在一定时间内用常规机器和软硬件对其进行感知、获取、管理、处理和服务的数据集合。IBM将大数据的特点总结为三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。

即产生的数据容量大。数据主要来源如:E-mail、搜索引擎的搜索、图片、音频、视频、社交网站、微博微信、各种应用软件和app、电子商务以及电子通信等等。在实际生活中,电子商务的购物平台数量和种类越来越多,社交网站的典型facebook的数据量大的惊人,以PB计量都不够。数据存储的单位不仅仅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每个单位的关系为后者是前者的1024倍,如1PB=1024TB。同时大数据的增长速度是越来越快,如手机相机的像素数随着新款手机的出现而成倍的增长。

1.2 多样化

从数据组织形式的角度将数据分为结构化数据和非结构化数据。结构化数据,具有一定的规律,可以使用二维表结构来表示,并存储在数据库中,如高校的教务管理系统的数据、银行交易产生的数据。而非结构化数据是无法通过预先定义的数据模型表达并存储在数据库中的数据,如声音、视频和图片等等。当前非结构化数据的增长速度远远超过结构化数据。

1.3 快速化

在当前商业竞争激烈的时代,对实时的数据进行分析和处理,挖掘有用的数据信息,并用于商业运作,对于企业和组织来说非常重要。如现在网络购物会依据多数人的购物组合,分析出大部分人在购买一件物品的同时会同时购买其他的物品,从而在购物选择时给予方便,提高网购的效率,提高效益。

随着互联网技术和计算机技术的快速发展,在产生大数据的同时,人们要能够对这些数据加以利用,得到有用的信息,才是最重要的。为了让海量规模的数据能够真正发挥巨大的作用,需要将这些数据转换为有用的信息和知识,即从传统的数据统计向数据挖掘和分析进行转换。比如沃尔玛超市能够从男人购物时买啤酒的同时会购买小孩的纸尿裤这种关联,并在实际物品摆放时将这两种物品放置在一起,方便用户购物。

2 数据挖掘

随着信息技术应用的广泛,大量的数据产生并存储各个领域的信息系统中,数据呈现了爆炸式的增长。数据挖掘在这种“数据爆炸,知识匮乏”的情况下出现的。数据挖掘(Data mining)是一个多学科交叉的研究领域,它融合了数据库技术、机器学习、人工智能、知识工程和统计学等学科领域。数据挖掘在很多领域尤其是电信、银行、交通、保险和零售等商业领域得到广泛的应用。

数据挖掘也称为从数据中发现知识,具体来讲就是从大规模海量数据中抽取人们所感兴趣的非平凡的、隐含的、事先未知的和具有潜在用途的模式或者知识。

3 数据挖掘的主要研究内容

数据挖掘的任务是发现隐藏在数据中的模式,其模式分为两大类:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性。预测型模式则是以时间为主要关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。常使用的算法有:

3.1 聚类分析

聚类是将数据划分成群组的过程,根据数量本身的自然分布性质,数据变量之间存在的程度不同的相似性(亲疏关系),按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法,层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。

3.2 特性选择

特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型前,或者预测模型之前,对原始数据库进行预处理。常用的算法有最小描述长度法。

3.3 特征抽取

特征抽取式数据挖掘技术的常用方法,是一个属性降维的过程,实际为变换属性,经变换了的属性或者特性,是原来属性集的线性合并,出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。

3.4 关联规则

关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的,目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。

3.5 分类和预测

分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测,需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。

4 结论

随着时代的进步,数据也发生变化,具有各种各样的复杂形式。很多研究机构和个人在对结构化数据进行数据挖掘的同时,也展开了对空间数据、多媒体数据、时序数据和序列数据、文本和Web等数据进行数据挖掘和分析。同时大数据的发展促进了云计算的产生,基于云计算的数据挖掘也在迅速崛起。

参考文献

[1]刘军.大数据处理[M].北京:人民邮电出版社,2013(09).

[2]王元卓等.网络大数据:现状与展望[J].计算机学报,2013(06).

[3]申彦.大规模数据集高效数据挖掘算法研究[D].江苏大学,2013(06).

[4](加)洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.

[5]贺瑶等.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(02).

作者简介

许凡(1996-),男,江苏省南京市人。现就读三江学院计算机科学与工程学院计算机软件工程专业本科。

孙勤红(1979-),女,山东省临沂市人。硕士研究生学历。现为三江学院计算机科学与工程学院讲师、指导教师。主要研究领域为数据挖掘。

大数据技术篇(5)

赏花灯是元宵节的重要习俗。游人如织的灯会现场哪个灯最受欢迎?人流量太大会不会影响市民赏灯拍照?这些问题在今年的贵阳市观山湖灯会上都得以轻松解决。贵州移动创新运用大数据技术导航,引导广大市民科学安排观灯路线,轻松赏灯。

面对喷薄而来的大数据发展浪潮,贵州移动努力思考如何抓住大数据带来的机遇,让大数据技术为“我”所用。如今,贵州移动已与大数据“激情相拥”,迸发火花。

一方风生水起的热土

2014年3月1日,在北京召开的“贵州・北京大数据产业发展推介会”上,贵州向世界发声――凭借独特的环境和资源优势,打造具有战略地位的国家西部大数据聚集区和国家云计算产业的高地。

贵州发展大数据产业的信心和魄力成就了不一样的“贵州速度”,这一点与“快人一步”引领行业发展的中国移动高度契合。中国移动作为全球最大的基础电信运营商,拥有骨干网络和国际带宽出口,具备雄厚的资金储备及强大的基础设施建设能力,在IDC数据中心领域建设上拥有先发优势。中国移动将IDC数据中心作为解决大数据领域中“数据放哪儿”这个大难题的重要途径,对IDC数据中心的分布有着完整的战略规划。

在贵州境内,中国移动自2007年开始建设数据中心以来,先后在贵州金阳(现贵阳市观山湖区)、贵州花溪和贵州贵安分别建设三个数据中心节点,形成了以金阳数据中心、花溪数据中心和中国移动(贵州)大数据中心(即贵安数据中心)为核心的链状布局,进一步强化了数据的安全与稳定性。

其中,2015年底投产的中国移动(贵州)大数据中心投资超过20亿元,占地约275亩,机房有效面积19万平方米,可实现装机容量2.1万架,工程分三期进行。目前,一期工程已经基本完工,4.6万平米(约6个半标准足球场大小)装机容量3000架,陆续有国家部委、省内厅局、大型移动互联网企业等单位入驻或准备入驻。

三场华丽惊艳的亮相

2015年,中国移动(贵州)大数据中心全面入驻贵州贵安新区,在贵州省政府的统一组织下,相继赴北京、深圳、上海等地进行招商推介。“震撼!”参观了中国移动(贵州)大数据中心展区后,众多企业“大佬”纷纷发出感叹并给予极高评价。

中国移动(贵州)大数据中心凭借更优质的网络、更周到的服务、更安全的保障、更专业的团队、更丰富的产品、更海量的用户和更低廉的成本七大优势在推介会上惊艳全场。该中心以国际一流的Tire4为标准,以规模化、集约化、标准化和绿色节能环保的建设运营理念,为企业提供IDC存储、云计算等7大类服务,并提供现代化的办公附属楼,监控调度、10000O的仓储中心等完善的配套服务,是立足西南、辐射全国、面向全球的新一代数据中心。

根据客户对机房环境的不同要求,中国移动(贵州)大数据中心可为客户提供三重尊享定制化服务:整体机楼级定制服务;专用机房级定制服务;机柜级定制服务。专属团队全程监控,提供7X24小时售前、售中、售后的殿堂级服务。以历年国家安全考核中始终保持第一的信心和信誉,提供高性能、高稳定、高可靠的信息安全保护。

决定大数据中心运营成本和服务价格的关键因素在于其能耗。不满足于地缘环境带来的低能耗优势,中国移动(贵州)大数据中心在节能技术上煞费苦心,勇敢挑战1.3及以下的PUE(数据中心总设备能耗)值。在贵州,超过95%的时间,室外常温水即可满足数据中心机房设备降温,不需再额外辅助降温。中国移动(贵州)大数据中心采用水循环散热模式,将冷媒带出的热量,通过热交换管和室外低温水池进行热交换,以达到散热目的,极大地降低了数据中心运营成本。

在推介会现场,中国移动贵州公司总经理芈大伟刚分析完8亿客户资源可能产生的经济价值,台下的众多企业负责人便“骚动”起来,“大数据来了,我们的转型不能再等了”。

云计算实现大数据导航

2009年起,贵州移动就对云计算进行探索,建设并运营了贵州省内第一个公有云,由此开始面向省内外各类客户,在主机托管、云服务和大数据分析三个层面开展与大数据相关的业务和合作,先后在“互联网+健康”“互联网+教育”“互联网+智慧园区”“互联网+智慧媒体”“互联网+金融”等领域取得重大突破和成绩,成为回答大数据是“什么”和“干什么”的成功案例。

贵州移动“互联网+智慧园区”立足于对区域大数据的挖掘,研发区域人群流动热力图、商业最优选址模型、国际(国内)流动性分析,旅游景区人群分析等应用。通过热力图,可以在最短时间内,以最简单的方式,发现区域人群密度的变化情况,甚至可以知道人群迁移路线,有效预测未来一段时间区域人群的变化,甚至可以发现突然出现的高密人群聚集点。

在今年的贵阳市观山湖灯会上,贵州移动结合灯会现场情况采用了大数据人群热力地图抓取技术,抓取灯会现场周边移动基站的现场手机信号源,通过精准计算,实时将灯会现场总人数,各出入口人数,甚至每一盏灯前的观灯人数精准的统计反映到监控平台。用户可以通过客户端及时掌握现场情况并合理安排自己的赏灯路线。灯会人流量监控系统是贵州移动运用现有的数据资源,提供的一个集数据采集、处理、展示于一体的人流量监控及预警服务平台,这些数据不仅为游客提供了及时的向导,还为管理部门应对突发事件及游客引流,提供了全方位的信息支撑。

“大数据”服务惠民生

作为发展大数据产业的先锋,在“大数据”惠民方面,贵州移动做了许多积极的探索。

在新农合信息化项目启动前,贵州超过30%的县、35%的乡(镇)、近70%以上村医疗单位的基本医疗管理和新农合报补管理还停留在纸面作业阶段。为此,贵州移动联合贵州省卫计委共同开发了贵州新型农村合作医疗信息系统,目前已经稳定运行超过6年,为全省3000多万农民、5000多个医疗机构和网点积累了疾病诊疗信息、用药信息、报补信息等数以亿计的数据。实现了贵州山区居民便捷就诊、即时报补、异地报补,实现了农合资金的信息化监管,解决了精确扶贫(医疗)、智能审核、一键清算等难题。随着数据的不断积累,贵州移动可以通过贵州新型农村合作医疗信息系统了解到在特定条件下,区域疾病的变化趋势,为卫生管理部门对医药卫生资源的配比决策提供最有效的支持。

已经读五年级的吴江和妹妹跟着年迈的爷爷奶奶一起生活,父母在深圳打工,每隔两年才回家过一次年。“看到同学和爸爸妈妈在一起时就特别的羡慕,也觉得很孤单。现在有大数据每天将收集到的信息通过网络视频反馈给他们,拉近了和爸爸妈妈的距离,感觉他们就在身边。”这是贵州移动将留守儿童问题作为“互联网+教育”的实践方向,取得以“留守儿童大数据关爱系统”为代表的实践成果。

安全监管用之有道

贵州移动设立了专职的“网络和信息安全中心”,并连续几年在国家相关部门的信息安全检查和评比中获得好成绩。

以贵州移动大数据服务2016年贵阳市观山湖元宵灯会为例,从数据和信息的安全保障要求入手,对本次灯会大数据信息进行了严格的脱敏数据稽核,剔出可能涉及的个人信息以及其他与本次灯会无关信息。简言之,所采集的数据是数据的聚合,不是个体的隐私数据,这些聚合的数据只服务于灯会,而不会用作他用。

大数据技术篇(6)

关键词:车联网;大数据平台;新能源汽车;

TM61;TP311.13

汽数字化、互联网化、大数据应用、人工智能,将对汽车业及相关的长长的产业链产生难以想象的巨大变化和产业革命。车联网是由车辆位置、速度等总线参数与周边系统信息互联而构成的巨大交互网络。车辆完成自身环境和状态信息的采集后,籍由互联网技术,将自身的各种信息传输汇聚到TSP后台。仅依赖数目有限的人力与传统的统计方式方法难以对这样海量、实时而价值密度低的车辆信息进行分析和处理,只有借助大数据技术,才能实现对海量数据的监控与挖掘。车联网项目已经为我们解决了海量数据的产生、收集与发送的重要问题,但我们还需要一个高效方便的系统解决回传到后台的数据解析、重构、存储与计算等系列问题。

一个兼有柔性化和模块化的大数据平台正是在这样的背景下被设计并搭建起来。基于该平台开发的新能源车数据管理系统经过近1年的测试与使用,已经证明能有效处理TSP后台的新能源车数据,并多次为专业部门提供相应的离线数据挖掘服务。目前正在开发的XH3项目试制试验车数据监控系统亦是在该平台上进行设计。

一、技术研发重点问题与解决方案

大数据技术平台研发与搭建攻克了以下技术难题:

1.大数据平台的技术框架设计

大部分情况下,企业开发的大型数据库系统层级的软件应用均委托供应商并购买制定的商业数据库软件进行。数据流动的不确定性、系统运维的技术壁垒、机密数据及模型的潜在泄露风险,使得运用商业数据库平台存在一定的信息安全与数据资产风险。

为此,我们借鉴IT领域大数据的应用研究成果,使用开源的Hadoop生态圈软件,根据专业部门的使用需求与数据利用习惯及场景,基于开源的Hadoop2.0生态圈软件,构筑了一个兼有柔性化和模块化的大数据平台,并由大数据团队自主源代码开发实现了所有数据接口。该平台可根据业务量的增长与变更灵活的切换分析工具和底层扩容。如下图1所示:

2.离线地图与车联网参数叠加技术

相比车联网回传数据里面若带有地理坐标,则可以与地图大数据技术结合起来,通过把性能参数或分析结果在地图底图上显示出来。实现车、人、物等物联网参数在地图层上的统一。要实现该功能,我们需要获得地图数据源、地理数据叠加工具和地图交互功能技术支持。

针对地图数据源问题,考虑到公司内部大部分员工无法直接使用外网,所有简易的地图源如百度、高德等地图api无法引入,我们只好使用爬虫技术,在内网部署了一台地图服务器,对客户的地图数据需求进行实时网络抓取。然而,由于地图源为自定义形式,需要把实际坐标参数按照国内地理坐标偏移标准进行一定技术上的处理。

解决地图源问题后我们引入了openlayers技术。它是一个用于开发WebGIS客户端的JavaScript包。OpenLayers 支持用户自定义地图作为背景图,与其他的参数图层进行叠加,并可以通过远程服务的方式,将地图数据加载到基于浏览器的OpenLayers 客户端中进行显示。除可以在浏览器中帮助开发者实现地图浏览的基本效果,比如放大(Zoom In)、缩小(Zoom Out)平移(Pan)等常用操作之外,还可以进行选取面、选取线、要素选择、图层叠加等不同的交互操作。如下图2所示:

二、大数据技术平台在新能源车数据挖掘上的应用

为更好的对新能源车回传数据的进行分析与挖掘,我们基于大数据技术平台开发了某企业的新能源车数据管理系统。根据应用场景,分为在线分析与离线分析两大功能。

1.在线分析功能应用

在线分析功能主要指系统上通过浏览器直接可以操作的热数据分析功能,新能源车数据管理系统包括信息查询、故障查询、轨迹回放、油耗统计、电池系统管理、广州市充电桩信息集成等六大模块。在线分析功能主要用于协助工程师对指定vin码车辆进行全方位的历史参数检索、特定参数功能统计,在故障诊断、系统监控、轨迹回顾上发挥重要作用。如图3所示:

2.离线数据分析功能应用

离线分析功能主要指用户以分析委托方式对感兴趣的分析方案,在指定数据范围内,按一定模型需求进行分析计算。截至目前,系统录入ag新能源车数量超过2500台,日均在线车辆超过1000台,存储数据量过1T。可以支持如用户习惯、零部件或整车工况提取等需要大样本的分析计算。已为新能源、NVH、试验等部门级或新能源车主提供过分析服务。乘用车、集团也多次利用该系统对新能源车的在线管控与跟踪。如图4所示:

三、主要科技创新点或改进点说明

在大数据技术平台搭建与某企业的新能源车大数据管理系统研发过程中,通过解决以下几个重要技术关口,完成了以下创新性工作:

(1)在系统开发中形成了一个全自主知识产权的大数据技术平台架构,实现数据在该平台中的透明流动。

(2)摸索了应用开源IT技术服务研发的方法,为后续同步引进先进IT技术打下坚实基础;

(3)为整车研发提供了一个便利的大数据工具,促进了大数据与整车研发相结合,为后续大数据项目在某企业的落地起到良好示范作用。

参考文献:

[1]诸彤宇;王家川;陈智宏;车联网技术初探[J];公路交通科技(应用技术版);2011年05[2]

[2]崔建明;BOA技术在车辆感知网络中的应用研究[J];电子设计工程;2012年13期

[3]王建强;吴辰文;李晓军;车联网架构与关键技术研究[J];微计算机信息;2011年04期

大数据技术篇(7)

[关键词]数据挖掘技术;分析方法;企业;应用

doi:10.3969/j.issn.1673-0194.2015.02.044

[中图分类号]F270.7-TP311.13 [文献标识码]A [文章编号]1673-0194(2015)02-0058-01

1 数据挖掘技术的分析方法

现在作为数据挖掘的主要工作就是分析方法,只有科学、可信赖的算法才能够帮助数据进行挖掘工作,找寻数据中隐藏的一些规律。只有利用不同的分析方法,才能解决各种不同的问题。而现在常见的分析方法有聚类分析、分类和事先推测、关联分析。

1.1 聚类

聚类分析是将一组数据分类成相近性及有异性这样几个种类,这样做的目的就是将同一种类型的数据之间的相近性发展到最大化,不同种类之间数据的相近性尽可能的降低。这项分析方法可以用到客户团体的分类、客户背景分析、客户购买的事先推测、市场细分等。聚类分析广泛的存在于心理学、医学、数据识别等领域中。

1.2 分类及事先推测

分类是将数据库里面的数据对象的相同点按照分类的形式将其归为不同的类型。这样做的目的就是经过分类的形式把数据库中的数据项反射到特点的一个类型。这可以用到客户的分类、特性、满意程度、购买趋势等。而事先的推测是建立连续值函数模型,常见的方法有局势外推测法、时间序列法、回归分析的方法。

1.3 关联分析

在自然界中,每个事物之间都有一定的联系,如果发生一件事情,肯定会关联到其他的相应事件。关联分析就是利用到来事物之间存在的联系和相互之间的依赖性的规律,对于这些事件进行的预测。在数据库中的表现就是数据项之间存在的问题之间的关联,就是一个事物中的某一项事物可能会导致其他一系列事项的出现。对于企业的客户管理有着非常大的帮助,对于数据库中的数据进行挖掘,找出影响市场的因素,为各种活动提供依据。

1.4 特征

特征分析方法就是将数据库里面的一组数据抽取出有关这组数据的特征式,这种特征式能够表现出数据的整体的特征。就像营销工作人员对于客户流失数据的提取能够了解到原因,利用这些数据找到原因后就能帮助挽留客户。

2 数据挖掘在企业中的应用

2.1 市场营销和经营

数据挖掘最早应用的行业就是市场营销,市场营销行业利用数据挖掘技术对于用户进行分析挖掘来获得客户的消费习惯和特征,这样做的目的是来提升销售的业绩。当然,现在数据挖掘不仅是在超市购物上被利用,还普及到很多的金融行业。

经营上使用的具体实例:一些邮件类的广告上,可以根据数据挖掘帮助确定客户可能会购买的产品,这样可以节约很多的邮资,还能够帮助管理客户之间的关系,也就是经过分析那些可能走向竞争对手的客户的特点,这样就能针对性的来留住顾客。购买方式:利用数据挖掘技术给零售商提供方便,零售商能够通过这一技术确定顾客会购买哪些商品,还有就是在商店中该放那样的商品供顾客选择,目的是方便顾客购买,这样能够帮助销售量的提高。当然数据挖掘技术还能够帮助用户分析、评判促销活动会产生的成效。

2.2 电力、电信行业

随着数据挖掘技术的发展,电网业务在不断的进步和丰富。而电信行业快速的发展,电信技术和服务成为一个巨大的混合载体,对于市场关系、技术服务有极大的影响。对于企业的资源进行有效的整体和结合,形成一个非常大的关系网和信息数据系统。对这些数据进行挖掘成为解决各种问题的有效方法,为企业的发展有着非常重要的推动作用。

2.3 互联网和云计算机

互联网对于数据挖掘有很多的应用,比如搜索引擎、电子商务等。这些都是利用数据挖掘技术在庞大的数据海洋中找寻能够符合客户要求的信息。常见的就是根据预测分类算法来预测出客户应该需要的信息。

2.4 金融行业

银行、通信公司、保险行业这些在评估客户的信用等级上需要注意安全。数据挖掘的利用在金融行业是非常的重要,当然数据挖掘技术在这方面取得了很好的成绩,可以帮助这些金融企业正确的识别出诈骗行为、控制风险。如2003年春天,广东分行在进行信贷电子数据分析的时候,发现了一些异常的现象,发现除了南海华光公司的冯某对于银行进行的诈骗行为,其中有74亿元被骗取,这并不是通过举报而获得线索,而是经过数据挖掘技术,发现冯某公司信贷出现的异常,然后被审计人员发现并验证这一诈骗行为,若不是数据挖掘要想发现这一诈骗可谓是难上加难。

3 结 语

大数据时代的到来给现在社会的发展带来极大的帮助,各种挖掘技术也在不断的出现,给数据这种财富的存储、解决、分析带来极大的帮助,如更加的便宜、迅速。将数据转换成财富,变成现在企业发展的利器,这是现在企业面临的一个重要的转型。若想适应时代的发展,企业应该了解数据挖掘的基本方法以及应用,这能够帮助一个企业快速的发展和生存。