期刊大全 杂志订阅 SCI期刊 SCI发表 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 大数据时代特征

大数据时代特征精品(七篇)

时间:2024-04-04 11:01:20

大数据时代特征

大数据时代特征篇(1)

关键词:大数据时代 会计数据 特征 研究

一、前言

数据爆炸式的增长对企业会计数据的各个方面都产生了不同的影响,会计数据开始由简单的记录符号转变为现代化企业在进行决策时的重要信息依据。大数据背景下企业会计数据呈现出了新特点,企业在信息的来源、信息的处理、数据的分析和数据输入等方面发生了重大的变化,自然而然的催生出了新技术体系。以下将对会计数据的来源、处理、分析和输出等方面的特点进行阐述。

二、大数据时代下会计数据的新特征

(一)会计数据来源由原来的结构化向非结构化转变

静态结构化会计数据是由传统的运营系统产生的,通常情况下,结构化数据是以二维表的方式进行保存和管理,它是传统的数据库管理系统中的重要组成部分。

静态非结构化数据是通过现代科技设备产生的,在数据的管理过程中只能采用非关系型数据库将其保存。动态实时会计数据是与智能设备用户的地理位置、交易信息、使用场景相关联的,动态实时会计数据信息是大量的实时数据流。

非结构型的会计数据来源较为广泛,比如来自于传感器的各种类型数据、移动电话的 GPS 定位数据、实时交易信息、行情数据信息、用户的网络点击量等等,像网上书店这种通过互联网发展起来的电商,他们则通过存储顾客的搜索路径、 浏览记录、 购买记录等大量非结构化数据来分析顾客的购买倾向, 设计算法来预测顾客感兴趣的书籍类型,在开展会计工作过程中,这些都是需要考虑的重要会计因素。这些非结构化的会计数据直接影响了会计数据的构成。在如此多样化的数据结构中,可获得的数据常常是非结构化的,因此,传统的结构化数据库已经很难存储并处理多样性的大数据。

(二)会计数据处理由原来的集中式向分布式转变

大数据背景下数据量的指数化发展趋势明显,数据分析的样本空前巨大,数据分析处理的时效性要求更高,因此使得现在的数据会计处理方式与传统的会计处理方式不同,在计算全量和在线的数据时需要改变原来的集中式计算结构,企业要积极采用分布式或者扁平式的会计数据处理方式,以便能够跟上时代的步伐。企业在会计数据处理的时候可以采用Hadoop、MapReduce 或者Storm计算架构,这三种计算架构在会计数据的处理方面各有优势,同时也有自己不可避免的缺点,企业在选择会计数据计算架构的时候可以根据企业自身的具体情况进行选择,要谨慎的对三种计算架构进行综合分析和了解,以便适应不同类型会计数据计算的需要,为下一步的会计数据分析工作奠定基础,以便能够更好的为企业提供信息服务。数据处理中的重要工作内容就是数据的清理,数据清洗和数据验证等工作都将通过相应的电子设备来完成,工作人员只需要设定好相应的清洗和验证程序就可以清洗的效果,这不仅改变了以往的人工数据清洗方式,而且数据会更加真实,误差会更加小。这在提高数据处理工作效率的同时也提高了数据处理工作的质量。

(三)会计数据分析从数据仓库向深度学习进行转变

会计数据分析工作是企业在信息管理方面的重要内容。早期的会计电算化主要是面向操作型的,从会计的凭证、账簿和报表都没有可靠的历史数据来源,更加不能将会计信息转换为可用的决策信息。随着信息处理技术的应用,企业可以利用新的技术实现会计数据的联机分享,同时还引进了统计运算方法和人工智能技术对数据仓库进行横向和纵向的分析,将大量的原始数据转化为对企业有用的信息,提高了企业决策的科学性和可操作性。大数据时代下,会计数据分析改变了以往的传统关系数据库模式,将非结构化会计数据和动态实时会计数据纳入数据分析的范畴,使得企业可以根据这些信息进行定性和定量的分析,以便为企业对会计数据进行定向分析做好准备。

比如苏宁电器就积极构建ERP系统,在物流系统中将库存商品基础数据(包括产品编号、名称、规格型号,计划单价)、商家基本数据(包括商家编号、名称、地址、电话、邮编、银行账号等)与会计信息系统中物流信息系统的数据进行连接;资金流系统中保理、保险、银行客户的基本数据、支付结算方式编码、货币编码、利率编码等与企业会计信息系统中金融业务信息系统的数据是共享的。这就在一定程度上实现了会计数据共享和深度分析的作用。

(四)会计数据输出形式由图表化转向可视化

在以前的会计数据输出工作中,企业大多采用图表的形式来报告企业的会计信息,比如财务报表等,而在大数据的背景下,企业改变了以往的信息输出形式,而是将复杂的会计数据转化为直观的图形,通常会综合采用图形、表格和视频等方式将数据进行可视化呈现。同时,企业也可以采用API、XML和二进制等接口输出形式来输出数据,以便能够更好的将信息传达给信息内部和外部使用者, 为企业进行决策提供数据支持。

比如社交网络中的语音、图像、视频、日志文件等等这些都是可视化的会计数据输出形式,并且随着大数据时代的发展,新的数据来源与数据形式也会不断出现。像1号店、淘宝商城这样的电商就可以记录或搜集的网上交易量、顾客感知、品牌意识、产品购买、和社会互动等行为数据,以可理解的图形、 图片等方式直观呈现出企业在不同时间轴上会计数据的变化趋势。

三、结束语

大数据时代下,企业面临着纷繁复杂的数据流,数据的有效运用成为了企业的一种竞争实力。企业要根据数据驱动的决策方式进行决策,这将大大提高企业决策的科学性和合理性,有利于提高企业的决策和洞察的正确性,进一步为企业的发展带来更多的机会。

参考文献:

大数据时代特征篇(2)

关键词:大数据 统计特征 情报关键词 关键词提取 方法

1 大数据的含义及特征

大数据即人们常说的非结构化数据,它借助计算机网络,可以存储大量数据,并保证数据的真实性。体量、速度和多样性是大数据定义中的关键内容。其基本特征主要有:第一,大数据数据总量增长规模非常大。同种类型的数据在传输过程中处于快速增长状态。第二,数据增长的速度非常快,以指数级持续增长模式为主。第三,新的数据来源渠道越来越多,新的数据类型也不断丰富。第四,大数据的价值不断上涨,大数据可以为企业发展带来更多商机,是现代企业发展过程中必不可少的内容。

2 相关研究现状及存在的问题

情报关键词是表述某个文件或者论文中重要内容的词语。本文中介绍的大数据时代基于统计特征的情报关键词是指以网页为主的关键内容,提取关键词的主要目的是分析语义和对核心词语进行统计。网页关键词在自动摘要、信息检索以及自动问答等形式中都存在较多不确定因素,导致大数据时代基于统计特征的情报关键词提取方法问题重重。

3 大数据时代基于统计特征的情报关键词提取方法

3.1 关键词提取方法的分类 关键词提取方法分四类:第一,基于语义的方法。以词典为依据,对词和句子进行分析,对词和句子进行分类标注,满足计算机对多重信息片段的实际需求,通过计算获得情报关键词。第二,基于机器学习的方法。利用机器对训练语料库进行训练,结合各项系数的实际状况,确立相关的参数、建立准确的模型。第三,基于复杂网络的方法。明确候选特征词之间的关系,以既定的规则为出发点,构建一个复杂网络,通过相关数据计算出节点权重系数和介数,最大的综合值即为关键词。第四,基于统计的方法。词语具有相关统计信息,以统计信息为基础,提取相关关键词。

3.2 关键词提取方法的构造

3.2.1 中文词语的特征及自动分词。中文词语通常由两个或者两个以上的汉字组成,句子具有连续性,要求研究人员利用大数据对中文句子进行分析之前,将句子划分为若干小部分。目前已经有自动标注词性的系统,可以自动过滤词和通用词语。

3.2.2 网页文本的结构特征及词语统计特征。MTML是一种标记语言,该标记语言的证书的目的是描述网页文档内容,以成对的标记符号为依据,明确显示网页的各个部分。词语统计的特征主要有:如果某篇文章中某个词语出现的频率比较高,在其他文本中出现的频率偏低,那么,这个词语即可作为候选关键词;同一词语在不同标记符号中对文章内容的反映结果不一样,也就是说词语出现的位置对关键词的选择有至关重要的作用。

3.2.3 词语过滤。文本中通常会存在大量噪声词。噪声词与文章的内容联系不大,噪声词在文本中和文本集合中出现的频率均比较高,噪声词通过词频和文本频率乘积的离散系数自动过滤。不同内容的文本长度不一样,噪声词在文本中出现的频率数受文本长度的影响,离散系数是指某个词语在文本中的波动程度,词语的离散系数与该次在文本中出现的稳定性成正比,也就是说,离散系数越大,该次在文本中的稳定性越差。

3.2.4 中文关键词提取流程图。本文以TfDf指标为依据,采用离散系数的方法将文本中存在的噪声词过滤除去,对候选关键词共现概率分布进行分析。确定TFIDF和候选关键词的位置信息,以TFIDF-SK为计算方法,以函数TFIDF-SK值作为关键词重要性的衡量标准。TFIDF-SK算法系统流程图如图1所示。

图1 TFIDF-SK算法系统流程图

TFIDF-SK算法将输入文本集合进行处理,处理工作中必须将文本集合中的噪声词过滤除去,做好词语统计特征;将收集到的信息计入特征计算模块,该模块的主要功能是计算TFIDF值、词语位置信息和偏度;进入关键词重要性衡量模块,计算出TFIDF-SK值;判断关键词重要性度量大小,输出文本中的情报关键词。

4 结束语

目前,国内外对大数据时代基于统计特征的情报关键词的提取方法均有统一评价,在实际发展过程中强化统计特征情报关键词的提取方法显得尤为重要。因此,研究人员必须在了解大数据含义及特征的前提下,针对大数据时代基于情报关键词提取方法存在的问题,对相关方法进行深入研究,保障情报关键词的稳定性。

参考文献:

[1]罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013.

大数据时代特征篇(3)

关键词 geodatabase;数据模型;地理特征;面向对象技术

随随着面向对象技术(object-oriented technology)的不断 发展 成熟并广为流行,将其应用到gis技术中已是一种必然的趋势,并将带来gis技术的重大进步。

1 地理信息系统(gis)及其数据特征

随gis是由 计算 机硬件、软件、地理空间数据和管理人员共同组成的集合,用以有效地获取、存储、更新、管理、 分析 和显示各种与空间有关的信息。现有的gis将地理数据划分为空间数据和属性数据两大类型,这种划分有助于借用已有的数据库技术来管理用户的属性数据,使属性数据得到了高效、强大的数据库技术的管理。与此同时,也使得gis人员在开发应用软件时将重点放在了对空间数据的管理上。但要使gis开发人员能更方便有效地处理空间数据,就必须要有好的数据模型来表示地理数据。

随gis的技术目的是为了更好地利用地球资源和管理人造环境而给用户提供决策支持的空间框架。gis大多用图形和符号表示信息,还能通过交互式影像地图交流信息,例如你可以索引一个特征的所有已知属性,可以通过 网络 建立一个点与其它相关点的事物清单,也可以做如水流、污染扩散等模拟测量,这些信息的显示和分析都依赖于怎样从现实世界中建模地理特征。

随地理数据模型是对现实世界的一种抽象,并利用一系列数据对象来支持地图的显示、查询、编辑和分析。一个地理数据模型的优劣,取决于其对地理特征的表示是否充分,其自身结构是否简单易读,以及是否能方便地利用具体的编程语言来实现。

2 传统数据模型对地理数据支持的不足

随在面向对象数据模型产生之前,伴随着gis技术的不断发展已经产生了两代gis数据模型,即:cad数据模型和coverage数据模型。

2.1 cad数据模型

随cad数据模型起源于六七十年代,由于受当时软硬件条件所限制,地图制图精度都不很高。在这一时期,地图主要是通过一些通用的cad(计算机辅助设计)软件绘制出来的。 cad数据模型通过点、线、面将地理数据存储在二进制格式的文件中,缺乏属性信息。由于cad数据模型缺乏对属性数据的支持,且空间数据不是存储在数据库中,所以给gis软件开发和gis数据共享都带来了难度。

2.2 coverage数据模型

随 1981年esri公司推出了它的第一个商用gis软件--arcinfo,由此产生了第二代地理数据模型--coverage数据模型(又称地理关系数据模型)。coverage数据模型对gis数据特征的表示有了较大的改进:首先它支持属性数据,将空间数据和属性数据有机地结合在一起;其次它还存储矢量数据的拓朴关系;更重要的是,它支持用户自己定制的特征表,因此coverage数据模型提高了gis的地理分析能力和数据录入的准确性。但也有其不足:在coverage数据模型中,空间数据和特征属性数据是分开存储的。空间数据作为一个整体被存储在二进制文件中,特征属性数据则用关系数据库来存储管理;其次,coverage也是用常用的点、线和多边形(po1ygon)来表示特征,对特征的表示不很充分。比如,用一条线表示道路的行为和用一条线表示河流的行为是一样的。它也不支持水流、道路和其它一些现实世界对象的特殊行为。比如,两条河流文汇后,其文汇点以下的河流流量应该是它们各自流量的总和。

3 解决思路之一——面向对象技术

随面向对象技术(object一oriented technology)的思想萌芽于60年代,到80年代初,以smalltalk一80语言为代表逐渐发展成熟,并在90年代大范围流行开来,在计算机用户界面、人工智能、软件工程等很多领域取得了极大的成功,把面向对象的数据建模 方法 应用于表示gis数据特征是非常有用的。面向对象的数据模型通过定义用户自己的对象类型,定义拓朴的、空间的和全局的联系,以及获取这些对象相互之间的关系等方法使用户能更 自然 的描述特征。结合面向对象 理论 的自身特性,其在gis数据模型中主要有以下几个方面的应用。

3.1 类(class)和对象(object)

随现实世界中都是把很多物体当作整体来看待的,在gis应用中也应该采用这种思想。在 gis数据建模和其他类似的领域中,也应当将对应于现实世界的各种实体抽象成对象,当作整体来处理;对象与对象之间可以交互;具有共同属性的多个对象抽象为类,对象可以保存自己的状态(属性)。由于对象与现实世界的实体对应,从而加强了gis数据模型的易理解性、可读性和可维护性。

3.2 封装(encapsulatico)

随对象的所有信息被隐藏封装起来;对象提供的一些服务,由外界通过向它发送消息来实现。gis在使用数据对象时隐藏了数据对象内部的细节,只提供了一个标准的程序接口。通过对对象状态的隐藏,增强了gis数据模型的稳固性和可维护性。

3.3 继承(inheritance)

随继承是指在定义一个对象类时能包含别的对象类的行为,并具有自己的扩增行为。对象可以继承父类的方法,亦即服务。在gis数据应用中,你能够在创建自己定义的特征类型时继承到标准特征的行为。例如,一个转换对象可以从一个标准的gis数据特征类中扩展得到。

3.4 多态(po1ymorphism)

随多态是指同一行为(方法或函数)可应用于许多不同的类,而每一类则以其独有的方式来执行此方法。例如,gis数据特征的核心行为如绘图、增加或删除等操作,不管是在geodatabase中还是在coverage中,或是在形状文件(shapefile)中,它们都几乎是相同的。但在具体实现时,各自的类须作相应的必要改变以进行具体的绘图、增加或删除等操作。通过继承和多态,大大增强了gis数据模型的可重用性,进而增加了gis数据的可交互性和可共享性。

4 面向对象技术在gis中的应用实例——geodatabase

随geodatabase数据模型是esri公司在arcinfo中推出的一种新型面向对象数据模型,即第三代数据模型。具目的是为了让用户能更容易、更自然地表示gis数据特征和更易建立特征之间的各种关系。geodatabase给用户提供了大量的实体对象模型(如河流、道路、建筑等),让用户摆脱了抽象的点、线、面模型:使用户的操作更加简便和接近现实世界。geodatabase除支持地理特征的一般行为外,还支持一些象cad数据模型和coverage数据模型所不能支持的特殊行为。例如,两条河流交汇,河水流量相加的行为(如图1所示);在一定范围内对某些行为的约束 问题 ,如学校附近建酒店在 法律 上是不允许的(如图2所示)。

4.1 geodatabase数据模型便于gis数据处理

随1)、数据录入和编辑更加精确由于对数据的录入和编辑大多数能被智能的检测行为所保护,所以差错甚少。

随2)、用户用更直党的数据对象工作通过适当的设计,一个geodatabase包含有符合用户数据模型的数据对象。用户用他们感兴趣的对象进行工作,例如电线、道路和湖泊,从而替代了通用的点、线、面。

随3)、特征具有了一个更字富的上下文由于有拓朴关联、空间表示和一般关系等原因,不但要定义特征的特性,而且还要有与其他特征相关的上下文。这样,当其中一个特征彼移动、修改或删除时,有助于说明整个特征集到底发生了什么。也可惜助这个上下文找出或检查与之相关联的另外一个特征。

随4)、能制作更好的地图能更多地控制绘制特征,也能增加智能的绘图行为。能把复杂的绘图方法直接应用到arclnfo的绘图应用程序中。通过编写软件代码还能执行高度专业化的绘图方法。

随5)、在地图上显示的特征是动态的当你在arcinfo中对特征进行处理时,这些特征能对邻接特征的改变做出相应的反应。你也能使特征与定制的查询或分析工具发生联系。

随6)、定义了更好的特征外形 geodatabase数据模型用直线、圆弧、椭圆弧和贝齐而(bezier)曲线来定义特征的外形。

随 7)、特征组是连续的通过设计,gerdatabase数据模型能容纳非常巨大的特征组而不需要其他的空间分区或块(tiles)。

随8)、许多用户能同时编辑地理数据geodatabase数据模型支持许多人能在本地区域编辑特征,然后将出现的任何差异处理成一致。

4.2 geodatabase对gis信息存储的具体实现

随一个geodatabase能容纳四种地理数据表示:表示特征的矢量数据,表示图像、栅格主题数据和表面的栅格数据,表示表面的tin(三角形不规则 网络 ),从一个地址中找到一个地理位置的定位器和地址。geodatabase将所有的这些地理数据表示存储在一个商业的关系数据库中。这就便于专业信息技术人员集中管理地理数据,也让arclnfo保持与数据库技术的 发展 同步。

随1)、用矢量表示特征世界上的许多特征都已经有了很好的外形定义。矢量数据用一组带有关联属性的有序坐标精确简洁地表示了这些特征外形。这种表示支持几何运算,例如: 计算 长度和面积,识别重叠和交叉,找到相邻的或附近的其他的特征等。

随矢量数据可以用维数进行分类:a. 点是零维的,它表示大小而不能用线或面来描述的地理特征,用单个调x,y坐标值来存储;b线是一维的,它表示太狭窄而不能用面来描述的地理特征,用一组有序的调x,y坐标值来存储。其形态可以是直的、圆的、椭圆的或曲线;c.面是二维的,它表示宽阔的地理特征。面用一组围绕面的线段来存储,这些线段构成一个封闭的面。另外一种矢量数据类型是标注,它用于显示相关特征的名字和属性的描述性符号。

随在geodatabase中,特征数据集(datasets)是矢量数据利用维数和关系直接存储特征的结构。一个特征数据集是存储空间实体(特征)、非空间实体(对象)和它们之间的关系的容器。拓朴关系用几何网络和平面图表示。geodatabase也存储一些有效的规则和域,当特征被创建或更新时用来确保它们的属性在与它们相关联的特征和对象的上下文中继续有效。

随2)、用栅格(raster)表示网格化(gridded)数据 收集在geodatabase中的许多数据都是栅格型的、这是因为摄影机和成象系统是以象素值的形式将数据记录在二维的网格(grid)或光棚中的。象素是组成栅格的基本单元,它的值能描述多种数据。象素能够为一部分光谱存储光的反射,为图象存储颜色值,以及存储主要属性,比如:植物类型,或表面值,或海拔高度等。

随3)、用tin表示表面一个tin就是一个表面模型。geodatabase在存储tin时将其作为一个带有高程值的节点和带有边的三角形的整体来对待。tin支持表面 分析 ,如:分水岭 研究 。在一个观测点看表面的可见性、表面特征的描述(如:山脉、河流和山峰)。tin还能描述 自然 地形的起伏。

随 4)、用定位器(locator)查找地址 geodatabase能存储定位器和地址。定位器是一种利用全国邮政协定将一个地址转换成位置的 方法 。你可以找到任意点在地图上相对应的点特征。

4.3 geodatabase对gis关系数据库的完善

随与标准的关系数据库相比,geodatabase简化了地理数据建模的工作,因为它包含有用于地理信息的通用模型。geodatabase用下列方式扩展数据库:

随1)、用四种方式表示地理数据:用矢量特征建模离散对象:用栅格特征建模连续对象;用tin建模表面:用定位器和地址建模位置索引。

随2)、存储特征外形,arclnfo还提供了执行空间操作的函数,如:查我对象之间是问隔的、接触的或交叉的。为定义和管理一套数据的地理坐标系统提供了一个框架。

随3)、能拓朴地建模一套完整的特征,例如运输或公用网络,以及基于自然资源或土地所有权的土地划分。除了清楚的拓朴关系和固有的空间关系外,geodatabase还能定义对象和特征之间的常规的和任意的关系。

随4)、通过域和检查规则,强制实现对象属性的整体约束性。

随5)、将自然的特征行为绑定在存储特征的表里。

随6)、能支持多种版本,以便众多用户编辑和索引同样的数据。

随 此外,geodatabase还同时支持对象视图和关系视图,能综合两者的优点。对象视图在geodabase中占据主导地位,其目的是提供一个接近于逻辑数据模型的数据模型、因而更接近于现实。关系视图则用于一些geodatabase数据的常规处理,它表示的是一些简单地理对象的特征。对象视图和关系视图的具体对应关系如图3所示。

4.4 geodatabase的设计步骤

随设计geodatabase与设计关系数据库之间的差别并不很大,主要的区别是考虑怎样将逻辑数据模型组件匹配到geodatabaee组件中。由于geodatabase具有特征数据集、特征类、拓朴组合、关系及其它组件,所以设计地理数据库时更接近于它们的逻辑数据模型。geodatabase设计的具体步骤如下(如图4):

随(1)建立用户数据视图模型确定用户界面,弄清组织结构和分析商业需求。

随(2)定义对象和关系用一组对象建立逻辑数据模型和它们与其它模型之间的相互关系。

随(3)选择地理表示在矢量、栅格、表面或定位器等表示中找出一种对有关数据的最佳表示。

随(4)匹配geodatabase组件 将逻辑数据模型的对象匹配到geodatabase组件中。

随(5)组织geodatabase的结构在考虑几何组织、拓朴关系和数据职能等情况下建立geodatabase的结构。

参考 文献

[1] esri公司 arclnfo8 文档《modeling our world》 1998

[2] 徐建春、赵英时等基于组件对象模型的gis校园地理信息系统国土资源遥感 1999(1)

[3]杜云艳、邵全琴等arc/info数据库设计中科院gis t点实验室1998(6)

大数据时代特征篇(4)

关键词:短信营业厅贝叶斯语义解析

用户通过短信等文本通信方式办理或取消通信业务,可以有效节约用户到短信营业厅办理的时间、提高用户的便捷性。但传统的短信营业厅不支持或只能部分支持模糊匹配功能,对于不支持模糊匹配功能的短信营业厅,通过将短信内容与业务库中预先设置的各业务映射的关键词集进行精确匹配,匹配成功则为用户办理相应的业务,如果匹配失败则向用户返回输入错误提示信息。而随着电信运营商对新业务的不断推广,业务种类和数量越来越多,导致用户办理业务需要记忆大量的业务指令,严重影响了用户使用电子渠道的便捷性,降低了用户使用体验,也抑制了用户对于新业务消费冲动。因此,有必要研究和建设一种基于用户上行短信的语义理解和业务匹配搜索系统,提高系统对用户交互指令的理解能力,并从中找到用户感兴趣的业务并推荐给用户办理,提高用户通过短信方式办理移动业务的便捷性。

1 搜索系统的实现思路

开发一套系统实现语义搜索功能,包括中文分词、语义解析和搜索、以及机器自学习等。系统采用算法将用户上行短信与上千种业务分类或其他数据进行关联,并将用户上行短信归入某一类或几类业务。通过对特征词的选取,以及每个特征词对业务搜索分类的贡献值进行筛选,将高于阀值的特征值作为联合概率计算的因子,业务匹配成功与否是通过一组特征词的关联度计算得到的,从而避免了关键字的嵌套交叉问题。同时随着用户的不断使用,有更多的上行数据提取特征,通过对特征指示性概率的反复迭代计算和训练测试,实现机器自学习成长的过程,从而实现对业务指令的同义词、近义词、错别字、生僻字等语义智能识别和业务搜索匹配。

朴素贝叶斯算法实现业务搜索:

贝叶斯分类算法是一种广泛应用的分类算法,应用于文本分类时,通过计算文本属于每个类别的概率P(cj|dx),将该文本归为概率最大的一类,计算P(cj|dx)时利用贝叶斯公式。朴素贝叶斯分类算法即Naive Bayesian,它建立在“贝叶斯假设”的基础之上:假设所有的特征之间互相独立。实际上,在生活中这种独立性很难存在,但从目前的实验结果看来,基于这个假设的简单贝叶斯分类算法的效果较好,而且计算简单。

针对每一个业务指令,建立一个对应的目标短信和非目标短信关键词的贝叶斯概率模型。其大体思想是,在已知的可以匹配到业务清单中服务指令的分类的短信(我们称为目标分类短信)中,通过一些关键词出现的频率来取得一个特征,可运用贝叶斯公式,生成一个“目标服务指令指示性概率”。

根据客户上行短信中所包含的一组词,可以用另一个简单的数学公式来确定文本短信的“整体目标概率”(combined probability),也称短信的特征联合概率。

算法说明:

选择贝叶斯算法的原因是由于该算法的优点在于:①实现简单;②贝叶斯模型能够自我纠正。

①特征指示概率的计算公式为:pi(w)=

式中,pi(w)是第i个分类业务征词w的特征指示概率;bi(w)是第i个分类业务征词w的目标概率;gi(w)是第i个分类业务征词w的非目标概率。

②目标概率计算公式为:bi(w)=

式中,DFi(w)为第i个分类业务中含有特征w的目标分类文本数量;Ni为第i个分类业务中总的目标分类文本数量。

③非目标概率计算公式为:gi(w)=

式中,DFj(w)为第j个分类业务中含有特征w的文本数量;Nj为第j个分类业务中总的目标分类文本数量;n为总的分类业务数量。

④特征概率计算公式为:fι(w)=

式中,m为含特征w的文本数量;s、x为预先设置的常量。

⑤联合概率的计算公式为:

pK(Mi)=

式中,pk()为文本的联合概率;Mi为第i个文本;f(wij)为第i个文本中的第j个特征词的特征概率;K为第i个文本包含的特征词数量。

通过以上算法,获取用户发送短信中包含的特征词,并通过特征词找到各业务对应的特征概率,计算短信对应业务的联合概率,找出超过设置阀值的对应业务,输出给短信营业厅执行相应业务受理流程,从而完成业务搜索。

2 短信营业厅搜索系统的开发与实现

2.1 系统功能架构说明

系统功能体系结构图:

短信营业厅搜索系统的实现基础是一种基于文本的搜索方法。根据用户的功能需求,将基于文本的搜索方法设计为基础的服务引擎。该服务引擎的用途是从一段(自然语言)文本中寻找出满足要求的与之相匹配的若干关键字。关键字代表了序列的应用,如短信营业厅的业务关键字、知识库中的知识点关键字、营销活动中的活动关键字等。文本智能搜索服务引擎定位为基础、通用、便于扩展的核心服务引擎。

文本智能搜索服务引擎的应用图示:

如右图所示,短信营业厅智能搜索服务引擎为扩展引擎,用于实现短信营业厅相关业务的处理。采用文本智能搜索服务引擎实现搜索服务的独立性、可扩展性。便于开展其他业务应用的处理和分析。

2.2 系统分布式运行技术 系统采用分布式的体系结构来实现系统的各项维护功能,系统是三层或多层的B/S应用系统,把能够执行特定企业功能的企业应用逻辑代码封装成应用企业对象并到应用服务器中,以供WEB服务器和浏览器调用。

2.3 系统数据单元

2.3.1 系统特征库 系统特征库是系统保存的特征词组组合,其中保存的特征词组是已经与系统业务数据库进行了关联的特征词组组合,用来提供与自然语句所生成的关键词组进行对比的依据,系统特征库是可以进行扩充的,可以通过手工加入的方式进行加入,也可以通过词组迭代库中出现次数达到一定数量后自动提示用户关联后加入。

2.3.2 系统业务数据库 系统业务数据库保存系统中所有开办的业务。系统业务数据库中业务与系统特征库中的特征词组组合进行直接关联,系统业务数据库完全由用户进行维护,当某一业务删除后对应系统特征库中的关联特征词组将被删除。

2.3.3 词组迭代库 词组迭代库将保存系统中所有未能成功匹配的特征词组。当某词组在词组迭代库出现次数达到一定数量后将提示用户将该语句关联后加入系统特征库中。当某词组由词组迭代库中关联进入系统特征库后,系统自动删除词组迭代库中类似词组,如果用户认为该词组无法进行有效匹配即该词组为无效数据系统也将自动删除词组迭代库中类似词组。

2.4 系统功能说明及技术参考

语义智能分析引擎结构:

2.4.1 应用接口 提供系统与短信营业厅的数据交互接口。输入接口将通过web service接口获取待分析文字内容,输出接口将通过web service接口将分析结果传递给指定系统接口。

2.4.2 自动分词功能 将自然语句进入智能分析系统后,系统先通过中英文分词插件将自然语句分割为多个词组,此时的词组中应该有多个对于进行特征分析毫无作用的词组。如自然语句‘我有点想开通彩信功能’分割后应为“我”、“有点”、“想”、“开通”、“彩”、“信”、“功能”。其中“我”、“有点”对于特征分析毫无作用。系统通过辨别词语类型的方式将动词和名词以外的词组剔除掉,留下“想”、“开通”、“彩”、“信”、“功能”,是该自然语句的关键特征词组。

2.4.3 倾向性特征标准库 根据用户的不同身份,判读词组特征的权值也会有所不同,如全球通用户在长途业务的权值会较高,而动感地带的用户的判读权值会倾向于彩铃和彩信。倾向性特征标准库中的匹配标准会根据用户的身份给予一定的加权值。倾向性特征标准库中的特征加权值需要由系统用户进行管理,系统将提供维护界面以及数据导入功能。

2.4.4 特征库构建 短信提取:对短信的解码提取短信信息,包括对测试集短信的提取和训练集短信的提取。

去停用词:实际应用时,文本中的很多词与内容无关,例如“可是”、“那么”等。这些与内容无关的词,称作功能词,在进行分类前,需要将其去除。另外,一些出现频率过高的词,例如“我们”、“人家”等,对于分类也没有太大的贡献。将功能词和出现频率过高的词统称为停用词,它们只在文本中起辅助作用,因此,为减小短信特征向量的维数,提高过滤的性能,可以将它们删除掉。为了后面的特征选取工作,本文将与分类关系不大的停用词也事先作了依次剔除。

特征提取:将由训练集或者测试集中的短信进行分词,进行特征提取。特征提取是利用分词技术对短信或者投诉内容进行词汇拆分后,使用信息增益选取文本中的特征词,把从文本中提取的特征串,计算其匹配某个业务分类的概率,再用放入特征库中来进行储存;在测试集中,提取文本的特征,交给下个环节处理。

2.4.5 概率计算 计算联合概率是用来辨别两个词组之间的相似程度,相似程度越高则概率越高,概率达到一定标准后即认为的同义词组。进行计算概率将首先从系统特征库中提取特征词组1例如“开通彩信”,然后与前一步生成的关键特征词组进行概率计算。

①当概率计算到达匹配标准,则认为找到了有效的匹配结果,通过特征词组1找到在系统业务数据库中的对应业务,将该业务信息输出给应用层程序接口。

②当概率计算未能到达匹配标准,查找下一条特征词组然后重复1操作。

③当已经完成对特征库中所有特征词组的概率计算依然未能找到任何的有效匹配结果,则认为该关键特征词组没有对应业务。系统返回未找到匹配结果,并将该关键特征词组加入至词组迭代库中。

④模式匹配

接受特征提取中的信息,根据规则数据库中的规则,按照某种相似度计算算法计算信息与实际需求的相关性,在达到一定的阀值后,输出过滤的结果。

信息表示:提供对过滤后的短信的浏览,以及对过滤效果的评价。

以上过程主要应用于训练器训练各个分类及特征的对应关系建立过程,即特征库的建立过程。

模式匹配阶段分为两个阶段:训练和测试。

训练阶段主要是训练规则库,提取目标短信(文本)和其他分类短信(文本)的特征;主要步骤如下:

测试阶段是利用已训练完成的规则库,对短信进行判断。并向用户提交结果。

对于新的短信,先进行分词,提取短信的特征,通常是最能代表短信内容的若干个特征,通过计算这条新短信的联合概率。如果短信的联合概率超过某个阀值,就判此短信为目标分类的短信,其他的为其他分类,然后再进入下一个目标分类的判断。在建立分类和文本训练的过程中,建立了短信与业务的联系,通过对后验概率的不断求解和反复迭代,使得系统具备近义词和同义词匹配功能,同时也具备了一定的纠错能力。

根据贝叶斯公式,按照短信营业厅具体不同业务进行分类,目的是将用户上行短信归到具体某一项或某几项分类中。此处假设Bi(i=1…N),此处A代表用户上行的短信进行中文分词后得到的特征值,Bi代表某一项业务,其业务指令有,我们的目的就是求出短信A归入某一分类Bi的概率P(Bi|A),根据以下贝叶斯公式:

P(Bi|A)=■=■=■■P(■),其中P(ABi)可以求出,故P(Bi|A)是可知的。同时选定P(Bi|A)值最大的或超过设定阀值的作为有效匹配项,将其在Bi分类中未出现的特征值加入预处理库中,再由系统管理员决定是否需要将特征值作为业务的指令项。

2.4.6 智能学习 系统特征库是匹配成功率的依据,越完善的系统特征库将具有越高的匹配成功率,所以系统特征库的自动维护是系统具有学习功能的根据。当某词组在词组迭代库出现次数达到一定数量后将提示用户将该语句关联后加入系统特征库中。当某词组由词组迭代库中关联进入系统特征库后,系统自动删除词组迭代库中类似词组,如果用户认为该词组无法进行有效匹配即该词组为无效数据系统也将自动删除词组迭代库中类似词组。

3 结束语

本文采用方式,经过实践证明不失为当前一种切实可行的用户交互语义解析及业务搜索办理的解决方案。本系统采用基于多重迭代贝叶斯算法对输入短信文本进行分类过滤的新型算法,其适用范围相比关键字匹配或其他同类算法更广,同时也实现了系统自学习提高的训练迭代过程,从而随着系统不断使用和反复训练,其对用户与系统交互过程中的自然语言理解能力将逐渐提高,业务搜索范围将不断扩大,业务搜索命中率也会得到改善,从而达到事半功倍的效果。

参考文献:

[1]李宝敏,张娜.基于领域本体的语义智能检索研究,西安工业大学计算机学院2007.12.

[2]顾德访.语义Web环境下基于ontology的语义检索应用研究,2005.

[3]曹志松,曹文君.基于语义Web实理有效Web信息检索的研究,复旦大学学报,2004.06.

[4]李健康.专业化的语义智能搜索引擎GoPubMed,南方医科大学图书馆,2009.12.

[5]刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤,计算机与信息技术系,2004.7.

[6]宋雯斐,王洋.自然语言检索中的概念语义控制,黑龙江科技学院计算机与信息工程学院,2011.2.

[7]徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制,大连理工大学,2007.1.

[8]程显毅,杨天明,朱倩,蔡月红.基于语义倾向性的文本过滤研究,江苏大学,2009.12.

[9]何伟业.短信营业厅的设计与实现,北京邮电大学,2007.

大数据时代特征篇(5)

关键词:大数据时代;大数据征信;征信行业;信用评级

中图分类号:F832 文献标志码:A 文章编号:1673-291X(2015)27-0076-02

一、个人征信是大数据时代个人数字的“身份证”

互联网技术快速发展和大规模应用,特别是在大数据时代,全球经济一体化加速信用的数据标准化,由此个人信用评级成为大数据时代金融活动的身份证,大数据征信也是未来征信的发展趋势。

“大数据征信”其直接表现就是采集数据的维度已经突破了传统的“金融属性”,从仅收集借贷人的金融信息,扩展到借贷人的生活信息,如社交数据、电商数据、生活服务数据等不具有金融属性、缺乏验证性、弱相关的互联网全网大数据。

二、个人征信是大数据金融的“敲门砖”

传统的个人借贷行为的风险无法得到很好的评估,商业银行或者信贷机构对借贷者的还款能力和资金使用缺乏整理把控和综合了解。通常来说,信誉较差的借贷者还款期限和还款金额得不到保证,这样导致整个资金融通过程不可持续,而且导致这个融资环境恶化。形势就要求个人征信有精确的、权威的、量化的、具体的数值来表征其高低。没有量化、准确的信用评级,个人数字金融业务难以正常开展。

大数据时代下个人征信消融了“钢筋和水泥”的信息来源的间隙,决定着个人线下经济的正常表现,能够获得了较好的信用评级就等于拿到了线上金融的“敲门砖”,首先,优秀的个人征信分值将为其网上业务办理和消费额度提供信誉支持和保证;其次,个人征信分值的高低与监管息息相关。在金融监管方面,个人征信分值与借贷人的透支范围和透支渠道直接联系,决定自然信用人的资本供给能力,将个人征信与金融业务整合起来的大数据时代,通过对个人在线上和线下经济消费能力和消费偏好,为金融监管部门提供分析数据,大数据汇总、整理、挖掘、创新、再利用能够对表征个人数字金融健康程度,为银行信贷部门和其他金融机构提供数据参考。

三、大数据时代我国个人征信业面临的严峻挑战

(一)互联网企业跨界个人信用评级业

传统电商企业经过长时间的发展,积累了大量、复杂、分散、多样的客户交易数据,数据背后其实是现实社会中的人与人关系网络的数据化表现形式,通过对数据的分析和重组,挖掘出数据背后信用数据,互联网金融的核心要素是从海量、复杂的数据中分析出具有金融属性的数据,数据分析和整合、应用是互联网企业先天的优势所在,互联网企业跨界个人信用评级业也是时展的需要。

(二)大数据技术倒逼个人信用评级业务改革

大数据具大量、多样、高速、价值等特点,将从以下三方面改革信用评级业务:

一是基于全样本数据,评级结果精准。大数据的特性之一就是数据量增长极快、结构复杂多样、时效强等特征的数据。截至2015年3月份,阿里巴巴和淘宝及其他电子商务平台上庞大的客户群体在线进行交易,实时产生大量交易数据,交易数据中隐藏着的个人信用参考数据,是个人信用评级分析赖以生存的基础数据 。

二是信用评价指标体系多元化。在传统金融信贷业务中,个人薪水、账户现金流、以往的信贷记录等所能提供给银行的信息有限,借贷双方都存在着严重的信息不对称。大数据时代,可以从个人社交网络资讯、消费偏好等长期、稳定、动态的信息,预测和量化借方的风险指数。这些“非金融属性”数据可以间接丰满和丰富借款人的个人信息,从源头上把握贷款风险,提高信贷业务效率和满意度。蚂蚁金服的“芝麻信用”分值背后是芝麻信用对海量信息数据的综合处理和全盘评估。大数据技术将会导致能够利用的信用评级数据类型更加丰富多样,对传统信用评级方法产生巨大冲击。

三是信用评价动态、量化。大数据技术对客户交易数据实时在线的监控,及时预测和察觉不正常情况的发生,减少或者避免信贷业务中坏账发生率,从而实现信贷业务有序、良性、健康的发展。同时,从宏观经济学的角度看,通过对微观金融实体经济的探查,可以做到预测宏观经济形势的走向,进而从根本上缩短信用评业务的周期性。

由以上可知,大数据技术将从根本上改善信用评级结果产生流程,评级结果的公布更加及时和准确,大大缩短评级结果审核所需的时间,使个人评级结果在社会上更具公信力。

四、大数据时展我国个人征信的政策建议

(一)推动信用大数据标准统一与类型多样并重

数据能够得以广泛应用是以数据标准化为基本前提。《大数据白皮书》指出在大数据时代,海量数据存在很强的异构性和极大的复杂性,表现在:数据类型从以结构化数据为主,向结构化、半结构化、非结构化三者融合;数据利用者的多层次需求导致数据源在深度、广度发生了根本性的变化;数据在线存储技术和云端存储设备的变化,大量繁杂、无序的数据需要新的存储方式和分析方式,才能应对大数据的异构性带来的数据收集、数据存储和数据分析、数据应用的窘境。信用大数据在征信平台从最初的流入到最后的流出,一方面要做到数据规范格式标准统一,做到数据管理精细化、统一化;另一方面要在尽可能保留数据本来意义的情况下,降噪和取精、保持数据的多样性。同时,必须统一征信数据系统数据接入的标准规则,传播数据,共享数据、应用数据。

(二)大数据利用与隐私保护并举

首先,中央政府从宏观层面制定信息产业发展政策和指导意见,积极鼓励传统金融服务机构和互联网新兴金融机构通力合作,做到互联网技术分析人才和金融创新人才有序合理流动。其次,大规模应用大数据技术伴随着个人隐私保护。要做到大数据利用与隐私保护并举:一方面要建立多层次、宽领域、精细化的征信法律法规体系。对个人隐私保护的相关法律比较缺乏,特别在互联网、大数据时代更是缺乏对隐私保护的相应法律。另一方面,从技术行层面来加强保护。各项技术的不断发展,监管体系和机构也要适应时代的发展要求积极进行创新,协同行内金融专家设立行业技术标准和基本操作规范,从源头杜绝隐私数据被采集和上传,隐私保护需要监管部门和行业齐抓共管。

(三)完善个人征信业的监管体系

大数据时代来临,监管机构要考虑个人征信的特点和性质,同时结合大数据技术的方法,切实改进服务理念,由单纯的行业监管者向行业服务者转变。政府部门还需要从制度设计方面,来规范和引导个人征信市场的健康发展。同时,国家对隐私法律的制定和实施需要与大数据技术同步。避免在保护个人隐私上与社会实际情况脱节;隐私相关法律和技术行业规范及顶层制度设计,互相促进、互相发展、三者融为一体,共同完善我国个人征信业的监管体系。

(四)建立统一征信平台

为全面、客观、准确反映信用主体信用评级状况,必须在全国范围内建立互联互通的统一征信平台。一是要健全信用信息共建共享合作机制,统筹利用现有信用信息系统基础设施,依法推进各信用信息系统的互联互通和信用信息的交换共享,逐步纳入金融、工商登记、税收缴纳、社保缴费、交通违章等信用信息,形成覆盖全部信用主体、所有信用信息类别、全国所有区域的信用信息网络。二是在互联网征信领域,建议成立全国性互联网金融行业协会,由协会负责研究建立全国性互联网金融行业征信系统,制定行业征信标准,统一数据采集、信用报告格式规范、征信服务等关键标准的内容,并通过互联网金融行业发展实践修订完善标准体系,互联网金融率先实现征平台统一。

参考文献:

[1] 张雅婷.大数据征信时代来临[J].金融博览:财富版,2015,(2).

[2] 章向东,钟为亚.大数据时代我国信用评级业重构研究[J].湖南师范大学社会科学学报,2014,(11).

[3] 卢芮欣.大数据时代中国征信的机遇与挑战[J].金融理论与实践,2015,(2).

大数据时代特征篇(6)

关键词:遗传算法;BP神经网络;乳腺肿瘤;计算机辅助诊断

DOIDOI:10.11907/rjdk.161973

中图分类号:TP319

文献标识码:A 文章编号文章编号:16727800(2016)011014404

0 引言

乳腺癌作为全球女性中最为频发的恶性肿瘤疾病和癌症死亡的首要原因,严重危害女性身心健康。近年来,我国乳腺癌的发病率和死亡率逐年上升,且呈明显的年轻化趋势。乳腺癌在初期常无明显临床症状,或仅表征为轻微的疼痛[1]。迄今为止,乳腺癌发病的确切原因还未找到,尽管环境、遗传因素和生活方式是造成乳腺癌的主要因素,但60%以上的乳腺癌患者身上并不存在这些明显的危险因素[2]。因此,早发现、早诊断仍是当前提高乳腺癌治愈率和降低死亡率最有效的途径[3]。

肿瘤作为乳腺癌的直接病理征象和主要诊断依据,大约90%的乳腺癌患者在X影像上有清晰的肿瘤征象。由于X线是一种无创、微辐射的检查方法,检查费用低,而且对肿瘤与钙化比较敏感,因此X线乳腺图像已经成为检测乳腺癌的黄金标准,通过它来检测乳腺异常是预防乳腺癌的重要方法之一[4]。随着医学影像学和计算机辅助诊断技术的发展,基于X线乳腺图像的CAD系统得到了广泛应用,但是不同CAD系统的诊断效果也由系统自身决定[5]。2013年,Marc Lobbes比较了两个CAD系统(Second Look 和 AccuDetect Galileo)的病灶检测能力,并分析了326份病例,结果显示,AccuDetect Galileo在检测肿瘤与微钙化(尤其是针对致密性乳腺)时效果更佳[6]。目前,针对X线图像的乳腺肿瘤辅助诊断算法主要分为图像增强、肿瘤分割、特征提取和优化,以及良恶性肿瘤识别4部分。

近年来,随着BP神经网络理论的完善和成熟,在计算机辅助诊断领域得到了广泛应用。由于BP神经网络具有强大的非线性映射能力,在使用乳腺肿瘤病灶组织图像时,建立基于神经网络的乳腺肿瘤辅助诊断方法模型,不仅能够提高乳腺癌的诊断准确率,而且可以为临床医生提供帮助。但是BP神经网络在进行辅助诊断建模时,会因其输入特征的多维性而造成模型精度低、建模时间长等问题。所以,本文提出了基于遗传算法―BP神经网络的乳腺肿瘤CAD方法。首先,提取乳腺肿瘤ROI的几何特征、形状特征、灰度特征、纹理特征、频率特征和边缘特征79维;然后用遗传算法(GA)对提取的特征进行约简,去除冗余特征后选择最能体现肿瘤良恶性的特征组合17维;最后基于GA-BP神经网络模型进行乳腺肿瘤良恶性分类,探讨GA-BP模型在乳腺肿瘤分类识别中的性能。

1 基础知识

1.1 遗传算法

遗传算法(Genetic Algorithm,GA)是模拟达尔文生物进化论的自然淘汰与遗传选择生物进化过程的一种计算模型。其核心思想源于适者生存的自然选择规律,具有“生存+检测”的迭代过程。它将所要解决的问题解空间映射到遗传空间,再对解空间进行编码。一般用一串“1、0”数字串表示每个可能的解,并将该解称为一个染色体,解的每一个分量称为一个基因。在算法开始时,先随机选择一群染色体作为候选解,用预先设定好的评价指标计算每个染色体的适应值,并淘汰适应度较低的染色体,保留适应度高的优良染色体,然后对这些染色体进行选择复制、交叉和变异等操作,如此进行一代一代的“进化”,直到找到算法的最优解。

遗传算法相对于一些传统的优化算法,优点表现在:①遗传算法在搜索过程中不易陷入局部最优,能以很大概率找到整体最优解,具有良好的适应性与鲁棒性,是一种经典的全局最优化算法;②遗传算法具有隐含并行性,运算效率高,适用于大规模的并行计算机。然而,遗传算法的缺点表现在易早熟、局部收敛性差等。

1.2 BP神经网络

BP网络[7]的拓扑结构由输入层、隐含层和输出层组成。图1为一个典型的三层BP神经网络结构图,层与层之间采用全连接方式,同一层之间不存在相互连接,隐含层包括一层或多层。

2 本文算法

本文首先对乳腺肿瘤图像进行分割,提取ROI区域,其次提取几何特征、形状特征、灰度特征、纹理特征、频率特征和边缘特征共79维,然后采用遗传算法进行特征选择,选择17维特征用于BP神经网络的计算机辅助诊断,从而识别乳腺肿瘤的良恶性,最后基于GA-BP神经网络的辅助诊断模型为临床提供参考意见。

2.1 基于遗传算法的特征选择

基于BP神经网络的遗传算法优化辅助诊断,是使用遗传算法选择BP神经网络的最佳输入特征,优化后的BP神经网络能够更好地识别乳腺肿瘤的良恶性并减少建模时间,以提高辅助诊断效果。利用遗传算法选择特征,必须经过输入变量编码、初始种群产生、适应度计算、交叉变异选择、优化结果输出等过程[8]。本文GA优化变量的主要步骤如下:(1)输入变量编码。本文首次提取的特征有79维,经GA选择17维特征作为BP神经网络的输入,即输入变量为17个,个体的每个基因只能取“1”和“0”两种情况,1表示输入变量参与建模,0表示输入变量不参与建模。(2)初始种群产生。随机产生20个初始个体组合作为一个种群,遗传算法以这20个个体作为初始点进行迭代。(3)适应度计算。本文选取测试集数据误差平方和的倒数作为适应度函数,对每个个体进行训练和预测,如式(1)所示。

式(1)中,T′={t′1,t′2,…,t′n}为测试集的预测集,T={t1,t2,…,tn}为测试集的期望集,n为测试集的样本数目。(4)选择交叉变异。选择操作使用比例选择算子,计算出所有个体的适应度和各个个体的相对适应度,作为该个体被选中并遗传到下一代的概率。变异操作一般采用单点变异算子,随机产生一个变异点,改变其基因上的基因值,经过一轮选择交叉变异,又可以产生新的适应度更高的种群。(5)优化结果输出。经过一代代的迭代优化,当满足迭代终止条件时,输出的末代种群对应的便是问题最优解,即经过选择后的特征。

2.2 BP神经网络模型建立

2.2.1 模型拓扑结构设置

BP神经网络的拓扑结构由输入层、隐含层和输出层3部分组成,本文将特征数据作为网络输入,乳腺肿瘤的良恶性类别作为神经网络输出,从而构建基于BP神经网络的乳腺肿瘤辅助诊断模型。

(1)隐含层层数:本文考虑到基于BP神经网络的乳腺肿瘤辅助诊断模型的输入和输出规模较小,选用一层隐含层。

(2)隐含层节点个数:本文采用初始隐含层节点范围公式计算隐含层数目。其中,s表示隐含层节点数目,m表示输入层节点数目,n表示输出层节点数目,a是1~10之间的整数。本文设定隐含层数目为10。

2.2.2 模型重要参数设置

要建立一个BP网络,除了对隐含层层数和节点个数的设置,还需要对BP神经网络训练函数、节点传递函数、误差界值、学习率等参数进行初步设置。本文选择系统默认的Levenberg-Marquardt优化算法作为BP神经网络的训练函数[9];初步设置BP神经网络默认的节点传递函数tansig为隐含层节点传递函数;网络需要输出的值是线性具体值,所以网络输出层的节点传递函数初步选择purelin;误差界值设置为0.01,既足以满足网络的精度要求,又可以保证网络收敛速度;学习率初步设置为0.1,既能避免学习率过大造成的网络不收敛,又避免学习率过小造成的时间复杂度高。具体设置如表1所示。

3 算法仿真实验

实验数据:本研究中的乳腺肿瘤病例样本数据来自于DDSM机器学习数据库。选取555例乳腺瘤数据样本作为实验数据,其中包括344例良性乳腺肿瘤数据,211例恶性乳腺肿瘤数据。

实验环境如下:操作平台为Windows7操作系统,仿真平台为MATLAB 2012图像处理软件,硬件环境为4G内存、750G硬盘、i5-3230M处理器。

3.1 图像分割

首先从555例实验图像中提取ROI,图3为5例良性乳腺肿瘤图像与5例恶性乳腺肿瘤图像以及经过图像分割处理后的ROI。

3.2 特征提取

针对3.1节分割后的555个ROI进行特征提取,提取到的特征有79维,基于不变矩的形状特征为:R1、R2、R3、R4、R5、R6、R7;基于图像内容的几何特征为:周长、面积、圆形度、矩形度、伸长度、紧致度、欧拉数;基于灰度直方图的灰度特征为:平均灰度、一致性(标准差)、灰度波动、倾斜度、峰度、梯度能量;基于灰度共生矩阵的纹理特征为:能量、熵、惯性矩、相关性、逆差距、方差、和的均值、和熵、差熵、和的方差、差分方差、相关信息度量(f12,f13)、最大相关系数;频率特征为空间频率;边缘特征为:边缘锐度、边缘平均梯度,具体特征见表2。

3.3 基于遗传算法的特征选择实验

实验数据使用在3.2节实验中所得的555幅图像的79维特征数据。按照遗传算法特征选择的步骤进行仿真,随着进化代数不断增加,群体适应度越来越高,也即预测值与期望值之间的误差越来越小,群体整体表现越来越好。当迭代次数达到设定的最大迭代次数时,终止进化,并输出该种群中适应度最好的个体对应输入变量的基因编号。它们分别是:1,4,8,9,10,12,14,15,17,18,19,22,23,24,25,26,28,即选择后输入特征是:基于不变矩的1阶、4阶等2个矩特征;基于灰度直方图的平均灰度、一致性、灰度波动、峰度等4个灰度特征;基于图像内容的周长、面积、矩形度、伸长度、紧致度等5个灰度特征;边缘锐度、边缘平均梯度等2个边缘特征;基于灰度共生矩阵(0°方向)的能量、熵、惯性矩、逆差距4个纹理特征,共17维特征,具体见表3。即经过遗传算法的选择,确定该17维特征参与下一步的辅助诊断仿真。

3.4 基于BP的乳腺肿瘤辅助诊断实验

实验数据使用在3.3节实验中所得的555例图像的17维特征数据。BP神经网络的输入是17维特征数据,期望输出是良性乳腺瘤和恶性乳腺瘤两个类别,通过仿真实验来检验只含有选择后的特征输入的BP网络性能。网络的期望输出值只能取1或2作为己标记的良恶性乳腺肿瘤分类。网络的预测输出值大于0.5且小于等于1.5,则视为良性乳腺瘤;如果该值大于1.5且小于等于2.5,则视为恶性乳腺瘤。

将555份样本数据随机排序并编号后,采用5-折交叉法将其分为5组,其中1~111号为第1组、112~222号为第2组、223~333号为第3组、334~444号为第4组、445~555号为第5组。每次实验使用的训练样本数据和测试样本数据如表4所示。5次仿真实验的结果迭代次数、建模时间和识别率如表5所示。

由表5可知,本文模型的平均迭代次数为8.6次,乳腺肿瘤辅助诊断准确率的平均值为96.756 76%,并且每次仿真的迭代次数和准确率非常接近。在仿真过程中发现,建模时间基本在2s左右,建模速度较快。总之,在进行辅助诊断时,输入特征的维数应根据需要筛选核特征,去除无关冗余信息,不仅能提高网络性能,也会降低时间复杂度。

在第5次仿真实验中,良性肿瘤64例,恶性肿瘤47例,训练样本共111例。其中良性肿瘤确诊63例,误诊1例,良性肿瘤检测率为98.44%;恶性肿瘤确诊45例,误诊2例,恶性肿瘤检测率为95.74%。总检测样本111例,确诊108例,误诊3例,检测准确率为97.30%。仿真实验预测结果如图4~图6所示。图4为预测结果图,图5为线性回归曲线图,图6为均方误差收敛图。

4 结语

本文在BP神经网络与乳腺肿瘤辅助诊断方法的基础上,利用遗传算法对BP神经网络所需的特征进行选择,优化了BP神经网络辅助诊断模型,从而提高了模型整体性能。首先使用遗传算法对BP神经网络的输入特征进行提取,然后选择17维有效特征用于BP神经网络模型建模。仿真实验结果表明,基于GA特征选择的BP神经网络模型对乳腺瘤的诊断准确率达到96.76%,在减少输入特征的情况下,建模时间更少,识别率更高。因此,基于遗传算法―BP神经网络的乳腺肿瘤辅助诊断模型取得了良好的诊断效果。

参考文献:

[1] 胡永升.现代乳腺影像诊断学[M].北京:科学出版社,2001.

[2] 刘君,方志沂.乳腺癌的早期诊断[J].中国全科医学,2002,5(6):431432.

[3] 郝欣,曹颖,夏顺仁.基于医学图像内容检索的计算机辅助乳腺x线影像诊断技术[J].中国生物医学工程学报,2009,28(6):922930.

[4] AFSANEH JALALIAN,SYAMSIAH B T MASHOHOR, HAJJAH ROZI MAHMUD,et puteraided detection/diagnosis of breast cancer in mammography and ultrasound:a review[J].Clinical Imaging,2013,37(3):420426.

[5] C DROMAIN,B BOYER,R FERRE,et putedaided diagnosis (CAD) in the detection of breast cancer[J].European Journal of Radiology,2013,82(3):417423.

[6] MARC LOBBES,MARJOLEIN SMIDT,KRISTIEN KEYMEULEN,et al.Malignant lesions on mammography:accuracy of two different computeraided detection systems[J].Clinical Imaging,2013,37(2):283288.

[7] XIA C,YANG Z,LEI B,et al.SCG and LM improved BP neural network loadforecasting and programming network parameter settings and data preprocessing[C].2012 International Conference on Computer Science & Service System (CSSS),IEEE,2012:3842.

大数据时代特征篇(7)

【关键词】图像匹配 RANSAC算法 视差梯度约束

1 引言

我们知道,图像拼接的过程一般分为三个步骤:图像预处理(特征提取)、图像配准以及图像融合。其中,图像配准是图像拼接过程中的核心内容。通过相似性度量准则找到匹配的特征点对,然后通过匹配的特征点对求解图像之间的变换矩阵,使图像的内容在拓扑和几何上对齐,最终完成D像的拼接。

如今,在图像配准领域常用的的方法有:像素差平方和法、互相关法和RANSAC算法。本文主要对RANSAC法进行相应的研究和改进。在使用RANSAC法对粗匹配的特征角点进行提纯时,由于伪匹配特征点的存在,算法在变换模型计算和检验上花费了大量的时间。本文通过在计算变换模型前增加基于视差梯度约束的预检测过程,筛选掉伪匹配特征点,再进行模型计算和检验,大大提高了图像配准效率。

2 图像配准技术

欲将两幅图像进行无缝拼接,需要求出两幅图像之间的几何对应关系,包括平移、旋转、缩放等。两幅图像A和A1的一般变换模型可表示为:

求解变换模型,就是求解变换矩阵的参数λ0……λ7。在求解过程中需要一定数量的精确匹配点对,这与图像拼接的最终结果密切相关。图像的拼接效果取决于变换矩阵参数估计的精确度,而参数估计的关键在于获取精确匹配的特征点对。在特征点匹配过程中获得的“匹配特征点集合”往往存在一定数量的伪匹配特征点,即在第一幅图像中的某个特征点会对应于第二个图像中的多个特征点。为了获得更精确的匹配特征点对,人们通常用RANSAC算法对匹配特征点进行提纯。

3 RANSAC算法简介

RANSAC算法(随机抽样一致性算法)是一种非常有效的估计算法,如果精确的数据占大多数,伪匹配点对只是少量时,可以用最小二乘法来求解模型的参数和误差;如果伪匹配点对很多,如伪匹配点对的数目超过了50%,最小二乘法就不适用了,而RANSAC算法却可以求解。

3.1 RANSAC算法思想

在模型参数的求解过程中,伪匹配点对的存在是造成结果出现偏差的重要原因,为了提高结果的准确度,需要从原始数据中提取出一组不包含伪匹配点对的数据样本进行模型参数求解,而这需要遍历数据的不同组合,计算量太大。RANSAC算法认为在一定置信概率下,只需要搜索M组抽样(M足够大),就可以认为这组抽样中至少有一组抽样不包含伪匹配点对,利用找出的这组抽样数据来求解出模型的参数,然后将参数代入模型作为假设模型,对其它原始数据进行筛选,筛选掉偏差大的特征点,用保留的精确匹配特征点再次求解模型,得到精确的参数。

3.2 RANSAC算法的具体步骤

(1)计算抽样数量M

P=1-(1-(1-ε)m)M

P:置信概率;ε:数据错误率;m:求解模型参数需要的最小数据量

(2)从原始数据中随机抽取m个数据组成一个抽样,将抽样点数据代入方程,求解模型参数;

(3)将上一步求出的参数代入模型,用这个假设模型来筛选原始数据,去除偏差较大的数据,获得精确匹配点对;重复(2)、(3)步,将M组抽样数据都做相同的处理;

(4)根据每组抽样获得的精确匹配点对的数量和误差方差的大小,选择最优的抽样及抽样数据所对应的模型参数;

(5)用这个最优模型筛选掉原始数据中偏差大的点,用剩下的精确匹配点计算最终的模型参数。

3.3 RANSAC算法评价

当M很大时,RANSAC算法的计算量也会很大,其中包含了大量计算伪匹配点对所对应的参数,做了许多无用功。下面我们将从减少计算错误的参数方面对RANSAC算法进行改进。

4 基于视差梯度约束的RANSAC算法

若要使用RANSAC算法来提纯原数据中粗匹配的特征角点,由于可能会存在一定数量的伪匹配点,所以在实际的匹配过程中会在计算错误的模型参数和检验上浪费大量时间。针对这一不足,我们在计算变换模型前额外增加了一个预检验过程,先检验所选的抽样中是否有伪匹配点对的存在。若没有伪匹配点对,再开始进行模型计算和检验,否则,重新抽样。

根据视差梯度的定义,若当前图像中两个相邻角点m、n分别匹配于另一幅图像中的角点m1和n1,它们计算得出的视差梯度应该小于2。如果经计算,它们视差梯度大于2,则我们可以认为这两对角点并不十分匹配。视差梯度的公式为:

其中,(n1,m)和(n1,n)是对应角点的图像坐标向量,||p||表示向量p的模。

根据以上分析,改进的RANSAC算法步骤如下:

(1)计算抽样数量M

P=1-(1-(1-ε)m)M

P:置信概率;ε:数据错误率;m:求解模型参数需要的最小数据量

(2)从原始数据中随机抽取m个数据组成一个抽样;

(3)在第(2)步选择的随机抽样中,任意选择两对匹配点,计算它们的视差梯度,若其视差梯度大于2,则返回步骤(2);否则,转入步骤(4);

(4)将抽样点数据代入方程,求解模型参数;

(5)将上一步求出的参数代入模型,用这个假设模型来筛选原始数据,去除偏差较大的数据,获得精确匹配点对;重复(2)、(3)、(4)步,将M组抽样数据都做相同的处理;

(6)根据每组抽样获得的精确匹配点对的数量和误差方差的大小,选择最优的抽样及抽样数据所对应的模型参数;

(7)用这个最优模型筛选掉原始数据中偏差大的点,用剩下的精确匹配点计算最终的模型参数。

在具体实验过程中,我们发现,采用基于视差梯度约束的RANSAC算法能够有效地提高算法效率,极大地缩短了模型参数检验需要的时间。

5 结束语

本文通过在应用变换模型前增加基于视差梯度的预处理过程,减少了伪匹配特征点的数量,降低了变换模型计算与检验的时间,进而提高了RANSAC算法的效率,从而提高了图像配准的效率,进一步为后期的图像融合的准确性做铺垫。

参考文献

[1]杜志斌.基于角点检测与匹配的图像拼接设计与实现[D].东北大学(学位论文),2011.

[2]杨占龙.基于特征点的图像配准与拼接技术研究[D].西安电子科技大学,2008.

[3]靳峰.基于特征的图像配准关键技术研究[D].西安电子科技大学,2015.

[4]廖斌.基于特征点的图像配准技术研究[D].国防科学技术大学,2008.