期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据挖掘技术论文

数据挖掘技术论文精品(七篇)

时间:2023-03-17 18:06:50

数据挖掘技术论文

数据挖掘技术论文篇(1)

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘技术论文篇(2)

执行记录属于软件工程中的挖掘领域,其主要任务是针对执行记录的挖掘主要针对程序执行路径进行分析,进而找出与程序代码所具有的必然联系,以实现软件系统程序与模块代码相结合共同发生作用的目的,对程序的整体起到维护、验证和了解的作用[2]。究其工作的实质,就是以执行路径为线索实现逆向建模,有助于软件工程系统各个环节的理解、维护、跟踪以及验证。

2检测软件漏洞

作为软件工程领域需要协助的软件工程目标之一,针对软件漏洞的检测固然是挖掘数据技术系统中不可或缺的一环。检测的对象和任务主要包括:软件测试的具体项目,对软件系统漏洞库数据信息的收集、转换和清理,信息系统数据的采集与抽取,选择合适的软件系统数据挖掘信息并对其展开验证、整合与训练,对软件数据系统中存在的缺陷漏洞进行整体的分类、定位与具体描述,以及广泛应用于软件测试项目中的各种工程活动。究其最终目的,就是找出软件系统在开发与应用的具体过程中存在的问题、谬误与漏洞,对业已搜索出的问题和漏洞进行及时的矫正与修复。确保软件系统的有效运作与安然运行。

3版本控制信息

版本控制的挖掘属于软件工程领域中的挖掘对象技术之一,这种软件系统的驾驭手段具有与上述两种应用截然不同的独特作用:有效确保软件工程项目编程人员所编辑与制作的档案得到十分有效的管理,进而对系统全局的更新提供稳定的基础与平台。版本控制信息的技能价值看似“默默无闻”,地位实则非常重要,是所有软件工程项目开发必须采用的一门技术,否则任何软件工程项目的开发都无从谈及与运作。这门技术功能经过不断的发展更新,多以应用版本控制系统实施软件开发工作的保护或者管理的方式著称于世。

4开源软件挖掘

开源软件的挖掘,其项目的开发环境优势可谓得天独厚,主要体现在开放性、全局性、动态性三个特征层面上。既然具有别具一格的开放手段与应用方式,所以对该类软件的开发管理,也要采取与与其他传统软件和异类软件截然不同的原则与策略,形成“具体问题具体分析”的思想实践思路。针对其开放性的特征,需要工作人员的频繁流动与变更;针对其动态性的特征,开源项目必须达到优质管理的水平;针对其全局性的特征,有需要开发人员在开发活动与应用软件的过程中保持一个比较完整的记录,以便于广泛的社会网络的生成。

5结语

数据挖掘技术论文篇(3)

关键词:BBS管理系统;数据挖掘技术;应用

中图分类号:TP311.13

在当前的社会环境中网络技术发挥着越来越重要的作用,网络应用服务也成为人们日常生活与工作中不可或缺的重要组成部分,网络技术的出现为人们信息交流拓宽了渠道,但同时由于网络应用服务的增多以及涉及范围的扩大,进而导致网络的安全性能越来越难以保障。BBS作为一种信息服务系统常常是人们生活与工作的交流平台,人们通常使用它来发表言论、传播信息或文件等,然而由于网络管理工作上的不完善让某些不法分子或思想不健康的用户有了可乘之机,他们恶意通过BBS论坛发表一些负面言论,从而造成网络与社会的不稳定。为此,需要网络管理工作者重视这一问题,研究出相关数据挖掘技术应用于BBS管理系统中,从而提高BBS管理中信息处理的效率。

1 数据挖掘技术

1.1 数据挖掘

数据挖掘,其实质上是一个动态的挖掘数据库信息的系统过程,是管理者以存放在数据库、信息库中的大量数据为研究对象,管理者发挥不同功能模块的作用来完成挖掘任务,从中发现数据库中有趣的、有价值的信息与知识。为了方便完成数据挖掘工作,具体划分为三个数据挖掘步骤:一是数据准备;二是规律寻找;三是规律表达。数据准备,即数据挖掘工作开展的前提准备工作,通过确定挖掘任务以计划后期的工作安排;规律寻找,即根据数据库与信息库中的数据资源来进行关联规则与趋势的分析,从中寻找出相关规律性,并运用恰当的挖掘计算方法来求解出相关参数;规律表达,即对前两个数据挖掘工作的总结,以书面材料的形式整理出在数据挖掘工作中的发现。

1.2 文本挖掘

文本挖掘,顾名思义是网络管理者对文本中的数据进行挖掘,从中提取有价值的信息与知识,其属于一种计算机处理技术,不过需要依托数据挖掘技术的支持。现今,文本挖掘已成为一门数据挖掘学科,尽管该学科具有很大的边缘性,但其融合了多个学科的知识(如计算机、数理统计、自然语言处理、机器学习等),学科内容的兼容性极大。在运用文本挖掘技术的前提准备工作有三步,第一步是要将文本进行分类;第二步是提炼文本的特征;第三步是转化文本,利用数据的形式对文本内容进行转化,使之转换成描述性、结构性兼具的数据。之后,就可以顺利进行文本数据挖掘工作。

1.3 Web文本挖掘

近些年,新兴的服务技术层出不穷,而Web服务技术是运用最普遍的一种,其可以不通过任何载体而实现不同计算机之间数据的交换或集成,从而将自身功能或服务的调用说明向外界,并利用URL定位实现信息的自动反馈,以满足特定客户端的信息需求。于是乎,将Web服务技术应用在数据挖掘中十分有必要,建立在数据挖掘技术之上的Web文本挖掘便应运而出,该技术能够强化现有数据挖掘系统的扩展性,并很好的满足客户需求的变动。Web文本挖掘技术具有广泛的功能性,能够通过计算机网络技术、模式识别、智能语言、统计学等功能在结构不合理或异常的Web文档集合中进行数据挖掘工作,利于提高知识挖掘效率。在Web文档中,其信息复杂多样,而文本信息又占据着主要成分,于是对Web文本进行挖掘意义重大,而XML功能的日益完善方便了对Web文档资源的数据描述,通过这些数据描述简化了Web文档抽取信息的特征,更利于采用不同模型来表示Web文档信息的描述特征。

2 数据挖掘技术在BBS管理系统中的应用

2.1 BBS管理系统

BBS算是使用较长的一种电子信息服务系统,由研究机构与教育机构对其进行统一管理,其最初的功能是以公共电子白板的形式为用户提供一个信息或意见的渠道,用户可以在电子版面上畅所欲言。现如今,BBS管理系统趋于完善,其功能也逐步扩大,已转变成信息交流与共享的平台,一种快捷的通讯方式,其针对不同的服务对象划分出不同类型的BBS,如校园BBS、情感BBS、商业BBS等。由于BBS使用群体的日益庞大,其需要一个完善的BBS管理系统来确保信息资源的安全性与使用性,而将数据挖掘技术应用在BBS管理系统中能够有效对BBS的信息进行系统挖掘与管理,这不仅有利于BBS的系统管理,而且也有利于数据挖掘技术的进一步发展。

2.2 尝试性挖掘

用户数据库、版面数据库、帖子数据库,这三部分是构成BBS系统的基本要素,用户数据库是用于存储用户私人信息(姓名、密码、登录ID号等)的载体,而记录版主ID、版面名称的载体则是版面数据库。其中帖子数据库的存储信息更加多样,包括作者、帖子内容、帖子ID、链接地址等。在BBS管理系统中,常识性数据挖掘技术运用得非常广泛,如图1所示,通过该图能够让人们更加清楚尝试性挖掘数据的具体模式。

图1 尝试性挖掘数据模式

以BBS管理系统为研究对象,本文将通过尝试性挖掘技术来提高BBS数据挖掘的效率,而该项数据挖掘工作的第一步则是要进行信息模式的转化,即实现多维数据模型对星型模式的转换。以事务T来表示BBS用户的登录次数,1个T表示一次登录,以数据库D来表示事务集合,在数据库中集合事务,构成多个二维数组(数组中记录了BBS登录样本),使用特征集来定义这些数组的列集。之后,使用计算机智能决策来分析数据挖掘结果,通过直观的星型模式来表示挖掘结果,从而便于用户理解数据挖掘结果。

3 结束语

基于BBS管理系统的数据挖掘技术研究是网络管理者与时俱进的发展表现,正是因为BBS这一电子信息服务在人们生活与工作中运用得越来越广泛,因而人们也在实际应用中对BBS管理员提出了更多的需求。统一信息的数据结构,便于BBS信息的管理与分析、信息的安全性就是人们所提出的实际需求,为了提高BBS信息的管理质量与效率,数据挖掘技术便逐渐应用于BBS管理工作中,而这一举动不仅成功促进了BBS的信息管理,净化了BBS的网络环境,而且还在一定程度上推动了数据挖掘技术的发展。

参考文献:

[1]No-Wook Park, Kwang-Hoon Chi and Byung-Doo Kwon.Accounting for spatial patterns of multiple geological data sets in geological thematic mapping using GIS-based spatial analysis[J].Environmental Geology,2007,51(7):1147-1155.

[2]吴昊,耿焕同,吴祥.一种基于聚类分析的BBS主题发现算法研究[J].安徽师范大学学报(自然科学版),2009(01).

数据挖掘技术论文篇(4)

关键词:  中医学术流派 数据挖掘 银屑病

自古以来,中医学术流派林立,既互相争鸣,又互相渗透、取长补短。它们的发展和研究促使中医药基础理论逐渐得到了拓展和深化,促使中医药临床实践技术逐渐得到了进步和提升。可以说,中医学术流派的发展和研究促进了中医药事业的发展[1]。

中医学术流派研究的前提是要对其进行科学划分并确定研究内容。随着科学技术进步和中医学术研究的日益广泛深入,中医学术流派的划分方法不断进步、完善。徐江雁等[2]提出的核心分类模式既涵纳纵向的学术思想传承,又兼容横向的学术思想渗透,有一定的先进性,值得借鉴。我们在“中医皮肤科赵炳南学术流派及其传承研究”的课题中,从以下两方面划分学派和确定研究内容:其一,以创新的学术思想为核心:通过对中医皮肤科赵炳南学术流派学术渊源、基础理论、特色经验、技术方法等的系统研究,确立中医皮肤科赵炳南学术流派学术思想体系;其二,以开放的医家群及其著述为核质:不论是赵炳南门户师承所得,还是博采众家之说,也不论是公开发表的论文、论著、会议交流的文字材料,科研成果、发明、专利,还是口述史料, 只要是中医皮肤科赵炳南学术流派有关方面的内容,皆囊括在其核质之中。

针对上述研究内容,按照以往的研究方法,可以以人、以疾病、以方药或以思维方法为线索进行文献整理、分析和总结,或者以临床流行病学的方法进行临床观察和总结[3~7]。这些方法在一定程度上能总结规律,指导临床实践,但存在以下不足之处:①对学术思想和诊疗经验缺乏系统地有机关联研究和比较研究;②难以反映疾病诊疗过程中中医辨证的多维时空和非线性特征;③缺乏符合中医特点的多因素信息处理技术,可能致使研究结果产生混乱和差错;④难以真正反映中医学术流派的内涵和精髓。鉴于以往研究存在的问题,我们引进了数据挖掘技术进行中医学术流派研究。

1  数据挖掘及其在中医药领域的应用

1.1  数据挖掘概述数据挖掘(DM:DataMining)就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[8]。它是一门交叉学科,汇聚了数据库、人工智能、统计学、可视化,并行计算等不同学科和领域。其中的人工智能能模仿人类对非线性、不完全、不精确和不确定信息的智能处理,具有良好的容错性、鲁棒性和高精度等综合技术优势[9,10]。人工智能方法主要包括人工神经网络、模糊系统、进化计算、粗糙集理论、支持向量机(SVM)等。针对不同的挖掘目标,往往要将几种方法综合起来应用,以发挥各自的技术优势。此外,将人工智能和其他数据挖掘方法如聚类分析、决策树、关联规则等优化组合应用,更能发挥数据挖掘技术解决复杂问题的能力。

1.2  数据挖掘在中医药领域的应用数据挖掘技术能针对医学数据多态性、不完整性、时间性和冗余性的特征实施合理的数据处理和知识提取[11]。它应用于中医药领域主要表现在以下几方面[12~16]:

1.2.1  新药开发研究以一种新的、建立在充分利用几千年积累下来的丰富经验及现代科学技术所提供的信息基础上的模式进行研究。

1.2.2  复方配伍规律和方证相应研究数据挖掘技术可以在一定程度上发现和认识临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。

1.2.3  中医药信息化研究对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘来实现。

1.2.4  中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定程度上可将它们以可理解的规则或模式表达出来,从而大大丰富专家系统的知识库。

1.2.5  中医药文献研究数据挖掘技术应用于文献研究可以提高文献研究的水平,提高文献利用的效率,进而能提高中医药科研工作的效率。

2  数据挖掘在中医学术流派研究中的应用

以“中医皮肤科赵炳南学术流派及其传承研究”中的银屑病数据挖掘为例,简要说明挖掘的步骤和挖掘的工具及算法。

2.1  实施数据挖掘的步骤

根据全球首个数据挖掘行业通用的模型标准(CRISP-DM),银屑病数据挖掘过程可分成6个阶段。

2.1.1  理解问题明确和细化研究目标。

2.1.2  理解数据熟悉所采集的有关银屑病数据的类型和存在形式,在此基础上初步进行数据质量鉴定,并建立数据库。

2.1.3  准备数据有关银屑病的数据中存在着大量不完整的、冗余的和不一致的数据。在进行数据挖掘时,首先要对其进行处理。处理过程包括数据抽取、清洗、转换和加载。

2.1.4  建立模型针对研究目标,利用已知的数据和知识建立分析模型,并将该模型有效地应用到未知的数据或相似情况中测试并修正模型,如此反复进行以得到最优模型。

2.1.5  方案评估在模型最后付诸实施以前,彻底地对模型进行评估,再回顾构造该模型的步骤,以确定该模型真正能够达到预定的挖掘目标。

2.1.6  方案实施基于以上5方面的工作,采用相应的数据挖掘工具和算法进行多次反复、多次调整、不断修订完善的数据挖掘。

2.2  数据挖掘的工具和算法

数据挖掘技术论文篇(5)

[关键词] 专利情报 数据挖掘 企业决策 竞争优势

一、专利情报分析在企业战略决策中的地位和作用

随着当代世界经济的全球化、贸易的自由化,国内外企业间的竞争日益激烈。在科学技术迅猛发展的今天,企业间的竞争已转化为科学技术的竞争、技术创新能力的竞争,并集中体现为自主知识产权,特别是专利数量及质量的竞争。因此,专利情报在企业发展中的战略地位正逐步得到增强。企业只有站在战略的高度来认识和处理专利工作,强化专利发明的创造及专利管理,并在经营活动中有效地实施专利战略去开拓市场,才能有效地遏止竞争对手,以较少的投入获得较大的市场竞争份额,不断提高企业自身的竞争能力,取得市场竞争优势和经济效益。

专利情报技术价值只有通过分析才能充分体现出来。在各国企业纷纷开展的专利战略研究中,最核心的部分就是专利情报分析。企业从研发项目选题决策到研发项目实施过程,专利情报分析都可以有效地支持企业的研发活动,为企业制定技术开发战略提供科学准确的决策依据。专利情报分析可以让企业决策者和研发人员准确了解到:其一,现有技术所处的成长阶段;其二,新技术的发展动态和可能应用的领域;其三,本行业的技术发展动态;其四,竞争热点技术领域;其五,竞争对手的研发动态;其六,新产品的可能寿命、潜在市场和经济价值。

总之,专利情报分析不仅是企业争夺专利的前提,更能为企业发展提供技术策略,评估竞争对手的情报,认清自己的相对专利地位和技术领域的发展趋势,在技术开发、合作和贸易中有效地保护自身权益,制定出正确的技术开发战略、最佳的研发计划。

二、数据挖掘是目前最先进的专利情报分析方法

1.数据挖掘的定义

数据挖掘是一种利用各种分析工具建构数据分析模型,从而在大型的数据库(或数据仓库)中提取人们感兴趣的知识的过程。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识一般可以表达为概念、规则、规律、模式、约束、可视化等形式。这些表达形式蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,为科学研究、经营决策、市场策划、经济预测、工业控制等提供依据。

2.数据挖掘技术产生的背景

伴随数据库技术的广泛应用,企业管理中积累了大量的有用数据,包括市场、客户、供货商、竞争对手,以及未来趋势等重要信息,企业管理对数据处理技术要求不断提高。但是信息超载与非结构化,使得企业决策组织无法有效利用现存的信息,甚至使决策行为产生混乱与误用。基于总体假定进行推断和检验的传统的统计分析方法对这些海量、异构、分散数据的处理已显得无能为力, 显露出很大的局限性。因此,如何从这些复杂的专利文献数据中以智能化的操作方式深入分析其中隐含的规律, 如何发现、提取这些知识并加以利用就成了当务之急。

计算机技术的快速发展为专利情报分析提供了极大的便利条件,产生了数据挖掘等当今信息科学的前沿技术和管理方法,促使专利情报分析方法向自动化、智能化、可视化的方向发展。

3.专利情报数据挖掘的优势和发展现状

与传统的基于统计的专利情报分析法(如:查询、报表、联机应用分析等)相比,专利情报数据挖掘方法具有明显的优势。

(1)方法优势。数据挖掘与传统的统计分析方法的本质区别在于统计是根据随机性的观测样本数据以及问题的条件和假定,对未知事务做出以概率形式表述的推断;而数据挖掘则是在没有明确假设的前提下去挖掘信息、发现知识。与统计相比,数据挖掘工具处理大量的实际数据更有优势,无须专业的统计背景也能使用数据挖掘的工具,而且,数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需求。此外,从理论的角度来看,数据挖掘与统计也不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具。

(2)成果优势。数据挖掘技术同统计分析方法相比较, 挖掘算法的研究成果无论从数量上还是实用性上都具有巨大优势。例如根据挖掘任务,数据挖掘算法包括分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。近几年来,自然语言理解、语义关联分析、词频分布统计、语料学研究等可以用于进行情报分析的技术方法和工具,已经成为数据挖掘算法的重要研究方向。因此,无论从体系结构上,还是从具体方法上,数据挖掘算法都能够很好地融合到专利情报分析系统中去。

(3)发展现状。目前,大多数国内学者对专利情报的分析仍停留在对数量特征的统计分析上,并且对于专利数据中的各种偏差性影响几乎都没有考虑,而国外学者则多利用数据挖掘的理论和数据可视化手段,正在研究专利信息的自动分析方法。总之,对于专利信息的利用,国内目前基本上仍处于定性分析和信息的统计计算管理水平上,尚不能从内容上自动挖掘专利数据中的知识规律。

三、专利情报数据挖掘的方法与流程

数据挖掘的产生并不是为了替代传统的统计分析技术,相反,对于统计分析方法,数据挖掘主要体现在利用统计和人工智能技术进行高级多元统计方法的应用上,是对这些方法的拓展和深化。因此,本文提出以数据挖掘为主、以数理统计为辅的两者结合的专利情报数据挖掘方法。专利情报数据挖掘的任务就是从专利数据中发现模式。数据挖掘的模式主要有关联规则、分类、聚类、序列模式等。与之对应的分析方法包括关联分析、分类分析、聚类分析、模式识别、可视化方法、人工神经网络等等。其中,关联分析是本文专利情报数据挖掘方法研究的重点。

在现有研究的基础上,根据实际需要,可将专利情报数据挖掘流程划分为以下四大模块:数据获取与数据预处理、数据挖掘与监测、数据可视化以及情报分析与整合。其中,后三项统称为数据挖掘分析。

(1)数据获取与数据预处理:根据专利情报分析工作的目的,确定解决问题的性质和数据挖掘的目标,明确科技监测的需求,初步选取监测对象。利用Spider技术,对下载服务器下达获取指令,服务器将相关数据进行获取,形成本地化数据库;对于获取的数据,采用数据预处理技术从目标数据集中剔除错误数据和冗余数据,去除噪声及无关数据,进行有效数据提取,经数据集成后,形成特定领域的情报监测数据集,为监测分析做准备。

(2)数据挖掘与监测:结合监测需求,运用技术预测、自然语言处理、信息萃取、知识发现等工具,依据特定的数据挖掘算法(如关联分析、模糊聚类、技术组(群)自动识别、关键技术识别、自然语言处理等),在数据库中提取数据模式。

(3)数据可视化:运用一定的方法将提取出的数据模式表达成某种易于理解的、直观的知识或模式(图,表等),对监测数据集和所拥有的本地化数据库进行初步分析,形成监测分析结果报告,提交给情报分析人员。

(4)情报分析与整合:情报人员结合自己的专业知识,对监测分析结果进行系统、深层次地分析,在相关持续性投入技术、破坏性技术和新的研究方向等领域形成情报信息的监测分析报告,提交给该领域相关方面的专家。由专家凭借自己的知识和经验,对分析报告进行评估,再将评估意见反馈给情报人员,对监测报告进行修订,形成最终报告。由专家的专业知识来保证情报分析的有效性和可靠性。

四、专利情报数据挖掘方法的实证研究

依据上述方法和步骤,以通信技术领域的中国专利数据为例,对专利情报数据挖掘方法进行实证研究。我们对该领域进行了管理层面和技术层面的深入分析,并以可视化图表的形式展现分析结果。以下是其中对高产申请人进行专利情报数据挖掘的全过程。

1.数据获取与数据预处理

本文所采用的数据来自国家知识产权局专利数据库(sipo.省略),在该数据库中我们选择所有专利类型,包括发明专利、实用新型专利和外观设计专利作为数据源。数据获取的具体过程如下:

(1)根据通信领域的特点结合专家意见确定我国通信技术领域的关键技术名词。

(2)以上述技术名词为关键词,在中国专利数据库的摘要和题目字段中进行检索,形成我国通信技术领域原始数据库。

对该原始数据库中的数据进行数据抽取、数据清洗和数据转换等一系列数据预处理工作,获得我国通信技术领域最终的专利数据库,有效专利总数为4339条,数据覆盖的时间范围是1985年至2007年9月。

2.高产主IPC挖掘分析

(1)数据挖掘方法。采取分类分析与OLAP分析相结合的挖掘方法,对我国通信技术领域专利主IPC(专利分类号)排名前十位的技术及其年度分布状况进行深入细致的分析。首先,采取K近邻规则分类法,对高产主IPC的分布状况进行分类,制成可视化图表,并根据分类结果得出分析结论;然后,在此基础上,对这些技术的年度分布状况作进一步的剖析,挖掘出该技术的发展趋势,运用OLAP技术形象地展现出分析结果,并由此得出更深层次的专利情报。

(2)分类分析。K近邻规则分类法是指从测试样本点开始生成,不断扩大区域,直到包含进K个训练样本点为止,并且把测试样本点的类别归为这最近的K个训练样本点出现频率最大的类别。表中展示了利用此分类法分析出的通信技术领域中国专利主IPC(专利分类号)数量在100以上的分布情况,此处的IPC分类仅划分到小类(取前四位)。从表中可以看出,通信领域的专利主要集中在H04L(数字信息的传输)小类,例如电报通信等,共有专利945件,即21.8%的专利都与其相关。其次是H04B(传输,包括载有信息信号的传输,其传输与信息的特性无关)、H04Q(选择),分别有892件、543件,这些都是与通信领域的相关处理技术密切关联的。

表 我国通信技术高产主IPC分布情况

(3)OLAP分析。根据上述分类分析结果,采用OLAP技术,进一步挖掘IPC排名前十位的技术年度分布状况。由挖掘可知,通讯领域的技术申请专利最早出现在1986年,分布在H04L(数字信息的传输)、HO4B(传输,包括载有信息信号的传输,其传输与信息的特性无关)和H04J(多路复用通讯)3个部类。在以后的年度,各类IPC技术不断发展,申请专利数量逐渐增多,并且都在2005年达到了最大值。

图中,我们可以更清楚地看到IPC排名前十的技术发展趋势。很明显地,排名前三的IPC 发展速度相对更快。其中信息传输技术(H04B)一直持续发展,专利数量逐年增长,尤其在2001年之后增长迅速,成为通讯领域的主要发展技术。数字信息的传输技术(H04L),虽然出现的时间很早,但在随后的几年里中断了发展,直到近几年,数字信息传输技术才成为发展的热点,并在2004年首次超过了H04B技术,其后发展突飞猛进,成为通讯领域专利数量最多的技术。

图 IPC排名前十的技术发展趋势分布

(4)挖掘结果综述。对排名前十位的主IPC技术及其年度发展趋势分布的挖掘可以反映出专利申请人的经济利益趋向和市场开拓方向。由上述表和图可以看出,通信技术的研发主要集中在H04B(传输)和H04L(数字信息的传输,例如电报通信)上。与调制解调器、服务器和路由器等相关的技术是该领域的关键技术和研发重点。据此,企业可以比较国内外技术发展水平,识别技术空白点,避免同一科技领域的重复研究,节约资源,减少投资风险和策划的不确定性,选择和确定科研项目,确定有价值的专利、产品领域或替代品,更好地关注有市场前景的技术,改良发明创新思路,调整自身的研发方向,增加专利的回报,以获取更大的经济效益。

五、结论与展望

本文对专利情报数据挖掘方法进行了全面深入的探讨,并依据挖掘流程对其进行了针对性的实证研究。结果表明,通过数据挖掘技术,能够使企业从以往的海量资料库中整理与收集、有效快速地获取信息,转换数据表达形式,揭示数据背后隐藏的规律,挖掘出不同的信息与知识,充分发挥信息再利用的作用,以满足企业战略决策的需要,扩大产品和市场,提高企业的竞争优势和经济效益;获取大量的与专利技术的经济市场及技术本身的价值有关的重要情报:专利技术的经济市场范围、发明创造的技术价值等等,从而为企业的战略决策提供强有力的技术支持。数据挖掘技术成功地参与企业科学管理的例子已经为国外很多知名企业所公认。

然而,我国目前的大部分企业还没能够将企业的经营和专利战略很好地结合起来,相信随着企业专利战略意识的不断加强,随着数据挖掘技术的不断发展和专利情报数据挖掘方法辅助企业寻找和提高盈利增长点的事例越来越多,专利情报数据挖掘方法一定会在我国各个领域和众多企业中得到广泛应用和发展。

参考文献:

[1]张明龙:我国专利发展现状与趋势分析[J].发展, 2008, 1

[2]曹雷:面向专利战略的专利信息分析研究[J].科技管理研究, 2005, 3

[3]唐炜刘细文:专利分析法及其在企业竞争对手分析中的应用[J].现代情报, 2005, 9

[4]赵岩赵慧娟:数据挖掘理论与技术[J].福建电脑,2006,2

[5]樊冬梅:统计与数据挖掘的关系探讨[J].会计实务,2006.9

[6]魏瑜陆静:数据挖掘与统计学的关系浅析[J].沿海企业与科技, 2005,9

[7]胡永刚:数据挖掘中可视化技术综述[J].计算机与现代化, 2004,10

[8]周奕辛:数据清洗算法的研究与应用[D].2005,7

[9]夏火松:数据仓库与数据挖掘技术[M].北京:科学出版社, 2004,3

数据挖掘技术论文篇(6)

论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[J].电力自动化设备,2011,9

[2]李建业,刘志远,蔡乾,赵洪波.基于Web的故障信息发布系统[J].电力信息化,2007,S1

数据挖掘技术论文篇(7)

关键词 技术情报分析;数据挖掘

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02

1 概述

在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。

技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。

2 系统的设计与功能描述

2.3 数据挖掘技术设计

2.3.1数据文本特征表示

在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。

2.3.2关联算法

在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。

2.3.3 层次结构可视化算法

情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。

4 结论

本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。

参考文献

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.

[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).

[3]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志.2005,1.

友情链接