期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据分析设计

数据分析设计精品(七篇)

时间:2023-05-24 17:22:44

数据分析设计

数据分析设计篇(1)

关键词:试验数据分析 SPC 设计

中图分类号:TP274.2 文献标识码:A 文章编号:1007-9416(2016)11-0142-01

南京中车浦镇海泰制动设备有限公司是主要从事铁路客车、动车组、城市轨道交通设备制动系统及其零部件和试验装置的研发、设计、制造、销售、修理、租赁及技术咨询、试验检测和技术服务的高新技术公司。公司现有数十台各类非标设备用于产品的出厂试验,每台设备的试验类型、试验参数规格以及试验报告都不相同。

试验数据分析系统的目的就是需要将这些非标设备的试验数据进行集中统一上传存储,并提供统一的查询以及分析,使管理者或相关人员能迅速知晓产品性能参数,通过对试验数据的分析,了解产品的生产过程的结果,实时监控产品试验过程,对阶段性产品试验数据进行SPC分析。科学的区分出生产过程中产品质量的随机波动与异常波动,从而对生产过程的异常趋势提出预警,以便生产管理人员及时采取措施,消除异常,恢复过程的稳定,从而达到提高和控制质量的目的。

1 系统整体设计

系统整体框架结构包括三个部分:基于C/S的试验台应用配置系统 + 数据上传适配器中间件 + 基于B/S的试验台数据分析系统,如图1所示。

C/S的应用配置系统完成对不同类型试验台的应用配置,配置内容包括试验台的试验子项内容定义;试验子项的存储结构定义;试验子项的数据字典定义;试验子项的规格值定义;试验台试验报告单的报表格式及数据源定义。

数据上传适配器接口基于配置数据库中的配置实现将不同类型的试验台试验数据进行上传并存储。

B/S试验台数据分析系统基于配置数据库的配置,实现对不同类型的试验台试验数据进行显示以及分析。

2 数据上传接口设计

在试验过程中,每完成一个试验项目,则将当前试验项目的试验结果信息和参数信息通过调用Web Service接口上传并转储至服务器中的数据库中(如果遇到服务器故障的情况下数据本地保存)。

本地试验数据上传采用windows消息队列方式。原理如图2所示。

3 试验数据报表显示设计

由于试验数据分析系统需要显示不同试验平台下的试验数据报表。在设计中需要根据不同类型的试验台定义报表显示模版,定义模版中的数据源,最后将模版和数据源进行绑定并进行显示。设计结构如图3所示。

基于XML定义报表模版对应的数据源。XML文档格式设计如下:

4 结语

本文提出了多样性试验平台数据上传、集中存储、分析以及报表显示的设计解决方案,并对整体系统的构架做了详细的设计及实现,现系统正在稳定运行中。系统运行SPC分析图如图4所示。

数据分析设计篇(2)

关键词:商务平台;数据分析;电子商务

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)30-0211-02

随着电子商务的发展,越来越多的实体商户转向网络虚拟网店,“淘宝网”的店铺数呈指数增长;消费者也越来越疲于花大量时间在海量的信息中寻找自己需要的商品[1]。由此衍生出以团购为生存方式的电子商务平台,如“折800”、“一淘网”等依赖于“淘宝网”的团购网站。这些团购网站经过通过“淘宝网”从中获取折扣商品[2]。但折扣的商品有质量质疑,团购网站需要重视上线商品的质量数据问题,对网站上线商品进行售后监控,优胜劣汰。商务平台商品数据分析系统基于此开发。

1 商务平台商品数据分析

商务平台商品数据分析系统集数据获取、数据统计和分析,系统设计有如下考虑[3-4]:

1)商品ID号:根据上线商品的ID号直接获取商品的评论,并对评论进行等级评定;

2)评论平均分:计算评论平均分,据此可判断商品是否合格;

3)评论分分布:计算评论的合格数及其比例。

等级评定时是多个操作人员同时对同一商品数据进行评论操作,评论评分定级是人工进行的,操作人员的主观对商品评论操作有一定影响。因此需要将所有操作人员的评论评分数据进行统计对比分析,以控制整个评定的有效性。

2 系统设计

本系统根据MVC的三层框架,利用JSP技术制作动态网页,通过JDBC技术访问数据库,使用JSP作为服务器端应用程序处理客户端的请求并在Web服务器中进行业务逻辑处理并返回客户端请求的结果。在JSP里嵌套HTML以及CSS对WEB页面进行设计,引入Bootstrap封装的样式,达到系统数据呈现的设计要求[5-6]。

页面数据呈现与后台数据交互是整个系统的核心,对数据进行归纳计算和整理并呈现到用户界面上。用户只需获取到公司平台上线商品的ID号就可以通过系统抓取商品评论数据;同时对数据进行整理分析得到评论平均分、评论分数比例等数据;同时可以系统整理分析出整体上线商品的整体趋势,通过饼状图直观地看出商品的品质分布。

2.1 系统功能结构设计

商务平台商品数据分析系统分为三个模块,八个基本功能,分别是管理员登陆、用户登陆、用户注册、商品评论抓取评分、商品评论数据的统计和分析、用户管理和修改密码等,根据分析,本系统的功能结构图如图1所示。

1)管理员登陆:管理员输入用户名和密码,数据经由UI Servlet传递给Controller Servlet,再到数据库中验证身份,将结果返回给JSP,成功登陆就可进入系统,不成功则重新输入。用户名只可能是字母,密码字母和数字皆可。管理员是系统指定的,不可以注册。

2)用户登录:普通用户输入用户名和密码,数据经由UI Servlet传递给Controller Servlet,再到数据库中验证身份,将结果返回给JSP,成功登陆就可进入系统,不成功则重新输入。用户名只可能是6-20位字母,密码是6-15位字母和数字组合皆可。若没有账号,可以在用户登录JSP页面点击注册,通过UI Servlet跳转到注册页面。

3)用户注册:用户注册需要输入Email、用户名、密码等信息,Email有格式判断,必须输入正确的格式,用户名必须是6-20位字母,密码是6-15位的字母数字组合皆可。输入正确后可以成功申请新用户,随后跳转到普通用户登录界面登录系统。

4)商品评论抓取评分:普通用户与管理员皆可操作,在输入框中输入商品的id号,点击查询,就可获取到“淘宝网”中商品的前一百条评论,并且按照评论时间顺序进行呈现。其后的评分框,按照规定只能输入1-5的数值,同时点击保存,数据就会存入数据库中。

5)商品评论数据统计:此功能方便普通用户清楚的跟踪自己的工作进度,对于管理员可以掌控平台上线商品的商品质量,会显示出该操作人员所操作的所有商品的平均分、合格率,可以看出该操作人员操作的商品评分状态详情。

6)商品评论数据分析:此功能为管理者观察网站整体上线商品的质量分布,点击查询,会统计所有使用系统的普通用户操作过的所有商品数的评论数据。如此管理者可以通过这些数据对网站上线商品进行调整。以操作人为条件,区分每个人的操作数据,可以控制一定的主观误差,还有整体的上线商品的趋势。普通用户可以看出自己的主观意见和其他用户的差别。

7)用户管理:管理员可以对普通用户进行增加和删除,用户管理界面对普通用户不可见。管理员有权限重置普通用户的密码。

8)修改密码:管理员和普通用户都可以自行更改密码。

2.2 系统数据库设计

数据库能够对商务平台商品数据分析系统的后台数据进行添加、删除、查询,修改。本系统采用MySQL数据库设计,分别是用户信息表、评论评分信息表、商品数据分析表和商品数据统计表。用户信息表主要保存管理员和普通用户的登录信息:用户的用户名、密码、级别还有Email。评论评分信息表主要保存评论内容、评论的时间、评论评分、商品id、操作人员、商品名称等。商品数据分析表主要保存操作人员、操作商品总数、平均四分以上的商品总数及其比例、合格率大于80%的商品总数及其占比、合格率大于60%的商品总数及其占比、不合格商品总数及其占比等内容。商品数据统计表主要保存商品id、操作人员、商品名称、评论平均分、评论合格率、评论不合格率等信息。其设计分别见表1-表4。

3 结束语

互联网电子商务企业需要处理大量的数据。商务平台商品数据分析系统基于JAVA语言和MVC设计思想,在My Eclipse的开发环境开发,完成了淘宝商品评论数据基于商品ID号抓取、评论五等级评分、针对不同操作人员评分的合格率、平均分4分以上商品总数、合格率大于一定比例的商品总数等数据统计和分析以及用户管理等功能;商务平台商品数据分析系统前台利用Bootstrap框架和BUI框架进行开发,将后台功能进行呈现。系统操作简单,界面简洁、美观交互速度快,有效降低了商品数据分析的繁琐度提高效率。

参考文献:

[1] 谢恩宏, 石宇良. 我国城市电子商务发展特点和趋势[J]. 电子商务, 2010(10): 13-15.

[2] 许小平. 大学生网上开店品牌建设研究[J]. 中国电子商务, 2012(8): 26-29.

[3] 崔志刚. 基于电商网站商品评论数据的用户情感分析[D]. 北京: 北京交通大学, 2014.

[4] 马广松, 方宇, 徐辉. 心电网络信息系统的设计及应用[J]. 中国医疗设备, 2009(7): 55-56.

数据分析设计篇(3)

关键词:数据分析;数据挖掘;大数据;云计算

0引言

商业银行作为经营信用、货币的企业,面向的客户是几乎全方位的,同时银行业的竞争也是异常残酷的[1]。从网点、ATM、POS、网银、手机银行乃至其他网络信息等各类渠道数据信息中,挖掘、分析出有效的数据,可以增加营销效率、加快产品创新,快人一步扩大业务发展空间和市场份额[2]。大数据可以使商业银行决策由经验依赖到数据依赖的转变,实时、深入地把握业务和市场动态,从而更加科学、有效地决策,让商业银行能够稳健、可持续发展[3]。大数据的挖掘、分析可以有效地提高商业银行精细化管理水平,在风险控制、成本核算、资本管理、绩效考核等各个方面发挥出巨大作用,让经营管理能力大幅提升,更理性、更高效、更精确[4]。

1大数据技术

1.1HadoopMapReduce技术

Hadoop是一种分布式系统的平台,通过它可以很轻松地搭建一个高效、高质量的分布系统[5]。Hadoop的最核心的设计思想:MapReduce是Hadoop的核心组件之一,Hadoop主要包括2部分:一是分布式文件系统HDFS,HDFS为海量的数据提供了存储;二是分布式计算框MapReduce,为海量的数据提供了计算。MapReduce是大规模数据计算的利器,Map和Reduce是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集。Hadoop采用并行工作模式,同时维护多个工作数据副本,确保失败的节点能够重新分布处理,具有可靠、高效、可伸缩、低成本的优点。

1.2NOSQL数据库技术

NOSQL(NotOnlySQL)数据库是指非关系数据库。这是相对于传统关系数据库提出的概念,随着Web2.0网站的兴起,数据量越来越大,传统关系型数据在处理大数据、实时读写以及多表联查已经越来越力不从心,而NOSQL以键值对存储,机构不固定,每个元组可以根据需要增加、减少键值对,减少了时间和空间的开销,同时NOSQL可以处理大数据,能够良好地运行在廉价的PC服务器机器上,便于扩展[7]。

1.3内存分析技术

内存分析(In-memoryAnalytics)技术是在内存中直接获取分析数据。随着64位操作系统的普及,系统可用内存大幅度提升,同时由于工艺不断成熟,内存容量不断,价格不断下降。由于内存容量暴增,人们开始直接将数据预读到内存中,对内存中的数据进行分析加工,而不用如传统的那样将数据反复不断地读入内存、写入磁盘,从而极大地提升了数据分析效率。

2商业银行数据应用现状

目前,商业银行对于大数据的挖掘还处于起步阶段,没有一个在设计之初就目标明确的定位于大数据挖掘、分析的系统[8]。现有的几个与数据挖掘相关的管理信息系统有PCRM系统(个人优质客户系统)、RPTS系统(综合报表系统)、GDP系统(基础数据平台系统)等,这些系统在设计之初就具有先天的局限性,它们仅仅是针对某个或者某几个业务部门的应用开发的,远远还谈不上大数据分析。同时这些系统由于没有统一的规划设计,物理架构大致相同,一些重要数据,如定期、活期主档及明细表全部重复加工,造成人力、财力的浪费,效率较低[9]。在上面提到的几个管理信息系统中,GDP系统是相对比较典型的应用,现在对GDP系统物理架构和逻辑架构进行分析。如图1所示的GDP物理架构图,采用成熟的3层B/S架构,2台乃至多台PC服务器部署WEB前置服务,做表示层;由1台小型机部署应用服务程序,做逻辑层;1台小型机上运行数据库系统,做数据访问层。数据库由控制库和日终库组成,其中控制库使用SYBASEASE库,将不同的处理任务划分成一个个的作业链,作业链中包含不同的作业,通过对作业和作业链调度次序进行控制;日终库采用SYBASEIQ库,对日终数据进行高效处理。控制库与日终库可在同一台小型机上。2台PC服务器使用IBMWebSphere部署高可用集群,提供WEB服务,包含作业调度服务和前台展示。

3构建商业银行数据分析

系统模型商业银行作为传统金融企业,与新兴的互联网企业不同之处在于:行内的数据中含有许多机密、隐私的信息,同时无论媒体还是客户都关心银行数据的安全性。在数据挖掘、分析包括使用的时候,效率与安全的选择需要慎重考量。为了避免资源的浪费,本文在设计模型前,必须对现有数据进行详尽分析,剔除重复、无效的数据,将有效数据进行分类。商业银行数据应用中大致可以分为2种类型:一类是高可靠数据,以数据的准确性为主,需要提供给统计部门、核算部门及监管部门,对于这类数据我们必须在使用前进行数据清洗、筛选后,才能够真正使用;另一类则不需要很精确,只需要一个大致数量级或者一个大的方向,主要供决策层、管理经营层及产品研发、营销等部门使用,对于这类数据其实才是真正符合现今大数据的概念,无需对数据进行清洗,可以直接进行挖掘。针对侧重于安全可靠和快速高效这2种不同的需求,以及结合商业银行现有技术发展,本文设计出下面2种模型。

3.1高可靠模型

基于商业银行对数据的精度要求较高,在设计模型时首先考虑的是数据的完整性和安全性,其次才考虑效率等其他的问题。因此,本文对现有成熟和完备的商业银行GDP系统3层架构和业务定位深入分析的基础上,进行了一些改进,克服现有GDP系统3层结构的不足。

3.2高效率模型

对于商业银行精度要求不高,但是非常具有时效性和海量的数据,不需要考虑数据的完整性、安全性。为此,本文使用一些互联网的新技术以及开源的软件,抛弃原有3层架构,引入大数据挖掘新技术,实现大数据的挖掘需求。

4数据分析

当将海量的数据挖掘出来后,怎样使用这些数据?投入这么多人力、物力当然是希望它能带来更多的收益,怎样将数据变成收益?这就需要对数据进行分析,结合自身以及行业的现状进行分析。在传统的数据中,以少量的数据为依据,以数据的准确性为目标进行的统计工作,其实这样的统计是有偏差和片面的。而大数据则以海量数据为依托,强调数据的完整性、综合性和复杂性,通过答题轮廓,捕捉发展脉络,确定未来发展方向。从决策层出发,大数据可以为我们更快地找出未来银行的发展方向,最大限度地避免在决策方向上出现偏差。一直以来商业银行的决策是由个人或小团队进行的,但是在这些决策中往往有很多依靠过往的经验、主管判断的,这就带来决策缺少扎实的依据,很多决策适合一些地方,但在另外一些地方却未必很适合。特别是现在科技发展日新月异,对传统银行业带来了巨大的冲击,原来的很多经验不但不能带来帮助,甚至会制约决策层的思维,决策远远满足不了前瞻性、有效性和针对性的要求。

而大数据的分析则可以更准确、更快捷地帮助决策层把握脉络,从而做出具有前瞻性、及时的、精准的决策。从管理执行层来看,通过大数据的分析可以更快捷地推出精品产品,更有效地营销客户,更高效的使用行内各种资源,提高管理能力,创造更多利润。通过大数据的分析,管理层能够分析出哪些产品受哪些客户的喜好,分析各类客户都有什么需求,可以根据这些有针对性地开发一些受客户欢迎的产品。可以对一些高质量的VIP客户进行分析,对他们的资金利用进行跟踪,尽量将资金链锁定在行内,利用资金空闲时段进行中间业务的营销,可以对这些客户在贷款的利率上进行一定幅度的优惠等等。可以对基层行、网点人员效率进行分析、优化,对行内的电子设备,如ATM、POS机等进行分析,在使用量庞大的地方可以加大投放,收回一些效率低下的设备等等。从监管层来看,通过大数据的分析可以更加直观、有效地对商业银行的合规经营做出监管。可以从大数据中对各地的经营、营销费用、采购招标等需要进行监管的地方进行分析,一旦发现某个地方有异常情况,就可以进行重点关注、重点监管,而不是像以前那样无差别的监管,或者靠经验去进行监管,从而能够更快、更有效地进行监管,提前去发现问题,制止问题事件的扩大,为商业银行减少损失,更有效保障商业银行的利益。

5结语

大数据在商业银行决策、生产运行和经营管理中越来越重要,构建商业银行自身的大数据挖掘、分析系统已经迫在眉睫了,如何构建大数据分析系统、利用分析系统实现数据到价值、利润的转化,这需要不断的研究。本文通过深入分析商业银行的数据分析现状,总结其数据分析的优、缺点。并针对侧重于安全可靠和快速高效2种不同需求,以及结合商业银行现有技术发展,设计了商业银行数据分析系统,使商业银行从珍贵数据中分析、挖掘对其战略发展和业务经营有巨大推动作用的信息。

参考文献:

[1]薛良飞.云计算在新型信息化系统中的综合研究[D].济南:山东大学,2013.

[2]李斌,黄治国,彭星.利率市场化会降低城市商业银行投融资水平吗?——基于中国24家城市商业银行数据的实证研究[J].中南财经政法大学学报,2015(1):40-47.

[3]方先明,苏晓珺,孙利.我国商业银行竞争力水平研究——基于2010—2012年16家上市商业银行数据的分析[J].中央财经大学学报,2014(3):31-38.

[4]刘晓茜.云计算数据中心结构及其调度机制研究[D].北京:中国科学技术大学,2011.[5]陆嘉恒.Hadoop实战[M].北京:机械工业出版社,2012.

[6]张世明,徐和祥,钱冬明,等.云架构模式下“网络学习空间人人通”体系探析[J].华东师范大学学报(自然科学版),2014(2):30-39.

[7]江务学,张璟,王志明.云计算及其架构模式[J].辽宁工程技术大学学报(自然科学版),2011(4):575-579.

[8]韩浩.大数据技术在商业银行中的运用探讨[M].苏州:苏州大学,2014.

数据分析设计篇(4)

关键词:类;DataLine;Translator;DataDrawer

航空设备数据分析一直是一个难题,因为数据按ICD协议上传,需要转化为可读数据才能分析设备的运行状态。但是设备的上传速率一般在毫秒级,所以设备运行一个小时可以输出上百兆的数据,人工分析这些数据费时费力且错误率高,容易错过关键数据。

针对这种情况,作者设计了一种专门分析设备上传数据的软件(简称数据分析软件)。使用数据分析软件处理百万行的数据只需要不到一分钟的时间,而且该软件可以将数据制成曲线,可以更容易地捕捉到关键数据。

1 数据分析软件

数据分析软件包含两个模块:数据转换模块和数据绘制模块。

1.1 数据转换模块

1.1.1 时间类

航空设备上传的数据一般以时间为基准,因此数据转换时需要保留原始数据的时间信息,这样才能将数据绘制成以时间为X轴的曲线。时间类的定义如图1:

基类Time继承了IComparable接口,所以Time类重载了 “!=”,” ”,”==”四个操作符,这样Time类的对象之间可以比较大小,所以转换后的数据可以按时间前后排序。

1.1.2 数据类

在数据分析软件中,数据是以行为单位的,每一行数据有多个域,不同行数据的域名相同,域内的数据不同。数据行类定义如图2。

DataLine的对象代表一行转换后的数据,ToString接口可以将DataLine里存储的数据以文本的形式输出。DataLine是一个抽象类,需要用他的子类实例化对象。由图可见,MLSData集成了DataLine类,在成员变量中加入了一个MLSTime的对象_time用以表示该行数据的上传时间,并且可以用CompareTo接口比较两个MLSData对象的时间先后。其实MLSData的CompareTo接口只是调用了成员变量_time的CompareTo,如图3。

1.1.3 翻译器类

翻译器实现的功能是将一行原始数据转换为可读数据,翻译器定义如图4。

Translator是一个抽象类,其中定义了一个抽象函数Translate,这个函数有一个类型为String的形式参数data,并返回一个DataLine类(或其子类)的对象。其中data表示一行文本格式的原始数据,返回值DataLine表示转换后的数据。当需要分析按新版本ICD协议上传的数据时,只需创建一个新的Translator子类,并按ICD协议重写Translate函数即可。

1.2 数据绘制模块

数据绘制模块类关系图如图5:

父类DataDrawer是一个抽象函数,他实现了绘制曲线的一些基本功能。子类MLSDrawer集成了DataDrawer的基本功能,并添加了数据段放大功能。MD_WarningLine添加了告警线的显示功能,分析人员可以清晰地看到数据告警的位置,并针对该段数据进行分析。MultiLineDawer添加了多曲线绘制弄能,可以将多组数据的曲线绘制在同一坐标系内,让分析人员可以进行多组数据间的交叉比对。

2 实际应用

如图6,设备上传数据经数据转换模块处理后输出可读数据。

数据绘制模块读取分析结果数据后,可以将结果中的一组或多组数据绘制成曲线。

在曲线绘制区域内拖动鼠标可已放大局部数据,如图9。

3 结语

数据分析设计篇(5)

【关键词】人工智能 软件 数据流 结构

1 引言

在信息化迅速发展的今天,利用多媒体来进行各个信号的传输已经得到了广泛的应用,就比如数字视频信号、高速无线传输码流等都是将数据流作为基础的信号,这些都有着高复杂度及灵活性,并且吞吐率也极高,而将算法在数据流结构上进行映射,并通过专门的硬件并行来实现,由于可变的数据率是信号的另一个特征,所以在数据流结构的优化设计中就需要将处理的信号动态变化考虑进来,利用人工智能软件,来将各个硬件处理单元根据不同的数据率输入的信号人工模拟。这样也可以更为方便快捷的寻找到满足功能要求的所有可实行软件。

2 面向数据流的结构化分析

面向数据流结构化分析方法其利用抽象的模型来进行定义的,根据内部的数据传递及变换的关系,遵循自顶向下,逐步求精的分解原则,来实现找到所有能够满足功能要求的软件。而就面向数据流的结构化分析方法而言,其本质之一是数据的传递和变换,等同于IPO=输入-处理-输出;另一个本质是自顶向下,逐步求精分解,这运用的是层次清晰、同层次结点独立的树形结构。数据流结构化设计其主要的目标是将软件设计为多个结构合理、功能单一的模块,从而形成系统的模块结构图。这主要是将分层次的结构图作为一种主要的表示方式。

数据流结构对描述和计算密集的系统是极其适用的,其可以利用流水线技术来提高系统的吞吐率,利用寄存器或是先入先出的队列来将各个相连的节点连接起来,而待处理的码流其具有不同的速率和处理要求,所以要进行结构的改变通过对节点间连接方式的动态处理。因为每一个节点在完成的功能上是不同的,所以处理速度也是不同的。利用动态模拟来确定设计阶段的数据流结构处理时序,这样也能很好的保证了处理性能。

3 数据流结构的类型

将数据流图转化为软件的结构,就需要DFD类型的研究。而由于软件系统是复杂庞大的,就需要人工智能软件的加入。数据流类型主要可分为变换型和事务型。

3.1 变换型数据流图

这主要是由输入、变换、输出组成。如图1。

变换型数据处理的工作其可以分为三个步骤,第一步是取得数据,第二步是变换数据,第三步是给出数据,这是DFD的基本思想。变换是系统的主加工,变换输入端的数据流是系统的逻辑输入,输出端为逻辑输出。

3.2 事务型的数据流图

对输入流分离成许多发散的数据流,通过某个加工形成许多路径,并根据输入值来选择一条路径进行执行,这种特征的DFD是事务型的数据流图,这个加工可以称为事务处理中心,如图2。

4 人工智能软件数据流结构设计实例

对于销售管理系统,其数据流图转化为软件结构。就其分层图来看可以清晰地表明其所具有的四个主要功能:订货处理、进货处理、缺货处理和销售统计,这四个都可以进行平行处理。所以从整体上分析根据事务类型数据流图进行设计,并利用功能来对四个处理选择。

“蓝牙”是近年来短距无线互连较为标准的一种方式,这主要是利用较为低端的数据通信及语音传输场合,Bluetooth这是在2.4GHz的开放频段来进行 工作,这也较为容易受到其他的使用该频段的无线设备干扰。无线传输的数据往往会含有前向差错控制编码、循环冗余码编码等差错控制技术。蓝牙还采用了跳频技术。这也使得结构极其复杂。通过建立人工智能软件,可以更好的对不同的数据包进行动态模拟的打包过程,来使得Bluetooth打包器在数据流结构设计上得到更好的优化。

5 结束语

数据流结构设计其在早期对软件进行精化,可以利用不同的软件结构导出实现,再通过评价和比较,从而得到较好的结果,这种优化,其是将软件结构设计和过程设计有效的分开。人工智能软件的使用,使得软件结构可以在没有时间的影响因素下更好的开发和精化;还可以在详细设计阶段将一些较为耗费时间的模块进行仔细的设计、处理,以求在效率上得到提高;利用高级程序设计语言来进行程序的编写;利用人工智能软件可以将大量的占用处理机资源孤立出来。随着信息化时代的到来,人工智能软件也将在更多的领域开始进行广泛的应用。

参考文献

[1]赵阳,易先清,罗雪山.一种基于Petri网原理的数据流模型研究[J],计算机科学,2011(11).

[2]贾国柱.基于Petri网建模与仿真的制造企业生产系统流程再造方法[J].系统工程,2013(03).

数据分析设计篇(6)

【关键词】数据挖掘,Hadoop

1引言

1.1 数据挖掘技术概述

数据挖掘出现于 20 世纪 80 年代后期,90 年代有了突飞猛进的发展,并在进入 21 世纪后继续繁荣。随着科技的不断进步,在物联网、云计算、移动互联网等发展的推动下,数据发生了“大爆炸”,其规模呈几何级上升。如何将这些海量的、复杂的数据转化成人类可理解的、有用的知识,从而指导我们的决策正成为目前面临的重要的问题。

如今,随着云计算的出现和发展,数据挖掘技术迎来了新的机遇和挑战。现在的基于云计算的并行数据挖掘与服务的模式。数据挖掘的算法可以分布在多个节点上,并且这些算法之间是并行的。在进行数据挖掘的过程中,我们需要的资源会实现按需分配,具有很大的伸缩性。在分布式计算模型下,使用的是云计算模式。算法的实现采用 MapReduce 的方式,从而实现并行的要求。

1.2 Hadoop 框架

Hadoop是一个开源的分布式系统基础架构,由 Apache 基金会开发。Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop平台包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。

2 Hadoop数据存储平台

2.1基本设计思想

我们的基本思想是:充分利用 Hadoop的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到Hadoop集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。系统采用MVC三层架构设计使结构更加清晰,系统易于扩展。在底层,使用 Hadoop来存储、分析和处理巨大的数据量,而在高层通过接口直接透明的调用底层的计算和存储能力。

在整个系统中,我们可以使用 HDFS 来存储文件和数据。HDFS 具有很高的数据吞吐量,并且很好的实现了容错机制。HDFS 提供了多种访问接口,包括 API以及各种操作命令。使用 HDFS,我们可以为原始的大数据集提供存储空间,对临时文件进行存储,为数据预处理、数据挖掘过程提供输入数据,同时输出数据我们也保存在 HDFS 中。系统整体架构如图1所示。

2.2系统结构模型

结合以上的基本设计思想以及典型的数据挖掘系统模型,采用分层的思想,自顶向下每层都透明的调用下层接口,最顶层为交互层,用于用户和系统之间的交互。最底层为分布式计算层,使用 HADOOP 来实现文件分布式存储和并行计算功能。使用分层,各层之间变得独立,易于系统的扩展。下面详细介绍我们得到的基于 HADOOP 的数据存储系统。如图2所示。

1、交互层

提供系统和用户之间的接口。通过提供具有良好表现形式的图形界面,使得用户可以登陆系统定制各种细粒度的业务,查看或者保存各种输出结果。

交互层具有的模块包括:

①用户管理模块:实现用户身份的识别以及相应权限的设置,同时也包括对用户登陆或者注销等常用的管理。

②业务展示模块:实现用户提交的各种业务,并对业务结果进行查看,分析和保存等功能。用来将系统的返回结果交付给用户。

2、业务应用层

提供了各种业务逻辑并实现了对各种业务流程的控制和调度。用户提交的业务在这一层被处理,控制和调度。

业务应用层具有的模块包括:

①用户界面:用户可以通过简单应用的操作界面工具,进行海量数据处理存储。

②业务响应模块:相应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务。

3、数据处理层

为业务应用层提供数据挖掘阶段业务流需要的各个模块,并且具有较细的粒度。如数据预处理,模式评估,数据挖掘等组件。这一层是整个系统的核心,在这一层,主要的任务在于实现各种任务过程中算法的并行化,并将任务提交到 Hadoop 分布计算层进行运算。并将结果返回给业务应用层。

数据处理层具有的模块包括:

①系统管理模块:对系统实现分布式管理。主要包括:负载平衡管理、系统日志管理、对象事务管理、系统远程部署管理等。

②数据加载模块:将挖掘所需的数据进行注册并放入系统的 HDFS 文件系统。

③数据存储模块:提供对海量数据的并行加载、处理和存储功能。将数据从其他外设中导入平台的HDFS;并行ETL 模块用来对HDFS中的原始数据进行处理得到存储数据;并行存储模块提供对处理后的数据进行存储.

④并行查询模块:提供对海量数据的并行查询、用户自定义事务处理等功能。

⑤备份恢复模块:提供对系统存储数据的备份管理、备份存储、备份恢复等功能,增强系统的安全

性和容错性。

⑥模式评估模块:Hadoop 框架自身提供了 HDFS,MapReduce 运行模式、运算环境以及自动管理。

4、分布式计算层

使用 HADOOP 框架来实现集群存储、计算。Hadoop 提供了分布式文件系统和并行的运行模式,同时实现了对分布式系统的管理。我们需要在此之上实现任务提交的 Server。

3总结

本文分析了对现阶段基于云计算平台实现的数据挖掘研究以及开源的集群框架Hadoop的研究现状作了分析。并在此基础上设计了基于Hadoop的数据存储系统的基本架构。采用以 Hadoop分布式平台作为基础,以 HDFS分布式文件系统和MapReduce 并行计算模型作为处理数据的方法。同时给出了系统的模型并简要介绍了各个功能模块。通过将数据挖掘技术与云计算时代下的集群框架 Hadoop结合起来,利用集群巨大的计算能力和存储能力,从而实现对超大规模数据挖掘的性能提升。

参考文献:

[1]维基百科 Apache Hadoop [EB/01] http:///wiki/Apache_Hadoop,2015

[2]Hadoop 技术 [EB/01] http:/// ,2010

[3]朱珠. 基于 Hadoop 的海量数据处理模型研究和应用[D].北京:北京邮电大学,2008.

[4]JeffreyDean, SanjayGhemawat. MapReduce: Symplified Data Processing on Large Clusters

[J].NewYork: ACM, 2008, 51(1):107~113.

[5]韩家炜, 坎伯. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2008.

[6]Dean J,Ghemawat S.MapReduce:Simplifier date processing on large munications of the ACM ,2008,51(1):107-113

[7]B.Callaghan,B.Pawlowski,P. Staubach RFC 1813-NFS Version 3 Protocol Specification June 1995.

[8]Jeffrey Dean. Experiences with MapReduce, an abstraction for large-scale computation Proc.15th International Conference on Parallel Architectures and Compilation Techniques,2006:1.

[9]Yang Lai, Shi ZhongZhi. An Efficient Data Ming Framework on Hadoop using Java Persistence API. 2010 10th IEEE International Conference on Computer and Information Technology (CIT 2010).

[10]Bhandarkar, M. MapReduce programming with apache Hadoop. Parallel & Distributed Processing (IPDPS), 2010 IEEE International Symposium on, Atlanta, GA.

数据分析设计篇(7)

关键词:工程教育;CDIO教育理念;教学设计模式;实践类课程

现今世界,利用大数据技术打造指引行业发展的风向标,已成为各行业向智能经济发展迈出的重要步伐。然而,当前大数据专业人才极其短缺。我校肩负着服务武陵山片区区域发展与扶贫攻坚国家战略的使命,承担着为西部地区培养优秀工程技术人才的重任。近年 来,我校紧跟以人工智能、大数据技术为代表的新科技发展步伐,积极推进新工科建设,成为首批30所入围数据中国“百校工程”项目建设院校之一[1],新获批的“数据科学与大数据技术”专业(以下简称大数据专业)于2018年开始招生。如何根据时代需求办好大数据新专业,以培养具有大数据思维、掌握大数据分析应用技术的高层次人才是我校面临的一个新挑战。大数据专业实践类课程教学是体现该专业办学质量和人才培养水平的重要标志。如何利用先进教学理念提高该类课程的教学质量和人才培养水平,是我校大数据专业建设 过程中必须重视的问题。本研究立足于我校大数据专业建设的实际需求,探究基于CDIO理念的大数据专业实践类课程教学设计模式。本研究的实施,将为我校创新型工程教育改革探索道路,不仅有利于提升我校大数据专业实践类课程的教学质量,也将对其他工科课程教 学改革起到一定的指导和借鉴作用。

1 CDIO工程教育模式的发展及内涵

上世纪80年代起,工程人才短缺和高等院校工程教育低质量之间的矛盾日益突出,产业对工程教育改革的呼声不断高涨。1986年,美国的工程教育学会、国家研究委员会和国家工程院等机构开始探索工程教育改革之路。2000年,麻省理工学院和瑞典皇家工学院等四 所大学组成的跨国研究机构,正式启动CDIO教育改革计划,在广泛调研和大量实践研究的基础上,制定了CDIO教学大纲[2]。2004年,CDIO工程教育模式创立,并开始向世界各国推广。2005年,瑞典国家高教署建立了CDIO的12条新标准,并将之用于对本国100个工程学位 计划进行评估[3]。迄今为止,包括麻省理工学院在内的丹麦、南非、法国、新加坡、中国等国家的几十所世界著名大学加入了CDIO国际组织。这些学校的多个工科院系在教学中借鉴和采纳了CDIO工程教育理念,取得了良好的效果。目前,CDIO已成为国内外高校工程教育改革和培养体系制定等领域研究和实践的热点。实践表明,CDIO教育模式不但能提高学生团队协作能力、综合解决问题能力,而且在学生创新能力培养方面效果显著。据文献[4-5],CDIO工程教育模式自2005年开始引入我国。2006年,汕头大学成为中国高校中的首个CDIO成员。2008年12月,教育部高教司理工处联合汕头大学主办了CDIO工程教育模式试点工作会议,成立“教育部CDIO工程教育改革试点工作组”,确定了18所高校及相关专业(机械类、电气类、化工类、土木类)为国内首批CDIO试点。工作组每年举办两次全国性的会议, 对CDIO试点工作进行交流、研讨和总结,并通过CDIO培训班为全国高校实施CDIO教育培养骨干人才。2016年1月,“全国CDIO工程教育联盟”成立。至今已有100余所高校加入联盟。这些高校的部分工科专业采用CDIO工程教育模式教学,培养出来的学生深受社会与企业欢 迎。当前,在联盟全体成员的共同努力下,我国高校积累了一系列改革经验与成果,在基于CDIO理念建立专业培养标准,构建一体化课程体系,实施基于项目/问题、探究式等主动教与学方法等方面都取得了显著进步,有效推进了CDIO的本土化与再创新。近年来,国内CDIO的研究趋势从CDIO教育模式、教学体系等宏观的主题向具体的课程教学改革、课程建设等更深更细的方向发展,诸多教师在教学实践中尝试了采用CDIO理念进行课程教学改革的研究与探索[6-10]。CDIO工程教育模式是国际创新型工程教育改革的最新成果,体现了系统 性、科学性和先进性的统一,代表了当代工程教育的发展趋势。该模式以产品研发到产品运行的生命周期为载体,让学生以主动的、实践的、课程之间有机联系的方式进行工程学习。CDIO的4个字母代表Conceive(构思)、Design(设计)、Imple⁃ment(实现)和Operate(运作)四个单词。CDIO主要包括三个核心文件[11]:1个愿景、1个大纲和12条标准。CDIO愿景提供了一种强调工程基础的、建立在真实世界的产品和系统的“构思-设计-实现-运行”的CDIO过程背景环境基础上的工程教育。CDIO大纲从技术知识和推理能力、个 人职业技能和职业道德、人际交往技能、企业和社会的构思-设计-实施-运行(CDIO)系统四个方面,以逐级细化的方式,将工程师需具备的工程基础知识、个人能力、人际团队能力和整个CDIO全过程能力表达出来,要求用综合的培养方式使学生在工程基础知识、个人能力、人际团队能力和工程系统能力四个层面达到预定目标。CDIO的12条标准[12]涉及到专业哲学(标准1)、课程计划开发(标准2-4)、设计实现经验和实践场所(标准5-6)、教与学的方法(标准7-8)、教师发展(标准9-10)、学生考核与专业评估(标准11-12),回答了工程教育“如何培养人”的问题,使得工程教育改革变得具体化、可操作和可测量,能够对整个教育模式的实施和检验起到系统全面的指引作用,对学生的学和教师的教都具有重要指导意义。

2 CDIO理念下大数据专业实践类课程教学设计的思路与策略

2.1 设计思路

大数据专业实践类课程教学是培养学生运用理论知识、科学方法和技术技能去解决大数据工程实际问题并进行科技创新的实践能力的重要环节。目前,我校大数据专业实践类课程教学组织方式通常以项目为单位设计,重视对学生解决实际问题(主要是项目涉及到的 具体问题)的能力,但不关注学生在整个项目周期中知识、能力、态度等的变化情况,无法全面覆盖技术性与非技术性能力的培养目标。CDIO理念要求培养出来的学生必须在工程基础知识、个人能力、人际团队能力和工程系统能力四个层面都达到预定目标。CDIO教育模 式强调一体化与参与性,促使学生在项目研发到项目运行的整个项目周期中进行锻炼与思考,课程教学不仅要关注学生学到的学科知识,更要关注学生能力、素质的提升情况。显然,CDIO理念下大数据专业实践类课程教学设计应强调“知识与能力”并重,紧扣CDIO大纲 和CDIO标准,进行教学大纲和教学组织方式的设计,并设置以“学习评估为中心”的多样化考核方式。

2.2 设计策略

教学大纲方面,本研究尝试结合大数据类专业培养目标,依据CDIO大纲,对大数据专业实践类课程教学大纲进行设计:依据CDIO大纲的主题和条目组织课程大纲结构,并明确描述与期望能力要求相对应的课程学习目标。教学组织方式方面,本研究尝试在大数据专业 实践类课程教学中以“做中学”为依托,将整个课程教学安排以项目为载体,针对每个项目为学生提供“构思-设计-实施-运行”的流程,并将实践所需知识、能力、素质等培养目标围绕项目这个核心融入教学实践中,让学生的整个学习过程变成对一个个项目的完整实践过程。教学考核方面,本研究尝试匹配CDIO大纲的能力目标,具体根据课程概念及原理性知识的理解、技能掌握、设计—实现经验获取、分析及解决问题能力、交流表达能力和综合实践能力等类别的学习效果的评估需要,在大数据专业实践类课程教学考核方式设置时, 对不同类别的学习效果设计不同的考核方式。

3 CDIO理念下的大数据专业实践类课程教学设计模式

3.1 教学大纲框架设计

基于CDIO理念的教学大纲需要对融合了知识、能力、态度的学习效果进行准确描述,并清晰指明该课程整体及每一节课对学生所需学习的内容和所需掌握的能力要求。依据CDIO大纲中关于个人能力、职业素养等方面的培养要求,本研究将大数据专业实践类课程教学 大纲框架设计为如表1形式。

3.2 教学组织方式设计

如何在实践教学组织中体现CDIO教育理念是实施CDIO教学的基础[13]。本研究基于CDIO理念将大数据专业实践类课程教学组织方式设计为如图1所示的“理论讲授-任务布置-项目构思-项目设计-项目实施-项目运行”六个环节构成的有机体。让学生在参与项目的构思 、设计、实施、运行这四个环节的活动中逐渐形成较完整的系统思维。

3.3 考核方式设置

CDIO理念下的教学是师生共同学习的过程,要求以“学”为中心进行评估,教学与考核相互联系,考核用来促进和诊断教学和学习。为了评估课程教学所培养学生的能力能否达到CDIO大纲要求的预定目标,需要从不同方面检验学生的学习效果。为此,本研究根据不 同类别的学习效果评估的需要,以过程性考查为重点,设置不同的考核方式如表2所示。上述各类考核方式可综合应用于专业实践类课程教学的整个过程。为确保评估的可靠性和有效性,可在不同阶段选择一种或多种考核方式对不同类别的学习效果进行评估。

友情链接