大数据采集及其研究进展-职坐标

大数据采集及其研究进展

沉沙 2018-10-11 来源：阅读 2688 评论 0

摘要：本篇教程介绍了大数据采集及其研究进展，希望阅读本篇文章以后大家有所收获，帮助大家对大数据云计算大数据采集的理解更加深入。

本篇教程介绍了大数据采集及其研究进展，希望阅读本篇文章以后大家有所收获，帮助大家对大数据云计算大数据采集的理解更加深入。

一、
大数据基本概念

大数据Big Data是指大小超出了经常使用的软件工具在执行时间内能够承受的收集，管理和处理数据能力的数据集;大数据是眼下存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。
大数据的预处理
主要完毕对已接收数据的辨析、抽取、清洗等操作。
(1)抽取：因获取的数据可能具有多种结构和类型，数据抽取过程能够帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到高速分析处理的目的。
(2)清洗：对于大数据，并不全是有价值的，有些数据并非我们所关心的内容，而还有一些数据则是全然错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。
大数据带来的数学问题
在数学上来看，计算机中存在不断变大的数据集，不存在绝对的大数据，计算机中的全部数据集都是有限集合。
大数据採样——把大数据变小、找到与算法相适应的极小样本集、採样对算法误差的影响
大数据表示——表示决定存储、表示影响算法效率
大数据不一致问题——导致算法失效和无解、怎样消解不一致
大数据中的超高维问题——超高维导致数据稀疏、算法复杂度添加
大数据中的不确定维问题——多维度数据并存、按任务定维难
大数据中的不适定性问题——高维导致问题的解太多难以抉择
大数据的特征
稠密与稀疏共存：局部稠密与全局稀疏
冗余与缺失并在：大量冗余与局部缺失
显式与隐式均有：大量显式与丰富隐式
静态与动态忽现：动态演进与静态关联
多元与异质共处：多元多变与异质异性
量大与可用矛盾：量大低值与可用稀少
眼下大数据的外延
大数据规模大小是一个不断演化的指标：
当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB?PB?EB?ZB)
处理大数据的可等待的合理时间依赖任务的目标：
地震数据预測要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内

二、
大数据悖论

大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后，当今的数据爆炸孕育了数据密集型科学，将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽，用之不竭”的特性，在不断的再利用、重组和扩展中持续释放其潜在价值，在广泛的公开、共享中不断创造着新的財富。根源在于，大数据的价值在于预測未知领域、非特定因素的未来趋势，在于破解长期的、普遍的社会难题。而眼下的大数据技术和应用，依旧局限于历史和实时数据的关联分析，局限于满足短线的、特定的市场需求。解决悖论的过程，恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力，正好是大数据落地生根的推动力。

方法论缺位
自2008年《自然》杂志推出“大数据”专刊以来，大数据概念就从学术大讨论，转向了企业的数字化转型，进而上升到“开放政府数据”的战略布局。然而，单纯的数量上的规模庞大，并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等差别开，由于三者均没有设置数量级等门槛。
方法论缺位是最大的障碍。大数据发展的核心动力源于人们測量、记录和分析世界的渴望，满足这些渴望须要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天，在便宜的、便捷的数字化存储普及的当下，数据无处不在，技术正以标准化、商品化的方式提供，其实思维和方法论才是决定大数据成败的关键，但眼下来看，跨越学术与产业、技术与应用之间鸿沟的方法论依旧不完好。
在社会难题中淘金
正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样，悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决，也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后，大数据技术趋势一下子跌到谷底，很多数据创业公司变得岌岌可危……依据这条著名的Gartner技术成熟度曲线，大数据已经走过了萌芽期和泡沫化的炒作期，并将在未来3~5年内步入低谷期。


市场中的鸿沟
大数据营销模型将经历创新者、早期採用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝，当中最大、最危急的裂缝存在于早期市场与主流市场之间，我们称之为“鸿沟”。
大数据的主流市场来源于有用主义的早期大众和保守主义的后期大众，两者各自占领大数据市场1/3的份额。这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累，并深谙大数据的社会价值和经济价值。有所不同的是，前者希望看到成熟的解决方式和成功的应用案例，它们大多是金融、能源、电信等公共服务部门。而后者须要有更安全可靠的大数据保障和广泛的社会应用基础，它们大多是致力于解决环境、能源和健康等社会问题的公共管理部门。
大数据技术和应用获得创新者的追捧是显而易见的，获得早期市场的拥护也是轻而易举的。可是，不因“时髦”而增加，不因“过时”而退出，才干成为大数据主流市场的掘金者。遗憾的是，不少企业也许会成为“鸿沟中的牺牲者”，而无缘迎接大数据真正应用市场的到来。
规划总体产品
现代营销奠基人之——西奥多·莱维特给出了“总体产品”的概念。依据这一概念，大数据产品应该包含作为“核心吸引物”的一般产品、满足0基础心理需求的期望产品和实现更高阶參与以及自我实现的延伸产品和潜在产品4个部分。

三、大数据挑战性问题

现有的数据中心技术非常难满足大数据的需求，须要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长，因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销，眼下传送大数据最高效也是最有用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代，IT系统须要从数据围着处理器转改变为处理能力围着数据转，将计算推送给数据，而不是将数据推送给计算。应对处理大数据的各种技术挑战中，下面几个问题值得重视：
1、大数据对科学规范的挑战
大数据带来了新的科研范式
科研第四范式是思维方式的大变化，已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式”，将大数据科研从第三范式中分离出来单独作为一种科研范式，是由于其研究方式不同于基于数据模型的传统研究方式。PB级数据使我们能够做到没有模型和如果就能够分析数据。将数据丢进巨大的计算机机群中，仅仅要有相关关系的数据，统计分析算法能够发现过去的科学方法发现不了的新模式、新知识甚至新规律。
大数据怎样应用于开放的研究
大数据基于对海量数据的分析产生价值，那么怎样获得海量数据来让大数据真正落地呢？这当中最不可或缺的一个环节就是数据开放。如今推进数据开放更为重要的是通过数据的共享来产生很多其它的价值。数据开放可以提高社会执行效率，积极整合各方公开的数据，建立基于大数据的城市规划来缓解交通和社会治安问题。  数据开放可以激发巨大的商业价值，数据开放是面向社会大众的开放，不论什么人仅仅要有能力都可以用它来创造新的商机。
加强数据开放，为大数据发展打牢基础。在大数据应用日益重要的今天，数据资源的开放共享已经成为在数据大战中保持优势的关键。促进商业数据和个人数据的开放与共享。商业数据和个人数据的共享应用，不仅能促进相关产业的飞速发展，产生巨大的经济价值，也能给我们的生活带来巨大的便利。常常网购的人会有这样一种体验。非常多电商站点可以在我们买书的时候，推荐我们刚好喜欢的其它书籍，这正是站点依据成千上万甚至上亿人的个人数据的统计分析而得出的，可是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。因此，完好个人隐私保护等相关立法，对哪些个人数据可以进行商业化应用、应用范围怎样界定、数据滥用应承担哪些责任等详细问题做出规范，从而保证数据开放工作稳步推进，为大数据发展应用打好根基。
重现大数据研究结果
数据量的增大，会带来规律的丧失和严重失真。维克托·迈尔-舍恩伯格在其著作《大数据的时代》中也指出“数据量的大幅添加会造成结果的不准确，一些错误的数据会混进数据库，”此外，大数据的另外一层定义，多样性，即来源不同的各种信息混杂在一起会加大数据的混乱程度，统计学者和计算机科学家指出，巨量数据集和细颗粒度的測量会导致出现“错误发现”的风险添加。大数据意味着很多其它的信息，但同一时候也意味着很多其它的虚假关系信息，海量数据带来显著性检验的问题，将使我们非常难找到真正的关联。
我们以一个实际的案例来看一下样本量不断增大之后，会出现的问题：

上表是关于某年网络游戏历程扩散的回归分析，当样本量是5241个的时候，你会发现用一个简单的线性回归拟合这个数据，年龄、文化程度、收入这三个变量显著，当我们把样本量添加到10482个的时候，发现独生子女和女性開始显著，添加到20964个的时候，体制外这个变量也開始显著，当样本添加到33万的时候，全部变量都具有显著性，这意味着世间万物都是有联系的。样本大到一定程度的时候，非常多结果自然就会变得显著，会无法进行推论，或者得出虚假的统计学关系。此外，断裂数据、缺失数据（下文将会进行分析）的存在将会使这样的虚假关系随着数据量的增长而增长，我们将非常难再接触到真相。
其实，真实的规律是这种：

对一个社会现象进行客观深刻准确的分析，对事物的理解须要数据，但更须要分析思维，在大数据时代，理论并不是不重要，而是变得更加重要。我们所指的理论也并不是僵化一成不变的固守旧有理论，而是在处理问题的过程中意识到海量数据所带来的复杂性，坚持分析方法和理论的不断创新。
大数据研究结果可信与否
《大数据时代》一书的作者维克托·迈尔-舍恩伯格说，大数据的核心就是预測。它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。他觉得，大数据大大解放了人们的分析能力。一是能够分析很多其它的数据，甚至是相关的全部数据，而不再依赖于随机抽样;二是研究数据如此之多，以至于我们不再热衷于追求准确度;三是不必拘泥于对因果关系的探究，而能够在相关关系中发现大数据的潜在价值。因此，当人们能够放弃寻找因果关系的传统偏好，開始挖掘相关关系的优点时，一个用数据预測的时代才会到来。
不可否认，大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步，是人类决策工具的进步。改编自迈克尔·刘易斯的《魔球：逆境中制胜的智慧》的影片《点球成金》，讲述了一个真实的故事，介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学，描写叙述了他抛弃几百年延续的选择球员的惯常做法，採用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆，是让数据说话的成功范例。正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分，视为机器学习的一种应用一样，数据决策和数据旁证的博弈事实上是人和机器的博弈。即便是有一将难求的数据科学家的协助，大数据决策依旧是辅助系统。
在这一阶段，云计算是基础设施，大数据是服务工具，两者将满足特定语境下的、短线的市场需求，更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。换言之，大数据将演绎“信息转化为数据，数据集聚成知识，知识涌现出智慧”的进程。

2、大数据带来的社会问题
在基于社交媒体和数字化记忆的大数据时代，人们不仅操心无处不在的“第三仅仅眼”，并且操心隐私被二次利用。由于，亚马逊监视着我们的购物习惯，谷歌监视着我们的网页浏览习惯，微博似乎什么都知道，包含我们的社交关系网……可怕的不是这些隐私数据，而是大数据的全数据分析、模糊计算和重关联却不求因果的特性，让隐私数据与社交网络等关联起来。依照维克托·迈尔-舍恩伯格的说法，危急不再是隐私的泄漏，而是被预知的可能性——这些可以预測我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险，无法贷款，甚至实施犯罪前就被预先逮捕。
不管怎样，大数据正在推动产权认知和结构的变革，以往IT产业链的主宰者或将在变革中遭遇冲击。大数据的魅力在于它可以让企业在无边界的数据海洋里遨游，发现社会进步的内在韵律，捕捉社会发展的先行參数。比方从消费者兴趣图谱中萃取研发创新智慧，而不局限于产品关联性分析;比方对企业内外部利益相关者群体智慧的发掘，开展企业和产业的健康诊断，而不局限于短效的精益管理;比方对地震等自然灾害的预警，构架社会应急机制……

3、大数据带来的技术挑战
抽样分析+全数据验证的分析思路
添加样本easy，减少算法复杂度难。维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点，当中之中的一个是：分析全部的数据，而不再只依靠一小部分数据。全数据一时甚嚣尘上，企业、研究者以为大数据就是全数据，以至于再谈抽样都似乎带有保守主义色彩，这样的看法无疑是对大数据和抽样二者都存在偏见和不足，假设觉得大数据就是收集全部样本的信息，让数据自己说话，那么在方法论上就是狭隘的。
这里也涉及了全数据的第二个问题全（暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全：谷歌利用搜索记录而预測到流感爆发的案例被广为引用以说明数据自会说话，当人们開始在网上搜索关于感冒的词汇表明他感染了流感，建立流感与空间、病毒的关系，可以成功的预測一场流感）数据确实能看到变化，通过变化作出“预測”，但无法解释变化的影响因素，维克托·迈尔·舍恩伯格对此的回答是：我们要相关性，不要因果关系。这并不是是这位作者有选择的选择，而是放弃抽样而直接採用大数据的必定。
《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据，而盖洛普仅在严格抽样基础上研究了5000人，是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。
没有抽样的拟合，直接面对大数据，将使我们失去对人的了解，对真实规律的追寻，毕竟不是全部的社会事实都一场流感一样易于预測，况且即便是谷歌被广为赞誉的流感预測案例也被觉得存在问题：在与传统的流感监測数据比較之后，依据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的准确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而仅仅能补充传统的流行病监測网络。他们正在开发噪音较少的替代跟踪方法，比如基于Twitter的流感跟踪仅仅包括真正病人的帖子，而不是转载的流感新闻报道。

分析理解大数据——盲人摸象
数据是企业最重要的资产，并且随着数据产业的发展，将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现，对企业应用和研究发现来讲都是如此，因此我们须要合理的机制在保护数据安全的情况下开放数据，使数据得到充分利用。有效的解决的方法之中的一个是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据，在数据层面打破现实世界的界限，进行多家公司的数据共享而不是一家公司盲人摸象，这才干实现真正意义上的大数据，赋予数据更广阔全面的分析空间，才会对产业结构和数据分析本身产生思维转变和有意义的变革。

4、大数据管理的挑战
每一种非结构化数据均可被视为大数据。这包含在社交站点上的数据、在线金融交易数据、公司记录、气象监測数据、卫星数据和其它监控、研究和开发数据。大数据存储与管理要用存储器把採集到的数据存储起来，建立对应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统（DFS）、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术；突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术；突破大数据索引技术；突破大数据移动、备份、复制等技术；开发大数据可视化技术。
通过隔离管理大数据存储
假设有多个存储箱，那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是个不错的选择。其他存储系统则用于大数据应用如门户站点，在线流媒体应用等。
假设没有存储系统，将特定的前端存储port到数据库，OLTP等等;致力于大数据应用到其它port。背后的基本原理是使用专用port，而大数据流量是以千字节或兆字节衡量，OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量，由于数据块的大小是比大数据更大而比OLTP应用程序更小。OLTP应用程序是CPU密集型的，而大数据应用程序很多其它的使用前端port。因此，很多其它的port能够专注于大数据应用。
专业的大数据存储管理
兼容数据管理的存储系统。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择，由于在一个单一的文件系统中大数据能增长到多字节的数据。
大数据分析
除了存储，大数据管理的还有一项大的挑战是数据分析。一般的数据分析应用程序无法非常好的处理大数据，毕竟涉及到大量的数据。採用专门针对大数据的管理和分析的工具，这些应用程序执行在集群存储系统上，缓解大数据的管理。管理大数据的还有一个须要重点考虑的是未来的数据增长。你的大数据存储管理系统应该是可扩展的，足以满足未来的存储需求。
大数据的存储管理和云计算
眼下正在寻找云计算服务来进行存储和管理海量数据。而选择云服务来大型数据存储管理，能够确保数据的全部权。有权选择将数据移入或移出云服务，而不被供应商锁定。

5、大数据挖掘挑战
面临的挑战
(1)大数据集的挑战
例如以下图为数据到知识的演化过程示意图：

缺少大数据复杂度冗余度的度量方法
缺少确保近似算法精度分析方法
缺少依据分布知识对大数据进行抽样的方法
(2)数据复杂性挑战
挖掘将会非常大程度地提高数据分析的性能和灵活性。源于数据仓库的数据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能。除了传统的数据立方体技术，最近的研究致力于构建回归立方体、预測立方体以及其它的面向统计的复杂数据立方体。这种多维或高维分析工具对分层多维数据的有效分析提供了保证。
(3)数据动态增长的挑战

研究内容
(1)研究分布式并行计算环境下的大数据大数据分析的基本策略
I.与数据分布相联系的分治策略
II.与算法机理相结合的并行策略
(2)研究复杂度降精度可控的新的大数据分析算法
I.大数据分类、聚类、关联分析、异常发现等
      (3)大数据分析平台研发

四、
大数据挖掘的算法

分类和预測是两种分析数据的方法，它们可用于抽取可以描写叙述关键数据集合或预測未来数据趋势的模型。分类方法用于预測数据对象的离散类别;而预測则用于预測数据对象的连续取值。很多分类和预測方法已被机器学习、专家系统、统计学和神经生物学等方丽的研究者提出，当中的大部分算法属于驻留内存算法，通常假定的数据量非常小，最初的数据挖掘方法大多都是在这些方法及基于内存基础上所构造的算法。眼下数据挖掘方法都要求，眼下的数据挖掘研究已经在这些工作基础之上得到了非常大的改进，开发了具有基于外存以处理大规模数据集合能力的分类和预測技术，这些技术结合了并行和分布处理的思想。
1、    数据变小——分类算法
分类是找出数据库中的一组数据对象的共同特点并依照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。能够应用到涉及到应用分类、趋势预測中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，依据情况向用户推荐关联类的商品，从而添加商铺的销售量。
空间覆盖算法－基于球邻域的空间划分

空间覆盖算法－仿生模式识别

空间覆盖算法－视觉分类方法
VCA把数据看作一幅图像，核心是基于尺度空间理论，选择合适的尺度使得同类样本区域融合在一起。

分类超曲面算法HSC
设训练样本所在空间为一封闭维方体区域，将此区域依照一定细分规则划分成若干小区域，使每一个小区域仅仅包括同一类样本点，并用样本点的类别标定该区域，合并相邻同类区域边界，获得若干超平面片封闭组成的分类超曲面。输入新样本点，依据分类判别定理推断样本点所在的类别。
特点：
(1)通过特征区域细化直接解决非线性分类问题,不须要考虑使用何种函数，不须要升维变换。
(2)通用可操作的分类超曲面构造法，基于分类超曲面的方法通过区域合并计算获得分类超曲面对空间进行划分
(3)独特、简便、易行的分类判别方法,基于分类超曲面的方法是基于Jordan定理的分类推断算法,使得基于非凸的超曲面的分类判别变得简便、易行。

2、    极小覆盖子集
覆盖型分类算法的极小覆盖子集——对特定的训练样本集，若其子样本集训练后得到的分类模型与与原样本集训练后得到的分类模型同样，则称子样本集是原样本集的一个覆盖。在一个样本集的全部覆盖中，包括样本个数最少的覆盖称为样本集的极小覆盖子集。
(1)计算极小覆盖子集的基本步骤:
用一个方形区域覆盖全部样本点;将该区域划分成一系列小区域 (单元格)，直到每一个小区域内包括的样本点都属于同一类别;将落在同一小区域内的样本点中选择且仅选择一个样本构成极小覆盖子集。
(2)採样受限于极小覆盖子集
全样本空间必定包括极小覆盖子集,随意一个数据集未必包括完整的极小覆盖子集。大数据环境下，极小覆盖子集中的样本很多其它地包括在大数据中，较多的数据能够战胜较好的算法、再多的数据亦不会超过极小覆盖子集的代表性、再好的提升手段亦不会超过极小覆盖子集确定的精度。

3、    回归分析
回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它能够应用到对数据序列的预測及相关关系的研究中去。在市场营销中，回归分析能够被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预測并做出针对性的营销改变。
4、    聚类
聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性非常大，但不同类别之间数据的相似性非常小，跨类的数据关联性非常低。
5、    关联规则
关联规则是隐藏在数据项之间的关联或相互关系，即能够依据一个数据项的出现推导出其它数据项的出现。关联规则的挖掘过程主要包含两个阶段：第一阶段为从海量原始数据中找出全部的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预測客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取对应信息来改善自身的营销。
6、    神经网络方法。
神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预測和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART 模型为代表。尽管神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，并且人们非常难理解网络的学习及决策过程。
7、    Web数据挖掘
Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，假设将C看做是输入，P 看做是输出，那么Web 挖掘过程就能够看做是从输入到输出的一个映射过程。

五、
大数据展望与应用

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供根据，从而提高各个领域的执行效率，大大提高整个社会经济的集约化程度。根据ESM国际电子商情针大数据应用现状和趋势的调查显示：被调查者最关注的大数据技术中，排在前五位的各自是大数据分析（12.91%）、云数据库（11.82%）、Hadoop（11.73%）、内存数据库（11.64%）以及数据安全（9.21%）。Hadoop已不再是人们心目中仅有的大数据技术，而大数据分析成为最被关注的技术。从中能够看出，人们对大数据的了解已经逐渐深入，关注的技术点也越来越多。既然大数据分析是最被关注的技术趋势，那么大数据分析中的哪项功能是最重要的呢?从下图能够看出，排在前三位的功能各自是实时分析(21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。从调查结果能够看出：在未来一两年中有迫切部署大数据的需求，而且已经从一開始的基础设施建设，逐渐发展为对大数据分析和总体大数据解决方式的需求。
大数据将重点应用于下面几大大领域：商业智能、政府决策、公共服务等。

行业拓展者，打造大数据行业基石
IBM：IBM大数据提供的服务包含数据分析，文本分析，蓝色云杉;业务事件处理；IBM Mashup Center的计量，监測，和商业化服务（MMMS）。 IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights，基于Apache Hadoop。该产品组合包含：打包的Apache Hadoop的软件和服务，代号是bigInsights核心，用于開始大数据分析。软件被称为bigsheet，软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融，风险管理，媒体和娱乐等行业量身定做的行业解决方式微软：2011年1月与惠普（详细而言是HP数据库综合应用部门）合作目标是开发了一系列可以提升生产力和提高决策速度的设备。
EMC：EMC 斩获了纽交所和Nasdaq；大数据解决方式已包含40多个产品。
Oracle：Oracle大数据机与Oracle Exalogic中间件云server、Oracle Exadata数据库云server以及Oracle Exalytics商务智能云server一起组成了甲骨文最广泛、高度集成化系统产品组合。

大数据促进了政府职能变革
重视应用大数据技术，盘活各地云计算中心资产：把原来大规模投资产业园、物联网产业园从政绩project，改造成智慧project；在安防领域，应用大数据技术，提高应急处置能力和安全防范能力；在民生领域，应用大数据技术，提升服务能力和运作效率，以及个性化的服务，比方医疗、卫生、教育等部门；解决在金融，电信领域等中数据分析的问题：一直得到得极大的重视，但受困于存储能力和计算能力的限制，仅仅局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革，还有一方面政府投入将形成示范效应，大大推动大数据的发展。

打造“智慧城市”
通过收集、处理庞大而复杂的数据信息，从中获得知识和洞见，提升能力，加快科学、project领域的创新步伐，强化安全意识，转变教育和学习模式。智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效，随着智慧城市的建设，社会将步入“大数据”时代。

未来，改变一切
未来，企业会依靠洞悉数据中的信息更加了解自己，也更加了解客户。数据的再利用：因为在信息价值链中的特殊位置，有些公司可能会收集到大量的数据，但他们并不急需使用也不擅长再次利用这些数据。但当它被一些公布个性化位置广告服务和促销活动的公司再次利用时，则变得更有价值。