大数据处理

大数据处理是对复杂海量数据价值的提炼，而最有价值的部分是预测分析，它可以帮助数据科学家通过数据挖掘形式，例如数据可视化，统计模式识别和数据描述等等，更好地理解数据。根据数据挖掘的结果得出预测性决策。

大数据处理模式

1、批处理模式

Google 公司在 2004 年提出的 MapReduce 编程模型是最具代表性的批处理模式。MapReduce 模型首先将用户的原始数据源进行分块，然后分别交给不同的 Map 任务去处理。

Map 任务从输入中解析出 key/value 对集合，然后对这些集合执行用户自行定义的 Map 函数以得到中间结果，并将该结果写入本地硬盘。Reduce 任务从硬盘上读取数据之后，会根据 key 值进行排序，将具有相同 key 值的数据组织在一起。最后，用户自定义的 Reduce 函数会作用于这些排好序的结果并输出最终结果。

MapReduce 的核心设计思想有两点。

· 将问题分而治之，把待处理的数据分成多个模块分别交给多个 Map 任务去并发处理。

· 把计算推到数据而不是把数据推到计算，从而有效地避免数据传输过程中产生的大量通信开销。

2、流处理模式

流处理模式的基本理念是，数据的价值会随着时间的流逝而不断减少。因此，尽可能快地对最新的数据做出分析并给出结果是所有流处理模式的主要目标。

需要采用流处理模式的大数据应用场景主要有网页点击数的实时统计，传感器网络，金融中的高频交易等。流处理模式将数据视为流，将源源不断的数据组成数据流。当新的数据到来时就立刻处理并返回所需的结果。

数据的实时处理是一个很有挑战性的工作，数据流本身具有持续到达、速度快、规模巨大等特点，因此，通常不会对所有的数据进行永久化存储，同时，由于数据环境处在不断的变化之中，系统很难准确掌握整个数据的全貌。

由于响应时间的要求，流处理的过程基本在内存中完成，其处理方式更多地依赖于在内存中设计巧妙的概要数据结构。内存容量是限制流处理模式的一个主要瓶颈。

大数据处理步骤

大数据处理的第一个步骤就是数据抽取与集成。这是因为大数据处理的数据来源类型丰富，大数据处理的第一步是对数据进行抽取和集成，从中提取出关系和实体，经过关联和聚合等操作，按照统一定义的格式对数据进行存储。现有的数据抽取和集成方法有三种，分别是基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎。这些引擎都是很重要的。

大数据处理的第二个步骤就是数据分析。数据分析是大数据处理流程的核心步骤，通过数据抽取和集成环节，我们已经从异构的数据源中获得了用于大数据处理的原始数据，用户可以根据自己的需求对这些数据进行分析处理，比如数据挖掘、机器学习、数据统计等，数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。通过数据分析我们能够掌握数据中的信息。

大数据处理的第三个步骤就是数据解释。大数据处理流程中用户最关心的是数据处理的结果，正确的数据处理结果只有通过合适的展示方式才能被终端用户正确理解，因此数据处理结果的展示非常重要，可视化和人机交互是数据解释的主要技术。这个步骤能够让我们知道我们分析数据的结果。

当然，使用可视化技术，可以将处理的结果通过图形的方式直观地呈现给用户，标签云、历史流、空间信息流等是常用的可视化技术，用户可以根据自己的需求灵活地使用这些可视化技术。而人机交互技术可以引导用户对大数据进行逐步的分析，使用户参与到数据分析的过程中，使用户可以深刻地理解数据分析结果。这些都是我们所关注的内容。