大数据技术介绍
可复制的文字
大数据技术介绍 01 大数据概述 02 大数据领域的关键技术
目录 CONTENT 03 大数据行业状况与典型应用 04 大数据产业的未来发展趋势 1
PART ONE 大数据概述
• 大数据发展的背景 • 大数据的定义 • 大数据的特点 • 大数据面临的问题 Instagram Email
Twitter AppStore 使用者寄送 使用者发出超过100000 用户分享3600张 204166667封 照片 条内容 邮件 APP被下载47000次 Flickr Google 用户新增3125张照片 接受超过2000000次查询 1分钟
Facebook Customer
使用者上传700000条内 在⽹络上消费272070美 容 元(双⼗⼀呵呵⼀笑) YouTube Website Wordpress User
使用者上传48小时影片 571个新⽹站建立 用户发表347篇⽂章 217名移动⽹络新 用户诞⽣ 1.1 大数据发展的背景 (1)数据爆炸 • 伴随着互联⽹、物联⽹、电⼦商务、社交媒体、现代物流、⽹络⾦融等⾏业的发展,全球数 据总量正呈⼏何级数增长,过去⼏年时间产⽣的数据总量超过了⼈类历史上的数据总和,预 计2020年全球数据总量将达到35.2ZB,⼈类将进⼊“泽它”(ZB)时代(1ZB=⼗万亿亿字节) 纽约证券交易所 淘宝 每天产生1TB的交易数据 每天产生的数据超过 50TB
Twitter 百度 每天产生7TB的数据 拥有的数据总量超过 100PB 欧洲物理实验室大 型例子对撞机 Facebook 每年产生15PB的数据 每天产生的数据超过 100TB 1.1 大数据发展的背景 (2)感知化、物联化、智能化 • 感知化:指数据源的变化。传感器、RFID标 签、芯片、摄像头遍布世界的各个角落,物理 世界中原本不能被感知的事物现在可以被感知, 它们通过各种技术被接⼊了互联⽹世界。 • 物联化:指的是数据传送⽅式的变化。继⼈与
⼈、⼈与机器的互联后,机器与机器之间的互 联成为当下的发展趋势。未来数据可能来自于 自⾏车、电器、道路、自来⽔管,甚⾄是食物 的包装盒。 • 智能化:指的是数据使用⽅式的变化。“没有 解释就没有价值”。感知和互联并不是最终的 目的,数据只有经处理、分析和计算,从中提 取出有价值的东西,才能实现真正的价值。 1.1 大数据发展的背景 (3)大数据在各领域应用中逐渐崭露头角
传统的面向应用的开发模 大数据驱动业务发展 式逐渐被数据驱动
(DDD)的模式。大数 Netflix精心打造纸牌屋 据引发了商业、科研、政 (Cinematch,AWS) 务、社会服务等领域的深 刻变革 大数据支持政务活动 奥巴马竞选中的民意预测 (存储和分析选民资料、 筹集资金、投放广告) 大数据增强社会服务能力 洛杉矶智能交通 (ATSAC,用感应器收集车 速、流量等信息,实时处理) 大数据提高商业决策水平 US Xpress的物流运输 (用大数据分析车辆状况, 对车辆人员进行合理调度) 1.1 大数据发展的背景 (4)大数据成为各界争相鼓吹的概念
联合国
发布白皮书《大数据促发展:挑战与机遇》 2012.07 奥巴马政府 投资两亿美元启动“大数据研究和发 展计划” 2012.03 达沃斯论坛 发布报告《大数据,大影响》 2012.01
麦肯锡 2011.05 发布《大数据:创新、竞争力和生产 Nature 力的下一个前沿》,对大数据的影响 关键技术和应用领域进行了详细分析 发布BigData专刊,请研究人员和企 业家预测大数据所带来的革新 2008.09 1.2 大数据的定义 • 麦肯锡:⼤数据是指⼤小超出常规的数据库⼯ • Gartner公司:⼤数据是需要新护理模式才 具获取、存储、管理和分析能⼒的数据集。 能具有更强的决策⼒、洞察发现⼒和流程 (并不是说⼀定要超过特定TB的数据集才能算 优化的海量、⾼增长率和多样化的信息资 ⼤数据) 产。 • 维基百科:⼤数据指的是所涉及的资料量规模 • 美国国家标准技术研究院(NIST):数据 巨⼤到⽆法透过目前主流软件⼯具,在合理时 量⼤、获取速度快或形态多样的数据,难 间达到获取、管理、处理,并整理成帮助企业 以用传统关系型数据分析⽅法进⾏有效分 经营决策更积极目的的资讯。 析,或者需要⼤规模的⽔平扩展才能⾼效 处理。 • 国际数据公司(IDC):从⼤数据的4个特征来定义,即海量的数据规模(Volume)、数据处理的快 速性(Velocity)、多样的数据类型(Variety)、数据价值密度低(Value),即所谓的4V特性。IBM 认为⼤数据还应该具有其真实性(Veracity)。 1.3 大数据的特点
Volume(巨量性) (即时性)Velocity
数据体量巨大,数据规模已从GB到 数据产生、处理和分析速度在持续加 TB到PB,甚至开始以EB和ZB计数。 快,数据流量大,处理能力从批处理 转向流处理 Variety(多样性) (高价值、低价值密度)Value
大数据类型复杂。大量异构数据, 数据体量不断增大,单位数据的价 多源数据,半结构化数据、非结构 值密度不断降低,而数据的整体价 化数据大量涌现 值在提高 1.4 大数据面临的问题 大数据问题分类 大数据问题描述 导入导出问题 统计分析问题 速度方面的问题
检索查询问题 实时响应问题 多源问题 种类及架构问题 异构问题 原系统的底层架构问题 线性扩展问题 体量及灵活性问题 动态调度问题 大机与小型服务器的成本对比 成本问题 原有系统改造的成本把控 数据分析与挖掘问题 价值挖掘问题
数据挖掘后的实际增效问题 结构与非结构 存储及安全问题 数据安全 隐私安全 数据标准与接口 互联互通与数据共享问题 共享协议 访问权限 2 PART TWO 大数据领域的关键技术 • 传统数据处理到大数据处理 • 数据采集、处理与存储
• 数据理解 • 数据分析与挖掘技术 • 总结 • 大数据处理框架 • Hadoop • Spark 2.1 传统数据处理到大数据处理 传统数据分析(数据挖掘、利用)的流程 0. 1:4 279 * 1:4 7FC?BA 8 )* 0. 0;& ' )*
% &7/- ( $ 509 '( # &0,+* :<=@> .71 4C@> 5 %' &' -+ -8 %' ! "4,* &' $ 2-6 #$ " -)(' 79:=;9A$4C@>('5 #' " &' 33 #$ "4C@>$, $5$ 09B9#$ "6*6$6466$ 29@=9: #' ' 2.1 传统数据处理到大数据处理
大数据是旧瓶子装了新酒; 旧瓶子是原有的数据分析的框架; 那么新酒是什么? 2.1 传统数据处理到大数据处理 从4V的角度看“新酒” % &
- 8 - 8 .1 7 # $ ) 37 6(+ ,%*!0 8 - 8 - 8 H 2I # 7 "$ .1 $ ) 378 8 - [email protected]@5 - 8 .1 $ ! "$ [email protected]@;>?=;8 7 6&" 数据采集、处理与存储——数据采集
#" ! 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——问题
• 数据类型:网络日志、视频、图片、GPS、物联网等类型复杂 • 数据速度:采集速度快
• 数据规模:体量庞大,传统数据库、ETL难以处理。 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——工具 工具(工业领域):
• Flume(Cloudera公司) • Scribe(Facebook)
• Kafka(领英) • Time Tunnel(淘宝) 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——Flume 三类节点:
• Master(管理节点)
• Collector、Agent(日志收集节点,Agent用于采集数据,Collector汇总多个Agent的 数据然后加载到存储系统) 一个概念:
• Data Flow,即数据传输管道,描述了日志数据从产生到最终目的地的数据传送过程。 首先指定一个数据源(Source)和数据汇聚点(Sink)。数据在此间传输。 来源:flume.apache.org 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——Flume
• 可靠性——节点故障时,数据被传送到其他节点 • 可扩展性——每层节点均可以扩展 • 可管理性——Master进行管理 • 功能扩展性——根据自己的需求天添加三类节点 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据处理 变化不大,Python、R、Ruby、C、Perl等。 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据存储
数据类型:网络日志、视频、图片、GPS、物联网等类型复杂; 数据规模:体量庞大,传统数据库、数据仓库那一存储; 数据模式:变化多样,传统关系型数据库难以满足。 关系型数据库(ACID)、DW → 分布式关系型数据库(海量结
构化数据) + 分布式文件系统(海量非结构化数据) + NoSQL(海量非结构化数据) 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据存储——分布式文件系统 CAP原理:
• C: Consistency • A: Availability • P: Partition tolerance • HDFS(Hadoop Distributed File System) • Lustre(开源的,基于对象存储技 术的集群并行文件系统,特点:大 规模、安全可靠,高可用性) • GFS(谷歌文件系统,大规模分布 式数据,可扩展的分布式文件系统) 图片来源: http://www.runoob.com/mongodb/nosql.html 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据存储——NoSQL 类型 部分代表 特点
列存储 Hbase 顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数
Cassandra 据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的 IO 优势。 Hypertable 文档存储 MongoDB 文档存储一般用类似 json 的格式存储,存储的内容是文档型的。这样也就有 CouchDB 有机会对某些字段建立索引,实现关系数据库的某些功能。 key-value 存储 Tokyo Cabinet / Tyrant 可以通过 key 快速查询到其 value 。一般来说,存储不管 value 的格式,照单 Berkeley DB 全收。( Redis 包含了其他功能) MemcacheDB Redis 图存储 Neo4J 图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计 FlockDB 使用不方便。 对象存储 db4o 通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。 Versant
xml 数据库 Berkeley DB XML 高效的存储 XML 数据,并支持 XML 的内部查询语法,比如 XQuery,Xpath 。 BaseX 2.1 传统数据处理到大数据处理 数据理解
!"%#!) *($'& 2.1 传统数据处理到大数据处理 数据理解
• 降维:解决维数灾难(上亿字段),传统的降维方法、流形学习。 • 可视化:基本没什么变化。 2.1 传统数据处理到大数据处理 数据分析与挖掘技术 '%!$#
& %" 2.1 传统数据处理到大数据处理 数据分析与挖掘技术
• 数据挖掘(数值型、分类型数据,一般是矩阵、向量这种结构化的数
据)→文本挖掘,NLP,图像,语音(非结构化的数据,转化为结构 化的矩阵)。
• 神经网络算法的崛起,深度神经网络在文本、图像领域的良好表现; 图像挖掘一般用(CNN),文本挖掘(RNN)。 2.1 传统数据处理到大数据处理 总结
传统数据分析 大数据分析 → 数据收集 DB、ETL、传感器、GPS等 数据类型、 数据 Flume 、 Scribe 、 Kafka 、 Time 量、数据速度; Tunnel、Chukwa等
数据准备 ( ETL、Python、R等; 数据类型、 数据 脚本:C,R,Python,Ruby等; 预处理) 、 DB、DW等; 量、数据速度; 分布式文件系统,分布式数据 数据存储 库,NoSQL 数据理解 数据降维(PCA、因子分析, 数据类型、 数据 流形学习受到钟爱;可视化工 奇异值分解、MDS等),可视 量、 具变化不大 化(D3, Tableau,Python, R 等) 训练 、 测 算法(分类 、聚类、 回归、 数据类型、 数据 深度神经网络效果较好 试 、 使用 NN 、 关联 等 ) , 脚本 量、 算法 (Python,C系,R,Java), 工具(SAS,SPSS,Matlab等) 2.2 大数据处理框架 Hadoop Spark 2.2 大数据处理框架
Hadoop
• Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Doug Cutting借鉴了GFS系统和Google Map-reduce思想来实现的。
• Hadoop是一个大数据生态系统,提供了一个能够对大量数据进行 数据存储、数据管理、数据分析的可靠、高效、可伸缩的分布式基 础架构。 2.2 大数据处理框架 Hadoop
图片来源:http://blog.csdn.net/woshiwanxin102213/article/details/19688393 2.2 大数据处理框架 HDFS——节点 • NameNode:是管理节点,存放文件元数据,包括:文件与数据块的映射表,数据块与数 据节点的映射表。(独立节点) • DataNode:是工作节点,存放数据块。(多个独立节点) • SecondaryNameNode:确保在NameNode发生故障时,保证高可用性。(NameNode备 份节点,分小规模和大规模) • Block:数据块单元,每个64Mb。 2.2 大数据处理框架 HDFS——文件读取
1. 文件读写请求。客户端向NameNode发 出文件读取请求,客户端可能是python程 序或者java程序等。并把文件名告诉 NameNode。 2.返回元数据。NameNode查询元数据, 返回文件包含哪些块,分别在哪些 DataNode中能找到。 3.读取Block。客户端到相应的DataNode 中找相应的Block。 2.2 大数据处理框架 HDFS——文件写入 1.文件拆分成块。拆分成Block。客户端 然后通知NameNode。 2.NameNode会返回一些可用的、当前在 线的、有足够空间的Datenode。 3.客户端写入Block。
4.流水线复制。通过数据通道来进行数据 的复制,数据复制到其他的DataNode中。 5.更新NameNode中的元数据。 2.2 大数据处理框架 MapReduce
• JobTracker:与集群中的节点通信,将Map和Reduce的任务安排给一
个活多个TaskTrackerder的可用节点;记录所有Job和Task的状态、 进行情况。(大规模下为独立节点,小规模下可以与NameNode共享 节点) • TaskTracker:监视所在节点的资源情况,记录Task的运算情况,返
回给JobTracter。(与对应的DataNode在同一个节点上) 2.2 大数据处理框架 MapReduce
图片来源:http://szjian.iteye.com/blog/2100848 2.2 大数据处理框架 Spark • 分布式的计算框架:功能与Map-Reduce类似。 • 优势:速度更快;更好用的库;更容易使用。 3
PART THREE 大数据的行业状况与典型应用 • 大数据产业链 • 大数据市场状况 • 典型大数据厂商解决方案 • 大数据的应用 3.1大数据产业链
1 政府机构、电网、石油公司(拥有大量数据,却难以 从数据中提取价值或催生创新思想) 2 咨询公司、技术供应商(有开源技术公司加入) 3 数据分析服务机构 4 基于模式创新思维的公司 3.2大数据市场状况 2013年大数据市场收益
服务 硬件 40% 38% 软件 22%
2015年收入排名前10大厂商(单位:百万美元)
这里有几个有趣的名字:Palantir(得到CIA支持的大数据公司)、Splunk以及埃森 哲(咨询公司)从传统的IT供应商中脱颖而出。 3.2大数据市场状况 • IBM以较大优势领跑
• SAP、Oracle和HPE分列第二、第 三和第四的位置,Palantir位列第五 • 还有67%来自其它厂商 2015前十大厂商份额图 3.2大数据市场状况
全球大数据与商业分析收入将
全球大数据市场将从2014年的 50% 从2015年的1220亿美元增长到 2019年的1870多亿美元,在这 183亿美元增长到2026年的922 亿美元,平均每年增长14.4% 五年中会增长50%多。 14.4% 4.5 从现在到2020年,基于 云的大数据与分析技术 2015年业务分析的市场领袖 的增长速度将比本地解 分别是: TOP5 决方案快4.5x倍。 Oracle (16.4%)、 SAP (13.1%)、 IBM (10.3%)、 到2020年,预测性与 Microsoft (9.1%) 、 40% 指定的分析 将吸引企 SAS (6.1%) 业在商业智能与分析 方面新投资的40% 3.3典型大数据厂商解决方案 解决方案 提供大数据技术、工具、一整套软件、系统和业务战略组成的完整解决方案
大数据产品 (1)InfoSphere BigInsights、InfoSphere Streams和InfoSphere Warehouse,可用于处理静态数据和流动数据,用于快速分析非结构化或 半结构化的海量数据 IBM (2)业务分析产品(Cognos,SPSS,ClarltySystem等) (3)商业分析、优化顾问及研发专家提供解决方案 应用价值 在云计算架构上整合软、硬件技术,强大全面的信息管理、数据分析软件、专业的咨询服务、为客户提供更加简易、及时的数据分析、 挖掘、决策服务 解决方案 为用户提供高度集成、端到端的大数据解决方案 大数据产品 (1)大数据一体机、Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器、Oracle Exalytics商务智能云服务器等构成的高度 Oracle 集成化产品组合 (2)为以上大数据产品提供一线支持服务 应用价值 通过软硬一体化的集成产品,为客户提供洞察数据及挖掘数据的商业价值 解决方案 提供云计算开放式、分布式和集群技术处理的大数据解决方案
EMC 大数据产品 统一的大数据分析平台UAP,融合了EMC Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC GreenplumChorus等产品 应用价值 充分发挥存储、管理和安全方面的优势,针对大数据提供分析工具、服务,具有强大的扩展性和开源的生态系统 解决方案 能够提供快速高效地处理海量数据的HANA,及实时大数据平台的解决方案 大数据产品 (1)具有内存计算技术的HANA SAP
(2)SAP ERP、SAP Business One、SAP Suite on HANA等针对行业应用的产品 应用价值 帮助用户以便捷的方式快速获取实时信息,即时获取大数据洞察,并提高预测和规划能力 解决方案 拥有国内最具商业价值的海量数据,为商家提供各类数据服务 大数据产品 (1)数据魔方平台:首个基于全站数据的数据产品,是淘宝从电子商务公司向深度数据服务公司转型的里程碑式的产品 (2)量子恒道统计:致力于为各个电商、淘宝卖家提供精准实时的数据统计、多维的数据分析、权威的数据解决方案 淘宝 (3)淘宝指数:淘宝官方的免费的数据分享平台,用户可以窥探淘宝购物数据,了解淘宝购物趋势 (4)阿里巴巴金融:专注于小微企业的融资服务提供商,提供阿里信用贷款 应用价值 利用海量的交易数据可以为用户提供数据服务,帮助用户了解市场、顾客需求,从而改善自己的产品和运营策略 3.4大数据的应用 互联网
• 互联网广告、用户行为分析、内容推荐、个性化营销、搜索引擎优化等
• 定向广告(亚马逊、Facebook、腾讯)是互联网大数据应用最主要的商业模式, 包括用户行为数据、系统日志数据、用户交易数据等映射出各种大数据的创新应 用 • 商业价值:改善社交网络体验、提升网络用户忠诚度、向目标用户提供有针对性 的商品与服务 3.4大数据的应用
金融
• 反洗钱、反欺诈、客户价值分析、目标市场客户聚类、贷款偿还能力预测、股票 等投资组合趋势分析 • 传统的数据分析手段无法满足新业务需求(问金融业人员有何新业务需求),对 海量数据的处理计算能力、原有数据分析速度能力不足 • 商业价值:降低金融风险、提高整体收入、增加市场份额 3.4大数据的应用
电信
• 应用:业务设计优化、用户行为分析、个性化推荐、用户流失预测、网络质量优 化 • 商业价值:提高业务效率、个性化服务、优化产品套餐 3.4大数据的应用
医疗卫生
• 非结构化数据增速持续加快,传统的关系型数据库在存储大数据集时没有性能和成 本优势,在处理和查询大数据集时效果欠佳。 • 应用:临床数据比对、决策支持、预防传染病蔓延、就诊行为分析、疾病模式分析 • 商业价值:改善诊疗质量、加快诊疗速度
大数据在医疗领域最有价值的应用之一是个性化医疗。医务人员通过检测DNA来预测特 定病人的药物反应,提供最有效的治疗方法,实现个性化医疗。此外,还能够利用个体 的遗传信息与基因片段预测其遗传病携带几率与癌症患病风险,尽早发现病情实施诊疗。 Counsyl是一家提供基因检测的健康科技公司。基于基因数据库,它为用户提供包括怀 孕前基因筛查、产前筛查、癌症家族病史基因筛查等项目在内的基因检测 医疗研究人员可以通过过往医疗数据和疗效记录进行药物研发 3.4大数据的应用
公共安全
• 应用:嫌疑人行为预测分析、恐怖活动检测、危险性分析、关系人分析 • 商业价值:更好地对外提供公共服务、舆情分析、准确预判安全威胁
• 结合身份信息(身份证、指纹、血型、籍贯等)以移动手机为主的电子设备所接 收、发送的信息、摄像头监控信息、导航定位信息 • 案件的侦破更容易,嫌疑人更难于脱逃法网 3.4大数据的应用
智慧交通
• 应用:整合传感器、监控视频和GPS等设备产生的海量数据,结合气象监测设备 产生的天气状况数据、人口分布数据、移动通信数据,实现智能交通公共信息服 务的实时传递和快速反应 • 交通事故分析、交通信息研判、交通拥挤情况分析、交通稽查布控 4
PART FOUR 大数据的未来发展趋势 • 大数据思维 • 大数据技术 • 大数据应用 4.1 大数据思维 4.2大数据技术
基础 数据 数据 架构 治理 呈现
数据 数据 数据 分析 采、存 挖掘 共享 大数据技术还将与其他技术如云计算、物联网、人工智能紧密结合 4.3 大数据应用
数据资源化 从互联网走向传统生产 精准营销 数据孤岛将被连接、 大数据将摆脱互联网开源技 精准分析、精准投放, 数据保护逐渐开放 术形象,成为企业数据处理 将效果监测转变为效 数据价值被发现利用 的通用计算框架 果预测 行业数据垂直整合 数据服务成为盈利手段 基于大数据的智能化 整合产业链数据,利 数据本身就是竞争力,通过 大数据为机器学习等技术提 用业务系统产生的数 控制、分析和出售数据及相 供数据基础,促进人工智能 据更好地服务生产、 关服务成为直接的盈利手段 的发展 经营、决策 基于大数据的智能物联网也 将蓬勃发展 讨论的问题 1、大数据分析在哪些领域可能有创新应用?
2、大数据分析与应用可能会对哪些领域造成冲击,哪些人将会被替代;而哪些领 域的人的创造性是不可或缺的? 3、大数据时代人还会不会有隐私? ......
目录 CONTENT 03 大数据行业状况与典型应用 04 大数据产业的未来发展趋势 1
PART ONE 大数据概述
• 大数据发展的背景 • 大数据的定义 • 大数据的特点 • 大数据面临的问题 Instagram Email
Twitter AppStore 使用者寄送 使用者发出超过100000 用户分享3600张 204166667封 照片 条内容 邮件 APP被下载47000次 Flickr Google 用户新增3125张照片 接受超过2000000次查询 1分钟
Facebook Customer
使用者上传700000条内 在⽹络上消费272070美 容 元(双⼗⼀呵呵⼀笑) YouTube Website Wordpress User
使用者上传48小时影片 571个新⽹站建立 用户发表347篇⽂章 217名移动⽹络新 用户诞⽣ 1.1 大数据发展的背景 (1)数据爆炸 • 伴随着互联⽹、物联⽹、电⼦商务、社交媒体、现代物流、⽹络⾦融等⾏业的发展,全球数 据总量正呈⼏何级数增长,过去⼏年时间产⽣的数据总量超过了⼈类历史上的数据总和,预 计2020年全球数据总量将达到35.2ZB,⼈类将进⼊“泽它”(ZB)时代(1ZB=⼗万亿亿字节) 纽约证券交易所 淘宝 每天产生1TB的交易数据 每天产生的数据超过 50TB
Twitter 百度 每天产生7TB的数据 拥有的数据总量超过 100PB 欧洲物理实验室大 型例子对撞机 Facebook 每年产生15PB的数据 每天产生的数据超过 100TB 1.1 大数据发展的背景 (2)感知化、物联化、智能化 • 感知化:指数据源的变化。传感器、RFID标 签、芯片、摄像头遍布世界的各个角落,物理 世界中原本不能被感知的事物现在可以被感知, 它们通过各种技术被接⼊了互联⽹世界。 • 物联化:指的是数据传送⽅式的变化。继⼈与
⼈、⼈与机器的互联后,机器与机器之间的互 联成为当下的发展趋势。未来数据可能来自于 自⾏车、电器、道路、自来⽔管,甚⾄是食物 的包装盒。 • 智能化:指的是数据使用⽅式的变化。“没有 解释就没有价值”。感知和互联并不是最终的 目的,数据只有经处理、分析和计算,从中提 取出有价值的东西,才能实现真正的价值。 1.1 大数据发展的背景 (3)大数据在各领域应用中逐渐崭露头角
传统的面向应用的开发模 大数据驱动业务发展 式逐渐被数据驱动
(DDD)的模式。大数 Netflix精心打造纸牌屋 据引发了商业、科研、政 (Cinematch,AWS) 务、社会服务等领域的深 刻变革 大数据支持政务活动 奥巴马竞选中的民意预测 (存储和分析选民资料、 筹集资金、投放广告) 大数据增强社会服务能力 洛杉矶智能交通 (ATSAC,用感应器收集车 速、流量等信息,实时处理) 大数据提高商业决策水平 US Xpress的物流运输 (用大数据分析车辆状况, 对车辆人员进行合理调度) 1.1 大数据发展的背景 (4)大数据成为各界争相鼓吹的概念
联合国
发布白皮书《大数据促发展:挑战与机遇》 2012.07 奥巴马政府 投资两亿美元启动“大数据研究和发 展计划” 2012.03 达沃斯论坛 发布报告《大数据,大影响》 2012.01
麦肯锡 2011.05 发布《大数据:创新、竞争力和生产 Nature 力的下一个前沿》,对大数据的影响 关键技术和应用领域进行了详细分析 发布BigData专刊,请研究人员和企 业家预测大数据所带来的革新 2008.09 1.2 大数据的定义 • 麦肯锡:⼤数据是指⼤小超出常规的数据库⼯ • Gartner公司:⼤数据是需要新护理模式才 具获取、存储、管理和分析能⼒的数据集。 能具有更强的决策⼒、洞察发现⼒和流程 (并不是说⼀定要超过特定TB的数据集才能算 优化的海量、⾼增长率和多样化的信息资 ⼤数据) 产。 • 维基百科:⼤数据指的是所涉及的资料量规模 • 美国国家标准技术研究院(NIST):数据 巨⼤到⽆法透过目前主流软件⼯具,在合理时 量⼤、获取速度快或形态多样的数据,难 间达到获取、管理、处理,并整理成帮助企业 以用传统关系型数据分析⽅法进⾏有效分 经营决策更积极目的的资讯。 析,或者需要⼤规模的⽔平扩展才能⾼效 处理。 • 国际数据公司(IDC):从⼤数据的4个特征来定义,即海量的数据规模(Volume)、数据处理的快 速性(Velocity)、多样的数据类型(Variety)、数据价值密度低(Value),即所谓的4V特性。IBM 认为⼤数据还应该具有其真实性(Veracity)。 1.3 大数据的特点
Volume(巨量性) (即时性)Velocity
数据体量巨大,数据规模已从GB到 数据产生、处理和分析速度在持续加 TB到PB,甚至开始以EB和ZB计数。 快,数据流量大,处理能力从批处理 转向流处理 Variety(多样性) (高价值、低价值密度)Value
大数据类型复杂。大量异构数据, 数据体量不断增大,单位数据的价 多源数据,半结构化数据、非结构 值密度不断降低,而数据的整体价 化数据大量涌现 值在提高 1.4 大数据面临的问题 大数据问题分类 大数据问题描述 导入导出问题 统计分析问题 速度方面的问题
检索查询问题 实时响应问题 多源问题 种类及架构问题 异构问题 原系统的底层架构问题 线性扩展问题 体量及灵活性问题 动态调度问题 大机与小型服务器的成本对比 成本问题 原有系统改造的成本把控 数据分析与挖掘问题 价值挖掘问题
数据挖掘后的实际增效问题 结构与非结构 存储及安全问题 数据安全 隐私安全 数据标准与接口 互联互通与数据共享问题 共享协议 访问权限 2 PART TWO 大数据领域的关键技术 • 传统数据处理到大数据处理 • 数据采集、处理与存储
• 数据理解 • 数据分析与挖掘技术 • 总结 • 大数据处理框架 • Hadoop • Spark 2.1 传统数据处理到大数据处理 传统数据分析(数据挖掘、利用)的流程 0. 1:4 279 * 1:4 7FC?BA 8 )* 0. 0;& ' )*
% &7/- ( $ 509 '( # &0,+* :<=@>
大数据是旧瓶子装了新酒; 旧瓶子是原有的数据分析的框架; 那么新酒是什么? 2.1 传统数据处理到大数据处理 从4V的角度看“新酒” % &
- 8 - 8 .1 7 # $ ) 37 6(+ ,%*!0 8 - 8 - 8 H 2I # 7 "$ .1 $ ) 378 8 - [email protected]@5 - 8 .1 $ ! "$ [email protected]@;>?=;8 7 6&"
#" ! 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——问题
• 数据类型:网络日志、视频、图片、GPS、物联网等类型复杂 • 数据速度:采集速度快
• 数据规模:体量庞大,传统数据库、ETL难以处理。 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——工具 工具(工业领域):
• Flume(Cloudera公司) • Scribe(Facebook)
• Kafka(领英) • Time Tunnel(淘宝) 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——Flume 三类节点:
• Master(管理节点)
• Collector、Agent(日志收集节点,Agent用于采集数据,Collector汇总多个Agent的 数据然后加载到存储系统) 一个概念:
• Data Flow,即数据传输管道,描述了日志数据从产生到最终目的地的数据传送过程。 首先指定一个数据源(Source)和数据汇聚点(Sink)。数据在此间传输。 来源:flume.apache.org 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据采集——Flume
• 可靠性——节点故障时,数据被传送到其他节点 • 可扩展性——每层节点均可以扩展 • 可管理性——Master进行管理 • 功能扩展性——根据自己的需求天添加三类节点 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据处理 变化不大,Python、R、Ruby、C、Perl等。 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据存储
数据类型:网络日志、视频、图片、GPS、物联网等类型复杂; 数据规模:体量庞大,传统数据库、数据仓库那一存储; 数据模式:变化多样,传统关系型数据库难以满足。 关系型数据库(ACID)、DW → 分布式关系型数据库(海量结
构化数据) + 分布式文件系统(海量非结构化数据) + NoSQL(海量非结构化数据) 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据存储——分布式文件系统 CAP原理:
• C: Consistency • A: Availability • P: Partition tolerance • HDFS(Hadoop Distributed File System) • Lustre(开源的,基于对象存储技 术的集群并行文件系统,特点:大 规模、安全可靠,高可用性) • GFS(谷歌文件系统,大规模分布 式数据,可扩展的分布式文件系统) 图片来源: http://www.runoob.com/mongodb/nosql.html 2.1 传统数据处理到大数据处理 数据采集、处理与存储——数据存储——NoSQL 类型 部分代表 特点
列存储 Hbase 顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数
Cassandra 据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的 IO 优势。 Hypertable 文档存储 MongoDB 文档存储一般用类似 json 的格式存储,存储的内容是文档型的。这样也就有 CouchDB 有机会对某些字段建立索引,实现关系数据库的某些功能。 key-value 存储 Tokyo Cabinet / Tyrant 可以通过 key 快速查询到其 value 。一般来说,存储不管 value 的格式,照单 Berkeley DB 全收。( Redis 包含了其他功能) MemcacheDB Redis 图存储 Neo4J 图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计 FlockDB 使用不方便。 对象存储 db4o 通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。 Versant
xml 数据库 Berkeley DB XML 高效的存储 XML 数据,并支持 XML 的内部查询语法,比如 XQuery,Xpath 。 BaseX 2.1 传统数据处理到大数据处理 数据理解
!"%#!) *($'& 2.1 传统数据处理到大数据处理 数据理解
• 降维:解决维数灾难(上亿字段),传统的降维方法、流形学习。 • 可视化:基本没什么变化。 2.1 传统数据处理到大数据处理 数据分析与挖掘技术 '%!$#
& %" 2.1 传统数据处理到大数据处理 数据分析与挖掘技术
• 数据挖掘(数值型、分类型数据,一般是矩阵、向量这种结构化的数
据)→文本挖掘,NLP,图像,语音(非结构化的数据,转化为结构 化的矩阵)。
• 神经网络算法的崛起,深度神经网络在文本、图像领域的良好表现; 图像挖掘一般用(CNN),文本挖掘(RNN)。 2.1 传统数据处理到大数据处理 总结
传统数据分析 大数据分析 → 数据收集 DB、ETL、传感器、GPS等 数据类型、 数据 Flume 、 Scribe 、 Kafka 、 Time 量、数据速度; Tunnel、Chukwa等
数据准备 ( ETL、Python、R等; 数据类型、 数据 脚本:C,R,Python,Ruby等; 预处理) 、 DB、DW等; 量、数据速度; 分布式文件系统,分布式数据 数据存储 库,NoSQL 数据理解 数据降维(PCA、因子分析, 数据类型、 数据 流形学习受到钟爱;可视化工 奇异值分解、MDS等),可视 量、 具变化不大 化(D3, Tableau,Python, R 等) 训练 、 测 算法(分类 、聚类、 回归、 数据类型、 数据 深度神经网络效果较好 试 、 使用 NN 、 关联 等 ) , 脚本 量、 算法 (Python,C系,R,Java), 工具(SAS,SPSS,Matlab等) 2.2 大数据处理框架 Hadoop Spark 2.2 大数据处理框架
Hadoop
• Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Doug Cutting借鉴了GFS系统和Google Map-reduce思想来实现的。
• Hadoop是一个大数据生态系统,提供了一个能够对大量数据进行 数据存储、数据管理、数据分析的可靠、高效、可伸缩的分布式基 础架构。 2.2 大数据处理框架 Hadoop
图片来源:http://blog.csdn.net/woshiwanxin102213/article/details/19688393 2.2 大数据处理框架 HDFS——节点 • NameNode:是管理节点,存放文件元数据,包括:文件与数据块的映射表,数据块与数 据节点的映射表。(独立节点) • DataNode:是工作节点,存放数据块。(多个独立节点) • SecondaryNameNode:确保在NameNode发生故障时,保证高可用性。(NameNode备 份节点,分小规模和大规模) • Block:数据块单元,每个64Mb。 2.2 大数据处理框架 HDFS——文件读取
1. 文件读写请求。客户端向NameNode发 出文件读取请求,客户端可能是python程 序或者java程序等。并把文件名告诉 NameNode。 2.返回元数据。NameNode查询元数据, 返回文件包含哪些块,分别在哪些 DataNode中能找到。 3.读取Block。客户端到相应的DataNode 中找相应的Block。 2.2 大数据处理框架 HDFS——文件写入 1.文件拆分成块。拆分成Block。客户端 然后通知NameNode。 2.NameNode会返回一些可用的、当前在 线的、有足够空间的Datenode。 3.客户端写入Block。
4.流水线复制。通过数据通道来进行数据 的复制,数据复制到其他的DataNode中。 5.更新NameNode中的元数据。 2.2 大数据处理框架 MapReduce
• JobTracker:与集群中的节点通信,将Map和Reduce的任务安排给一
个活多个TaskTrackerder的可用节点;记录所有Job和Task的状态、 进行情况。(大规模下为独立节点,小规模下可以与NameNode共享 节点) • TaskTracker:监视所在节点的资源情况,记录Task的运算情况,返
回给JobTracter。(与对应的DataNode在同一个节点上) 2.2 大数据处理框架 MapReduce
图片来源:http://szjian.iteye.com/blog/2100848 2.2 大数据处理框架 Spark • 分布式的计算框架:功能与Map-Reduce类似。 • 优势:速度更快;更好用的库;更容易使用。 3
PART THREE 大数据的行业状况与典型应用 • 大数据产业链 • 大数据市场状况 • 典型大数据厂商解决方案 • 大数据的应用 3.1大数据产业链
1 政府机构、电网、石油公司(拥有大量数据,却难以 从数据中提取价值或催生创新思想) 2 咨询公司、技术供应商(有开源技术公司加入) 3 数据分析服务机构 4 基于模式创新思维的公司 3.2大数据市场状况 2013年大数据市场收益
服务 硬件 40% 38% 软件 22%
2015年收入排名前10大厂商(单位:百万美元)
这里有几个有趣的名字:Palantir(得到CIA支持的大数据公司)、Splunk以及埃森 哲(咨询公司)从传统的IT供应商中脱颖而出。 3.2大数据市场状况 • IBM以较大优势领跑
• SAP、Oracle和HPE分列第二、第 三和第四的位置,Palantir位列第五 • 还有67%来自其它厂商 2015前十大厂商份额图 3.2大数据市场状况
全球大数据与商业分析收入将
全球大数据市场将从2014年的 50% 从2015年的1220亿美元增长到 2019年的1870多亿美元,在这 183亿美元增长到2026年的922 亿美元,平均每年增长14.4% 五年中会增长50%多。 14.4% 4.5 从现在到2020年,基于 云的大数据与分析技术 2015年业务分析的市场领袖 的增长速度将比本地解 分别是: TOP5 决方案快4.5x倍。 Oracle (16.4%)、 SAP (13.1%)、 IBM (10.3%)、 到2020年,预测性与 Microsoft (9.1%) 、 40% 指定的分析 将吸引企 SAS (6.1%) 业在商业智能与分析 方面新投资的40% 3.3典型大数据厂商解决方案 解决方案 提供大数据技术、工具、一整套软件、系统和业务战略组成的完整解决方案
大数据产品 (1)InfoSphere BigInsights、InfoSphere Streams和InfoSphere Warehouse,可用于处理静态数据和流动数据,用于快速分析非结构化或 半结构化的海量数据 IBM (2)业务分析产品(Cognos,SPSS,ClarltySystem等) (3)商业分析、优化顾问及研发专家提供解决方案 应用价值 在云计算架构上整合软、硬件技术,强大全面的信息管理、数据分析软件、专业的咨询服务、为客户提供更加简易、及时的数据分析、 挖掘、决策服务 解决方案 为用户提供高度集成、端到端的大数据解决方案 大数据产品 (1)大数据一体机、Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器、Oracle Exalytics商务智能云服务器等构成的高度 Oracle 集成化产品组合 (2)为以上大数据产品提供一线支持服务 应用价值 通过软硬一体化的集成产品,为客户提供洞察数据及挖掘数据的商业价值 解决方案 提供云计算开放式、分布式和集群技术处理的大数据解决方案
EMC 大数据产品 统一的大数据分析平台UAP,融合了EMC Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC GreenplumChorus等产品 应用价值 充分发挥存储、管理和安全方面的优势,针对大数据提供分析工具、服务,具有强大的扩展性和开源的生态系统 解决方案 能够提供快速高效地处理海量数据的HANA,及实时大数据平台的解决方案 大数据产品 (1)具有内存计算技术的HANA SAP
(2)SAP ERP、SAP Business One、SAP Suite on HANA等针对行业应用的产品 应用价值 帮助用户以便捷的方式快速获取实时信息,即时获取大数据洞察,并提高预测和规划能力 解决方案 拥有国内最具商业价值的海量数据,为商家提供各类数据服务 大数据产品 (1)数据魔方平台:首个基于全站数据的数据产品,是淘宝从电子商务公司向深度数据服务公司转型的里程碑式的产品 (2)量子恒道统计:致力于为各个电商、淘宝卖家提供精准实时的数据统计、多维的数据分析、权威的数据解决方案 淘宝 (3)淘宝指数:淘宝官方的免费的数据分享平台,用户可以窥探淘宝购物数据,了解淘宝购物趋势 (4)阿里巴巴金融:专注于小微企业的融资服务提供商,提供阿里信用贷款 应用价值 利用海量的交易数据可以为用户提供数据服务,帮助用户了解市场、顾客需求,从而改善自己的产品和运营策略 3.4大数据的应用 互联网
• 互联网广告、用户行为分析、内容推荐、个性化营销、搜索引擎优化等
• 定向广告(亚马逊、Facebook、腾讯)是互联网大数据应用最主要的商业模式, 包括用户行为数据、系统日志数据、用户交易数据等映射出各种大数据的创新应 用 • 商业价值:改善社交网络体验、提升网络用户忠诚度、向目标用户提供有针对性 的商品与服务 3.4大数据的应用
金融
• 反洗钱、反欺诈、客户价值分析、目标市场客户聚类、贷款偿还能力预测、股票 等投资组合趋势分析 • 传统的数据分析手段无法满足新业务需求(问金融业人员有何新业务需求),对 海量数据的处理计算能力、原有数据分析速度能力不足 • 商业价值:降低金融风险、提高整体收入、增加市场份额 3.4大数据的应用
电信
• 应用:业务设计优化、用户行为分析、个性化推荐、用户流失预测、网络质量优 化 • 商业价值:提高业务效率、个性化服务、优化产品套餐 3.4大数据的应用
医疗卫生
• 非结构化数据增速持续加快,传统的关系型数据库在存储大数据集时没有性能和成 本优势,在处理和查询大数据集时效果欠佳。 • 应用:临床数据比对、决策支持、预防传染病蔓延、就诊行为分析、疾病模式分析 • 商业价值:改善诊疗质量、加快诊疗速度
大数据在医疗领域最有价值的应用之一是个性化医疗。医务人员通过检测DNA来预测特 定病人的药物反应,提供最有效的治疗方法,实现个性化医疗。此外,还能够利用个体 的遗传信息与基因片段预测其遗传病携带几率与癌症患病风险,尽早发现病情实施诊疗。 Counsyl是一家提供基因检测的健康科技公司。基于基因数据库,它为用户提供包括怀 孕前基因筛查、产前筛查、癌症家族病史基因筛查等项目在内的基因检测 医疗研究人员可以通过过往医疗数据和疗效记录进行药物研发 3.4大数据的应用
公共安全
• 应用:嫌疑人行为预测分析、恐怖活动检测、危险性分析、关系人分析 • 商业价值:更好地对外提供公共服务、舆情分析、准确预判安全威胁
• 结合身份信息(身份证、指纹、血型、籍贯等)以移动手机为主的电子设备所接 收、发送的信息、摄像头监控信息、导航定位信息 • 案件的侦破更容易,嫌疑人更难于脱逃法网 3.4大数据的应用
智慧交通
• 应用:整合传感器、监控视频和GPS等设备产生的海量数据,结合气象监测设备 产生的天气状况数据、人口分布数据、移动通信数据,实现智能交通公共信息服 务的实时传递和快速反应 • 交通事故分析、交通信息研判、交通拥挤情况分析、交通稽查布控 4
PART FOUR 大数据的未来发展趋势 • 大数据思维 • 大数据技术 • 大数据应用 4.1 大数据思维 4.2大数据技术
基础 数据 数据 架构 治理 呈现
数据 数据 数据 分析 采、存 挖掘 共享 大数据技术还将与其他技术如云计算、物联网、人工智能紧密结合 4.3 大数据应用
数据资源化 从互联网走向传统生产 精准营销 数据孤岛将被连接、 大数据将摆脱互联网开源技 精准分析、精准投放, 数据保护逐渐开放 术形象,成为企业数据处理 将效果监测转变为效 数据价值被发现利用 的通用计算框架 果预测 行业数据垂直整合 数据服务成为盈利手段 基于大数据的智能化 整合产业链数据,利 数据本身就是竞争力,通过 大数据为机器学习等技术提 用业务系统产生的数 控制、分析和出售数据及相 供数据基础,促进人工智能 据更好地服务生产、 关服务成为直接的盈利手段 的发展 经营、决策 基于大数据的智能物联网也 将蓬勃发展 讨论的问题 1、大数据分析在哪些领域可能有创新应用?
2、大数据分析与应用可能会对哪些领域造成冲击,哪些人将会被替代;而哪些领 域的人的创造性是不可或缺的? 3、大数据时代人还会不会有隐私? ......