大数据技术与应用(最全完整版)
可复制的文字
1
目录
一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例2引言 → 电影《点球成金》3数据本质是生产资料和资产不可再生资源VS数据4数据爆炸式增长(每分钟……)5分配丌透明,数据资产错配
人力物力浪费 数据丌开放,企业数据合作分布杂乱, 受限处理缓慢, 评估手段缺失,
尽 管“数据是资产”概念已经广为人知,但“如何管理数据资 产”仍然缺少成熟理论以及工具手段需求发现
数据资产管理是企业或组织采取的各种管理活劢,用以保证数据资产的安全完整,合理配置和有效利用,从而提高带来的经济效益,保障和促进各项事业发展。该领域是大数据时代企业布局竞争的核心,也是目前市场空白。什么是数据资产? 存在什么问题?导致低效决策 数据资产价值大定义丌统一错误判断
加工流程混乱,数据源丌规范,导致无效数据加工数据资产闲置…… 打折扣治理无力应用低效运营缺失… …数据资产是企业及组织拥有或控制,能带来未来经济利益的数据资源。数据资产管理的挑战6元数据 数据稽核管理制度
为什么传统数据管理方式并不适合数据资产管理要求?传统数据管理方式外部性管理,依赖管理力度和执行自律,成难毁易。从范 围来看,从形 式来看,从内 涵来看,
非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式挑 战1数据加工的复杂度和速度要求越来越高,也对传统管理效率提出挑战挑 战2数据的交换、转让、租赁、交易等各种创新模式,也要求新的管理手段挑 战3资产验证数据整合交易保障数据资产管理的挑战7需要不同“看”数据的方式7
可视:结构化资料 15%未视:半/非结构化数据 85%DB/DW主管们看的战情数位仪表板,其实是残缺的…8
10万GB10万TB
需要更高性价比的数据计算与储存方式8数据库 数据仓库计算更快 存储更省985%半/非结构化的
Log / Web page / Email / PDF / Image / Full-text / MS-Office file9需要不同的数据管理策略当我们想要扩充时,才发觉:• 架构只能 scale-up,scale-out 不易• 处理时间过长,time-to-value 受限• 成本过高,
cost-efficiency 受限15% 结构化的 DB/DW遗憾残缺10
每天几百 GB、 几 TB 的资料,且持续成长中储存Storing
在收数据的同时做必要的前置处理 (pre-processing),并区分数据处理的优先等级 (prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing
如何从中挖掘出所关注事件的 pattern 或 behavior分析Analyzing超越企业现有 IT 的数据解决能量1011
中央政府对大数据的重视程度11
习近平 政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日 “大数据”首次写入政府工作报告奥巴马 “将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李 克 强 :加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强 经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋 数据为王,财政工作离不开大数据12
目录
二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源1313
Web DOC / Media Social Media Machine / SensorClickstreamCall Log AppsLog什么是数据?
半结构化/非结构化数据14
3/13/2012 4什么是大数据?15何为大?—数据度量
1Byte = 8 Bit
1KB = 1,024 Bytes
1MB = 1,024 KB = 1,048,576 Bytes
1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes3/13/2012 6什么是大数据?16《红楼梦》含标点87万字(不含标点853509字)
每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes1GB 约等于 671部红楼梦1TB 约等于 631,903 部1PB 约等于 647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB )中国国家图书馆:2631万册1EB = 4000倍 美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业 2010 年在硬盘上存储了超过 7EB(1EB 等于 10 亿 GB)的新数据,同时,消费者在 PC 和笔记本等设备上存储了超过 6EB 新数据3/13/2012 7数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务什么是大数据?17大数据的解释
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。18大数据带来的思维变革19大数据带来的思维变革(更多)20
大数据带来的思维变革(更多)LOREM IPSUM Lorem ipsum dolor22大数据带来的思维变革(更多)23大数据带来的思维变革(更多)24大数据带来的思维变革(更杂)
− IBM的机器翻译 VS Google的机器翻译;− 大数据时代要求我们重新审视数据精确性的优略;− 大数据不仅让我们不再期待精确性,也让我们无法实现精确性;− 错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;25大数据带来的思维变革(更好)佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;26大数据的4V特征Volume• 非结构化数据的超大规模和增长• 总数据量的80~90%
• 比结构化数据增长快10倍到50倍• 是传统数据仓库的10倍到50倍Value• 大量的不相关信息• 对未来趋势与模式的可预测分析• 深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity• 实时分析而非批量式分析• 数据输入、处理与丢弃• 立竿见影而非事后见效Variety• 大数据的异构和多样性• 很多不同形式(文本、图像、视频、机器数据)
• 无模式或者模式不明显• 不连贯的语法或句义Big Data大数据TBPBEBStreamsReal timeNear timeBatch
StructuredUnstructured Semi-structuredAll the above27大数据的4V特征(Volume)1Bity 1KB1MB1GB1TB1PB1EB1ZB1YB
1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和28大数据的4V特征(Velocity)• 实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;• 1s 是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;29大数据的4V特征(Variety)30大数据的4V特征(Value)
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;• 价值密度低,是大数据的一个典型特征;大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体31行业 数据处理方式 价值银行/
金融
•贷款、保险、发卡等多业务线数据集成分析、市场评估•新产品风险评估•股票等投资组合趋势分析•增加市场份额•提升客户忠诚度•提高整体收入•降低金融风险
医疗 •共享电子病历及医疗记录,帮助快速诊断•穿戴式设备远程医疗•改善诊疗质量•加快诊疗速度制造/
高科技
•产品故障、失效综合分析•专利记录检索
•智能设备全球定位,位置服务•优化产品设计、制造•降低保修成本•加快问题解决能源 •勘探、钻井等传感器阵列数据集中分析 •降低工程事故风险•优化勘探过程互联网/Web2.0•在线广告投放•商品评分、排名•社交网络自动匹配•搜索结果优化•提升网络用户忠诚度•改善社交网络体验•向目标用户提供有针对性的商品与服务政府/
公用事业
•智能城市信息网络集成
•天气、地理、水电煤等公共数据收集、研究•公共安全信息集中处理、智能分析•更好地对外提供公共服务•舆情分析•准确预判安全威胁媒体/
娱乐
•收视率统计、热点信息统计、分析 •创造更多联合、交叉销售商机•准确评估广告效用零售 •基于用户位置信息的精确促销•社交网络购买行为分析•促进客户购买热情•顺应客户购买行为习惯13大数据商业价值32大数据商业价值---大数据为“未来的新石油”322013年,世界上存储的数
据预计能达到约1.2泽(约12亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。33大数据商业价值---企业经营决策33某商店卖
牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。34大数据商业价值---个性化营销34银行与客户的交
流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾客确实对此感兴趣,销售部门就会发送推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低,35大数据商业价值---互联网金融的核心是大数据35互联网金融并非
简单的把传统金融业务搬到网上去,而是充分利用大数据来颠覆银企之间信息不对称的问题。数据是一个平台,因为数据是新产品和新商业模式的基石。推动互联网金融
发展的核心正是大数据的价值。36
大数据商业价值---所有互联网公司都将是大数据公司3637
大数据商业价值---数据列入企业资产负债表只是时间问题37用资产的要素来盘点一下什么样的数据符合资产的要求:
1,从拥有和控制的角度来看,数据可以分为第一方数据、第二方数据和第三方数据。2,对于数据资产的货币计量,可以参照无形资产的计量规则。3,目前直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。4,要实现数据的保值增值,就要从扩大数据规模,提高数据活性,提升收集运用数据的能力38
大数据改变生活38。
• 各级政府、主管部门、上市公司、企业集团、外资 优化 公司都将基于大数据分析平台优化其决策。• 大数据分析能力逐渐加强,传统市场研究行业、证 革命 券研究所、产业链咨询机构将逐渐消失。• 银行都将基于企业大数据平台开展银行直销业务, 颠覆 同时按照产业链金融服务事业部模式开展业务• 因大数据系统的出现,所有依赖信息不对称盈利的 改变 业务都将消失。大数据对政府、金融机构、企业来说,象空气一样不可或缺!39软件是大数据的引擎• 和数据中心(Data Center) 一样,软件是大数据的驱动力.
• 软件改变世界!40
IBM C&P Industry需求
海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式文件系统流计算引擎
服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,x86/MPPMap Reduce
Streaming DataInfini BandEnterpriseSearch
数据分析技术 Text Analytics Engine 自然语言处理、文本情感分析、Visual Data Modeling 机器学习、聚类关联、数据模型第 10 页大数据涉及的关键技术41
▪ 基于SQL语言: 面对OLAP的传统行和列▪ 不基于SQL或mapreduce的: 由谷歌率先发起▪ 数据流: 基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不同范围的服务
▪ 传统交付模式 - 单片或基于设备的解决方案
▪ 云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”- Forrester analyst Jim Kobielus新的传输方案大数据涉及的关键技术42大数据(Hadoop) NoSQL 数据库 数据仓库部署架构水平扩展 水平扩展 大部分垂直扩展,少数水平扩展大部分水平扩展
数据类型 文件存储,没有数据类型
简单数据类型 丰富的数据类型 丰富的数据类型数据模型 非常简陋的数据模型 简单灵活数据模型丰富的数据模型 完善丰富的数据模型数据关系没有数据关系描述 非常简单的数据关系描述数据关系完善 数据关系完善
数据一致 无一致性 弱一致性 强一致性 强一致性数据安全 安全性很弱 安全性很弱 安全性很高 安全性很高计算类型 离线批量处理,只读,低并发实时CRUD操作,海量并发实时CRUD操作,高并发离线批量处理,只读,低并发
适用场景 低密度数据海量存储,数据预处理,预计算高并发实时 在线交易,查询,报表高价值数据统一存储和计算平台
常见用例 日志处理,用户行为分析,搜索引擎用户资料,微博,金融反欺诈金融账户,电信计费,税务等
11 Copyright © 2012, Oracle and/or its affiliates. All rights reserved. 企业数据仓库大数据涉及的关键技术43大数据的安全威胁
大数据基础设施安全威胁大数据存储安全威胁隐私泄露问题数据访问安全威胁针对大数据的高级持续性攻击其他安全威胁大数据挑战44目录
二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源45大数据
业务战略大数据建设目标大数据架构设计大数据实施 大数据运维企业战略目标
业务目标业务模式大数据目标服务对象服务模式应用场景大数据服务定义大数据信息模型大数据管理定义技术选择容量规划安装、配置验收测试系统上线大数据服务管理系统监控资源调度
生命周期管理
验证测试 服务性能管理大数据持续改进服务改进 技术升级 架构优化企业大数据建设方法46逐步扩展现有架构,满足大数据要求:第 1 步:更深入地分析当前数据
第 2 步:针对数据多样性和数据量进行设计第 3 步:针对高数据速度设计第 4 步:发现新模式提高 业务价值企业大数据建设方法47信息分析 信息供应
(In-Database)
统计分析 数据挖掘 语义分析 文本挖掘 空间地理分析In-DBMapReduce说明性分析预测分析
报告 仪表板用户层
最终客户 供应商 市场营销 客户服务 管理人员 业务流程 应用系统 合作伙伴数据沙箱(Sandbox)
Distributed File Systems NoSQL Data Streams Relational文档 多媒体 网络和社交媒体 机器生成大数据处理大数据处理&发现
海量非结构化数据&流数据处理信息发现 数据转化存储层数据源数据仓库
海量非结构化&结构化数据访问,转换和存储分析主题库(数据集市)
Faceted Unstructured Spatial/Relational企业部门应用企业大数据建设方法48目录
一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例49商品零售大数据49
此事经被《纽约时报》报道后,塔吉特“大数据”的巨大威力轰动全美在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。
50
消费大数据50
亚马逊 “预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。51大数据+政治51
在筹备过程中,奥巴马背后
的数据分析团队一直在收集、存储和分析选民数据。在这次的大选中,奥巴马竞
选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹
集竞选资金。“Twitter的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是59,而罗姆尼的只有5352证监会大数据52
回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达300个。实际上,早在2009年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。而此次在马乐案中亮相的深交所的“大数据” 监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了200多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。53金融大数据53阿里“水文模型”是按小微企业类目、级别等分别统计一个阿里系商户的相关“水文数据”库。
如过往每到某个时点,该店铺销售会进入旺季,销售额就会增长,同时每在这个时段,该客户对外投放的额度就会上升,结合这些水文数据,系统可以判断出该店铺的融资需求;结合该店铺以往资金支用数据及同类店铺资金支用数据,可以判断出该店铺的资金需求额度。54金融交易大数据54量化交易,程序化交易,高频交易是大数据应用比较多的领域。
全球2/3的股票交易量是由高频交易所创造的,参与者总收益每年高达80亿美元。其中,大数据算法被用来作出交易决定。现在,大多数股权交易都是通过大数据算法进行,这些算法越来越多地开始考虑社交媒体网络和新闻网站的信息来在几秒内做出买入和卖出的决定。当一个产品可以在多个交易所交易时,会形成不同的定价,在这当中,谁能够最快地捕捉到同一个产品在不同交易所之间的显著价差,谁就能捕捉到瞬间套利机会,技术成为了重要因素55
制造业大数据55
在摩托车生产厂商哈雷·戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它就会自动调节机械。哈雷·戴维森同时还使用软件,还寻找制约公司每86秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷·戴维森提高了安装该配件的速度。美国一些纺织及化工生产商,根据从不同的百货公司POS机上收集的产品销售速度信息,将原来的18周送货速度减少到3周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。56 56谷歌基于每天来自全球的30 多亿条搜索指令设立了一个系统,这个系统在2009 年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。
谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达97%。这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。”医疗大数据57能源大数据57
国际大石油公司一直都非常重视数据管理。如雪佛龙公司将5万台桌面系统与1800个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省5000万美元,过去4年已获得了净现值约为2亿美元的回报。准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯( VestasWind Systems),通过在世界上最大的超级计算机上部署IBM大数据解决方案,得以通过分析包括PB量级气象报告\潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,并且提高了客户投资回报估计的准确度,同时它将业务用户请求的响应时间从几星期缩短到几小时。58交通大数据58UPS最新的大数据来源是安装在公司4.6万多辆卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。大量的在线地图数据和优化算法,最终能帮助UPS实时地调配驾驶员的收货和配送路线。该系统为UPS减少了8500万英里的物流里程,由此节约了840万加仑的汽油。59公安大数据59
大数据挖掘技术的底层技术最早是英国军情六处研发用来追踪恐怖分子的技术。中国大数据的概念其实源于最早公安部抓法轮功分子。大数据筛选犯罪团伙,与锁定的罪犯乘坐同一班列车,住同一酒店的两个人可能是同伙,过去,刑侦人员要证明这一点,需要通过把不同线索拼凑起来排查疑犯。
通过对越来越多数据的挖掘分析,某一片区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。不但有利于警方精准分配警力,预防打击犯罪,也能帮助市民了解情况,提高警惕。60文化传媒大数据60与传统电视剧有别,《纸牌屋》是一部根
据“大数据”制作的作品。制作方Netflix是美国最具影响力的影视网站之一,在美国本土有约2900万的订阅用户。
Netflix成功之处在于其强大的推荐系统Cinematch,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。Netflix发布的数据显示,用户在Netflix上每天产生3000多万个行为,比如暂停、回放或者快进,同时,用户每天还会给出400万个评分,以及300万次搜索请求。Netflix遂决定用这些数据来制作一部电视剧,投资过亿美元制作出《纸牌屋》。Netflix发现,其用户中有很多人仍在点播1991年BBC经典老片《纸牌屋》,这些观众中许多人喜欢大卫·芬奇,观众大多爱看奥斯卡得主凯文·史派西的电影,由此Netflix邀请大卫·芬奇为导演,凯文·史派西为主演翻拍了《纸牌屋》这一政治题材剧。2013年2月《纸牌屋》上线后,用户数增加了300万,达到2920万。61航空大数据61
Farecast 已经拥有惊人的约2 000 亿条飞行数据记录。用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。Farecast预测当前的机票价格在未来一段时间内会上涨还是下降。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。Farecast 票价预测的准确度已经高达75 %,使用Farecast 票价预测工具购买机票的旅客,平均每张机票可节省50 美元。
目录
一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例2引言 → 电影《点球成金》3数据本质是生产资料和资产不可再生资源VS数据4数据爆炸式增长(每分钟……)5分配丌透明,数据资产错配
人力物力浪费 数据丌开放,企业数据合作分布杂乱, 受限处理缓慢, 评估手段缺失,
尽 管“数据是资产”概念已经广为人知,但“如何管理数据资 产”仍然缺少成熟理论以及工具手段需求发现
数据资产管理是企业或组织采取的各种管理活劢,用以保证数据资产的安全完整,合理配置和有效利用,从而提高带来的经济效益,保障和促进各项事业发展。该领域是大数据时代企业布局竞争的核心,也是目前市场空白。什么是数据资产? 存在什么问题?导致低效决策 数据资产价值大定义丌统一错误判断
加工流程混乱,数据源丌规范,导致无效数据加工数据资产闲置…… 打折扣治理无力应用低效运营缺失… …数据资产是企业及组织拥有或控制,能带来未来经济利益的数据资源。数据资产管理的挑战6元数据 数据稽核管理制度
为什么传统数据管理方式并不适合数据资产管理要求?传统数据管理方式外部性管理,依赖管理力度和执行自律,成难毁易。从范 围来看,从形 式来看,从内 涵来看,
非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式挑 战1数据加工的复杂度和速度要求越来越高,也对传统管理效率提出挑战挑 战2数据的交换、转让、租赁、交易等各种创新模式,也要求新的管理手段挑 战3资产验证数据整合交易保障数据资产管理的挑战7需要不同“看”数据的方式7
可视:结构化资料 15%未视:半/非结构化数据 85%DB/DW主管们看的战情数位仪表板,其实是残缺的…8
10万GB10万TB
需要更高性价比的数据计算与储存方式8数据库 数据仓库计算更快 存储更省985%半/非结构化的
Log / Web page / Email / PDF / Image / Full-text / MS-Office file9需要不同的数据管理策略当我们想要扩充时,才发觉:• 架构只能 scale-up,scale-out 不易• 处理时间过长,time-to-value 受限• 成本过高,
cost-efficiency 受限15% 结构化的 DB/DW遗憾残缺10
每天几百 GB、 几 TB 的资料,且持续成长中储存Storing
在收数据的同时做必要的前置处理 (pre-processing),并区分数据处理的优先等级 (prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing
如何从中挖掘出所关注事件的 pattern 或 behavior分析Analyzing超越企业现有 IT 的数据解决能量1011
中央政府对大数据的重视程度11
习近平 政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日 “大数据”首次写入政府工作报告奥巴马 “将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李 克 强 :加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强 经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋 数据为王,财政工作离不开大数据12
目录
二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源1313
Web DOC / Media Social Media Machine / SensorClickstreamCall Log AppsLog什么是数据?
半结构化/非结构化数据14
3/13/2012 4什么是大数据?15何为大?—数据度量
1Byte = 8 Bit
1KB = 1,024 Bytes
1MB = 1,024 KB = 1,048,576 Bytes
1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes3/13/2012 6什么是大数据?16《红楼梦》含标点87万字(不含标点853509字)
每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes1GB 约等于 671部红楼梦1TB 约等于 631,903 部1PB 约等于 647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB )中国国家图书馆:2631万册1EB = 4000倍 美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业 2010 年在硬盘上存储了超过 7EB(1EB 等于 10 亿 GB)的新数据,同时,消费者在 PC 和笔记本等设备上存储了超过 6EB 新数据3/13/2012 7数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务什么是大数据?17大数据的解释
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。18大数据带来的思维变革19大数据带来的思维变革(更多)20
大数据带来的思维变革(更多)LOREM IPSUM Lorem ipsum dolor22大数据带来的思维变革(更多)23大数据带来的思维变革(更多)24大数据带来的思维变革(更杂)
− IBM的机器翻译 VS Google的机器翻译;− 大数据时代要求我们重新审视数据精确性的优略;− 大数据不仅让我们不再期待精确性,也让我们无法实现精确性;− 错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;25大数据带来的思维变革(更好)佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;26大数据的4V特征Volume• 非结构化数据的超大规模和增长• 总数据量的80~90%
• 比结构化数据增长快10倍到50倍• 是传统数据仓库的10倍到50倍Value• 大量的不相关信息• 对未来趋势与模式的可预测分析• 深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity• 实时分析而非批量式分析• 数据输入、处理与丢弃• 立竿见影而非事后见效Variety• 大数据的异构和多样性• 很多不同形式(文本、图像、视频、机器数据)
• 无模式或者模式不明显• 不连贯的语法或句义Big Data大数据TBPBEBStreamsReal timeNear timeBatch
StructuredUnstructured Semi-structuredAll the above27大数据的4V特征(Volume)1Bity 1KB1MB1GB1TB1PB1EB1ZB1YB
1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和28大数据的4V特征(Velocity)• 实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;• 1s 是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;29大数据的4V特征(Variety)30大数据的4V特征(Value)
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;• 价值密度低,是大数据的一个典型特征;大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体31行业 数据处理方式 价值银行/
金融
•贷款、保险、发卡等多业务线数据集成分析、市场评估•新产品风险评估•股票等投资组合趋势分析•增加市场份额•提升客户忠诚度•提高整体收入•降低金融风险
医疗 •共享电子病历及医疗记录,帮助快速诊断•穿戴式设备远程医疗•改善诊疗质量•加快诊疗速度制造/
高科技
•产品故障、失效综合分析•专利记录检索
•智能设备全球定位,位置服务•优化产品设计、制造•降低保修成本•加快问题解决能源 •勘探、钻井等传感器阵列数据集中分析 •降低工程事故风险•优化勘探过程互联网/Web2.0•在线广告投放•商品评分、排名•社交网络自动匹配•搜索结果优化•提升网络用户忠诚度•改善社交网络体验•向目标用户提供有针对性的商品与服务政府/
公用事业
•智能城市信息网络集成
•天气、地理、水电煤等公共数据收集、研究•公共安全信息集中处理、智能分析•更好地对外提供公共服务•舆情分析•准确预判安全威胁媒体/
娱乐
•收视率统计、热点信息统计、分析 •创造更多联合、交叉销售商机•准确评估广告效用零售 •基于用户位置信息的精确促销•社交网络购买行为分析•促进客户购买热情•顺应客户购买行为习惯13大数据商业价值32大数据商业价值---大数据为“未来的新石油”322013年,世界上存储的数
据预计能达到约1.2泽(约12亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。33大数据商业价值---企业经营决策33某商店卖
牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。34大数据商业价值---个性化营销34银行与客户的交
流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾客确实对此感兴趣,销售部门就会发送推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低,35大数据商业价值---互联网金融的核心是大数据35互联网金融并非
简单的把传统金融业务搬到网上去,而是充分利用大数据来颠覆银企之间信息不对称的问题。数据是一个平台,因为数据是新产品和新商业模式的基石。推动互联网金融
发展的核心正是大数据的价值。36
大数据商业价值---所有互联网公司都将是大数据公司3637
大数据商业价值---数据列入企业资产负债表只是时间问题37用资产的要素来盘点一下什么样的数据符合资产的要求:
1,从拥有和控制的角度来看,数据可以分为第一方数据、第二方数据和第三方数据。2,对于数据资产的货币计量,可以参照无形资产的计量规则。3,目前直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。4,要实现数据的保值增值,就要从扩大数据规模,提高数据活性,提升收集运用数据的能力38
大数据改变生活38。
• 各级政府、主管部门、上市公司、企业集团、外资 优化 公司都将基于大数据分析平台优化其决策。• 大数据分析能力逐渐加强,传统市场研究行业、证 革命 券研究所、产业链咨询机构将逐渐消失。• 银行都将基于企业大数据平台开展银行直销业务, 颠覆 同时按照产业链金融服务事业部模式开展业务• 因大数据系统的出现,所有依赖信息不对称盈利的 改变 业务都将消失。大数据对政府、金融机构、企业来说,象空气一样不可或缺!39软件是大数据的引擎• 和数据中心(Data Center) 一样,软件是大数据的驱动力.
• 软件改变世界!40
IBM C&P Industry需求
海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式文件系统流计算引擎
服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,x86/MPPMap Reduce
Streaming DataInfini BandEnterpriseSearch
数据分析技术 Text Analytics Engine 自然语言处理、文本情感分析、Visual Data Modeling 机器学习、聚类关联、数据模型第 10 页大数据涉及的关键技术41
▪ 基于SQL语言: 面对OLAP的传统行和列▪ 不基于SQL或mapreduce的: 由谷歌率先发起▪ 数据流: 基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不同范围的服务
▪ 传统交付模式 - 单片或基于设备的解决方案
▪ 云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”- Forrester analyst Jim Kobielus新的传输方案大数据涉及的关键技术42大数据(Hadoop) NoSQL 数据库 数据仓库部署架构水平扩展 水平扩展 大部分垂直扩展,少数水平扩展大部分水平扩展
数据类型 文件存储,没有数据类型
简单数据类型 丰富的数据类型 丰富的数据类型数据模型 非常简陋的数据模型 简单灵活数据模型丰富的数据模型 完善丰富的数据模型数据关系没有数据关系描述 非常简单的数据关系描述数据关系完善 数据关系完善
数据一致 无一致性 弱一致性 强一致性 强一致性数据安全 安全性很弱 安全性很弱 安全性很高 安全性很高计算类型 离线批量处理,只读,低并发实时CRUD操作,海量并发实时CRUD操作,高并发离线批量处理,只读,低并发
适用场景 低密度数据海量存储,数据预处理,预计算高并发实时 在线交易,查询,报表高价值数据统一存储和计算平台
常见用例 日志处理,用户行为分析,搜索引擎用户资料,微博,金融反欺诈金融账户,电信计费,税务等
11 Copyright © 2012, Oracle and/or its affiliates. All rights reserved. 企业数据仓库大数据涉及的关键技术43大数据的安全威胁
大数据基础设施安全威胁大数据存储安全威胁隐私泄露问题数据访问安全威胁针对大数据的高级持续性攻击其他安全威胁大数据挑战44目录
二、什么是大数据三、大数据的应用四、成功案例一、大数据的来源45大数据
业务战略大数据建设目标大数据架构设计大数据实施 大数据运维企业战略目标
业务目标业务模式大数据目标服务对象服务模式应用场景大数据服务定义大数据信息模型大数据管理定义技术选择容量规划安装、配置验收测试系统上线大数据服务管理系统监控资源调度
生命周期管理
验证测试 服务性能管理大数据持续改进服务改进 技术升级 架构优化企业大数据建设方法46逐步扩展现有架构,满足大数据要求:第 1 步:更深入地分析当前数据
第 2 步:针对数据多样性和数据量进行设计第 3 步:针对高数据速度设计第 4 步:发现新模式提高 业务价值企业大数据建设方法47信息分析 信息供应
(In-Database)
统计分析 数据挖掘 语义分析 文本挖掘 空间地理分析In-DBMapReduce说明性分析预测分析
报告 仪表板用户层
最终客户 供应商 市场营销 客户服务 管理人员 业务流程 应用系统 合作伙伴数据沙箱(Sandbox)
Distributed File Systems NoSQL Data Streams Relational文档 多媒体 网络和社交媒体 机器生成大数据处理大数据处理&发现
海量非结构化数据&流数据处理信息发现 数据转化存储层数据源数据仓库
海量非结构化&结构化数据访问,转换和存储分析主题库(数据集市)
Faceted Unstructured Spatial/Relational企业部门应用企业大数据建设方法48目录
一、大数据的来源二、什么是大数据三、大数据的应用四、成功案例49商品零售大数据49
此事经被《纽约时报》报道后,塔吉特“大数据”的巨大威力轰动全美在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。
50
消费大数据50
亚马逊 “预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。51大数据+政治51
在筹备过程中,奥巴马背后
的数据分析团队一直在收集、存储和分析选民数据。在这次的大选中,奥巴马竞
选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹
集竞选资金。“Twitter的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是59,而罗姆尼的只有5352证监会大数据52
回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达300个。实际上,早在2009年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。而此次在马乐案中亮相的深交所的“大数据” 监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了200多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。53金融大数据53阿里“水文模型”是按小微企业类目、级别等分别统计一个阿里系商户的相关“水文数据”库。
如过往每到某个时点,该店铺销售会进入旺季,销售额就会增长,同时每在这个时段,该客户对外投放的额度就会上升,结合这些水文数据,系统可以判断出该店铺的融资需求;结合该店铺以往资金支用数据及同类店铺资金支用数据,可以判断出该店铺的资金需求额度。54金融交易大数据54量化交易,程序化交易,高频交易是大数据应用比较多的领域。
全球2/3的股票交易量是由高频交易所创造的,参与者总收益每年高达80亿美元。其中,大数据算法被用来作出交易决定。现在,大多数股权交易都是通过大数据算法进行,这些算法越来越多地开始考虑社交媒体网络和新闻网站的信息来在几秒内做出买入和卖出的决定。当一个产品可以在多个交易所交易时,会形成不同的定价,在这当中,谁能够最快地捕捉到同一个产品在不同交易所之间的显著价差,谁就能捕捉到瞬间套利机会,技术成为了重要因素55
制造业大数据55
在摩托车生产厂商哈雷·戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它就会自动调节机械。哈雷·戴维森同时还使用软件,还寻找制约公司每86秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷·戴维森提高了安装该配件的速度。美国一些纺织及化工生产商,根据从不同的百货公司POS机上收集的产品销售速度信息,将原来的18周送货速度减少到3周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。56 56谷歌基于每天来自全球的30 多亿条搜索指令设立了一个系统,这个系统在2009 年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。
谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达97%。这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。”医疗大数据57能源大数据57
国际大石油公司一直都非常重视数据管理。如雪佛龙公司将5万台桌面系统与1800个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省5000万美元,过去4年已获得了净现值约为2亿美元的回报。准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯( VestasWind Systems),通过在世界上最大的超级计算机上部署IBM大数据解决方案,得以通过分析包括PB量级气象报告\潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,并且提高了客户投资回报估计的准确度,同时它将业务用户请求的响应时间从几星期缩短到几小时。58交通大数据58UPS最新的大数据来源是安装在公司4.6万多辆卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。大量的在线地图数据和优化算法,最终能帮助UPS实时地调配驾驶员的收货和配送路线。该系统为UPS减少了8500万英里的物流里程,由此节约了840万加仑的汽油。59公安大数据59
大数据挖掘技术的底层技术最早是英国军情六处研发用来追踪恐怖分子的技术。中国大数据的概念其实源于最早公安部抓法轮功分子。大数据筛选犯罪团伙,与锁定的罪犯乘坐同一班列车,住同一酒店的两个人可能是同伙,过去,刑侦人员要证明这一点,需要通过把不同线索拼凑起来排查疑犯。
通过对越来越多数据的挖掘分析,某一片区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。不但有利于警方精准分配警力,预防打击犯罪,也能帮助市民了解情况,提高警惕。60文化传媒大数据60与传统电视剧有别,《纸牌屋》是一部根
据“大数据”制作的作品。制作方Netflix是美国最具影响力的影视网站之一,在美国本土有约2900万的订阅用户。
Netflix成功之处在于其强大的推荐系统Cinematch,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。Netflix发布的数据显示,用户在Netflix上每天产生3000多万个行为,比如暂停、回放或者快进,同时,用户每天还会给出400万个评分,以及300万次搜索请求。Netflix遂决定用这些数据来制作一部电视剧,投资过亿美元制作出《纸牌屋》。Netflix发现,其用户中有很多人仍在点播1991年BBC经典老片《纸牌屋》,这些观众中许多人喜欢大卫·芬奇,观众大多爱看奥斯卡得主凯文·史派西的电影,由此Netflix邀请大卫·芬奇为导演,凯文·史派西为主演翻拍了《纸牌屋》这一政治题材剧。2013年2月《纸牌屋》上线后,用户数增加了300万,达到2920万。61航空大数据61
Farecast 已经拥有惊人的约2 000 亿条飞行数据记录。用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。Farecast预测当前的机票价格在未来一段时间内会上涨还是下降。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。Farecast 票价预测的准确度已经高达75 %,使用Farecast 票价预测工具购买机票的旅客,平均每张机票可节省50 美元。