当前位置:首页 » 大数据精品文章 » 正文

第七章 得数据者得天下,商业竞争中的大数据

1745 人参与  2018年10月16日 12:43  分类 : 大数据精品文章  评论

商业领域无疑是大数据时代的领头羊,它们最先发现了大数据在商业竞争中的价值。数据化的进程推动了商业数据的可量化变革,同时也更新了对客户形象的描述。信息化的商业竞争已经打响,谁掌握大数据谁就会是未来的赢家。

大型公司的垂直一体化趋势

近几年,信息产业的垂直整合愈演愈烈。IBM作为计算机的缔造者之一,自始至终都为客户提供包括存储、主机、操作系 统、数据库、中间件、应用软件等等在内的完整解决方案,可以称作十足的蓝色巨人。而另一家由拉里·埃里森领衔的甲骨文(Oracle)公司,第一步就是占 据了数据库的软件市场,再以此向应用软件的市场扩张,它在全球企业管理软件上的业务仅仅在SAP之下。甲骨文似乎还不满足,还在继续收购,利用自己庞大的 客户群逐渐向产业链的上游进发,第一步就是收购了一家UNIX主机厂商——SUN公司。还有家喻户晓的微软集团,先是在操作系统上坐稳第一把交椅,随后就 开始向产业链的下游扩张自己的业务,很快推出了自己的数据库产品,并购了众多小型应用软件公司,还为企业提供管理服务。

这几年海外的这些数据巨头中发展最具代表性的就是甲骨文公司。而在国内,华为则是垂直整合信息产业链中的代表,它每 走一小步都是国内整个信息产业发展一大步的标志。在德国,软件巨头SAP,也是用友这家国内软件公司的最大竞争对手,收购了一家数据库公司后,就开始坚实 地向上游垂直整合迈进。在这一浪潮中,用友软件要如何更好地赢得市场竞争,产业界和资本市场都十分关注。或许,用友也会走甲骨文和SAP的道路,同样进军 产业的上游。

埃里森让甲骨文公司变得非常具有进攻性,在开放平台数据库上,甲骨文已经是市场中的佼佼者,随后就朝下游扩张,向整 个软件领域铺开。2004年甲骨文收购了Peoplesoft,这原本是其竞争对手,同时也是一家企业人力资源管理软件的厂商;2005年它又收购了 Siebel这家全球最大的CRM软件厂商,很快就成了全球第一的CRM应用软件供应商;2007年它收购了Hyperion(海波龙)这家商业智能分析 厂商,目的是为了向客户提供应用软件、咨询服务,以此来加强终端客户的掌握,最终成了与SAP平起平坐的企业管理软件供应商;2008年,它收购了 Primavera软件公司,开始了项目组合和管理软件的生产供应,一年后项目管理软件产品升级时,正式更名为Oracle Primavera。

甲骨文公司的下一步就是朝产业链的上游扩张,全方位地增强服务能力。2008年,甲骨文收购了中间件巨头BEA,开 始了自己基础软件领域的发展。它的举动让中间件市场发生了翻天覆地的变化,使得众多其他的小中间件厂商难以维持。甲骨文随后又开始走上了硬件的发展道 路,2009年甲骨文收购了SUN,借此和自己的系统创造极佳的互补性。当时的SUN有SPARC处理器和Solaris操作系统,也就在那一年,虚拟化 产品商Virtuallron的收购工作也完成了。甲骨文因为收购也补齐了自己的短板,变成一家同IBM一样的业务涉及所有硬件和应用领域的IT巨头。一 时间关于“红色巨人PK蓝色巨人”的讨论兴起。甲骨文的垂直整合在收购工作完成之后,股价一路攀升,居高不下。

甲骨文收购了SUN后即刻发布了一款新型的数据库云服务器ExaData,它集SUN软件和甲骨文软件的传统优势, 主要负责数据仓库和商务智能类系统、OLTP类系统、混合负载类系统、数据库云平台服务。这当中服务器、存储、IO和虚拟化软件都被甲骨文集成在了一起, 体现了它对数据库、中间件和应用软件的理解。

2012年甲骨文公司的第三季度财报显示,这个财季因为推出了软硬一体化的集成设计系统,硬件收入增长了139%,无疑成了甲骨文历史上成长速度最快的产品。

国内垂直整合思路最清晰、坚决的就是华为公司。华为一度将IBM视为自己奋斗的目标,但现在IBM却是华为最大的潜 在威胁。相比于IBM,华为的产业链更多出了一层“网络设备”。虽说IBM的应用软件更为完备,可是华为实施了“被集成”战略,国内多家应用软件商与之合 作后,华为集成了产业上下游的产品,客户也因此获得了最为完整的解决方案。

如华为一般的大公司,一定会从产业战略的层面开始思考公司的安全问题,还有产业链上下游的哪些公司是否扼住了自己咽 喉的事情也必须考虑。说起来道理都不复杂,华为对对手的威胁已经存在了,那么对手们自然也要从操作系统和CPU等等方面扼制住华为的发展。就此而言,大型 公司必然会走上垂直一体化的道路。

客户形象的丰富源于对客户的全面理解

理解客户是客户为中心的起点,理解客户最有效的途径就是大数据,大数据无论是划分客户、定义客户还是分析客户需求都有着不可比拟的精准高效性能。

先说一下划分客户,大数据能把客户划分得更为微分化、个人化。

通常把传统市场划分为大众市场、利基市场、细分市场几类。大众市场当中,会有一个大范围的客户群,其中涵盖了企业的 产品、服务、渠道和营销推广,客户在这个客户群中的需求基本相同,好比是个人计算机或是运营商的通信服务。利基市场当中则是针对某一个特定市场进行专门定 制,包括了产品、服务、渠道和营销推广各个领域,像是专门提供汽车零部件等等。接下来是细分市场,产品、服务、渠道和营销推广则是针对不同需求的市场群体 区别对待,像是SMH有着不同品牌的手表,宝洁则是针对不同需求推出三大品牌的洗发水。

在大数据时代,市场的划分不再沿用这样的概念,而是进入了微分化,个人化,这要归功于以下两个条件。

第一个条件是丰富的数据量,市场微分化和个人化必须依赖这样的信息基础。传统行业除电信、银行之外,极少有机会获得 单个客户的详尽数据。客户的数据随着大数据的到来而呈现爆炸性增长。内部信息开放的通道,也就是“联网型组织”利用互联网让客户和供应商们参入进来,而它 们本身就优先有了这方面的基础,像是淘宝、京东商城、腾讯、百度、新浪等等企业。除此之外,还有如奔驰、海尔、苏宁电器这样的传统企业也在朝“联网型组 织”发展。

第二个条件则是持续进步的大数据技术,微分化、个人化的市场因此而有了发现价值的可能。在亚马逊上亿客户的单体客户 行为数据都被收集了,比如客户搜索了什么,对哪些产品的详细介绍有兴趣,最后买了什么产品等等都是亚马逊记录下来的数据。其他用户的购买数据对个人客户而 言也可以成为推荐。很显然,很多个体客户在购买时,更愿意去看看和自己爱好相似的人搜索了什么,买了什么,做了什么评价。

再来说说客户定义。有了大数据,标准化的传统客户定义也转化为个性化。

传统的客户定义通常依照客户价值来判断,或是用问卷访问或是用小组访谈这样的调研技术对客户进行分析,再找出一个或 多个维度来细分定义市场,给予客户群一个标准化的面孔,配以企业本身的产品、服务、渠道和营销推广。招商市场利用银行“一卡通”客户的总资产量,客户因此 被分为普通卡、金卡和金葵花卡VIP三类客户。还有中国移动也将自己的客户分为追求高端的全球通客户,年轻动感的动感地带客户以及性价比极高的神州行客 户,这一分类也是依据客户价值、客户行为和需求划分的。

大数据时代的客户定义不再延续群体标准化的划分标准,而是全面、立体地描绘客户形象。两方面的数据组成了客户形象, 一个是结构化的交易数据,其中有消费水平、消费频次和生命周期等等,第二个是非结构化的交互数据,譬如文本、图片和多媒体等等。无论是哪一种数据的增长都 是远远大于交易数据增长速度的。交易数据和交互数据在大数据技术的综合分析之下,客户的形象就越来越立体和丰满起来,不再是传统的标准和抽象的面孔,这当 中也将客户的需求精准地反映出来。

还有一部分零售企业在大数据的利用上都走在了前列,运用“情感分析”的技巧将社交媒介上的消费者所产生的海量数据进行挖掘,客户的情感变动也能及时掌握。企业有了这些数据分析的结果更能即时调整产品和推广策略,商品的周转速度和毛利空间也因此提升。

在大数据定义客户方面,最先有实践的是谷歌公司。他们理解客户行为和习惯的途径是免费软件和服务,提供给客户的软件 越多,就越是能收集、理解客户,像谷歌推出的谷歌图片、谷歌音乐、谷歌邮箱、谷歌视频等等软件均为谷歌从不同方面了解客户提供了可能。在精准地获取客户信 息的基础上,谷歌还可以获得精确的广告服务信息,高利润的商业模式因此诞生。

最后来说说实时需求。客户需求信息当中最为有效的是客户实时行为倾向,只不过这种信息是瞬时的,传统方法要捕捉是很困难的。而在大数据时代,客户实时的个性化需求都能够被获取,企业能针对这个做出高效的决策。

零售行业的传统其实只要稍加改进就能实时获取客户的行为信息,像是在购物车上安装传感器,客户的行进路线就会被实时追踪,例如不同位置的停留时间,还有最终购买的物品数量品种等等。这信息对卖场在货架展陈、商品上架的调整方面十分有帮助,利润率和销售额也有所提高。

互联网零售企业除了能获取实时信息,对于用户行为的分析、公司营销策略的调整和分析也可以从中获益。互联网点击率反映的就是客户的行为和偏好,可以根据此类数据对客户行为进行建模,并由此向客户推荐优选商品,推出省钱的奖励计划,那么整个销售流程就非常圆满了。

线下的商家更可以根据实时的数据反馈来向周边客户推广优惠活动。如今智能手机的普及让定位于手机位置信息的应用开始 快速发展。只要一个携带智能手机的用户进入运动服装店,服装店就可以利用这个智能手机向其他周边的用户来推送最新的优惠活动信息,从而提高销量。社交客户 端以此位置信息为基础也可以来做此类的推广,像是已有商家在微信上做此类的工作了。

量化奠定了数据化的内核

原始社会和先进社会的分界线之一就是记录信息的能力。最早期文明中古老的抽象工具源于基础的计算,包括计量长度和重 量。早在公元3000年之前,在印度河流域、埃及和美索不达米亚平原地区,信息记录的水平就比较高了,日常计量也有十足的长进,尤其是在美索不达米亚平原 一带,产生了一种记录生产和交易的精确方法,这是书写进步的功劳,早期文明也因此得以计量和记录下来,为日后的研究提供了依据。因为有了计量和记录,也就 有了数据,这是最早的数据化根基。

人类活动在计量和记录中得到重现,像是建筑物的建筑方式和使用的原材料被记录下来,从此后就可以用类似的方法来建造 房子,或是进行实验等等,譬如以改进方式来建造新的建筑物,然后依次循环。一旦有了交易记录的话,那么一块田地丰产时的稻谷产量是多少就会很明确,还有政 府税收多少也能因此了解。预测和计划必须有计量和记录为基础。记录让交易的双方明确了对方的赊账状况,要是缺失了这些凭证的支持,那么欠债的一方绝对可以 赖账。

计量在几百年当中从最初的长度和重量领域慢慢扩展到了面积、体积和时间之上。公元前的最后十个世纪,西方的计量方法 基本都已经产生,尽管它还有众多的缺陷存在。早期文明,计量方法在计算上总有很大的困难,即便是非常简单的计算,像罗马数字的计算系统在数字计算上就不太 合适,原因在于记数制上缺少十进制,哪怕是专家碰上大数目的乘除都会感到困难重重,而一般人通常就是简单的乘除都无法完成。

印度在公元1世纪的时候就发明了一套数字系统,随后几经辗转到了波斯,波斯人对其进行改进,又传到了阿拉伯国家,阿 拉伯人大大改进了它们,它们就成了现在人们广泛使用的阿拉伯数字的前身。十字军东征尽管使当地的人民陷入战火之中,可同时又让地中海东部迎来了西欧文明, 其中最重要的一个部分就是阿拉伯数字的引入。在公元1000年,教皇西尔维斯特二世在民众中推行阿拉伯数字。到了12世纪,阿拉伯数字的介绍书籍被翻译成 了拉丁文,在整个欧洲地区传播,算术因此迎来了自己的春天。

阿拉伯数字在传到欧洲之前,算术就因为计数板的使用而有了较大的改进。所谓计数板就是在光滑的托盘上用代币来代表数 字,代币的移动就可以被用来表示某个区域的加减。只可惜计数板也有自己的短板,过大或是过小的计算是不能同时运算的。还有一个缺陷是计数板上由于数字变化 过快,只要是微小的一个碰撞或是错误的移位都可能会导致南辕北辙的结果。显然计数板尽管可以用来计算,但它不适合记录。数字记录一旦在计数板之外的话,计 数板上的数字还是要转换成罗马数字,这无疑太费时费力了。

算术因此给数据添加了新的价值,除了可以被记录下来以外,还可以再分析和利用。12世纪开始阿拉伯数字就出现在欧 洲,可是到16世纪晚期才真正被广泛使用。16世纪开始数学家就开始向人们宣传阿拉伯数字的优势,相比计数板计算的速度要快6倍。可是真正让阿拉伯数字为 大家所接受还是由于复式记账法的出现,显然这就是数据化工具中的一种。

会计手稿早在公元前3000年就已经出现了。只不过在接下来的几百年里它始终缓慢发展,而且大多数时候都停留在了记 录某个地方特定的一场交易的阶段。当时对于记账人和他的雇主来说,最重要的莫过于去判断一个账户或是自己从事的某个行业是否能盈利,记账法很明显已经无法 轻易地得出答案。14世纪的时候,意大利会计已经开始流行用两本账本来记录交易,这种尴尬的局面也就得到了挽回。通常这样的记账法优势是借贷相加,就能够 通过表格来了解账户的盈利和亏损情况。从那时起数据就开始有了它的利用价值,只是它仅仅是局限在读出盈亏情况罢了。

现在的会计业和金融业不断发展,复式记账法被视为其不断发展的结果。实际上在推进数据利用的过程当中,这就好比是一 个重要的里程碑。因为相关的账户信息的分类记录由于它的出现而实现。它的基础是一系列记录数据,也是信息记录标准化最早的例子,会计们因此能互相看懂对方 的账本。复式记账法的规律能让账户盈亏情况的查询变得更为简单,交易的记账线索能够从中发现,这样一来所需的数据就越容易找到。在设计理念中它包容了“纠 错”的思想,今天的技术人才可以以此为借鉴。要是有一个账本中有问题,那么就可以从另一本账本中进行查询。

复式记账法和阿拉伯数字一样也并非一开始就受到欢迎。200年以后,它广受欢迎是源于一个数学家和一个商业家族的推荐,也是他们改变了数据化的历史。

说到这名数学家,他就是知名的修士路萨·帕西奥利(Luca Pacioli)。1494年,他有一本推荐给普通读者和商人的数学教材出版。此书一经出版大获成功,曾经风靡一时。这本书是历史上第一本全部使用阿拉伯 数字的书籍,也因此推动了阿拉伯数字在欧洲的广泛使用。此外这本书的最大意义在于详细论述了复式记账法。此后的几十年,此书关于复式记账法的论述被译成了 6种语言,在世界上有多个通用版本。

而上文提到的商业家族,其实就是美第奇家族,他们是威尼斯商人和艺术资助人。16世纪欧洲最有影响力的银行家族非他 们莫属,这是由于他们采用了当时世界上最为先进的数据记录方法——复式记账法。由于帕西奥利的著作和美第奇家族的成功,也让复式记账法一举成为标准数据记 录法的基础,当然也让阿拉伯数字成了不可替代的数字。

数据记录不断发展,人们对世界的探寻也在不断前进,似乎关于时间、距离、地点、体积和重量的精准记录成了所有人的愿 望。19世纪,科学家们陆陆续续发明了各种记录和测量电流、气压、温度和声频的单位和方式,科学一下子进入了量化的时代。好像不论是什么事物都可以被测 量、划分和记录,人们对单位量化和记录的疯狂程度甚至已经到了需要用精细的划分来理解人的智慧了。不过这一轮伪科学的热情很快就消散了,而人们对一切量化 的工作热情似乎从未消退。

测量数据和记录数据因为有了新工具和开放的思维得到了蓬勃的发展,因此也催生了现代数据化。所有数据化的根基都已经 搭好了,这一切在模拟时代是不可能完成的,还可能需要无止尽的激情和耐心,不夸张地说,怎么也要有奉献一生的准备,这其中最典型的例子就是16世纪就没日 没夜地观察天体运动的第谷·布拉赫(Tycho Brahe)。模拟时代成功的数据化例子并不多见,因为缺乏很好的运气,需要将大量的偶然事件叠在一起。最为幸运的应该是中校莫里,因为负伤他只好坐在办 公室,也因此发现了珍贵的航海日志,只是这份幸运并非人人都有。在数据化的实现过程中必须有很重要的一点,也就是挖掘出潜藏在数据中的巨大价值,这才能揭 示出最新的奥秘。

数字测量和存储设备因为计算机的出现而应运而生,数据化的效率也提高了不少。计算机的数学分析从数据中挖掘出了越来 越多的潜在价值。简单地说,数据化是数字化的结果,但是数字化最终是替代不了数据化的。模拟数据成为计算机可读的数据是源于数字化,但是它和数据化之间的 区别是本质化的不同。

文字的数据化进程

那么数字化和数据化有什么不同呢?这个问题不难回答,想要真正理解就来看看两者同时存在且一起起作用的领域就可以 了,而这个领域也不特别,就是书籍。谷歌在2004年发布了一个充满野心的计划——数字化所有拥有版权的书籍内容,这样的结果就是世界上所有人都可以通过 它们的平台来免费阅读这些书籍。谷歌为了完成这个庞大的计划,和世界上最大、最知名的图书馆合作,并在此基础上研发了自动翻页的扫描仪,做完这一系列准备 工作,谷歌省去了扫描上百万书籍工作的大部分费用。

谷歌第一步要做的就是数字化文本,它扫描每一页图书,然后存进谷歌服务器中的一个分辨率很高的数字图像文件当中。这 样一来,书本上的文本内容就数字化了,不管是什么地方的人都可以通过电子平台来阅读。只不过用户必须很清楚自己想要阅读的内容在哪本书上,或者可以轻松地 从浩瀚的内容中寻找到自己所需要的片段。很显然这是由于文本没有被数字化的缘故,很难通过搜索来检索,更不可能被分析。谷歌所做的是将文本图像化,人的阅 读才能让这些图像成为有意义的信息。

这是一个比历史上任何一个图书馆信息量都要庞大的现代的、数字化的图书馆,可是谷歌要做的不止于此。谷歌明白,数据 化是下一步必须实现的,只有这样才可以挖掘出这现代化图书馆的巨大价值。从那以后谷歌开始利用识别数字图像的光学字符识别软件来对每一个字、每一句话、每 一段进行识别。经过这个过程,数字化文本就转化为了数据化文本了。

现在人类检索这些文本成为可能,而计算机处理和分析这些文本的可能也因此实现了。在检索和查询的过程中,我们能做的 还有无穷无尽的分析。通过它们还可以揭示出第一个词或是词组第一次出现的时间和它成为流行词的时间,几百年间人类思维发展和传播的轨迹也可以从中瞥见一 斑,好几种语言的分析都可以从中实现。

15世纪中叶,印刷机问世,在这之后大概有1.3亿册的图书出版。截止到2010年,也就是在谷歌数字化图书计划执 行的第七年,有2000万册的图书被扫描成了数字图书,大约是人类所有书写文明的15%已经数字化了,这个数字实在太惊人了!这也催生了一个新的学术研究 方向——文化组学。这是一个计算机领域的专业词汇,实际上就是把人类的行为和文化发展趋势用文本定量分析的方式揭示出来。

哈佛大学的一项研究利用了几百万册图书和超过5000亿个单词来深入研究,发现这当中有一半出现在这些书籍中的单词 是字典中未曾收入的。于是他们在分析报告中提出正规词典中尚未收入的不规范词汇数量十分惊人,这是个巨大的宝藏。在系统分析之下,人们提及纳粹德国时期的 犹太画家马克·夏加尔(Marc Chagall)时,研究人员发现很多时候个人或是思想受到审查和压制,有很多“可量化的痕迹”被流传了下来。词语之于书籍仿佛是化石之于岩石,凡是信奉 “文化组学”的人都和考古学家一般,很多宝藏都会被一一挖掘出来。至于其中的偏差也是必然存在的,就像是图书馆的每一本书难道都反映了最真实的现实吗?事 实上难道不是图书馆员或是作者自己所看到的现实吗?就算是这样,人们还是可以通过“文化组学”来获取极大的惊喜。

文字如果成为数据,它一下子就有了巨大的能量,人们可以阅读,机器还能分析。谷歌作为一家典型的大数据公司显然明白 信息化和数据化的价值,更何况很多数据的潜在用途是非常多的。因此,谷歌开始利用数据化的文本对自身的翻译系统服务进行改进。这个系统本身是可以自动扫描 译本的,随后从两种语言的匹配中找到对应的词或是词组。一旦有了答案,系统就会用类似数学方法的方法来对待翻译,随后在电脑上找到两者之间最为恰当的词或 是词组。

谷歌并非这一领域第一个吃螃蟹的人,也不是计算机时代第一个利用数据化来唤醒文明财富的公司。早在1971年,有一 个志愿者就提出能否将公共领域的书籍数字化,制成电子书放到网络上,以供更多的人来阅读,这就是著名的古登堡计划(Project Gutenburg)。这是个非常有意义的举动,尽管当时还未能将书籍数据化,而书籍的其他功能也尚未开发,毕竟他所提出的是要扩充书籍的用途,这是关注 阅读的一种做法。同样出版社这么多年也将电子书籍的开发视为未来的战略考虑,不过他们的重心还都没有把数据纳入自己的商业模式,显然书籍内容才是他们所关 注的核心价值。所以书籍的数据价值始终没有被发现,只因为他们没有发现数据化的需求,更不知道书籍数据化的潜力。

如今,不少在电子书领域竞争的公司,譬如亚马逊推出了它的kindle电子书阅读器,一跃成了这一行业的先驱,从中可以发现亚马逊和谷歌之间差异性的发展策略。

亚马逊的资源来自数据化的书籍,而对于数据化背后的价值却从未关注。作为创始人的贝索斯说服了上百家的出版社在自己 的kindle上发布图书,而读者在kindle上所读到的书籍并不只是简单的数字图像,而是可以更改字体和颜色来读的数据化文本。亚马逊数据化的文本已 经超过了上百万册,可相比之下谷歌在做的却是费力地把所有旧的版本来数据化。因此亚马逊的着眼点在于书籍内容的阅读,而非数据化文本的分析。不可否认的 是,传统出版社的压力或者限制了书籍内容的应用,毕竟人们还掌握着版权。对于谷歌来说,一个喜欢离经叛道的大数据公司不会有这样的压力,因为它所有的资源 都是源于客户的点击,和出版社没有关联。至少现在可以公正地说,亚马逊在数字化内容意义方面最为老练,而真正触及数据化内容价值的是谷歌。

地理位置的数据化构建

世界上最基础的信息就是地球本身。可是从古至今没有人将它完完整整地量化过和数据化过。事实上这些信息的组成部分就是人和事物的地理定位,否则古人怎么会有“所谓伊人,在水一方”的诗句,只不过数据化是这些信息现在面临的问题。

西方的希腊是量化位置信息最早的地方。早在公元前200年,埃拉托色尼就创造了划分区域的格网线系统,这就类似经纬 度法。不过这一系统很快就退出了历史舞台,和古代的很多好想法一样。过了1500年,也就是1400年,一本由托勒密撰写的《地理学》的影印本一路辗转从 君士坦丁堡到了佛罗伦萨,那是一个科学和古典知识的热点被文艺复兴和贸易船只点燃的时代。这本著作一下子轰动了整个欧洲,这套系统直到现在仍然被用在解决 航海导航的难题之上。自此地图上出现了经纬度和比例尺。1570年佛兰德制图师墨卡托改良了这套系统,从此海员出海时就可以通过它来完成最为笔直的航线 了。

尽管记录地理方位的方式当时已经出现了,可是广为认可的标记标准却还未问世,信息共享还有非常大的难度。人们都在呼 唤一套标准的标记系统,这和后来的人们呼唤互联网的域名一样。经过了一个漫长的时间经纬度的标准化才出现。1884年,国际子午线会议在美国华盛顿召开, 与会的25个国家中有24个都同意将本初子午线和零度经线穿过的地方规定为英格兰的格林尼治。到了20世纪40年代,用墨卡托方位法世界被完全分为了60 个区域,世界地理定位的精确度因此提高。

有了这个所有的地理定位信息,也就有了标准化数值范式的标记、记录、测量、分析和共享。可是人们却很少这么做,原因 是在模拟数据时代,所有测量和记录地理位置信息的费用都太高了,这也奠定了人们呼吁低成本地理方位测量工具出现的基础。直到20世纪70年代,还必须依靠 地标、天文星座、航位测量法和还未成熟的无线电定位技术来为地理位置定位服务。

1978年发生了一场巨大的转变,简称为GPS的全球定位系统,总共24颗卫星首次成功升天。地面上的汽车导航系 统、智能手机以及其他的接收器都能接收到它的信号,再利用接受时间上的差异来完成三角定位,而这些信息均源于离地面20372米的高空。这个系统到了上个 世纪80年代首次开放民用,90年代正式投入使用,还开放了商用。十年之后GPS的精确率大幅提升。今天,地理定位系统已经完成了精确到米的定位,也因此 实现了古今中外航海家、制图家和数学家的梦想。在和技术手段结合之后,定位系统的发展非常迅速,同样也降低了自身的成本,而这一切都不需要依赖任何专业知 识。

每时每刻定位都提供了众多的信息。可能的话,埃拉托色尼或者墨卡托可以定位所有他们所处的位置,这不依赖任何人。不 过假设这是可行的话,也不够现实。接收器早期的成本是很高的,技术也很复杂,它只适用于潜艇而不是出租车。幸运的是,数字设备中廉价芯片的普及让一切都发 生了变化。20世纪90年代GPS的价格还高达几百美元,现在已经降至1美元以下。如今的GPS的定位仅仅需要几秒钟的时间,它的方法是标准化的坐标表示 法,像是37°14′06″N 115°48′40″W,就是内华达州偏远的51号区域,那里有一个美军的高级保密的军事基地,据称那里的秘密就是有很多外星人。

GPS现在是众多定位系统中的一种,包括中国和欧洲国家在内的众多国家都开始了自主产权卫星定位系统的开发工作。不 论是哪种系统都要依赖电塔和无线路由器的信度来确定地理位置,所使用的技术仍然是三角测量,这从一定程度上填补了GPS在室内和高楼中缺少定位的缺陷,这 是谷歌、苹果等众多公司纷纷要用开发定位系统来辅助GPS的原因。例如谷歌就利用街景车(Street View Cars)一边拍照,一边来收集无线路由器的信号,而苹果的IPHONE手机本身就是一个移动的信号接收器,在不知不觉的情况下就会收集用户的位置和无线 数据,再传回苹果公司。此外谷歌的安卓系统和微软的手机系统也在做同样的工作。

人和事物的地理位置同样都可以被定位。汽车安装上无线传感器,地理位置的数据化也会因此带来保险概念的深刻变革。数 据当中包含了时间、地点和实际行驶路程的所有信息,保险公司可以依据这些来为车险定价。英国的车主买保险就是依据他自身的驾驶地点和时间,这些和他的年 纪、性别和履历关系都不大。这种保险定价的方式能激发人们更好的行为习惯。与此同时保险的基础也发生了改变,从前考虑的是一个群体的风险,而现在则是个性 化的风险分析。汽车定位了每个人的地理信息使得某些固定资产投入的模式也有了改变,例如适用公路和其他基础设施的司机和其他人也能够因此分担其中的部分投 入。当然上面所说的这些在所有人和事都以数据形式保持持续定位之前还是很难实现的,而这是未来的一种趋势。

莱维斯曾经说过:“预测给我们的是知识,而知识给予我们的是智慧和洞见。”他相信这个系统在用户意识到问题之前一定会预测且解决问题的。

人类身上的数据化实时位置信息运用最为突出。这么多年来无线运营商为了提升移动互联网的服务水平总在收集和分析这些 信息。而这些数据的应用范围越来越广泛,很多第三方的新服务也开始倚靠这些数据了,就比如说智能手机不论是否有定位功能,但无一例外地在收集此类信息,另 外一部分应用程序的存在目的就在于获得用户的位置信息,像是Foursquare,用户可以在最喜欢的地方“check in”,然后经过忠诚度计划、酒店推荐还有“check in”地点附近的各类推荐来得到好处。

收集用户的地理位置数据的能力无疑已经成了最为有价值的能力,即便是个人层面,他居住的地方和他想要去的地方这些数 据都可以用来预测要如何定制广告,何况聚集起这些信息还能发掘事物发展的趋势。例如大量的位置数据可以为公司预测交通情况提供帮助,或许这一点很难想象, 高速公路上的手机居然替代了汽车数量和移动速度来预测了相关的趋势。Air Sage每天将收集来的手机用户的150亿条位置信息进行处理,为超过100个美国城市提供各类交通信息。而Sense Networks和Skyhook两个位置数据服务商则是利用地理位置数据来推测每天晚上最繁华或是最热闹的地方聚集了多少人。

只是在商业之外未知数据的应用价值似乎更大。麻省理工学院的媒体实验室人类动力学实验室主任亚历山大·彭特兰 (Alexander “Sandy”Pentland)和他的学生南森·伊格尔(Nathan Eagle)就是最先进行“现实挖掘”研究的学者。所谓“现实挖掘”其实就是在收集大量手机数据基础上进行处理,以此来发现和预测人类的行为。他们的一项 研究分析了每个人去了哪里,见了谁,还将易于感染流感的人群给区分出来了,这种区分甚至是在易于感染的患者尚未感染之前就做出来了。一旦暴发了严重的流感 疫情,无数人的生命就会因此被挽救,很显然要隔离哪些人,到哪里去找到他们是很容易做到的。不过这些数据若是落入坏人手中,那会有什么样的后果难以想象。

无线数据科技公司Jana的创始人是伊格尔,他收集了100多个国家,超过了200个无线运营商的手机收据,这当中 有拉丁美洲、非洲、欧洲在内的35亿人口。伊格尔研究的问题很简单,是关于每一周家庭主妇要去几趟洗衣店,用什么肥皂的问题,当然也有在城市当中疾病如何 传播的重大问题。此项研究,伊格尔和他的同事们利用非洲预付费用户的位置信息和账户的余额来结合分析,发掘出成正比的是资费和收入,预付费越多的人往往都 是富有的人。除此以外,他们还有一个相悖于直觉判断的结果,事实上贫民窟除了是贫困中心外,还会成为经济繁荣的跳板,这当中最重要的一点是,他是在间接利 用手机的位置信息,本身和移动通信之间没太大的关系,而这些数据最开始是为了移动通信而产生的。总而言之,一旦有了数据化的位置信息,所有信息的新价值都 会应运而生。

数据化的沟通方式

另一个数据化的前沿就是个人化,这牵涉到了人类的关系、经历和情感。很多社交网络公司的主心骨就是数据化的构思。人 们在社交平台上寻找和维持朋友和同事关系,每个人日常生活中的无形元素都被提取出来了,从而有了新用途的价值。就是因为这个,有了将关系数据化的 Facebook,从前被视为信息存在的社交关系,直到Facebook“社交图谱”的出现才开始被界定为数据了。通过创新的Twitter也创造了一个 让人们容易记录和分享自身想法的平台,这在从前总是会成为人们遗忘在时光中的碎片,也因此让情绪有了数据化的可能。过去漫长的经历通过LinkedIn而 经历了数据化处理,好比是莫里转化旧的航海日志一般的过程,信息化为现在和未来的预测提供的依据,不论人们认识的是什么人,又可以在哪里找到一份心仪的工 作等等。

可惜使用数据的技术还没有成熟。拿Facebook为例,用户得知自己的数据过早被泄露而产生了过激的反应,不过此 时的Facebook精明地选择了忍耐。除此之外公司还在继续着数据收集的工作,也涵盖了商业模式和政策上对隐私问题的调整。目前,它面临的指责主要是来 自采集了什么,而不是它利用这些数据去做了什么。

它的潜在用途非比寻常是毋庸置疑的。部分消费者信贷领域的创业公司正在打算将自己的信用评分依据转为 Facebook的社交图谱。FICO的信用评分系统就正在打算通过15个变量来分析一个贷款者是否有偿还债务的能力。一家匿名的高风险投资公司有一项内 部研究,结果显示呈现正相关的是个人偿还债务可能性和他的朋友偿还债务的可能性。老话说得好:物以类聚,人以群分,所以说Facebook正在朝着 FICO的方向发展。很明显,在社交平台上的大量数据已经成了放飞想象的新型商务基础,它的意义早已超越了人们的照片分享、状态上传还有“喜欢”按钮。

Twitter也在同时间开始挖掘数据的新用途。从某种意义上来说,2012年每天超过1.4亿的用户发送的4亿条 微博就好比是口头的随意零碎。它们通常的情况就是这样,可尽管是这样,Twitter公司还是实现了个人表述数据的数据化,这是从前从未有过的。和其他两 家公司Data Sift和Gnip一起,Twitter公司达成了数据出售访问权限的协议。很多公司对人们所发的微博进行句法分析,还有另一种情感分析的技术,这些技术 用以获得反馈意见的汇总或是营销活动有着非常有利的判断。

位于英国伦敦的两家对冲基金Derwent Capital和加利福尼亚的MarketPsych也着手对微博的数据文本进行分析,以此为股票投资的信号(此前这项商业秘诀他们从未公开过,不知道是 为了倾向良好公司的投资还是做空)。此时两家公司都开始向经营者出售信息。对MarketPsych来说,和Thomson Reuters合作在119个不同的国家提供了18864项的独立指数,像是每分钟更新的心情状态,有乐观、忧郁、快乐、害怕等等,还有很多像是创新、讼 诉和冲突的情况出现。

被人类利用的数据频率远低于计算机,很多在华尔街以“金融工程师”知名的数学奇才,他们把数据送到了自己的算法模式 中,以此来找到有效利用且能盈利的隐性关系。“社交网络分析之父”贝尔纳多·哈柏曼(Bemardo Huberman)的分析说明,在微博中出现单一主题的频率对于预测不少事情有着重要的作用,例如好莱坞的票房。他和一个在惠普实验室工作的同事一同开发 了一个程序,勇于监听新微博的发布频率,并在此基础上他们来推测一部电影的票房,据说这方法要比传统的评估准确得多。

类似这样的数据用途举不胜举。Twitter微博的发布字数被限制在了140字,可是与之相联系的元数据却是非常丰 富的。Twitter的元数据指的是“关于信息的信息”当中包含了33个分离项。其中有一部分的信息用处不是很大,好比是Twitter用户所用的墙纸, 还有很多用户用来访问这项服务的软件等等,可是剩下的元数据价值就很大了,例如他们在服务当中用的语言,所处的地理位置,还有关注的人和粉丝的名字、数量 等等。《科学》杂志在2011年刊出了一项研究表明,世界上不同国家、不同地方的人们每天、每周都在用类似的模式。这结果是来自对84个国家的240万人 所发布的5.09亿条微博的分析,从前这样的研究是无法想象的。可见,情绪也开始被数据化了。

态度和情绪因为数据化而成了可分析的形式,还可能转化为人类的行为。只不过要跟踪这些行为很困难,尤其是在大的社区和它的子人群中。

早期的发现可以用来推测数据化的发展方向。同谷歌一样,不少社交网络平台也拥有大量的数据。只要能深入分析这一类数据信息的话,无论是哪家公司都可以很容易地获得各行各业的动态信息。

企业竞争力的关键——大数据

越来越多拥有强大竞争力的公司都尝到了大数据的甜头,行业结构因此发生了翻天覆地的变化。只不过每一个公司的变化不尽相同。最有可能成为赢家的是大公司和小公司,而中等规模的公司则很难在这一次竞争中赢得胜利。

尽管在行业中亚马逊和谷歌还始终占据了第一把交椅,可是有别于传统的工业时代,它们并不因为有庞大的生产规模而获得 企业竞争力。尽管技术设备还非常重要,但是核心竞争力也不是它们。公司要根据实际发展来逐步调整计算机的技术力量,逐渐转变固定投入为可变投入,大公司技 术配备的规模优势也因此被削弱。

小数据时代的赢家,包括那些线下的大公司,诸如沃尔玛、联邦快递、宝洁公司、雀巢公司、波音公司等等,都接到了大数 据提出的挑战,它们纷纷认识到了大数据的价值和能力,并开始有效地收集数据和使用数据。与此同时,在科技创业行业和新兴行业中的老牌企业也开始了自己的大 数据时代。

过去的十年间,劳斯莱斯作为航空发动机的制造商在产品分析的使用过程当中收集到了不少数据,从而完成了商业模式的转 型。就在英格兰德比郡的劳斯莱斯运营中心长时间地把控着全世界超过3700架飞机的引擎运行的监控工作,它们的工作就是在故障产生之前找到问题。劳斯莱斯 将原有的简单制造转化为附加值很高的商业行为依靠的就是数据。劳斯莱斯本身出售发动机,与此同时还用计费的形式为航空公司提供监控服务。现在世界上的民用 航空发动机有70%的收入都来自提供服务所赚得的服务费用。

小公司在大数据时代也有了自己的春天。埃里克教授曾说过,灵活聪明的小公司会获得非固有资产规模的恩惠。换句话说, 小公司因为没有过多的固有资产因此不具备很强的存在感,也因此在传播它们的创新成果上成本很低。最重要的是,由于大数据的最佳服务都基于创新思维,因此对 于它们来说不一定要有大量的原始资本投入。数据不会被占有,但是可以授权,在云处理平台上快速且低成本运营的数据分析,在数据带来的利益当中,授权费则不 过是抽取的一小部分而已。

大数据能让大大小小的公司都从中获利,它不仅仅是适用于使用数据的公式,对于掌握数据的公司而言也是适用的。拥有大 数据的人总在尽可能地用各种方式加大数据的存储量,以换来最小成本基础上的利润。第一,它们的存储和处理数据基础已经很好了,第二,融合数据库的价值是独 特的。第三,假设只要从一个人手中获得数据的话,数据使用者显然更省心省力。实际情况却没有这么简单,另外还有一群在另一方的数据拥有者也因此诞生。数据 价值的不断呈现,很多人都会以拥有数据的人的身份来展现自己的能力,很多他们手中的数据是和自己相关的,如购物习惯、观影习惯,包括医疗数据在内。

消费者从中获得的权利也越来越大。他们可以自主决定要把多少数据授权给哪些公司。只不过不是所有的人都认为要用高价 转卖自己的数据,更多的人愿意做的是免费用数据来换优质的服务,像是亚马逊的优质图书推荐。对于大多数对数据敏感的消费者来说,个人信息的营销和出售仿佛 同博客、微博发表一样自然简单。

只是所有这一切消费者所期望的绝非消费者的意识或是喜好的转变就可以催生的。如今消费者将个人授权给公司,或者是公 司从个人手中购买到信息,这程序都过于昂贵和复杂。无疑一部分中间商出现了,他们先是从消费者手中购买信息,再卖给大公司。只要有低成本消费者就非常信任 中间商,那么就会产生个人数据市场,在很大程度上个人就成功转型为数据拥有者。美国麻省理工学院媒体实验室个人数据分析家桑迪·彭特兰就和一些朋友创办了 ID3公司,他们的工作就在积极地将这一切变为现实。

这些中间商开始运营起自己的工作了,只有当这些数据真正被使用时,消费者才算是真正意义上的数据拥有者。现在消费者 积极地在呼唤着能够有足够配备的中间商的出现,而在此之前,他们不希望自己的信息被披露得太多。总而言之,只要条件成熟,消费者就可以从完整意义上转型为 数据掌握者了。

中等规模的公司从大数据中获益并不大。波士顿咨询集团资深技术和商业顾问菲利浦·埃文斯(Philip Evalls)提到,规模优势最大的是超大型公司,小公司则具备灵活性。传统行业当中,大公司的灵活性不如中等规模的公司,而小公司的规模不如中等规模的 公司。当大数据时代到来,公司的规模不要求太大,甚至不用足够支撑它的设备投入。往往是那些灵活的小公司才会在大数据时代中获得更大的成功。

国家竞争力也会被大数据所撼动。发展中国家越来越多地开始承接制造力,其他国家更在意行业创业的时候,工业化国家对 于大数据技术的重视在逐渐提高,它们也因此始终在全球竞争中占优。不幸的是这优势只是暂时的。好比互联网和计算机技术,世界上绝大多数的国家都开始应用这 些技术的时候,西方大国的技术优势就在慢慢消失。发达国家的大公司它们所获得的利好消息就是大数据会加剧优胜劣汰。凡是掌握了大数据的大公司,就可能在短 时间内抛下自己的对手,遥遥领先。

尽管有这么多的好处,还是有不少隐忧的。大数据对全球各类事情和个人所处的位置预测得越准确,越是会侵犯到个人的隐 私,似乎很多人都还没有做好相关的准备。在一个数据充裕的阶段到来的时候,很多认知和制度都还没有适应,毕竟它们都来自小数据时代。下一章节就来谈谈大数 据的弊端和不足。

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1097

大数据技术与应用  

微信号:qq444848023    QQ号:444848023

加入【我是码农】QQ群:864689844(加群验证:我是码农)

<< 上一篇 下一篇 >>

网站分类

标签列表

最近发表

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

本站资源大部分来自互联网,版权归原作者所有!