当前位置:首页 » 大数据精品文章 » 正文

第九章 更自由,更开放,大数据的机遇和挑战

1740 人参与  2018年10月16日 12:40  分类 : 大数据精品文章  评论

大数据为所有人都提供了更为开放、自由的发展机会,但与之相应的,一起到来的还有人类从未碰到过的挑战。一切传统规则被大数据时代所颠覆、推翻和打破,又该如何在保证正确的发展方向的同时避免不必要的风险和负面影响呢?

人机结合的未来发展趋势

人机结合,或者说是人和数据的结合是未来的一个进步发展趋势,数据经过人类的改造会越来越智能。

不少人会有疑问,目前的大数据究竟发展到了什么阶段?显然这个阶段的水分还太多。大数据对社会方方面面的影响已经很 大了,这点毋庸置疑,只不过它的爆发点还没有到来。大数据时代到来,数据开始和人的经验结合,两者彼此激活,人们的智慧也因此获得了规模化的放大,因此整 个社会的发展都因为有了大数据而发生巨大改观。不过大数据应用未来的空间一定会比现在的成绩更为宏大,数据和人之间的“数据化运营”和“运营数据”的闭环 系统也会渐趋完善,只不过在人机结合中的巨大空间还要进一步挖掘。

数据的种类在未来一定会超过人们的想象。从前更多的数据是集中在监控外部行为上,像是网络购买行为或是网上社交行 为,皆为“远距离”的数据提供,但即便是这样,这些数据的运用还是不太好。随着可穿戴式设备的出现,人和数据就能真正意义上融合在一起了,就好像谷歌眼镜 等等,我们所看到的一切都会瞬间被数据化,还有健康手环类的设备,包括能够深度收集脑电波数据的设备,人们未来的活动都会转变为数据。现在睡眠记录状况仍 处在初步的应用阶段,可是不远的未来,人们每一秒的生活都会为数据所记录。

商业发展的更多机会是伴随着万物皆数据的时代一同到来的,那时候人们的判断可以依靠数据进行,例如什么时候是吃饭的 最佳时候,什么时候又是睡觉和记忆的最佳时候等等都可以利用数据来预判。即便是把人的各种数据都记录下来的话,每一个时刻适合做什么,要采取什么样的策略 数据都能够预判出来。或许就在那个时候决定人们聪明与否的指标不再是IQ,而是是否拥有优质的数据。

未来的进步模式就是人和机器的结合,或是人和数据的结合,数据因此变得更加智能。

眼下最需要做的事情就是人机分工,人做人擅长的事,机器做机器擅长的事。

将来人机之间的界限越来越模糊,随着人机结合,越来越多的无人操作机器会不断出现,而在人类身上会有更多数据的血液流淌着。

数据时代,引发时代大变革

又一次因为大数据所带来的时代转型到来了。大数据和其他的新技术一样也必须经过硅谷臭名昭著的技术成熟度曲线,即在 媒体和学术会议的大力宣传之下,新技术的趋势会在短时间堕入谷底,而让众多的数据创业公司出现危机。不过不论是过热期还是幻想破灭期,对于正确理解正在发 生的转型重要性都是非常不利的。

感受宇宙可以通过望远镜,观测微生物可以通过显微镜,为了更好地理解世界可以通过收集和分析海量数据的技术,人们现在才意识到了这种理解世界的新方法。事实上,真正的革命并非去分析数据的机器,而是人们如何去利用数据和数据本身。

天文学的领域和其他各个领域一样都在发生着变化。人类在2003年第一次破译了人体基因密码的时候,在工作了十年之 后,三十亿对碱基对的排序最终完成。十年之后全球范围内的基因仪要完成同样的工作只需15分钟而已。金融领域也是如此,美国股市每天成交的股票多达70亿 股,经由数学模型和算法基础的计算机程序自动完成的就有2/3左右,通常这些程序是在海量数据预测利益和降低风险的基础上进行的。

数据怕是要淹没所有的互联网公司了。每天谷歌公司处理的数据超过了24拍字节,也就是说所有被处理的数据量已经是美 国国家图书馆馆藏纸质出版物的上千倍。像创办时间还不足10年的Facebook,一天照片的更新量都超过了1000万张,人们每天在网站上点击“喜欢” 按钮或是书写评论的次数也超过了30亿次,很显然Facebook为了挖掘出用户的喜好用了大量的数据线索。谷歌的子公司YouTube每个月接待的访客 数量也超过了8亿,几乎每一秒都有一段长约一个小时的视频上传。Twitter上的信息量也在每年翻番,到2012年,上面微博的发布总数已经超过了4亿 条。

科学研究、医疗保险,还有银行业和互联网,几乎每个领域的故事都是相似的,爆炸式的数据增长所带来的故事几乎是重复出现。它的速度似乎已经超过了机器制造的速度,更是超过了我们的想象。

究竟我们周围有多少数据,增长的速度有多快?很多人都试图去找到这些答案。尽管不同的人用的是不同的测量方法,测量 的是不同的对象,但结果都是大获成功。南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特(Martin Hilbert)曾做过一个比较全面的研究,对象是统计出所有人类创造、存储和传播的所有信息的确切数量,范围涵盖了书籍、图画、电子邮件、照片、音乐、 视频(模拟和数字),此外还有电子游戏、电话、汽车导航和信件。马丁·希尔伯特还曾经以收视率和收听率为基础,开展了电视、电台等媒体的研究。

有意思的是2007年的时候,仅仅只有7%的存储是在报纸、书籍和图片上的模拟存储,剩下的都是数字数据。可就在不 久以前,情况却发生了翻天覆地的变化。1960年,实际上“信息时代”和“数字村镇”的概念就已经存在了,可是到现在为止这些概念还都是新的。到了 2000年,全球数据量中仅有1/4是数字存储信息,其他的都是在报纸、胶片、黑胶唱片和盒式磁带这些传统的存储介质之上。

最早期是没有太多数字信息的。对于经常上网和网上购物的人来说那是非常微小的一个部分。实际上,1986年,全球计 算能力的40%几乎都用在了袖珍计算器上了,当时袖珍计算器的计算机能远高于所有的个人电脑处理能力。只不过随着数字数据快速地增长,很快形式就产生了翻 天覆地的变化。希尔伯特曾经说过,每三年数字数据的数量就会翻一番,相比之下,模拟数据的数量则变化不大。

数字数据的增长确实是惊人的,或许信息存储的发展速度已经超过了经济增长的速度,从计算机数据处理的速度来看,已经是世界经济增长速度的9倍之多。这也难怪总有人在埋怨信息过量,而因此受到了极速发展的冲击了。

再往人类历史的前面看,如果拿1429年前后古登堡发明印刷机时的信息存储来和现在的信息进行对比,在 1453-1503年的50年间,历史学家伊丽莎白·爱森斯坦(Elizabeth Eisenstein)发现大约有800本书籍被印刷出版,这比1200年前君士坦丁堡建立之后欧洲所有的手抄本数量还要多。欧洲的信息存储量花了50年 的时间在当时翻了一番,可是现在大约是3年时间就可以翻一番。

这能说明什么呢?谷歌的人工智能专家彼特·诺维格(Peter Norvig)曾在美国宇航局喷气推进实验室工作,他会把这种增长与图画进行类比。第一,他让大家去想象一下在法国拉斯科洞穴壁画上的标志性的马。从这些 画的追溯来看可以一直往前追到一万七千年前的旧石器时代。然后再思考一张马的照片,或者是毕加索的画作,或许看起来和那些洞穴上的壁画差异不大。实际上, 当毕加索看到那洞穴上的画作时就曾开玩笑说道:“从这以后人类就没创作出什么东西来了。”

毕加索的话也对也不对。回想一下那壁画中的马,当时画出马需要很长的一段时间,可是现在已经不需要了。这就是变化, 当然变化兴许触及的不是最核心的部分,因为他画的仍旧是一匹马。可是诺维格说过,只要去想象一下,现在的人们每秒钟可以播放的马的图片是24幅,这是一种 源于量变的质变,也是一部电影和一幅静态画作的根本区别。大数据也是一种源于量变的质变。物理学家和生物学家的研究表明,规模被改变的时候,事物的状态也 会发生巨大改变。

就拿纳米技术来说。纳米技术一直都在将事物变小,而非变大。这当中的原理在于事物有了分子级别之后,物理性质自然而 然就会发生改变。只要人们了解了这些新的性质,就能用一样的材料来创造此前做不到的事情。像是原本用来导电的铜,用纳米技术之后它就无法在磁场当中导电 了。还有原本抗菌的银粒子,一旦以分子的形式存在的话,就会消失掉原有的性质。所以说在纳米级别上的金属会变得非常柔软,即便是陶土也会变得有弹性。事实 上,人类所利用的数据量增加的话,很多在小数据量基础上无法完成的事情就都可以完成了。

人们有时会认为生活有着方方面面的约束,而这些对世间万物都存在约束力。可是真正的情况是,即便是相同的规律,人类 感受到的约束力只是对人类有效而已。唯一对人类最为重要的物理定律无疑就是万有引力定律。这个定律每时每刻都在控制着人们,而细小的昆虫却不在乎这个。对 它们来说有效的物理力是表面的张力,因为它们可以凭借这个力量在水面上自由地行走而不至于掉下去。事实上这个力却是人类不在意的。

生物体在不在乎万有引力和它的大小是有关系的。同理,信息的约束力也与规模有关系。之所以谷歌能够几近完美地给出一 个和通过海量真实病例推断出的流感蔓延情况一致的结果,正是因为它能够比疾控中心更快地得到实时的数据。Farecast预测机票价格的走势,让消费者在 经济上获利也是同样的道理。正是因为有了供其分析的数千亿的数据项才能让它们的服务功能如此强大。

虽然大数据时代才刚刚来到,但是每个人的日常生活似乎都已经离不开它了。例如能够自动过滤垃圾邮件的垃圾邮件过滤 器,而即便它还无法区分“发#票#销#售”和“发票销售”之间的区别;交友网站会重新搭配依照个人性格和之前配对成功情侣之间的关联;有“自动改正”功能 的智能手机能通过分析人们此前输入的信息把个性化的新词收入到手机的词库里。不过这一切都只是个开始。这项技术很快就可以打败地球上的诸多东西,这一点从 可以自动转弯和刹车的汽车,以及IBM沃森超级电脑在《危险边缘》游戏节目中打败人类就可见一斑。

数据可以表示世间万物,会带来惊喜

哪怕一点点的想象,数据化进程就会转化世间万物,还会带来意外的惊喜。IBM的“触感技术先导”专利和东京的越水重 臣教授对臀部的研究工作理念是基本相通的。有知识产权的律师将其称之为是一块有灵敏触感的地板,犹如一块巨大的智能手机屏幕。它本身有着非常广泛的潜在用 途,凡是放在上面的物品都可以辨认。最基本的用途就在于开灯和开门。除此以外更为重要的是,一个人的体重、站姿和走路方式也可以成为其判断身份的依据。某 个人在摔倒以后是否站起来了也是它能知晓的。零售商在有了它之后可以了解商店的人流量。而数据化的地板能够有无穷无尽的用途。

事实上,这一切并不荒谬。一群健身迷和医学疯子,还有技术狂人发起了“自我量化”的运动,身体每一个部位和生活中的每一件小事都会因为数据测量而变得美好,还可以说是量化的方式使之更为美好。当前,这个运动的规模还不够大,但它一天天地在壮大自己的队伍。

智能手机和计算机技术的推广,使得个人生活行为的数据化已经变得极为容易。很多创业公司为了研究睡眠模式测量了人们 夜间的脑电波,例如Zeo公司就已经有了全球最大的睡眠活动数据库,用于解释男性和女性睡眠时眼睛快速动量的区别。还有Asthmapolis公司把感应 器绑在了哮喘病人的呼吸器上,然后用GPS定位的方式来收集位置数据,再来推断病因中的环境因素。Fitbit和Jawbone公司则是对人们体力活动和 睡眠进行测量。Basis公司利用腕带来检测人们的生命体征,像是心率和皮肤电传导率等等,这些都可以用来推断他们所承受的压力。2009年,苹果公司有 了一项专利,也就是对血液氧合、心率和体温的数据采用音频耳塞的方式来收集。这个时代数据的收集似乎已经比任何时候都简单且不受约束了。

人们似乎从数据化那里得到了更多人体运作的方式信息。挪威耶维克大学的研究人员和Derawi Biometrics公司联合开发了一款可以用在智能手机上的应用程序,它主要的功能在于分析人走路时的步伐,并将其作为手机解锁的方式。与此同时佐治亚 理工学院的罗伯特·德拉诺(Robert Delano)和布莱恩·派尔思(Brian Parise)也开发了一款名为iTrem的应用程序,主要可以用来监测人体的颤动情况,为帕金森症和其他神经疾病的病人服务。医生和病人都受益于这些应 用程序,病人不需要再到医院去做昂贵的体检,医学家们更是可以远程检测病人的疾病情况和治疗情况。东京的调查人员提到,尽管智能手机上的这些应用程序和三 轴测振仪相比还不那么精确,但是一般使用是没有问题的。这也再一次说明,完全精确并非总比不精确有效。

大多数的时候,信息会被采集存储后再来使用,任何领域,任何事情都可以用这样的方法处理。Green Goose是一家创业公司,它们主要销售的是放在物品之上的微型运动感应器,以检测物品的使用次数。像是放在一捆牙线、一个洒水壶或是一盒猫食上,就能读 出牙齿情结、植物护理和宠物喂养的所有信息。人们常常对“物联网”非常狂热,想在生活中的所有事物身上植入芯片、传感器和通信模块。好像这个词和“互联 网”非常相近,但实际上它表示的是一种典型的数据化手段。

当下假设有一个重大的基础设施项目正在进行,很大程度上这和过去所做的一切都不一样,不管是罗马的水渠还是启蒙运动 中的百科全书。它是全新的,但是又让人们置身其中,又好像是无形的,但和水渠中能触摸到的水不一样,因此人们总是无法意识到它的存在。所谓的它就是无处不 在的数据化进程,它能够带来和其他基础设施一样的社会大变革。

城市的发展因为有了水渠而成为可能,启蒙运动因为有印刷机而得到推动,国家的兴起因为有了报纸而奠定了重要基础。所 有流动的譬如水,譬如知识基础设施所依赖的。包括电话和互联网也不例外。相比而言,数据化所带来的转变则是革命性的。在大数据的帮助之下,世界在人们的眼 里不再是一连串自然或是社会的现象了,而是由信息本质构成的。

一个多世纪以来,物理学家对人们宣称世界的本源不是原子而是信息。当然这个理论听起来有点让人难以置信。但是在数据化的推动下,人们能够全面采集和计算有形和无形事物的存在,并对其进行处理。

世界被视为是信息,可以将其视为是数据的海洋,它为人们提供了一个前所未有的看待这个世界的角度,可以充分地渗透到生活各个领域的世界观。

早晚会有一天,水渠和报纸的影响会由于数据化而渐渐消退,与此同时,再为人类创造一个数据化时代下的产物。因此它对传统印刷术和互联网也产生了冲击。只不过目前它还只是在商业领域上被应用。

数据化带来的挑战前所未有

大数据的核心在于带来了分析信息的三大转变,它导致了人们理解和组建社会方法的改变。

第一个转变就是大数据时代的到来,让人们可以更多地分析数据,不再依赖于随机采样,而是分析和某现象相关的所有数 据。19世纪以来,当有大量数据出现时,人们的处理方法往往都是采样,这种方法是在缺乏信息和信息流通受到限制的模拟数据条件下产生的。通常很多人会觉得 这是理所当然的,可是当高性能的数字技术开始流行的时候,人们才明白这是人为的限制。和小数据范围相比,大数据的分析能够带来更高的精确性,而从中还能挖 掘出不少此前无法发现的细节问题。所以说,人们利用大数据看到了更多样本本身无法揭示出来的细节信息。

第二个改变在于,大数据的研究和分析,让人们对于精确度的追求不再那么热衷。在测量事物能力受限的情况下,人们最为 关注的事情莫过于精确的结果。要是购买者不知道牛群里的牛是80头还是100头的话,那显然交易就很难进行了。一直到今天,人们还是习惯于在精确的基础上 建立数字技术。例如只要电子数据表格能把数据排好,那么数据库的引擎就可以帮助人们检索出内容完全一致的检索记录了。

在“小数据量”的情况下,这种思维方式是可行的,毕竟供分析的数据还不多,那人们就需要尽可能地去精准分析和量化每 一项记录。人们已经在某些方面意识到差别的存在了,比如晚上打烊时的小商店总是细细地把每分钱都数清楚,可是没有人会一分钱一分钱地去衡量GDP。随着数 据规模的扩大,人们就不再会那么痴迷于精确度了。

专业的数据库是达到精确的基本保障。针对小数据和特定的某件事情,人们能够去追求精确度,像是某一个人想要确认自己 的账户上是不是有足够的余额去开支票。可是大数据时代到来的时候,精确度的追求已经不可行,甚至不受到欢迎了。一旦有了海量的数据,人们所追求的目标就不 再是精确度了。

复杂多样的大数据,在全球多个服务器上分布。人们在拥有大数据的情况下不用再纠结于一个特定的现象,只要是大方向掌握了就可以了。当然这不代表精确度就不需要了,只不过是不希望人们只是执着于此。微观层面上的精确度适当放弃一些,会让宏观层面上的我们有更好的洞察力。

前两个转变促成了第三个转变,那就是因果关系不再是人们热衷去寻找的了。人类长时间都习惯于寻找因果关系。即便是没 有太多用途的因果关系,人们还是会习惯性地去找到这关系。可是到了大数据时代,因果关系的重要性渐渐被忽略了,取而代之的是事物之间的相互关系,这显然是 一个相当新颖且有价值的观点。相关关系或许有可能无法告知人们事物发生的原因是什么,但是能提醒大家有事情正在发生。很多情况下,这种提醒就足够了。

或许数以百万计的电子医疗记录说明特定的组合橙汁和阿司匹林对治疗癌症有作用,可是这种治疗方法显然要比找出具体的 药理机制重要得多。相同的,我们只需要知道买机票的最佳时机是什么时候,完全没必要去理解价格疯狂变动的原因是什么。大数据能告诉我们“是什么”而不是 “为什么”。现象背后的原因是什么不需要人们去理解,只要数据能够自我发声即可。

没必要用少量的假设来进行分析,如果海量收据还没有收集全的话。只要是数据能自我发声,那很多从前尚未为人们所意识到的联系就会被人们所认识的。

就好比对冲基金在分析了社交网站Twitter上的数据信息后推测了股市的表现,亚马逊和奈飞(Netflix)也在自己的网站上依据用户的类似查询来推荐商品,还有Twitter,Facebook和LinkedIn则是利用用户的社交网络来了解用户的喜好等等。

几千年前,人类就开始了数据分析。最初美索不达米亚平原上的记账人员发明了书写,只为有效跟踪记录信息。圣经时代开启后,为了人口普查,政府开始建立大型的国民数据库。两百多年来,精算师们也在大量收集数据,只为了规避风险。

在模拟数据时代,收集和分析数据是一件很困难的事情,一旦有新问题出现,数据分析就不得不重新开始。来到数据化的时 代,数据管理效率已经有了大踏步的进步了。数据化的进程将原本模拟数据转化为了计算机可读的数据,存储和处理这些数据就不再那样困难了,数据管理的效率也 逐步提高。曾经要几年才能完成的数据收集和分析,现在只消几天的工夫。不过改变不是唯一的。曾经人们有一种偏见,认为数据库仅有单一的用途和价值,那是模 拟数据时代的技术和方法所导致的。大数据转变尽管是数字化促成的,但这绝不仅仅是计算机存在所能实现的。

现在正在发生的一切人们已经无法准确描述了,但“数据化”的概念足以让人们去了解这次变革。它意味着所有人都要从世 间万物中汲取信息,包括那些曾经认定和“信息”完全没有关系的事情。例如人们所处的位置、引擎的震动、桥梁的承重等等。量化的方式能够让这些信息都化为数 据,这也使得从前无法做到的事情如今都成了可能,例如引擎会不会出现故障可以从引擎的散热和震动来推测。这样一来,数据就能够挖掘出前所未有的潜在价值 了。

大数据时代为人类提供了一场寻宝游戏,数据让人们将关注点从因果关系转为相关关系,并释放出了潜在的价值,这就是主 宰这场游戏的关键。这一切成为可能都源于新兴技术工具的使用。宝藏中不止一件宝贝,数据集内部都有着不为人知的价值。这些数据价值的挖掘和利用的竞赛正在 全球各地上演。

数据处理技术已不是新鲜的事物,但最初它只是调查局、研究所和世界上的巨头公司掌握的一项技术。像沃尔玛和美国第一资本银行就领先其他企业在零售业和银行业率先使用大数据,这两个行业因此而得到改变。现在这些技术已经普及到各个行业。

个人受到大数据的影响是最大的。专业性在一个可能性和相关性占主导的世界里已经不再重要了。不过这并不说明行业专家 会消失,因为他们要和数据表达进行博弈,就像是《点球成金》电影里的那样,统计学家让棒球球探们感到惭愧不已,精准的数据分析让直觉的判断不得不退居二 线。人们因此不得不去调整管理、决策、人力资源和教育方面的传统理念。

大部分时候,人们都会将习惯建立在一个预设好的立场上,但是这只适用于少量、精确且重要的决策信息时代。一旦数据量 规模变大,处理速度增快且数据不再那样精确,所谓的预设立场就不存在了。数据量庞大的情况下,人类自身就要让步于机器来做出决策。当然,不得不承认这也存 在一定的弊端。

社会在监视和了解人类的行为上已然有了数千年的历史了。可是一个算法系统要如何监测呢?信息化时代的最早期,政策专 家已经发现了人类的隐私权遭受到了信息化的威胁,人们不得不建立起一个庞大的规则体系来维护个人的信息安全。大数据时代来临的时候,这些规则又都失去了原 有的作用。对于信息分享人们很热衷也都是自愿的,网络服务当中的一个中心特征就是信息分享,而不再是规避的薄弱点了。

对人们来说,似乎隐私的泄露已经不是危险,而转换成了被预知的可能,它们能够预测人们是否拖欠还款或是犯罪,这些算 法很显然会让人们在尚未做出这些行为之前就预先被逮捕。因此大数据是统计的首位,那即便是这样,个人意志是不是就高于大数据呢?就仿佛出版印刷行业的发展 推动了一个国家言论自由的立法保护,而大数据时代也必须推动个人权利捍卫的立法保护才行。

在处理和控制数据的方法上,政府机构和社会都要有全方面的改变。这是一个难以否认的用数据来预测一切的年代,尽管背 后的原因究竟是什么我们难以解释。医生若是要求病人遵从医嘱,但对于医学干预的合理性无法说明的话,那将是什么情况呢?事实上在大数据时代,这是懂得病理 分析的医生一定会去做的事情。此外司法系统的“合理证据”要不要改成“可能证据”呢?若可以这样做的话,那么人类的自由和尊严会不会也因此受影响呢?

大数据时代也必须有一系列倡导的规范制度,它们和曾经小数据时代发展并留存下来的规范有着继承的关系,只不过在新环境下旧规范也要与时俱进了。

人类在寻求量化方式认识世界的道路上大跨步迈进的标志就是大数据的出现。从前很多东西无法计量、存储、分析和共享,如今都被数据化了。世界因为大数据和海量的不如从前精确的数据为人们开启了一扇全新的理解世界的大门。社会对于因果关系不再执着,反而去关注相关关系的好处。

现代社会有了寻找原因这一神论,但因大数据的出现而被推翻。只不过人们又陷入了另一个历史困境中,那便是这是一个 “上帝已死”的时代。换句话说,传统固守的信念已经开始发生动摇了。更让人感觉到讽刺的是,信念正在为“更好”的证据所取代。经验中获得的信息、直觉和迷 惘都和证据相矛盾,它们是什么样的角色呢?世界转而开始挖掘相关信息,人们又该如何在不破坏传统因果推理的基础上来保证社会繁荣、人类前进并取得实质性的 进步呢?

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1095

大数据技术与应用  

微信号:qq444848023    QQ号:444848023

加入【我是码农】QQ群:864689844(加群验证:我是码农)

<< 上一篇 下一篇 >>

网站分类

标签列表

最近发表

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

本站资源大部分来自互联网,版权归原作者所有!