当前位置:首页 » 机器学习电子书 » 正文

Spark快速大数据分析 (图灵程序设计丛书) - 电子书下载(高清版PDF格式+EPUB格式)

1090 人参与  2018年12月31日 14:44  分类 : 机器学习电子书  评论

Spark快速大数据分析 (图灵程序设计丛书)-[美] 卡劳(Holden Karau)[美] 肯维尼斯科(Andy Konwinski)[美] 温德尔(Patrick Wendell)[加] 扎哈里亚(Matei Zaharia)

            在线阅读                   百度网盘下载(o2gk)


image.png

书名:Spark快速大数据分析 (图灵程序设计丛书)

作者:[美] 卡劳(Holden Karau)[美] 肯维尼斯科(Andy Konwinski)[美] 温德尔(Patrick Wendell)[加] 扎哈里亚(Matei Zaharia)

格式:EPUB, HTMLZ, PDF

书号:9787115403094

路径:点击打开

出版:人民邮电出版社

排序作者:Zaharia), 卡劳(Holden Karau) 肯维尼斯科(Andy Konwinski) 温德尔(Patrick Wendell) 扎哈里亚(Matei

排序书名:Spark快速大数据分析 (图灵程序设计丛书)

日期:08 12月 2018

uuid:ee27d1cf-41c4-4346-b9e2-b6212df5a90a

id:494

出版日期:9月 2015

修改日期:08 12月 2018

大小:4.38MB

语言:中文


作者简介


Holden Karau 是 Databricks 的软件开发工程师,开源工作积极参与者。她也是早前另一本 Spark 书的作者。在加入 Databricks 之前,她曾在 Google、Foursquare、Amazon 参与过搜 索和分类问题方面的工作。Holden 毕业于滑铁卢大学,获得计算机科学专业的数学学士学 位。除了软件外,她还喜爱玩火、焊接和呼啦圈。


Andy Konwinski 是 Databricks 的创始人之一。在此之前,他是加州大学伯克利分校 AMPLab 实验室的博士生,接着成为了博士后,研究方向是大规模分布式计算和集群调度。他共同 创建了 Apache Mesos 项目,并且是该项目的代码提交者之一。他还与 Google 的系统工程师 以及研究员一起致力于 Omega——Google 的下一代集群调度系统的设计。最近,他开展并 领导了 AMP Camp 大数据训练营以及 Spark 峰会,并为 Spark 项目作出了贡献。


Patrick Wendell 也是 Databricks 的联合创始人之一,同时他也是一位 Spark 的代码提交者及 PMC 成员。在 Spark 项目中,Patrick 是几个 Spark 发布版本的发行经理,其中包括 Spark 1.0。Patrick 也维护着 Spark 核心引擎的几个子系统。在帮助创办 Databricks 之前,Patrick 在加州大学伯克利分校获得了计算机科学的硕士学位,研究方向是大规模分析类工作负载 的低延迟调度。他还拥有普林斯顿大学的计算机学士学位。


Matei Zaharia 是 Apache Spark 的创造者,也是 Databricks 的 CTO。他拥有加州大学伯克利 分校的博士学位,并从那里以研究型项目的形式启动了 Spark。他现在也是 Apache 基金会 的一名副总裁。除了 Spark 以外,他也对集群计算领域的其他一些项目有所研究,并作出 了开源代码共献,其中包括 Apache Hadoop(他是代码提交者之一)和 Apache Mesos(也 是他在伯克利时参与启动的项目)。

封面介绍


本书封面上的动物是斑点猫鲨(Scyliorhinus canicula),是东北大西洋和地中海中最常见的 软骨鱼类之一。这是一种体型小而修长的鲨鱼,头部扁钝,眼睛细长,吻部短圆。背部表 面呈灰棕色,混杂着细小的或明或暗的斑点图案。皮肤质地粗糙,和砂纸的粗糙度相似。


这种小鲨鱼以海生无脊椎动物为食,它的食物包括软体动物、甲壳类、头足类,以及多毛 类蠕虫。它也会吃一些小的硬骨鱼,偶尔吃体型稍大的鱼。它是一个卵生物种,会把蛋产 在靠近海岸的浅水中,由带有长卷须的角质壳保护。


斑点猫鲨在渔场中具有一定的商业价值,但它更适合用来在公共水族馆中展示。尽管它的 商业价值已被发现,且大量个体被保留下来供人食用,但这一物种仍然经常被抛弃,而且 研究表明抛弃后的存活率较高。 O'Reilly 丛书封面上的许多动物都濒临灭绝,而它们对这个世界来说都很重要。要了解更 多你力所能及的事,请访问animals.oreilly.com。


封面图片来自 Wood 所著 Animate Creation。

致谢

感谢 Joseph Bradley、Dave Bridgeland、Chaz Chandler、Mick Davies、Sam DeHority、Vida Ha、Andrew Gal、Michael Gregson、Jan Joeppen、Stephan Jou、Jeff Martinez、Josh Mahonin、Andrew Or、Mike Patterson、Josh Rosen、Bruce Szalwinski、Xiangrui Meng、Reza Zadeh 等审阅者,他们为本书的写作提出了宝贵的意见。


特别感谢 David Andrzejewski、David Buttler、Juliet Hougland、Marek Kolodziej、Taka Shinagawa、Deborah Siegel、Normen Müller 博士、Ali Ghodsi、Sameer Farooqui 等人,他们为大部分章节提供了详细的反馈,并且帮助指出了许多至关重要的改进之处。


我们还要感谢参与编辑和编写部分章节的主题专家。第 10 章是在我们与 Tathagata Das 的紧密合作下共同完成的。Tathagata 给了我们巨大的帮助,他的工作包括且不限于阐明示例、回答疑问、改进排版以及相关技术的贡献。Michael Armbrust 帮助我们审校了 Spark SQL 相关章节。在第 11 章中,Joseph Bradley 为 MLlib 模块提供了介绍性示例。Reza Zadeh 为关于降维的部分提供了图文描述和代码示例。Xiangrui Meng、Joseph Bradley 和 Reza Zadeh 也为 MLlib 章节提供了编审和关于技术细节的反馈。

读者对象

本书的目标读者是数据科学家和工程师。我们选择这两个群体的原因,在于他们能够利用 Spark 去解决一些可能会遇到但是没有办法解决的问题。Spark 提供了功能丰富的数据操作库(例如 MLlib),可以帮助数据科学家利用他们自己的统计学背景知识,研究数据集大小超过单机所能处理极限的数据问题。与此同时,工程师们则可以从本书中学习和利用 Spark 编写通用的分布式程序并运维这些应用。工程师和数据科学家都不仅能从本书中学到各自需要的具体技能,而且还能够在各自领域中利用 Spark 解决大型分布式问题。


数据科学家关注如何从数据中发现关联以及建立模型。数据科学家通常有着统计学或者数学背景,他们中的大多数也熟悉 Python 语言、R 语言、SQL 等传统数据分析工具。在本书中,我们不仅会讲到 Spark 中一些机器学习和高级数据分析的程序库,也会把一些 Python 或者 SQL 的应用作为 Spark 使用示例进行展示。如果你是一位数据科学家,我们希望你读完本书之后,能够在获得更快速度和更大数据规模支持的同时,使用早已熟悉的方式来解决问题。


本书的第二类目标读者是软件工程师。对于工程师,不管你擅长的是 Java 还是 Python,抑或是别的编程语言,我们希望这本书能够教会你如何搭建一个 Spark 集群,如何使用 Spark shell,以及如何编写 Spark 应用程序来解决需要并行处理的问题。如果你熟悉 Hadoop,你就已经在如何与 HDFS 进行交互以及如何管理集群的领域中领先了一小步。即使你没有 Hadoop 经验也不用担心,我们会在本书中讲解一些基本的分布式执行的概念。


不论你是数据分析师还是工程师,如果想读透这本书,就应当对 Python、Java、Scala 或者一门类似的编程语言有一些基本了解。另外,我们假设你已经有了关于数据存储的解决方案,所以不会讲到如何搭建一个数据存储系统,不过我们会介绍如何在常见的数据存储系统上读取和保存数据。即使你没用过这些编程语言也不必担心,有很多优秀的学习资源可以帮助你理解这些语言,我们在下文的相关书籍中列举了一些。

本书结构

本书结构清晰,章节是按照从前到后依次阅读的顺序组织的。在每一章的开头,我们会说明本章中的哪些小节对于数据科学家们更重要,而哪些小节则对于工程师们更为有用。话虽如此,我们还是希望书中的所有内容对两类读者都能有一定的帮助。


前两章将会带你入门,让你在自己的电脑上搭好一个基础的 Spark,并且让你对于用 Spark 能做什么有一个基本的概念。等我们弄明白了 Spark 的目标和 Spark 的安装之后,就会着重介绍 Spark shell。Spark shell 是开发 Spark 应用原型时非常有用的工具。后续几章则会详细介绍 Spark API、如何将 Spark 应用运行在集群上,以及 Spark 所提供的更高层的程序库支持,例如 SQL(数据库支持)和 MLlib(机器学习库)。

前言


随着并行数据分析变得越来越流行,各行各业的工作者都迫切需要更好的数据分析工具。Spark 应运而生,并且迅速火了起来。作为 MapReduce 的继承者,Spark 主要有三个优点。首先,Spark 非常好用。由于高级 API 剥离了对集群本身的关注,你可以专注于你所要做的计算本身,只需在自己的笔记本电脑上就可以开发 Spark 应用。其次,Spark 很快,支持交互式使用和复杂算法。最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。这三大优点也使得 Spark 可以作为学习大数据的一个很好的起点。


本书主要介绍 Spark,让读者能够轻松入门并玩转 Spark。你能从本书中学到如何让 Spark 在你的电脑上运行起来,并且通过交互式操作来学习 Spark 的 API。我们也会讲解一些用 Spark 作数据操作和分布式执行时的细节。最后,本书会带你畅游 Spark 上一些高级的程序库,包括机器学习、流处理、图计算和 SQL 查询。我们希望本书能够让你了解 Spark。不论你只有一台电脑还是有一个庞大的集群,Spark 都能成为令你运筹帷幄的数据分析工具。


Spark 作为下一代大数据处理引擎,在非常短的时间里崭露头角,并且以燎原之势席卷业界。Spark 对曾经引爆大数据产业革命的 Hadoop MapReduce 的改进主要体现在这几个方面:首先,Spark 速度更快;其次,Spark 丰富的 API 带来了更强大的易用性;最后,Spark 不单单支持传统批处理应用,更支持交互式查询、流式计算、机器学习、图计算等各种应用,满足各种不同应用场景下的需求。


我很荣幸能够一直密切地参与到 Spark 的开发中,伴随 Spark 一路走来,看着 Spark 从草稿纸上的原型成长为当下最活跃的大数据开源项目。如今,Spark 已经成为 Apache 基金会下最为活跃的项目之一。不仅如此,我也为结识 Spark 项目创始人 Matei Zaharia 以及其他几位 Spark 长期开发者 Patrick Wendell、Andy Konwinski 和 Holden Karau 感到由衷高兴。正是他们四位完成了本书的著作工作。


随着 Spark 的迅速流行,相关优秀参考资料匮乏的问题顿时突显出来。本书共有 11 章,包含许多专为渴望学习 Spark 的数据科学家、学生、开发者们设计的具体实例,大大缓解了 Spark 缺少优秀参考资料的问题。即使是没有大数据方面背景知识的读者,也可以把本书作为入门大数据领域的明智之选。我真挚地希望这本书能引领你和其他读者走进大数据这个令人激动的新领域,在多年之后依然令你回味无穷。


——Databricks 公司首席执行官,加州大学伯克利分校 AMPlab 联合主任 Ion Stoica

推荐序


近年来大数据逐渐升温,经常有人问起大数据为何重要。我们处在一个数据爆炸的时代,大量涌现的智能手机、平板、可穿戴设备及物联网设备每时每刻都在产生新的数据。当今世界,有 90% 的数据是在过去短短两年内产生的。到 2020 年,将有 500 多亿台的互联设备产生 Zeta 字节级的数据。带来革命性改变的并非海量数据本身,而是我们如何利用这些数据。大数据解决方案的强大在于它们可以快速处理大规模、复杂的数据集,可以比传统方法更快、更好地生成洞见。


一套大数据解决方案通常包含多个重要组件,从存储、计算和网络等硬件层,到数据处理引擎,再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层。这中间,数据处理引擎起到了十分重要的作用。毫不夸张地说,数据处理引擎之于大数据就像 CPU 之于计算机,或大脑之于人类。


早在 2009 年,Matei Zaharia 在加州大学伯克利分校的 AMPLab 进行博士研究时创立了 Spark 大数据处理和计算框架。不同于传统的数据处理框架,Spark 基于内存的基本类型(primitive)为一些应用程序带来了 100 倍的性能提升。Spark 允许用户程序将数据加载到集群内存中用于反复查询,非常适用于大数据和机器学习,日益成为最广泛采用的大数据模块之一。包括 Cloudera 和 MapR 在内的大数据发行版也在发布时添加了 Spark。


目前,Spark 正在促使 Hadoop 和大数据生态系统发生演变,以更好地支持端到端的大数据分析需求,例如:Spark 已经超越 Spark 核心,发展到了 Spark streaming、SQL、MLlib、GraphX、SparkR 等模块。学习 Spark 和它的各个内部构件不仅有助于改善大数据处理速度,还能帮助开发者和数据科学家更轻松地创建分析应用。从企业、医疗、交通到零售业,Spark 这样的大数据解决方案正以前所未见的力量推进着商业洞见的形成,带来更多更好的洞见以加速决策制定。


在过去几年中,我的部门有机会与本书的作者合作,向 Apache Spark 社区贡献成果,并在英特尔架构上优化各种大数据和 Spark 应用。《Spark 快速大数据分析》的出版为开发者和数据科学家提供了丰富的 Spark 知识。更重要的是,这本书不是简单地教开发者如何使用 Spark,而是更深入介绍了 Spark 的内部构成,并通过各种实例展示了如何优化大数据应用。我向大家推荐这本书,或更具体点,推荐这本书里提倡的优化方法和思路,相信它们能帮助你创建出更好的大数据应用。


英特尔软件服务事业部全球大数据技术中心总经理 马子雅


2015 年 7 月于加州圣克拉拉



来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1139

机器学电子书  大数据电子书  

微信号:qq444848023    QQ号:444848023

加入【我是码农】QQ群:864689844(加群验证:我是码农)

<< 上一篇 下一篇 >>

网站分类

标签列表

最近发表

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

本站资源大部分来自互联网,版权归原作者所有!