当前位置:首页 » 机器学习电子书 » 正文

R语言数据分析与挖掘实战 (大数据技术丛书) - 电子书下载(高清版PDF格式+EPUB格式)

1843 人参与  2018年12月22日 00:00  分类 : 机器学习电子书  评论

R语言数据分析与挖掘实战 (大数据技术丛书)-张良均 等著

            在线阅读                   百度网盘下载(b64b)


image.png

书名:R语言数据分析与挖掘实战 (大数据技术丛书)

作者:张良均 等著

格式:EPUB, HTMLZ, PDF

路径:点击打开

出版:机械工业出版社

排序作者:等著, 张良均

排序书名:R语言数据分析与挖掘实战 (大数据技术丛书)

日期:09 12月 2018

uuid:a2ea55c3-11dc-4117-a067-137c8a1d8851

id:525

出版日期:10月 2015

修改日期:09 12月 2018

大小:1.56MB

语言:中文


1.6 小结

本章从一个知名餐饮企业经营过程中存在的困惑出发,引出数据挖掘的概念、基本任务、建模过程及常用工具。

如何帮助企业从数据中洞察商机,提取价值,这是现阶段几乎所有企业都关心的问题。通过发生在身边的案例,由浅入深地引出深奥的数据挖掘理论,让读者在不知不觉中感悟到数据挖掘的非凡魅力!本案例同时也贯穿到后续第3章至第5章的理论介绍中。

2.5 小结

本章主要对R进行简单介绍,包括软件安装、使用入门及相关注意事项和R数据分析及挖掘相关包。R包含多个领域的程序包,本章只介绍了与数据分析及数据挖掘相关的包,包括实现分类、聚类、关联规则、时间序列分析等功能的包。程序包里面的函数在后续章节中会进行实例分析,通过在R平台上完成实际案例的分析来掌握数据分析和数据挖掘的知识,来培养读者应用数据分析和挖掘技术解决实际问题的能力。

3.4 小结

本章从应用的角度出发,从数据质量分析和数据特征分析两个方面对数据进行探索分析,最后介绍了R语言中常用的数据探索函数及用例。数据质量分析要求我们拿到数据后要先检测是否存在缺失值和异常值;而数据特征分析要求我们在数据挖掘建模前,通过频率分布分析、对比分析、帕累托分析、周期性分析、相关性分析等方法,对所采集样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘的后续环节提供支持。

4.6 小结

本章介绍了数据预处理的四个主要任务:数据清洗、数据集成、数据变换和数据规约。数据清洗主要介绍了对缺失值和异常值的处理,延续了第3章的缺失值和异常值分析的内容,本章所介绍的处理缺失值的方法分为三类:删除法、替换法、插补法,处理异常值的方法有删除含有异常值的记录、不处理、平均值修正和视为缺失值;数据集成是合并多个数据源中的数据,并存放到一个数据存储中的过程,对该部分的介绍从实体识别和冗余属性识别两个方面进行;数据变换介绍了如何从不同的应用角度对已有属性进行函数变换;数据规约从属性(纵向)规约和数值(横向)规约两个方面介绍了如何对数据进行规约,使挖掘的性能和效率得到很大的提高。通过对原始数据进行相应的处理,将为后续挖掘建模提供良好的数据基础。

5.6 小结

本章主要根据数据挖掘的应用分类,重点介绍了对应的数据挖掘建模方法及实现过程。通过对本章的学习,可在以后的数据挖掘过程中采用适当的算法并按所陈述的步骤实现综合应用,更希望本章能给读者一些启发,思考如何改进或创造更好的挖掘算法。

归纳起来,数据挖掘技术的基本任务主要体现在分类与预测、聚类分析、关联规则、时序模式、离群点检测五个方面。5.1节主要介绍了决策树和人工神经网络两个分类模型、回归分析预测模型及其实现过程;5.2节主要介绍了K-Means聚类算法,建立分类方法按照接近程度对观测对象给出合理的分类并解释类与类之间的区别;5.3节主要介绍了Apriori算法,以在一个数据集中找出各项之间的关系;5.4节从序列的平稳性和非平稳性出发,对平稳时间序列主要介绍了ARMA模型,对差分平稳序列建立了ARIMA模型,应用这两个模型对相应的时间序列进行研究,找寻变化发展的规律,预测将来的走势;5.5节主要介绍了基于模型和离群点的检测方法,是发现与大部分其他对象显著不同的对象。

前5章是数据挖掘必备的原理知识,并为本书后面章节的案例理解和实验操作奠定了理论基础。

6.5 小结

本章结合窃漏电用户识别的案例,重点介绍了数据挖掘算法中神经网络和CART决策树算法在实际案例中的应用。研究窃漏电用户的行为特征,总结出窃漏电用户的特征指标,对比神经网络和CART决策树算法在窃漏电用户的识别效果,从中选取最优模型进行窃漏电诊断,并详细地描述了数据挖掘的整个过程,也对其相应的算法提供了R语言上机实验。

第15章 电商产品评论数据情感分析

15.1 背景与挖掘目标

随着网上购物在中国越来越流行,人们对于网上购物的需求变得越来越高,这给京东、淘宝等电商平台带来了很大的发展机遇,但是与此同时,这种需求也推动了更多电商平台的崛起,引发了激烈的竞争。而在这种电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外,了解更多消费者的心声对于电商平台来说也变得越来越有必要,其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。而得到的这些信息,也会有利于对应商品的生产厂家自身竞争力的提升。

本章对京东平台上的热水器评论做文本挖掘分析,本次数据挖掘建模目标如下:

1)分析某一热水器的用户情感倾向。

2)从评论文本中挖掘出该热水器的优点与不足。

3)提炼不同品牌热水器的卖点。

第16章 基于R语言的数据挖掘二次开发

16.1 混合编程应用体验——TipDM数据挖掘平台

顶尖数据挖掘平台(TipDM)是广州TipDM团队花费数年时间自主研发的一个数据挖掘平台,基于SOA架构,使用Java语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型。系统支持数据挖掘流程所需的主要过程,并提供开放的应用接口和常用算法,能够满足各种复杂的应用需求。TipDM以智能预测技术为核心,并提供开放的应用接口。TipDM的底层算法,主要基于R、WEKA、Mahout等通过封装形成,所以建模输出结果与这几个工具的输出类同。使用过程中,用户也可以嵌入自己开发的其他任何算法。

下面以实现网站访问用户聚类为例,先来体验一下TipDM数据挖掘平台的魅力!

1.建设目标

全国大学生数据挖掘竞赛网站(www.tipdm.org)是一个致力于为高校师生提供各类数据挖掘资源、资讯和竞赛活动开展的综合性网站,高校师生可通过网站获取到所需的竞赛通知、教学资源、项目需求、培训课程等信息。访问网站的用户很多,但不同用户群体感兴趣的内容不一样,适合推荐的服务也不一样,有的用户对数据挖掘领域不是太熟悉,相关的技术还不熟悉,此时就需要提供相应的培训资源,有的用户是寻求企业级的数据挖掘服务,希望找到数据挖掘在企业方面的应用,此时就需要提供相应的企业应用服务资源。对于网站而言,可结合用户访问网站的行为,挖掘出不同用户群体,推荐匹配的服务,提高用户留存率。

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1172

机器学电子书  

微信号:qq444848023    QQ号:444848023

加入【我是码农】QQ群:864689844(加群验证:我是码农)

<< 上一篇 下一篇 >>

网站分类

标签列表

最近发表

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

本站资源大部分来自互联网,版权归原作者所有!