前言
你可能听说过,R语言在数据分析师和数据科学家中非常受欢迎,它以能够交付非常灵活和专业的数据结果,以及惊艳的数据可视化能力而闻名。既然R语言有如此强大的功能,我们要如何学习使用R语言来做数据挖掘呢?本书将从最基础的知识开始,带领你开启学习之旅,除了好奇心之外你什么都不用准备,我们会在旅途中发现需要的所有知识。
在本书中我们会同时使用基础和高级的数据挖掘技术来解决一个影响商业公司的真实欺诈犯罪案件,通过解决这个案件来提升你的数据挖掘技能。
在我们R语言旅程的最后,你将能够识别需要进行数据挖掘的问题,分析这些问题,然后使用主流的数据挖掘技术来解决它们,并发布完善的总结报告来传达和表述从数据中发现的信息和内幕。
本书主要内容
第1章:为何选择R语言,讲述了R语言的历史、优势和缺点,以及如何在计算机上安装R语言并运行简单的程序。
第2章:数据挖掘入门—银行账户数据分析,在数据分析中应用R语言。
第3章:数据挖掘进阶—CRISP-DM方法论,教会你如何使用CRISP-DM方法组织和运行数据挖掘项目。
第4章:保持室内整洁—数据挖掘架构,定义了数据挖掘项目的基础结构。
第5章:如何解决数据挖掘问题—数据清洗和验证,介绍了区分数据质量等级的度量标准,以及一系列用于评估数据质量的检测方法。
第6章:观察数据—探索性数据分析,讲解了探索性数据分析的概念及其在数据分析过程中的应用。
第7章:最初的猜想—线性回归,我们将设计一个简单的线性回归模型并检验它是否满足我们的要求。
第8章:浅谈模型性能评估,涵盖定义和衡量数据挖掘模型性能的工具。
第9章:不要放弃—继续学习包括多元变量的回归,探索多变量情况下的输出结果预测。
第10章:关于分类模型问题的不同展望,探讨了分类模型的需求和使用。
第11章:最后冲刺—随机森林和集成学习,在这一章中,我们将学习如何用集成学习来评估分类模型。
第12章:寻找罪魁祸首—使用R语言执行文本数据挖掘,介绍了如何为文本挖掘项目准备数据帧、删除无关单词以及将其从句子列表转换成词列表。同时,你也会学习基于文本挖掘的情感分析、词云开发,以及N元模型分析。
第13章:借助R Markdown分享公司现状,本章使用了RStudio生态系统中两个强大的组件(R Markdown和Shiny)。
第14章:结语,通过独特的背景故事,使得读者对数据挖掘的学习非常有参与感。
附录:日期、相对路径和函数处理,包含了R程序运行的一些其他相关信息。
阅读前准备
在UNIX或者Windows系统上使用R语言,能够让你更轻松地学习本书的各个章节。本书使用的R语言版本为3.4.0。
本书受众
如果你是一位刚入行的数据科学家或者数据分析员,有一些基础的R语言知识,想通过实践进阶更复杂的数据挖掘,那么本书就是为你准备的。
下载示例代码
你可以从GitHub上找到本书的相关代码,地址为https://github.com/PacktPublishing/ R-Data-Mining。
下载本书彩图
你可以通过如下地址下载本书彩图:https://www.packtpub.com/sites/default/files/ downloads/RDataMining_ColorImages.pdf。