课程大纲
时间 |
知识模块 |
授课内容 |
**天 上午 |
数据处理及复杂数据可视化(一) |
**讲 大数据挖掘及可视化介绍 Ø 数据挖掘及可视化背景 Ø 数据挖掘流程 Ø 常用挖掘工具介绍 Ø R语言的优势 Ø R数据挖掘可视化工具-Rattle**上手 Ø R语言对复杂数据可视化的优势 Ø R语言**入门 Ø 利用caret包做数据抽样及虚拟化处理 |
**天 下午 |
数据处理及复杂数据可视化(二) |
第二讲 数据质量分析及高级可视化 Ø 缺失值处理的高级方法 Ø 异常值甄别的高级方法 Ø 数据可视化进阶:lattice及ggplot2包介绍 Ø 数据交互可视化:rCharts、recharts、networkD3、plotly等包介绍 |
第二天 上午 |
数据挖掘模型实战(一) |
第三讲 聚类分析及R语言实现 聚类分析是一种原理简单、应用广泛的数据挖掘技术。顾名思义,聚类分析即是把若干事物按照某种标准归为几个类别,其中较为相近的聚为一类,不那么相近的聚于不同类。 Ø 案例一:对著名的鸢尾花数据进行K均值聚类分析 Ø 案例二:对汽车数据进行K均值聚类分析 Ø 案例三:对洛杉矶街区数据进行层次聚类 Ø 案例四:对汽车数据进行层次聚类 第四讲 关联规则及R语言实现 关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将着重围绕经典的Apriori算法,阐明关联规则的支持、置信和提升程度与控制,使用R语言**完成关联规则分析,并**arulesViz扩展包对关联规则进行可视化展示。 案例:利用超市购物篮Groceries数据进行关联规则分析 |
第二天 下午 |
数据挖掘模型实战(二) |
第五讲 KNN近邻算法及R语言实现 KNN(k-Nearest Neighbor)分类算法是数据挖掘分类技术中较简单的方法之一。所谓k*近邻,就是k个*近的邻居的意思,说的是每个样本都可以用它*接近的k个邻居来代表。 Ø 案例一:对鸢尾花数据集进行knn分类 Ø 案例二:对乳腺癌数据进行knn分类 Ø 案例三:对文本数据进行knn分类 第六讲 决策树分类及R语言实现 决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种*为普遍的决策树算法:CART和C5.0算法,使用rpart和C50函数进行R语言分析。 Ø 案例一:对鸢尾花数据集运用C50算法分类 Ø 案例二:对鸢尾花数据集运用CART算法进行分类 Ø 案例三:对汽车数据运用CART对汽车重量进行预测 |
第三天 上午 |
行业应用案例分享(一) |
第七讲 深度挖掘用户付费行为及社会网络分析 Ø 对用户的购买行为进行购物篮分析 Ø 智能推荐系统常用算法介绍 Ø 对用户购物行为构建智能推荐系统 Ø 社会网络图基本知识 Ø 利用R语言绘制社会网络图 Ø 利用Gephi绘制社会网络图 Ø 对用户购物行为进行聚类分析,发现社群 |
第三天 下午 |
行业应用案例分享(二)
|
第八讲 航空公司客户价值分析 Ø 背景与挖掘目标 Ø 分析方法及过程 Ø 数据探索分析 Ø 数据预处理 Ø 模型构建 Ø 模型应用 |
第九讲 漏斗模型及路径分析 Ø 漏斗模型的主要应用场景 Ø 路径分析的主要应用场景 Ø 漏斗模型与路径分析的不同点 Ø sunburst事件路径图的绘制方法 Ø 利用基于时序的关联规则对点击事件进行分析 |
||
第四天 |
学习考核与业内经验交流 |
这是北京中培教育的大数据的课程大纲。如果还想了解更多有关大数据培训的其他内容信息,可以来电咨询我们:010-64707530 金老师 。