18056868301
首页>全部课程>机器学习模型与实战
机器学习模型与实战
机器学习模型与实战
直播面授
课程图标 课程代码 NX0145

课程时长

5天(6小时/天)

课程简介

(一)内容丰富

内容丰富:包含9个算法,21个课堂实践或演示,5个案例分析,1次建模大比拼

授课风格多样:算法精讲,模型适用场景阐述,成功案例分析,课堂讨论

理论与实践相结合:学员编码实践,建模大比拼,期终考试测验

(二)效果可验证(结业考试+建模大比拼)

1.“建模大比拼”规则:

每组2人

时间:一小时

使用不同的算法,编写代码,建立AI模型

训练并调优模型

2. 评比标准:

识别图片中的物体,准确率高者获胜 

课程对象

数据分析师,数据科学家 

软件工程师,运维工程师,系统工程师

产品经理、管理人员,业务人员

学员基础

了解基本统计知识,具备初步的IT基础知识和基本数学理论,可使用python编程   

课程大纲

时间

内容

案例实践与练习

Day1

(9:00-12:00)

人工智能概述 & 环境安装

1人工智能和机器学习概述

  • 人工智能发展史

  • 应用场景概述:如图像识别,文本分析,推荐系统,自然语言处理

  • 最近成果概述:如强化学习,生成式对抗网络,基于低能量的网络,时间序列分析

  • 开源 AI软件框架介绍,如sparkML,sklean,tensorflow,caffe,Theano

2  机器学习环境的安装

  • 机器学习环境的介绍和安装

  • 常用机器学习软件包的安装,例如Numpy,pandas,sklearn,scipy, matplotlib

  • 机器学习软件包的安装升级、卸载

  • 实践练习:使用matplotlib绘制数据分布图

二 Python语言 & 数据处理与数据可视化

1  Python语言

  • Python的特点

  • Python的安装

  • 变量的声明

  • 常用的5种集合类型

  • 函数的定义和使用

  • 编写面向对象的python程序

  • python读写文件

环境的安装与实践

软件包的安装和管理

Day1

(14:00-17:00)

2  数据分析基础

  • NumPy和pandas的介绍与安装

  • Numpy和python集合对象的差别

  • 使用NumPy对数据表进行处理  

  • Pandas的Series的使用

  • Panda的DataFrame的使用

  • 文件的读写

  • 从数据库导入/导出数据

  • 数据的筛选

  • 数据表的多表关联, 合并, 聚合操作

3  Matplotlib进行数据可视化

  • Matplotlib的安装

  • 柱形图、直方图、曲线图, 散点图的绘制

  • 小提琴图, 概率密度图, 茎叶图

  • 面向对象形式的绘图与饼图的绘制

  • Matplotlib绘制多个子图

三 特征工程  & 数据降维

1  特征转换,让特征更有效

  • SVD分解

  • PCA降维的原理

  • PCA编程实践-Iris数据集的降维

  • 深度学习的降维方法

  • 线性判别分析(LDA)

  • LDA实践

2  特征选择,发现”坏“特征

  • 使用统计方法,筛选特征

  • 使用模型,筛选特征

  • 选择正确的特征选择方法

3  生成新特征

  • 填充分类特征

  • 编码分类变量

  • 扩充数值特征

  • 文本特征的处理技巧

4  数据清洗与特征工程

  • 数据的清洗

  • 数据离散化、聚合

  • 数据的转换

  • 提取新特征

  • 数据的格式转换

  • 特征工程的最佳实践

Numpy数据处理实践

Pandas读取文件

Pandas数据处理

Pandas绘图

使用matplotlib绘制数据分布图

清洗泰坦尼克沉船数据

Iris数据集的降维

演示:清洗某公司的生产运营数据

Day2

(9:00-12:00)

四 监督学习模型-回归分析

1  线性回归模型

  • 通过图形直观展示线性回归算法

  • 线性回归算法详解—成本函数和参数更新函数

  • 机器是怎么学习? --梯度下降算法详述

  • 学的“快”和“好”--学习率的权衡与最佳实践

  • 保持相同的“起跑线”的利器-Feature Scaling

  • 多变量线性回归模型介绍

2  多项式回归模型

  • 真实世界不全是线性的--如何应对更复杂的场景

  • 过犹不及--模型的过分拟合和拟合不足

  • 训练一个“恰好”模型的最佳实践

  • 模型的优劣的评估

案例实践:血液中胆固醇预测

Day2

(14:00-17:00)

五 监督学习-分类模型

1  逻辑回归模型-两分类

  • 逻辑回归模型和场景概述

  • 线性分类器与非线性分类器

  • 激活函数的多种选择

  • cost  function的变化

2  逻辑回归-多分类

  • one-hot  encoding

  • 两种多分类的方案

  • one-vs-rest方案

  • softmax算法

建立模型,预测乘客在泰坦尼克船难中是否获救

重要因素分析:分析哪些因素会提高乘客的生存率

员工的离职预测

Day3

(9:00-12:00)

支持向量机

  • 为什么支持向量机广受好评

  • 从逻辑回归到支持向量机

  • **边缘平面

  • 构造更高级的分类器的关键:核函数

  • 核函数的多种选择

  • 使用支持向量机来分类

4  人工神经网络

  • 从逻辑回归到人工神经网络

  • 大脑和人工神经网络

  • 感知器模型

  • 感知器能解决亦或问题吗?

  • 多层感知器

  • 深度神经网络

  • 设计深度神经网络的最佳实践

  • 如何选择最佳的模型?逻辑回归,支持向量机,人工神经网络的选择

客户流失预警

Day3

(14:00-17:00)

5  K-近邻算法-无参数的模型

  • K近邻算法详述

  • K近邻的优点和缺点

  • 使用K近邻改进行手写数字的识别

6  朴素贝叶斯算法-基于概率的模型

  • 频率学派与贝叶斯学派

  • 贝叶斯定理

  • 条件独立假设

  • 几种平滑技术

  • 贝叶斯信念网络概述

使用贝叶斯模型对新闻分类

Day4

(9:00-12:00)

7 建模大比拼 

  • 学员分组:每2人组成一组

  • 比拼内容:使用逻辑回归,SVM,神经网络算法,训练模型,并对模型调优,识别乳腺癌的良性和恶性

  • 评比标准:准确率**者获胜

  • 获奖:**前3名,获得精美奖品一份

建立逻辑回归,SVM,神经网络模型,识别乳腺癌的良性和恶性

Day4

(14:00-17:00)

六 集成模型--三个臭皮匠,胜过诸葛亮

1  集成学习和模型融合-改善模型准确率的法宝

  • 单一模型的缺点

  • 三个臭皮匠赛过一个诸葛亮

  • 集成模型概述

  • 几种典型的集成模型介绍

  • 集成模型应用案例

决策树算法

  • 决策树的引入

  • 信息增益和最佳划分

  • 如何防止决策树过拟合

  • 决策树的实践

Day5

(9:00-12:00)

3   随机森林和GBDT-竞赛的利器

  • 随机森林的生成

  • 随机森林的特点

  • 随机森林案例介绍

  • Xgboost

  • GBDT树

4  建模大比拼-集成多个模型 

  • 学员分组:每2人组成一组

  • 比拼内容:集成多个模型,识别乳腺癌的良性和恶性

  • 评比标准:准确率**者获胜

七 非监督学习

1  聚类算法:K-means

  • 监督学习和无监督学习比较

  • 非监督模型场景举例

  • 图形展示K-means的训练过程

  • 两步实现K-means算法

  • K的选择问题

  • K-means算法导致局部**及最佳实践

八 选择合适的算法

模型的对比

  • 模型的对比和分析

  • 如何对模型进行客观评价

  • 根据选择合适的模型

  • 决策树的实践

模型的调优

  • 模型调优的技巧

  • 手工调优

  • 自动调参:  网格搜索

  • 自动调参:  随机搜索

  • 自动调参: 贝叶斯搜索

建立逻辑回归,SVM,神经网络,随机森林集成多个模型, 识别乳腺癌的良性和恶性

实例学习和课堂练习:客户分类

Day5

(14:00-17:00)

九 案例实践

1  某智能工厂项目

  • 项目介绍

  • 数据的清洗, 缺值的填充方案

  • 选择随机森林和Xgboost模型作为模型

  • 训练模型,超参调优

  • 对模型进行评价

  • 生成重要的生产流程的改造环节

2  未来销售额的智能预测 – 经典时间序列类项目

  • 预测每种产品的销售额, 以及每个门店的销售额

  • 数据的预处理

  • 使用统计模型进行趋势分解

  • 使用机器学习模型进行预测

  • 使用RMSE对模型进行评价

3  发现“薅羊毛”-  经典监督学习分类项目

  • 数据的特征提取

  • 训练模型,区分薅羊毛者

  • 部署模型

  • 使用模型进行预测

文本的聚类 - 经典非监督学习项目

  • 项目和数据的介绍

  • 提取文档的特征的两种方法

  • 使用聚类算法对文档

  • 对结果的评价

5  呼叫中心对话分析 -  经典自然语言处理类项目

  • 项目介绍, 数据集介绍

  • 对话文本的特征提取

  • 使用NLP模型建模

  • 分析谈话的主题

  • 分析用户的态度

  • 对模型进行评价