首页>全部课程>机器学习模型与实战

机器学习模型与实战

课程代码 NX0145

培训课时 5天

在线咨询

课程时长

5天(6小时/天)

课程简介

(一)内容丰富

内容丰富：包含9个算法，21个课堂实践或演示，5个案例分析，1次建模大比拼

授课风格多样：算法精讲，模型适用场景阐述，成功案例分析，课堂讨论

理论与实践相结合：学员编码实践，建模大比拼，期终考试测验

(二)效果可验证（结业考试+建模大比拼）

1.“建模大比拼”规则：

每组2人

时间：一小时

使用不同的算法，编写代码，建立AI模型

训练并调优模型

2. 评比标准：

识别图片中的物体，准确率高者获胜

课程对象

数据分析师，数据科学家

软件工程师，运维工程师，系统工程师

产品经理、管理人员，业务人员

学员基础

了解基本统计知识，具备初步的IT基础知识和基本数学理论，可使用python编程

课程大纲

时间

内容

案例实践与练习

Day1

(9:00-12:00)

一 人工智能概述 & 环境安装

1人工智能和机器学习概述

人工智能发展史
应用场景概述：如图像识别，文本分析，推荐系统，自然语言处理
最近成果概述：如强化学习，生成式对抗网络，基于低能量的网络，时间序列分析
开源 AI软件框架介绍，如sparkML，sklean，tensorflow，caffe，Theano

2 机器学习环境的安装

机器学习环境的介绍和安装
常用机器学习软件包的安装，例如Numpy，pandas，sklearn，scipy, matplotlib
机器学习软件包的安装升级、卸载
实践练习：使用matplotlib绘制数据分布图

二 Python语言 & 数据处理与数据可视化

1 Python语言

Python的特点
Python的安装
变量的声明
常用的5种集合类型
函数的定义和使用
编写面向对象的python程序
python读写文件

环境的安装与实践

软件包的安装和管理

Day1

(14:00-17:00)

2 数据分析基础

NumPy和pandas的介绍与安装
Numpy和python集合对象的差别
使用NumPy对数据表进行处理
Pandas的Series的使用
Panda的DataFrame的使用
文件的读写
从数据库导入/导出数据
数据的筛选
数据表的多表关联, 合并, 聚合操作

3 Matplotlib进行数据可视化

Matplotlib的安装
柱形图、直方图、曲线图, 散点图的绘制
小提琴图, 概率密度图, 茎叶图
面向对象形式的绘图与饼图的绘制
Matplotlib绘制多个子图

三特征工程 & 数据降维

1 特征转换，让特征更有效

SVD分解
PCA降维的原理
PCA编程实践-Iris数据集的降维
深度学习的降维方法
线性判别分析(LDA）
LDA实践

2 特征选择，发现”坏“特征

使用统计方法，筛选特征
使用模型，筛选特征
选择正确的特征选择方法

3 生成新特征

填充分类特征
编码分类变量
扩充数值特征
文本特征的处理技巧

4 数据清洗与特征工程

数据的清洗
数据离散化、聚合
数据的转换
提取新特征
数据的格式转换
特征工程的最佳实践

Numpy数据处理实践

Pandas读取文件

Pandas数据处理

Pandas绘图

使用matplotlib绘制数据分布图

清洗泰坦尼克沉船数据

Iris数据集的降维

演示：清洗某公司的生产运营数据

Day2

(9:00-12:00)

四监督学习模型-回归分析

1 线性回归模型

通过图形直观展示线性回归算法
线性回归算法详解—成本函数和参数更新函数
机器是怎么学习? --梯度下降算法详述
学的“快”和“好”--学习率的权衡与最佳实践
保持相同的“起跑线”的利器-Feature Scaling
多变量线性回归模型介绍

2 多项式回归模型

真实世界不全是线性的--如何应对更复杂的场景
过犹不及--模型的过分拟合和拟合不足
训练一个“恰好”模型的最佳实践
模型的优劣的评估

案例实践：血液中胆固醇预测

Day2

(14:00-17:00)

五监督学习-分类模型

1 逻辑回归模型-两分类

逻辑回归模型和场景概述
线性分类器与非线性分类器
激活函数的多种选择
cost function的变化

2 逻辑回归-多分类

one-hot encoding
两种多分类的方案
one-vs-rest方案
softmax算法

建立模型，预测乘客在泰坦尼克船难中是否获救

重要因素分析：分析哪些因素会提高乘客的生存率

员工的离职预测

Day3

(9:00-12:00)

3 支持向量机

为什么支持向量机广受好评
从逻辑回归到支持向量机
**边缘平面
构造更高级的分类器的关键：核函数
核函数的多种选择
使用支持向量机来分类

4 人工神经网络

从逻辑回归到人工神经网络
大脑和人工神经网络
感知器模型
感知器能解决亦或问题吗？
多层感知器
深度神经网络
设计深度神经网络的最佳实践
如何选择最佳的模型？逻辑回归，支持向量机，人工神经网络的选择

客户流失预警

Day3

(14:00-17:00)

5 K-近邻算法-无参数的模型

K近邻算法详述
K近邻的优点和缺点
使用K近邻改进行手写数字的识别

6 朴素贝叶斯算法-基于概率的模型

频率学派与贝叶斯学派
贝叶斯定理
条件独立假设
几种平滑技术
贝叶斯信念网络概述

使用贝叶斯模型对新闻分类

Day4

(9:00-12:00)

7 建模大比拼

学员分组：每2人组成一组
比拼内容：使用逻辑回归，SVM，神经网络算法，训练模型，并对模型调优，识别乳腺癌的良性和恶性
评比标准：准确率**者获胜
获奖：**前3名，获得精美奖品一份

建立逻辑回归，SVM，神经网络模型，识别乳腺癌的良性和恶性

Day4

(14:00-17:00)

六集成模型--三个臭皮匠，胜过诸葛亮

1 集成学习和模型融合-改善模型准确率的法宝

单一模型的缺点
三个臭皮匠赛过一个诸葛亮
集成模型概述
几种典型的集成模型介绍
集成模型应用案例

2 决策树算法

决策树的引入
信息增益和最佳划分
如何防止决策树过拟合
决策树的实践

Day5

(9:00-12:00)

3 随机森林和GBDT-竞赛的利器

随机森林的生成
随机森林的特点
随机森林案例介绍
Xgboost
GBDT树

4 建模大比拼-集成多个模型

学员分组：每2人组成一组
比拼内容：集成多个模型，识别乳腺癌的良性和恶性
评比标准：准确率**者获胜

七非监督学习

1 聚类算法：K-means

监督学习和无监督学习比较
非监督模型场景举例
图形展示K-means的训练过程
两步实现K-means算法
K的选择问题
K-means算法导致局部**及最佳实践

八选择合适的算法

模型的对比

模型的对比和分析
如何对模型进行客观评价
根据选择合适的模型
决策树的实践

模型的调优

模型调优的技巧
手工调优
自动调参: 网格搜索
自动调参: 随机搜索
自动调参: 贝叶斯搜索

建立逻辑回归，SVM，神经网络，随机森林集成多个模型，识别乳腺癌的良性和恶性

实例学习和课堂练习：客户分类

Day5

(14:00-17:00)

九案例实践

1 某智能工厂项目

项目介绍
数据的清洗, 缺值的填充方案
选择随机森林和Xgboost模型作为模型
训练模型，超参调优
对模型进行评价
生成重要的生产流程的改造环节

2 未来销售额的智能预测 – 经典时间序列类项目

预测每种产品的销售额, 以及每个门店的销售额
数据的预处理
使用统计模型进行趋势分解
使用机器学习模型进行预测
使用RMSE对模型进行评价

3 发现“薅羊毛”- 经典监督学习分类项目

数据的特征提取
训练模型，区分薅羊毛者
部署模型
使用模型进行预测

文本的聚类 - 经典非监督学习项目

项目和数据的介绍
提取文档的特征的两种方法
使用聚类算法对文档
对结果的评价

5 呼叫中心对话分析 - 经典自然语言处理类项目

项目介绍, 数据集介绍
对话文本的特征提取
使用NLP模型建模
分析谈话的主题
分析用户的态度
对模型进行评价

热门课程

PeopleCert ITIL® 4 Foundation认证培训（中文版，含考试）PMP®项目管理红帽RHCE 8.0 华为存储 HCIP-Storage V5.0华为路由交换 HCIP-RS-V2.5华为路由交换 HCIA-RS-V2.5CISSP注册信息系统安全认证专家（软考高级）信息系统项目管理师CISP注册信息安全专业人员Excel商务数据处理与综合应用

在线

咨询
电话咨询

18056868301

电话咨询
微信咨询

企业微信咨询
公众号

关注龙旭公众号
回到顶部

电话咨询