Datawhale是一个开源的AI学习社区,致力于构建一个纯粹的学习圈子,帮助学习者更好的成长,组队学习计划的内容为Datawhale成员根据AI领域优秀的学习资料所设计的。内容覆盖编程基础、数学基础、数据科学、机器学习、深度学习、理论应用等AI领域,我们不是内容的产生者,我们向优秀的资料和优秀的学习者致敬。
合作事宜请扫描请关注公众号,联系管理员
- 内容设计:
- 光城 、LeoLRH、 肖然
- 学习目标
- 知道 基本的数据结构概念与算法**
- 了解 各种数据结构的实现方式,算法**的使用场景
- 理解 数据结构之间的使用场景,算法的实现方式
- 掌握 各种数据结构的实现,以及相关数据结构的操作(增删改查)
- 学习内容
- 数组 → 链表 → 栈 → 队列 → 递归 → 排序 → 二分查找 → 哈希表 → 字符串 → 二叉树 → 堆 → 图 → 回溯 → 分治 → 动态规划
- 基本信息
- 定位人群:具有一定编程语言基础;难度系数高
- 时间安排:33天,2-3h/天
- 学习类型:理论学习,实践
- 先修组队学习:无
- 后续推荐组队学习:LeetCode
任务安排
- 内容设计:
- 老表、于鸿飞、杨皓博
- 学习目标
- 知道
- 了解
- 理解
- 能够熟练的使用LeetCode刷题,提高自身的coding能力
- 学习内容
- 腾讯精选练习(50题)顺序每天一道题
- 基本信息
- 定位人群:具有一定编程语言基础;难度系数中
- 时间安排:50天,2-3h/天
- 学习类型:刷题实践
- 先修组队学习:数据结构与算法
- 后续推荐组队学习:
任务安排
- 选取腾讯精选练习(50 题)解答,每天1题
- 链接:https://leetcode-cn.com/problemset/50/
- 内容设计:
- 王佳鑫、许辉
- 学习目标
- 知道
- 了解
- 理解
- 掌握 中心极限定理、置信区间、 假设检验、二项及泊松分布、大数定律、正态分布
- 学习内容
- 统计学基本知识→二项及泊松分布→大数定律→正态分布→中心极限定理→置信区间→假设检验等
- 基本信息
- 定位人群:具有一定微积分、基本概率知识储备;难度系数中
- 时间安排:12天,2-3h/天
- 学习类型:理论学习
- 先修组队学习:无
- 后续推荐组队学习:初级算法梳理
任务安排
- Task1:统计学基本知识+二项及泊松分布+大数定律+正态分布(3天)
- Task2:中心极限定理+置信区间(3天)
- Task3:假设检验(3天)
- Task4:线性回归+卡方分布+方差分析(3天)
- 内容设计:
- 马晶敏、叶梁
- 学习目标
- 知道 python的环境搭建
- 了解 python的数据类型的相关知识
- 理解 函数的概念及相关用法
- 掌握 python类和对象用法
- 学习内容
- 基础知识→函数→第三方模块→类和对象
- 基本信息
- 定位人群:python小白;难度系数低
- 时间安排:13天,3-4h/天
- 学习类型:代码实战+整理
- 先修组队学习:无
- 后续推荐组队学习:数据分析
任务安排
- 内容设计:
- 杨煜、李严
- 学习目标
- 了解 Excel的界面构成
- 了解 Excel常用函数
- 熟练 掌握透视表以及绘图
- 掌握 Excel函数的配合使用
- 学习内容
- 基础界面&基础文件操作→基础函数→查找函数vlookup和match/index→基础图表→数据透视表
- 基本信息
- 定位人群:小白;难度系数低
- 时间安排:12天,2-3h/天
- 学习类型:理论,案例实操
- 先修组队学习:无
- 后续推荐组队学习:MySQL、Python、数据分析等
任务安排
- Task1:基础界面(2天)
- Task2:基础函数(2天)
- Task3:match index 和vlookup函数 和双条件查找匹配 (2天)
- Task4:基础图表(4天)
- Task5:数据透视表(2天)
- 内容设计:
- 金娟娟
- 学习目标
- 知道
- 了解
- 理解
- 掌握 numpy、pandas、matplotlib等的使用及python数据分析处理
- 学习内容
- numpy→pandas→matplotlib→seaborn→时间序列
- 基本信息
- 定位人群:有一点python基础,但不太会python库的数据分析小白;难度系数中
- 时间安排:22天,2-4h/天
- 组队学习类型:理论,案例实操
- 先修组队学习:python
- 后续推荐组队学习:数据挖掘
任务安排
- Task0:github+jupyter(1天)
- Task1:第4章numpy+作业1(2天)
- Task2:第5章pandas(2天)
- Task3:第6章数据载入(2天)
- Task4:第7章数据清洗(2天)
- Task5:第8章数据联合(2天)
- Task6:第10章数据聚合(2天)
- Task7:第12章高阶pandas(2天)
- Task8:第9章matplotlib(2天)
- Task9:第11章时间序列大作业(2天)
- Task10:大作业+总结(3天)
- 内容设计:
- 杨皓博 孙涛 杨煜
- 学习目标
- 知道 数据库构成要素
- 了解 数据库发展历程
- 理解 数据库表基本要素
- 掌握 MySQL语句语法和常用写法
- 学习内容
- MySQL软件安装及数据库基础→查询语句→表操作→表联结→MySQL 实战→MySQL实战-复杂项目
- 基本信息
- 定位人群:小白;难度系数低
- 时间安排:11天,2-3h/天
- 组队学习类型:理论、刷书、刷题
- 先修组队学习:无
- 后续推荐组队学习:Python相关的组队学习
任务安排
- 内容设计:
- 光城、李方
- 学习目标
- 知道 Robots协议、http与https的区别
- 了解 网页构造、爬虫往后所需的知识
- 理解 请求头的作用、网络请求的过程
- 掌握 Requests、Lxml、Selenium、BeautifulSoup常用方法
- 学习内容
请求 → re → beautifulsoup → lxml → selenium → IP问题 → 实战小项目- 请求 & 正则表达式 → beautifulsoup & lxml → selenium & IP问题 → 实战大项目
- 基本信息
- 定位人群:有基础的Python编程能力和一些网络常识;难度系数中
- 时间安排:8天,2-3h/天
- 组队学习类型:理论+实践
- 先修组队学习:无
- 后续推荐组队学习:数据分析
任务安排
- Task1:get与post请求+正则表达式(2天)
- Task2:beautifulsoup+xpath(2天)
- Task3:selenium+IP(2天)
- Task4:实战大项目(2天)
- 内容设计:
- 苏静、康兵兵
- 学习目标
- 知道
- 了解 机器学习的一些基本概念
- 理解 高等数学、线性代数、概率论与数理统计数学基础知识
掌握 线性回归 逻辑回归 决策树原理 聚类 贝叶斯原理- 掌握 线性回归 逻辑回归 决策树 聚类 贝叶斯
- 学习内容
线性回归→逻辑回归→决策树- 线性回归 → 逻辑回归 → 决策树 → 聚类 → 贝叶斯原理
- 基本信息
- 定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数中
- 时间安排:10天,2-3h/天
- 组队学习类型:理论学习
- 先修组队学习:无
- 后续推荐组队学习:高级算法梳理
任务安排
- Task1:线性回归算法梳理(2天)
- Task2:逻辑回归算法梳理(2天)
- Task3:决策树算法梳理(2天)
- Task4:聚类算法梳理(2天)
- Task5:贝叶斯算法梳理(2天)
- 内容设计:
- 黑桃,刘广月,于鸿飞
- 学习目标
- 知道
- 了解
- 理解
- 掌握 随机森林 GBDT XGB LightGBM 的算法原理
- 学习内容
- RF → GBDT → XGB → LightGB
- 基本信息
- 定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数中
- 时间安排:10天,2-3h/天
- 组队学习类型:理论学习
- 先修组队学习:初级算法梳理
- 后续推荐组队学习:数据挖掘、数据竞赛(房租预测)
任务安排
- Task1:随机森林算法梳理(2天)
- Task2:GBDT算法梳理(2天)
- Task3:XGB算法梳理(3天)
- Task4:LightGBM算法梳理(3天)
任务安排
- Task1:
- Task2:
- Task3:
- Task4:
- Task5:
- Task6:
- Task7:
- Task8:
- Task9:
- Task10:
任务安排
- Task1:
- Task2:
- Task3:
- Task4:
- Task5:
- Task6:
- Task7:
- Task8:
- Task9:
- Task10:
- 内容设计:
- 黑桃,四月,李威
- 学习目标
- 知道
- 了解 比赛的全流程
- 理解
- 掌握 数据清洗、特征工程、模型、模型融合等数据竞赛基本技能
- 学习内容
分析赛题→数据清洗→特征工程→模型→模型融合→比赛总结- 分析赛题 → 数据清洗 → 特征工程 → 模型选择 → 模型融合 → 比赛总结
- 基本信息
- 定位人群:熟练掌握Python基础、sklearn模块,了解基本机器学习算法,具备一定数据分析的能力;难度系数中高
- 时间安排:15天,3-4h/天
- 组队学习类型:实践
- 先修组队学习:Python基础
- 后续推荐组队学习:
- 内容设计:
- sheldonwong、黑桃
- 学习目标
- 知道
- 了解
- 理解
- 掌握
- 基本信息
- 定位人群:具有Linux基础/Shell/Python;难度系数高
- 时间安排:18天,4-5h/天
- 组队学习类型:实践
- 先修组队学习:
- 后续推荐组队学习:
任务安排
- Task1:创建虚拟机+熟悉(2天)
- Task2:搭建Hadoop集群(3天)
- Task3:HDFS初步(2天)
- Task4:MapReduce初步(3天)
- Task5:Hive初步(2天)
- Task6:Spark初步(3天)
- Task6:实践(3天)
- 内容设计:
- 许辉 李奇锋
- 学习目标
- 知道
- 了解 deep learning常见操作的原理,含正则化、Dropout、优化器的公式
- 理解 Pytorch的本质是自动微分框架
- 掌握 解决问题的基本pipeline,含数据预处理、神经网络搭建、简单的调参
- 学习内容
- 安装Pytorch → 设立图并计算 → 实现逻辑回归 → 构建多层神经网络 → PyTorch实现L1,L2正则化以及Dropout → 书写优化器代码 → 用PyTorch完成手写数字识别
- 基本信息
- 定位人群:刚接触Pytorch的使用但了解Python基本语法;难度系数中
- 时间安排:14天,2-3h/天
- 组队学习类型:实践
- 先修组队学习:无
- 后续推荐组队学习:(暂无,maybe以后可以按此扩展课程,进一步理解pytorch系统框架,偏软件工程)
任务安排
- Task1:PyTorch的基本概念(2天)
- Task2:设立计算图并自动计算(2天)
- Task3:PyTorch实现Logistic regression(2天)
- Task4:PyTorch实现多层网络(2天)
- Task5:PyTorch实现L1,L2正则化以及Dropout(2天)
- Task6:PyTorch理解更多神经网络优化方法(2天)
- Task7:手写数字识别(2天)
- 内容设计:
- 有容
- 学习目标
- 知道
- 了解
- 理解
- 掌握
- 基本信息
- 定位人群:;难度系数中
- 时间安排:9天,2-3h/天
- 组队学习类型:实践
- 先修组队学习:无
- 后续推荐组队学习:
任务安排
- Task1:快速了解keras(2天)
- Task2:keras的网络层(2天)
- Task3:数据预处理(2天)
- Task4:keras其他功能(3天)
任务安排
- Task1:感知机(2天)
- Task2:神经网络(3天)
- Task3:深度神经网络DNN(3天)
- Task4:CNN(2天)
- Task5:CNN的发展上的几种常见算法、网络结构以及它们的优缺点(3天)
- Task6:CNN算法的应用(3天)
- Task7:RNN(3天)
- Task8:GRU及LSTM(3天)
- 内容设计:
- 范晶晶、李碧涵
- 学习目标
- 知道 数据挖掘项目的完整流程
- 了解 基本的数据预处理操作
- 理解 各机器学习模型的调参优化
- 掌握 数据预处理、特征工程、模型构建、模型调参和模型融合等数据竞赛基本技能
- 学习内容
- 数据分析 → 特征工程 → 模型构建 → 模型评估 → 模型调优 → 模型融合
- 基本信息
- 定位人群:有Python基础,sklearn基础;难度系数中
- 时间安排:12天,2-3h/天
- 组队学习类型:实践
- 先修组队学习:
- 后续推荐组队学习:数据竞赛(房价预测)
- 内容设计:
- jepson 莲说
- 学习目标
- 知道 文本的数据预处理操作,文本表示
- 了解 如何在文本表示的前提下,简单应用机器学习算法
- 理解 LDA主题模型算法的原理以及应用
- 掌握 机器学习算法在NLP方面的应用
- 学习内容
- 特征提取→特征选择→文本表示→传统机器学习算法跑模型→LDA生成新特征
- 基本信息
- 定位人群:有Python基础,基本框架的基础(例如TensorFlow、Keras和pyTorch等);难度系数高
- 时间安排:8天,3-4h/天
- 组队学习类型:实践
- 先修组队学习:初级算法梳理 高级算法梳理
- 后续推荐组队学习:自然语言处理(进阶篇)
任务安排
- 预备任务:tensorflow安装+tensrflow基础+NLP
- Task1:数据集探索(2天)
- Task2:特征提取(2天)
- Task3:特征选择(2天)
- Task4:传统机器学习+讨论(2天)
- 内容设计:
- jepson 莲说
- 学习目标
- 知道 词向量的原理
- 了解 基本的卷积神经、循环神经网络在NLP方面的应用
- 理解 Attention原理在NLP方面的应用
- 掌握 基本深度神经网络在NLP方面的应用
- 学习内容
word2vec算法跑模型→卷积神经网络算法跑模型→循环神经网络算法跑模型 →注意力机制算法跑模型→ Bert- 数据集探索 → 神经网络基础 → 简单神经网络 → 卷积神经网络 → 循环神经网络 → Attention原理 → Bert原理
- 基本信息
- 定位人群:学完自然语言处理入门组队学习的同学或有自然语言处理基础的巨佬;难度系数高
- 时间安排:14天,3-4h/天
- 组队学习类型:实践
- 先修组队学习:初级算法梳理 高级算法梳理 自然语言处理(进阶篇)
- 后续推荐组队学习:
任务安排
- Task1:数据集探索(2天)
- Task2:神经网络基础(2天)
- Task3:简单神经网络+讨论(2天)
- Task4:卷积神经网络(2天)
- Task5:循环神经网络(2天)
- Task6:Attention原理+讨论(2天)
- Task7:Bert+讨论(2天)
- 内容设计:
- Summer
- 学习目标
- 知道 spark和hive的区别、spark的发展
- 了解 spark运行原理、RDD编程设计
- 理解 Spark streaming
- 熟悉 DataFrame、SPARKSQL操作和Mlib的使用
- 学习内容
运行原理 → 环境搭建 → RDD编程 → SparkSQL → MLlib → 常用算法- 运行原理 & 环境搭建 → 熟悉RDD & RDD编程 → SparkSQL → MLlib → 常用算法
- 基本信息
- 定位人群:掌握Python基础;难度系数中
- 时间安排:12天,3-4h/天
- 组队学习类型:理论+实践、刷视频
- 先修组队学习:Python基础
- 后续推荐组队学习:大数据
任务安排
- Task1:运行原理、RDD设计、DAG、安装与使用(3天)
- Task2:RDD编程、熟悉算子、读写文件(3天)
- Task3:DataFrame、SparkSQL (2天)
- Task4:MLlib流设计、特征工程 (2天)
- Task5:逻辑回归、决策树(2天)
- 内容设计:
- 张峰
- 学习目标
- 知道
- 了解
- 理解
- 掌握 opencv在图像处理方面的基础操作
- 基本信息
- 定位人群:了解python基础操作和numpy基本操作;难度系数中
- 时间安排:17天,2-3h/天
- 组队学习类型:理论+实践
- 先修组队学习:python基础
- 后续推荐组队学习:
任务安排
- Task1:初识opencv(2天)
- Task2:灰度变换和二值化(3天)
- Task3:滤波操作(4天)
- Task4:形态学处理 (4天)
- Task5:图像分割1(2天)
- Task6:图像分割2(2天)
版权声明:Datawhale_Learning组队学习内容仅用于学习、研究和交流。版权归Datawhale、文章作者和组队学习 内容设计者所有,严禁用于商业用途,违者必究。