本项目是我个人大数据学习项目。分为Deepin单机版本和CentOS集群版本。
主要涉及Hadoop、Spark、Flink、Storm框架、机器学习算法以及推荐系统的学习,主要使用到的语言有Java、Scala、Python。
开发环境:deepin15.11,java8,python3.7,scala 2.11.12
本仓库使用的所有的tar包和jar包,存放在百度网盘,提取码:ajtu,供网速慢的人下载。当然你也可以在官网下载自己想要的版本。
基础部分:
JavaSE、Scala和Python语言的基础学习
数据结构、数据库MySQL、设计模式的学习
LeetCode以及各类ACM赛题的训练
高数、线代、概率论
框架部分:
分布式系统概论
MapReduce、HDFS、Hive、Yarn、HBase、ES、Redis、sqoop
Spark SQL 、Spark streaming、Kafka、flume、zookeeper
Flink和Storm
中级部分:
大数据框部分项目实战
机器学习算法与实践
数据挖掘理论
终极部分:
推荐系统的学习
用户画像、知识图谱
优先B站上免费的学习视频。
JavaSE、Scala 推荐尚硅谷韩顺平
MySQL 使用《MySQL必知必会》
Git 和 Github 使用《GitHub入门与实践》
数据结构,推荐慕课网的玩转数据结构,或者尚硅谷韩顺平的数据结构
Python 推荐使用 廖雪峰pdf
Hadoop、Spark、Flink、Storm 首先推荐慕课网PK哥视频(合理利用网络资源),能够使你快速入门,脑海里有一个大致观念,但是此系列课程理论不强,且少了很多重要知识点。因此,二遍学习或者复习时候,推荐b站尚硅谷分享的大数据视频结合看,同时配合使用尚硅谷分享的大数据课程的讲义。
机器学习算法推荐b站李宏毅老师的视频(或者浙大研究生机器学习理论课程),然后结合慕课网机器学习实战,或者使用黑马的机器学习课程。
推荐系统、用户画像、知识图谱,目前没有什么好的视频,建议看书。《推荐系统实践》、《用户画像:方法论与工程化解决方案(从技术、产品、运营3个维度详尽阐述从0到1搭建用户画像系统的技术栈和方法论)》
- deepin单机版
- centOS集群版本