大数据系统基础实验
清华深研院研一课程大数据系统基础实验仓库。
这门课原定有4个实验的,但我们这届因为大家都反馈工作量太大了,最后被改为了两个实验。
- 实验一的内容非常简单,实验课上当堂就能搞定,因此我也不放到github仓库里了
- 实验二是需要自己用python写一个类似MapReduce的分布式系统,工作量很大(我们这届提交的截止日期一拖再拖),建议同学们早点开始写.....
- 实验三是需要用Spark实现一些任务,包括机器学习。工作量相对实验二要小一些,但Scala语言实在有点恶心....
我的建议是:如果你选课前看到这个仓库,好好想想自己能否接受巨大的工作量,不能的话还是退了课比较好。