Code Monkey home page Code Monkey logo

spark's Introduction

spark

目录

模块一:基础预习

第01讲:MapReduce:计算框架和编程模型
第02讲:Hadoop:集群的操作系统
第03讲:如何设计与实现统一资源管理与调度系统
第04讲:解析 Spark 数据处理与分析场景
第05讲:如何选择 Spark 编程语言以及部署 Spark

模块二:Spark 编程

第06讲:Spark 抽象、架构与运行环境
第07讲:Spark 核心数据结构:弹性分布式数据集 RDD
第08讲:算子:如何构建你的数据管道?
第09讲:函数式编程**:你用什么声明,你在声明什么?
第10讲:共享变量:如何在数据管道中使用中间结果?
第11讲:计算框架的分布式实现:剖析 Spark Shuffle 原理

模块三:Spark 高级编程

第12讲:如何处理结构化数据:DataFrame 、Dataset和Spark SQL
第13讲:如何使用用户自定义函数?
第14讲:列式存储:针对查询场景的极致优化
第15讲:如何对 Spark 进行全方位性能调优?
第16讲:Tungsten 和 Hydrogen:Spark 性能提升与优化计划
第17讲:实战:探索葡萄牙银行电话调查的结果

模块四:Spark 流处理

第18讲:流处理:什么是流处理?以及你必须考虑的消息送达保证问题
第19讲:批处理还是流处理:Spark Streaming 抽象、架构与使用方法
第20讲:如何在生产环境中使用 Spark Streaming
第21讲:统一批处理与流处理:Dataflow

第22讲:新一代流式计算框架:Structured Streaming
第23讲:如何对 Spark 流处理进行性能调优?
第24讲:实战:如何对股票交易实时价格进行分析?

模块五:Spark 图挖掘

第25讲: 什么是图:图模式,图相关技术与使用场景
第26讲:数据并行:Spark 如何抽象图,如何切分图,如何处理图
第27讲:像顶点一样思考:大规模并行图挖掘引擎 GraphX
第28讲:Pregel 还是 MapReduce:一个有趣的算子 AggregateMessage
第29讲:实战 1:用 GraphX 实现 PageRank 算法
第30讲:实战 2:用 GraphX 求得顶点的 n 度邻居

模块六:Spark 机器学习

第31讲:机器学习是什么: 机器学习与机器学习工作流
第32讲:标准化机器学习流程:ML pipeline
第33讲:如何对数据进行预处理?
第34讲:少数服从多数:随机森林分类器
第35讲:物以类聚:Kmeans 聚类算法
第36讲:推荐引擎:协同过滤
第37讲:如何对模型性能进行评估并调优?

模块七:商业智能系统实战

第38讲:数据仓库与商业智能系统架构剖析
第39讲:作为 Yelp 运营负责人,如何根据数据进行决策?
第40讲:如何获取业务数据库的数据
第41讲:如何构建数据立方体
第42讲:如何通过 OLAP 与报表呈现结果
第43讲:两个简化了的重要问题:数据更新和数据实时性
第44讲:另一种并行:Lambda 架构与 Kappa 架构

结束语

结束语:统一的编程模型,统一的编程语言,统一的架构

spark's People

Contributors

lei-yiyi avatar

Watchers

James Cloos avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.