| 授课对象: Hadoop初学者、具有一定Linux系统、Java使用经验系统架构师、系统分析师、高级程序员、资深开发人员。牵涉到大数据处理的数据中心运行、规划、设计负责人。政府机关,金融保险、移动和互联网等大数据来源单位的负责人。高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。数据仓库管理人员、建模人员,分析人员和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员。
 
 
 
 课程大纲: 
 第1周 Hadoop生态系统概述以及版本演化概要介绍Hadoop生态系统及其版本演化历史,并给出hadoop版本选择建议。
 
 第2周 HDFS 2.0 原理、特性与基本架构
 介绍HDFS 2.0原理与架构,并与HDFS 1.0进行对比。介绍HDFS 2.0新特性,包括快照、缓存、异构存储架构等
 
 第3周 YARN应用场景、基本架构与资源调度
 介绍YARN是什么、基本原理与架构,并剖析其调度策略。
 
 第4周 MapReduce 2.0基本原理与架构
 介绍计算框架MapReduce基本原理与架构
 
 第5周 MapReduce 2.0编程实践(涉及多语言编程)
 手把手介绍如何用java、C++、php等语言编写MapReduce程序
 
 第6周 HBase应用场景、原理与基本架构
 介绍HBase应用场景、原理和架构
 
 第7周 HBase编程实践(涉及多语言编程)
 手把手介绍如何用Java、C++、Python等语言编写HBase客户端程序。
 
 第8周 HBase案例分析
 介绍几个HBase典型应用案例,包括互联网应用案例和银行应用案例。
 
 第9周 Zookeeper部署及典型应用
 介绍Zookeeper是什么,在hadoop生态系统中的地位
 
 第10周 Hadoop数据入库系统Flume与Sqoop
 介绍如何使用flume和sqoop两个系统将外部流式数据(比如网站日志,用户行为数据等)、关系型数据库(比如MySQL、Oracle等)中的数据导入Hadoop中进行分析和挖掘
 
 第11周 数据分析系统Hive与Pig应用与比较
 介绍如何使用hive和pig分析hadoop中的海量数据
 
 第12周 数据挖掘工具包Mahout
 介绍如何使用mahout提供的数据挖掘和机器学习算法进行海量数据挖掘
 
 第13周 工作流引擎Oozie与Azkaban应用
 介绍如何使用Oozie和azkaban对MapReduce作业、Pig/hive作业等进行统一管理和调度
 
 第14周 两个综合案例:日志分析系统与机器学习平台
 介绍两个典型的互联网应用案例,进一步深入领悟hadoop生态系统中各个系统的应用场景和解决实际问题的方式。
 
 主讲人: 董西成 资深Hadoop技术实践者和研究者,对Hadoop技术有非常深刻的认识和理解,有着丰富的实践经验。 曾经参与了商用Hadoop原型的研发,以及人民搜索的分布式日志系统、全网图片搜索引擎、Hadoop调度器等多个项目的设计与研发,实践经验非常丰富。 对Hadoop的源代码有深入的研究,能通过修改Hadoop的源代码来完成二次开发和解决各种复杂的问题。 撰写了大量关于Hadoop的技术文章并分享在自己的博客上,由于文章技术含量高,所以非常受欢迎,这使得他在Hadoop技术圈内颇具知名度和影响力。 出版物: 《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》; 《Hadoop技术内幕:深入解析YARN架构设计与实现原理》 
  下载地址:
 |