欢迎光临若泽数据,专注于大数据领域的高薪人才培养!

人工智能+大数据实战班

课程目标

  • 本套课程是以企业实际开发技术为基础进行讲解,所有的知识都是经过多年一线企业实际运用提取总结而成,轻松掌握Spark、Hive、HBase、Storm、ELK等编程原理和运行结构,Spark/Hadoop生态的各个组件的功能,具备从事大数据项目的能力;让你真正具备企业开发所需要的动手能力和知识。

适合人群

  • 打算毕业后从事找大数据工作的零基础的高校学生(可以参照若泽数据的零基础入门大数据课程)
  • 欲转换从事大数据工作的在职人员;
  • 旨在通过真实项目实战快速提升自身能力(实用、提升、加薪、升职)的同学

课程大纲

Hadoop及Hive进阶

  • Hadoop集群搭建
  • Hadoop常用特性
  • Hive进阶

HBase

  • HBase入门
    • HBase概述及与RDBMS对比
    • 伪分布式环境安装部署、启动、监控详解
    • Shell使用详解
  • HBase进阶
    • HBase核心概念
    • HBase表的Cell详解(面向列的操作)
    • HBase数据存储的物理模型详解
    • HBase Java API编程
  • HBase高级
    • 详解如何设计HBase中的表、预分区及查询辅助索引表
    • 详解HBase服务组件的功能
    • 深入详解HBase底层数据存储机制(HFile和HLog)
    • 详解HBase中如何对数据进行迁移和备份
    • HBase使用优化(RowKey设计原则等)
  • HBase整合其他框架
    • HBase与MapReduce集成使用
    • HBase与Hive集成使用
    • Phoenix入门
    • Phoenix基于HBase集成使用

Scala

  • Scala入门
    • Scala概述及部署
    • Scala函数
  • Scala进阶
    • Scala面向对象
    • Scala集合
    • Scala高阶函数
    • Scala模式匹配
  • Scala高级
    • 隐式转换、隐式参数
    • 文件操作
    • JDBC操作及数据库连接池的使用

Spark

  • Spark入门
    • MapReduce并行计算框架、弊端、出现问题
    • Spark是什么,有哪些特点
    • Spark Timeline、发展历史、各个版本总体了解
    • Spark VS Hadoop2.x&MapReduce
    • Spark源码下载、编译(几种编译方式及依赖Hadoop版本制定)
    • Spark安装部署准备(JDK 、Scala)
    • Spark-shell交互式命令行工具的使用
    • 编程实现词频统计WordCount、与MapReduce编程做比较
  • Spark Core
    • RDD详解
    • 使用IDEA+Maven构建Spark应用程序的本地及集群运行
    • 使用IDEA导入Spark源码并进行编译
    • RDD Cache策略深度剖析
    • 广播变量的使用
    • Shuffle机制深入剖析
    • Spark Core源码分析
    • 多个Spark Core小案例实战
    • 性能调优
    • Spark on YARN详解
    • Spark HistoryServer详解
    • 如何开发自定义的Spark作业监控系统
  • Spark SQL
    • Spark SQL前世今生及概述
    • DateFrame&Dataset详解
    • External Data Source详解
    • Spark SQL愿景
    • Catalyst剖析
    • SQL on Hadoop分享
    • Hive on Spark
  • Spark Streaming
    • 入门
      • Spark Streaming概述
      • Streaming WordCount实时统计
      • Spark Streaming工作原理
      • Spark Streaming编程模型
    • 进阶
      • Spark Streaming入口点
      • 核心概念
      • DStream常用操作(基本/mapWithState/Window)
      • 与Spark Core/Spark SQL集成
    • 高阶
      • 与Flume对接的两种方式
      • 与Kafka对接的两种方式
      • 项目实战:使用Spark Streaming+Flume+Kafka打造通用的流处理基础平台

    • Spark综合项目实战

本期新增内容

  • Flink生产项目实战
  • Spark机器学习
  • CDH平台运维
  • Python基础
  • 人工智能机器学习
  • Kylin整合Spark实战
  • Docker及Harbor实战
  • Kubernetes实战
  • 构建企业级PaaS平台项目实战

就业指导

  • 课程总结
  • 常见面试题讲解
  • 简历编写指导

课程相关说明

课程时间/时长 : 2018年7月中旬开班,时长3个月,每周3次课,每次2小时

授课方式 : 在线直播+录播方式

课后作业: 每次上课后,都会布置相关作业让学员完成,作业中会包含大量讲师们在工作中实际用到的场景和技术点,使得大家在听完课的基础之上再结合作业,更加深入的掌握本套大数据实战课程的内容,在进入公司以后能够快速无缝对接。

上课软件使用版本说明:
CentOS6.4+
Hadoop生态圈软件:cdh-5.7.0
Spark:2.3.0,随着Spark版本的发布再更新
Storm:1.1.1

入学流程及课程价格

  • 报名流程
    • 了解课程详情;
    • 加QQ群707635769,咨询课程顾问星星(QQ号:1952249535);
    • 使用支付宝缴费,付款核实;
    • 填写正式学员表、签定培训协议;
    • 进入正式学员群、获取学习资料;