欢迎光临若泽数据,专注于大数据领域的高薪人才培养!

若泽数据2019大数据人工智能实战班大纲

课程目标

  • 本套课程是以企业大数据&人工智能&容器技术为蓝本进行讲解,所有的知识都是经过多年一线企业实际运用提取总结而成,轻松掌握Hadoop、Hive、Spark、Flink、AI、容器、大数据平台等技术的开发及使用,并结合多个项目实战贯穿大数据的技能点,让你真正具备企业开发所需要的动手能力和知识。

适合人群

  • 打算毕业后从事找大数据工作的零基础的高校学生(可以参照若泽数据的零基础入门大数据课程)
  • 欲转换从事大数据工作的在职人员;
  • 旨在通过真实项目实战快速提升自身能力(实用、提升、加薪、升职)的同学

课程大纲

基于Hadoop的电商项目实战

  • 涉及技术框架

    通过本项目实战综合使用Hadoop、Hive、Flume、MySQL、Azkaban、shell等技术快速掌握基于Hadoop生态栈进行离线处理的方方面面。

  • Hadoop

    掌握Hadoop集群规划及手工搭建(先从手工搭建开始,力求掌握底层的原理,为后续使用Cloudera Manager进行一键式部署Hadoop集群打下坚实的基础)、常见的Hadoop集群的运维;

    熟悉Hadoop新版本中发布的一些新特性。

  • Hive

    掌握Hive的底层元数据存储结构、Hive是如何将SQL转换成MapReduce作业的流程、大数据中如何高效的使用压缩和存储来提升作业的执行效率;

    熟悉Hive自定义函数的使用、Hive中常用的优化策略(平台层面、执行层面、参数层面);

  • Flume

    掌握使用Flume完成日志数据的采集,如何解决采集过程中的小文件问题,如何解决整个Flume采集过程中的高可靠保障服务,如何对Flume采集的数据进行整个链路的监控。

  • Azkaban

    掌握使用Azkaban来完成基于各种不同类型的作业的调度;

    熟悉Azkaban现存的使用及架构问题,如何在生产上来解决现存的问题。

  • Shell

    一定要认识到shell在大数据处理中的重要性。本章节将详细介绍shell在工作中经常使用到的方方面面(比如:sed/awk/函数/等),本课程Spark之后会给大家介绍一个shell整合大数据的综合使用(具体是啥,先卖个乖,大纲不体现,因为是生产上的)

  • HUE

    掌握使用开源框架HUE在大数据处理过程中的使用。

  • 项目实战

    掌握大数据项目的开发流程;

    熟悉企业级大数据应用的场景;

    了解企业级大数据分析平台;

    大数据离线处理整体架构及处理流程;

    了解集群规模评估;

    离线处理过程中的数据倾斜的解决方案;

基于Spark栈的项目实战

  • 涉及技术框架

    本章节将系统讲解Spark Core、Spark SQL、Spark Streaming、Spark MLlib等技术快速掌握基于Spark生态栈进行大数据处理的方方面面。

  • Scala

    做为Spark/Flink框架源码开发的核心语言Scala,这是必须要掌握的,否则您将在Spark/Flink深入研究的时候寸步难行。通过本章节对Scala的学习,我们必须要掌握基于Scala的面向对象编程、集合、高阶函数、隐式转换、模式匹配、文件操作、数据库操作的开发,为后续学习Spark/Flink打下坚实的基础。

  • Spark生态圈

    掌握Spark为我们带来哪些好处,对比MapReduce有哪些优点、如何根据Spark源码编译出对应的Spark安装部署包(后续会讲解如何修改Spark源码,如何基于Spark源码进行二次开发,所以务必得掌握Spark源码的编译方式);

    熟悉Spark的几种运行模式、spark-shell/spark-submit的使用。

  • Spark Core

    掌握RDD的特性、RDD创建/转换/动作/缓存的使用、依赖、Spark的Shuffle;

    熟悉Spark on YARN在生产上的使用(纠正很多同学理解的误区)、如何对Spark作业进行监控;

    掌握如何使用IDEA+Maven来构建Spark应用程序的开发及提交到集群上运行;

  • Spark SQL

    了解Spark SQL的前世今生、SQL on Hadoop业界框架;

    掌握Spark SQL基于DataFrame、Dataset的编程;

    熟悉Catalyst在执行过程是如何做优化的以及做了哪些优化

    核心扩展:如何自定义开发基于Spark的外部数据源及如何整合到Spark源码中去;

  • Kafka

    掌握Kafka的架构、核心概念、语义、数据可靠性;

    熟悉Kafka的运维管理(有彩蛋)、基于Java/Scala语言的Kafka API开发;

  • Spark Streaming

    掌握基于Spark Streaming的核心概念、编程及高级用法;

    熟悉Kafka和Flume对应Spark Streaming的处理方式;

    Kafka offset整合Spark Streaming的管理方式;

  • Spark MLlib

    了解Spark MLlib是什么能做什么;

    熟悉Spark MLlib的分类指标/回归指标/聚类指标、Pipeline;

    掌握构建分类模型、回归模型、聚类模型以及其他算法;

  • Spark项目一:基于Spark的企业生产预警平台(实时处理)

    项目代号: 翻山越岭;

    项目难度: 四座山,一座比一座难,你敢勇于挑战吗?

    项目内容:实时处理、时序存储、敏捷可视化、自定义策略;

    项目技术栈: flume、kafka、spark streaming、influxdb、grafana等。

    其实主要我们现在的很多监控服务基本达不到秒级的通知;

    其实对一些即将出现的问题可以提前预知;

    其实最主要可以有效扩展到实时计算如MySQL慢查询日志、nginx、tomcat、linux的系统级别日志等。

  • Spark项目二:基于Spark的游戏行业数据处理实战(离线处理)

    基于flume的采集,架构设计,符合生产场景的源码改造,如何保证高可用性。

    解决数据延迟带来的问题(离线痛点),保证幂等性。

    如何解决小文件问题。

    游戏行业关注的指标分析。

    SparkSQL在生产中的正确使用姿势和调优方式。

基于Flink的项目实战

  • 涉及技术框架

    本章节将系统讲解DataSet、DataStream、Table API@SQL等技术快速掌握基于Flink生态栈进行大数据处理的方方面面。

  • Flink基础

    业内流处理组件对比;

    掌握Flink环境部署、通过案例快速入门;

  • Flink架构拓扑

    掌握Flink中各集群节点都有哪些进程,如何交互协调工作以及内部内存如何管理

  • DataSet编程

    掌握使用Flink基于DataSet API进行批数据开发的内置功能以及如何自定义开发;

  • DataStream编程

    掌握使用Flink基于DataStream API进行流式数据开发的内置功能以及如何自定义开发;

    Event Time:time分类;

    State & Fault Tolerance:state管理以及容错;

    Operators:Windows(窗口函数的应用)、Joining(多流/流与表 JOIN)、Process Function(处理函数)、Async I/O(异步操作);

    Connectors:Flink整合其他数据源操作;

  • Flink TopN

    结合前面内容进行基于event time、window函数以及watermark的TopN;

  • Table API & SQL操作
  • Flink如何处理反压问题以及Flink作业所需资源如何考量
  • Flink综合项目实战:基于Flink的箱型实时推荐

构建企业级大数据平台

对于出现各种异常信息能够独立思考与解决;能够精准化做好CDH平台的优化与运营;

  • 离线部署CDH及暴力卸载(含坑)

    独立安装与卸载CDH集群

  • CDH集群日常管理

    独立部署与卸载各种服务组件;

    如何排错,各种案例文档分享;

    如何监控,只看哪些指标才能满足我们生产需求呢?

  • CDH集群维护操作

    能够对集群进行高可用,安全等管理;

    能够自定义部署Kafka、Spark2等;

  • 动态资源池&队列

    根据生产需求,灵活配置资源池;其中放置规则很重要!

    如何提交job到对应队列中,有坑哟!

  • 性能调优

    直接暴露生产调优参数及剖析;

    主要是底层Linux、HDFS、Kafka、HBase、Spark job、Flink job。

  • 案例分享

    各种案例、故障文档,一一剖析。

  • Kerberos生产维护及采坑

    大数据组件安全在企业中至关重要!

    不光光维护命令,代码结合Kerberos也是至关重要的!

人工智能实战

  • 数据分析思维课

    企业招聘分析

    数据分析多元思维

    微观方法论

  • 机器学习基础

    指标

    样本选取

    特征工程

    常用模型

  • O2O数据实战

    数据分析

    特征工程

  • O2O数据实战2

    模型使用

    模型验证

  • 深度学习图像

    目的

    模型结构

    优化器

    图像分类实战

  • 深度学习在OCR上的应用

    实战项目 CRNN做文本识别

容器大数据

  • Docker

    充分学习Docker生产环境如何部署、定制image及采坑;

  • Harbor

    如何构建生产企业的镜像私服,保证高可靠;

  • DockerFile

    如何根据业务环境需求,定制image满足生产需要;

  • Kubernetes

    生产上如何根据Kubernetes构建企业PaaS平台,将基础平台组件容器化,对外提供服务;

  • 两个生产案例

    能够掌握MySQL on Kubernetes等常规生产容器技术;

    能够掌握Spark on Kubernetes的生产容器大数据技术;

就业指导

  • 课程总结
  • 常见面试题讲解
  • 简历编写指导

课程相关说明

课程时间/时长 : 2019年4月开班,时长4.5个月,每周3次课,每次2小时

授课方式 : 在线直播+录播方式

课后作业: 每次上课后,都会布置相关作业让学员完成,作业中会包含大量讲师们在工作中实际用到的场景和技术点,使得大家在听完课的基础之上再结合作业,更加深入的掌握本套大数据实战课程的内容,在进入公司以后能够快速无缝对接。

上课软件使用版本说明:
CentOS7+
Hadoop生态圈软件:cdh版本
Spark:2.4.0,随着Spark版本的发布再更新
Flink:1.7.0,随着Flink版本的发布再更新

入学流程及课程价格

  • 报名流程
    • 了解课程详情;
    • 加QQ群707635769,咨询课程顾问星星(QQ号:1952249535);
    • 付款核实身份;
    • 填写正式学员表、签定培训协议;
    • 进入正式学员群、获取学习资料;