欢迎光临若泽数据,专注于大数据领域的高薪人才培养!

大数据线下精英班

课程安排

项目:基于Spring Boot和Spark构建大数据离线处理栈

  • 从零开始构建,让小伙伴们深入了解迭代的各个环节
  • 基于Spark完成离线相关业务统计分析
  • 生产环境已稳定运行近三年 & 大数据量处理的核心注意事项
  • Spark优化在生产中的使用:数据倾斜、小文件、幂等性、资源设置
  • 各环节高可用的解决方案,如何做到平滑升级
  • 基于Spring Boot和Redis的元数据管理

项目:互联网一线电商之DW

  • 数据采集:
    • 采用Maxwell中间件,配置白名单读取MySQL Binlog文件实时增量数据同步
    • 全表扫描刷历史数据至大数据存储
    • 二次开发之元数据之列名称与采集值数量不相等情况
    • 二次开发之集成Phoenix alter特性
    • 二次开发之retry失败之log记录
    • 二次开发之DB和Table大小写问题
    • 二次开发之Timezone问题
  • 数据处理:
    • 设计3重机制,全链路每个环节数据0丢失
    • ETL清洗坑、坑、坑(暂不透露)
  • 数据存储:
    • 为什么要使用HBase和ElasticSearch作为双存储呢
  • 数据管理:
    • 构建血缘管理,且设计数据沉淀,以防上游数据是分表或分库
    • 数据质量之数据量比对,调度脚本,生产预警
  • 优化案例:
    • 根据业务优化,从精准一次为至少一次消费语义
    • 解决json科学计数法问题
    • 解决DN内存只使用1000M,却莫名其妙的挂掉
    • 解决Phoenix的内存泄漏
    • 如何定制化企业版本Phoenix-4.14.1-CDH-5.16.1,解决各种坑问题,适配企业
    • 如何解决SS Job异常挂掉及executor老是dead的诡异问题
    • 如何解决全链路的timezone问题
  • 延伸扩展:
    • 谈谈我的shuffle的理解
    • 大数据开发中长服务如何抉择,而我们是怎么做的呢

项目:基于Spark Structured Streaming(SSS)的运营商数据分析

  • 项目架构:从Flume + Kafka + SSS + MySQL 到 HDFS + SSS + MySQL 的链路调整
  • 根据实际资源情况,从 Flume 采集到 HDFS API 采集的调整
  • 基于 Spark Strutured Streaming 的实时业务统计实现
  • 通过自定义数据源,灵活实现功能
  • 谈谈目前结构化流的优缺点以及使用过程中踩过的坑

项目:基于Apache Ranger的大数据SQL鉴权系统

  • 项目架构:jetty+zookeeper+ranger
  • 支持Hive,SparkSQL,Presto等主流大数据SQL组件统一权限管理
  • 如何解决不同组件之间SQL的兼容性
  • Hive解析及鉴权源码分析
  • 分享RangerPlugin类加载造成栈溢出的坑
  • 如何保证服务高可用及负载均衡
  • 设计模式及并发编程在项目中的使用
  • 如何异步审计用户提交的SQL
  • 如何开发适配鉴权系统的自定义JDBC包
  • 从Ranger源码可以学到的软件设计

补充说明:

  • 我们绝不教demo日志进行pv、uv等的统计分析,我们使用的就是真实生产环境中的日志信息来进行真实场景的各种维度的统计分析,进而达到举一反三的作用
  • 拒绝纯理论、拒绝念PPT,优化前后的效果以生产环境运行结果来说话,拒绝”理论优化”
  • QQ技术交流群:707635769  课程咨询(星星):1952249535