大数据线下精英班
课程安排
项目:互联网公司的数仓架构演进与实践
- 如何从0到1搭建数仓
- 行业内通用数仓架构设计
- 数仓分层与建模规范制定
- 高效率的数据抽取策略设计
- 数据集市搭建(交易&用户行为)
- 如何基于数仓建设的实际痛点出发完善数据平台
- 数据指标中心
- 数据质量中心
- 构建适配多种查询计算引擎的数据地图(数据字典+数据血缘)
- 构建适配多种任务类型的调度平台
- 如何打造秒级查询的OLAP平台
- OLAP平台组件选型与设计
- OLAP平台架构的演进之路
- 查询与存储层面的优化
- 双十一/双十二平台保障经验分享
项目:互联网一线电商之DW
- 数据采集
- 采用Maxwell中间件,配置白名单读取MySQL Binlog文件实时增量数据同步
- 全表扫描刷历史数据至大数据存储
- 二次开发之元数据之列名称与采集值数量不相等情况
- 二次开发之集成Phoenix alter特性
- 二次开发之retry失败之log记录
- 二次开发之DB和Table大小写问题
- 二次开发之Timezone问题
- 数据处理
- 设计3重机制,全链路每个环节数据0丢失
- ETL清洗坑、坑、坑(暂不透露)
- 数据存储
- 为什么要使用HBase和ElasticSearch作为双存储呢
- 数据管理
- 构建血缘管理,且设计数据沉淀,以防上游数据是分表或分库
- 数据质量之数据量比对,调度脚本,生产预警
- 优化案例
- 根据业务优化,从精准一次为至少一次消费语义
- 解决json科学计数法问题
- 解决DN内存只使用1000M,却莫名其妙的挂掉
- 解决Phoenix的内存泄漏
- 如何定制化企业版本Phoenix-4.14.1-CDH-5.16.1,解决各种坑问题,适配企业
- 如何解决SS Job异常挂掉及executor老是dead的诡异问题
- 如何解决全链路的timezone问题
- 延伸扩展
- 谈谈我的shuffle的理解
- 大数据开发中长服务如何抉择,而我们是怎么做的呢
补充说明:
- 我们绝不教demo日志进行pv、uv等的统计分析,我们使用的就是真实生产环境中的日志信息来进行真实场景的各种维度的统计分析,进而达到举一反三的作用
- 拒绝纯理论、拒绝念PPT,优化前后的效果以生产环境运行结果来说话,拒绝”理论优化”
- QQ技术交流群:707635769 课程咨询(星星):1952249535