IT小白向大數據領(lǐng)域邁進(jìn)
掌握實(shí)用技能
增長(cháng)經(jīng)驗
搭建完善的項目
接觸廣泛技術(shù)面
學(xué)習前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
熟練使用Hudi
充分掌握數據湖概念與構建流程
熟練應用數倉建模理論
熟練掌握Hudi與其他大數據框架的集成
采用當前大廠(chǎng)非常流行的Hudi和Flink框架,實(shí)現湖倉一體架構;
多方參考大廠(chǎng)數倉分層體系,合理數據分層,降低數據耦合度,提高數據分析效率,降低數據計算成本。
采用Flink CDC監控業(yè)務(wù)數據變動(dòng)情況,做到更實(shí)時(shí)更準確的變動(dòng)數據采集。
采用Flume采集用戶(hù)行為日志數據,適配組件全面調研,給出詳細貼近實(shí)戰的配置文件,自定義采集組件,解決時(shí)間戳零點(diǎn)漂移,優(yōu)化小文件存儲帶來(lái)問(wèn)題,提供更多實(shí)戰經(jīng)驗;
真實(shí)數據ETL實(shí)操,掌握如何對原始數據進(jìn)行清洗、脫敏、數據分類(lèi)、整合;
使用Hudi集成Hive、Flink,FlinkSQL完成分層計算,HiveCatalog管理元數據;
ODS層、DWD層、DIM層、DWS層和ADS層之間采用Flink流式處理,省去了離線(xiàn)數倉中的調度環(huán)節,真正做到湖倉一體。
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進(jìn)行多圖表、儀表盤(pán)可視化展示;
分析總結項目搭建過(guò)程中遇到的問(wèn)題,增加開(kāi)發(fā)經(jīng)驗,提升實(shí)戰問(wèn)題解決能力。