渴望技術(shù)轉型
轉換行業(yè)的IT小白
有一定技術(shù)基礎
希望增長(cháng)經(jīng)驗
接觸更廣技術(shù)面
從事一定年限技術(shù)開(kāi)發(fā)
目標突破自我
學(xué)習大數據技術(shù)
突破職業(yè)瓶頸
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
能全面了解數據倉庫建模理論充分熟悉電商行業(yè)數據分析指標體系快速掌握多種大數據技術(shù)框架
數據分析建模理論數據清洗數據采集了解認識多種數據倉庫技術(shù)模塊
定時(shí)調度郵件報警可視化圖表數據質(zhì)量監控性能調優(yōu)集群運維
項目涵蓋40多個(gè)Shell腳本,5大類(lèi)用戶(hù)行為日志數據,34張業(yè)務(wù)數據原始表格,100多張電商大數據表格,100多個(gè)電商統計指標;
充分調研各大廠(chǎng)數倉建模體系,以阿里巴巴的數據倉庫建模理論為最終藍本,搭建實(shí)用且貼近生產(chǎn)實(shí)際的數倉建模體系;
應用建模理論,提出可實(shí)踐性強的數倉搭建理論過(guò)程,數據調研 → 明確數據域 → 構建業(yè)務(wù)總線(xiàn)矩陣 → 維度模型設計 → 明確統計指標 → 匯總模型設計 → 分層構建數倉;
多方參考大廠(chǎng)數倉分層體系,合理數據分層,降低數據耦合度,提高數據分析效率,降低數據計算成本;
基于五大主題指標,分析統計100余個(gè)指標,構建ADS層;
采用Flume采集用戶(hù)行為日志數據,適配組件廣泛調研,給出詳細貼近實(shí)戰的配置文件,自定義采集組件,解決時(shí)間戳零點(diǎn)漂移,優(yōu)化小文件存儲帶來(lái)問(wèn)題,提供更多實(shí)戰經(jīng)驗;
采用流行數據采集框架DataX采集業(yè)務(wù)數據,提供詳細配置文件及腳本解讀,掌握更多腳本編寫(xiě)技巧;
安裝部署受各大廠(chǎng)歡迎的DolphinScheduler工作流調度系統,實(shí)現數據倉庫搭建全流程定時(shí)自動(dòng)化調度以及故障自動(dòng)郵件告警;
基于業(yè)務(wù)總線(xiàn)矩陣構建數據倉庫DIM層,針對緩慢變化維度,構建拉鏈表;
基于指標體系分析構建DWS層,將相同粒度、統計周期的派生指標整合統計為寬表,提高計算結果復用性;
基于業(yè)務(wù)總線(xiàn)矩陣構建數據倉庫DWD層,完成事務(wù)型事實(shí)表、周期型事實(shí)表、累積快照事實(shí)表搭建和數據裝載;
真實(shí)數據ETL實(shí)操,掌握如何對原始數據進(jìn)行清洗、脫敏、數據分類(lèi)、整合;
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進(jìn)行多圖表、儀表盤(pán)可視化展示;
采用Echart,結合SpringBoot對結果數據進(jìn)行可視化展示,充分掌握數據展示接口編寫(xiě)流程;
基于企業(yè)級數據倉庫的海量數據計算業(yè)務(wù),對CPU配置、內存分配、任務(wù)提交、任務(wù)執行計劃等方面進(jìn)行廣泛性能調優(yōu);
分析總結項目搭建過(guò)程中遇到的問(wèn)題,增加開(kāi)發(fā)經(jīng)驗,提升實(shí)戰問(wèn)題解決能力;
采用Maxwell監控業(yè)務(wù)數據變動(dòng)情況,做到更實(shí)時(shí)更準確的變動(dòng)數據采集,靈活使用Maxwell框架,掌握使用技巧。