IT小白向大數據領(lǐng)域邁進(jìn)
掌握實(shí)用技能
增長(cháng)經(jīng)驗
搭建完善的項目
接觸廣泛技術(shù)面
學(xué)習前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
全面了解新能源車(chē)企的數據分析流程
充分熟悉汽車(chē)傳感器分析的離線(xiàn)指標體系
熟練掌握數據倉庫技術(shù)框架的協(xié)同應用
熟練應用數倉建模理論
項目包含數十個(gè) Shell 腳本、多個(gè)傳感器日志數據和數十個(gè)統計指標。
深入研究各大企業(yè)的數據倉庫建模體系,并以阿里巴巴的數據倉庫建模理論作為基準,構建實(shí)用、貼近實(shí)際生產(chǎn)且具有廣泛應用性的數據倉庫建模體系。
根據建模理論,提出強實(shí)踐性的數據倉庫搭建理論過(guò)程,包括數據調研、明確數據域、構建業(yè)務(wù)總線(xiàn)矩陣、維度模型設計、明確統計指標、匯總模型設計和分層構建數據倉庫。
參考大型企業(yè)的數據倉庫分層體系,合理劃分數據層次,降低數據耦合度,提高數據分析效率并降低數據計算成本。
采用實(shí)戰式數據模擬策略,生成全面的原始數據,并針對實(shí)際數據進(jìn)行數據采集。
使用 Flume 收集傳感器日志數據,深入研究適配組件,提供詳細的實(shí)戰配置文件,自定義采集組件,解決時(shí)間戳漂移和優(yōu)化小文件存儲問(wèn)題,分享更多實(shí)戰經(jīng)驗。
采用當前流行的數據采集框架 DataX 收集業(yè)務(wù)數據,提供詳細的配置文件和腳本解讀,掌握更多腳本編寫(xiě)技巧。
真實(shí)數據ETL實(shí)踐,學(xué)會(huì )對原始數據進(jìn)行清洗、脫敏、數據分類(lèi)和整合。
基于業(yè)務(wù)總線(xiàn)矩陣,構建數據倉庫的DWD層,完成事務(wù)型事實(shí)表、周期型事實(shí)表和累積快照事實(shí)表的搭建與數據裝載。
通過(guò)Hive窗口的靈活運用從日志數據中提取關(guān)鍵業(yè)務(wù)過(guò)程,構建相應的事實(shí)表,為下游分析做準備。
為連續型度量構建相應的周期快照事實(shí)表,為下游統計提供便利。
根據業(yè)務(wù)總線(xiàn)矩陣,構建數據倉庫的 DIM 層,并針對緩慢變化維度構建拉鏈表。
依據指標體系分析,構建 DWS 層,整合相同粒度、統計周期的派生指標為寬表,提高計算結果復用性。
基于多個(gè)主題的指標,分析統計數十個(gè)指標,構建 ADS 層。
安裝部署業(yè)內主流的工作流調度系統 DolphinScheduler,實(shí)現數據倉庫搭建全流程定時(shí)自動(dòng)化調度及故障自動(dòng)郵件告警。
使用 SuperSet 對調度采集至 RDBMS 數據庫中的結果數據進(jìn)行多圖表、儀表盤(pán)可視化展示。
采用 Echarts 結合 SpringBoot 對結果數據進(jìn)行可視化展示,充分掌握數據展示接口編寫(xiě)流程。
針對企業(yè)級數據倉庫的海量數據計算業(yè)務(wù),基于對任務(wù)執行計劃等的分析全面優(yōu)化 CPU 配置、內存分配等,提升任務(wù)提交性能。