IT小白向大數據領(lǐng)域邁進(jìn)
掌握實(shí)用技能
增長(cháng)經(jīng)驗
搭建完善的項目
接觸廣泛技術(shù)面
學(xué)習前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
全面了解在線(xiàn)聽(tīng)書(shū)行業(yè)運營(yíng)流程
充分熟悉在線(xiàn)聽(tīng)書(shū)行業(yè)離線(xiàn)指標體系
充分熟悉在線(xiàn)聽(tīng)書(shū)行業(yè)實(shí)時(shí)指標體系
熟悉掌握數據倉庫技術(shù)框架的協(xié)調應用
熟練應用數倉建模理論
數據建模理論數據采集策略數據清洗思路
離線(xiàn)數據分析經(jīng)驗實(shí)時(shí)數據分析經(jīng)驗定時(shí)調度任務(wù)部署集群運維性能優(yōu)化數據可視化接口編寫(xiě)
調研各大廠(chǎng)數倉建模體系,以阿里巴巴的數據倉庫建模理論為藍本,搭建實(shí)用有效的數倉建模體系;
應用建模理論,提出可實(shí)踐性強的數倉建模流程,數據調研→明確數據域→構建業(yè)務(wù)總線(xiàn)矩陣→維度模型設計→明確統計指標→匯總模型設計→分層構建數倉;
合理數倉分層,降低數據耦合度,提高數據分析效率,降低數據計算成本。
實(shí)戰式數據模擬策略,模擬生成全面的原始數據,針對真實(shí)數據執行數據采集工作;
采用Flume采集用戶(hù)行為日志數據,調研組件選型,給出詳細貼近實(shí)戰的配置文件,自定義采集組件,解決時(shí)間戳零點(diǎn)漂移,優(yōu)化小文件存儲帶來(lái)問(wèn)題,提供更多實(shí)戰經(jīng)驗;
采用流行數據采集框架DataX采集業(yè)務(wù)數據,提供詳細配置文件及腳本解讀,掌握更多腳本編寫(xiě)技巧;
采用Maxwell監控業(yè)務(wù)數據變動(dòng)情況,做到更實(shí)時(shí)更準確的變動(dòng)數據采集;
真實(shí)數據ETL實(shí)操,掌握如何對原始數據進(jìn)行清洗、脫敏、數據分類(lèi)、整合;
基于業(yè)務(wù)總線(xiàn)矩陣構建數據倉庫DWD層,完成事務(wù)型事實(shí)表、周期型事實(shí)表、累積快照事實(shí)表搭建和數據裝載;
基于業(yè)務(wù)總線(xiàn)矩陣構建數據倉庫DIM層,針對緩慢變化維度,構建拉鏈表;
基于指標體系分析構建DWS層,將相同粒度、統計周期的派生指標整合統計為寬表,提高計算結果復用性;
安裝部署受各大廠(chǎng)歡迎的DolphinScheduler工作流調度系統,實(shí)現數據倉庫搭建全流程定時(shí)自動(dòng)化調度以及故障自動(dòng)郵件告警;
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進(jìn)行多圖表、儀表盤(pán)可視化展示;
采用Echarts,結合SpringBoot對結果數據進(jìn)行可視化展示,充分掌握數據展示接口編寫(xiě)流程;
基于企業(yè)級數據倉庫的海量數據計算業(yè)務(wù),對整體項目進(jìn)行性能調優(yōu),掌握全面可實(shí)踐的性能調優(yōu)技巧。
項目包含數十個(gè) Flink 實(shí)時(shí)計算任務(wù)、幾十個(gè)實(shí)時(shí)計算指標和數萬(wàn)行實(shí)時(shí)開(kāi)發(fā)代碼。
遵循行內大廠(chǎng)的數據倉庫建模理論,實(shí)時(shí)數據倉庫分為 ODS 層、DIM 層、DWD 層、DWS 層和 ADS 層,實(shí)現分層計算和數據分流,從而提高效率并降低耦合度。
利用 HBase 和 Phoenix 組合存儲 DIM 層的維度數據,顯著(zhù)提升響應速度。
通過(guò) Flink CDC 和 MySQL 動(dòng)態(tài)配置表,實(shí)現維度表配置的動(dòng)態(tài)獲取和數據自動(dòng)分流。
采用 Redis 實(shí)現旁路緩存,提高響應速度,同時(shí)使用 Flink 提供的異步 IO 進(jìn)行優(yōu)化。
提供適用于多種場(chǎng)景的雙流 Join 解決方案,深入分析各種解決方案的優(yōu)缺點(diǎn),培養解決問(wèn)題的能力。
靈活運用狀態(tài)編程、FlinkCEP、窗口函數、自定義處理函數等Flink技術(shù)點(diǎn)解決復雜需求。
為所有需求提供 Flink 的 Table API 和 Flink SQL 兩種解決方案,滿(mǎn)足不同企業(yè)的開(kāi)發(fā)需求,培養多角度開(kāi)發(fā)能力。
使用 FlinkCEP 技術(shù)識別不同用戶(hù)行為模式,分析用戶(hù)跳出行為。
采用 ClickHouse 存儲最終寬表數據,顯著(zhù)提高數據查詢(xún)效率,并為用戶(hù)提供即席查詢(xún)和可視化報表展示的多種可能性。
利用 SpringBoot 編寫(xiě)數據展示接口與 Sugar 對接,實(shí)現數據可視化大屏展示,并熟練掌握數據展示接口編寫(xiě)流程。
針對企業(yè)級海量數據分析任務(wù),詳細講解分析生產(chǎn)環(huán)境中可能遇到的反壓?jiǎn)?wèn)題、數據傾斜問(wèn)題、檢查點(diǎn)配置關(guān)鍵點(diǎn)、狀態(tài)調優(yōu)、鏈路延遲監控等多種性能調優(yōu)問(wèn)題。