在線(xiàn)教育

本在線(xiàn)教育項目是基于知名在線(xiàn)教育互聯(lián)網(wǎng)企業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景，引入海量的真實(shí)點(diǎn)擊數據和業(yè)務(wù)數據，緊跟大數據的主流技術(shù)需求，搭建了一整套完整的離線(xiàn)數據倉庫和實(shí)時(shí)數據倉庫。通過(guò)本項目的學(xué)習，帶你從0到1開(kāi)始學(xué)習在線(xiàn)教育領(lǐng)域如何搭建全面完整的大數據分析體系。
項目覆蓋廣泛的大數據技術(shù)體系，Hadoop、Spark、DataX、Maxwell、Flume、Kafka、Flink等，通過(guò)本項目的學(xué)習，學(xué)員可以充分了解眾多的大數據技術(shù)框架是如何協(xié)調工作的。本項目具有豐富多樣的大數據功能模塊，可供離線(xiàn)數據倉庫和實(shí)時(shí)數據倉庫共同使用的數據采集系統、完整的真實(shí)企業(yè)級數據模擬體系、離線(xiàn)指標分析體系和實(shí)時(shí)指標分析體系，全程融入AI輔助功能開(kāi)發(fā)，掌握AI使用技巧，提升學(xué)員開(kāi)發(fā)效率。項目功能設置完善，還原真實(shí)企業(yè)開(kāi)發(fā)場(chǎng)景，緊跟企業(yè)前沿新技術(shù)，AI課程內容的加入提升學(xué)員技術(shù)感知力。

技術(shù)點(diǎn)

一、離線(xiàn)數倉

項目涵蓋40多個(gè)Shell腳本，6大類(lèi)用戶(hù)行為日志數據，25張業(yè)務(wù)數據原始表格，100多張在線(xiàn)教育大數據表格，100多個(gè)在線(xiàn)教育統計指標；
充分調研各大廠(chǎng)數倉建模體系，以阿里巴巴的數據倉庫建模理論為最終藍本，搭建實(shí)用且貼近生產(chǎn)實(shí)際的數倉建模體系；
應用建模理論，提出可實(shí)踐性強的數倉搭建理論過(guò)程，數據調研→明確數據域→構建業(yè)務(wù)總線(xiàn)矩陣→維度模型設計→明確統計指標→匯總模型設計→分層構建數倉；
多方參考大廠(chǎng)數倉分層體系，合理數據分層，降低數據耦合度，提高數據分析效率，降低數據計算成本。
實(shí)戰式數據模擬策略，模擬生成全面的原始數據，針對真實(shí)數據執行數據采集工作；
采用Flume采集用戶(hù)行為日志數據，適配組件全面調研，給出詳細貼近實(shí)戰的配置文件，自定義采集組件，解決時(shí)間戳零點(diǎn)漂移，優(yōu)化小文件存儲帶來(lái)問(wèn)題，提供更多實(shí)戰經(jīng)驗；
采用流行數據采集框架DataX采集業(yè)務(wù)數據，提供詳細配置文件及腳本解讀，掌握更多腳本編寫(xiě)技巧；
采用Maxwell監控業(yè)務(wù)數據變動(dòng)情況，做到更實(shí)時(shí)更準確的變動(dòng)數據采集，靈活使用Maxwell框架，全面掌握使用技巧；

真實(shí)數據ETL實(shí)操，掌握如何對原始數據進(jìn)行清洗、脫敏、數據分類(lèi)、整合；
基于業(yè)務(wù)總線(xiàn)矩陣構建數據倉庫DWD層，完成事務(wù)型事實(shí)表、周期型事實(shí)表、累積快照事實(shí)表搭建和數據裝載；
基于業(yè)務(wù)總線(xiàn)矩陣構建數據倉庫DIM層，針對緩慢變化維度，構建拉鏈表；
基于指標體系分析構建DWS層，將相同粒度、統計周期的派生指標整合統計為寬表，提高計算結果復用性；
安裝部署受各大廠(chǎng)歡迎的DolphinScheduler工作流調度系統，實(shí)現數據倉庫搭建全流程定時(shí)自動(dòng)化調度以及故障自動(dòng)郵件告警；
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進(jìn)行多圖表、儀表盤(pán)可視化展示；
采用Echarts，結合SpringBoot對結果數據進(jìn)行可視化展示，充分掌握數據展示接口編寫(xiě)流程；
基于企業(yè)級數據倉庫的海量數據計算業(yè)務(wù)，對CPU配置、內存分配、任務(wù)提交、任務(wù)執行計劃等方面進(jìn)行全面的性能調優(yōu)；

二、實(shí)時(shí)數倉

項目涵蓋幾十個(gè)Flink實(shí)時(shí)計算任務(wù)、幾十個(gè)實(shí)時(shí)計算指標、上萬(wàn)行實(shí)時(shí)開(kāi)發(fā)代碼。
參照大廠(chǎng)實(shí)際數倉建模理論，分層構建實(shí)時(shí)數據倉庫，ODS層、DIM層、DWD層、DWS層、ADS層，分層計算，數據分流，提高效率，降低耦合度；
使用HBase+Phoenix的組合存儲DIM層維度數據，大大提高響應速度；
使用Flink CDC結合MySQL動(dòng)態(tài)配置表，動(dòng)態(tài)獲取維度表配置，實(shí)現數據動(dòng)態(tài)自動(dòng)分流；
采用Redis進(jìn)行旁路緩存，提高響應速度，并使用Flink提供的異步IO進(jìn)行優(yōu)化；
提供針對多種場(chǎng)景的雙流Join解決方案，深入分析各種解決方案的優(yōu)劣，培養問(wèn)題解決能力；
靈活運用Flink的狀態(tài)編程實(shí)現數據去重，計算去重類(lèi)指標；

對所有指標計算需求提供基于Table API和Flink SQL的兩種解決方案，滿(mǎn)足不同企業(yè)開(kāi)發(fā)需求，培養多角度開(kāi)發(fā)能力；
使用FlinkCEP技術(shù)實(shí)現不同用戶(hù)行為模式的識別，完成用戶(hù)跳出行為的篩選；
采用Doris存儲最終寬表數據，大大提高數據查詢(xún)效率，并為用戶(hù)提供即席查詢(xún)、可視化報表展示的多樣可能性；
采用SpringBoot編寫(xiě)數據展示接口對接SugarBI實(shí)現數據可視化大屏展示，熟練掌握數據展示接口的編寫(xiě)流程
詳細講解生產(chǎn)環(huán)境中會(huì )產(chǎn)生的反壓?jiǎn)?wèn)題，對反壓原因、反壓定位、反壓處理進(jìn)行詳細分解；
多角度分析大數據分析中常見(jiàn)的數據傾斜問(wèn)題，提供詳盡的問(wèn)題定位策略和多種解決方案；
? 詳細講解生產(chǎn)環(huán)境中常見(jiàn)的故障：非法配置異常、Java 堆空間異常、直接緩沖存儲器異常、元空間異常、網(wǎng)絡(luò )緩沖區數量不足、超出容器內存異常、Checkpoint 失敗、Checkpoint 慢、Kafka動(dòng)態(tài)發(fā)現分區、Watermark不更新、依賴(lài)沖突、超出文件描述符限制、臟數據導致數據轉發(fā)失敗等，令學(xué)員在短時(shí)間內掌握生產(chǎn)環(huán)境中常見(jiàn)到、難解決的開(kāi)發(fā)難題，迅速增長(cháng)經(jīng)驗，提升能力。

欧美视频一区二区三区,免费精品国产福利片,亚洲国产欧美日韩一区二区,337p欧洲亚大胆精品

在線(xiàn)教育

小白人群

高校畢業(yè)生

IT從業(yè)者

要求課程基礎

一、離線(xiàn)數倉

二、實(shí)時(shí)數倉