摘要:隨著數據倉庫的規模不斷擴大,數據集成下的ETL(Extraction-Transformation-Loading)任務也隨之增多,單機調度顯然已經不能滿足當下繁多復雜的ETL任務調度。針對ETL任務調度如何提高效率、縮短關鍵任務等待時間、提升資源利用率等問題,構建了一套分布式ETL任務調度框架,該框架由調度器和若干執行器組成,通過任務預處理、任務調度分配、任務執行3個階段來完成ETL任務調度。在任務預處理階段,對ETL任務建立權重模型,并根據權重確定調度優先級。在任務調度分配階段,調度器根據各個執行器節點的性能及負載情況來約束執行器節點的選擇,并設計貪心平衡(Greedy Balance,GB)算法來進行ETL任務執行請求的分發,使執行器節點的負載相對均衡。在任務執行階段,通過高響應比優先(Highest Response Ratio Next,HRRN)算法確定執行器節點隊列下任務的執行優先級。實驗結果表明,分布式ETL任務調度框架及相應的一體化調度執行(Integrated Scheduling Execution,ISE)算法能夠有效提高集群資源的利用率,縮短任務調度的執行時間。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機科學雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:網絡與通信、信息安全、軟件與數據庫技術、人工智能、圖形圖像與模式識別等。于1974年經新聞總署批準的正規刊物。