M 影E"VKçW"A陰 TÀI
4.2.3 T謂I D頴 LI烏U VÀO KHO D頴 LI烏U (LOAD DATA)
D逢噂c cu嘘i cùng trong quá trình ETL chính là t違i d英 li羽w"ucw"mjk"8«"dk院p"8鰻i vào vtqpi"Fcvcyctgjqwug."d逢噂e"p {"vw{"8挨p"ik違p"pj逢pi"rj違k"8違m b違o nhi隠u yêu c亥u k悦 thu壱v"mjƒe"pjcw"8嘘i v噂i b違ng S詠 th壱t và b違ng Chi隠w0"A嘘i v噂i b違ng S詠 th壱t ph違i h厩 tr嬰 ch泳e"p<pi"v違i d英 li羽u d衣pi"v<pi"vk院n, cịn v噂i b違ng Chi隠u thì ph違i 8違m b違o khái ni羽m v隠 Chi隠w"vjc{"8鰻i ch壱m (Slowly Change Dimension) d衣ng 1 và d衣ng 2.
4.2.3.1 T謂I D頴 LI烏U D萎PI"V;PI"VK蔭N (INCREMENTAL LOAD)
Vt逢運ng khố thay th院 (Surrogate Key) là m瓜v"mjqƒ"8逢嬰c sinh ra trong quá trình GVN."mjqƒ"p {"8逢嬰c xây d詠ng nh茨m m映e"8 ej"rj映c v映 cho vi羽e"8鵜nh danh m瓜t hàng d英 li羽u cĩ trong b違pi"8逢嬰c nhanh chĩng và chính xác. Vi羽c s穎 d映ng khố thay th院 là m瓜t vt逢運ng d英 li羽u d衣ng s嘘e pi"v<pi"jk羽u xu医t trong quá trình liên k院v"x "8丑c d英 li羽w0"A員c 8k吋m c栄a khố thay th院8„"n "mj»pi"e„"o嘘i quan h羽 nào v噂k"eƒe"mjqƒ"e„"vtqpi"e挨"u荏 d英 li羽u doanh nghi羽r"x "e pi"mj»pi"ocpi"o瓜v"#"pij c"fqcpj"pijk羽p nàọ
T違i d英 li羽u d衣pi"v<pi"vk院p"8逢嬰c áp d映ng cho b違ng S詠 th壱t b茨ng cách áp d映ng các khố thay th院pj逢"o瓜t khố chính trong b違ng S詠 th壱v."pj逢"ej¿pi"vc"8«"dk院t b違ng S詠 th壱t khơng th壱t s詠 t欝n t衣i khố chính mà khố chính c栄a b違ng S詠 th壱t cĩ th吋8逢嬰c t衣o ra b茨ng cách t鰻ng h嬰p tồn b瓜 các khố ngo衣k"8院n các b違ng Chi隠u cùng v噂i các khố Degenerate Dimension. Khố thay th院 s胤8逢嬰c t衣q"tc"ocpi"v pj"v<pi"f亥n b茨ng cách k院t h嬰p các khố t鰻ng h嬰r"8«"p‒w"vt‒p0
D英 li羽u sau khi tr違i qua quá trình bi院p"8鰻i s胤 8逢嬰e"n逢w"vt英 t衣i b違ng t衣m (Stage Table). B違ng t衣o"p {"8«"dcq"i欝m khố thay th院, tuy nhiên khố thay th院 trong b違ng t衣m 8逢嬰c sao chép t瑛 khố thay th院 cĩ trong b違pi"8 ej"x噂k"8k隠u ki羽n ràng bu瓜c là các khố t鰻ng h嬰p. N院w"8k隠u ki羽n ràng bu瓜e"p {"8逢嬰c tìm th医y trong b違pi"8 ej"vj·"mjqƒ"u胤8逢嬰c gán vào cho b違ng t衣m. Ttqpi"vt逢運ng h嬰r"pi逢嬰c l衣i khơng tìm th医y khố th医y th院 trong b違pi"8 ej"vj·"j pi"f英 li羽u trong b違ng t衣m này là hàng d英 li羽u m噂i hồn tồn và s胤 th詠c hi羽n thêm m噂i vào b違pi"8 ej0
4.2.3.2 T謂I D頴 LI烏U CHO SCD TYPE 1 VÀ SCD TYPE 2
T違i d英 li羽u cho SCD lo衣i 1 và SCD lo衣k"4"8逢嬰c áp d映ng cho các b違ng Chi隠u, m丑i vt逢運ng trong b違ng chi隠w"8隠u cĩ lo衣i SCD riêng, m員e"8鵜pj"mjk"pi逢運i dùng khơng khai báo SCD s胤8逢嬰c gán là thu瓜c lo衣k"30"A員c bi羽v"8嘘i v噂i SCD lo衣i 2, bên c衣pj"eƒe"vt逢運ng fq"pi逢運i dùng khai báo thì s胤 xu医t hi羽p"vj‒o"eƒe"vt逢運ng khác bao g欝m: "RowStartDate" , "RowEndDate", "RowIsCurrent" và "RowChangeReason" nh茨o"zƒe"8鵜nh ngu欝n d英 li羽u nào là m噂i nh医t. C違 2 lo衣k"UEF"8隠u s胤8逢嬰c t衣o thêm m瓜v"vt逢運ng riêng bi羽t khác cĩ tên "hash_scd1" và "hash_scd2" nh茨m ph映c v映 cho quá trình t違i d英 li羽ụ
77
T違i d英 li羽u cho SCD lo衣i 1 và SCD lo衣k"4."8逢嬰c th詠c hi羽n b茨ng cách s穎 d映ng chia l噂p c壱p nh壱t. C映 th吋 trong m瓜t l亥n t違i, d英 li羽u s胤 xu医t hi羽p"vt逢運ng h嬰p m瓜t khố chính 8逢嬰e"vjc{"8鰻i nhi隠u l亥p"pj逢pi"vc"ej雨 c亥n m瓜t phiên b違n khố chính m噂i nh医t, các khố cịn l衣k"8逢嬰e"zgo"pj逢"n "f英 li羽u l鵜ch s穎. Kjk"8„"vc"u胤 chia l噂r"8嘘i v噂i các d英 li羽u thu瓜c d衣ng này b茨ng cách t違i các d英 li羽w"e "pj医v"vt逢噂c. V噂i d英 li羽u m噂i s胤8逢嬰c t違i sau cùng nh茨o"8違m b違q"e„"8逢嬰c ngu欝n d英 li羽u chính xác. Vi羽e"uq"uƒpj"8吋 nh壱n di羽n cĩ s詠 thay 8鰻i x違y ra gi英a d英 li羽u chu育n b鵜8逢嬰c t違i lên và d英 li羽w"8«"e„"vtqpi"Datawarehouse 8逢嬰c th詠c hi羽n nh運 s詠 k院t h嬰p gi英c"o«"d<o"*Jcuj+"x "e¤w"n羽nh Merge SQL; o«"d<o"8逢嬰c f́pi"8吋 so sánh gi英a 2 ngu欝n d英 li羽u; s詠 mjƒe"pjcw"8„"u胤 8逢嬰c truy隠n cho câu l羽nh Merge SQL và ti院n hành c壱p nh壱t ho員c thêm m噂i d英 li羽u vào Datawarehousẹ
4.2.4 E愛"EJ蔭A卯NH TH云I
E挨"ej院8鵜nh th運i cĩ tác d映ng t詠 8瓜ng hố quá trình ETL và khơng c亥n s詠 can thi羽p c栄c"eqp"pi逢運ị Nhĩm tác gi違 s穎 d映ng ph亥n m隠m mã ngu欝n m荏 là Apache Airflow, m瓜t b瓜 8鵜nh th運i m衣nh m胤 và ph鰻 bi院n trong vi羽c thi院t l壱p th詠c thi các tác v映 nhanh chĩng và ti羽n l嬰ị
A嘘k"v逢嬰pi"8鵜nh th運i s胤 là các Fact Model (H·nh 39) 8逢嬰c t衣o ra b荏k"pi逢運i dùng. V噂i m丑k"Hcev"Oqfgn"8逢嬰c t衣q"tc."pi逢運i dùng thi院t l壱p các thu瓜c tính c栄a b瓜 8鵜nh th運i bao g欝m: Th運i gian th詠c thi, khung gi運 th詠c thi, b壱t ho員c t逸t b瓜8鵜nh th運i cho Fact Model, È". Piq k"tc"pi逢運i dùng cĩ th吋 th詠c hi羽n th栄 cơng vi羽c kích ho衣t b瓜 8鵜nh th運i ch衣y ngay l壱p t泳c t瑛 giao di羽n chính c栄a h羽 th嘘ng.
Ngồi giao di羽n chính c栄a h羽 th嘘ng, b違p"vj¤p"Crcejg"Ckthnqy"e pi"v ej"j嬰p m瓜t giao di羽p"pi逢運k"f́pi"8挨p"ik違n, ng逢運i qu違n lý cĩ th吋 tr詠c ti院p truy c壱p và quan sát các tác v映8逢嬰c th詠c thị
78
CƠNG C影 PHÂN TÍCH D頴 LI烏U