M 影E"VKçW"A陰 TÀI
3.8.4 CƠNG C影 TR衛C QUAN HỐ D頴 LI烏U
A吋 h厩 tr嬰 quá trình phân tích d英 li羽u, sau quá trình ETL, các b違ng khung nhìn (Views) s胤8逢嬰c t衣q"tc"v逢挨pi"泳ng v噂i các Fact Model. B茨ng vi羽c xây d詠ng m瓜t h羽 th嘘ng OLAP n茨m 荏 v鵜 trí gi英a kho d英 li羽u và API c栄a h羽 th嘘ng, giúp cho h羽 th嘘ng cĩ th吋 d宇 dàng tùy bi院n và phù h嬰p v噂i nhi隠u ki吋u d英 li羽u khác nhaụ
D英 li羽w"8亥u vào c栄a h羽 th嘘ng OLAP là các khung nhìn và b違ng d英 li羽u trên kho d英 li羽ụ H羽 th嘘ng cĩ th吋 h厩 tr嬰 phân tích d英 li羽u theo nhi隠u chi隠u khác nhau, bao g欝m phân tích d英 li羽u theo chi隠u r瓜ng và chi隠u sâụ
H羽 th嘘ng OLAP th泳 c医p khơng ch雨 8„pi"xck"vt”"swcp"vt丑ng trong quá trình phân tích d英 li羽u mà nĩ cịn gĩp ph亥n t衣o m瓜t l噂p b瓜 nh噂8羽m cho kho d英 li羽u."ik¿r"v<pi"v嘘c quá trình truy v医n d英 li羽u và b違o v羽 kho d英 li羽u kh臼i các truy v医n trùng, l員p l衣ị
Các mk吋w"f英"nk羽w"8逢嬰e"j羽"vj嘘pi"DK"j厩"vt嬰"i欝o"e„<
‚ Number: ki吋u s嘘
‚ Time: ki吋u th運i gian
‚ String: ki吋u chu厩i
‚ Boolean: ki吋u lu壱n lý
64
Eƒe"rj逢挨pi"vj泳c t鰻ng h嬰r"ejq"eƒe"vt逢運ng d英 li羽w"8逢嬰c h厩 tr嬰 g欝m cĩ:
‚ Sum: tính t鰻ng
‚ Count<"8院m
‚ Count Distinct<"8院m phân bi羽t.
‚ Min: tìm ph亥n t穎 nh臼 nh医t
‚ Max: tìm ph亥n t穎 l噂n nh医t
‚ Average: tính trung bình
A域Y M萎NH KH謂P;PI"U渦 LI烏U HỐ VÀ THU TH一P THƠNG TIN
雲 ph亥n này, nhĩm tác gi違 s胤 8隠 c壱r"8院n m瓜t ph亥n trong s嘘 eƒe"mj„"mj<p"o "eƒe" cơng ty g員p ph違i trong quá trình th詠c hi羽n chuy吋p"8鰻i và s嘘 hố d英 li羽u, t瑛8„"pj„o"u胤 8隠 ra gi違i pháp gĩp ph亥n gi違i quy院t m瓜t ph亥p"eƒe"mj„"mj<p và giúp cơng ty cĩ th吋 8育y nhanh và m衣nh trong quá trình chuy吋p"8鰻i c栄a cơng tỵ
3.9.1MJï"MJ;P"E曳A DOANH NGHI烏P TRONG QUÁ TRÌNH S渦 HỐ
3.9.1.1EJK"RJë"A井W"V姶 CAO
V隠e挨"d違n, s嘘 hố là quá trình chuy吋n 8鰻i tài li羽u t瑛 d衣ng gi医y truy隠n vj逢運ng sang d衣ng tài li羽u s嘘n逢w"vt英vt‒p"oƒ{"v pj0"Swƒ"vt·pj"p {"8”i h臼i ph違i cĩ m瓜v"e挨"u荏 h衣 t亥ng v隠 oƒ{"o„e"pj逢"oƒ{"v pj."oƒ{"kp."oƒ{"Secp.È"x "eqp"pi逢運i cĩ ki院n th泳c chuyên mơn cĩ kh違p<pi"x壱n hành và qu違n lý h羽 th嘘ng. Chi phí mà doanh nghi羽p ph違i b臼 ra nh茨m b逸t 8亥u chuy吋p"8鰻i s嘘 là khơng h隠 nh臼, trên th詠c t院, các d詠 án chuy吋p"8鰻i s嘘 m噂i ch雨 8逢嬰c lên k院 ho衣ch t噂k"d逢噂c th泳 hai là s嘘 hố là doanh nghi羽r"8«"e衣n ki羽t chi phí và c違m th医y Ð8w嘘i s泳eĐ0 [25]
3.9.1.2 TÍCH H営P D頴 LI烏W"E "XÉQ"H烏 TH蔚NG D頴 LI烏U M閏I
A嘘i v噂i các nhà kinh doanh nh臼, vi羽c nh壱r"jqƒ"8挨p"e "x q"j羽 th嘘pi"mj»pi"8ƒpi" b壱n tâm, do s嘘n逢嬰pi" v"x "eqp"pi逢運i cĩ th吋 th詠c hi羽p"8逢嬰c b茨ng taỵ Tuy nhiên v噂i các doanh nghi羽p ho衣v"8瓜pi"n¤w"8運i, các thơng tin d英 li羽w"pj逢"jqƒ"8挨p."ej泳ng t瑛, b違n sao m‒È nhi隠u vơ s嘘, cĩ th吋n‒p"8院n hàng Terabyte ho員e"Rgvcd{vg"fwpi"n逢嬰ng máy tính, vì v壱y 8吋 các doanh nghi羽p v瑛a và l噂n này áp d映ng s嘘 hố cho nh英ng d英 li羽u l鵜ch s穎 là vơ épi"mj„"mj<p0"O瓜t s嘘 tr荏 ng衣k"mjƒe"pj逢"xk羽c m医t mát, ch英 vi院t b鵜 nhoè 8嘘i v噂i các t運 gi医y, hqƒ"8挨p"e ho員c quy trình doanh nghi羽r"8«"vjc{"8鰻i nhi隠u l亥n trong quá kh泳, vì v壱y m瓜t ph亥n d英 li羽w"8«"mj»pi"e”p"rj́"j嬰p v噂i hi羽n t衣ị
C亥n cĩ m瓜t gi違i pháp giúp t詠8瓜ng, gi違m thi吋u gánh n員pi"ejq"eqp"pi逢運i trong quá trình chuy吋p"8鰻k"n逢w"vt英 sang h羽 th嘘ng máy v pj."e pi"pj逢"ik違m thi吋u th運i gian cho quá trình s嘘jqƒ"pj逢pi"x磯p"8違m báo s穎8¿pi"8逸n d英 li羽ụ
3.9.1.3 B謂O M一T D頴 LI烏U
Gi運 8¤{."eƒe"vj»pi"vkp"f英 li羽w"8«"jq p"vq p"8逢嬰e"n逢w"vt英 trên h羽 th嘘ng máy tính, doanh nghi羽r"8嘘i m員t v噂i m瓜v"mj„"mj<p"n噂p"j挨p"n "d違o m壱t các vj»pi"vkp"8„"mj臼i s詠 truy
65
c壱p, sao chép ho員e"vjc{"8鰻i trái phép. Tuy cĩ th吋8亥w"v逢"x q"j羽 th嘘ng an ninh m衣pi"pj逢pi" l厩k"fq"eqp"pi逢運i gây ra r医t là khĩ tránh kh臼ị
A吋 h衣n ch院 kh違 p<pi"i¤{"tc"vj医t thốt, doanh nghi羽p cĩ th吋 áp d映pi"eƒe"e挨"ej院 phân c医p d英 li羽u 荏 nhi隠u m泳c truy c壱r"mjƒe"pjcw."8違m b違q"eƒe"vj»pi"vkp"e挨"o壱t khơng th吋 truy c壱p m瓜t cách d宇 dàng b荏i nhân viên.
3.9.1.4 L衛A CH窺N CƠNG NGH烏."A渦I TÁC PHÙ H営P
Vtqpi"o»k"vt逢運pi"8k羽p"vqƒp"8ƒo"o¤{"pi {"e pi"rjƒv"vtk吋p."e pi"pj逢"x»"u嘘 các cơng ty h厩 tr嬰 chuy吋p"8鰻i s嘘pj逢"jk羽n nay, trong vơ vàn l詠a ch丑p"8„."ej丑n ra m瓜t cơng ngh羽."8嘘i tác phú h嬰p cho doanh nghi羽p là m瓜t quy院v"8鵜nh h院t s泳e"mj„"mj<p"x "ocpi" trách nhi羽m l噂n lao 違pj"j逢荏pi"8院n th運i gian, ti隠n b衣c c栄a doanh nghi羽p trong nh英pi"p<o" t噂ị Vì v壱y mà nhi隠u doanh nghi羽p v磯p"8cpi"ej瑛ng ch瑛 trong vi羽c áp d映ng chuy吋p"8鰻i s嘘 c栄a mình.
3.9.2RJ姶愛PI"RJèR"U渦 HỒ D頴 LI烏U B稲NG CƠNG NGH烏 OCR
Nh茨m giúp cho doanh nghi羽p cĩ th吋 8育y m衣nh kh違 p<pi"u嘘 hố và thu th壱p d英 li羽u, nhĩm tác gi違8隠 xu医v"rj逢挨pi"rjƒr"u嘘 hố áp d映ng cơng ngh羽 OCR(Optical Character Recognition) nh茨m gi違i quy院v"mj„"mj<p"vtqpi"swƒ"vt·pj"ejw{吋p"8鰻i các d英 li羽u trên các jqƒ"8挨p"dƒp"j pi"vj pj"f英 li羽w"n逢w"vt英 trên máy tính.
N院w"pj逢"vt逢噂e"8¤{"eƒe"fqcpj"pijk羽p xu医v"jqƒ"8挨p"dƒp"j pi"v瑛 các máy thanh tốn là nh英ng t運 gi医y, ho員c dùng ch英 vi院v"vc{"8吋 xu医v"jqƒ"8挨p"pj壱p/xu医t kho, doanh nghi羽p s胤 c亥n tuy吋n các nhân viên nh壱p li羽u l衣i tồn b瓜eƒe"jqƒ"8挨p"x "ej泳ng t瑛.
Quá trình s嘘 li羽u jqƒ"*Fkikvk¦cvkqp+"ejq"jqƒ"8挨p"dƒp"j pi"e„"vj吋8逢嬰c t詠8瓜ng hố, nhanh chĩng trong vi羽c nh壱p li羽u b茨ng cách áp d映ng cơng ngh羽QET."8丑c d英 li羽u t瑛 các hình 違pj."x<p"d違n PDF ho員c máy Scan và trích xu医t thơng tin, n逢w"vt英x q"e挨"u荏 d英 li羽ụ Quá trình này bao g欝o"7"d逢噂c chính pj逢"H·nh 38:
H·nh 38<""QET"Rkrgnkpg"e¬"dVn [19]
1. Ti院n x穎 lý 違nh: A亥u vào c栄c"swƒ"vt·pj"QET"vj逢運ng s胤 là các b泳c 違nh cĩ ch医v"n逢嬰ng mj»pi"8逢嬰c t嘘t, ch鰯ng h衣p"pj逢"oƒ{"違pj"e„"8瓜 phân gi違i th医r."m ej"vj逢噂c m厩i t医m 違nh
66
khác nhau, cĩ nhi宇u trong 違pj."È"x·"x壱y c亥n cĩ m瓜v"d逢噂c ti隠n x穎 lý giúp 違nh cĩ th吋 8逢嬰e"8丑c d宇f pi"j挨p"d荏i oƒ{"v pj."eƒe"d逢噂c ti隠n x穎 lý cĩ th吋 k吋8院p"pj逢<
o Chuy吋n kênh 違nh t瑛 RGB sang 違nh Xám.
o Lo衣i b臼 nhi宇u mu嘘i, h瓜t tiêu ho員c nhi宇u Gaussian. o A鵜nh v鵜 l衣i v鵜 trí c栄c"jqƒ"8挨p"vtqpi"違pj"8亥u vàọ
2. Phát hi羽p"x<p"d違n(Text Detection): Phát hi羽p"x<p"d違n là cơng ngh羽8逢嬰c s穎 d映ng 8吋 zƒe"8鵜nh v鵜 trí trong 違nh cĩ ký t詠x<p"d違n, cĩ th吋 là ch英8ƒpj"oƒ{."ej英 vi院t tay ho員c các bi吋w"v逢嬰ng Logọ Cĩ th吋8逢嬰c th詠c hi羽n b茨ng nhi隠w"rj逢挨pi"rjƒr"mjƒe"pjcw" trong x穎 lý 違pj"pj逢:
o S穎 d映ng các b瓜 l丑c nh壱n di羽n biên.
o Các cơng ngh羽 h丑c sâu pj逢"GCUV"(Efficient Accurate Scene Text Detector) cĩ tác d映ng nh壱n di羽p"x<p"d違n ph鰻 bi院n nh医t hi羽n naỵ
3. Nh壱n di羽p"x<p"d違n (Text Recognition): Phát hi羽p"x<p"d違n và nh壱n di羽p"x<p"d違n là jck"d逢噂c chính cĩ tác d映pi"zƒe"8鵜nh v鵜 vt "x "#"pij c"e栄a các ký t詠 8逢嬰c tìm th医y trong 違nh. Vi羽c nh壱n di羽n cĩ th吋 g員r"mj„"mj<p"x噂i s詠8c"f衣ng ngơn ng英, nh英ng phơng ch英."m ej"vj逢噂c ch英mjƒe"pjcw"e pi"n "o瓜t ph亥n gây ra s詠 sai sĩt trong quá trình áp d映ng cơng ngh羽 OCR.
4. Trích xu医t thơng tin (Information Extract): Ucw"mjk"8«"n医{"8逢嬰c tồn b瓜 các ký t詠 cĩ trong 違nh, vi羽c ti院p theo s胤 là trích xu医t d英 li羽u mong mu嘘n, do m厩i t医m 違nh cĩ c医u trúc khác nhau, vi羽c lo衣i b臼 các vj»pi"vkp"f逢"vj瑛c"x "8員t ra nh英ng lu壱t trích xu医t là r医t c亥n thi院t cho m厩i lo衣i c医u trúc khác nhau0"E pi"ej pj"x·"n#"fq"8„."o "e»pi"pij羽 QET"vj逢運pi"8逢嬰c áp d映ng cùng v噂i các cơng ngh羽 h丑c sâu nh茨o"v<pi"mj違p<pi"o荏 r瓜ng c栄a ph亥n m隠m 8ƒr"泳pi"8逢嬰c v噂i nhi隠u c医u trúc 違pj"8亥u vào khác nhaụ
5. Xu医t Thơng tin (Data Dumps): D逢噂c cu嘘k"épi"n "sw{"8鵜pj"eƒej"n逢w"vt英 c栄a các thơng tin trích xu医v"8逢嬰c, cĩ th吋 là t壱p tin JSON, CSV ho員e"n逢w"f英 li羽u tr詠c ti院p vào e挨"u荏 d英 li羽ụ
67
EJ姶愛PI"6<HI烏N TH衛C H烏 TH渦NG
Ej逢挨pi"p {"nhĩm tác gi違 t壱p trung vào vi羽c hi羽n th詠c h羽 th嘘ng, xây d詠ng Data Warehouse, các 泳ng d映ng c栄a trí tu羽 kinh doanh. T瑛 t壱p d英 li羽u m磯u s印n cĩ th詠c hi羽n trích xu医t, bi院p"8鰻i và t違i d英 li羽w"8逢c"x q"Fcvc"Yctgjqwug."ucw"8„"v瑛 Data Warehouse, nhĩm s胤 xây d詠ng các 泳ng d映ng trí tu羽 kinh doanh bao g欝m các bi吋w"8欝."n逢嬰e"8欝 cung c医p m瓜t cách nhìn tr詠c quan v隠 các d英 li羽u thu th壱r"8逢嬰e"ejq"pi逢運i dùng.
Trong ph亥n hi羽n th詠c này, nhĩm s穎 d映ng t壱p d英 li羽u m磯w"8逢嬰c cung c医p b荏i Microsoft, Adventure Works 2017. T瑛 t壱p d英 li羽u m磯w"8«"rj¤p tích, nhĩm th医{"8逢嬰c r茨pi"8¤{"n "v壱p d英 li羽u v隠 v医p"8隠 bán hàng c栄a m瓜v"e»pi"v{"vtqpi"n pj"x詠e"vj逢挨pi"o衣i, vì v壱y ph亥n hi羽n th詠c h羽 th嘘ng này s胤 ch雨 t壱p trung vtqpi"n pj"x詠c c栄c"e»pi"v{"vj逢挨pi"o衣ị
XÂY D衛NG KHO D頴 LI烏U
Mơ hình hố d英 li羽u th詠c hi羽n vi羽c thi院t l壱p cho Datawarehouse, các ngu欝n d英 li羽w"8亥u vào nào s胤8逢嬰c s穎 d映ng và m嘘i quan h羽 gi英a các b違pi"8亥u vào, mơ hình các b違ng s詠 th壱t và b違ng chi隠w"e pi"pj逢"eƒe"vt逢運ng cĩ trong các b違pi"8„0"O瓜t s嘘 khái ni羽m trong mơ hình d英 li羽u s胤 b逸t g員p bao g欝m:
‚ Thi院t l壱p d英 li羽u ngu欝n (Source Config) và Thi院t l壱p d英 li羽u sau khi bi院p"8鰻i (Config Data)
o Source Config: t壱p h嬰p t医t c違 các d英 li羽u ngu欝p"8逢嬰c chu育n b鵜 cho quá trình ETL bao g欝m Database và các t壱p tin (csv, txt, xls, xlsx, json).
o Config Data: t壱p h嬰p các b違ng s詠 th壱t và b違ng chi隠u sau khi thi院t l壱p.
‚ Mơ hình d英 li羽u, bao g欝m 2 lo衣i:
o Eƒe"o»"j·pj"e挨"u荏 (Base Models)
o Các mơ hình nh壱p t瑛 bên ngồi (Import Models)
‚ M嘘i quan h羽 (Relationships) o Quan h羽 1 - 1 (One-To-One) o Quan h羽 1 - N (One-To-Many) ‚ Các thu瓜c tính c栄a mơ hình o Vt逢運ng d英 li羽u (Fields, Columns) o Ki吋u d英 li羽u (Data Types)
4.1.1CÁC LO萎I MƠ HÌNH D頴 LI烏U A井U VÀO
O»"j·pj"e挨"u荏 (Base Model)<"n "eƒe"o»"j·pj"8逢嬰c t衣o ra t瑛 các b違ng cĩ s印n trong e挨"u荏 d英 li羽w0"Dcug"Oqfgn"8逢嬰c l医y t瑛eƒe"e挨"u荏 d英 li羽u thơng qua các Eqppgevqt"8«"m院t n嘘i v噂i Databasẹ Các d英 li羽u trong Base Model cĩ th吋 là m瓜t ph亥n ho員c tồn b瓜 d英 li羽u c栄a các Databasẹ
68
Mơ hình nh壱p t瑛 bên ngồi (Import Model)<"n "eƒe"o»"j·pj"8逢嬰c t衣o ra t瑛 các d英 li羽u t瑛 các ngu欝n khác (Google Sheets, CSV). Các t壱p tip"8逢嬰e"zgo"v逢挨pi"8逢挨pi"pj逢" các b違pi"vtqpi"e挨"u荏 d英 li羽u và d英 li羽w"8逢嬰c l医y tồn b瓜 t穎 các t壱p vkp"8亥u vàọ
4.1.2M渦I QUAN H烏 (RELATIONSHIPS)
M嘘i quan h羽8逢嬰e"p„k"8院n 荏 8¤{"n "o嘘i quan h羽 gi英a các b違ng cĩ trong mơ hình chi隠u d英 li羽u, cách mà các b違pi"8逢嬰c liên k院t v噂i nhau, bao g欝m các vt逢運ng nào s胤8逢嬰c liên k院t và ki吋u liên k院t c栄a chúng. Các m嘘i quan h羽 bao g欝m: ‚ Các b違ng d英 li羽w"8亥u vào v噂i nhaụ ‚ B違ng s詠 th壱t và b違ng chi隠ụ ‚ B違ng s詠 th壱t v噂i b違ng s詠 th壱t. ‚ B違ng Chi吋u v噂i b違ng Chi隠u
A嘘i v噂i các b違ng khác nhau thì s胤 cĩ cách liên k院t khác nhau, các ki吋u liên k院t 8逢嬰c h厩 tr嬰 bao g欝m:
‚ Quan h羽 1 - 1 (One-To-One)
‚ Quan h羽 1 - N (One-To-Many)
蝦N逢w"#<"Eƒe"Vt逢運ng 8逢嬰c f́pi"8吋 liên k院t 2 b違ng v噂i nhau ch雨 cho phép là các vt逢運pi"8逢嬰c th詠c hi羽n b茨ng phép bi院p"8鰻i Map 1-1 (M映c 4.2.2.1).
4.1.3V姶愛PI"VèE"X閏I CÁC B謂NG TRONG MƠ HÌNH CHI陰U
Trong các b違ng s詠 th壱t và b違ng chi隠w."pi逢運i dùng cĩ th吋v逢挨pi"vƒe"x噂i t瑛ng lo衣i b違ng v噂i các m映e"8 ej"pj逢<"V衣o vt逢運ng m噂i, thi院t l壱p ngu欝n d英 li羽w."zgo"vt逢噂c các d英 li羽w"8«"e„."zgo"x "ej雨nh s穎a câu l羽nh SQL t衣o b違ng và các thi院t l壱p (Setting) khác.
‚ Thi院t l壱p c医u trúc b違ng (Structure)<"N "p挨k"jk吋n th鵜 fcpj"uƒej"eƒe"vt逢運ng cĩ trong b違ng, t衣k"8¤{"pi逢運i dùng cĩ th吋 thêm m噂i ho員e"zqƒ"eƒe"vt逢運ng tuy nhiên vi羽c này s胤 b鵜 h衣n ch院 sau khi b違pi" p {" 8«" v欝n t衣i m瓜t cách v壱t lý t衣i Datawarehousẹ S詠 xố b臼vt逢運ng ch雨8逢嬰c th詠c hi羽p"vt逢噂c khi b違ng p {"8逢嬰c t違i lên Datawarehousẹ
‚ Thi院t l壱p ngu欝n d英 li羽u (Source): do m瓜t b違ng s詠 th壱t ho員c b違ng chi隠u cĩ th吋 8逢嬰c t違i lên t瑛 nhi隠u ngu欝n khác nhau, vì v壱y thi院t l壱p ngu欝n d英 li羽w"n "p挨k"o " pi逢運i dùng s胤 cung c医p ngu欝n d英 li羽u s胤8逢嬰c s穎 d映pi"8吋 t違i lên các vt逢運ng cĩ trong b違pi0"Eƒe"vt逢運pi"8逢嬰c hi吋n th鵜 n "eƒe"vt逢運ng l医y t瑛d逢噂c C医u trúc b違ng và pi逢運i dùng ch雨 c亥n thi院t l壱r"eƒe"vt逢運pi"8„0
‚ Vtqpi"vt逢運ng h嬰p thi院t l壱p nhi隠u ngu欝n d英 li羽w."vj·"eƒe"vt逢運ng d英 li羽w"p {"8逢嬰c zgo"pj逢"e„"o嘘i quan h羽v逢挨pi"8欝ng v噂i nhaw."8欝pi"pij c"x噂i vi羽c các d英 li羽u cĩ khố chính là gi嘘pi"pjcw"vj·"8逢嬰c xem là cùng m瓜v"8嘘k"v逢嬰ng, vi羽c nay s胤 違nh
69
j逢荏pi"8院n quá trình t違i d英 li羽u, ngu欝n d英 li羽w"8逢嬰c t違i lên sau s胤ijk"8fl"n‒p"piw欝n d英 li羽w"vt逢噂c là m瓜t ho衣v"8瓜pi"8逢嬰c mong mu嘘n b噂i h羽 th嘘ng.
‚ Zgo" vt逢噂c (Preview)<" Pi逢運i dùng cĩ th吋 xem các d英 li羽w" 8逢嬰e" n逢w" vt英 trên Datawarehouse, tuy nhiên vi羽e"zgo"vt逢噂c ch雨 8逢嬰c h厩 tr嬰 sau khi b違pi"8«"8逢嬰c t違i lên Datawarehouse thành cơng.
‚ Câu l羽nh t衣o b違ng (SQL): B違ng S詠 th壱t và b違ng chi隠w"8逢嬰c xây d詠ng d詠a trên câu l羽nh SQL k院t h嬰p gi英a nhi隠u ngu欝n d英 li羽u và ki吋u d英 li羽u khác nhau, vì v壱y câu l羽pj"USN"8吋 xây d詠ng h羽 th嘘ng s胤 t詠8瓜pi"ukpj"tc."vw{"pjk‒p"8吋8違m b違o câu l羽nh ho衣v"8瓜pi"8¿pi"pj逢"#"ow嘘n thì khuy院p"mj ej"pi逢運i dùng nên ki吋o"vtc"vt逢噂c tác d映ng c栄a câu l羽pj"USN"8逢嬰c sinh ra nàỵ
‚ Thi院t l壱p b違ng (Setting): Ngồi vi羽c thi院t l壱r"eƒe"vt逢運ng c医u trúc nên b違pị"pi逢運i dùng ph違i cung c医p thêm các thơng tin c亥n thi院t khác ch鰯ng h衣p"pj逢<
o B違ng trung tâm (Pivot Table): là m瓜t b違ng cĩ trong ngu欝n d英 li羽u mà pi逢運i dùng khai báo, b違ng trung tâm là b違ng cĩ vai trị k院t n嘘i v噂i các b違ng mjƒe"8逢嬰c khai báo trong ngu欝n d英 li羽u (n院u cĩ), v隠 m員t câu l羽nh SQL s胤 8逢嬰c hi吋w"vjgq"#"pij c"n "HTQO"*Rkxqv"Table) Left JOIN (Other Table) o Khố chính (SCD Primary Key): là t壱p các khố chính cĩ trong c医u trúc
b違ng, các khố chính này b逸t bu瓜c ph違i là t違i tr詠c ti院p t瑛 ngu欝n d英 li羽u (Map1-1), Khố chính 荏 8¤{"e„"vƒe"f映ng phân bi羽t s詠 khác nhau gi英a d英 li羽u cĩ t衣i ngu欝n và d英 li羽u trên Datawarehouse nh茨o"zƒe"8鵜pj"8¤{"n "épi" m瓜v"8嘘k"v逢嬰pi"jc{"eƒe"8嘘k"v逢嬰pi"mjƒe"pjcw0"Mjqƒ"ej pj"8逢嬰c s穎 d映ng ph亥n l噂n trong quá trình xây d詠ng câu l羽nh SQL và quá trình t違i d英 li羽u lên Datawarehousẹ
o Phân vùng th運i gian (Time Partition): ch雨8逢嬰c h瓜 tr嬰荏 b違ng s詠 th壱v."8¤{" là m瓜t ch泳e"p<pi"swcp"vt丑ng giúp gi違m th運i gian và chi phí trong quá trình truy v医n d英 li羽u, d英 li羽u cĩ trong b違ng s胤 8逢嬰c phân vùng thành nhi隠u khung th運i gian khác nhau ch茨ng h衣p"pj逢"vjgq"Pi {."Tháng ho員e"P<o0 o Khố khi院m khuy院t chi隠u (Degenerate Dimension)<"8逢嬰e"zgo"pj逢"n "
m瓜t khố chính t欝n t衣i trong b違ng chi隠w."mjqƒ"p {"8逢嬰c trích xu医t tr詠c ti院p t瑛 ngu欝n d英 li羽u (khơng qua bi院p"8鰻i), cĩ tác d映ng trong vi羽e"zƒe"8鵜nh các 8嘘k"v逢嬰ng là khác nhau ho員e"n "pj逢"pjcw"vtqpi"swƒ"vt·pj"v違i d英 li羽u lên Datawarehousẹ
4.1.4CÁC THU浦C TÍNH C曳A B謂NG TRONG MƠ HÌNH CHI陰U
Mơ hình chi隠u bao g欝m các b違ng S詠 th壱t và b違ng Chi隠u, các b違ng này là m瓜t ph亥n trong Kho d英 li羽u x "8逢嬰c t衣o ra b荏k"pi逢運i dùng. M厩i b違ng s詠 th壱t ho員c b違ng chi隠u bao g欝m nhi隠w"vt逢運pị"8欝ng th運i bao g欝m thơng tin miêu t違 c映 th吋eƒej"o "vt逢運pi"8„"8逢嬰c t衣o rạ
70
‚ Vt逢運ng d英 li羽u (Fields, Columns): Vt逢運ng d英 li羽u là m瓜v"8嘘k"v逢嬰ng trong b違ng, và ch雨 cĩ hi羽u l詠c t欝n t衣i trong b違pi"8„0"Vt逢運ng d英 li羽w"8逢嬰e"pi逢運i dùng khai báo và s胤8逢嬰c t衣o ra thơng qua quá trình trích xu医t, bi院p"8鰻i và t違i (ETL).
‚ Vt逢運ng d英 li羽u bao g欝m các thơng tin thu瓜e"v pj"pj逢<
‚ V‒p"vt逢運ng: là tên duy nh医v"8衣i di羽p"ejq"vt逢運pi"8„."v‒p"vt逢運pi"mj»pi"8逢嬰c trùng v噂k"eƒe"v‒p"vt逢運ng khác trong cùng m瓜t b違ng. Ch雨 cho phép các ký t詠 ch英kp"vj逢運ng ho員c in hoa (a-z, A-Z), ký t詠 s嘘 (0-9) và d医u g衣ej"f逢噂k*a+0"V‒p"vt逢運ng ph違k"8逢嬰c b逸v"8亥u b茨ng ch英 cái ho員c d医u g衣ej"f逢噂i và k院t thúc b茨ng ch英 ho員c s嘘
‚ Nhãn (Label): tên thay th院8逢嬰c dùng trong các bi吋w"8欝.
‚ Mơ t違: ph亥n ghi thơng tin c栄c"vt逢運ng, cung c医p thơng tin nh茨m hi吋w"t "j挨p"vƒe" d映ng và cơng d映ng c栄c"vt逢運ng.
‚ Ngu欝n (Source): ph亥n mơ t違8挨p"ik違p"eƒej"o "vt逢運pi"p {"8逢嬰c t衣o rạ
‚ Cho phép r厩ng (Nullable)<"ejq"rjfir"vt逢運ng ngày nh壱n giá tr鵜 r厩ng (NULL) ho員c b逸t bu瓜c ph違i cĩ giá tr鵜 (Required).
‚ Ki吋u d英 li羽u: Nh茨m t<pi"v pj"8欝ng nh医t d英 li羽w."eƒe"e挨"u荏 d英 li羽u khác nhau s胤 cĩ cách bi吋u di宇n d英 li羽u khác nhau, h羽 th嘘ng s胤 cĩ t壱p các ki吋u d英 li羽u riêng, trong quá trình s穎 d映ng h羽 th嘘pi"pi逢運i dùng ch雨 swcp"v¤o"8院n các ki吋u d英 li羽u nàỵ Các ki吋u d英 li羽w"8逢嬰c h厩 tr嬰 bao g欝m:
Ỵ Ki吋u S嘘 nguyên (Integer) Ỵ Ki吋u S嘘 th詠c (Float)
Ỵ Ki吋u s嘘 (Numeric)
Ỵ Ki吋u lu壱n lý (Boolean)
Ỵ Ki吋u chu厩i (String) Ỵ Ki吋u Ngày (Date)
Ỵ Ki吋u Ngày gi運 (Datetime) Ỵ Ki吋u th運i gian (Time)
HI烏N TH衛C E愛"EJ蔭 ETL
4.2.1TRÍCH XU遺T D頴 LI烏U (EXTRACT DATA, DATA INGESTION)
4.2.1.1 K蔭T N渦K"E愛"U雲 D頴 LI烏U DOANH NGHI烏P
Ak隠w"8亥u tiên ta nên làm là k院t n嘘i h羽 th嘘ng v噂k"e挨"u挨"f英 li羽u c栄c"pi逢運i dùng, 荏 8¤{"vc"u胤 g丑i d逢噂c này là thi院t l壱p d英 li羽w"8亥u vàọ Vi羽c k院t n嘘k"e挨"u荏 d英 li羽u s胤 8逢嬰c