2 https://hadoop.apache.org/
4.3 K thuật t iu
NHi u năng truy vấn kh ng ch ph thu c vào c ng c mà c n ph thu c vi c t ch c l u tr d li u tr n h th ng l u tr . Các n i dung này s đ c phân t ch đ t m giải pháp t ch c l u tr h p l cho h th ng l u tr d li u đo đ m ph ng ti n giao th ng. Bài toán v k thuật nâng cao hi u năng truy vấn s đ c xem xét và giải quy t trong phần này. Ngoài ra, s ti n l i và t nh sẵn sàng c a d li u cho d li u đo đ m ph ng ti n giao th ng c ng đ c xét đ n.
4.3.1 M h nh d li u tam cấp
D li u đ c thu thập t nhi u th ng tin, và m i th ng tin đ u mang nh ng giá tr khác nhau t y theo t ng loại bài toán. V th , d li u cần đ c tr ch xuất, sàng l c và x l theo t ng cấp đ , t ng bài toán v i m c đ ch đem lại s ti n l i và t nh sẵn sàng cho d li u. M t h th ng l u tr đ c thi t k t t s tận d ng đ c t i đa nh ng th ng tin mà d li u mang lại.
D li u s đ c l u theo 3 tầng:
• Tầng d li u th hay c n g i là Bronze là n i l u tr nh ng d li u tr ch xuất nguy n bản t ngu n th ng tin mà kh ng th ng qua bất k thay đ i nào. M c đ ch c a tầng d li u này đ là l u lại giá tr nguy n bản c a d li u, tạo đi u ki n đ giải quy t nhi u bài toán xung quanh ch đ mà d li u này đ cập đ n;
• Tầng d li u sạch hay c n g i là Silver là n i tập trung nh ng d li u đã đ c làm sạch. M c đ ch c a tầng d li u này đ là l u tr và cung cấp m t l ng d li u đã đ c bi n đ i x l t nh ng d li u th , t nh ng
d li u nhi u, d th a, thi u trật t và th ng tin thành nh ng d li u c cấu tr c, đầy đ v mặt th ng tin và sẵn sàng đ a vào phân t ch;
• Tầng d li u t ng h p hay c n g i là Gold là tầng l u tr nh ng d li u đ c th ng k bi n đ i đặc tr ng dành cho các bài toán c th . T nh ng d li u tầng d li u sạch, d li u tầng này s d ng cho m c đ ch tr c quan và báo cáo, gi p cho ng i s d ng c đ c l ng th ng tin h u ch đ c th ra các quy t đ nh hoặc thi t lập các chi n l c. N i cách khác, d li u tầng này c giá tr v mặt th ng tin cao nhất trong 3 tầng.
H nh 4.4: D li u tam cấp cho h th ng l u tr
4.3.2 Thi t k l u tr và ETL cho d li u đ m xe và bi n s
Đ i v i bài toán th ng k d li u đ m xe (1)(1) phần 33, t chu i JSON ban đầu bi n đ i thành c t (Loại xe) s là th ng tin v loại ph ng ti n đ c ghi
nhận và c t (S l ng xe) là th ng tin v s l ng ph ng ti n ng v i t ng loại trong (Loại xe) (H nh 4.54.5)
Đ i v i bài toán th ng k bi n s (2)(2) phần 33, t chu i JSON ban đầu, bi n đ i thành c t (Loại xe) c bi n s đ c ghi nhận và c t (Bi n s ) là c t bi n s ph ng ti n, ti p theo là c t (Mã v ng) tr ch xuất t (Bi n s ). Ngoài ra nh ng bi n s kh ng h p l c ng đã đ c sàng l c (H nh 4.64.6)
H nh 4.5: Flowchart bi n đ i d li u đ m xe
4.3.3 K thuật gom ile và phân v ng d li u
C ch chung c a các Table Format là khi phát sinh tác v CRUD đ u sinh ra các transaction log và các snapshot c a d li u. Ngh a là, khi ghi n record vào Table c m d ng, table format s sinh ra m t snapshot table hi n tại thành m t phi n bản c m record và tạo ra m t snapshot c m + n record hi n tại và li t k bản c thành phi n bản Time travel đ dành cho các tác v truy xuất phi n bản quá kh c ng nh ph c h i d li u n u sinh ra l i
H nh 4.6: Flowchart bi n đ i d li u đ m bi n s
ra là t và r i rạc. Tuy nhi n, theo th i gian, khi li n t c ghi d li u vào bảng, Delta s sinh ra m t l ng ile rất l n, đặc bi t v i các tác v streaming data khi data đ c ghi vào thành t ng b nh . Đi u này s ảnh h ng đ n hi u suất đ c d li u c a bảng và hi u năng h th ng. V khi đ c m t s l ng ile l n c dung l ng nh cần đ c duy t qua, đi u này làm ngh n IO c a h th ng qua quá tr nh đ c ghi.
• T i u gom ile là ghi lại các ile nh thành m t ile d li u l n h n m t cách t i u. M t s l ng ile nh d li u c a bảng c th đ c gom thành ile l n h n. Đặc bi t, Table Format Delta Lake c th gi p th c hi n quá tr nh này mà kh ng làm thay đ i d li u c a ile, đi u này gi p cho vi c g p ile c th th c hi n đ ng th i v i ghi d li u vào bảng
• Phân v ng d li u là chia nh m t c s d li u l n thành các phân v ng. Các phân v ng s đ c truy xuất tr c ti p bằng các câu truy vấn SQL. Khi d li u đã đ c phân v ng, các c ng vi c ch cần thao tác tr n các v ng nh c a d li u, thay v phải scan toàn b c s d li u.
các c ch g p ile s phân bi t các phân v ng d li u v i nhau và tránh đ c vi c xung đ t khi c ng m t l c ghi vào m t phân v ng. Các key đ phân v ng là các d li u trong m t column. Đ v a phân bi t t t các phân v ng d li u, v a kh ng khi n cho d li u đ c l u trong bảng b phân mảnh quá nh cần ch n đ ng các c t đ phân v ng d li u.
Hi u năng truy vấn kh ng ch ph thu c vào c ng c mà c n ph thu c vi c t ch c l u tr d li u tr n h th ng l u tr . Các n i dung này s đ c phân t ch đ t m giải pháp t ch c l u tr h p l cho h th ng l u tr d li u đo đ m ph ng ti n giao th ng. Bài toán v k thuật nâng cao hi u năng truy vấn s đ c xem xét và giải quy t trong phần này. Ngoài ra, s ti n l i và t nh sẵn sàng c a d li u cho d li u đo đ m ph ng ti n giao th ng c ng đ c xét đ n.