1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu đề xuất giải pháp lưu trữ và truy vấn dữ liệu giao thông

57 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Đề Xuất Giải Pháp Lưu Trữ Và Truy Vấn Dữ Liệu Giao Thông
Tác giả Nguyễn Nhất Phúc
Người hướng dẫn PGS.TS. Thoại Nam, TS. Đặng Ngọc Hiệu
Trường học Đại Học Quốc Gia TP. HCM Trường Đại Học Bách Khoa
Chuyên ngành Khoa Học Máy Tính
Thể loại luận văn thạc sĩ
Năm xuất bản 2022
Thành phố TP. HCM
Định dạng
Số trang 57
Dung lượng 438,97 KB

Nội dung

ĐẠI H C QU C GIA TP HCM TR NG ĐẠI H C BÁCH KHOA NGUY N NH PH C NGHI N C U Đ XUẤT GIẢI PHÁP L U TR VÀ TRUY VẤN D LI U GIAO TH NG Chuy n ngành: Khoa h c Máy t nh Mã s : 8480101 LUẬN VĂN THẠC S TP H CH MINH, tháng 07 năm 2022 TR C NG TR NH Đ C HOÀN THÀNH TẠI NG ĐẠI H C BÁCH KHOA ĐHQG TP HCM Cán b h ng dẫn khoa h c 1: PGS.TS Thoại Nam Cán b h ng dẫn khoa h c 2: TS D ng Ng c Hi u Cán b chấm nhận xét 1: PGS.TS L Hoàng Thái Cán b chấm nhận xét 2: TS L Thành Sách Luận văn thạc s đ c bảo v Tr ng Đại h c Bách Khoa, ĐHQG Tp HCM ngày 26 tháng 07 năm 2022 Thành phần H i đ ng đánh giá luận văn thạc s g m: Ch t ch: PGS.TS Trần Văn Hoài Th k : TS Trần Tuấn Anh Phản bi n 1: PGS.TS L Hoàng Thái Phản bi n 2: TS L Thành Sách U vi n: PGS.TS Nguy n Văn Sinh Xác nhận c a Ch t ch H i đ ng đánh giá luận văn Tr chuy n ngành sau luận văn đ c s a ch a (n u c ) TR CH T CH H I Đ NG ng Khoa quản l NG KHOA KHOA KHOA H C VÀ K THUẬT MÁY T NH C NG H A XÃ H I CH NGH A VI T NAM Đ c lập - T - Hạnh ph c ĐẠI H C QU C GIA TP.HCM TR NG ĐẠI H C BÁCH KHOA NHI M V LUẬN VĂN THẠC S MSHV: 1970518 N i sinh: Tp H Ch Minh Mã s : 8480101 H t n h c vi n: NGUY N NH PH C Ngày, tháng, năm sinh: 15/10/1994 Chuy n ngành: Khoa h c Máy t nh I T N Đ TÀI: Nghi n c u đ xuất giải pháp l u tr truy vấn d li u giao th ng (Solution for urban traic data storage and processing) II NHI M V - VÀ N I DUNG: T m hi u ki n tr c Data Lakehouse T m hi u c ng ngh l u tr d li u l n Xây d ng ki n tr c, tri n khai th m giải pháp tr n th c t Đánh giá th c nghi m d a tr n d li u th c III NGÀY GIAO NHI M V : 14/02/2022 IV NGÀY HOÀN THÀNH NHI M V : 13/06/2022 V CÁN B H CÁN B TR NG DẪN: PGS TS Thoại Nam TS D H NG DẪN ng Ng c Hi u Tp HCM, ngày tháng năm 2022 CH NHI M B M N ĐÀO TẠO NG KHOA KHOA KHOA H C VÀ K THUẬT MÁY T NH L I CẢM N Đầu ti n, t i xin g i l i cảm n chân thành sâu sắc đ n thầy PGS TS Thoại Nam thầy TS D ng Ng c Hi u tận t nh h ng dẫn gi p đ t i tr nh th c hi n luận văn T i xin trân tr ng cảm n qu thầy c c ng tác Khoa Khoa h c K thuật Máy t nh, Tr ng Đại h c Bách Khoa TP HCM, tạo u ki n thuận l i đ t i hoàn thành luận văn T i xin cảm n tất tác giả, đ ng tác giả c a sách, báo, tài li u, v.v đ c s d ng làm tài li u tham khảo cho luận văn Đ ng th i, t i c ng g i l i cảm n đ n đ i ng phát tri n c ng c Apache Spark, MinIO, Delta Lake, Apache Iceberg, Trino c ng c , th vi n đ c t i s d ng đ xây d ng h th ng th c nghi m k t T i c ng xin cảm n tất thành vi n c a nh m d án TriS thu c C ng ty C phần K thuật Đi n toán Bách Khoa tạo u ki n, cung cấp d li u, h tr t i xây d ng h th ng th c nghi m k t đ hoàn thành luận văn Cu i c ng, t i xin g i l i cảm n t i gia đ nh, bạn b ng i thân đ ng hành h tr t i Tp H Ch Minh, ngày 26 tháng 07 năm 2022 Nguy n Nh Ph c iv T M TẮT Trong nh ng năm gần đây, d li u l n đ tài đ c ban ngành đoàn th quan tâm Trong l nh v c giao th ng, tr n th gi i hi n c nh ng h th ng quản l giao th ng d a tr n d li u l n đ phân t ch, đánh giá, đ xuất giải pháp cung cấp th ng tin nhằm giảm thi u t nh trạng n tắc giao th ng Đ i v i h th ng quản l giao th ng, s l sinh ngày tăng h th ng đ ng d li u đ c c k t n i đ n v s cảm bi n Đ c th l u tr phân t ch d li u t cảm bi n g i v , h th ng quản l giao th ng cần phải đ c xây d ng tr n hạ tầng d li u hi n đại, c khả l u tr , x l truy vấn kh i d li u l n Vi c nghi n c u ki n tr c l u tr nh Data Warehouse, Data Lake Data Lakehouse đ t m l i giải cho toán l u tr truy vấn d li u giao th ng đ c th c hi n luận văn Qua đ cho thấy Data Lakehouse c th m t h ng phát tri n ti m ti p theo so v i m h nh hai l p Data Lake + Data Warehouse M t giải pháp l u tr v i h ng ti p cận c a Data Lakehouse d a tr n m t s c ng ngh mã ngu n m khác nh Delta, Iceberg, MinIO, Trino đ c tri n khai th nghi m v i tập d li u ph ng ti n giao th ng th c t H n n a, hi u truy vấn giải pháp đ c cải thi n k thuật t i u gom ile phân v ng d li u mà luận văn ti n hành v ABSTRACT With the blooming of Big Data concepts and technology, data organization has become one of trending topics The Intelligence Traic Systems, which was implemented globally, are being afected by massive datasets To be able to store and analyze urban traic data, it is essential to provide a storage platform that is capable of storing reliable data, along with processing large datasets to improve its quality for analysis To solve the problem, architectural pattern such as Data Warehouse, Data Lake and Data Lakehouse has been researched Data Lakehouse potentially can help address serveral major challenges A Data Lakehous storage system, which was build on open-source technologies like Delta, Iceberg, MinIO, Trino, has been implemented and evalutated in this thesis More than that, query performance is also enhanced with compact ile technique and partitioning technique vi L I CAM ĐOAN T i xin cam đoan rằng, đ tài Nghi n c u đ xuất giải pháp l u tr truy vấn d li u giao th ng c ng tr nh nghi n c u c a t i d c a thầy PGS TS Thoại Nam thầy TS D Nh ng tài li u tham khảo đ is h ng dẫn ng Ng c Hi u c s d ng đ tài đ c tr ch dẫn r ràng, đ ng theo nguy n tắc khoa h c t n tr ng tác giả Tp H Ch Minh, ngày 26 tháng 07 năm 2022 Nguy n Nh Ph c vii M CL C L i cảm n iv T m tắt v Abstract vi L i cam đoan vii Danh sách h nh x Danh sách bảng xi Danh m c vi t tắt xii CH NG Gi i thi u 1.1 L ch n đ tài 1.2 M c ti u nhi m v nghi n c u 1.3 Phạm vi nghi n c u 1.4 K t cấu luận văn CH NG C s l thuy t 2.1 T nh h nh nghi n c u n c 2.2 C s l luận 2.3 L thuy t v ki n tr c thuật ng 2.3.1 Data Warehouse 2.3.2 Data Lake 11 2.3.3 Data Lakehouse 15 2.3.4 Table Format 18 CH NG Bài toán h l u tr truy vấn d li u giao th ng 20 3.1 M tả toán 20 3.2 Phân t ch đặc tr ng d li u th c t 21 3.3 Phân t ch y u cầu l u tr 22 viii 3.3.1 CH Phân t ch y u cầu truy vấn NG Giải pháp cho h l u tr truy vấn 23 25 4.1 Ti u ch 25 4.2 Giải pháp c ng ngh 26 4.2.1 Giải pháp Delta + HDFS 26 4.2.2 Giải pháp Delta + MinIO 28 4.2.3 Giải pháp Iceberg + MinIO + Trino 30 K thuật t i u 33 4.3.1 M h nh d li u tam cấp 33 4.3.2 Thi t k l u tr ETL cho d li u đ m xe bi n s 34 4.3.3 K thuật gom ile phân v ng d li u 35 4.3 CH NG Th c nghi m k t 38 5.1 Xây d ng k ch 38 5.2 K t th c nghi m đánh giá 39 CH NG K t luận 6.1 K t đạt đ 6.2 H 42 c 42 ng phát tri n 42 Tài li u tham khảo 44 ix DANH SÁCH H NH 2.1 Ki n tr c tầng c a m t h th ng giao th ng t ch h p 2.2 H th ng theo ki n tr c Data Warehouse 10 2.3 H th ng theo ki n tr c Data Lake 13 2.4 H th ng theo ki n tr c Data Lakehouse 17 2.5 V tr c a Table Format 19 3.1 H th ng đo đ m ph ng ti n giao th ng 20 4.1 Giải pháp Delta + HDFS 28 4.2 Giải pháp Delta + MinIO 29 4.3 Giải pháp Delta + MinIO 32 4.4 D li u tam cấp cho h th ng l u tr 34 4.5 Flowchart bi n đ i d li u đ m xe 35 4.6 Flowchart bi n đ i d li u đ m bi n s 36 5.1 Bi u đ so sánh đ tr đ c d li u Delta + HDFS Delta + MinIO 5.2 Bi u đ so sánh đ tr đ c d li u Delta + MinIO Iceberg + MinIO + Trino 5.3 40 40 Bi u đ so sánh đ tr đ c d li u Delta + MinIO Iceberg + MinIO + Trino x 41 c ch truy vấn đ c tạo chuy n d ng cho truy vấn d li u l n, t c đ ki m nghi m cho thấy hi u truy vấn t t h n Spark SQL Tuy nhi n, m t s tác v Trino t ng tác Table Format ch a đ c hoàn thi n, v th n n cân nhắc s d ng linh hoạt gi a Trino Spark SQL C ng nh Delta Lake, Iceberg m t table format l u tr mã ngu n m , cung cấp khả xây d ng ki n tr c Data Lakehouse tr n n n tảng Data Lake Delta Lake cung cấp ACID transaction tr n hạ tầng l u tr th ng d ng nh s3, s3a, HDFS Hi n Iceberg ch a h tr nhi u connector ch a hoàn thi n ch c tải d li u s d ng ng n ng Python, v th Iceberg đ i v i Machine Learning c n hạn ch Tuy nhi n l i th c a Iceberg so v i Delta ch nh Phân v ng ẩn (Hidden Partition) Khi d li u đ c phân v ng, ch ng ta mu n tận d ng nh ng ti n ch mà phân v ng mang lại Đ i v i d li u đ c phân v ng Delta, ch ng ta phải truy n vào u ki n phân v ng V d : SELECT level, count(1) as count FROM logs WHERE event_time BETWEEN '2018-12-01 10:00:00' AND '2018-12-01 12:00:00' AND event_date = '2018-12-01' Trong câu truy vấn tr n, d li u đ c phân v ng theo event_date Đ c th tăng t c truy vấn, ch ng ta phải truy n vào u ki n event_date = 2018-12-01 , u dẫn đ n: • Delta kh ng th xác th c phân v ng d li u n u nh ng i vi t câu truy vấn kh ng cung cấp u ki n phân v ng • Vi c kh ng cung cấp u ki n phân v ng bắt bu c ng i vi t câu truy vấn phải hi u r cấu tr c d li u phân v ng c a bảng l u tr N u kh ng, hi u truy vấn s giảm mạnh v l c c ch phải scan h t tập d li u 31 H nh 4.3: Giải pháp Iceberg + MinIO + Trino B n cạnh vi c giảm hi u truy vấn, n u nh c t phân v ng kh ng hi n h u cấu tr c d li u ban đầu, ch ng ta bắt bu c phải b sung vi c t y bi n giá tr phân v ng t m t c t đ c ch n l u lại thành c t m i Dẫn đ n vi c format d li u ban đầu b thay đ i, c th dẫn đ n s nhầm lẫn cho ng i d ng cu i Iceberg Table Format cung cấp giá tr phân v ng cách s d ng giá tr c a m t c t t y bi n n Vi c chuy n đ i giá tr phân v ng s hoàn toàn c ch Iceberg ch u trách nhi m C ch c a Iceberg kh ng cần sinh c t m i, n n đ v ng lu n đ c g i Phân v ng ẩn Nh vậy, giá tr phân c sinh m t cách ch nh xác lu n đ c s d ng câu truy vấn mà kh ng cần phải cung cấp u ki n nh Delta N i cách khác, đ i v i ng c đ i d ng cu i Iceberg, h kh ng cần quan tâm cấu tr c bảng l u mà c câu truy vấn hi u Ngoài ra, v kh ng ph thu c vào layout vật 32 l c a bảng, phân v ng d li u c th linh hoạt chuy n đ i sang giá tr khác mà kh ng cần migration ph c tạp 4.3 K thuật t i u NHi u truy vấn kh ng ch ph thu c vào c ng c mà c n ph thu c vi c t ch c l u tr d li u tr n h th ng l u tr Các n i dung s đ c phân t ch đ t m giải pháp t ch c l u tr h p l cho h th ng l u tr d li u đo đ m ph vấn s đ ng ti n giao th ng Bài toán v k thuật nâng cao hi u truy c xem xét giải quy t phần Ngoài ra, s ti n l i t nh sẵn sàng c a d li u cho d li u đo đ m ph ng ti n giao th ng c ng đ c xét đ n 4.3.1 M h nh d li u tam cấp D li u đ c thu thập t nhi u th ng tin, m i th ng tin đ u mang nh ng giá tr khác t y theo t ng loại toán V th , d li u cần đ c tr ch xuất, sàng l c x l theo t ng cấp đ , t ng toán v i m c đ ch đem lại s ti n l i t nh sẵn sàng cho d li u M t h th ng l u tr đ t t s tận d ng đ D li u s đ c thi t k c t i đa nh ng th ng tin mà d li u mang lại c l u theo tầng: • Tầng d li u th hay c n g i Bronze n i l u tr nh ng d li u tr ch xuất nguy n t ngu n th ng tin mà kh ng th ng qua bất k thay đ i M c đ ch c a tầng d li u đ l u lại giá tr nguy n c a d li u, tạo u ki n đ giải quy t nhi u toán xung quanh ch đ mà d li u đ cập đ n; • Tầng d li u hay c n g i Silver n i tập trung nh ng d li u đ c làm M c đ ch c a tầng d li u đ l u tr cung cấp m tl ng d li u đ c bi n đ i x l t nh ng d li u th , t nh ng 33 d li u nhi u, d th a, thi u trật t th ng tin thành nh ng d li u c cấu tr c, đầy đ v mặt th ng tin sẵn sàng đ a vào phân t ch; • Tầng d li u t ng h p hay c n g i Gold tầng l u tr nh ng d li u đ c th ng k bi n đ i đặc tr ng dành cho toán c th T nh ng d li u tầng d li u sạch, d li u quan báo cáo, gi p cho ng tầng s d ng cho m c đ ch tr c i s d ng c đ cl đ c th quy t đ nh thi t lập chi n l li u ng th ng tin h u ch c N i cách khác, d tầng c giá tr v mặt th ng tin cao tầng H nh 4.4: D li u tam cấp cho h th ng l u tr 4.3.2 Thi t k l u tr ETL cho d li u đ m xe bi n s Đ i v i toán th ng k d li u đ m xe (1) phần 3, t chu i JSON ban đầu bi n đ i thành c t (Loại xe) s th ng tin v loại ph 34 ng ti n đ c ghi nhận c t (S l ng xe) th ng tin v s l ng ph ng ti n ng v i t ng loại (Loại xe) (H nh 4.5) 4.5 Đ i v i toán th ng k bi n s (2) bi n đ i thành c t (Loại xe) c bi n s đ bi n s ph phần 3, t chu i JSON ban đầu, c ghi nhận c t (Bi n s ) c t ng ti n, ti p theo c t (Mã v ng) tr ch xuất t (Bi n s ) Ngoài nh ng bi n s kh ng h p l c ng đ 4.6) c sàng l c (H nh 4.6 H nh 4.5: Flowchart bi n đ i d li u đ m xe 4.3.3 K thuật gom ile phân v ng d li u C ch chung c a Table Format phát sinh tác v CRUD đ u sinh transaction log snapshot c a d li u Ngh a là, ghi n record vào Table c m d ng, table format s sinh m t snapshot table hi n thành m t phi n c m record tạo m t snapshot c m + n record hi n li t k c thành phi n Time travel đ dành cho tác v truy xuất phi n kh c ng nh ph c h i d li u n u sinh l i Khi d li u dạng b đ c tải vào bảng, s l 35 ng snapshot đ c sinh H nh 4.6: Flowchart bi n đ i d li u đ m bi n s t r i rạc Tuy nhi n, theo th i gian, li n t c ghi d li u vào bảng, Delta s sinh m t l data đ ng ile l n, đặc bi t v i tác v streaming data c ghi vào thành t ng b nh Đi u s ảnh h ng đ n hi u suất đ c d li u c a bảng hi u h th ng V đ c m t s l dung l ng nh cần đ ng ile l n c c t qua, u làm ngh n IO c a h th ng qua tr nh đ c ghi • T i u gom ile ghi lại ile nh thành m t ile d li u l n h n m t cách t i u M t s l ng ile nh d li u c a bảng c th đ c gom thành ile l n h n Đặc bi t, Table Format Delta Lake c th gi p th c hi n tr nh mà kh ng làm thay đ i d li u c a ile, u gi p cho vi c g p ile c th th c hi n đ ng th i v i ghi d li u vào bảng • Phân v ng d li u chia nh m t c s d li u l n thành phân v ng Các phân v ng s đ d li u đ c truy xuất tr c ti p câu truy vấn SQL Khi c phân v ng, c ng vi c ch cần thao tác tr n v ng nh c a d li u, thay v phải scan toàn b c s d li u Ngoài ra, vi c phân v ng d li u c n h tr t t cho tác v g p ile, mà 36 c ch g p ile s phân bi t phân v ng d li u v i tránh đ c vi c xung đ t c ng m t l c ghi vào m t phân v ng Các key đ phân v ng d li u m t column Đ v a phân bi t t t phân v ng d li u, v a kh ng n cho d li u đ c l u bảng b phân mảnh nh cần ch n đ ng c t đ phân v ng d li u Hi u truy vấn kh ng ch ph thu c vào c ng c mà c n ph thu c vi c t ch c l u tr d li u tr n h th ng l u tr Các n i dung s đ c phân t ch đ t m giải pháp t ch c l u tr h p l cho h th ng l u tr d li u đo đ m ph vấn s đ ng ti n giao th ng Bài toán v k thuật nâng cao hi u truy c xem xét giải quy t phần Ngoài ra, s ti n l i t nh sẵn sàng c a d li u cho d li u đo đ m ph đ n 37 ng ti n giao th ng c ng đ c xét CH NG TH C NGHI M VÀ K T QUẢ 5.1 Xây d ng k ch M i tr ng đo đạt đ c th c hi n tr n máy ch v i: • B vi x l (CPU) 40 nhân; • B nh tạm (RAM) 188 Gigabyte; • c ng l u tr (HDD) Terabyte V i tri n khai phần m m: • Spark đ c tri n khai tr n n n tảng Docker [25] v i 10 container đ ng vai tr worker, m i worker đ c cấp nhân vi x l Gigabyte b nh tạm; • Trino đ c tri n khai tr n n n tảng Docker v i worker đ c cấp nhân x l Gigabyte b nh tạm; • HDFS MinIO đ c tri n khai tr n n n tảng Docker v i b l u tr HDD c ng HDD c a máy ch V i k ch nh sau (1) So sánh gi a Delta + HDFS Delta + MinIO sinh báo cáo tr n 1.417.160 record d li u đo đ m ph ng ti n 2.834.320 đo đ m bi n s (2) So sánh hi u gi a Delta + MinIO Iceberg + Trino + MinIO sinh báo cáo tr n 1.417.160 record d li u đo đ m ph đo đ m bi n s 38 ng ti n 2.834.320 (3) So sánh hi u tr c sau áp d ng k thuật t i u v i giải pháp Iceberg + Trino + MinIO sinh báo cáo tr n 1.417.160 record d li u đo đ m ph ng ti n 2.834.320 đo đ m bi n s 5.2 K t th c nghi m đánh giá Th ng s đánh giá th c nghi m luận văn đ tr truy vấn (Response Time) v i câu truy vấn SELECT * FROM traffic_table; H th ng đ c xây d ng cấu h nh theo ba k ch (1) (1), (2) (2), (3) v i d li u quan sát th c m CCTV thu c S Giao th ng Vận Tải Thành ph H Ch Minh V y u cầu c a báo cáo đo đ m ph ng ti n đo đ m bi n s phải scan toàn b tập d li u, t k t Bi u đ 5.1 Bi u đ 5.2 cho thấy hi u c a h th ng Iceberg + Trino + MinIO t i u v đ tr sinh báo cáo tr n, ph h p v i y u cầu c a báo cáo đo đ m ph ng ti n đo đ m bi n s Tuy nhi n, v i k t c a Bi u đ 5.3 cho thấy, vi c l a ch n c ng ngh c n phải áp d ng k thuật t i u đ đạt đ cáo 39 c t c đ th i gian th c cho báo H nh 5.1: Bi u đ so sánh đ tr đ c d li u Delta + HDFS Delta + MinIO H nh 5.2: Bi u đ so sánh đ tr đ c d li u Delta + MinIO Iceberg + MinIO + Trino 40 H nh 5.3: Bi u đ so sánh đ tr đ c d li u Delta + MinIO Iceberg + MinIO + Trino 41 CH 6.1 K t đạt đ NG K T LUẬN c Trong giải pháp giám sát giao th ng đ th , toán v đo đ m ph ng ti n giao th ng m t toán cần thi t cho vi c phân t ch đánh giá mật đ giao th ng L u tr đ c d li u đo đ m ph ng ti n s h tr nhi u báo cáo, phân t ch, t đ nhà lãnh đạo c th đ a nh ng ch nh sách h p l đ u ti t phân lu ng giao th ng c ng nh huy đ ng l c l ng u ti t m n ng n tắc giao th ng Bài toán li n quan đ n d li u ph đ ng ti n giao th ng c nghi n c u giải quy t luận văn này: • Giải pháp l u tr truy vấn d li u đo đ m ph ng ti n giao th ng v i ki n tr c đ xuất bao g m: Delta + HDFS, Delta + MinIO, Iceberg + MinIO + Trino; • K thuật nâng cao hi u truy vấn: Gom ile Phân v ng d li u Các giải pháp c ng đ đ m ph c tri n khai đánh giá tr n tập d li u đo ng ti n giao th ng th c v i: • 1,417,160 record d li u đo đ m s l ng ph • 2.834.320 record d li u bi n s ph ng ti n ng ti n; K t nghi n c u luận văn c s đ tri n khai h l u tr truy vấn d li u đo đ m ph 6.2 H ng ti n giao th ng cho đ th ng phát tri n • Đánh giá th ng c a h l u tr truy vấn d li u đo đ m ph ng ti n giao th ng v phạm vi luận văn ch tập trung vào đ tr truy vấn; 42 • Nghi n c u tri n khai đánh giá hi u tr n h th ng phân tán nhi u máy ch 43 TÀI LI U THAM KHẢO [1] M Chowdhury, A Apon, and K Dey, Data analytics for intelligent transportation systems Elsevier, 2017 [2] J Dorsey, Big data in the driver s seat of connected car technological advances, 2013 [3] F Nargesian, E Zhu, R J Miller, K Q Pu, and P C Arocena, Data lake management: challenges and opportunities, Proceedings of the VLDB Endowment, vol 12, no 12, pp 1986 1989, 2019 [4] C Paschalidi, Data governance: A conceptual framework in order to prevent your data lake from becoming a data swamp, 2015 [5] M Armbrust, A Ghodsi, R Xin, and M Zaharia, Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics, in Proceedings of CIDR, 2021 [6] M Armbrust, T Das, L Sun, B Yavuz, S Zhu, M Murthy, J Torres, H van Hovell, A Ionescu, A uszczak, et al., Delta lake: high-performance acid table storage over cloud object stores, Proceedings of the VLDB Endowment, vol 13, no 12, pp 3411 3424, 2020 [7] D Tovar ák, M Raček, and P Velan, Cloud native data platform for network telemetry and analytics, in 2021 17th International Conference on Network and Service Management (CNSM), pp 394 396, IEEE, 2021 44 L L CH TR CH NGANG H t n: NGUY N NH PH C Ngày, tháng, năm sinh: 15/10/1994 Đ a ch li n lạc: 257/44 Phan X ch Long, Ph Ch Minh N i sinh: Tp H Ch Minh ng 2, Quận Ph Nhuận, Tp H QUÁ TR NH ĐÀO TẠO • ĐẠI H C T t nghi p Tr Minh ng Đại h c Bách Khoa Đại h c Qu c gia TP H Ch Ngành: K thuật Máy t nh Loại h nh đào tạo: Ch nh quy, đào tạo t năm 2012 đ n năm 2018 X p loại t t nghi p: Trung b nh Khá • SAU ĐẠI H C H c cao h c t năm 2019 đ n năm 2022 Tr Đại h c Qu c gia TP H Ch Minh ng Đại h c Bách Khoa Chuy n ngành: Khoa h c Máy t nh Ngày bảo v luận văn thạc s : 26/07/2021, n i bảo v : Tr Bách Khoa Đại h c Qu c gia TP H Ch Minh ng Đại h c QUÁ TR NH C NG TÁC T 04/2018 02/2019 Đ n V tr 02/2019 Nhân vi n Data Engineer N i c ng tác C ng ty C phần Giải pháp Phần m m T ng Minh C ng ty C Bách Khoa phần K thuật Đi n toán ... u cầu v l u tr truy vấn c a h th ng; • Phần xây d ng giải pháp đánh giá hi u: bao g m vi c đ xuất giải pháp v ki n tr c; đ xuất giải pháp v c ng ngh ; k thuật nâng cao hi u truy vấn; • Phần k... t ch y u cầu truy vấn Giải pháp truy vấn v d li u c nhi u y u t cần đánh giá Trong luận văn quan tâm đ n giải pháp truy vấn d li u đo đ m ph n nh ng đ n hai tham s sau: 23 ng ti n giao th ng •... ch y u cầu truy vấn NG Giải pháp cho h l u tr truy vấn 23 25 4.1 Ti u ch 25 4.2 Giải pháp c ng ngh 26 4.2.1 Giải pháp Delta

Ngày đăng: 13/10/2022, 08:06

HÌNH ẢNH LIÊN QUAN

Danh sách bảng xi xi - Nghiên cứu đề xuất giải pháp lưu trữ và truy vấn dữ liệu giao thông
anh sách bảng xi xi (Trang 8)
Bảng 2.1: So sánh gia Data Warehouse, Data Lake và Data Lakehouse - Nghiên cứu đề xuất giải pháp lưu trữ và truy vấn dữ liệu giao thông
Bảng 2.1 So sánh gia Data Warehouse, Data Lake và Data Lakehouse (Trang 30)
Khi các d l iu dạng đc tải vào bảng, sl ng snapshot đc sinh - Nghiên cứu đề xuất giải pháp lưu trữ và truy vấn dữ liệu giao thông
hi các d l iu dạng đc tải vào bảng, sl ng snapshot đc sinh (Trang 47)
ra là t và ri rạc. Tuy nhi n, theo thi gian, khi lin tc gh id l iu vào bảng, Delta s sinh ra m t l ng ile rất l n, đặc bi t v i các tác v streaming data khi data đ c ghi vào thành t ng b nh  - Nghiên cứu đề xuất giải pháp lưu trữ và truy vấn dữ liệu giao thông
ra là t và ri rạc. Tuy nhi n, theo thi gian, khi lin tc gh id l iu vào bảng, Delta s sinh ra m t l ng ile rất l n, đặc bi t v i các tác v streaming data khi data đ c ghi vào thành t ng b nh (Trang 48)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w