Trong luận văn này, chúng tôi sẽ tập trung nghiên cứu, xây dựng các mô hình chuỗi thời gian đơn biến và đa biến dựa trên thư viện học sâu phân tán BigDL với các mô hình học máytruyền thố
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN
TRINH NGỌC PHÁP
TRAN NGUYEN ANH KHOA
KHOA LUAN TOT NGHIEP
DU BAO LUONG GIAO THONG VỚI MÔ HÌNH CHUOI
TRAFFIC FLOW FORECASTING WITH MULTIVARIATE TIME
SERIES MODEL USING BIGDL
CU NHAN NGANH KHOA HOC DU LIEU
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
TRINH NGỌC PHÁP - 18521227
TRAN NGUYEN ANH KHOA - 18520938
KHOA LUAN TOT NGHIEP
DU BAO LUONG GIAO THONG VỚI MO HÌNH CHUOI
THỜI GIAN DA BIEN SỬ DỤNG BIGDL
TRAFFIC FLOW FORECASTING WITH MULTIVARIATE TIME
SERIES MODEL USING BIGDL
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS NGUYEN THANH BiNH
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ccc+
NAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Nhóm sinh viên thực hiện đề tài chân thành cảm ơn Tiến sĩ Đỗ Trọng Hợp và
Tiến sĩ Nguyễn Thanh Bình đã đồng hành và tận hình hướng dẫn chúng tôi trong suốtquá trình học tập và nghiên cứu đề hoàn thành khóa luận Thay đã luôn theo dõi, giúp
đỡ cũng như định hướng cho chúng tôi trong quá trình nghiên cứu và thực hiện dé tài
từ những ngày đầu tiên Dưới sự hướng dẫn của thầy, nhóm sinh viên chúng tôi có cơhội được phát triển kỹ năng nghiên cứu, mở mang sự hiểu biết với nhiều kiến thứcchuyên môn bồ ích, có tính ứng dụng cao
Bên cạnh đó, chúng tôi cũng chân thành cảm ơn các thầy cô trong khoa Khoahọc và Kỹ thuật Thông tin và các thầy cô trong trường Đại học Công nghệ Thông tin
- Đại học Quốc gia Thành phố Hồ Chí Minh đã giảng dạy những kiến thức và kỹ năngnên tảng, bổ ich cho chúng tôi trong suốt bốn năm học tập tại trường Các thầy côchính là người đã đặt viên gạch đầu tiên cho chặng đường sự nghiệp sắp tới của chúng
toi.
Tuy nhién, do vốn kiến thức và kinh nghiệm còn nhiều hạn chế, mặc dù nhóm
đã cô gắng hết sức nhưng chắc chắn bài báo cáo khó có thể tránh khỏi những thiếusót và nhiều chỗ còn chưa chính xác, kính mong quý thầy cô xem xét và góp ý đề
luận văn của nhóm được hoàn thiện hơn.
Trang 5Chuong 1 MỞ DAU
1.1 Đặt vấn đề
1.2 Mục tiêu và phạm vi nghiên cứu ¿- ¿+ t+ccckeEckeretrrkerkrkirrrree 5
In ao 5
1.2.2 Phạm vi nghiên CỨU - 5+5 k‡xvEvEtrkExexererkrkrrerrrrrkrkrkerrrrivl 6
Chuong 2 TONG QUAN
2.1 Giới thiệu bài toán
2.2 Tình hình nghiên cứu trên thé giới -¿-+- + +s++++t+x+xexvrvetsxerrrrvskerrree 8 2.3 Tinh hình nghiên cứu trong nước
Chương 3 CƠ SỞ LÝ THUYÊT ©©©©©©©*****ttEtEEtrtrtrtrrrrde 15
3.1 Big Data “ẾP: Ả ễ Live 15 3.1.1 Khái niệm Big Data
3.1.2 Các đặc điểm của Big Data -222:2222222cc2222EErrrtrkrrrrrrrrrrrrree 16
3.1.3 Apache Spark - s-++ct nh H11 1111k rkrrkee 18
3.1.3.1 Giới thiệu Apache Spark 5+ c+sxstcesrvretstererrrvrsrerrrr 18
3.1.3.2 Các thành phần của Apache Spark -.+c- - 93.1.3.3 Ưu điểm của Apache Spark -:22222cccccccvvvrrrrrrrrrcree 20
3.2 Phân tích dữ liệu chuỗi thời gian ¿-5222¿222++t2cxvrerktrrerkkrrrrkrrrer 21 3.2.1 Giới thiệu.
3.2.2 Các kiểu mô hình chuỗi thời gian . : ©222cz22222vzcsevczveccez 243.2.2.1 Dự báo chuỗi thời gian sử dụng kiểu thống kê truyền thống
(Traditional Statistical (TS) StyÏ€) ác ccssteterrrrrrrrrrrirrrrrerer 24
3.2.2.2 Dự báo chuỗi thời gian sử dụng kiểu hồi quy thông thường
Trang 63.2.3 Mô hình Prophet ¿- 5+ 5+ thề ren 26 3.2.3.1 The Trend Model
KP 2 ) 28 3.2.3.3 Holidays and Events Model - - s+s+s++xsxsxerereresrsrrre 28 3.2.4 Mô hình ARIMA 2-5222 2 HH Hước 30 3.2.4.1 AutoRegression (AR) cccténHHHrưc 30 3.2.4.2 Moving Average (MA) cty 30 3.2.4.3 Integrated (Ï) -c che 31
3.2.5 Mô hình Long-Short Term Memory (LSTM) - 31
3.2.5.1 Giới thiệu tổng quan c. 2222ccsS222xEcrrSEEEkrrrrrrkce 31
3.2.5.2 Forget gate.
3.2.5.3 Input gaf€ th re 35
3.2.5.4 Output gaf€ Ăs Q22 re 36
3.2.6 Mô hình Temporal Convolutional Network (TƠN) -.-‹- 37 3.2.6.1 1D Convolutional Network - 7c sxccererkerrkerkervee 37 3.2.6.2 Causal Convolufion + cccscssesxeersrsrerrrerrrrrrrrrree 39 3.2.6.3 Residual Block -cccttntìnhHHưườ 44 3.2.7 Mô hình NBeats - con tt ườờ 46
3.2.7.1 Time Series Input +-+cc+sxcctsrtrrerrrerrerrrrrrrerrer 47
Trang 73.2.8.2 DecOdET co nhờn 53 3.3 Distributed Deep Learning
3.3.1 Data Parallelism và Model Parallelism - - - <5 5555<++ 55 3.3.1.1 Data Parallelism c-cc Set stethhhehhieerec 55 3.3.1.2 Model Parallelism c.ccccecccessessessesesseseeseseeseesessssessesseesssnsseeseenes 57 3.3.2 BigDL, HH H1 1g tờ 57
Chương 4 _ PHƯƠNG PHÁP c -22csseccvvvvsetrtrrvessrrrrree 594.1 Tổng quan kiến trúc hệ thống -2:¿¿222v+c++tecvvvrrrrrrrseccsrrrv -Ø4.2 Chuẩn bị dit liệu -c22222ctttHHnnHHHHHHHrrrere 59
4.2.1 Thu thập dữ liGt ccessssssssssssssssssssssssssssssvssssssssssssssssessesssssssssssessesseseessenes 61
4.2.2 Tiền xử lý dữ liệu -2+¿2222 2222221111222 E211 eccrri 624.2.3 Trích xuất đặc trưng mới ::-22++++222E++z+ttttrxxrrrrrrrvrrrerrrr 64
4.3 Xây dựng các mô hình trong BigDL, ¿ +-55+5c+5scs++cccxss+ 66
4.3.1 Huấn luyện song song và phân tán trong BigDL
4.3.2 Ap dụng các mô hình trong Chronos ::-©s++22ssccczz 68
4.4 Đánh giá và phân tíÍch - 5:55 3S txeersrrrkrtsrsrrrrrrrrsrrrrrrrrrer 69
4.5 Xây dựng ứng dụng dự đoán luồng giao thông :-ccc.sccc+ 70Chương 5 THỰC NGHIỆM VÀ ĐÁNH GIA ccccsseccccse 72
5.1 Môi trường thực nghiệm cà ctsrrekererererierrrrrrriii 12 5.2 BO dit QU na 72
5.3 Kết quả thực nghiệm và đánh giá -22222c++ctcc222EEEEvvvvrvrrrrrrrrrrr 755.3.1 So sánh hiệu suất phân loại chung các mô hình - 755.3.2 So sánh hiệu suất du báo tai cảm biến khác mhau 715.3.3 So sánh hiệu suất dự báo tại các giờ khác nhau trong ngày
Trang 85.3.4 So sánh hiệu suất dự báo tại các ngày khác nhau trong tuần 795.3.5 So sánh hiệu suất dự báo khi được huấn luyện với độ dài dữ liệu khác
nhau 80
II 81
5.4 Kết qua xây dung ứng dụng -.2-:-2222222222222122 2222111212211 82Chương 6 KET LUẬN VÀ HƯỚNG PHAT TRIÊN 836.1 Kết luận 2s 25c 2ESxE2E11E2111172111122111 2.112 E1 re 836.2 Hướng phát triển .22:-2222222+22222112122221111221211122211111 2.1.1 re 84
Trang 9DANH MỤC HÌNH
Hình 2.1 Kết quả thực nghiệm của Shengdong Du và các cộng sự
Hình 2.2: Kết quả thực nghiệm của Yuhan Jia và các cộng sự 9
Hình 2.3: Kết quả thực nghiệm của Wentian Zhao và các cộng sự 10
Hình 2.4: Kết quả thực nghiệm của Saiqun Lu và các cộng sự 10
Hình 2.5: Kết quả thực nghiệm của Hong Thanh Pham và các cộng sự 11
Hình 2.6: Kết quả thực nghiệm của Quang Hung Do và các cộng sự 12
Hình 2.7: Sai số trong dự đoán tổng thé bằng các phương pháp khác nhau 12
Hình 2.8: Anh hưởng của rolling horizon (Q) đến độ chính xác của du đoán 13
Hình 2.9: Hiệu suất của mô hình đề xuất va các mô hình truyền thống 14
Hình 2.10: So sánh thông số thống kê giữa LSTM va CNN : 14
Hình 3.1: 5 đặc điểm của Big Data - co ccttEttttrirrrrrrrrrrriirrrrrre 16 Hình 3.2: Các thành phần chính của Apache Spark Hình 3.3: Biểu đồ minh họa dữ liệu chuỗi thời gian về Tổng số ca mắc Covid-19 trên thế giới (Nguồn: COVID Live - Coronavirus Statistics - Worldometer (worldometers.info)) Hình 3.4: Biểu đồ minh hoa Phân tích dữ liệu chuỗi thời gian của đồng Bitcoin (Nguồn: GitHub - shsack/crypto_ robot: Bitcoin price prediction using LSTM) 23
Hình 3.5: Dự báo chuỗi thời gian kiểu thống kê truyền thống (Nguồn: Time Series Forecasting Overview — BigDL documentation) - -cecece-ceee-e-e- 24t Hình 3.6: Dự báo chuỗi thời gian sử dụng hồi quy thông thường cho mô hình học sâu (Nguồn: Time Series Forecasting Overview — BigDL documentation) 25
Trang 10Hình 3.10: Cell state trong mạng LSTM (Nguồn: Understanding LSTM Networks
-= COlah'S DIO’) 43 33
Hình 3.11: Cổng (gate) trong mạng LSTM (Nguồn: Understanding LSTM
Networks colah's blOg) c2 2222x222 33
Hình 3.12: Lớp cổng quên (forget gate layer) trong mạng LSTM (Nguồn:
Understanding LSTM Networks colah's blog)
Hình 3.13: Lớp cổng vào (input gate layer) kết hợp với lớp tanh đê xác định thôngtin mới sẽ lưu vào trạng thái tế bào (Nguồn: Understanding LSTM Networks
colah's blog)
Hình 3.15: Quá trình xác định những thông tin nào từ trạng thái tê bào (cell state)
được str dụng như dau ra (Nguồn: Understanding LSTM Networks colah's blog)
Hình 3.16: Quá trình tính toán từ tensor đầu vào thành tensor đầu ra của mạng tíchchập một chiều (1D Convolutional Network) (Nguồn: Temporal Convolutional
Networks and Forecasting - Unit) ¿- ¿+5 tt E2 11211211211 38
Hình 3.17: Quá trình tính toán từ tensor đầu vào thành tensor đầu ra với kernel có
kích thước như một ma trận hai chiều (N guồn: Temporal Convolutional Networks
and Forecasting - Unit8).
Hình 3.18: Thêm vùng đệm có giá trị 0 ở chuỗi đầu vào (Nguồn: Temporal
Convolutional Networks and Forecasting - Unit8) -‹- «+
Hình 3.19: Mở rộng phạm vi phụ thuộc cho phần tử đầu ra bằng cách xếp chồng
nhiều lớp đầu vào lên nhau (Nguồn: Temporal Convolutional Networks and
Forecasting - Unit8)
Hình 3.20: Lớp đầu vào với mức giãn nở bằng 2 (2-dilated layer) (Nguồn:
Temporal Convolutional Networks and Forecasting - Unit8) - 42
Hình 3.21: Sự giãn nở tại các lớp đầu vào (Nguồn: Temporal Convolutional
Networks and Forecasting - Unit8) ¿se ssxeeeeeeeeereerrrrr 2)
Trang 11Hình 3.22: Minh họa về vấn đề lỗ hồng tại trường tiếp nhận (Nguồn: Temporal
Convolutional Networks and Forecasting - Umit8) -s-sc5cscsxsxerererere 43
Hình 3.23: Tổng quan về mang TCN cơ bản (Nguồn: Temporal Convolutional
Networks and Forecasting - Unit8) - - ¿- s5: 2ccctsrerertrtrrrerrrrrrrrrirrerrree 44
Hình 3.24: Một số cải tiến trong mô hình TCN (Nguồn: Temporal Convolutional
Networks and Forecasting - Unit) -¿- «+ tt E2 1211211 11H 45
Hình 3.25: Kiến trúc tổng quát của mô hình TCN (Nguồn: Temporal Convolutional
Networks and Forecasting - Unit8)
Hình 3.26: Kiến trúc tổng quát của mô hình NBeats (Nguồn: A deep learning
approach to solar radio flux forecasting)
Hình 3.27: Chuỗi thời gian tại thời điểm đang xem xét (Nguồn: A deep learning
approach to solar radio flux forecasting) -‹ ccc+ccstccerererrrrsrerrrierrree 47
Hình 3.28: Basic Block (Nguồn: A đeep learning approach to solar radio flux
forecasting)
Hình 3.29: Cấu trúc bên trong Basic Block (Nguôn: A deep learning approach to
solar radio flux forecasting) cccceceeseeesceseseseeseeteseesestesecsessseeessenssessseeseeseeneeesee! 48
Hình 3.30: Cấu trúc bên trong Stack (Nguồn: A deep learning approach to solar
radio flux forecasting)
Hình 3.31: Thiết kế các Stack (Nguồn: A deep learning approach to solar radio flux
forecasting)
Hình 3.32: Kiến trúc mô hình Seq2Seq (Nguồn: Introduction to Encoder-Decoder
Sequence-to-Sequence Models (Seq2Seq) (paperspace.com))
Hình 3.33: Thành phan Encoder trong mô hình Seq2Seq (Nguồn: Understanding
Encoder-Decoder Sequence to Sequence Model | by Simeon Kostadinov | Towards
Data Science)
Hình 3.34: Thanh phan Decoder trong mô hình Seq2Seq (Nguôn: Understanding
Encoder-Decoder Sequence to Sequence Model | by Simeon Kostadinov | Towards
Data 8019200 53 Hình 3.35: Song song hóa mô hình và Song song hóa dữ liệu
Trang 12Hình 3.36: Song song hóa đữ liệu (Nguồn: Anyscale - What is distributed
Hình 4.6: Mô hình thực thi trong Spark
Hình 4.7: Mô hình quá trình lan truyền xuôi và ngược (model forward-backward)
Hình 4.8: Quá trình đồng bộ hóa tham số (parameter synchronization) 68Hình 4.9: Ludng thiết kế ứng dụng với Google Colab, Stremlit và Ngrok
Hình 5.1: Google Colab .
Hinh 5.2: Két quả hiệu suất dự báo trên tập Test của các mô hình T5Hình 5.3: Biểu đồ đường dự đoán của mô hình LSTM tại cảm biến có ID là 1253.76Hình 5.4: Kết quả hiệu suất dự báo tại các cảm biến 22: c2ccccczxcctrxeerrree 77Hình 5.5: Kết quả hiệu suất dự báo tại các giờ khác nhau trong ngày 78Hình 5.6: Kết quả hiệu suất du báo tại các ngày khác nhau trong tuần 79Hình 5.7: So sánh hiệu suất khi độ dài dữ liệu huấn luyện khác nhau 80
Hình 5.8: So sánh hiệu suất khi tinh cập nhật dữ liệu huấn luyện khác nhau 8 ÍHình 5.9: Ảnh chụp màn hình của ứng dung mô phỏng hệ thống dự báo luồng giao
Trang 13DANH MỤC BẢNG
Bang 4.1: Mô hình và các bộ tham số tối ưu tương ứng -: -c::+2ccc+2Bang 5.1: Bang thông tin chi tiết từng thuộc tính của bộ đữ liệu
Trang 14DANH MỤC TỪ VIET TAT
STT Từ viết tắt Ý nghĩa
1 API Application Programming Interface
2 AR Auto Regression
3 ARIMA AutoRegressive Integrated Moving Average
4 CNN Convolutional Neural Network
5 CPU Central Processing Unit
6 DBN Deep Belief Network
7 DL Deep Learning
8 GPU Graphics Processing Unit
9 GRU Gated Recurrent Units
10 I Integrated
11 ITS Intelligent Transportation System
12 LSTM Long Short-Term Memory
Trang 1517 RMSE Root Mean Square Error
18 RNN Recurrent Neural Network
19 sMAPE Symmetric Mean Absolute Percentage of Error
20 Seq2Seq Sequence-to-sequence
21 TCN Temporal Convolutional Network
Trang 16TÓM TÁT KHÓA LUẬN
Thế giới đang ngày càng phát triển với lượng dân số ngày một tăng dần kéotheo sự gia tăng lớn về số lượng các phương tiện giao thông lưu thông trên đường,điều này có tác động không nhỏ đối với cơ sở hạ tầng giao thông, gây ra sự khó khăntrong việc quản lý, điều tiết giao thông Việc phân tích và đưa ra những dự đoán chính
xác về lưu lượng giao thông trong tương lai đóng vai trò quan trọng trong việc quản
lý và điều tiết giao thông Do đó, dự đoán luồng giao thông là một trong những vấn
đề quan trọng và nhiều thách thức Đây là một bài toán thú vị thu hút được sự quantâm của các nhà nghiên cứu từ quá khứ cho đến thời điểm hiện tại Trong luận văn
này, chúng tôi sẽ tập trung nghiên cứu, xây dựng các mô hình chuỗi thời gian đơn
biến và đa biến dựa trên thư viện học sâu phân tán BigDL với các mô hình học máytruyền thống, mô hình học sâu đề phục vụ cho bài toán dự đoán luồng giao thông, sau
đó tiến hành so sánh sự cải thiện trong hiệu suất dự đoán giữa các mô hình chuỗi thờigian đa biến so với mô hình đơn biến trong bài toán dự báo luồng giao thông Luậnvăn có một số đóng góp chính như sau:
e_ Xây dựng hệ thống dự đoán luồng giao thông sử dụng các mô hình Machine
Learning, Deep Learning trên nền tảng tính toán song song và phân tan
© Xây dựng bộ dữ liệu về giao thông gồm nhiều đặc trưng bằng cách kết hợp
thêm nguồn dé liệu thời tiết và trích xuất đặc trưng về đồ thị vào bộ dé liệu
giao thông ban đầu nhằm nâng cao hiệu suất của hệ thống
e Áp dụng vào hệ thống nhiều mô hình Machine Learning, Deep Learning khác
nhau cũng như áp dụng mô hình đơn biến và đa biến
© Xây dựng ứng dụng cơ bản minh họa cho hệ thông dự báo luồng giao thông.
Trang 17Chương 1 MỞ DAU
1.1 Dat vấn đề
Các quốc gia trên thế giới đang ngày càng phát triển đi cùng với quá trình đôthị hóa nhanh chóng, dẫn đến sự ra đời và phát triển của các đô thị, thành phố, thậmchí là các siêu đô thị tại các quốc gia có đông dân số Bên cạnh những lợi ích mà
chúng mang lại về mặt kinh tế như góp phan day nhanh tốc độ tăng trưởng kinh tế,
chuyền dịch cơ cấu kinh tế và cơ cầu lao động, làm giảm tỉ lệ thất nghiệp; chúng tacũng phải đối mặt với vô vàn van dé khó khăn, thử thách như tinh trạng bùng né dân
số, an ninh xã hội không đảm bảo, ô nhiễm môi trường, ùn tắc giao thông, v.v Trong
đó, ùn tắc giao thông là một trong những vấn đề nóng luôn được quan tâm thườngxuyên Un tắc giao thông là một van nạn không chỉ riêng của Việt Nam mà còn trên
cả thế giới, chúng đang gây ra những hậu quả xấu cho con người như gây thiệt hại vềnên kinh tế, gây mắt thời gian, nó còn khiến cho chúng ta phải chịu đựng những hậuquả về môi trường như 6 nhiễm tiếng òn, ô nhiễm không khí do lượng khí thải vàkhói bụi mà chúng ta hít phải khi ùn tắc, bầu không khí trong các đô thị lớn bị nhiễm
khói bụi, bụi mịn, gây tý lệ mắc các bệnh lý về đường hô hap, viêm phổi, ung thư cao
gấp nhiều lần so với thông thường Ngoài ra, ùn tắc giao thông cũng khiến tiêu tốn
thêm một lượng lớn nhiên liệu đê vận hành phương tiện, với các phương tiện di
chuyền gần nhau dễ dẫn đến các va chạm, tai nạn đáng tiếc khi tham gia giao thông.
Với những hậu quả mà ùn tắc giao thông gây ra, việc tìm ra giải pháp để giảm thiểutình trạng này là vô cùng quan trọng, cấp thiết
Tình trạng ùn tắc giao tắc giao thông diễn ra bắt nguồn từ rất nhiều nguyênnhân Ý thức chấp hành chưa được tốt của người dân khi tham gia giao thông là mộttrong những nguyên nhân chủ yếu Mặc dù các tuyến đường đã được trang bị hệ thông
đèn giao thông, phân làn di chuyền rõ ràng nhưng vẫn có không ít trường hợp vượt
đèn đỏ, lan sang làn khác hoặc đi ngược chiều dẫn dén tinh trang ùn tắc kéo dai tạicác tuyến đường Tại các quốc gia trên thế giới, ở các thành phó lớn, đô thị, số người
Trang 18của quá trình đô thị hóa, đặc biệt là các quốc gia đang trên đà phát triển như ViệtNam, khi có quá nhiều phương tiện tham gia giao thông tại cùng thời điểm cũng sẽdẫn đến tinh trạng ùn tắc giao thông do cơ sở hạ tang giao thông chưa đáp ứng đượcnhu cầu tham gia giao thông của người dân, chưa được cải tạo, nâng cấp đúng mứcvới số lượng người dân cũng là nguyên nhân chính gây ra ùn tắc giao thông Bên cạnh
đó, yếu tố về thời tiết cũng được xem như là một yếu tố ảnh hưởng đến luồng giaothông di chuyền trên các tuyến đường
Hiện nay, nhiều giải pháp đã được đề xuất và áp dụng với mong muốn giảmthiểu tình trạng ùn tắc giao thông Một số giải pháp đã được áp dụng vào thực tế như:xây dựng, mở rộng đường giao thông, quy hoạch cơ sở hạ tầng đáp ứng nhu cầu phát
triên tăng lên của phương tiện vận tải; tăng cường xử phạt nặng các trường hợp vi
phạm giao thông; tính toán điều chỉnh thời gian chờ đèn đỏ thích hợp với từng điều
kiện giao thông khác nhau; tăng cường lực lượng cảnh sát giao thông hỗ trợ điều tiết,
điều khiển giao thông, v.v Tuy nhiên, cho đến thời điểm hiện tại, bài toán giải quyết
ùn tắc giao thông vẫn chưa có nhiều chuyền biến đáng kể, đây vẫn luôn là một van
dé nóng đáng quan tâm với mục tiêu cần tìm ra một giải pháp hiệu qua hơn, ít tiêutốn chi phí, tài nguyên cũng như công sức Mau chốt của ùn tắc giao thông nằm ở sựthay đổi đột ngột lưu lượng của các luồng giao thông nên việc tạo ra một mô hình cókha năng dự báo lưu lượng luồng giao thông tương lai, từ đó phát triển thành một hệthống dự báo luồng giao thông hỗ trợ việc đưa ra quyết định điều tiết giao thông kipthời là một hướng giải quyết đầy tiềm năng, hứa hẹn, có khả năng ứng dụng cao đềgiải quyết nhu cầu thực tiễn
Bài toán dự báo chuỗi thời gian được ứng dụng trong nhiều lĩnh vực như dựbáo thời tiết, dự báo kinh tế, dự báo chăm sóc sức khỏe, dự báo tài chính, dự báo bán
lẻ, dự báo giao thông, v.v và đã được giải quyết hiệu quả bằng mô hình xác suất,thống kê truyền thống AutoRegressive Integrated Moving Average (ARIMA) Trong
những năm gần đây, thế giới ngày càng phát triển bùng nỗ về công nghệ thông tin,
đặc biệt là trí tuệ nhân tạo với các sự ra đời của các mô hình học máy, học sâu đã cho
Trang 19hiệu suất tốt hơn nhiều so với các mô hình truyền thong như ARIMA Các mô hìnhhọc sâu tiêu biểu hiện nay phải đề cập đến như mạng nơ-ron hồi quy (RecurrentNeural Network - RNN), mạng bộ nhớ ngắn hạn dài (Long Short-Term Memory -LSTM), v.v Như chúng ta đã biết, đữ liệu là một thành phần quan trọng, không thểtách rời so với mô hình và có ảnh hưởng không hề nhỏ đến hiệu suất của mô hình.
Dữ liệu huấn luyện càng nhiều với chất lượng càng cao thì hiệu suất dự đoán, chất
lượng của mô hình cũng sẽ tỉ lệ thuận Trong thời đại bùng nỗ về kỹ thuật số, bùng
nổ về công nghệ như hiện nay, với lượng dữ liệu không lồ được sinh ra tính theo từng
giây từ rất nhiều nguồn khác nhau: phần mềm, ứng dụng, cảm biến, mạng xã hội, v.v
và dé giải quyết van dé này, khái niệm Big Data (Dữ liệu lớn) đã ra đời Dữ liệu giaothông hiện đang bùng nổ với sự xuất hiện của các công nghệ cảm biến giao thôngmới bên cạnh với các cảm biến giao thông truyền thống phỏ biến hiện nay, việc quản
lý và kiểm soát giao thông ngày nay đang trở nên dựa trên dữ liệu nhiều hơn Dữ liệulớn vừa là thuận lợi cũng vừa là thách thức đối với các mô hình máy học, học sâu.Một trong những thách thức, khó khăn thường gặp nhất đó là gây tốn rất nhiều thời
gian trong quá trình xử lý và huấn luyện dữ liệu lớn Thời gian xử lý có thé mắt đến
vài ngày, hoặc có thể vài tuần, thậm chí trong trường hợp xấu nhất đó là không thể
xử lý được vì lượng dữ liệu lớn đến mức các cơ sở hạ tang, tai nguyên hệ thống không
đủ đáp ứng Dé giải quyết những van đề nêu trên, trong luận văn này, chúng tôi taptrung nghiên cứu phương pháp huấn luyện các mô hình học sâu dựa trên nguyên lý
tính toán phân tán gọi là Học sâu phân tán (Distributed Deep Learning) với sự hỗ trợ
của thư viện BigDL, đồng thời kết hợp so sánh và đánh giá hiệu suất giữa các môhình truyền thống và mô hình học sâu, cũng như hiệu suất giữa các mô hình đơn biến
va đa biến dựa trên tập dữ liệu mà chúng tôi đã xây dựng thông qua quá trình thuthập, tích hợp và trích xuất dit liệu với các thông tin về lưu lượng giao thông, thờitiết, yếu tố đồ thị về sự kết nối liên thông giữa các cảm biến trên các tuyến đường.Chúng tôi mong muốn xây dựng một hệ thống dự báo luồng giao thông hiện đại vàhiệu quả, có thể áp dụng vào thực tiễn
Trang 201.2 Muc tiêu và phạm vi nghiên cứu
liệu thực tế, đáng tin cậy để phục vụ cho việc nghiên cứu hiệu suất của mô hình chuỗi
thời gian đa biến do đa số các bộ dữ liệu chuỗi thời gian về giao thông chỉ phục vụcho việc phát triển mô hình chuỗi thời gian đơn biến Do đó, chúng tôi mong muốnkết hợp nhiều đặc trưng liên quan có ảnh hưởng tích cực vào bộ dữ liệu giao thôngban đầu, huấn luyện mô hình theo kiểu đa biến để nâng cao kết quả dự báo của hệ
thống Các mục tiêu cụ thể của đề tài được trình bày như sau:
e Tìm hiểu và khảo sát các công trình nghiên cứu liên quan đến bài toán du báo
giao thông và mô hình phân tán.
e Kết hợp các đặc trưng về thời tiết và đồ thị vào bộ dữ liệu giao thông, xây
dựng một bộ dữ liệu với nhiều đặc trưng phục vụ cho việc phát triển mô hình
e Thửnghiệm huấn luyện mô hình với sự khác nhau về nhiều khía cạnh như loại
mô hình, khoảng dit liệu, các đặc trưng được lựa chon.
© Xây dựng ứng dụng cơ bản minh họa cho hệ thống dự báo luồng giao thông
thời gian trong thực tế
Trang 211.2.2 Pham vi nghiên cứu
Trong luận văn này, chúng tôi tập trung nghiên cứu về các mô hình dự báochuỗi thời gian và phương pháp xây dựng hệ thống phân tán Mô hình dự báo chuỗithời gian được áp dung cho dé tài giao thông, cụ thé dự báo số lượng phương tiệngiao thông tại các tuyến đường ở các thời điểm cách nhau một giờ Các mô hình dựbáo được sử dụng trong đề tài bao gồm các mô hình truyền thống như ARIMA và các
mô hình hiện đại như LSTM, NBeats Các mô hình được huấn luyện theo cả haiphương pháp đơn biến, đa biến và dự đoán trên bộ dữ liệu giao thông tại một số tuyếnđường ở Ireland trong vòng một năm 2021 được cung cấp bởi Transport InfrastructureIreland và được kết hợp mở rộng với các đặc trưng mới do nhóm nghiên cứu xây
dựng.
Trang 22Chương 2 TONG QUAN
Trong chương nay, chúng tôi sẽ giới thiệu về bài toán du báo luồng giao thông
cũng như trình bảy tông quan các nghiên cứu liên quan đến bài toán này
2.1 - Giới thiệu bài toán
Dy báo luồng giao thông thuật ngữ tiếng Anh là Traffic Flow Forecasting làmột phần thiết yếu của hệ thống giao thông thông minh (Intelligent TransportationSystem - ITS) Mục tiêu của dự báo luồng giao thông là đưa ra các dự báo lưu lượnggiao thông trong tương lai Bài toán dự báo luỗng giao thông là một bài toán theochuỗi thời gian dé ước tính lưu lượng giao thông tại một hoặc nhiều thời điểm trongtương lai dựa trên đữ liệu thực tế được thu thập trong các khoảng thời gian trong quá
khứ Dữ liệu giao thông trong quá khứ có thê được thu thập từ nhiều nguồn khác nhau
như các nguồn cảm biến, máy ảnh, ra đa, hệ thống định vị toàn cầu di động, các nguồncung cấp cộng đồng hay phương tiện truyền thông xã hội, v.v Với sự phát triển pháttriển của khoa học công nghệ, các hệ thống cảm biến ngày càng được sử dụng rộngrãi trên các tuyến đường dé ghi lại dữ liệu đã khiến cho đữ liệu về giao thông đangbùng nổ với kích thước lớn dần theo thời gian Do đó, nhu cầu về việc xử lý, phântích dữ liệu về giao thông theo thời gian ngày càng được chú ý hơn, đặc biệt trong kỷ
nguyên Big Data hiện nay.
Đối với hệ thống dự báo lưu lượng giao thông, có rất nhiều mô hình được déxuất, phổ biến là các mô hình thông kê, xác suất truyền thống như AutoRegressiveIntegrated Moving Average (ARIMA) Tuy nhiên, các mô hình truyền thống nàythường cho kết quả không cao, chưa thực sự hữu ích cho bài toán này Do đó, trongnhững năm gần đây, với sự phát triển của các mô hình Deep Learning trong nhiều bàitoán như xử lý ảnh, xử lý ngôn ngữ tự nhiên, các nhiệm vụ phân loại, phát hiện đối
tượng, v.v và bài toán dự báo chuỗi thời gian cũng không ngoại lệ Các thuật toánDeep Learning sử dụng kiến trúc nhiều lớp hoặc kiến trúc sâu phức tạp dé trích xuất
các đặc trưng có trong dữ liệu từ cấp thấp nhất đến cấp cao nhất và chúng có thé khám
Trang 23phá lượng lớn cấu trúc trong dữ liệu Bên cạnh sự phát triển về mặt kỹ thuật lý thuyết
như các thuật toán Deep Learning, ngành công nghiệp khoa học máy tính còn phát
triển về cầu hình phần cứng với các hệ thống máy tính, siêu máy tính với cấu hìnhmạnh mẽ dé đáp ứng phù hợp với các thuật toán Deep Learning Điển hình là việc ápdụng các mô hình Deep Learning vào các hệ thống phân tích dữ liệu lớn như Apache
Spark trong bài toán dự báo chuỗi thời gian
2.2 _ Tình hình nghiên cứu trên thế giới
Bài toán dự báo lưu lượng luồng giao thông hay dự báo tốc độ giao thông là
một bài toán luôn được giới nghiên cứu khoa học trong và ngoài nước quan tâm Năm
2017, Shengdong Du và các cộng sự [1] đề xuất một framework học sâu kết hợp đề
dự đoán luồng giao thông ngắn hạn (viết tắt là HDTF) Nó được xây dựng bằng kiếntrúc học sâu tích hợp nhiều lớp và cùng tìm hiểu các đặc trưng về không gian-thờigian (spatial-temporal features) Framework bao gồm mang Long Short-TermMemory (LSTM) va mang Convolutional Neural Networks (CNN) Phuong phap déxuất sử dung các đơn vị LSTM đề nắm bắt các phụ thuộc thời gian dai (long temporaldependencies) va CNN dùng dé nắm bắt các đặc điểm xu hướng cục bộ (local trendfeatures) Phương pháp đề xuất được so sánh với các mô hình truyền thống và họcsâu, kết quả thu được tại Hình 2.1 cho thấy framework kết hợp có khả năng xử lý dự
báo lưu lượng giao thông đô thị phi tuyến phức tạp với độ chính xác và hiệu quả đáp
ứng.
Models RMSE
SV-RBF 0.040 SV-POLY 0.097 SVR-LINEAR 0.037 ARIMA 0.052 RNN 0.038 LSTM 0.030 GRU 0.031 HDTF (Ours) 0.028
Trang 24Cùng trong năm 2017, Yuhan Jia và các cộng sự [2] đã giới thiệu mạng Deep
Belief Network (DBN) và Long Short-Term Memory (LSTM) có kết hợp thông tin
dữ liệu thời tiết — lượng mưa, dé dự đoán luồng giao thông của đô thị DBN và LSTMtích hợp thông tin về lượng mưa có thể học các đặc điểm của luồng giao thông trongcác tình huống mưa khác nhau Kết quả thử nghiệm chỉ ra rằng, với việc kết hợp cácyêu tố lượng mưa bổ sung, các mô hình học sâu có độ chính xác tốt hơn các mô hình
dự báo hiện có và cũng mang lại những cải tiến so với các mô hình học sâu ban đầukhông có lượng mưa đầu vào
10-minute 30-minute
Model Measurement rediction prediction
MAE (veh/h) 178.90 395.58 R-DBN MAPE (%) M 19.
RMSE (veh/h) 2 356.49 MAE (veh/h) 166.17 305.04
R-LSTM MAPE (%) "69 1788
RMSE (veh/h) 240.98 296.91
MAE (veh/h) 19270 33734 R-BPNN MAPE (%) 1559 2180
Hinh 2.2: Két quả thực nghiệm cua Yuhan Jia và các cộng sự
Năm 2019, Wentian Zhao và các cộng sự [3] đề xuất một framework học sâudựa trên mô hình TCN đề dự báo luồng giao thông ngắn hạn trên toàn thành phố
nhằm nắm bat chính xác diễn biến không gian và thời gian của luồng giao thông Hơn
nữa, các tác giả thiết kế mô hình bằng phương pháp Taguchi để phát triển một cấutrúc tối ưu của mô hình TCN Kết quả thử nghiệm chứng minh rằng framework này
Trang 25đạt được hiệu suất state-of-the-art với
thông ngăn hạn khi so sánh với năm mô
mô hình SAE, mô hình DeepTrend và CNN-LSTM.
‘Algorithm | MAE | MRE | Forecasting Accuracy TCN 84257 | 00458 95.42%
LSTM 29.6075 | 0.1964 80.36%
GRU 36.0862 | 0.1922 80.78%
SAE 33.4104 | 0.1681 83.19%
DeepTrend | 21.4055 | 0.1381 56.195 CNN.LSTM | 245798 | 0.1403 85.97%
lộ chính xác vượt trội trong dự bao luồng giaohình bao gồm mô hình LSTM, mô hình GRU,
Hình 2.3: Kết quả thực nghiệm của Wentian Zhao và các cộng sự
Năm 2020, Saiqun Lu và các cộng sự [4] đã đề xuất một phương pháp kết hợpgiữa mô hình ARIMA và mô hình LSTM dé dự đoán ludng giao thông ngắn hạn Dựa
trên một lượng lớn dữ liệu giao thông lịch sử, mô hình ARIMA và mạng nơ-ron
LSTM được sử dụng đề xác định các đặc trưng tuyến tính và phi tuyến của dữ liệugiao thông phức tạp, sau đó hai phương pháp được kết hợp thông qua trọng số động
để thực hiện dự báo luéng giao thong ngắn hạn Kết quả thực nghiệm tại Hình 2.4cho thấy mô hình được đề xuất (The combined method) có hiệu quả dự đoán tốt hơn
khi so sánh với ba trường hợp là mô hình ARIMA và LSTM đơn lẻ và sự kết hợp
trọng số tương đương (EW method) của cả hai mô hình
Model Highway AL215 Highway AL2206 Highway AL2292
ARIMA MAE 10.502 22217 18.021
MSE 583.250 1203.692 809.030
RMSE 24.151 34.694 28.443 MAPE 0.158 0.162 0.122
LSTM (n = 10) MAE 8.174 21.011
MSE 250.613 1018.930
RMSE 15.831 31.921 MAPE 0.129 0.126
EW method MAE 8.306 19.737
MSE 327.162 969.689 611233 RMSE 18.088 31.140 24.123 MAPE 0.136 0101 0.102
The combined method MAE 6.533 16.165 12.789
MSE 241.660 851.300 498.529 RMSE 15.545 29.177 22.328
MAPE 0.119 0.066 0.066
Hình 2.4: Kết quả thực nghiệm của Saiqun Lu và các cộng sự
Trang 262.3 Tinh hình nghiên cứu trong nước
Ở Việt Nam cũng có một số công trình nghiên cứu đáng chú ý liên quan đến
bài toán dự báo lưu lượng luồng giao thông Năm 2018, Hong Thanh Pham và cáccộng sự [5] đã công bó nghiên cứu về việc nâng cao độ chính xác của dự báo luồnggiao thông ngắn hạn bằng cách chọn các đặc trưng thích hợp từ dữ liệu thu thập để
tăng cường khả năng dự đoán của mô hình Trong nghiên cứu, các tác giả đánh giá
các giả thuyết khác nhau trên nhiều bộ dữ liệu dé xác định tác động của không gian(spatial knowledge - so sánh kết quả từ các bùng binh được điều khiển bằng tín hiệu
và không được kiểm soát; các đoạn đường với các kiểu giao lộ khác nhau) bên cạnhkhía cạnh thời gian (temporal knowledge) lên kết quả dự đoán Mô hình LSTM đượcthử nghiệm với việc điều chinh kỹ lưỡng các siêu tham só Kết quả cho thấy bổ sungcàng nhiều kiến thức không gian thì việc dự đoán vận tốc càng chính xác, đặc biệt là
ở những giao lộ đông đúc.
Road segments with Evaluation Metric
different spatial characteristics MAE | RMSE | MAPE
Signal-controlled versus uncontrolled roundabouts
Phu Dong roundabout 0.9450 1.3240 4.1960
Dan Chu roundabout 2.1060 2.4470 10.6580
Cong Hoa roundabout 1.7160 2.0420 8.0840
Streets with distinct types of intersection
Vo Van Kiet street 1.0990 1.4070 6.4360 Cach Mang Thang Tam street 1.4740 1.9330 6.8560
Ba Thang Hai street 1.8870 2.5210 11.2790
Hình 2.5: Kết quả thực nghiệm của Hong Thanh Pham và các cộng sự
Cũng trong năm 2018, Quang Hung Do và các cộng sự đã đề xuất một mạngnơ-ron wavelet mờ (FWNN) được đào tạo bằng thuật toán tối ưu hóa dựa trên địa lýsinh học cải tiền (BBO) để dự báo lưu lượng giao thông ngắn han bang cách sử dụng
dữ liệu lưu lượng trong quá khứ [6] Kết quả được thể hiện ở Hình 2.6 cho thấy thuậttoán đề xuất cho kết quả dự đoán tốt nhất với các độ đo RMSE, MAPE, R Do đó, môhình FWNN là một công cụ dự báo tốt hơn so với các mô hình được so sánh
Trang 27RMSE MAPE R
ANN-based model 74.0569 0.2529 0.8880 FWNN-based model 32.5282 0.1025 0.9451 FWNN-BBO-based model 274678 0.0924 0.9768 FWNN-iBBO-based model 20.4034 0.0719 0.9846 WNN-based model 52.1006 0.1171 0.9617
Hình 2.6: Kết qua thực nghiệm của Quang Hung Do và các cộng sự
Năm 2021, Trinh Dinh Toan và Viet Hung Truong [7] trình bày một phương
pháp hiệu qua dé dự báo lưu lượng giao thông ngắn han sử dụng Support VectorMachine (SVM) dé so với các phương pháp dự đoán lưu lượng giao thông theo chuỗithời gian truyền thống (Historical Mean Predictor, Current Time Based Predictor,Double Exponential Smoothing Predictor) Kết quả ở Hình 2.7 cho thấy rằng phươngpháp SVM tốt hơn đáng ké so với các phương pháp truyền thống và mô hình hoạtđộng tốt với những dự báo ngắn hạn
0.00
5 10 1S 20 25 30 60
Predietion interval (min)
Hình 2.7: Sai số trong dự đoán tổng thể bằng các phương pháp khác nhau
Trang 28Các tác giả còn thực nghiệm ảnh hưởng của dé liệu đầu vào lên kết quả dựđoán, với dé liệu đầu vào (rolling horizon) càng dai thì độ chính xác mà SVM dự
đoán càng cao (Hình 2.8) Bên cạnh đó, các tác giả nghiên cứu việc áp dụng phương
pháp k-Nearest Neighbor để cải thiện hiệu suất đào tạo mô hình SVM, kết quả chothấy việc áp dụng phương pháp này tạo điều kiện giảm đáng ké kích thước đào tạo
SVM đê đây nhanh quá trình đào tạo mà không ảnh hưởng đến hiệu suât dự đoán.
Prediction interval (min)
Hình 2.8: Anh hưởng cua rolling horizon (Q) đến độ chính xác của dự đoán
Năm 2022, Quang Hoe Tran và các cộng sự [8] đã đề xuất một phương pháphọc sâu sử dụng mạng LSTM với việc điều chỉnh các siêu tham số để dự báo tốc độgiao thông ngắn hạn trên đường nhiều làn song song ở tại Việt Nam, nơi thường xảy
ra nhằm lẫn tín hiệu GPS Những thách thức trong việc xử lý dữ liệu bat thường trêncác tuyến đường này đã được giải quyết triệt để Thuật toán đề xuất cho phép lọc vàxác định các tín hiệu sai đó, từ đó nâng cao độ chính xác trong việc xác định tốc độ
trung bình của từng phương tiện và đoạn đường khảo sát Các tác giả đã thử nghiệm
với nhiều phương pháp dự đoán, bao gồm cả mạng truyền thống và học sâu Kết quả
tại Hình 2.9, 2.10 cho thây mô hình được đề xuất sử dụng mạng LSTM tốt hơn so với
các phương pháp khác, bao gồm MLP, AR, ARMA, ARIMA, SARIMAX, SES,
HWES, PROPHET và CNN Những con đường nhỏ song song nhiều làn xe là đặc
điểm giao thông điển hình của Việt Nam mà không phô biến ở nhiều quốc gia khác
Trang 29Theo hiểu biết của tác giả, không có nghiên cứu nào giải quyết một vấn đề tương tự.
Do đó, nghiên cứu này có thể được coi là một sự đổi mới so với các phương phápđang được áp dụng hiện nay Tuy nhiên, điểm hạn chế của nghiên cứu đó là phạm vi
và quy mô của khu vực thí nghiệm.
RMSE v
Algorithm
(a)
MAE value
Hình 2.9: Hiệu suất của mô hình dé xuất và các mô hình truyền thống
Metric Model Count Mean Min 25% 75% Max
Hình 2.10: So sánh thông số thống kê giữa LSTM va CNN
Trang 30Chương 3 CƠ SỞ LÝ THUYET
3.1 Big Data
3.1.1 Khái niệm Big Data
Với sự phát triển xã hội hiện nay, đặc biệt là trong xu hướng chuyên đổi số
của cuộc cách mạng công nghiệp 4.0, mọi hoạt động dần dần được được Internet hóa.Lượng thông tin trao đổi trên Internet ngày càng đa dạng và không ngừng tăng Điềunày đặt ra thách thức cho các nền công nghiệp nghiên cứu các phương pháp khácnhau đề xử lý đữ liệu Khái niệm Big Data bắt nguồn từ nhu cầu này Big Data (Dữliệu lớn) là thuật ngữ dùng để chỉ một tập hợp đữ liệu với kích thước vượt xa khảnăng của các công cụ phần mềm thông thường dé thu thập, hiền thị, quản lý và xử lý
đữ liệu trong một thời gian có thé chap nhận được Kích thước cua Big Data là mộtmục tiêu liên tục thay đổi Như năm 2012 thì phạm vi một vài chục Terabytes (TB)tới nhiều Petabytes (PB) dữ liệu Big Data yêu cầu một tập các kỹ thuật và công nghệđược tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và cóquy mô lớn Big Data có thể bao gồm các dữ liệu có cấu trúc (structured data), dữ
liệu không cấu trúc (unstructured data) và dữ liệu bán cấu trúc (semi-structured data)
Dữ liệu tạo thành các kho dit liệu lớn có thé đến từ các nguồn bao gồm cáctrang web, phương tiện truyền thông xã hội, ứng dụng dành cho máy tinh dé ban, ứngdụng trên thiết bị di động, các thí nghiệm khoa học, thiết bị cảm biến ngày càng tăng
và các thiết bị khác trong mang lưới thiết bị kết nói Internet (IoT - Internet of Things).Khái niệm Big Data đi kèm với các thành phần có liên quan cho phép các tô chức đưa
dữ liệu vào sử dụng thực tế và giải quyết một số vấn đề trong kinh doanh, bao gồm
cơ sở hạ tầng IT cần đề hỗ trợ Big Data, các phân tích áp đụng với đữ liệu, công nghệcần thiết cho các dự án Big Data, các bộ kỹ năng liên quan và các trường hợp thực tế
có ý nghĩa đối với Big Data Big Data rất quan trọng với các tô chức, doanh nghiệp
vì đữ liệu càng lớn và càng đa dạng sẽ giúp các phân tích càng chính xác hơn Việc
Trang 31phân tích chính xác này sẽ giúp doanh nghiệp đưa ra các quyết định giúp tăng hiệuquả sản xuất, giảm rủi ro và chỉ phí.
3.1.2 Các đặc điểm của Big Data
VOLUME
Huge amount of data
⁄ \
VERACITY VARIETY
Inconsistencies and Different formats of
unvertainty in data Big Data data from various sources
VELOCITY VALUE
- ng ¿ Extract useful datadata accumulation ee
Hình 3.1: 5 đặc điểm của Big Data
Big Data được mô tả bởi những 5 đặc trưng cơ bản sau: Khối lượng (Volume),
Vận tốc (Velocity), Tính đa dạng (Variety), Tính xác thực (Veracity) va Giá trị
(Value).
¢ Khối lượng (Volume): Bản thân cái tên Big Data có liên quan đến một kíchthước rất lớn Khối lượng là một lượng lớn dữ liệu Dé xác định giá trị của dữliệu, kích thước của dữ liệu đóng một vai trò rất quan trọng Nếu khối lượng
dữ liệu rất lớn thì nó thực sự được coi là Big Data Điều này có nghĩa là một
dữ liệu cụ thể có thực sự được coi là Big Data hay không phụ thuộc vào khối
Trang 32lượng dữ liệu Do đó, trong khi xử lý Dữ liệu lớn cần phải xem xét một khối
o Dữ liệu có cấu trúc: Dữ liệu này về cơ bản là đữ liệu có tổ chức, tức là
đữ liệu đã xác định độ dài và định dạng của dữ liệu.
© Dữ liệu bán cau trúc: Dữ liệu nay về cơ bản là dit liệu với một phần có
tổ chức Nó thường là một dang dữ liệu không phi hợp với cấu trúc
chính thức của dữ liệu Các tệp nhật ký là ví dụ của loại dit liệu này.
© Dữ liệu phi cấu trúc: Dữ liệu này về cơ bản là dữ liệu không được tổ
chức Nó là dữ liệu không khớp với cấu trúc hàng và cột truyền thốngcủa cơ sở dữ liệu Văn bản, hình ảnh, video, v.v là những ví dụ về dữliệu phi câu trúc không thé được lưu trữ ở dạng hàng và cột
Tính xác thực (Veracity): Là một trong những đặc điểm phức tạp nhất củaBig Data - Độ tin cậy hay tính chính xác của dữ liệu Với sự phát triển và các
phương tiện truyền thông xã hội, việc xác định độ tin cậy hay tính chính xác
của dữ liệu trở nên khó khăn và phức tạp hơn Bài toán làm sạch dữ liệu (phân
tích và loại bỏ đữ liệu thiếu chính xác và dữ liệu nhiễu) đang là bài toán quan
trọng của Big Data.
Trang 33© Giá trị (Value): Giá trị là đặc điểm quan trọng nhất của Big Data Có thé nói
việc đầu tiên trước khi bắt tay vào lam Big Data chính là xác định được giá tricủa dữ liệu Các tổ chức, doanh nghiệp phải hoạch định được giá trị thông tinhữu ích của dé liệu cho van đề, bai toán hoặc mô hình kinh doanh của minh
3.1.3 Apache Spark
3.1.3.1 Giới thiệu Apache Spark
Apache Spark là một framework xử lý dữ liệu mã nguồn mở trên quy mô lớn
Spark cung cấp một giao diện dé lập trình các cum tính toán song song với khả năng
chịu lỗi Ban đầu Spark được phát triển tại AMPLab của Đại học California Berkeley,
sau đó mã nguồn được tặng cho Apache Software Foundation vào năm 2013 và tổchức này đã duy trì nó cho đến nay Khả năng tính toán phân tán của Apache Sparkkhiến nó rất phù hợp với Big Data và Machine Learning, vốn đòi sức mạnh tính toánkhổng lồ để làm việc trên các kho dữ liệu lớn Spark cũng giúp loại bỏ một số gánhnặng lập trình khỏi vai của các nhà phát triển với một API dé sử dụng đảm nhiệmphần lớn công việc khó khăn của tính toán phân tán và xử lý đữ liệu lớn Apache
Spark cho phép người dùng xây dựng những mô hình dự đoán nhanh chóng với khả năng thực hiện tính toán cùng lúc trên một nhóm các máy tính hay trên toàn bộ các
tập dữ liệu mà không cần thiết phải trích xuất các mẫu tính toán thử nghiệm Tốc độ
xử lý dữ liệu của Apache Spark có được là do khả năng thực hiện các tính toán trên
nhiều máy khác nhau cùng một lúc tại bộ nhớ trong (in-memories) hay hoàn toàn trên
RAM.
Apache Spark cho phép xử lý các đữ liệu theo thời gian thực Nghĩa là nó có
thể vừa nhận dữ liệu từ các nguồn dữ liệu khác nhau, vừa có thể thực hiện xử lý ngay
những dữ liệu mà nó vừa nhận được một cách đồng thời Apache Spark không có hệ
thống file cho riêng mình Nó sử dụng nhiều hệ thống file khác nhau như S3,Cassandra, HDFS, v.v và hoàn toàn không phụ thuộc vào bất cứ hệ thống file nào
Trang 34học máy, xử lý dữ liệu thời gian thực và hỗ trợ cho nhiều ngôn ngữ lập trình nhưScala, Python, Java, v.v Tat cả những điều đó đã làm cho Apache Spark trở thànhmột hệ thống dễ dàng bắt đầu và mở rộng quy mô xử lý dữ liệu lớn và cực lớn.
3.1.3.2 Cac thành phần của Apache Spark
Apache Spark gồm một số thành phần chính như Spark Core GraphX, SparkStreaming, Mlib, Spark SQL như thể hiện ở Hình 3.2
MLib (machine learning)
Hình 3.2: Các thành phan chính của Apache Spark
GraphX
(graph)
Spark
nhan OP Streaming
e Spark Core: là nền tảng cho các thành phan còn lại và các thành phan nay
muốn khởi chạy được thì đều phải thông qua Spark Core Spark Core đảm
nhận vai trò thực hiện công việc tính toán và xử lý trong bộ nhớ (In-memory
computing) đồng thời tham chiếu các dữ liệu được lưu trữ tại các hệ thống lưu
trữ bên ngoài.
e Spark SQL: cung cấp một kiểu đữ liệu trừu tượng mới (SchemaRDD) nhằm
hỗ trợ cho cả kiểu dữ liệu có cấu trúc và dé liệu bán cấu trúc Spark SQL hỗtrợ DSL (Domain-specific language) để thực hiện các thao tác trênDataFrames bằng ngôn ngữ Scala, Java hoặc Python va nó cũng hỗ trợ cả ngôn
ngữ SQL với giao diện command-line và ODBC/JDBC server.
e GraphX: là một framework đi kèm với các lựa chọn thuật toán phân tán dé
xử ly cấu trúc đồ thị Nó cung cấp một API đề thực hiện tinh toán biéu đồ có
Trang 35thé mô hình hóa các biểu đồ do người dùng xác định bằng cách sử dung API
đã được tối ưu sẵn Các thuật toán này sử dụng phương pháp tiếp cận RDDcủa Spark Core dé lập mô hình dữ liệu
e Spark Streaming: được sử dụng để thực hiện việc phân tích stream bằng VIỆC
coi stream là các mini-batches và thực hiệc kỹ thuật RDD transformation đốivới các dữ liệu mini-batches này Qua đó cho phép các đoạn code được viếtcho xử lý batch có thể được tận dụng lại vào trong việc xử lý stream, làm choviệc phát triển lambda architecture được dễ đàng hơn Tuy nhiên điều này lạitạo ra độ trễ trong xử lý dữ liệu (độ trễ chính bằng mini-batch duration) và do
đó nhiều chuyên gia cho rằng Spark Streaming không thực sự là công cụ xử lý
streaming giống như Apache Storm hoặc Apache Flink
e MLIib (Machine Learning Library): là một framework học máy phân tán
trên Apache Spark tận dụng khả năng tính toán tốc độ cao nhờ kiến trúc dựa
trên bộ nhớ của Spark.
3.1.3.3 Ưu điểm của Apache Spark
Không chỉ sở hữu các thành phần mang tính năng hữu ích, Apache Spark còn
có nhiều ưu điểm vượt trội
¢ Đơn giản và dễ sử dung: Apache Spark được phát triển để giúp người dùng
tiếp cận dé dang hơn với công nghệ tính toán song song Người ding chỉ cần
trang bị các kiến thức cơ bản về database, lập trình Python hoặc Scala là đã cóthể sử dụng được Đây cũng là điểm khác biệt lớn nhất giữa Apache Spark và
Hadoop.
e_ Khả năng, tốc độ phân tích thời gian thực Ấn tượng: Apache Spark có thé
xử lý hàng loạt các đữ liệu thời gian thực — những dữ liệu tới từ các luồng sựkiện thời gian thực Tốc độ xử lý cực kỳ ấn tượng, lên đến hàng triệu sự kiệnmỗi giây Việc nhận dữ liệu từ nguồn và xử lý đữ liệu diễn ra gần như đồng
Trang 36thời Bên cạnh đó, Apache Spark còn hữu ích cho việc phát hiện gian lận khi thực hiện các giao dịch ngân hàng.
© Được hỗ trợ bởi các thư viện cấp cao: Apache Spark nhận được sự hỗ trợ
của các thư viện cấp cao như truyền đữ liệu trực tuyến, truy vấn SQL, học máy
và xử lý đồ thị Không chỉ giúp tăng hiệu suất cho nhà phát triển, những thư
viện tiêu chuẩn này còn đảm bảo sự kết nói liền mạch cho các quy trình làm
việc phức tạp.
e Kha năng tương thích cao và hỗ trợ nhiều ngôn ngữ lập trình: Apache
Spark có thé tương thích với tat cả các định dạng tệp và nguồn dữ liệu được
hỗ trợ bởi cụm Hadoop Ngôn ngữ lập trình sử dụng được là Scala, Java,
dữ liệu chuỗi thời gian gồm hai thành phần là thời gian (năm, tháng, ngày, giờ, phút,giây) và giá trị ứng với thời gian Hình 3.3 minh họa về đữ liệu chuỗi thời gian, sử
dụng biểu đồ đường để thể hiện tổng số ca nhiễm Covid-19 trên toàn thế giới.
Trang 37Vv vv v VV @ @ @ @& v'@& @& Vogl v'@& vob ve“ œ@ “ @
_¬* +” x6! SE SESE ESSE SE SESE SEES SSS
oe Ss ~ a ve © Es wv a es ag noe RS, ^* ^ wv & Re đ KY ah
: Ặ A
FFF WMH FFF WP FE WH FW v gề F FH FE oF yh về
=@ Cases
Hình 3.3: Biểu đô minh họa dữ liệu chuỗi thời gian về Tổng số ca mắc Covid-19
trên thể giới (Nguồn: COVID Live - Coronavirus Statistics - Worldometer
(worldometers.info))
Một chuỗi thời gian gồm bốn thành phan, những thành phan nay đồng thời tac
động tới chuỗi thời gian:
e Trend (Xu hướng chung): thành phan này chỉ ra xu hướng tổng quan của dữ
liệu theo thời gian: lên hoặc xuống, tăng hoặc giảm.
e Seasonal Variations (Biến động theo mùa vụ): thành phần chỉ ra các xu
hướng theo mùa vụ, chỉ ra các pattern theo thang, theo quý.
e Cyclic Variations (Biến động theo chu kỳ): thành phan chu kỳ, khác
Seasonal Variations ở chỗ thành phần này có sự vận động trong khoảng thời
gian dài hơn (nhiều năm).
e Irregular Movements (Biến động bất thường): thành phan nhiễu còn lại sau
khi trích xuất hết các thành phần ở trên, nó chỉ ra sự bất thường của các điểm
dữ liệu do những biến có ngẫu nhiên không dự báo trước được gây ra.
Trang 38Time Series Analysis (Phân tích dữ liệu chuỗi thời gian) là phương pháp phân
tích số liệu thống kê về các quá trình đã diễn ra, được ghi chép theo các khoảng thời gian nối tiếp nhau với mục tiêu sử dụng kinh nghiệm thu được trong quá khứ dé dự
báo tình hình sẽ xảy ra trong tương lai bat định Hình 3.4 là một vi dụ minh họa về
phân tích chuỗi thời gian dữ liệu giá đồng Bitcoin (BTC) trong quá khứ dé tìm ra quy luật và dự đoán giá trị của đồng Bitcoin trong tương lai.
Hình 3.4: Biéu đô minh hoa Phân tích dữ liệu chuỗi thời gian của dong Bitcoin.
(Nguon: GitHub - shsack/crypto_robot: Bitcoin price prediction using LSTM)
Hiện nay, có nhiều kỹ thuật, phương pháp được sử dung dé phân tích dữ liệu chuỗi thời gian như các mô hình thống kê xác suất, các thuật toán Máy học, Học sâu.
Phần tiếp theo sẽ giới thiệu các mô hình chuỗi thời gian phổ biến hiện nay.
23
Trang 393.2.2 Các kiểu mô hình chuỗi thời gian
Dự báo chuỗi thời gian là một trong những nhiệm vụ phổ biến nhất trên dữliệu chuỗi thời gian Nói tóm lại, dự báo nhằm dự đoán tương lai bằng cách sử dụngkiến thức bạn có thể học được từ lịch sử
3.2.2.1 Dự báo chuỗi thời gian sử dụng kiểu thống kê truyền thống
(Traditional Statistical (TS) Style)
Theo kiểu thống kê truyền thống, bài toán dự báo chuỗi thời gian được xây
dựng với các mô hình thống kê và toán học cơ bản Thông thường, một mô hình chỉ
có thé xử ly một chuỗi thời gian và được huấn luyện với toàn bộ chuỗi thời gian trước
mốc thời gian được quan sát cuối cùng (Last observed timestamp) và dự đoán một
vài bước tiếp theo (Hình 3.5) Mỗi khi thay đổi mốc thời gian quan sát được cuốicùng thì phải huấn luyện mô hình lại từ đầu
Traditional Statistical(TS) Style: Ìsgearwsri tinnrtamp
+
Time AA@$}] mR
RS NF SL
Input(x) Output(y)
Hình 3.5: Dự báo chuỗi thời gian kiểu thống kê truyền thống (Nguôn: Time Series
Forecasting Overview — BigDL documentation)
Đối với mô hình theo kiểu thống kê truyền thống, chi có thé dự đoán nhiềuhơn một điểm dé liệu trong tương lai (Multi-Step) và không thé dự đoán nhiều hơnmột biến củng một lúc (Multi-Variate) Ví du, cùng một khoảng thời gian, thống kêtruyền thống không thẻ vừa dự báo nhiệt độ, vừa dự báo độ âm, tốc độ gió
Trang 403.2.2.2 Dự báo chuỗi thời gian sử dụng kiểu hồi quy thông thường
(Regular Regression (RR) Style)
Trong những nam gần đây, các kiến trúc học sâu phổ biến (ví dụ: RNN, CNN,Transformer, v.v.) đang được áp dụng thành công cho vấn đề dự báo Dự báo đượcchuyển đổi thành một bài toán hồi quy học có giám sát Một mô hình theo kiểu hồiquy thông thường có thê xử lý nhiều chuỗi thời gian cùng lúc
Không giống như mô hình kiểu thống kê truyền thống, mô hình kiểu hồi quythông thường khi dự đoán yêu cầu đầu vào cần có một đoạn giá trị trước đó (gọi làlookback) đề có thé đưa ra dự đoán cho các bước tiếp theo (gọi là horizon) (Hình 3.6)
Vi dụ, khi dự báo giá đóng cửa của một cổ phiếu trong 7 ngày tiếp theo thì cần phảiđưa vào mô hình giá đóng cửa của cổ phiếu này trong 60 ngày trước đó Do đó, môhình theo kiểu hồi quy thông thường có thé dự đoán các mốc thời gian khác nhau màkhông nhất thiết phải huấn luyện lại như mô hình kiều thống kê truyền thống
Đối với mô hình theo kiểu hồi quy thông thường, vừa có thé dự đoán nhiềuhơn một điểm dữ liệu trong tương lai (Multi-Step) và vừa có thé dự đoán nhiều hơnmột biến cùng một lúc — đa biến (Multi-Variate) Ví dụ, cùng một khoảng thời gian,
mô hình theo kiêu hồi quy thông thường có thé vừa dự báo nhiệt độ, vừa dự báo độ
Am, tốc độ gió
Regular Regression(RR) Style: next sample x ‘next sample y
Target 1[ |
Target 2 Extra Feature 1
Extra Feature 2] |
Time + + >
sampled input(x) sampled output(y)
lookback=6 horizon=4 input feature num=4 output feature num=2
Hình 3.6: Dự báo chuỗi thời gian sử dung hồi quy thông thường cho mô hình học
sâu (Nguồn: Time Series Forecasting Overview — BigDL documentation)