Khóa luận tốt nghiệp Khoa học dữ liệu: Dự báo luồng giao thông với mô hình chuỗi thời gian đa biến sử dụng BIGDL

Trong luận văn này, chúng tôi sẽ tập trung nghiên cứu, xây dựng các mô hình chuỗi thời gian đơn biến và đa biến dựa trên thư viện học sâu phân tán BigDL với các mô hình học máytruyền thố

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

TRINH NGỌC PHÁP

TRAN NGUYEN ANH KHOA

KHOA LUAN TOT NGHIEP

DU BAO LUONG GIAO THONG VỚI MÔ HÌNH CHUOI

TRAFFIC FLOW FORECASTING WITH MULTIVARIATE TIME

SERIES MODEL USING BIGDL

CU NHAN NGANH KHOA HOC DU LIEU

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

TRINH NGỌC PHÁP - 18521227

TRAN NGUYEN ANH KHOA - 18520938

KHOA LUAN TOT NGHIEP

DU BAO LUONG GIAO THONG VỚI MO HÌNH CHUOI

THỜI GIAN DA BIEN SỬ DỤNG BIGDL

TRAFFIC FLOW FORECASTING WITH MULTIVARIATE TIME

SERIES MODEL USING BIGDL

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS NGUYEN THANH BiNH

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ccc+

NAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Nhóm sinh viên thực hiện đề tài chân thành cảm ơn Tiến sĩ Đỗ Trọng Hợp và

Tiến sĩ Nguyễn Thanh Bình đã đồng hành và tận hình hướng dẫn chúng tôi trong suốtquá trình học tập và nghiên cứu đề hoàn thành khóa luận Thay đã luôn theo dõi, giúp

đỡ cũng như định hướng cho chúng tôi trong quá trình nghiên cứu và thực hiện dé tài

từ những ngày đầu tiên Dưới sự hướng dẫn của thầy, nhóm sinh viên chúng tôi có cơhội được phát triển kỹ năng nghiên cứu, mở mang sự hiểu biết với nhiều kiến thứcchuyên môn bồ ích, có tính ứng dụng cao

Bên cạnh đó, chúng tôi cũng chân thành cảm ơn các thầy cô trong khoa Khoahọc và Kỹ thuật Thông tin và các thầy cô trong trường Đại học Công nghệ Thông tin

- Đại học Quốc gia Thành phố Hồ Chí Minh đã giảng dạy những kiến thức và kỹ năngnên tảng, bổ ich cho chúng tôi trong suốt bốn năm học tập tại trường Các thầy côchính là người đã đặt viên gạch đầu tiên cho chặng đường sự nghiệp sắp tới của chúng

toi.

Tuy nhién, do vốn kiến thức và kinh nghiệm còn nhiều hạn chế, mặc dù nhóm

đã cô gắng hết sức nhưng chắc chắn bài báo cáo khó có thể tránh khỏi những thiếusót và nhiều chỗ còn chưa chính xác, kính mong quý thầy cô xem xét và góp ý đề

luận văn của nhóm được hoàn thiện hơn.

Trang 5

Chuong 1 MỞ DAU

1.1 Đặt vấn đề

1.2 Mục tiêu và phạm vi nghiên cứu ¿- ¿+ t+ccckeEckeretrrkerkrkirrrree 5

In ao 5

1.2.2 Phạm vi nghiên CỨU - 5+5 k‡xvEvEtrkExexererkrkrrerrrrrkrkrkerrrrivl 6

Chuong 2 TONG QUAN

2.1 Giới thiệu bài toán

2.2 Tình hình nghiên cứu trên thé giới -¿-+- + +s++++t+x+xexvrvetsxerrrrvskerrree 8 2.3 Tinh hình nghiên cứu trong nước

Chương 3 CƠ SỞ LÝ THUYÊT ©©©©©©©*****ttEtEEtrtrtrtrrrrde 15

3.1 Big Data “ẾP: Ả ễ Live 15 3.1.1 Khái niệm Big Data

3.1.2 Các đặc điểm của Big Data -222:2222222cc2222EErrrtrkrrrrrrrrrrrrree 16

3.1.3 Apache Spark - s-++ct nh H11 1111k rkrrkee 18

3.1.3.1 Giới thiệu Apache Spark 5+ c+sxstcesrvretstererrrvrsrerrrr 18

3.1.3.2 Các thành phần của Apache Spark -.+c- - 93.1.3.3 Ưu điểm của Apache Spark -:22222cccccccvvvrrrrrrrrrcree 20

3.2 Phân tích dữ liệu chuỗi thời gian ¿-5222¿222++t2cxvrerktrrerkkrrrrkrrrer 21 3.2.1 Giới thiệu.

3.2.2 Các kiểu mô hình chuỗi thời gian . : ©222cz22222vzcsevczveccez 243.2.2.1 Dự báo chuỗi thời gian sử dụng kiểu thống kê truyền thống

(Traditional Statistical (TS) StyÏ€) ác ccssteterrrrrrrrrrrirrrrrerer 24

3.2.2.2 Dự báo chuỗi thời gian sử dụng kiểu hồi quy thông thường

Trang 6

3.2.3 Mô hình Prophet ¿- 5+ 5+ thề ren 26 3.2.3.1 The Trend Model

KP 2 ) 28 3.2.3.3 Holidays and Events Model - - s+s+s++xsxsxerereresrsrrre 28 3.2.4 Mô hình ARIMA 2-5222 2 HH Hước 30 3.2.4.1 AutoRegression (AR) cccténHHHrưc 30 3.2.4.2 Moving Average (MA) cty 30 3.2.4.3 Integrated (Ï) -c che 31

3.2.5 Mô hình Long-Short Term Memory (LSTM) - 31

3.2.5.1 Giới thiệu tổng quan c. 2222ccsS222xEcrrSEEEkrrrrrrkce 31

3.2.5.2 Forget gate.

3.2.5.3 Input gaf€ th re 35

3.2.5.4 Output gaf€ Ăs Q22 re 36

3.2.6 Mô hình Temporal Convolutional Network (TƠN) -.-‹- 37 3.2.6.1 1D Convolutional Network - 7c sxccererkerrkerkervee 37 3.2.6.2 Causal Convolufion + cccscssesxeersrsrerrrerrrrrrrrrree 39 3.2.6.3 Residual Block -cccttntìnhHHưườ 44 3.2.7 Mô hình NBeats - con tt ườờ 46

3.2.7.1 Time Series Input +-+cc+sxcctsrtrrerrrerrerrrrrrrerrer 47

Trang 7

3.2.8.2 DecOdET co nhờn 53 3.3 Distributed Deep Learning

3.3.1 Data Parallelism và Model Parallelism - - - <5 5555<++ 55 3.3.1.1 Data Parallelism c-cc Set stethhhehhieerec 55 3.3.1.2 Model Parallelism c.ccccecccessessessesesseseeseseeseesessssessesseesssnsseeseenes 57 3.3.2 BigDL, HH H1 1g tờ 57

Chương 4 _ PHƯƠNG PHÁP c -22csseccvvvvsetrtrrvessrrrrree 594.1 Tổng quan kiến trúc hệ thống -2:¿¿222v+c++tecvvvrrrrrrrseccsrrrv -Ø4.2 Chuẩn bị dit liệu -c22222ctttHHnnHHHHHHHrrrere 59

4.2.1 Thu thập dữ liGt ccessssssssssssssssssssssssssssssvssssssssssssssssessesssssssssssessesseseessenes 61

4.2.2 Tiền xử lý dữ liệu -2+¿2222 2222221111222 E211 eccrri 624.2.3 Trích xuất đặc trưng mới ::-22++++222E++z+ttttrxxrrrrrrrvrrrerrrr 64

4.3 Xây dựng các mô hình trong BigDL, ¿ +-55+5c+5scs++cccxss+ 66

4.3.1 Huấn luyện song song và phân tán trong BigDL

4.3.2 Ap dụng các mô hình trong Chronos ::-©s++22ssccczz 68

4.4 Đánh giá và phân tíÍch - 5:55 3S txeersrrrkrtsrsrrrrrrrrsrrrrrrrrrer 69

4.5 Xây dựng ứng dụng dự đoán luồng giao thông :-ccc.sccc+ 70Chương 5 THỰC NGHIỆM VÀ ĐÁNH GIA ccccsseccccse 72

5.1 Môi trường thực nghiệm cà ctsrrekererererierrrrrrriii 12 5.2 BO dit QU na 72

5.3 Kết quả thực nghiệm và đánh giá -22222c++ctcc222EEEEvvvvrvrrrrrrrrrrr 755.3.1 So sánh hiệu suất phân loại chung các mô hình - 755.3.2 So sánh hiệu suất du báo tai cảm biến khác mhau 715.3.3 So sánh hiệu suất dự báo tại các giờ khác nhau trong ngày

Trang 8

5.3.4 So sánh hiệu suất dự báo tại các ngày khác nhau trong tuần 795.3.5 So sánh hiệu suất dự báo khi được huấn luyện với độ dài dữ liệu khác

nhau 80

II 81

5.4 Kết qua xây dung ứng dụng -.2-:-2222222222222122 2222111212211 82Chương 6 KET LUẬN VÀ HƯỚNG PHAT TRIÊN 836.1 Kết luận 2s 25c 2ESxE2E11E2111172111122111 2.112 E1 re 836.2 Hướng phát triển .22:-2222222+22222112122221111221211122211111 2.1.1 re 84

Trang 9

DANH MỤC HÌNH

Hình 2.1 Kết quả thực nghiệm của Shengdong Du và các cộng sự

Hình 2.2: Kết quả thực nghiệm của Yuhan Jia và các cộng sự 9

Hình 2.3: Kết quả thực nghiệm của Wentian Zhao và các cộng sự 10

Hình 2.4: Kết quả thực nghiệm của Saiqun Lu và các cộng sự 10

Hình 2.5: Kết quả thực nghiệm của Hong Thanh Pham và các cộng sự 11

Hình 2.6: Kết quả thực nghiệm của Quang Hung Do và các cộng sự 12

Hình 2.7: Sai số trong dự đoán tổng thé bằng các phương pháp khác nhau 12

Hình 2.8: Anh hưởng của rolling horizon (Q) đến độ chính xác của du đoán 13

Hình 2.9: Hiệu suất của mô hình đề xuất va các mô hình truyền thống 14

Hình 2.10: So sánh thông số thống kê giữa LSTM va CNN : 14

Hình 3.1: 5 đặc điểm của Big Data - co ccttEttttrirrrrrrrrrrriirrrrrre 16 Hình 3.2: Các thành phần chính của Apache Spark Hình 3.3: Biểu đồ minh họa dữ liệu chuỗi thời gian về Tổng số ca mắc Covid-19 trên thế giới (Nguồn: COVID Live - Coronavirus Statistics - Worldometer (worldometers.info)) Hình 3.4: Biểu đồ minh hoa Phân tích dữ liệu chuỗi thời gian của đồng Bitcoin (Nguồn: GitHub - shsack/crypto_ robot: Bitcoin price prediction using LSTM) 23

Hình 3.5: Dự báo chuỗi thời gian kiểu thống kê truyền thống (Nguồn: Time Series Forecasting Overview — BigDL documentation) - -cecece-ceee-e-e- 24t Hình 3.6: Dự báo chuỗi thời gian sử dụng hồi quy thông thường cho mô hình học sâu (Nguồn: Time Series Forecasting Overview — BigDL documentation) 25

Trang 10

Hình 3.10: Cell state trong mạng LSTM (Nguồn: Understanding LSTM Networks

-= COlah'S DIO’) 43 33

Hình 3.11: Cổng (gate) trong mạng LSTM (Nguồn: Understanding LSTM

Networks colah's blOg) c2 2222x222 33

Hình 3.12: Lớp cổng quên (forget gate layer) trong mạng LSTM (Nguồn:

Understanding LSTM Networks colah's blog)

Hình 3.13: Lớp cổng vào (input gate layer) kết hợp với lớp tanh đê xác định thôngtin mới sẽ lưu vào trạng thái tế bào (Nguồn: Understanding LSTM Networks

colah's blog)

Hình 3.15: Quá trình xác định những thông tin nào từ trạng thái tê bào (cell state)

được str dụng như dau ra (Nguồn: Understanding LSTM Networks colah's blog)

Hình 3.16: Quá trình tính toán từ tensor đầu vào thành tensor đầu ra của mạng tíchchập một chiều (1D Convolutional Network) (Nguồn: Temporal Convolutional

Networks and Forecasting - Unit) ¿- ¿+5 tt E2 11211211211 38

Hình 3.17: Quá trình tính toán từ tensor đầu vào thành tensor đầu ra với kernel có

kích thước như một ma trận hai chiều (N guồn: Temporal Convolutional Networks

and Forecasting - Unit8).

Hình 3.18: Thêm vùng đệm có giá trị 0 ở chuỗi đầu vào (Nguồn: Temporal

Convolutional Networks and Forecasting - Unit8) -‹- «+

Hình 3.19: Mở rộng phạm vi phụ thuộc cho phần tử đầu ra bằng cách xếp chồng

nhiều lớp đầu vào lên nhau (Nguồn: Temporal Convolutional Networks and

Forecasting - Unit8)

Hình 3.20: Lớp đầu vào với mức giãn nở bằng 2 (2-dilated layer) (Nguồn:

Temporal Convolutional Networks and Forecasting - Unit8) - 42

Hình 3.21: Sự giãn nở tại các lớp đầu vào (Nguồn: Temporal Convolutional

Networks and Forecasting - Unit8) ¿se ssxeeeeeeeeereerrrrr 2)

Trang 11

Hình 3.22: Minh họa về vấn đề lỗ hồng tại trường tiếp nhận (Nguồn: Temporal

Convolutional Networks and Forecasting - Umit8) -s-sc5cscsxsxerererere 43

Hình 3.23: Tổng quan về mang TCN cơ bản (Nguồn: Temporal Convolutional

Networks and Forecasting - Unit8) - - ¿- s5: 2ccctsrerertrtrrrerrrrrrrrrirrerrree 44

Hình 3.24: Một số cải tiến trong mô hình TCN (Nguồn: Temporal Convolutional

Networks and Forecasting - Unit) -¿- «+ tt E2 1211211 11H 45

Hình 3.25: Kiến trúc tổng quát của mô hình TCN (Nguồn: Temporal Convolutional

Networks and Forecasting - Unit8)

Hình 3.26: Kiến trúc tổng quát của mô hình NBeats (Nguồn: A deep learning

approach to solar radio flux forecasting)

Hình 3.27: Chuỗi thời gian tại thời điểm đang xem xét (Nguồn: A deep learning

approach to solar radio flux forecasting) -‹ ccc+ccstccerererrrrsrerrrierrree 47

Hình 3.28: Basic Block (Nguồn: A đeep learning approach to solar radio flux

forecasting)

Hình 3.29: Cấu trúc bên trong Basic Block (Nguôn: A deep learning approach to

solar radio flux forecasting) cccceceeseeesceseseseeseeteseesestesecsessseeessenssessseeseeseeneeesee! 48

Hình 3.30: Cấu trúc bên trong Stack (Nguồn: A deep learning approach to solar

radio flux forecasting)

Hình 3.31: Thiết kế các Stack (Nguồn: A deep learning approach to solar radio flux

forecasting)

Hình 3.32: Kiến trúc mô hình Seq2Seq (Nguồn: Introduction to Encoder-Decoder

Sequence-to-Sequence Models (Seq2Seq) (paperspace.com))

Hình 3.33: Thành phan Encoder trong mô hình Seq2Seq (Nguồn: Understanding

Encoder-Decoder Sequence to Sequence Model | by Simeon Kostadinov | Towards

Data Science)

Hình 3.34: Thanh phan Decoder trong mô hình Seq2Seq (Nguôn: Understanding

Encoder-Decoder Sequence to Sequence Model | by Simeon Kostadinov | Towards

Data 8019200 53 Hình 3.35: Song song hóa mô hình và Song song hóa dữ liệu

Trang 12

Hình 3.36: Song song hóa đữ liệu (Nguồn: Anyscale - What is distributed

Hình 4.6: Mô hình thực thi trong Spark

Hình 4.7: Mô hình quá trình lan truyền xuôi và ngược (model forward-backward)

Hình 4.8: Quá trình đồng bộ hóa tham số (parameter synchronization) 68Hình 4.9: Ludng thiết kế ứng dụng với Google Colab, Stremlit và Ngrok

Hình 5.1: Google Colab .

Hinh 5.2: Két quả hiệu suất dự báo trên tập Test của các mô hình T5Hình 5.3: Biểu đồ đường dự đoán của mô hình LSTM tại cảm biến có ID là 1253.76Hình 5.4: Kết quả hiệu suất dự báo tại các cảm biến 22: c2ccccczxcctrxeerrree 77Hình 5.5: Kết quả hiệu suất dự báo tại các giờ khác nhau trong ngày 78Hình 5.6: Kết quả hiệu suất du báo tại các ngày khác nhau trong tuần 79Hình 5.7: So sánh hiệu suất khi độ dài dữ liệu huấn luyện khác nhau 80

Hình 5.8: So sánh hiệu suất khi tinh cập nhật dữ liệu huấn luyện khác nhau 8 ÍHình 5.9: Ảnh chụp màn hình của ứng dung mô phỏng hệ thống dự báo luồng giao

Trang 13

DANH MỤC BẢNG

Bang 4.1: Mô hình và các bộ tham số tối ưu tương ứng -: -c::+2ccc+2Bang 5.1: Bang thông tin chi tiết từng thuộc tính của bộ đữ liệu

Trang 14

DANH MỤC TỪ VIET TAT

STT Từ viết tắt Ý nghĩa

1 API Application Programming Interface

2 AR Auto Regression

3 ARIMA AutoRegressive Integrated Moving Average

4 CNN Convolutional Neural Network

5 CPU Central Processing Unit

6 DBN Deep Belief Network

7 DL Deep Learning

8 GPU Graphics Processing Unit

9 GRU Gated Recurrent Units

10 I Integrated

11 ITS Intelligent Transportation System

12 LSTM Long Short-Term Memory

Trang 15

17 RMSE Root Mean Square Error

18 RNN Recurrent Neural Network

19 sMAPE Symmetric Mean Absolute Percentage of Error

20 Seq2Seq Sequence-to-sequence

21 TCN Temporal Convolutional Network

Trang 16

TÓM TÁT KHÓA LUẬN

Thế giới đang ngày càng phát triển với lượng dân số ngày một tăng dần kéotheo sự gia tăng lớn về số lượng các phương tiện giao thông lưu thông trên đường,điều này có tác động không nhỏ đối với cơ sở hạ tầng giao thông, gây ra sự khó khăntrong việc quản lý, điều tiết giao thông Việc phân tích và đưa ra những dự đoán chính

xác về lưu lượng giao thông trong tương lai đóng vai trò quan trọng trong việc quản

lý và điều tiết giao thông Do đó, dự đoán luồng giao thông là một trong những vấn

đề quan trọng và nhiều thách thức Đây là một bài toán thú vị thu hút được sự quantâm của các nhà nghiên cứu từ quá khứ cho đến thời điểm hiện tại Trong luận văn

này, chúng tôi sẽ tập trung nghiên cứu, xây dựng các mô hình chuỗi thời gian đơn

biến và đa biến dựa trên thư viện học sâu phân tán BigDL với các mô hình học máytruyền thống, mô hình học sâu đề phục vụ cho bài toán dự đoán luồng giao thông, sau

đó tiến hành so sánh sự cải thiện trong hiệu suất dự đoán giữa các mô hình chuỗi thờigian đa biến so với mô hình đơn biến trong bài toán dự báo luồng giao thông Luậnvăn có một số đóng góp chính như sau:

e_ Xây dựng hệ thống dự đoán luồng giao thông sử dụng các mô hình Machine

Learning, Deep Learning trên nền tảng tính toán song song và phân tan

thêm nguồn dé liệu thời tiết và trích xuất đặc trưng về đồ thị vào bộ dé liệu

giao thông ban đầu nhằm nâng cao hiệu suất của hệ thống

e Áp dụng vào hệ thống nhiều mô hình Machine Learning, Deep Learning khác

nhau cũng như áp dụng mô hình đơn biến và đa biến

Trang 17

Chương 1 MỞ DAU

1.1 Dat vấn đề

Các quốc gia trên thế giới đang ngày càng phát triển đi cùng với quá trình đôthị hóa nhanh chóng, dẫn đến sự ra đời và phát triển của các đô thị, thành phố, thậmchí là các siêu đô thị tại các quốc gia có đông dân số Bên cạnh những lợi ích mà

chúng mang lại về mặt kinh tế như góp phan day nhanh tốc độ tăng trưởng kinh tế,

chuyền dịch cơ cấu kinh tế và cơ cầu lao động, làm giảm tỉ lệ thất nghiệp; chúng tacũng phải đối mặt với vô vàn van dé khó khăn, thử thách như tinh trạng bùng né dân

số, an ninh xã hội không đảm bảo, ô nhiễm môi trường, ùn tắc giao thông, v.v Trong

đó, ùn tắc giao thông là một trong những vấn đề nóng luôn được quan tâm thườngxuyên Un tắc giao thông là một van nạn không chỉ riêng của Việt Nam mà còn trên

cả thế giới, chúng đang gây ra những hậu quả xấu cho con người như gây thiệt hại vềnên kinh tế, gây mắt thời gian, nó còn khiến cho chúng ta phải chịu đựng những hậuquả về môi trường như 6 nhiễm tiếng òn, ô nhiễm không khí do lượng khí thải vàkhói bụi mà chúng ta hít phải khi ùn tắc, bầu không khí trong các đô thị lớn bị nhiễm

khói bụi, bụi mịn, gây tý lệ mắc các bệnh lý về đường hô hap, viêm phổi, ung thư cao

gấp nhiều lần so với thông thường Ngoài ra, ùn tắc giao thông cũng khiến tiêu tốn

thêm một lượng lớn nhiên liệu đê vận hành phương tiện, với các phương tiện di

chuyền gần nhau dễ dẫn đến các va chạm, tai nạn đáng tiếc khi tham gia giao thông.

Với những hậu quả mà ùn tắc giao thông gây ra, việc tìm ra giải pháp để giảm thiểutình trạng này là vô cùng quan trọng, cấp thiết

Tình trạng ùn tắc giao tắc giao thông diễn ra bắt nguồn từ rất nhiều nguyênnhân Ý thức chấp hành chưa được tốt của người dân khi tham gia giao thông là mộttrong những nguyên nhân chủ yếu Mặc dù các tuyến đường đã được trang bị hệ thông

đèn giao thông, phân làn di chuyền rõ ràng nhưng vẫn có không ít trường hợp vượt

đèn đỏ, lan sang làn khác hoặc đi ngược chiều dẫn dén tinh trang ùn tắc kéo dai tạicác tuyến đường Tại các quốc gia trên thế giới, ở các thành phó lớn, đô thị, số người

Trang 18

của quá trình đô thị hóa, đặc biệt là các quốc gia đang trên đà phát triển như ViệtNam, khi có quá nhiều phương tiện tham gia giao thông tại cùng thời điểm cũng sẽdẫn đến tinh trạng ùn tắc giao thông do cơ sở hạ tang giao thông chưa đáp ứng đượcnhu cầu tham gia giao thông của người dân, chưa được cải tạo, nâng cấp đúng mứcvới số lượng người dân cũng là nguyên nhân chính gây ra ùn tắc giao thông Bên cạnh

đó, yếu tố về thời tiết cũng được xem như là một yếu tố ảnh hưởng đến luồng giaothông di chuyền trên các tuyến đường

Hiện nay, nhiều giải pháp đã được đề xuất và áp dụng với mong muốn giảmthiểu tình trạng ùn tắc giao thông Một số giải pháp đã được áp dụng vào thực tế như:xây dựng, mở rộng đường giao thông, quy hoạch cơ sở hạ tầng đáp ứng nhu cầu phát

triên tăng lên của phương tiện vận tải; tăng cường xử phạt nặng các trường hợp vi

phạm giao thông; tính toán điều chỉnh thời gian chờ đèn đỏ thích hợp với từng điều

kiện giao thông khác nhau; tăng cường lực lượng cảnh sát giao thông hỗ trợ điều tiết,

điều khiển giao thông, v.v Tuy nhiên, cho đến thời điểm hiện tại, bài toán giải quyết

ùn tắc giao thông vẫn chưa có nhiều chuyền biến đáng kể, đây vẫn luôn là một van

dé nóng đáng quan tâm với mục tiêu cần tìm ra một giải pháp hiệu qua hơn, ít tiêutốn chi phí, tài nguyên cũng như công sức Mau chốt của ùn tắc giao thông nằm ở sựthay đổi đột ngột lưu lượng của các luồng giao thông nên việc tạo ra một mô hình cókha năng dự báo lưu lượng luồng giao thông tương lai, từ đó phát triển thành một hệthống dự báo luồng giao thông hỗ trợ việc đưa ra quyết định điều tiết giao thông kipthời là một hướng giải quyết đầy tiềm năng, hứa hẹn, có khả năng ứng dụng cao đềgiải quyết nhu cầu thực tiễn

Bài toán dự báo chuỗi thời gian được ứng dụng trong nhiều lĩnh vực như dựbáo thời tiết, dự báo kinh tế, dự báo chăm sóc sức khỏe, dự báo tài chính, dự báo bán

lẻ, dự báo giao thông, v.v và đã được giải quyết hiệu quả bằng mô hình xác suất,thống kê truyền thống AutoRegressive Integrated Moving Average (ARIMA) Trong

những năm gần đây, thế giới ngày càng phát triển bùng nỗ về công nghệ thông tin,

đặc biệt là trí tuệ nhân tạo với các sự ra đời của các mô hình học máy, học sâu đã cho

Trang 19

hiệu suất tốt hơn nhiều so với các mô hình truyền thong như ARIMA Các mô hìnhhọc sâu tiêu biểu hiện nay phải đề cập đến như mạng nơ-ron hồi quy (RecurrentNeural Network - RNN), mạng bộ nhớ ngắn hạn dài (Long Short-Term Memory -LSTM), v.v Như chúng ta đã biết, đữ liệu là một thành phần quan trọng, không thểtách rời so với mô hình và có ảnh hưởng không hề nhỏ đến hiệu suất của mô hình.

Dữ liệu huấn luyện càng nhiều với chất lượng càng cao thì hiệu suất dự đoán, chất

lượng của mô hình cũng sẽ tỉ lệ thuận Trong thời đại bùng nỗ về kỹ thuật số, bùng

nổ về công nghệ như hiện nay, với lượng dữ liệu không lồ được sinh ra tính theo từng

giây từ rất nhiều nguồn khác nhau: phần mềm, ứng dụng, cảm biến, mạng xã hội, v.v

và dé giải quyết van dé này, khái niệm Big Data (Dữ liệu lớn) đã ra đời Dữ liệu giaothông hiện đang bùng nổ với sự xuất hiện của các công nghệ cảm biến giao thôngmới bên cạnh với các cảm biến giao thông truyền thống phỏ biến hiện nay, việc quản

lý và kiểm soát giao thông ngày nay đang trở nên dựa trên dữ liệu nhiều hơn Dữ liệulớn vừa là thuận lợi cũng vừa là thách thức đối với các mô hình máy học, học sâu.Một trong những thách thức, khó khăn thường gặp nhất đó là gây tốn rất nhiều thời

gian trong quá trình xử lý và huấn luyện dữ liệu lớn Thời gian xử lý có thé mắt đến

vài ngày, hoặc có thể vài tuần, thậm chí trong trường hợp xấu nhất đó là không thể

xử lý được vì lượng dữ liệu lớn đến mức các cơ sở hạ tang, tai nguyên hệ thống không

đủ đáp ứng Dé giải quyết những van đề nêu trên, trong luận văn này, chúng tôi taptrung nghiên cứu phương pháp huấn luyện các mô hình học sâu dựa trên nguyên lý

tính toán phân tán gọi là Học sâu phân tán (Distributed Deep Learning) với sự hỗ trợ

của thư viện BigDL, đồng thời kết hợp so sánh và đánh giá hiệu suất giữa các môhình truyền thống và mô hình học sâu, cũng như hiệu suất giữa các mô hình đơn biến

va đa biến dựa trên tập dữ liệu mà chúng tôi đã xây dựng thông qua quá trình thuthập, tích hợp và trích xuất dit liệu với các thông tin về lưu lượng giao thông, thờitiết, yếu tố đồ thị về sự kết nối liên thông giữa các cảm biến trên các tuyến đường.Chúng tôi mong muốn xây dựng một hệ thống dự báo luồng giao thông hiện đại vàhiệu quả, có thể áp dụng vào thực tiễn

Trang 20

1.2 Muc tiêu và phạm vi nghiên cứu

liệu thực tế, đáng tin cậy để phục vụ cho việc nghiên cứu hiệu suất của mô hình chuỗi

thời gian đa biến do đa số các bộ dữ liệu chuỗi thời gian về giao thông chỉ phục vụcho việc phát triển mô hình chuỗi thời gian đơn biến Do đó, chúng tôi mong muốnkết hợp nhiều đặc trưng liên quan có ảnh hưởng tích cực vào bộ dữ liệu giao thôngban đầu, huấn luyện mô hình theo kiểu đa biến để nâng cao kết quả dự báo của hệ

thống Các mục tiêu cụ thể của đề tài được trình bày như sau:

e Tìm hiểu và khảo sát các công trình nghiên cứu liên quan đến bài toán du báo

giao thông và mô hình phân tán.

e Kết hợp các đặc trưng về thời tiết và đồ thị vào bộ dữ liệu giao thông, xây

dựng một bộ dữ liệu với nhiều đặc trưng phục vụ cho việc phát triển mô hình

e Thửnghiệm huấn luyện mô hình với sự khác nhau về nhiều khía cạnh như loại

mô hình, khoảng dit liệu, các đặc trưng được lựa chon.

thời gian trong thực tế

Trang 21

1.2.2 Pham vi nghiên cứu

Trong luận văn này, chúng tôi tập trung nghiên cứu về các mô hình dự báochuỗi thời gian và phương pháp xây dựng hệ thống phân tán Mô hình dự báo chuỗithời gian được áp dung cho dé tài giao thông, cụ thé dự báo số lượng phương tiệngiao thông tại các tuyến đường ở các thời điểm cách nhau một giờ Các mô hình dựbáo được sử dụng trong đề tài bao gồm các mô hình truyền thống như ARIMA và các

mô hình hiện đại như LSTM, NBeats Các mô hình được huấn luyện theo cả haiphương pháp đơn biến, đa biến và dự đoán trên bộ dữ liệu giao thông tại một số tuyếnđường ở Ireland trong vòng một năm 2021 được cung cấp bởi Transport InfrastructureIreland và được kết hợp mở rộng với các đặc trưng mới do nhóm nghiên cứu xây

dựng.

Trang 22

Chương 2 TONG QUAN

Trong chương nay, chúng tôi sẽ giới thiệu về bài toán du báo luồng giao thông

cũng như trình bảy tông quan các nghiên cứu liên quan đến bài toán này

2.1 - Giới thiệu bài toán

Dy báo luồng giao thông thuật ngữ tiếng Anh là Traffic Flow Forecasting làmột phần thiết yếu của hệ thống giao thông thông minh (Intelligent TransportationSystem - ITS) Mục tiêu của dự báo luồng giao thông là đưa ra các dự báo lưu lượnggiao thông trong tương lai Bài toán dự báo luỗng giao thông là một bài toán theochuỗi thời gian dé ước tính lưu lượng giao thông tại một hoặc nhiều thời điểm trongtương lai dựa trên đữ liệu thực tế được thu thập trong các khoảng thời gian trong quá

khứ Dữ liệu giao thông trong quá khứ có thê được thu thập từ nhiều nguồn khác nhau

như các nguồn cảm biến, máy ảnh, ra đa, hệ thống định vị toàn cầu di động, các nguồncung cấp cộng đồng hay phương tiện truyền thông xã hội, v.v Với sự phát triển pháttriển của khoa học công nghệ, các hệ thống cảm biến ngày càng được sử dụng rộngrãi trên các tuyến đường dé ghi lại dữ liệu đã khiến cho đữ liệu về giao thông đangbùng nổ với kích thước lớn dần theo thời gian Do đó, nhu cầu về việc xử lý, phântích dữ liệu về giao thông theo thời gian ngày càng được chú ý hơn, đặc biệt trong kỷ

nguyên Big Data hiện nay.

Đối với hệ thống dự báo lưu lượng giao thông, có rất nhiều mô hình được déxuất, phổ biến là các mô hình thông kê, xác suất truyền thống như AutoRegressiveIntegrated Moving Average (ARIMA) Tuy nhiên, các mô hình truyền thống nàythường cho kết quả không cao, chưa thực sự hữu ích cho bài toán này Do đó, trongnhững năm gần đây, với sự phát triển của các mô hình Deep Learning trong nhiều bàitoán như xử lý ảnh, xử lý ngôn ngữ tự nhiên, các nhiệm vụ phân loại, phát hiện đối

tượng, v.v và bài toán dự báo chuỗi thời gian cũng không ngoại lệ Các thuật toánDeep Learning sử dụng kiến trúc nhiều lớp hoặc kiến trúc sâu phức tạp dé trích xuất

các đặc trưng có trong dữ liệu từ cấp thấp nhất đến cấp cao nhất và chúng có thé khám

Trang 23

phá lượng lớn cấu trúc trong dữ liệu Bên cạnh sự phát triển về mặt kỹ thuật lý thuyết

như các thuật toán Deep Learning, ngành công nghiệp khoa học máy tính còn phát

triển về cầu hình phần cứng với các hệ thống máy tính, siêu máy tính với cấu hìnhmạnh mẽ dé đáp ứng phù hợp với các thuật toán Deep Learning Điển hình là việc ápdụng các mô hình Deep Learning vào các hệ thống phân tích dữ liệu lớn như Apache

Spark trong bài toán dự báo chuỗi thời gian

2.2 _ Tình hình nghiên cứu trên thế giới

Bài toán dự báo lưu lượng luồng giao thông hay dự báo tốc độ giao thông là

một bài toán luôn được giới nghiên cứu khoa học trong và ngoài nước quan tâm Năm

2017, Shengdong Du và các cộng sự [1] đề xuất một framework học sâu kết hợp đề

dự đoán luồng giao thông ngắn hạn (viết tắt là HDTF) Nó được xây dựng bằng kiếntrúc học sâu tích hợp nhiều lớp và cùng tìm hiểu các đặc trưng về không gian-thờigian (spatial-temporal features) Framework bao gồm mang Long Short-TermMemory (LSTM) va mang Convolutional Neural Networks (CNN) Phuong phap déxuất sử dung các đơn vị LSTM đề nắm bắt các phụ thuộc thời gian dai (long temporaldependencies) va CNN dùng dé nắm bắt các đặc điểm xu hướng cục bộ (local trendfeatures) Phương pháp đề xuất được so sánh với các mô hình truyền thống và họcsâu, kết quả thu được tại Hình 2.1 cho thấy framework kết hợp có khả năng xử lý dự

báo lưu lượng giao thông đô thị phi tuyến phức tạp với độ chính xác và hiệu quả đáp

ứng.

Models RMSE

SV-RBF 0.040 SV-POLY 0.097 SVR-LINEAR 0.037 ARIMA 0.052 RNN 0.038 LSTM 0.030 GRU 0.031 HDTF (Ours) 0.028

Trang 24

Cùng trong năm 2017, Yuhan Jia và các cộng sự [2] đã giới thiệu mạng Deep

Belief Network (DBN) và Long Short-Term Memory (LSTM) có kết hợp thông tin

dữ liệu thời tiết — lượng mưa, dé dự đoán luồng giao thông của đô thị DBN và LSTMtích hợp thông tin về lượng mưa có thể học các đặc điểm của luồng giao thông trongcác tình huống mưa khác nhau Kết quả thử nghiệm chỉ ra rằng, với việc kết hợp cácyêu tố lượng mưa bổ sung, các mô hình học sâu có độ chính xác tốt hơn các mô hình

dự báo hiện có và cũng mang lại những cải tiến so với các mô hình học sâu ban đầukhông có lượng mưa đầu vào

10-minute 30-minute

Model Measurement rediction prediction

MAE (veh/h) 178.90 395.58 R-DBN MAPE (%) M 19.

RMSE (veh/h) 2 356.49 MAE (veh/h) 166.17 305.04

R-LSTM MAPE (%) "69 1788

RMSE (veh/h) 240.98 296.91

MAE (veh/h) 19270 33734 R-BPNN MAPE (%) 1559 2180

Hinh 2.2: Két quả thực nghiệm cua Yuhan Jia và các cộng sự

Năm 2019, Wentian Zhao và các cộng sự [3] đề xuất một framework học sâudựa trên mô hình TCN đề dự báo luồng giao thông ngắn hạn trên toàn thành phố

nhằm nắm bat chính xác diễn biến không gian và thời gian của luồng giao thông Hơn

nữa, các tác giả thiết kế mô hình bằng phương pháp Taguchi để phát triển một cấutrúc tối ưu của mô hình TCN Kết quả thử nghiệm chứng minh rằng framework này

Trang 25

đạt được hiệu suất state-of-the-art với

thông ngăn hạn khi so sánh với năm mô

mô hình SAE, mô hình DeepTrend và CNN-LSTM.

‘Algorithm | MAE | MRE | Forecasting Accuracy TCN 84257 | 00458 95.42%

LSTM 29.6075 | 0.1964 80.36%

GRU 36.0862 | 0.1922 80.78%

SAE 33.4104 | 0.1681 83.19%

DeepTrend | 21.4055 | 0.1381 56.195 CNN.LSTM | 245798 | 0.1403 85.97%

lộ chính xác vượt trội trong dự bao luồng giaohình bao gồm mô hình LSTM, mô hình GRU,

Hình 2.3: Kết quả thực nghiệm của Wentian Zhao và các cộng sự

Năm 2020, Saiqun Lu và các cộng sự [4] đã đề xuất một phương pháp kết hợpgiữa mô hình ARIMA và mô hình LSTM dé dự đoán ludng giao thông ngắn hạn Dựa

trên một lượng lớn dữ liệu giao thông lịch sử, mô hình ARIMA và mạng nơ-ron

LSTM được sử dụng đề xác định các đặc trưng tuyến tính và phi tuyến của dữ liệugiao thông phức tạp, sau đó hai phương pháp được kết hợp thông qua trọng số động

để thực hiện dự báo luéng giao thong ngắn hạn Kết quả thực nghiệm tại Hình 2.4cho thấy mô hình được đề xuất (The combined method) có hiệu quả dự đoán tốt hơn

khi so sánh với ba trường hợp là mô hình ARIMA và LSTM đơn lẻ và sự kết hợp

trọng số tương đương (EW method) của cả hai mô hình

Model Highway AL215 Highway AL2206 Highway AL2292

ARIMA MAE 10.502 22217 18.021

MSE 583.250 1203.692 809.030

RMSE 24.151 34.694 28.443 MAPE 0.158 0.162 0.122

LSTM (n = 10) MAE 8.174 21.011

MSE 250.613 1018.930

RMSE 15.831 31.921 MAPE 0.129 0.126

EW method MAE 8.306 19.737

MSE 327.162 969.689 611233 RMSE 18.088 31.140 24.123 MAPE 0.136 0101 0.102

The combined method MAE 6.533 16.165 12.789

MSE 241.660 851.300 498.529 RMSE 15.545 29.177 22.328

MAPE 0.119 0.066 0.066

Hình 2.4: Kết quả thực nghiệm của Saiqun Lu và các cộng sự

Trang 26

2.3 Tinh hình nghiên cứu trong nước

Ở Việt Nam cũng có một số công trình nghiên cứu đáng chú ý liên quan đến

bài toán dự báo lưu lượng luồng giao thông Năm 2018, Hong Thanh Pham và cáccộng sự [5] đã công bó nghiên cứu về việc nâng cao độ chính xác của dự báo luồnggiao thông ngắn hạn bằng cách chọn các đặc trưng thích hợp từ dữ liệu thu thập để

tăng cường khả năng dự đoán của mô hình Trong nghiên cứu, các tác giả đánh giá

các giả thuyết khác nhau trên nhiều bộ dữ liệu dé xác định tác động của không gian(spatial knowledge - so sánh kết quả từ các bùng binh được điều khiển bằng tín hiệu

và không được kiểm soát; các đoạn đường với các kiểu giao lộ khác nhau) bên cạnhkhía cạnh thời gian (temporal knowledge) lên kết quả dự đoán Mô hình LSTM đượcthử nghiệm với việc điều chinh kỹ lưỡng các siêu tham só Kết quả cho thấy bổ sungcàng nhiều kiến thức không gian thì việc dự đoán vận tốc càng chính xác, đặc biệt là

ở những giao lộ đông đúc.

Road segments with Evaluation Metric

different spatial characteristics MAE | RMSE | MAPE

Signal-controlled versus uncontrolled roundabouts

Phu Dong roundabout 0.9450 1.3240 4.1960

Dan Chu roundabout 2.1060 2.4470 10.6580

Cong Hoa roundabout 1.7160 2.0420 8.0840

Streets with distinct types of intersection

Vo Van Kiet street 1.0990 1.4070 6.4360 Cach Mang Thang Tam street 1.4740 1.9330 6.8560

Ba Thang Hai street 1.8870 2.5210 11.2790

Hình 2.5: Kết quả thực nghiệm của Hong Thanh Pham và các cộng sự

Cũng trong năm 2018, Quang Hung Do và các cộng sự đã đề xuất một mạngnơ-ron wavelet mờ (FWNN) được đào tạo bằng thuật toán tối ưu hóa dựa trên địa lýsinh học cải tiền (BBO) để dự báo lưu lượng giao thông ngắn han bang cách sử dụng

dữ liệu lưu lượng trong quá khứ [6] Kết quả được thể hiện ở Hình 2.6 cho thấy thuậttoán đề xuất cho kết quả dự đoán tốt nhất với các độ đo RMSE, MAPE, R Do đó, môhình FWNN là một công cụ dự báo tốt hơn so với các mô hình được so sánh

Trang 27

RMSE MAPE R

ANN-based model 74.0569 0.2529 0.8880 FWNN-based model 32.5282 0.1025 0.9451 FWNN-BBO-based model 274678 0.0924 0.9768 FWNN-iBBO-based model 20.4034 0.0719 0.9846 WNN-based model 52.1006 0.1171 0.9617

Hình 2.6: Kết qua thực nghiệm của Quang Hung Do và các cộng sự

Năm 2021, Trinh Dinh Toan và Viet Hung Truong [7] trình bày một phương

pháp hiệu qua dé dự báo lưu lượng giao thông ngắn han sử dụng Support VectorMachine (SVM) dé so với các phương pháp dự đoán lưu lượng giao thông theo chuỗithời gian truyền thống (Historical Mean Predictor, Current Time Based Predictor,Double Exponential Smoothing Predictor) Kết quả ở Hình 2.7 cho thấy rằng phươngpháp SVM tốt hơn đáng ké so với các phương pháp truyền thống và mô hình hoạtđộng tốt với những dự báo ngắn hạn

0.00

5 10 1S 20 25 30 60

Predietion interval (min)

Hình 2.7: Sai số trong dự đoán tổng thể bằng các phương pháp khác nhau

Trang 28

Các tác giả còn thực nghiệm ảnh hưởng của dé liệu đầu vào lên kết quả dựđoán, với dé liệu đầu vào (rolling horizon) càng dai thì độ chính xác mà SVM dự

đoán càng cao (Hình 2.8) Bên cạnh đó, các tác giả nghiên cứu việc áp dụng phương

pháp k-Nearest Neighbor để cải thiện hiệu suất đào tạo mô hình SVM, kết quả chothấy việc áp dụng phương pháp này tạo điều kiện giảm đáng ké kích thước đào tạo

SVM đê đây nhanh quá trình đào tạo mà không ảnh hưởng đến hiệu suât dự đoán.

Prediction interval (min)

Hình 2.8: Anh hưởng cua rolling horizon (Q) đến độ chính xác của dự đoán

Năm 2022, Quang Hoe Tran và các cộng sự [8] đã đề xuất một phương pháphọc sâu sử dụng mạng LSTM với việc điều chỉnh các siêu tham số để dự báo tốc độgiao thông ngắn hạn trên đường nhiều làn song song ở tại Việt Nam, nơi thường xảy

ra nhằm lẫn tín hiệu GPS Những thách thức trong việc xử lý dữ liệu bat thường trêncác tuyến đường này đã được giải quyết triệt để Thuật toán đề xuất cho phép lọc vàxác định các tín hiệu sai đó, từ đó nâng cao độ chính xác trong việc xác định tốc độ

trung bình của từng phương tiện và đoạn đường khảo sát Các tác giả đã thử nghiệm

với nhiều phương pháp dự đoán, bao gồm cả mạng truyền thống và học sâu Kết quả

tại Hình 2.9, 2.10 cho thây mô hình được đề xuất sử dụng mạng LSTM tốt hơn so với

các phương pháp khác, bao gồm MLP, AR, ARMA, ARIMA, SARIMAX, SES,

HWES, PROPHET và CNN Những con đường nhỏ song song nhiều làn xe là đặc

điểm giao thông điển hình của Việt Nam mà không phô biến ở nhiều quốc gia khác

Trang 29

Theo hiểu biết của tác giả, không có nghiên cứu nào giải quyết một vấn đề tương tự.

Do đó, nghiên cứu này có thể được coi là một sự đổi mới so với các phương phápđang được áp dụng hiện nay Tuy nhiên, điểm hạn chế của nghiên cứu đó là phạm vi

và quy mô của khu vực thí nghiệm.

RMSE v

Algorithm

(a)

MAE value

Hình 2.9: Hiệu suất của mô hình dé xuất và các mô hình truyền thống

Metric Model Count Mean Min 25% 75% Max

Hình 2.10: So sánh thông số thống kê giữa LSTM va CNN

Trang 30

Chương 3 CƠ SỞ LÝ THUYET

3.1 Big Data

3.1.1 Khái niệm Big Data

Với sự phát triển xã hội hiện nay, đặc biệt là trong xu hướng chuyên đổi số

của cuộc cách mạng công nghiệp 4.0, mọi hoạt động dần dần được được Internet hóa.Lượng thông tin trao đổi trên Internet ngày càng đa dạng và không ngừng tăng Điềunày đặt ra thách thức cho các nền công nghiệp nghiên cứu các phương pháp khácnhau đề xử lý đữ liệu Khái niệm Big Data bắt nguồn từ nhu cầu này Big Data (Dữliệu lớn) là thuật ngữ dùng để chỉ một tập hợp đữ liệu với kích thước vượt xa khảnăng của các công cụ phần mềm thông thường dé thu thập, hiền thị, quản lý và xử lý

đữ liệu trong một thời gian có thé chap nhận được Kích thước cua Big Data là mộtmục tiêu liên tục thay đổi Như năm 2012 thì phạm vi một vài chục Terabytes (TB)tới nhiều Petabytes (PB) dữ liệu Big Data yêu cầu một tập các kỹ thuật và công nghệđược tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và cóquy mô lớn Big Data có thể bao gồm các dữ liệu có cấu trúc (structured data), dữ

liệu không cấu trúc (unstructured data) và dữ liệu bán cấu trúc (semi-structured data)

Dữ liệu tạo thành các kho dit liệu lớn có thé đến từ các nguồn bao gồm cáctrang web, phương tiện truyền thông xã hội, ứng dụng dành cho máy tinh dé ban, ứngdụng trên thiết bị di động, các thí nghiệm khoa học, thiết bị cảm biến ngày càng tăng

và các thiết bị khác trong mang lưới thiết bị kết nói Internet (IoT - Internet of Things).Khái niệm Big Data đi kèm với các thành phần có liên quan cho phép các tô chức đưa

dữ liệu vào sử dụng thực tế và giải quyết một số vấn đề trong kinh doanh, bao gồm

cơ sở hạ tầng IT cần đề hỗ trợ Big Data, các phân tích áp đụng với đữ liệu, công nghệcần thiết cho các dự án Big Data, các bộ kỹ năng liên quan và các trường hợp thực tế

có ý nghĩa đối với Big Data Big Data rất quan trọng với các tô chức, doanh nghiệp

vì đữ liệu càng lớn và càng đa dạng sẽ giúp các phân tích càng chính xác hơn Việc

Trang 31

phân tích chính xác này sẽ giúp doanh nghiệp đưa ra các quyết định giúp tăng hiệuquả sản xuất, giảm rủi ro và chỉ phí.

3.1.2 Các đặc điểm của Big Data

VOLUME

Huge amount of data

⁄ \

VERACITY VARIETY

Inconsistencies and Different formats of

unvertainty in data Big Data data from various sources

VELOCITY VALUE

- ng ¿ Extract useful datadata accumulation ee

Hình 3.1: 5 đặc điểm của Big Data

Big Data được mô tả bởi những 5 đặc trưng cơ bản sau: Khối lượng (Volume),

Vận tốc (Velocity), Tính đa dạng (Variety), Tính xác thực (Veracity) va Giá trị

(Value).

¢ Khối lượng (Volume): Bản thân cái tên Big Data có liên quan đến một kíchthước rất lớn Khối lượng là một lượng lớn dữ liệu Dé xác định giá trị của dữliệu, kích thước của dữ liệu đóng một vai trò rất quan trọng Nếu khối lượng

dữ liệu rất lớn thì nó thực sự được coi là Big Data Điều này có nghĩa là một

dữ liệu cụ thể có thực sự được coi là Big Data hay không phụ thuộc vào khối

Trang 32

lượng dữ liệu Do đó, trong khi xử lý Dữ liệu lớn cần phải xem xét một khối

o Dữ liệu có cấu trúc: Dữ liệu này về cơ bản là đữ liệu có tổ chức, tức là

đữ liệu đã xác định độ dài và định dạng của dữ liệu.

tổ chức Nó thường là một dang dữ liệu không phi hợp với cấu trúc

chính thức của dữ liệu Các tệp nhật ký là ví dụ của loại dit liệu này.

chức Nó là dữ liệu không khớp với cấu trúc hàng và cột truyền thốngcủa cơ sở dữ liệu Văn bản, hình ảnh, video, v.v là những ví dụ về dữliệu phi câu trúc không thé được lưu trữ ở dạng hàng và cột

Tính xác thực (Veracity): Là một trong những đặc điểm phức tạp nhất củaBig Data - Độ tin cậy hay tính chính xác của dữ liệu Với sự phát triển và các

phương tiện truyền thông xã hội, việc xác định độ tin cậy hay tính chính xác

của dữ liệu trở nên khó khăn và phức tạp hơn Bài toán làm sạch dữ liệu (phân

tích và loại bỏ đữ liệu thiếu chính xác và dữ liệu nhiễu) đang là bài toán quan

trọng của Big Data.

Trang 33

việc đầu tiên trước khi bắt tay vào lam Big Data chính là xác định được giá tricủa dữ liệu Các tổ chức, doanh nghiệp phải hoạch định được giá trị thông tinhữu ích của dé liệu cho van đề, bai toán hoặc mô hình kinh doanh của minh

3.1.3 Apache Spark

3.1.3.1 Giới thiệu Apache Spark

Apache Spark là một framework xử lý dữ liệu mã nguồn mở trên quy mô lớn

Spark cung cấp một giao diện dé lập trình các cum tính toán song song với khả năng

chịu lỗi Ban đầu Spark được phát triển tại AMPLab của Đại học California Berkeley,

sau đó mã nguồn được tặng cho Apache Software Foundation vào năm 2013 và tổchức này đã duy trì nó cho đến nay Khả năng tính toán phân tán của Apache Sparkkhiến nó rất phù hợp với Big Data và Machine Learning, vốn đòi sức mạnh tính toánkhổng lồ để làm việc trên các kho dữ liệu lớn Spark cũng giúp loại bỏ một số gánhnặng lập trình khỏi vai của các nhà phát triển với một API dé sử dụng đảm nhiệmphần lớn công việc khó khăn của tính toán phân tán và xử lý đữ liệu lớn Apache

Spark cho phép người dùng xây dựng những mô hình dự đoán nhanh chóng với khả năng thực hiện tính toán cùng lúc trên một nhóm các máy tính hay trên toàn bộ các

tập dữ liệu mà không cần thiết phải trích xuất các mẫu tính toán thử nghiệm Tốc độ

xử lý dữ liệu của Apache Spark có được là do khả năng thực hiện các tính toán trên

nhiều máy khác nhau cùng một lúc tại bộ nhớ trong (in-memories) hay hoàn toàn trên

RAM.

Apache Spark cho phép xử lý các đữ liệu theo thời gian thực Nghĩa là nó có

thể vừa nhận dữ liệu từ các nguồn dữ liệu khác nhau, vừa có thể thực hiện xử lý ngay

những dữ liệu mà nó vừa nhận được một cách đồng thời Apache Spark không có hệ

thống file cho riêng mình Nó sử dụng nhiều hệ thống file khác nhau như S3,Cassandra, HDFS, v.v và hoàn toàn không phụ thuộc vào bất cứ hệ thống file nào

Trang 34

học máy, xử lý dữ liệu thời gian thực và hỗ trợ cho nhiều ngôn ngữ lập trình nhưScala, Python, Java, v.v Tat cả những điều đó đã làm cho Apache Spark trở thànhmột hệ thống dễ dàng bắt đầu và mở rộng quy mô xử lý dữ liệu lớn và cực lớn.

3.1.3.2 Cac thành phần của Apache Spark

Apache Spark gồm một số thành phần chính như Spark Core GraphX, SparkStreaming, Mlib, Spark SQL như thể hiện ở Hình 3.2

MLib (machine learning)

Hình 3.2: Các thành phan chính của Apache Spark

GraphX

(graph)

Spark

nhan OP Streaming

e Spark Core: là nền tảng cho các thành phan còn lại và các thành phan nay

muốn khởi chạy được thì đều phải thông qua Spark Core Spark Core đảm

nhận vai trò thực hiện công việc tính toán và xử lý trong bộ nhớ (In-memory

computing) đồng thời tham chiếu các dữ liệu được lưu trữ tại các hệ thống lưu

trữ bên ngoài.

e Spark SQL: cung cấp một kiểu đữ liệu trừu tượng mới (SchemaRDD) nhằm

hỗ trợ cho cả kiểu dữ liệu có cấu trúc và dé liệu bán cấu trúc Spark SQL hỗtrợ DSL (Domain-specific language) để thực hiện các thao tác trênDataFrames bằng ngôn ngữ Scala, Java hoặc Python va nó cũng hỗ trợ cả ngôn

ngữ SQL với giao diện command-line và ODBC/JDBC server.

e GraphX: là một framework đi kèm với các lựa chọn thuật toán phân tán dé

xử ly cấu trúc đồ thị Nó cung cấp một API đề thực hiện tinh toán biéu đồ có

Trang 35

thé mô hình hóa các biểu đồ do người dùng xác định bằng cách sử dung API

đã được tối ưu sẵn Các thuật toán này sử dụng phương pháp tiếp cận RDDcủa Spark Core dé lập mô hình dữ liệu

e Spark Streaming: được sử dụng để thực hiện việc phân tích stream bằng VIỆC

coi stream là các mini-batches và thực hiệc kỹ thuật RDD transformation đốivới các dữ liệu mini-batches này Qua đó cho phép các đoạn code được viếtcho xử lý batch có thể được tận dụng lại vào trong việc xử lý stream, làm choviệc phát triển lambda architecture được dễ đàng hơn Tuy nhiên điều này lạitạo ra độ trễ trong xử lý dữ liệu (độ trễ chính bằng mini-batch duration) và do

đó nhiều chuyên gia cho rằng Spark Streaming không thực sự là công cụ xử lý

streaming giống như Apache Storm hoặc Apache Flink

e MLIib (Machine Learning Library): là một framework học máy phân tán

trên Apache Spark tận dụng khả năng tính toán tốc độ cao nhờ kiến trúc dựa

trên bộ nhớ của Spark.

3.1.3.3 Ưu điểm của Apache Spark

Không chỉ sở hữu các thành phần mang tính năng hữu ích, Apache Spark còn

có nhiều ưu điểm vượt trội

¢ Đơn giản và dễ sử dung: Apache Spark được phát triển để giúp người dùng

tiếp cận dé dang hơn với công nghệ tính toán song song Người ding chỉ cần

trang bị các kiến thức cơ bản về database, lập trình Python hoặc Scala là đã cóthể sử dụng được Đây cũng là điểm khác biệt lớn nhất giữa Apache Spark và

Hadoop.

e_ Khả năng, tốc độ phân tích thời gian thực Ấn tượng: Apache Spark có thé

xử lý hàng loạt các đữ liệu thời gian thực — những dữ liệu tới từ các luồng sựkiện thời gian thực Tốc độ xử lý cực kỳ ấn tượng, lên đến hàng triệu sự kiệnmỗi giây Việc nhận dữ liệu từ nguồn và xử lý đữ liệu diễn ra gần như đồng

Trang 36

thời Bên cạnh đó, Apache Spark còn hữu ích cho việc phát hiện gian lận khi thực hiện các giao dịch ngân hàng.

của các thư viện cấp cao như truyền đữ liệu trực tuyến, truy vấn SQL, học máy

và xử lý đồ thị Không chỉ giúp tăng hiệu suất cho nhà phát triển, những thư

viện tiêu chuẩn này còn đảm bảo sự kết nói liền mạch cho các quy trình làm

việc phức tạp.

e Kha năng tương thích cao và hỗ trợ nhiều ngôn ngữ lập trình: Apache

Spark có thé tương thích với tat cả các định dạng tệp và nguồn dữ liệu được

hỗ trợ bởi cụm Hadoop Ngôn ngữ lập trình sử dụng được là Scala, Java,

dữ liệu chuỗi thời gian gồm hai thành phần là thời gian (năm, tháng, ngày, giờ, phút,giây) và giá trị ứng với thời gian Hình 3.3 minh họa về đữ liệu chuỗi thời gian, sử

dụng biểu đồ đường để thể hiện tổng số ca nhiễm Covid-19 trên toàn thế giới.

Trang 37

Vv vv v VV @ @ @ @& v'@& @& Vogl v'@& vob ve“ œ@ “ @

_¬* +” x6! SE SESE ESSE SE SESE SEES SSS

: Ặ A

FFF WMH FFF WP FE WH FW v gề F FH FE oF yh về

=@ Cases

Hình 3.3: Biểu đô minh họa dữ liệu chuỗi thời gian về Tổng số ca mắc Covid-19

trên thể giới (Nguồn: COVID Live - Coronavirus Statistics - Worldometer

(worldometers.info))

Một chuỗi thời gian gồm bốn thành phan, những thành phan nay đồng thời tac

động tới chuỗi thời gian:

e Trend (Xu hướng chung): thành phan này chỉ ra xu hướng tổng quan của dữ

liệu theo thời gian: lên hoặc xuống, tăng hoặc giảm.

e Seasonal Variations (Biến động theo mùa vụ): thành phần chỉ ra các xu

hướng theo mùa vụ, chỉ ra các pattern theo thang, theo quý.

e Cyclic Variations (Biến động theo chu kỳ): thành phan chu kỳ, khác

Seasonal Variations ở chỗ thành phần này có sự vận động trong khoảng thời

gian dài hơn (nhiều năm).

e Irregular Movements (Biến động bất thường): thành phan nhiễu còn lại sau

khi trích xuất hết các thành phần ở trên, nó chỉ ra sự bất thường của các điểm

dữ liệu do những biến có ngẫu nhiên không dự báo trước được gây ra.

Trang 38

Time Series Analysis (Phân tích dữ liệu chuỗi thời gian) là phương pháp phân

tích số liệu thống kê về các quá trình đã diễn ra, được ghi chép theo các khoảng thời gian nối tiếp nhau với mục tiêu sử dụng kinh nghiệm thu được trong quá khứ dé dự

báo tình hình sẽ xảy ra trong tương lai bat định Hình 3.4 là một vi dụ minh họa về

phân tích chuỗi thời gian dữ liệu giá đồng Bitcoin (BTC) trong quá khứ dé tìm ra quy luật và dự đoán giá trị của đồng Bitcoin trong tương lai.

Hình 3.4: Biéu đô minh hoa Phân tích dữ liệu chuỗi thời gian của dong Bitcoin.

(Nguon: GitHub - shsack/crypto_robot: Bitcoin price prediction using LSTM)

Hiện nay, có nhiều kỹ thuật, phương pháp được sử dung dé phân tích dữ liệu chuỗi thời gian như các mô hình thống kê xác suất, các thuật toán Máy học, Học sâu.

Phần tiếp theo sẽ giới thiệu các mô hình chuỗi thời gian phổ biến hiện nay.

23

Trang 39

3.2.2 Các kiểu mô hình chuỗi thời gian

Dự báo chuỗi thời gian là một trong những nhiệm vụ phổ biến nhất trên dữliệu chuỗi thời gian Nói tóm lại, dự báo nhằm dự đoán tương lai bằng cách sử dụngkiến thức bạn có thể học được từ lịch sử

3.2.2.1 Dự báo chuỗi thời gian sử dụng kiểu thống kê truyền thống

(Traditional Statistical (TS) Style)

Theo kiểu thống kê truyền thống, bài toán dự báo chuỗi thời gian được xây

dựng với các mô hình thống kê và toán học cơ bản Thông thường, một mô hình chỉ

có thé xử ly một chuỗi thời gian và được huấn luyện với toàn bộ chuỗi thời gian trước

mốc thời gian được quan sát cuối cùng (Last observed timestamp) và dự đoán một

vài bước tiếp theo (Hình 3.5) Mỗi khi thay đổi mốc thời gian quan sát được cuốicùng thì phải huấn luyện mô hình lại từ đầu

Traditional Statistical(TS) Style: Ìsgearwsri tinnrtamp

+

Time AA@$}] mR

RS NF SL

Input(x) Output(y)

Hình 3.5: Dự báo chuỗi thời gian kiểu thống kê truyền thống (Nguôn: Time Series

Forecasting Overview — BigDL documentation)

Đối với mô hình theo kiểu thống kê truyền thống, chi có thé dự đoán nhiềuhơn một điểm dé liệu trong tương lai (Multi-Step) và không thé dự đoán nhiều hơnmột biến củng một lúc (Multi-Variate) Ví du, cùng một khoảng thời gian, thống kêtruyền thống không thẻ vừa dự báo nhiệt độ, vừa dự báo độ âm, tốc độ gió

Trang 40

3.2.2.2 Dự báo chuỗi thời gian sử dụng kiểu hồi quy thông thường

(Regular Regression (RR) Style)

Trong những nam gần đây, các kiến trúc học sâu phổ biến (ví dụ: RNN, CNN,Transformer, v.v.) đang được áp dụng thành công cho vấn đề dự báo Dự báo đượcchuyển đổi thành một bài toán hồi quy học có giám sát Một mô hình theo kiểu hồiquy thông thường có thê xử lý nhiều chuỗi thời gian cùng lúc

Không giống như mô hình kiểu thống kê truyền thống, mô hình kiểu hồi quythông thường khi dự đoán yêu cầu đầu vào cần có một đoạn giá trị trước đó (gọi làlookback) đề có thé đưa ra dự đoán cho các bước tiếp theo (gọi là horizon) (Hình 3.6)

Vi dụ, khi dự báo giá đóng cửa của một cổ phiếu trong 7 ngày tiếp theo thì cần phảiđưa vào mô hình giá đóng cửa của cổ phiếu này trong 60 ngày trước đó Do đó, môhình theo kiểu hồi quy thông thường có thé dự đoán các mốc thời gian khác nhau màkhông nhất thiết phải huấn luyện lại như mô hình kiều thống kê truyền thống

Đối với mô hình theo kiểu hồi quy thông thường, vừa có thé dự đoán nhiềuhơn một điểm dữ liệu trong tương lai (Multi-Step) và vừa có thé dự đoán nhiều hơnmột biến cùng một lúc — đa biến (Multi-Variate) Ví dụ, cùng một khoảng thời gian,

mô hình theo kiêu hồi quy thông thường có thé vừa dự báo nhiệt độ, vừa dự báo độ

Am, tốc độ gió

Regular Regression(RR) Style: next sample x ‘next sample y

Target 1[ |

Target 2 Extra Feature 1

Extra Feature 2] |

Time + + >

sampled input(x) sampled output(y)

lookback=6 horizon=4 input feature num=4 output feature num=2

Hình 3.6: Dự báo chuỗi thời gian sử dung hồi quy thông thường cho mô hình học

sâu (Nguồn: Time Series Forecasting Overview — BigDL documentation)

Tiêu đề	Dự báo luồng giao thông với mô hình chuỗi thời gian đa biến sử dụng BIGDL
Tác giả	Trinh Ngọc Pháp, Tran Nguyen Anh Khoa
Người hướng dẫn	TS. Nguyễn Thanh Bình
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa học dữ liệu
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	102
Dung lượng	46,9 MB