ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học: PGS.TS Quản Thành Thơ
Cán bộ chấm nhận xét 1: PGS.TS Võ Thị Ngọc Châu
Cán bộ chấm nhận xét 2: PGS.TS Đỗ Văn Nhơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 11 tháng 07 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch: TS Nguyễn Đức Dũng 2 Thư ký: TS Trương Thị Thái Minh 3 Phản biện 1: PGS.TS Võ Thị Ngọc Châu 4 Phản biện 2: PGS.TS Đỗ Văn Nhơn 5 Uỷ viên: TS Bùi Thanh Hùng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
TS Nguyễn Đức Dũng PGS.TS Phạm Trần Vũ
Trang 3i
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA _
CỘNG HOA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày, tháng, năm sinh: 03/08/1991 Nơi sinh: Quảng Ngãi
I TÊN ĐỀ TÀI: DỰ ĐOÁN CHẤT LƯỢNG KHÔNG KHÍ DỰA TRÊN GRAPH NEURAL NETWORK
(AIR QUALITY PREDICTION BASED ON GRAPH NEURAL NETWORK) II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu, xây dựng hệ thống dự đoán chất lượng không khí dựa trên Graph Neural Network
- Nghiên cứu và đề xuất phương pháp nhằm cải thiện độ chính xác của mô hình - Thực nghiệm và đánh giá kết quả của phương pháp đề xuất
III NGÀY GIAO NHIỆM VỤ: 06/02/2022
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023 V CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ
Trang 4ii
LỜI CÁM ƠN
Sau một quá trình thực hiện nghiên cứu, em cũng đã hoàn thành nội dung luận văn Luận văn được hoàn thành không chỉ là kết quả cố gắng không ngừng nghỉ của bản thân mà còn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá nhân và tập thể
Lời đầu tiên, em xin trân trọng tỏ lòng biết ơn chân thành và sâu sắc đến PGS.TS Quản Thành Thơ, thầy là người hướng dẫn trực tiếp trong quá trình thực hiện luận văn, nhờ những chia sẻ và đóng góp ý kiến của thầy giúp em hoàn thiện những nội dung Luận văn Hơn hết thầy còn là người truyền cảm hứng cho em trong khoa học máy tính
Em cũng xin chân thành cảm ơn đến toàn thể anh, chị, em đồng nghiệp trong công ty Orient đã luôn tạo điều kiện cho em trong quá trình học và thực hiện luận văn tốt nghiệp Những lời động viên của toàn thể mọi người là niềm động lực giúp em vượt quả khoảng thời gian khó khăn nhất trong quá trình thực hiện luận văn
Cuối cùng, em xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh, chị cùng lớp cao học đã luôn động viên, quan tâm giúp đỡ em trong quá trình học tập và thực hiện luận văn
Trang 5iii
TÓM TẮT LUẬN VĂN
Dự đoán chất lượng không khí dựa trên Graph Neural Network là bài toán tập trung vào các tác vụ quan trọng như trích xuất thông tin những thông số trong không khí và trích xuất dựa trên mối liên kết không gian của dữ liệu, các chỉ số trong không khí bao gồm 𝑃𝑀2.5, 𝑃𝑀10, 𝑁𝑂2, 𝐶𝑂, 𝑆𝑂2, 𝑂3, 𝐴𝑄𝐼 Phân bố không gian giữa các cảm biến thể hiện mối liên quan và tính liên kết của dữ liệu Trước đây, các phương pháp truyền thống thường sử dụng mô hình ARIMA, CNN, LSTM để áp dụng vào bài toán dữ liệu chuỗi thời gian, cách tiếp cận của các phương pháp này chủ yếu dựa vào các giá trị quan sát được để đưa ra giá trị dự đoán Tuy nhiên, những phương pháp truyền thống vẫn chưa khai thác những khía cạnh tiềm năng khác của dữ liệu chuỗi thời gian như tận dụng liên hệ, tính chất tương đồng của dữ liệu giữa các thiết bị thu thập thông tin trong cùng một thời điểm Đồng thời những phương pháp trước đây cũng chưa thể hiện được rõ ràng sự đóng góp giữa các mối liên kết không gian của cảm biến vào việc trích xuất đặc trưng Do đó trong nội dung của luận văn này, học viên tập trung khai thác bài toán dự đoán dữ liệu chuỗi thời gian theo hướng sử dụng Graph Neural Network và đưa ra mô hình đề xuất, cải tiến so với mô hình tham khảo
Sử dụng thông tin của chỉ số không khí kết hợp với thông tin phân bố không gian của các thiết bị cảm biến vào bài toán dự đoán Trong đó học viên
sử dụng lớp tích chập đồ thị (Graph Convolution Networks) để lọc ra lượng
thông tin trong mạng kết nối của thiết bị nhằm tận dụng nguồn dữ liệu tiềm năng hiện có của hệ thống internet vạn vật, điều này cung cấp thêm thông tin cho mô hình, giúp cải thiện độ chính xác Thư viện spektral được sử dụng để mô hình hóa dữ liệu đầu vào của mô hình bằng cấu trúc dạng đồ thị
Trang 6iv
ABSTRACT OF DISSERTATION
The topic of predicting air quality using Graph Neural Networks focuses on critical tasks including extracting data from sensors concerning parameters in the air and extracting based on geographical interconnections of data, indicators in the air, such as 𝑃𝑀2.5, 𝑃𝑀10, 𝑁𝑂2, 𝐶𝑂, 𝑆𝑂2, 𝑂3, 𝐴𝑄𝐼 When dealing with time series data problems in the past, conventional approaches frequently applied ARIMA, CNN, and LSTM models predict worth
Traditional approaches haven't yet fully utilized time series data' additional potential benefits, such as utilizing the data similarity between concurrently collecting equipment The significance of the sensor's spatial links to feature extraction, however, has not been made evident by earlier methods As a result, students in this thesis concentrate on employing Graph Neural
Networks to solve the problem of forecasting time series data and developing a new and enhanced model above the reference model
Utilizing the air index data along with the sensor's spatial distribution data in the prediction problem In order to take use of the current potential data source of the internet of things system, students use the graph convolution class to filter out the volume of data in the linked device's network This gives the model more information and increases accuracy The input data of the model is modeled using a graph structure using the spektral library
Trang 7v
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: “DỰ ĐOÁN CHẤT LƯỢNG KHÔNG KHÍ DỰA TRÊN GRAPH NEURAL NETWORK” là công trình nghiên cứu của bản thân Những phần sử dụng tài liệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trung thực, nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra
Phạm Linh Sơn
Trang 8vi
Mục lục
Chương 1 GIỚI THIỆU ĐỀ TÀI 1
1.1 Giới thiệu đề tài 1
1.2 Mô tả bài toán dự đoán chất lượng không khí dựa trên Graph Neural Network 2
1.3 Mục tiêu và nhiệm vụ của luận văn 3
2.3 Graph Neural Network 10
2.4 Mô hình Artificial Neural Network 12
2.5 Mô hình ghi nhớ dài-ngắn hạn 17
Chương 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 20
3.1 Hồi quy dịch chuyển trung bình 21
3.8 Mạng nơ-ron tích chập đồ thị với bộ lọc quang phổ nhanh-cục bộ 24
Chương 4 MÔ HÌNH ĐỀ XUẤT 26
4.1 Mô hình tham khảo 26
4.1.1 Mô hình 1: GNN 26
4.1.2 Mô hình 2: CNN kết hợp LSTM 29
Trang 9vii
4.1.3 Mô hình 3: CNN 29
4.1.4 Mô hình 4: LSTM 31
4.2 Phương pháp đánh giá 31
4.2.1 Mean Absolute Error (MAE) 31
4.2.2 Mean Squared Error (MSE) 32
4.2.3 Root Mean Squared Error (RMSE) 32
4.2.4 Mean Absolute Percentage Error (MAPE) 32
4.3 Mô hình đề xuất 33
4.3.1 Động lực và ý tưởng 33
4.3.2 Mô tả mô hình 35
4.3.3 Tham số cấu hình của mô hình 37
4.3.4 Kết quả thực nghiệm và thảo luận 38
Chương 5 KẾT LUẬN 43
Tài liệu tham khảo 45
Trang 10viii
Danh sách hình vẽ
2.1: Vector đặc trưng của mỗi đỉnh thuộc đồ thị 8
2.2: Tính ma trận Laplacian từ ma trận bậc và ma trận kề 9
2.3: Đồ thị được áp dụng bộ lọc F vào mỗi đỉnh 11
2.4: Phương thức lan truyền của mô hình 12
2.5: Các thành phần cơ bản của một nơ-ron sinh học 13
2.6: Cấu trúc của một perceptron 14
2.7: Một số hàm kích hoạt được sử dụng trong perceptron 15
2.8: Cấu trúc mô hình Artificial Neural Network 16
2.9: Cơ chế hoạt động trong mô hình Long Short-Term Memory 18
3.1: Sơ đồ taxonomy của các công trình nghiên cứu liên quan 20
4.1: Mô hình tham khảo 27
4.2: Mô hình kết hợp CNN-LSTM 29
4.3: Mô hình dự đoán dữ liệu chuỗi thời gian 30
4.4: Mô hình sử dụng LSTM 31
4.5: Mô hình đề xuất dựa trên mạng nơ-ron tích chập đồ thị 36
4.6: Phân bố của 2 hệ thống cảm biến trên không gian địa lý 39
4.7: Kết quả mô hình đề xuất trên hệ thống cảm biến dày đặc 40
4.8: Kết quả mô hình đề xuất trên hệ thống cảm biến thưa thớt 40
4.9: Kết quả mô hình GNN, GNN.base, CNN, LSTM, CNN-LSTM 41
Trang 11ix
Danh sách bảng
4.1: Các tham số trong mô hình 38 4.2: Kết quả thực nghiệm của các mô hình 38
Trang 121
Chương 1
GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu đề tài
Ngày nay, sự phát triển của IoT (Internet of Things) trên thế giới mở ra định hướng mới cho thu thập và phân tích dữ liệu từ hệ thống cảm biến Các cảm biến được triển khai rộng rãi ở nhiều nơi, sinh ra lượng dữ liệu lớn đã đưa ra thách thức trong xử lý dữ liệu là làm thế nào để phân tích dữ liệu chuỗi thời gian (Time Series) Mặc dù các cảm biến độc lập với nhau, nhưng có thể xây dựng được một mạng đồ thị kết nối chặt chẽ giữa chúng Từ đó, ta có thể khai thác những đặc trưng của dữ liệu kết hợp với mối liên kết đến các chuỗi dữ liệu lân cận, phân tích dữ liệu chuỗi thời gian nhằm mục đích dự đoán sớm được những thông tin trong dữ liệu theo chuỗi đa biến thời gian thực Những lĩnh vực mà ở đó dữ liệu chuỗi thời gian được sử dụng phân tích bao gồm: giao thông, thời tiết, địa chấn, dự báo và phân loại, một số kỹ thuật trước đây để giải quyết những bài toán này như là: ARIMA (Rob & George, 2015), LSTM (Wensheng Yang, Chengxin Ma & Yulong Shi, 2019) Dữ liệu chuỗi thời gian thường có tính xu hướng, đây là tính chất thường thấy của dạng dữ liệu này Tính xu hướng ảnh hưởng không nhỏ đến phân tích và nhận định mối tương quan giữa các chuỗi dữ liệu Ngoài ra, dữ liệu chuỗi thời gian còn có đặc tính chu kỳ, đây là tính chất lặp đi lặp lại của dữ liệu, việc phát hiện ra chu kỳ của dữ liệu rất cần thiết trong dự báo, cộng thêm khó khăn từ nhiễu do ảnh hưởng từ các yếu tố môi trường xung quanh Do đó, những phương pháp dự đoán hiệu quả dành cho loại dữ liệu chuỗi thời gian là rất cần thiết Ngoài vấn đề về tính chất của dữ liệu chuỗi thời gian, một thách thức khác của bài toán “Dự đoán chất lượng
Trang 132
không khí dựa trên Graph Neural Network” là làm sao xây dựng được mô hình tổng quát có khả năng thể hiện được sự phụ thuộc giữa các chuỗi dữ liệu khác nhau, cũng như mối quan hệ tương đồng về dữ liệu Mặc dù các cảm biến độc lập với nhau, nhưng có thể xây dựng được một mạng đồ thị kết nối chặt chẽ giữa chúng Đây chính là mục tiêu quan trọng của bài toán dự đoán dữ liệu chuỗi thời gian trong khoa học máy tính.
1.2 Mô tả bài toán dự đoán chất lượng không khí dựa trên Graph Neural Network
Đầu vào của mô hình là tập dữ liệu có cấu trúc đồ thị có dạng
[𝑏𝑎𝑡𝑐ℎ, 𝑛𝑜𝑑𝑒𝑠, 𝑛_𝑓𝑒𝑎𝑡], chứa 𝑏𝑎𝑡𝑐ℎ là kích thước của mỗi khối dữ liệu, 𝑛𝑜𝑑𝑒𝑠 là số đỉnh của đồ thị và 𝑛_𝑓𝑒𝑎𝑡 là các đặc trưng trên mỗi đỉnh Dữ liệu đầu vào được mô hình hóa dựa trên ma trận Laplacian 𝐿 = 𝐷 − 𝐴 Laplacian là ma trận biểu diễn mối liên hệ của đồ thị 𝐺 = (𝑉, 𝐸), với |𝑉| = 𝑛 Trong đó,
D là ma trận bậc (degree matrix) với 𝐷(𝑖, 𝑖) là bậc của đỉnh 𝑖𝑡ℎ, A là ma trận
kề với 𝐴(𝑖, 𝑗) = 1 nếu và chỉ nếu (𝑖, 𝑗) ∈ 𝐸
Dự đoán dữ liệu chuỗi thời gian đa biến chủ yếu tập trung vào thông tin thu được từ mạng lưới các cảm biến và yếu tố không gian, từ đó xây dựng được cấu trúc dạng đồ thị Trong đó, mỗi đỉnh của đồ thị đại diện cho mỗi trạm thu dữ liệu, trọng số của đường nối giữa hai đỉnh là khoảng cách địa lý trong thực tế
Ví dụ với các chỉ số dữ liệu (𝑃𝑀2.5, 𝑃𝑀10, 𝑁𝑂2, 𝐶𝑂, 𝑆𝑂2, 𝑂3, 𝐴𝑄𝐼, 𝑙𝑎𝑡𝑖𝑡𝑢𝑑𝑒, 𝑙𝑜𝑛𝑔𝑖𝑡𝑢𝑑𝑒) tại mỗi đỉnh, trong đó latitude và longitude giúp xác
Trang 143
định vị trí đỉnh trong đồ thị, đầu ra của mô hình sẽ là giá trị dự đoán chỉ số
chất lượng không khí AQI (Air Quality Indexing)
1.3 Mục tiêu và nhiệm vụ của luận văn
Mục tiêu của luận văn hướng đến việc nghiên cứu và xây dựng mô hình dự đoán dữ liệu chuỗi thời gian đa biến sử dụng các phương pháp học sâu và lý thuyết phổ của đồ thị Cụ thể:
- Hiểu và sử dụng được các mô hình học sâu, các lý thuyết đồ thị và phổ đồ thị cho biểu diễn dữ liệu
- Xác định rõ công việc sẽ tập trung giải quyết trong bài toán dự đoán dữ liệu chuỗi thời gian đa biến: đầu vào và đầu ra của mô hình là gì? Mô hình sử dụng dataset có dữ liệu về cảm biến hay không? Đặc trưng của dataset có những chỉ số không khí là gì?
- Nắm bắt những phương pháp gần đây để giải quyết bài toán, đặc biệt là những phương pháp sử dụng các mô hình học sâu Trên cơ sở đó có thể chỉ ra được những ưu nhược điểm của từng phương pháp
- Đưa ra đề xuất có thể cải thiện hiệu suất của mô hình dựa trên thực nghiệm
- Cuối cùng, học viên sẽ hiểu rõ hơn những vấn đề, thách thức khi áp dụng học sâu, học máy vào giải quyết một bài toán thực tế Đánh giá tính khả thi của các phương pháp trong thực tiễn, đồng thời sẽ có góc nhìn chính xác hơn về học sâu, học máy nói chung
Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình làm luận văn:
Trang 154
- Tìm hiểu bài toán dự đoán dữ liệu chuỗi thời gian, các công trình nghiên cứu liên quan, các phương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp
- Đề xuất các mô hình giúp cải thiện độ chính xác cho bài toán dự đoán dữ liệu chuỗi thời gian
- Thực nghiệm, đánh giá kết quả của mô hình đề xuất
- Kết luận, nêu ra các vấn đề còn tồn đọng, đồng thời đưa ra các dự định nghiên cứu tương lai
1.4 Giới hạn đề tài
Dự đoán dữ liệu chuỗi thời gian là phương pháp nghiên cứu phổ biến và có nhiều phương pháp khác nhau, vì vậy nội dung luận văn sẽ được giới hạn như sau:
- Tập trung vào công việc trích xuất đặc trưng dữ liệu chuỗi thời gian đa biến và mô hình hóa dữ liệu dựa trên phổ đồ thị
- Các mô hình học sâu: CNN, LSTM, GNN
- Mô hình được đánh giá dựa trên độ đo MSE, RMSE, MAE, MAPE cho tác vụ trích xuất đặc trưng của dữ liệu chuỗi thời gian
1.5 Đóng góp của luận văn
Trong luận văn, học viên đề xuất phương pháp giúp cải thiện hiệu quả của mô hình dự đoán
- Sử dụng mạng nơ-ron tích chập đồ thị vào trích xuất dữ liệu chuỗi thời gian tần suất cao
Trang 16Nội dung của luận văn gồm 5 chương:
− Chương 1 GIỚI THIỆU ĐỀ TÀI: giới thiệu về nhu cầu dự đoán trong
dữ liệu chuỗi thời gian, mô tả bài toán dự đoán chất lượng không khí dựa trên mạng nơ-ron tích chập đồ thị, tập dữ liệu dạng chuỗi thời gian được sử dụng cũng như phương pháp đánh giá
− Chương 2 CƠ SỞ KIẾN THỨC: bàn về cơ sở kiến thức cơ bản trong
học sâu, từ mạng nơ-ron tích chập tới mạng nơ-ron tích chập đồ thị, Hồi quy dịch chuyển trung bình, Mạng ghi nhớ dài-ngắn hạn
− Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: nói
về các công trình nghiên cứu liên quan, bắt đầu từ công trình nghiên cứu mạng học sâu trên đồ thị của Stefan Bloemheuvel, Jurgen van den Hoogen, Dario Jozinovi´c, Alberto Michelini & Martin Atzmueller, 2022, mở ra hàng loạt công trình tiếp theo cho hướng nghiên cứu cho bài toán dự đoán trong dữ liệu chuỗi thời gian, và đó cũng là cơ sở quan trọng cho nghiên cứu của học viên trong luận văn
− Chương 4 CÁC MÔ HÌNH ĐỀ XUẤT: Chương 4 nói cụ thể về các
mô hình đề xuất của học viên cho bài toàn dự đoán chất lượng không khí và các kết quả thực nhiệm
Trang 176
− Chương 5 KẾT LUẬN: Tổng kết các đóng góp của luận văn, các vấn
đề còn tồn tại của bài toán dự đoán dữ liệu chuỗi thời gian đồng thời nói về nghiên cứu trong tương lai
Trang 182.1 Đồ thị
Một phần của học sâu với đồ thị là tập trung vào cấu trúc dữ liệu dạng đồ
thị Đồ thị thể hiện mối quan hệ giữa tập các đỉnh (vertices) được kết nối bởi các cạnh (edges) với nhau
Đồ thị được định nghĩa 𝐺 = (𝑉, 𝐸) trong đó V là tập đỉnh và E là tập cạnh Mỗi cạnh 𝑒𝑖𝑗 = (𝑥𝑖, 𝑥𝑗) kết nối đỉnh 𝑥𝑖 và 𝑥𝑗 Một cách phổ biến để biểu diễn
đồ thị là sử dụng ma trận kề (Adjacency matrix) 𝐴 ∈ ℝ𝑁×𝑁 với 𝑁 = |𝑉|, ma trận kề là ma trận vuông có giá trị của đường chéo chính bằng một 𝐴𝑖𝑗 = 1 nếu tồn tại cạnh nối đỉnh 𝑥𝑖 đến 𝑥𝑗, ngược lại 𝐴𝑖𝑗 = 0
Số lượng đỉnh lân cận thuộc đỉnh 𝑥 được xác định bởi bậc của đỉnh 𝑥 và biểu diễn như sau 𝐷𝑖𝑖 = ∑ 𝐴𝑗 𝑖𝑗, trong đó D là ma trận bậc Cạnh có thể có hướng
Trang 198
hoặc vô hướng Cạnh có hướng là cạnh chỉ hướng từ đỉnh nguồn đến đỉnh đích Cạnh vô hướng là cạnh không có khái niệm liên quan đến đỉnh nguồn và đích
Các đỉnh, cạnh và toàn bộ biểu đồ có thể có các các đặc trưng (features) của
dữ liệu, ví dụ: vector 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛) là một vector đặc trưng của đỉnh 𝑎
Hình 2.1: Vector đặc trưng của mỗi đỉnh thuộc đồ thị
2.2 Lý thuyết phổ đồ thị
Lý thuyết phổ đồ thị (Spectral Graph Theory) [5] là hướng nghiên cứu về tính chất của đồ thị trong qua công cụ đại số với mối quan hệ của giá trị riêng (eigenvalues) và vector riêng (eigenvectors), điển hình như ma trận kề, ma trận
Trang 209
Trong đó, D là ma trận bậc (degree matrix) với 𝐷(𝑖, 𝑖) là bậc của đỉnh 𝑖𝑡ℎ,
A là ma trận kề với 𝐴(𝑖, 𝑗) = 1 nếu và chỉ nếu (𝑖, 𝑗) ∈ 𝐸 Vì vậy, ta có thể biểu diễn ma trận Laplacian như sau:
𝐿(𝑖, 𝑗) = {
deg(𝑖) 𝑛ế𝑢 𝑖 = 𝑗−1 𝑛ế𝑢 (𝑖, 𝑗) ∈ 𝐸
0 1 1 1 0 1 0 1 0 0 1 1 0 0 1 1 0 0 0 1 0 0 1 1 0
3 -1 -1 -1 0 -1 2 -1 0 0 -1 -1 3 0 -1 -1 0 0 2 -1 0 0 -1 -1 2
Trang 21𝑥𝑡𝐿𝑥 = ∑𝑖<𝑗:(𝑖,𝑗)∈𝐸(𝑥(𝑖) − 𝑥(𝑗))2 (2.5)
2.3 Graph Neural Network
Graph Neural Network - GNNs là mô hình học sâu dựa trên cơ sở của đồ
thị Trước đây có 2 phương pháp sử dụng GNNs là: Phương pháp phổ (Spectral method) và phương pháp không gian (Spatrial methods) Phương pháp phổ sử dụng vector riêng (eigenvectors) và trị riêng (eigenvalues) của ma trận và thực
hiện tích chập với phép biến đổi Fourier đồ thị ( Graph Fourier Transformation) và nghịch đảo biến đổi Fourier đồ thị (inverse Graph Fourier transform) Phép biến đổi của đầu vào 𝑥 được định nghĩa là 𝐹(𝑥) = 𝑈𝑇𝑥 và 𝐹−1(𝑥) = 𝑈𝑥 Trong đó, U đại diện cho ma trận vector riêng của ma trận chuẩn hóa Laplacian:
Trang 2211
Trong đó, D là ma trận bậc của ma trận kề A và I là ma trận đơn vị
Phương pháp không gian sử dụng kỹ thuật message passing để xác định các
đỉnh lân cận và thực hiện tính toán giới hạn đến lân cận thứ k Mỗi đỉnh sẽ được cập nhập giá trị mới bởi hàm 𝑓, một phép cập nhập được biểu diễn bởi hàm 𝑍 =
𝑓(𝐺)𝑋 Trong đó, 𝐺 là ma trận chuẩn hóa Laplacian và 𝑋 là đặc trưng của đỉnh
(node features) Tuy nhiên, vấn đề gặp phải với phương pháp không gian là định nghĩa lớp tích chập kết hợp với k đỉnh lân cận
Hình 2.3: Đồ thị được áp dụng bộ lọc F vào mỗi đỉnh
𝐹 được xác định bởi một hàm số 𝑔𝜃 = 𝑑𝑖𝑎𝑔(𝜃) trong đó 𝜃 là bộ tham số cần học
Khi áp dụng hàm số 𝑔𝜃 tại mỗi đỉnh, đồng nghĩa thực hiện phép toán 𝑔𝜃 ×𝑥 = 𝑈𝑔𝜃(Λ)𝑈𝑇, trong đó 𝑥 là vector đặc trưng, Λ là ma trận giá trị riêng, 𝑈 là mà trận vector riêng của ma trận chuẩn hóa đồ thị Laplacian Vì vậy, ta có thể hiểu 𝑔𝜃(Λ) là hàm số xác định ma trận giá trị riêng của L
𝑥1 𝑥2 … 𝑥𝑛𝐹 ×
𝑥1 𝑥2 … 𝑥𝑛𝐹 ×
𝑥1 𝑥2 … 𝑥𝑛
Trang 2312
Tối ưu bằng cách áp dụng đa thức Chebyshev (Hammond, Vandergheynst & Gribonval, 2011) và phương pháp chuẩn hóa, vì thế có thể tăng tốc độ học và tránh hiện tượng không học được gì (vanishing gradients)
Phương pháp không gian tập trung vào sự kết nối của đồ thị trong khi phương pháp phổ dựa vào giá trị riêng và vector riêng của đồ thị Phương thức lan truyền được biểu diễn như sau:
Hình 2.4: Phương thức lan truyền của mô hình
Trong đó, 𝐻(𝑙) là ma trận của lớp kích hoạt thứ 𝑙𝑡ℎ, 𝜎 biểu thị hàm kích hoạt, 𝐷̃ = ∑ 𝐴̃𝑗 𝑖𝑗 là ma trận bậc; 𝐴̃ = 𝐴 + 𝐼𝑁 là ma trận kề của đồ thị vô hướng G được kết hợp với ma trận đơn vị để thể hiện kết nối của một đỉnh với chính nó, 𝑊(𝑙) là ma trận trọng số huấn luyện
2.4 Mô hình Artificial Neural Network
Mô hình Mạng nơ-ron nhân tạo (Hopfield, 1988) là mô hình tính toán được
xây dựng dựa trên ý tưởng lấy từ cấu trúc và cách hoạt động của mạng nơ-ron
𝐻1 = 𝜎(… ) 𝐻2= 𝜎(… )
Trang 24Hình 2.5: Các thành phần cơ bản của một nơ-ron sinh học
Nơ-ron thần kinh hoạt động bằng cách tiếp nhận các thông tin đưa vào từ
các đuôi gai (dendrites), tính toán và tổng hợp tại thân nơ-ron (cell body), sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon)
Có thể dễ dàng rút ra nhận xét rằng mạng nơ-ron thần kinh nhận nhiều thông tin đầu vào nhưng chỉ đưa ra một kết quả duy nhất
Tương tự như cách thức hoạt động của mạng nơ-ron thần kinh nêu trên, ANN cũng được cấu thành từ nhiều nơ-ron được gọi là perceptron có cấu trúc như Hình 3.2 Trong đó:
Các đuôi gai (Dendrites)
Sợi trục (Axon) Thân nơ-ron
(Cell body)
Trang 2514
- 𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛 là các thông tin dữ liệu đầu vào
- Phép cộng và hàm kích hoạt chính là các phép tính toán và tổng hợp các thông tin dữ liệu đầu vào
- 𝑤0, 𝑤1, 𝑤2, 𝑤3, … 𝑤𝑛 là các trọng số cần phải học, đóng vai trò tham gia quá trình tính toán và chuyển đổi các thông tin đầu vào thành thông tin đầu ra - 𝑦 là dữ liệu đầu ra
Hình 2.6: Cấu trúc của một perceptron
Cụ thể hơn, phương thức tính toán và tổng hợp dữ liệu của một perceptron được mô tả theo từng bước sau:
1 Sau khi tiếp nhận tập các dữ liệu đầu vào {𝑥1, 𝑥2, … , 𝑥𝑛}, perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích số của từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng
𝑎 = ∑𝑛𝑖=1𝑤𝑖𝑥𝑖 + 𝑤0 (2.8)
Σ
hàm kích hoạt 𝑤0
phép cộng
𝑦
Trang 2615
2 Kết quả 𝑎 của phép cộng được đưa vào hàm kích hoạt là hàm không tuyến
tính như sigmoid, tanh, ReLU, LeakyReLU (Hình 3.3)
Hình 2.7: Một số hàm kích hoạt được sử dụng trong perceptron 3 Sau đó, perceptron thực hiện phép so sánh giá trị nhận được từ hàm kích
hoạt 𝑓(𝑎) với một giá trị ngưỡng (threshold) là t cho trước nhằm xác định giá trị đầu ra 𝑦̂ được hiểu là tín hiệu kích hoạt của perceptron
Giả sử tín hiệu kích hoạt là 1 và tín hiệu không kích hoạt là 0, ta có:
𝑅𝑒𝐿𝑈 = { 𝑧, 𝑧 > 0
𝑧, 𝑧 > 0𝑎𝑧, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
Trang 2716
𝑦 = [1 𝑖𝑓 𝑓(𝑎)≥𝑡0 𝑖𝑓 𝑓(𝑎)<𝑡 (2.9)
Hình 2.8: Cấu trúc mô hình Artificial Neural Network
Bằng cách kết hợp nhiều percentron với nhau sẽ tạo nên cấu trúc mô hình ANN như Hình 3.4 và các perceptron được phân thành từng lớp có nhiệm vụ đặc thù riêng:
- Tầng dữ kiện (input layer) là tầng đầu tiên, thể hiện các dữ liệu đầu vào
của mô hình
- Tầng ẩn (hidden layer) là tầng nằm giữa gồm các phép tính toán chuyển
đổi dữ liệu đầu vào sang dữ liệu đầu ra Số lượng tầng ẩn trong mô hình là không giới hạn mà phụ thuộc vào cách giải quyết bài toán
- Tầng kết quả (output layer) là tầng cuối cùng thể hiện dữ liệu đầu ra của
mô hình Số lượng tầng ẩn trong mô hình ANN là không giới hạn và được xác định tùy thuộc vào bài toán cần giải quyết Đặc biệt, khi số lượng tầng ẩn lớn hơn 1 thì mô hình ANN được gọi là mô hình học sâu
Tầng dữ kiện
quả
Đầu ra 1
Đầu ra m Dữ liệu
Trang 2817
2.5 Mô hình ghi nhớ dài-ngắn hạn
RNN có một số nhược điểm được khắc phục bởi LSTM (Long Short-Term Memory) RNN không duy trì dữ liệu trước đó và có xu hướng quên đầu vào của dữ liệu, mỗi khi thông tin được thêm vào và bị ghi đè hoàn toàn bởi RNN, vì lý do đó RNN không thể chọn lọc được những thông tin quan trọng và loại bỏ những thông tin không quan trọng LSTM được xây dựng dựa trên kiến trúc RNN nhằm khắc phục những ngược điểm đó, LSTM mang ý tưởng học những phụ thuộc dài hạn, cải thiện hiệu quả dự đoán LSTM thêm bớt một cách có chọn lọc các thông tin quan trọng và thậm chí giải quyết vấn đề vanishing gradient Bên cạnh đó, mô hình cần chọn lọc thông tin để nhớ tại mỗi bước xử lý chứ không ghi nhớ tất cả các thông tin vì trong thực tế thông tin đứng sau chỉ liên hệ đến một phần trong số các thông tin đứng trước (Sepp Hochreiter & Jurgen Schmidhuber, 1997) Cấu trúc của mô hình LSTM được thể hiện trong hình 2.9:
Trang 2918
Hình 2.9: Cơ chế hoạt động trong mô hình Long Short-Term Memory
Mỗi đơn vị LSTM bao gồm cell và các cổng xử lý như sau: cổng quên (forget gate), cổng cập nhật (update gate), cổng xuất (output gate) Cell ghi nhớ các giá trị trong một khoảng thời gian và ba cổng có nhiệm vụ điều chỉnh dòng dữ liệu Cơ chế hoạt động của mô hình LSTM được mô tả theo từng bước như sau:
1 Cổng quên (forget gate) là phần quyết định sẽ giữ lại bao nhiêu phần
của vector cell state trước 𝑐𝑡−1 với việc thực hiện phép tính toán đối với vector hidden state trước ℎ𝑡−1 và vector biểu diễn thành phần dữ liệu thứ 𝑡, sau đó đưa kết quả qua hàm sigmoid:
𝑓𝑡 = 𝜎(𝑊𝑓 [ℎ𝑡 − 1, 𝑥𝑡 ] + 𝑏𝑓 ) (2.10)
𝜎 x
𝜎 𝜎
x 𝑐𝑡−1
𝑓𝑡 𝑢𝑡
Cổng quên
(output gate) Cổng cập nhật
(update gate)
𝑡𝑎𝑛ℎ
𝑡𝑎𝑛ℎ
Trang 3019
2 Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu
phần từ vector hidden state trước ℎ𝑡−1 và vector dữ liệu xt với phép tính sau: 𝑢𝑡 = 𝜎(𝑊𝑢 [ℎ𝑡 − 1, 𝑥𝑡 ] + 𝑏𝑢 ) (2.11)
3 Cổng xuất (output gate) là phần quyết định lấy bao nhiêu phần giá trị
cell state trước 𝑐𝑡−1 để trở thành giá trị của hidden state ℎ𝑡 bằng phép tính: 𝑜𝑡 = 𝜎(𝑊𝑜 [ℎ𝑡 − 1, 𝑥𝑡 ] + 𝑏𝑜 ) (2.12)
Trang 3120
Chương 3
CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Hình 3.1: Sơ đồ taxonomy của các công trình nghiên cứu liên quan
Trong luận văn này, tác giả sẽ tập trung nghiên cứu các mô hình dựa trên
dữ liệu chuỗi thời gian đa biến Trước đây, học máy (machine learning) đã có
sự nỗ lực rất lớn để trích xuất những đặc trưng của dữ liệu, tuy nhiên không
thực sự hiệu quả Học sâu (Goodfellow, Bengio, & Courville, 2016) cung cấp
phương pháp trích xuất đặc trưng hiệu quả hơn thông qua nhiều lớp học phi
tuyến Trong thực tế, dữ liệu được biểu diễn khá phức tạp như chuỗi thời gian và đồ thị, nên tác giả đã tìm hiểu phương pháp để tạo ra kiến trúc xử lý những
Dự đoán chất lượng không khí
Các phương pháp điển hình Hồi quy dịch chuyển
trung bình (ARIMA)
Mạng nơ-ron tích chập (CNN)
Mạng ghi nhớ ngắn hạn (LSTM)
dài-Học sâu trên đồ thị
Lý thuyết đồ thị
Lý thuyết phổ đồ thị Mạng nơ-ron tích chập
đồ thị (GNN)
Mạng nơ-ron tích chập đồ thị với bộ lọc quang phổ nhanh-cục bộ Mạng nơ-ron tích chập đồ
thị không gian-thời gian