Luận văn thạc sĩ Khoa học máy tính: Dự đoán chất lượng không khí dựa trên graph neural network

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM

Cán bộ hướng dẫn khoa học: PGS.TS Quản Thành Thơ

Cán bộ chấm nhận xét 1: PGS.TS Võ Thị Ngọc Châu

Cán bộ chấm nhận xét 2: PGS.TS Đỗ Văn Nhơn

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 11 tháng 07 năm 2023

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ tịch: TS Nguyễn Đức Dũng 2 Thư ký: TS Trương Thị Thái Minh 3 Phản biện 1: PGS.TS Võ Thị Ngọc Châu 4 Phản biện 2: PGS.TS Đỗ Văn Nhơn 5 Uỷ viên: TS Bùi Thanh Hùng

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

TS Nguyễn Đức Dũng PGS.TS Phạm Trần Vũ

Trang 3

i

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA _

CỘNG HOA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Ngày, tháng, năm sinh: 03/08/1991 Nơi sinh: Quảng Ngãi

I TÊN ĐỀ TÀI: DỰ ĐOÁN CHẤT LƯỢNG KHÔNG KHÍ DỰA TRÊN GRAPH NEURAL NETWORK

(AIR QUALITY PREDICTION BASED ON GRAPH NEURAL NETWORK) II NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu, xây dựng hệ thống dự đoán chất lượng không khí dựa trên Graph Neural Network

- Nghiên cứu và đề xuất phương pháp nhằm cải thiện độ chính xác của mô hình - Thực nghiệm và đánh giá kết quả của phương pháp đề xuất

III NGÀY GIAO NHIỆM VỤ: 06/02/2022

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023 V CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ

Trang 4

ii

LỜI CÁM ƠN

Sau một quá trình thực hiện nghiên cứu, em cũng đã hoàn thành nội dung luận văn Luận văn được hoàn thành không chỉ là kết quả cố gắng không ngừng nghỉ của bản thân mà còn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá nhân và tập thể

Lời đầu tiên, em xin trân trọng tỏ lòng biết ơn chân thành và sâu sắc đến PGS.TS Quản Thành Thơ, thầy là người hướng dẫn trực tiếp trong quá trình thực hiện luận văn, nhờ những chia sẻ và đóng góp ý kiến của thầy giúp em hoàn thiện những nội dung Luận văn Hơn hết thầy còn là người truyền cảm hứng cho em trong khoa học máy tính

Em cũng xin chân thành cảm ơn đến toàn thể anh, chị, em đồng nghiệp trong công ty Orient đã luôn tạo điều kiện cho em trong quá trình học và thực hiện luận văn tốt nghiệp Những lời động viên của toàn thể mọi người là niềm động lực giúp em vượt quả khoảng thời gian khó khăn nhất trong quá trình thực hiện luận văn

Cuối cùng, em xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh, chị cùng lớp cao học đã luôn động viên, quan tâm giúp đỡ em trong quá trình học tập và thực hiện luận văn

Trang 5

iii

TÓM TẮT LUẬN VĂN

Dự đoán chất lượng không khí dựa trên Graph Neural Network là bài toán tập trung vào các tác vụ quan trọng như trích xuất thông tin những thông số trong không khí và trích xuất dựa trên mối liên kết không gian của dữ liệu, các chỉ số trong không khí bao gồm 𝑃𝑀2.5, 𝑃𝑀10, 𝑁𝑂2, 𝐶𝑂, 𝑆𝑂2, 𝑂3, 𝐴𝑄𝐼 Phân bố không gian giữa các cảm biến thể hiện mối liên quan và tính liên kết của dữ liệu Trước đây, các phương pháp truyền thống thường sử dụng mô hình ARIMA, CNN, LSTM để áp dụng vào bài toán dữ liệu chuỗi thời gian, cách tiếp cận của các phương pháp này chủ yếu dựa vào các giá trị quan sát được để đưa ra giá trị dự đoán Tuy nhiên, những phương pháp truyền thống vẫn chưa khai thác những khía cạnh tiềm năng khác của dữ liệu chuỗi thời gian như tận dụng liên hệ, tính chất tương đồng của dữ liệu giữa các thiết bị thu thập thông tin trong cùng một thời điểm Đồng thời những phương pháp trước đây cũng chưa thể hiện được rõ ràng sự đóng góp giữa các mối liên kết không gian của cảm biến vào việc trích xuất đặc trưng Do đó trong nội dung của luận văn này, học viên tập trung khai thác bài toán dự đoán dữ liệu chuỗi thời gian theo hướng sử dụng Graph Neural Network và đưa ra mô hình đề xuất, cải tiến so với mô hình tham khảo

Sử dụng thông tin của chỉ số không khí kết hợp với thông tin phân bố không gian của các thiết bị cảm biến vào bài toán dự đoán Trong đó học viên

sử dụng lớp tích chập đồ thị (Graph Convolution Networks) để lọc ra lượng

thông tin trong mạng kết nối của thiết bị nhằm tận dụng nguồn dữ liệu tiềm năng hiện có của hệ thống internet vạn vật, điều này cung cấp thêm thông tin cho mô hình, giúp cải thiện độ chính xác Thư viện spektral được sử dụng để mô hình hóa dữ liệu đầu vào của mô hình bằng cấu trúc dạng đồ thị

Trang 6

iv

ABSTRACT OF DISSERTATION

The topic of predicting air quality using Graph Neural Networks focuses on critical tasks including extracting data from sensors concerning parameters in the air and extracting based on geographical interconnections of data, indicators in the air, such as 𝑃𝑀2.5, 𝑃𝑀10, 𝑁𝑂2, 𝐶𝑂, 𝑆𝑂2, 𝑂3, 𝐴𝑄𝐼 When dealing with time series data problems in the past, conventional approaches frequently applied ARIMA, CNN, and LSTM models predict worth

Traditional approaches haven't yet fully utilized time series data' additional potential benefits, such as utilizing the data similarity between concurrently collecting equipment The significance of the sensor's spatial links to feature extraction, however, has not been made evident by earlier methods As a result, students in this thesis concentrate on employing Graph Neural

Networks to solve the problem of forecasting time series data and developing a new and enhanced model above the reference model

Utilizing the air index data along with the sensor's spatial distribution data in the prediction problem In order to take use of the current potential data source of the internet of things system, students use the graph convolution class to filter out the volume of data in the linked device's network This gives the model more information and increases accuracy The input data of the model is modeled using a graph structure using the spektral library

Trang 7

v

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn tốt nghiệp: “DỰ ĐOÁN CHẤT LƯỢNG KHÔNG KHÍ DỰA TRÊN GRAPH NEURAL NETWORK” là công trình nghiên cứu của bản thân Những phần sử dụng tài liệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trung thực, nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra

Phạm Linh Sơn

Trang 8

vi

Mục lục

Chương 1 GIỚI THIỆU ĐỀ TÀI 1

1.1 Giới thiệu đề tài 1

1.2 Mô tả bài toán dự đoán chất lượng không khí dựa trên Graph Neural Network 2

1.3 Mục tiêu và nhiệm vụ của luận văn 3

2.3 Graph Neural Network 10

2.4 Mô hình Artificial Neural Network 12

2.5 Mô hình ghi nhớ dài-ngắn hạn 17

Chương 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 20

3.1 Hồi quy dịch chuyển trung bình 21

3.8 Mạng nơ-ron tích chập đồ thị với bộ lọc quang phổ nhanh-cục bộ 24

Chương 4 MÔ HÌNH ĐỀ XUẤT 26

4.1 Mô hình tham khảo 26

4.1.1 Mô hình 1: GNN 26

4.1.2 Mô hình 2: CNN kết hợp LSTM 29

Trang 9

vii

4.1.3 Mô hình 3: CNN 29

4.1.4 Mô hình 4: LSTM 31

4.2 Phương pháp đánh giá 31

4.2.1 Mean Absolute Error (MAE) 31

4.2.2 Mean Squared Error (MSE) 32

4.2.3 Root Mean Squared Error (RMSE) 32

4.2.4 Mean Absolute Percentage Error (MAPE) 32

4.3 Mô hình đề xuất 33

4.3.1 Động lực và ý tưởng 33

4.3.2 Mô tả mô hình 35

4.3.3 Tham số cấu hình của mô hình 37

4.3.4 Kết quả thực nghiệm và thảo luận 38

Chương 5 KẾT LUẬN 43

Tài liệu tham khảo 45

Trang 10

viii

Danh sách hình vẽ

2.1: Vector đặc trưng của mỗi đỉnh thuộc đồ thị 8

2.2: Tính ma trận Laplacian từ ma trận bậc và ma trận kề 9

2.3: Đồ thị được áp dụng bộ lọc F vào mỗi đỉnh 11

2.4: Phương thức lan truyền của mô hình 12

2.5: Các thành phần cơ bản của một nơ-ron sinh học 13

2.6: Cấu trúc của một perceptron 14

2.7: Một số hàm kích hoạt được sử dụng trong perceptron 15

2.8: Cấu trúc mô hình Artificial Neural Network 16

2.9: Cơ chế hoạt động trong mô hình Long Short-Term Memory 18

3.1: Sơ đồ taxonomy của các công trình nghiên cứu liên quan 20

4.1: Mô hình tham khảo 27

4.2: Mô hình kết hợp CNN-LSTM 29

4.3: Mô hình dự đoán dữ liệu chuỗi thời gian 30

4.4: Mô hình sử dụng LSTM 31

4.5: Mô hình đề xuất dựa trên mạng nơ-ron tích chập đồ thị 36

4.6: Phân bố của 2 hệ thống cảm biến trên không gian địa lý 39

4.7: Kết quả mô hình đề xuất trên hệ thống cảm biến dày đặc 40

4.8: Kết quả mô hình đề xuất trên hệ thống cảm biến thưa thớt 40

4.9: Kết quả mô hình GNN, GNN.base, CNN, LSTM, CNN-LSTM 41

Trang 11

ix

Danh sách bảng

4.1: Các tham số trong mô hình 38 4.2: Kết quả thực nghiệm của các mô hình 38

Trang 12

1

Chương 1

GIỚI THIỆU ĐỀ TÀI

1.1 Giới thiệu đề tài

Ngày nay, sự phát triển của IoT (Internet of Things) trên thế giới mở ra định hướng mới cho thu thập và phân tích dữ liệu từ hệ thống cảm biến Các cảm biến được triển khai rộng rãi ở nhiều nơi, sinh ra lượng dữ liệu lớn đã đưa ra thách thức trong xử lý dữ liệu là làm thế nào để phân tích dữ liệu chuỗi thời gian (Time Series) Mặc dù các cảm biến độc lập với nhau, nhưng có thể xây dựng được một mạng đồ thị kết nối chặt chẽ giữa chúng Từ đó, ta có thể khai thác những đặc trưng của dữ liệu kết hợp với mối liên kết đến các chuỗi dữ liệu lân cận, phân tích dữ liệu chuỗi thời gian nhằm mục đích dự đoán sớm được những thông tin trong dữ liệu theo chuỗi đa biến thời gian thực Những lĩnh vực mà ở đó dữ liệu chuỗi thời gian được sử dụng phân tích bao gồm: giao thông, thời tiết, địa chấn, dự báo và phân loại, một số kỹ thuật trước đây để giải quyết những bài toán này như là: ARIMA (Rob & George, 2015), LSTM (Wensheng Yang, Chengxin Ma & Yulong Shi, 2019) Dữ liệu chuỗi thời gian thường có tính xu hướng, đây là tính chất thường thấy của dạng dữ liệu này Tính xu hướng ảnh hưởng không nhỏ đến phân tích và nhận định mối tương quan giữa các chuỗi dữ liệu Ngoài ra, dữ liệu chuỗi thời gian còn có đặc tính chu kỳ, đây là tính chất lặp đi lặp lại của dữ liệu, việc phát hiện ra chu kỳ của dữ liệu rất cần thiết trong dự báo, cộng thêm khó khăn từ nhiễu do ảnh hưởng từ các yếu tố môi trường xung quanh Do đó, những phương pháp dự đoán hiệu quả dành cho loại dữ liệu chuỗi thời gian là rất cần thiết Ngoài vấn đề về tính chất của dữ liệu chuỗi thời gian, một thách thức khác của bài toán “Dự đoán chất lượng

Trang 13

2

không khí dựa trên Graph Neural Network” là làm sao xây dựng được mô hình tổng quát có khả năng thể hiện được sự phụ thuộc giữa các chuỗi dữ liệu khác nhau, cũng như mối quan hệ tương đồng về dữ liệu Mặc dù các cảm biến độc lập với nhau, nhưng có thể xây dựng được một mạng đồ thị kết nối chặt chẽ giữa chúng Đây chính là mục tiêu quan trọng của bài toán dự đoán dữ liệu chuỗi thời gian trong khoa học máy tính.

1.2 Mô tả bài toán dự đoán chất lượng không khí dựa trên Graph Neural Network

Đầu vào của mô hình là tập dữ liệu có cấu trúc đồ thị có dạng

[𝑏𝑎𝑡𝑐ℎ, 𝑛𝑜𝑑𝑒𝑠, 𝑛_𝑓𝑒𝑎𝑡], chứa 𝑏𝑎𝑡𝑐ℎ là kích thước của mỗi khối dữ liệu, 𝑛𝑜𝑑𝑒𝑠 là số đỉnh của đồ thị và 𝑛_𝑓𝑒𝑎𝑡 là các đặc trưng trên mỗi đỉnh Dữ liệu đầu vào được mô hình hóa dựa trên ma trận Laplacian 𝐿 = 𝐷 − 𝐴 Laplacian là ma trận biểu diễn mối liên hệ của đồ thị 𝐺 = (𝑉, 𝐸), với |𝑉| = 𝑛 Trong đó,

D là ma trận bậc (degree matrix) với 𝐷(𝑖, 𝑖) là bậc của đỉnh 𝑖𝑡ℎ, A là ma trận

kề với 𝐴(𝑖, 𝑗) = 1 nếu và chỉ nếu (𝑖, 𝑗) ∈ 𝐸

Dự đoán dữ liệu chuỗi thời gian đa biến chủ yếu tập trung vào thông tin thu được từ mạng lưới các cảm biến và yếu tố không gian, từ đó xây dựng được cấu trúc dạng đồ thị Trong đó, mỗi đỉnh của đồ thị đại diện cho mỗi trạm thu dữ liệu, trọng số của đường nối giữa hai đỉnh là khoảng cách địa lý trong thực tế

Ví dụ với các chỉ số dữ liệu (𝑃𝑀2.5, 𝑃𝑀10, 𝑁𝑂2, 𝐶𝑂, 𝑆𝑂2, 𝑂3, 𝐴𝑄𝐼, 𝑙𝑎𝑡𝑖𝑡𝑢𝑑𝑒, 𝑙𝑜𝑛𝑔𝑖𝑡𝑢𝑑𝑒) tại mỗi đỉnh, trong đó latitude và longitude giúp xác

Trang 14

3

định vị trí đỉnh trong đồ thị, đầu ra của mô hình sẽ là giá trị dự đoán chỉ số

chất lượng không khí AQI (Air Quality Indexing)

1.3 Mục tiêu và nhiệm vụ của luận văn

Mục tiêu của luận văn hướng đến việc nghiên cứu và xây dựng mô hình dự đoán dữ liệu chuỗi thời gian đa biến sử dụng các phương pháp học sâu và lý thuyết phổ của đồ thị Cụ thể:

- Hiểu và sử dụng được các mô hình học sâu, các lý thuyết đồ thị và phổ đồ thị cho biểu diễn dữ liệu

- Xác định rõ công việc sẽ tập trung giải quyết trong bài toán dự đoán dữ liệu chuỗi thời gian đa biến: đầu vào và đầu ra của mô hình là gì? Mô hình sử dụng dataset có dữ liệu về cảm biến hay không? Đặc trưng của dataset có những chỉ số không khí là gì?

- Nắm bắt những phương pháp gần đây để giải quyết bài toán, đặc biệt là những phương pháp sử dụng các mô hình học sâu Trên cơ sở đó có thể chỉ ra được những ưu nhược điểm của từng phương pháp

- Đưa ra đề xuất có thể cải thiện hiệu suất của mô hình dựa trên thực nghiệm

- Cuối cùng, học viên sẽ hiểu rõ hơn những vấn đề, thách thức khi áp dụng học sâu, học máy vào giải quyết một bài toán thực tế Đánh giá tính khả thi của các phương pháp trong thực tiễn, đồng thời sẽ có góc nhìn chính xác hơn về học sâu, học máy nói chung

Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình làm luận văn:

Trang 15

4

- Tìm hiểu bài toán dự đoán dữ liệu chuỗi thời gian, các công trình nghiên cứu liên quan, các phương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp

- Đề xuất các mô hình giúp cải thiện độ chính xác cho bài toán dự đoán dữ liệu chuỗi thời gian

- Thực nghiệm, đánh giá kết quả của mô hình đề xuất

- Kết luận, nêu ra các vấn đề còn tồn đọng, đồng thời đưa ra các dự định nghiên cứu tương lai

1.4 Giới hạn đề tài

Dự đoán dữ liệu chuỗi thời gian là phương pháp nghiên cứu phổ biến và có nhiều phương pháp khác nhau, vì vậy nội dung luận văn sẽ được giới hạn như sau:

- Tập trung vào công việc trích xuất đặc trưng dữ liệu chuỗi thời gian đa biến và mô hình hóa dữ liệu dựa trên phổ đồ thị

- Các mô hình học sâu: CNN, LSTM, GNN

- Mô hình được đánh giá dựa trên độ đo MSE, RMSE, MAE, MAPE cho tác vụ trích xuất đặc trưng của dữ liệu chuỗi thời gian

1.5 Đóng góp của luận văn

Trong luận văn, học viên đề xuất phương pháp giúp cải thiện hiệu quả của mô hình dự đoán

- Sử dụng mạng nơ-ron tích chập đồ thị vào trích xuất dữ liệu chuỗi thời gian tần suất cao

Trang 16

Nội dung của luận văn gồm 5 chương:

− Chương 1 GIỚI THIỆU ĐỀ TÀI: giới thiệu về nhu cầu dự đoán trong

dữ liệu chuỗi thời gian, mô tả bài toán dự đoán chất lượng không khí dựa trên mạng nơ-ron tích chập đồ thị, tập dữ liệu dạng chuỗi thời gian được sử dụng cũng như phương pháp đánh giá

− Chương 2 CƠ SỞ KIẾN THỨC: bàn về cơ sở kiến thức cơ bản trong

học sâu, từ mạng nơ-ron tích chập tới mạng nơ-ron tích chập đồ thị, Hồi quy dịch chuyển trung bình, Mạng ghi nhớ dài-ngắn hạn

− Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: nói

về các công trình nghiên cứu liên quan, bắt đầu từ công trình nghiên cứu mạng học sâu trên đồ thị của Stefan Bloemheuvel, Jurgen van den Hoogen, Dario Jozinovi´c, Alberto Michelini & Martin Atzmueller, 2022, mở ra hàng loạt công trình tiếp theo cho hướng nghiên cứu cho bài toán dự đoán trong dữ liệu chuỗi thời gian, và đó cũng là cơ sở quan trọng cho nghiên cứu của học viên trong luận văn

− Chương 4 CÁC MÔ HÌNH ĐỀ XUẤT: Chương 4 nói cụ thể về các

mô hình đề xuất của học viên cho bài toàn dự đoán chất lượng không khí và các kết quả thực nhiệm

Trang 17

6

− Chương 5 KẾT LUẬN: Tổng kết các đóng góp của luận văn, các vấn

đề còn tồn tại của bài toán dự đoán dữ liệu chuỗi thời gian đồng thời nói về nghiên cứu trong tương lai

Trang 18

2.1 Đồ thị

Một phần của học sâu với đồ thị là tập trung vào cấu trúc dữ liệu dạng đồ

thị Đồ thị thể hiện mối quan hệ giữa tập các đỉnh (vertices) được kết nối bởi các cạnh (edges) với nhau

Đồ thị được định nghĩa 𝐺 = (𝑉, 𝐸) trong đó V là tập đỉnh và E là tập cạnh Mỗi cạnh 𝑒𝑖𝑗 = (𝑥𝑖, 𝑥𝑗) kết nối đỉnh 𝑥𝑖 và 𝑥𝑗 Một cách phổ biến để biểu diễn

đồ thị là sử dụng ma trận kề (Adjacency matrix) 𝐴 ∈ ℝ𝑁×𝑁 với 𝑁 = |𝑉|, ma trận kề là ma trận vuông có giá trị của đường chéo chính bằng một 𝐴𝑖𝑗 = 1 nếu tồn tại cạnh nối đỉnh 𝑥𝑖 đến 𝑥𝑗, ngược lại 𝐴𝑖𝑗 = 0

Số lượng đỉnh lân cận thuộc đỉnh 𝑥 được xác định bởi bậc của đỉnh 𝑥 và biểu diễn như sau 𝐷𝑖𝑖 = ∑ 𝐴𝑗 𝑖𝑗, trong đó D là ma trận bậc Cạnh có thể có hướng

Trang 19

8

hoặc vô hướng Cạnh có hướng là cạnh chỉ hướng từ đỉnh nguồn đến đỉnh đích Cạnh vô hướng là cạnh không có khái niệm liên quan đến đỉnh nguồn và đích

Các đỉnh, cạnh và toàn bộ biểu đồ có thể có các các đặc trưng (features) của

dữ liệu, ví dụ: vector 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛) là một vector đặc trưng của đỉnh 𝑎

Hình 2.1: Vector đặc trưng của mỗi đỉnh thuộc đồ thị

2.2 Lý thuyết phổ đồ thị

Lý thuyết phổ đồ thị (Spectral Graph Theory) [5] là hướng nghiên cứu về tính chất của đồ thị trong qua công cụ đại số với mối quan hệ của giá trị riêng (eigenvalues) và vector riêng (eigenvectors), điển hình như ma trận kề, ma trận

Trang 20

9

Trong đó, D là ma trận bậc (degree matrix) với 𝐷(𝑖, 𝑖) là bậc của đỉnh 𝑖𝑡ℎ,

A là ma trận kề với 𝐴(𝑖, 𝑗) = 1 nếu và chỉ nếu (𝑖, 𝑗) ∈ 𝐸 Vì vậy, ta có thể biểu diễn ma trận Laplacian như sau:

𝐿(𝑖, 𝑗) = {

deg(𝑖) 𝑛ế𝑢 𝑖 = 𝑗−1 𝑛ế𝑢 (𝑖, 𝑗) ∈ 𝐸

0 1 1 1 0 1 0 1 0 0 1 1 0 0 1 1 0 0 0 1 0 0 1 1 0

3 -1 -1 -1 0 -1 2 -1 0 0 -1 -1 3 0 -1 -1 0 0 2 -1 0 0 -1 -1 2

Trang 21

𝑥𝑡𝐿𝑥 = ∑𝑖<𝑗:(𝑖,𝑗)∈𝐸(𝑥(𝑖) − 𝑥(𝑗))2 (2.5)

2.3 Graph Neural Network

Graph Neural Network - GNNs là mô hình học sâu dựa trên cơ sở của đồ

thị Trước đây có 2 phương pháp sử dụng GNNs là: Phương pháp phổ (Spectral method) và phương pháp không gian (Spatrial methods) Phương pháp phổ sử dụng vector riêng (eigenvectors) và trị riêng (eigenvalues) của ma trận và thực

hiện tích chập với phép biến đổi Fourier đồ thị ( Graph Fourier Transformation) và nghịch đảo biến đổi Fourier đồ thị (inverse Graph Fourier transform) Phép biến đổi của đầu vào 𝑥 được định nghĩa là 𝐹(𝑥) = 𝑈𝑇𝑥 và 𝐹−1(𝑥) = 𝑈𝑥 Trong đó, U đại diện cho ma trận vector riêng của ma trận chuẩn hóa Laplacian:

Trang 22

11

Trong đó, D là ma trận bậc của ma trận kề A và I là ma trận đơn vị

Phương pháp không gian sử dụng kỹ thuật message passing để xác định các

đỉnh lân cận và thực hiện tính toán giới hạn đến lân cận thứ k Mỗi đỉnh sẽ được cập nhập giá trị mới bởi hàm 𝑓, một phép cập nhập được biểu diễn bởi hàm 𝑍 =

𝑓(𝐺)𝑋 Trong đó, 𝐺 là ma trận chuẩn hóa Laplacian và 𝑋 là đặc trưng của đỉnh

(node features) Tuy nhiên, vấn đề gặp phải với phương pháp không gian là định nghĩa lớp tích chập kết hợp với k đỉnh lân cận

Hình 2.3: Đồ thị được áp dụng bộ lọc F vào mỗi đỉnh

𝐹 được xác định bởi một hàm số 𝑔𝜃 = 𝑑𝑖𝑎𝑔(𝜃) trong đó 𝜃 là bộ tham số cần học

Khi áp dụng hàm số 𝑔𝜃 tại mỗi đỉnh, đồng nghĩa thực hiện phép toán 𝑔𝜃 ×𝑥 = 𝑈𝑔𝜃(Λ)𝑈𝑇, trong đó 𝑥 là vector đặc trưng, Λ là ma trận giá trị riêng, 𝑈 là mà trận vector riêng của ma trận chuẩn hóa đồ thị Laplacian Vì vậy, ta có thể hiểu 𝑔𝜃(Λ) là hàm số xác định ma trận giá trị riêng của L

𝑥1 𝑥2 … 𝑥𝑛𝐹 ×

𝑥1 𝑥2 … 𝑥𝑛

Trang 23

12

Tối ưu bằng cách áp dụng đa thức Chebyshev (Hammond, Vandergheynst & Gribonval, 2011) và phương pháp chuẩn hóa, vì thế có thể tăng tốc độ học và tránh hiện tượng không học được gì (vanishing gradients)

Phương pháp không gian tập trung vào sự kết nối của đồ thị trong khi phương pháp phổ dựa vào giá trị riêng và vector riêng của đồ thị Phương thức lan truyền được biểu diễn như sau:

Hình 2.4: Phương thức lan truyền của mô hình

Trong đó, 𝐻(𝑙) là ma trận của lớp kích hoạt thứ 𝑙𝑡ℎ, 𝜎 biểu thị hàm kích hoạt, 𝐷̃ = ∑ 𝐴̃𝑗 𝑖𝑗 là ma trận bậc; 𝐴̃ = 𝐴 + 𝐼𝑁 là ma trận kề của đồ thị vô hướng G được kết hợp với ma trận đơn vị để thể hiện kết nối của một đỉnh với chính nó, 𝑊(𝑙) là ma trận trọng số huấn luyện

2.4 Mô hình Artificial Neural Network

Mô hình Mạng nơ-ron nhân tạo (Hopfield, 1988) là mô hình tính toán được

xây dựng dựa trên ý tưởng lấy từ cấu trúc và cách hoạt động của mạng nơ-ron

𝐻1 = 𝜎(… ) 𝐻2= 𝜎(… )

Trang 24

Hình 2.5: Các thành phần cơ bản của một nơ-ron sinh học

Nơ-ron thần kinh hoạt động bằng cách tiếp nhận các thông tin đưa vào từ

các đuôi gai (dendrites), tính toán và tổng hợp tại thân nơ-ron (cell body), sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon)

Có thể dễ dàng rút ra nhận xét rằng mạng nơ-ron thần kinh nhận nhiều thông tin đầu vào nhưng chỉ đưa ra một kết quả duy nhất

Tương tự như cách thức hoạt động của mạng nơ-ron thần kinh nêu trên, ANN cũng được cấu thành từ nhiều nơ-ron được gọi là perceptron có cấu trúc như Hình 3.2 Trong đó:

Các đuôi gai (Dendrites)

Sợi trục (Axon) Thân nơ-ron

(Cell body)

Trang 25

14

- 𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛 là các thông tin dữ liệu đầu vào

- Phép cộng và hàm kích hoạt chính là các phép tính toán và tổng hợp các thông tin dữ liệu đầu vào

- 𝑤0, 𝑤1, 𝑤2, 𝑤3, … 𝑤𝑛 là các trọng số cần phải học, đóng vai trò tham gia quá trình tính toán và chuyển đổi các thông tin đầu vào thành thông tin đầu ra - 𝑦 là dữ liệu đầu ra

Hình 2.6: Cấu trúc của một perceptron

Cụ thể hơn, phương thức tính toán và tổng hợp dữ liệu của một perceptron được mô tả theo từng bước sau:

1 Sau khi tiếp nhận tập các dữ liệu đầu vào {𝑥1, 𝑥2, … , 𝑥𝑛}, perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích số của từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng

𝑎 = ∑𝑛𝑖=1𝑤𝑖𝑥𝑖 + 𝑤0 (2.8)

Σ

hàm kích hoạt 𝑤0

phép cộng

𝑦

Trang 26

15

2 Kết quả 𝑎 của phép cộng được đưa vào hàm kích hoạt là hàm không tuyến

tính như sigmoid, tanh, ReLU, LeakyReLU (Hình 3.3)

Hình 2.7: Một số hàm kích hoạt được sử dụng trong perceptron 3 Sau đó, perceptron thực hiện phép so sánh giá trị nhận được từ hàm kích

hoạt 𝑓(𝑎) với một giá trị ngưỡng (threshold) là t cho trước nhằm xác định giá trị đầu ra 𝑦̂ được hiểu là tín hiệu kích hoạt của perceptron

Giả sử tín hiệu kích hoạt là 1 và tín hiệu không kích hoạt là 0, ta có:

𝑅𝑒𝐿𝑈 = { 𝑧, 𝑧 > 0

𝑧, 𝑧 > 0𝑎𝑧, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

Trang 27

16

𝑦 = [1 𝑖𝑓 𝑓(𝑎)≥𝑡0 𝑖𝑓 𝑓(𝑎)<𝑡 (2.9)

Hình 2.8: Cấu trúc mô hình Artificial Neural Network

Bằng cách kết hợp nhiều percentron với nhau sẽ tạo nên cấu trúc mô hình ANN như Hình 3.4 và các perceptron được phân thành từng lớp có nhiệm vụ đặc thù riêng:

- Tầng dữ kiện (input layer) là tầng đầu tiên, thể hiện các dữ liệu đầu vào

của mô hình

- Tầng ẩn (hidden layer) là tầng nằm giữa gồm các phép tính toán chuyển

đổi dữ liệu đầu vào sang dữ liệu đầu ra Số lượng tầng ẩn trong mô hình là không giới hạn mà phụ thuộc vào cách giải quyết bài toán

- Tầng kết quả (output layer) là tầng cuối cùng thể hiện dữ liệu đầu ra của

mô hình Số lượng tầng ẩn trong mô hình ANN là không giới hạn và được xác định tùy thuộc vào bài toán cần giải quyết Đặc biệt, khi số lượng tầng ẩn lớn hơn 1 thì mô hình ANN được gọi là mô hình học sâu

Tầng dữ kiện

quả

Đầu ra 1

Đầu ra m Dữ liệu

Trang 28

17

2.5 Mô hình ghi nhớ dài-ngắn hạn

RNN có một số nhược điểm được khắc phục bởi LSTM (Long Short-Term Memory) RNN không duy trì dữ liệu trước đó và có xu hướng quên đầu vào của dữ liệu, mỗi khi thông tin được thêm vào và bị ghi đè hoàn toàn bởi RNN, vì lý do đó RNN không thể chọn lọc được những thông tin quan trọng và loại bỏ những thông tin không quan trọng LSTM được xây dựng dựa trên kiến trúc RNN nhằm khắc phục những ngược điểm đó, LSTM mang ý tưởng học những phụ thuộc dài hạn, cải thiện hiệu quả dự đoán LSTM thêm bớt một cách có chọn lọc các thông tin quan trọng và thậm chí giải quyết vấn đề vanishing gradient Bên cạnh đó, mô hình cần chọn lọc thông tin để nhớ tại mỗi bước xử lý chứ không ghi nhớ tất cả các thông tin vì trong thực tế thông tin đứng sau chỉ liên hệ đến một phần trong số các thông tin đứng trước (Sepp Hochreiter & Jurgen Schmidhuber, 1997) Cấu trúc của mô hình LSTM được thể hiện trong hình 2.9:

Trang 29

18

Hình 2.9: Cơ chế hoạt động trong mô hình Long Short-Term Memory

Mỗi đơn vị LSTM bao gồm cell và các cổng xử lý như sau: cổng quên (forget gate), cổng cập nhật (update gate), cổng xuất (output gate) Cell ghi nhớ các giá trị trong một khoảng thời gian và ba cổng có nhiệm vụ điều chỉnh dòng dữ liệu Cơ chế hoạt động của mô hình LSTM được mô tả theo từng bước như sau:

1 Cổng quên (forget gate) là phần quyết định sẽ giữ lại bao nhiêu phần

của vector cell state trước 𝑐𝑡−1 với việc thực hiện phép tính toán đối với vector hidden state trước ℎ𝑡−1 và vector biểu diễn thành phần dữ liệu thứ 𝑡, sau đó đưa kết quả qua hàm sigmoid:

𝑓𝑡 = 𝜎(𝑊𝑓 [ℎ𝑡 − 1, 𝑥𝑡 ] + 𝑏𝑓 ) (2.10)

𝜎 x

𝜎 𝜎

x 𝑐𝑡−1

𝑓𝑡 𝑢𝑡

Cổng quên

(output gate) Cổng cập nhật

(update gate)

𝑡𝑎𝑛ℎ

Trang 30

19

2 Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu

phần từ vector hidden state trước ℎ𝑡−1 và vector dữ liệu xt với phép tính sau: 𝑢𝑡 = 𝜎(𝑊𝑢 [ℎ𝑡 − 1, 𝑥𝑡 ] + 𝑏𝑢 ) (2.11)

3 Cổng xuất (output gate) là phần quyết định lấy bao nhiêu phần giá trị

cell state trước 𝑐𝑡−1 để trở thành giá trị của hidden state ℎ𝑡 bằng phép tính: 𝑜𝑡 = 𝜎(𝑊𝑜 [ℎ𝑡 − 1, 𝑥𝑡 ] + 𝑏𝑜 ) (2.12)

Trang 31

20

Chương 3

CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Hình 3.1: Sơ đồ taxonomy của các công trình nghiên cứu liên quan

Trong luận văn này, tác giả sẽ tập trung nghiên cứu các mô hình dựa trên

dữ liệu chuỗi thời gian đa biến Trước đây, học máy (machine learning) đã có

sự nỗ lực rất lớn để trích xuất những đặc trưng của dữ liệu, tuy nhiên không

thực sự hiệu quả Học sâu (Goodfellow, Bengio, & Courville, 2016) cung cấp

phương pháp trích xuất đặc trưng hiệu quả hơn thông qua nhiều lớp học phi

tuyến Trong thực tế, dữ liệu được biểu diễn khá phức tạp như chuỗi thời gian và đồ thị, nên tác giả đã tìm hiểu phương pháp để tạo ra kiến trúc xử lý những

Dự đoán chất lượng không khí

Các phương pháp điển hình Hồi quy dịch chuyển

trung bình (ARIMA)

Mạng nơ-ron tích chập (CNN)

Mạng ghi nhớ ngắn hạn (LSTM)

dài-Học sâu trên đồ thị

Lý thuyết đồ thị

Lý thuyết phổ đồ thị Mạng nơ-ron tích chập

đồ thị (GNN)

Mạng nơ-ron tích chập đồ thị với bộ lọc quang phổ nhanh-cục bộ Mạng nơ-ron tích chập đồ

thị không gian-thời gian