Tăng cường hiệu năng cho bài toán phân loại nút trong đồ thị khuyết thiếu cạnh bằng phương pháp học tích cực

88 1 0
Tăng cường hiệu năng cho bài toán phân loại nút trong đồ thị khuyết thiếu cạnh bằng phương pháp học tích cực

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 2

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG KHOA CÔNG NGHỆ THÔNG TIN I

Giảng viên hướng dẫn: TS Trần Tiến Công Sinh viên: Không Mạnh Tùng

Mã sinh viên: B19DCCN626

Lớp: DI9HTTT01

Khóa: 2019-2024

Hệ: Chính Quy

Trang 3

HÀ NỘI 12-2023

Trang 4

NHẬN XÉT, DANH GIA, CHO DIEM

NHAN XET, DANH GIA, CHO DIEM (Của người hướng dẫn)

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 5

NHẬN XÉT, DANH GIA, CHO DIEM

Đồng ý/Không đồng ý cho sinh viên bao vệ trước hội đồng cham đồ án tốt nghiệp?

Hà Nội, ngày tháng 12 năm 2023

CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN

(Kỷ, ghi rõ họ tên)

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 6

LỜI CẢM ƠN

LỜI CẢM ƠN

Em xin chân thành cảm ơn Khoa Công nghệ Thông tin 1, Học viện Công nghệ Bưu

chính Viễn thông đã tạo điều kiện tốt cho em thực hiện đề tài này Em xin chân thành cảm ơn thầy Trần Tiến Công và thầy Phạm Văn Cường, là người đã tận tình hướng

dẫn em, giúp em giải quyết các vấn đề, chỉ bảo em trong suốt thời gian thực hiện đề

Em cũng xin gửi lời cảm ơn sâu sắc đến quý Thay Cô trong Khoa Công nghệ Thông tin 1 đã tận tình giảng dạy, trang bị cho em những kiến thức quí báu trong những năm học vừa qua Em xin gửi lòng biết ơn sâu sắc đến Bố, Mẹ, các anh chị và

bạn bè đã ủng hộ, giúp đỡ và động viên em trong những lúc khó khăn cũng như trong

suôt thời gian học tập và nghiên cứu.

Mặc dù em đã cô gắng hoàn thành luận văn trong phạm vi va khả năng cho phép, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các bạn.

Hà Nội, ngày 08 thang 12 năm 2023Tác giả

Không Mạnh Tùng

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 7

DANH SACH HINH VE

DANH MUC TU VIET TAT 1.1.4.3 Phuong thức Estimated Error Reduction 13

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 8

MỤC LUC

1.2 Học chủ động cho bai toán phân loại nút trên Cn ccccccsxsxsxereee 14 1.3 Bài toán phân loại nút trên đồ thị không hoàn chỉnh - - 25255: 15

1.5 Kết chương Ì - 7+ EE2E2E22E21217111211111121121121121111 11x11 re 17 2_ MÔ HÌNH DE XUẤT 18 2.1 Tiếp cận bài toán -c- + St E2E12E121121121121121111111 11111.111.111 19 2.2 Giai đoạn truy 0 — 21

VN: L6 21

2.2.2 Kết hợp điểm - 252221 2E212212212210212111212110121 2 e0 22

2.3 Giai đoạn đào tạO 2 1011111311 S ST 1T 1kg hy 24

2.4 Kết chương 2 2 22 E1 E2E211217111711121121121121111211211 11111 xe 27

3.1.3 Các phương phapcosd 0.0.00 eee ee 35

3.4 Độ Nhạy Cảm Của Siêu Tham SỐ Œ 2-52 E2EE+E+EEE2EeEEzEEErkrrersred 39

3.5 Tăng trọng lượng của [Ở 5: c 2t S 3S E E112 Sky nườt 40

3.6 Kết chương 3 -++2+E2E2EEEEE21E7121111211211211211211211211 111211126 42

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 9

MỤC LỤC

4 KÉT LUẬN

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

45

Trang 10

MỤC LUC

4.1 Kết quả thu được - + ++222SE2EE2EE2E2E21717171711121121 111111 cre 46 4.2 Những điểm hạn chế ¿2s s33 E8 E353535E1E5555511181E15115111 11151115111 exE 46

4.3 Hướng nghiên cứu tiếp the0 cc.ccecccsscsssessessesssessessesssessessessseescsessssseesseseeees 47 TÀI LIỆU THAM KHẢO 48

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 11

Tóm tắt về các kỹ thuật học tập chủ động cho việc phân loại nút trên đồ thị Ở đây, cột "Thích ứng" cho biết rằng học tập chủ động được

cập nhật

dựa trên các trường hợp đã được gan nhãn mới - c5 +2 +++<ss++++ 14

Thống kê tóm tắt của các bộ dữ liệu -.- - ¿2+2 Ex+EEEEEE2EEEEEESEEEErkrrrrrres 29 Kết quả về hiệu suất của GCN trên các tập dữ liệu Ký tự đậm chỉ ra hiệu

suất tốt nhất và ký tự gạch dưới chỉ ra hiệu suất thứ hai tốt nhất 43 Kết quả về hiệu suất của các GNN khác nhau trên tập dữ liệu Cora Ký

tự đậm chỉ ra hiệu suất tốt nhất và ký tự gạch dưới chỉ ra hiệu suất thứ

I180nn PP -.4äđŒgŸ%Ÿr11 44

Kết quả về hiệu suất của các hàm tăng trọng lượng sử dụng GCN trên tập dữ liệu Cora Các giá tri số thé hiện điểm số trung bình Macro-F1

của 3 thử nghiệm độc lập Ký tự đậm chỉ ra hiệu suất tốt nhất và ký tự

gạch dưới chỉ ra hiệu suất thứ hai tốt nhất ¿ ¿+ +s+x+EvEvEvEEEEztztsrsrrers 44

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 12

DANH SÁCH HÌNH VẼ

Danh sách hình vẽ

1.1 Ví dụ về của đồ thi (a) vô hướng và (b) có hướng và ma trận kề của chúng 5 1.2 Ví dụ về bài toán dự đoạn liên kết giữa các người dùng trong mạng xã hội 7

1.3 Kiến trúc GNN Đầu tiên, GNN lựa chọn các hàng xóm theo một chiến

lược cụ thé Sau đó, một hàm tổng hợp được áp dụng để trích xuất

thông tin xung quanh nút trung tâm Cuối cùng, thông tin đã tổng hợp

đi qua một mạng nơ-ron dé thực hiện biến đổi ph tuyến tính Đầu ra

là biêu

diễn cập nhật của nút trung tâm ¿+ + 52+k+E£EE+E£EEEE2EEEEEEzEerrrrrrrrei 10

2.1 Tổng quan về khung ALIN được dé xuất của em -:-¿s5+55+2 22 3.1 Sơ đồ mô tả Mạng tích chập đồ thị nhiều lớp (GCN) cho việc học ban

giám sát với C nhãn đầu vào và F thuộc tính ở lớp đầu ra Cau trúc đồ

thị (cạnh là đường màu đen) được chia sẻ trên các lớp, nhãn được ký

hiệu là

3.2 Minh họa về GAT GAT chỉ định các trọng số khác nhau cho các nút lân

3.3 Tống quan về kiến trúc của GraphSAGE ¿+ 2 s+E£EE+EeE£EzEerxzxeree 34

3.4 Ảnh hưởng tới ALIN và ALINFar theo các giá trị siêu tham số đ khác

Trang 13

DANH SÁCH HÌNH VẼ

“ĐA bi

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 14

DANH SÁCH HÌNH VẼ

4.3 Mã nguồn 3 - 25222 E2E21E212111111110112112112111111111 21111111 re 4.4 Mã nguén 4 - 2222222 22E212171717111111121121121111 011121112111 re.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 15

DANH SÁCH HÌNH VẼ

Danh mục từ viết tắt

STT | Viết tắt Tiếng Anh Tiếng Việt/Giải thích

1 AI Artificial Intelligence Tri tué nhan tao2 ML Machine Learning Hoc may

3 DL Deep Learning Hoc sau

4 GNN Graph Neural Network Mang no-ron đồ thi

5 AL Active Learning Hoc chu dong6 QBC Convolutional Layer Lớp tích chap

7 SVM Support Vector Machine Máy vectơ hỗ trợ

8 GCN_ | Graph Convolutional Network Mang tích chap đồ thị 9 GAT Graph Attention Network Mạng chú ý đồ thị

10 | LSTM Long Short-Term Memory | Mạng nơ-ron trang thái ngắn hạn dài

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

Trang 16

MỞ ĐẦU

MỞ ĐẦU

Trong lĩnh vực học máy và trí tuệ nhân tạo, học giám sát đã trở thành một phương

pháp quan trọng dé giải quyết nhiều bài toán phân loại và du đoán Mô hình học giám

sát học dé hiểu cách xác định quy luật kết nối giữa các điểm di liệu và các nhãn thực tế tương ứng, sau đó, mô hình có thể dự đoán các nhãn cho các mẫu dữ liệu mới mà nó

chưa từng thay dự đoán của mô hình trên các mẫu mà mô hình chưa được quan sát trước đó Vì vậy, chúng ta cần có một lượng lớn dữ liệu huấn luyện và dữ liệu này phải

được gán nhãn đúng Do đó, hiệu năng của các mô hình học giám sát thường phụ

thuộc vào cả số lượng lẫn chất lượng của đữ liệu huấn luyện Tuy nhiên, trong thực tế,

việc gan nhãn cho dữ liệu có thé rất khó khăn và tốn kém Chang han, trong lĩnh vực y học va sinh học, việc thu thập va gan nhãn dữ liệu từ các thí nghiệm hay hồ sơ bệnh

nhân có thể đòi hỏi nhiều ngày thậm chí nhiều tháng của các chuyên gia trong lĩnh vực Trong việc phân loại quan hệ giữa các người trong mạng xã hội, chẳng hạn như

xác định liệu họ là bạn, người thân, đồng nghiệp, hoặc người dùng không liên quan, chúng ta có thé sử dụng mô hình học máy dựa trên đồ thị Tuy nhiên, để xây dựng một mô hình học máy hiệu quả cho việc phân loại quan hệ trên đồ thị, chúng ta cần một tập

dữ liệu đủ lớn với các mối quan hệ đã được gán nhãn chính xác Điều này đòi hỏi sự

tham gia của người chuyên nghiệp hoặc cộng đồng người dùng dé xác định các mối

quan hệ.

Đề vượt qua khó khăn trong việc gán nhãn đữ liệu của học giám sát, chúng ta có

thể áp dụng phương pháp học chủ động Học chủ động là một phương pháp mà mô

hình không chỉ học từ dữ liệu huấn luyện mà còn có khả năng tương tác với môi trường, yêu cầu thêm dữ liệu khi cần thiết Ban đầu, mô hình học chủ động chỉ yêu cầu

một số lượng nhất định mẫu dữ liệu được gán nhãn Sau đó, quá trình học chủ động bao gồm việc mô hình đưa ra các câu hỏi hoặc yêu cầu gán nhãn cho đữ liệu mà nó

không chắc chắn về kết quả Qua đó, mô hình sử dụng phản hồi từ các yêu cầu này để cải thiện khả năng dự đoán và thu thập dữ liệu mới cho việc huấn luyện Quy trình học

chủ động này giúp giảm bớt công sức và thời gian cần thiết cho việc gán nhãn và tạo ra các mô hình học máy hiệu quả hơn.

Mục tiêu của đồ án của em là trình bày giải pháp từ đầu tới cuối cho phương pháp

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 1

Trang 17

MỞ ĐẦU

học chủ động cho bài toán phân loại nút trên dữ liệu đồ thị không hoàn chỉnh về cau trúc và các kết quả nghiên cứu Đồ án sẽ nghiên cứu cách mô hình học chủ động có thé tương tác với đồ thị và yêu cầu gán nhãn cho các nút trên đồ thị một cách hiệu quả.

Trong thực tế, nhiều dữ liệu đồ thị thường bị thiếu thông tin về mối quan hệ giữa các nút, và việc gán nhãn cho các nút này có thê đòi hỏi nhiều công sức Băng cách kết

hợp học chủ động với đồ thị, đồ án này hy vọng tạo ra một phương pháp mới để giải

quyết bài toán phân loại nút trên đồ thị không hoàn chỉnh một cách hiệu quả và tiết kiệm thời gian Qua đó, đóng góp cho sự phát triển của học máy trong việc xử lý dữ

liệu đồ thị phức tạp và khuyết cạnh.

Thực trạng hiện nay, dit liệu đồ thị ngoài việc thiếu thông tin nhãn cho các nút, còn bị thiếu thông tin liên kết giữa các nút hay giữa các cụm của các nút Nguyên nhân dẫn tới điều này có thé do quá trình thu thập dữ liệu bi mat mát thông tin hoặc thực tế dữ liệu đồ thi đó là không hoàn chỉnh Qúa trình tổng hợp thông tin cho một nút dựa trên

các nút lân cận trong đồ thị là quá trình cốt lõi để phát triển các nhiệm vụ tiếp theo như

là phân loại nút, phân loại canh, Dé quá trình này được diễn ra hiệu qua đòi hỏi cau

trúc đồ thị phải đầy đủ hoặc không sẽ kéo hiệu năng của mô hình đi xuống Như vậy,

cần phải kết hợp xử lý cả hai van đề thiếu thông tin nhãn và thiếu thông tin cấu trúc dé

giải quyết tốt bài toán phân loại nút và học chủ động kết hợp mạng nơ-ron đồ thị là một giải pháp phù hợp.

Trong đồ án em sẽ tập trung trình bày một số nội dung chính như sau:

* Chương 1: Tổng quan về bài toán phân loại nút trên đồ thị sử dụng giải

thuật học chủ động.

Nội dung của chương | tập trung vào việc cung cấp một cái nhìn tong quan về bài toán phân loại nút trên đồ thị và cách sử dụng giải thuật học chủ động dé giải

quyết Chương này trình bày kiến thức cơ bản liên quan đến bài toán, phân tích

phương pháp thực hiện giải thuật học chủ động cho các nhiệm vụ phân loại trên

đồ thị, và tập trung vào những khía cạnh liên quan đến việc phân loại trên đồ thị không hoàn chỉnh.

- Chương 2: Áp dung học chủ động kết hợp mô hình mạng nơ ron giải quyết

bài toán phân loại nút trên đồ thị không hoàn chỉnh

Nội dung của chương 2 tập trung vào việc giải quyết bài toán phân loại nút trên

đồ thị không hoàn chỉnh bằng cách áp dụng phương pháp hoc chủ động và kết hợp nó với mô hình mạng nơ-ron Chương này trình bày các hướng tiếp cận cụ

thé và phương thức triển khai giải thuật được đề xuất.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 2

Trang 18

MỞ ĐẦU

* Chương 3: Thực nghiệm và kết qua

Nội dung của chương 3 tập trung vao việc trình bay quá trình thu thập dữ liệu,

mô tả phương pháp thực nghiệm và đánh giá mô hình phân loại nút sử dụng

phương thức học chủ động kết hợp mạng nơ-ron đồ thị Chương này cung cấp

cái nhìn sâu hơn về quy trình thực hiện nghiên cứu và bao gồm cả việc trình bày

kết quả thu được từ các thử nghiệm.

- Chương 4: Tổng kết

Tổng hợp lại bài toán, tóm tắt những kết quả đã đạt được và điểm qua những

khía cạnh còn chưa được khám phá hoặc đạt được Từ đó, chương này đề xuất

mục tiêu hướng tới và các hướng nghiên cứu và phát triển tiếp theo trong lĩnh

vực này.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 3

Trang 19

CHƯƠNG I TONG QUAN BÀI TOÁN

Chương 1

TONG QUAN BÀI TOÁN

Trong chương | của đồ án, em trình bày kiến thức cơ sở liên quan đến bài toán học chủ động cho bài toán phân loại trên đồ thị nói chung và trên đồ thị không hoàn chỉnh.

Chương 1 được trình bày qua các mục sau:

* Kiến thức cơ sở

* Hoc chủ động cho bai toán phân loại nút trên đồ thị * Bai toán phân loại nút trên đồ thị không hoàn chỉnh

° Mục tiêu của đô án

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 4

Trang 20

CHƯƠNG I TONG QUAN BÀI TOÁN

1.1 Kiến thức cơ sở

1.1.1 Bài toán phân loại nút

Bài toán phân loại nút (node classification) là một bài toán quan trọng trong lĩnh

vực học máy và khai phá dữ liệu Đồ thị G = (V, E) với N nút v; € V, một cặp nút

được liên kết bởi một cạnh (v¡, v ) € E Ma trận đặc trưng nút là X € R**? (tức là,

vectơ đặc trưng có kích thước # cho N nút), ma trận nhãn cho các nút đã gan nhãn Y

€ R**° (C là số nhãn của nút) (tức là, Y;; = 1 cho biết node i có nhãn /) Cạnh trong đồ thị có thể biểu diễn mối liên kết có hướng hoặc không có hướng giữa các nút.

Trong đô án của em, em sẽ nghiên cứu đô thị vô hướng cho bài toán phân loại nút.

Trong bài toán này, các nghiên cứu cố gắng gan một nhãn (label) cho từng nút

trong một đồ thị hoặc mang (graph) dựa trên thông tin liên quan đến nút đó và cấu trúc của d6 thị Đây là một phan quan trọng của nhiều ứng dụng thực tế như phân loại tài

liệu, dự đoán sự lan truyền thông tin trong mạng xã hội, phát hiện gian lận trong mạng

ngân hàng, và nhiều ứng dụng khác Khái niệm về đồ thị (hoặc mạng) đã trở nên phổ biến trong nhiều lĩnh vực khác nhau, chăng hạn như đồ thị trích dẫn (citation graph) va đồ thị xã hội (social graph) Tương tự như các dạng dữ liệu khác, dữ liệu đồ thị đang

trải qua sự phát triển nhanh chóng, hiện đang đạt đến mức độ đáng kê Do đó đặt ra những thách thức đáng ké trong việc cô gắng phân tích loại dir liệu này một cách toàn

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 5

Trang 21

CHUONG 1 TONG QUAN BÀI TOÁN

Mục tiêu chính của bài toán phân loại nút là dự đoán nhãn cho từng nút trong đô thi

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 6

Trang 22

CHƯƠNG I TONG QUAN BÀI TOÁN

một cách chính xác Cụ thể, muốn xây dựng một mô hình học máy hoặc thuật toán có

khả năng tự động học và áp dụng tri thức từ các nút đã được gán nhãn cho các nútchưa được gan nhãn.

Các khó khăn thường gặp trong bài toán phân loại nút, bao gồm:

* Dữ liệu thưa thớt: Trong nhiều trường hợp, đồ thị có thé rất lớn và thưa thớt,

điều này có nghĩa là chỉ có một số ít nút có nhãn và phần lớn nút không có Điều

này khiến cho việc học hình dạng của đồ thị và phân loại các nút chưa gán nhãn

trở nên khó khăn.

* Chất lượng nhãn thấp: Trong một số ứng dụng thực tế, nhãn cho các nút có thé không chính xác hoặc không đủ chỉ tiết, gây ra van đề trong việc huấn luyện mô

» Không đồng nhất trong cấu trúc đồ thị: Đồ thị có thể có cấu trúc phức tạp, và các

nghiên cứu trước đây không luôn có khả năng xử lý đồ thị với cấu trúc đa dạng Các nghiên cứu gần đây trong bài toán phân loại nút đã đạt được nhiều tiến bộ

đáng kể nhờ vào sự phát triển của các mô hình học máy sâu (deep learning) và đặc biệt

là mạng nơ-ron đồ thị (graph neural networks - GNNs) Các ưu điểm của các nghiên

cứu gân đây bao gôm:

° Sử dụng đồ thị dữ liệu: Các mô hình GNNs có khả năng hiệu quả trong việc sử

dụng thông tin từ cấu trúc đồ thị, giúp cải thiện đáng ké hiệu suất phân loại nút.

- Kha năng học biểu diễn cấu trúc: Các mô hình GNNs có khả năng học biểu diễn cho cấu trúc đồ thị, cho phép chúng biểu diễn thông tin từ các nút lân cận một

cách hiệu quả.

* Xử lý đồ thị lớn: Các nghiên cứu gần đây đã đưa ra các giải pháp cho việc xử lý đồ thị lớn và thưa thớt, giúp nâng cao khả năng ứng dụng của phân loại nút trong các ứng dụng thực tế.

* Tích hợp thông tin đa dạng: Các mô hình mới cho phép tích hợp nhiều loại thông tin, bao gồm thông tin nút, thông tin cạnh, và thông tin thuộc tinh của nút dé cải

thiện hiệu suất phân loại.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 7

Trang 23

CHƯƠNG I TONG QUAN BÀI TOÁN

1.1.2 Bài toán dự đoán liên kết

Dự đoán liên kêt là một van đê cơ bản cô gang ước tính kha năng sự tôn tại cua

một liên kết giữa hai nút [26] Quá trình nay cải thiện sự hiệu biệt của chúng ta vê môi

quan hệ giữa các nút cụ thê và sự tiên hóa của toàn bộ mạng.

aa artsKate ve] xen

Hình 1.2: Ví dụ về bài toán dự đoạn liên kết giữa các người dùng trong mạng xã hội.

Dự đoán liên kết đã được áp dụng rộng rãi trong nhiều lĩnh vực như sinh học [3] và mang xã hội [41, 39] Có một loạt các phương pháp cho việc dự đoán liên kết trong các mạng [7] cung cấp một khảo sát toàn điện bao gồm các thuật toán dự đoán đa dạng các liên kết, với sự tập trung đặc biệt vào việc xem xét các hạn chế tổn tai trong

các phương pháp đó [3] trình bày một khảo sát bang cách tóm tắt các phương pháp

khác nhau, giới thiệu các ứng dụng điền hình và chỉ ra các thách thức trong tương lai của các thuật toán dự đoán liên kết Dựa trên nền tảng này, [6] cung cấp một góc nhìn hiện đại hơn bằng cách tích hợp các phương pháp gần đây và thực hiện một phân tích

so sánh tỉ mỉ của các kỹ thuật dựa trên độ tương tự.

Một số cách thường được sử dụng dé thực hiện bai toán này bao gồm:

* Phương pháp Heuristic: Phương pháp này tập trung chủ yếu vào việc tính toán sự giống nhau giữa hai nút một cách heuristic (ví dụ như bậc của nút, lân cận chung ) để dự đoán xác suất có một liên kết giữa hai nút này Cách này thì sẽ

dựa chủ yếu vào các đặc trưng về mặt cấu trúc của nút thay vì đi sâu vào các đặc

trưng về nội dung của nút.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 8

Trang 24

CHƯƠNG I TONG QUAN BÀI TOÁN

* Phương pháp đặc trưng ân (Latent-feature): Ý tưởng của phương pháp này giống

với ý tưởng của bài toán Embedding (hoặc là bài toán là Matrix Factorization),

tức là sẽ tính toán sự giống nhau giữa các nút nhưng trước đó thì sẽ phân rã ma trận biểu diễn đồ thị về một chiều không gian có số chiều nhỏ hơn dé dễ tính toán hơn Phương pháp này thì sẽ đi sâu hơn vào việc chọn lọc đặc trưng về nội

dung của nút để so sánh sự giống nhau, từ đó sẽ dự đoán có kết nối giữa hai

node nảy hay không.

» Phương pháp dựa trên nội dung (Content-based): Ca hai phương pháp phép

heuris- tic và phương pháp đặc trưng ân đối mặt với vấn đề khởi đầu lạnh

(cold-start prob- lem) Điều này có nghĩa rằng khi một nút mới tham gia vào đồ thị, cả hai phương pháp này có thể không dự đoán liên kết của nó một cách chính xác

do thiếu thông tin liên kết hoặc chỉ có một vài liên kết hiện có với các nút khác.

Trong trường hợp này, các phương pháp dựa trên nội dung (content-based

methods) có thé hữu ích Các phương pháp này sử dụng đặc trưng nội dung rõ

ràng liên kết với các nút để dự đoán liên kết, và chúng có ứng dụng rộng rãi

trong hệ thống đề xuất (rec- ommender systems) Tuy nhiên, thường thì các phương pháp dựa trên nội dung có hiệu suất kém hơn so với các phương pháp heuristic và đặc trưng an do không sử dụng cấu trúc đồ thị Ví dụ, trong mạng xã

hội, hồ sơ của một người dùng, chang hạn như thông tin về độ tuổi và sở thích, có thể được sử dụng làm đặc trưng nội dung (content features) của họ dé dự

đoán các liên kết tiềm năng với những người khác Tuy nhiên, thông tin về mối quan hệ bạn bè của họ không được sử dụng vì thông tin đó thuộc về đặc trưng

cấu trúc đồ thị và được tính toán từ cấu trúc đồ thị mạng xã hội Việc sử dụng cả hai loại đặc trưng này có thể giúp dự đoán liên kết một cách chính xác hơn trong

mạng xã hội Do đó, phương pháp dựa trên nội dung thường được sử dụng cùng

với hai loại phương pháp trên để cải thiện hiệu suất dự đoán liên kết.

Do khó khăn trong việc xác định một phương pháp có hiệu suất tốt nhất trong tất cả các mạng phức tạp, phụ thuộc mạnh vào các đặc điểm cấu trúc của mạng, nên tác giả trong [27] đã phân loại các chiến lược dự đoán liên kết khác nhau, bao gồm dựa

trên các hàng xóm chung, dựa trên đường dẫn, dựa trên mô hình xác suất và thống kê,

dựa trên bộ phân loại và dựa trên nhúng mạng.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 9

Trang 25

CHƯƠNG I TONG QUAN BÀI TOÁN

1.1.3 Mang no-ron đồ thị

Mang Neuron Đồ Thị (Graph Neural Network - GNN) là một loại mạng nơ-ron được thiết kế để làm việc với dữ liệu có cấu trúc dạng đồ thị GNN đã đạt được sự pho bién rong rai trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên, phân loại đồ thị, và dự

đoán đồ thị Đặc biệt, GNN thường được sử dụng khi bạn muốn mô hình hóa các mối

quan hệ phức tạp giữa các phan tử trong dit liệu dạng đồ thị Các mô hình GNN đã cho

thấy hiệu năng, kết quả vượt trội so với các giải thuật nhúng đặc trưng đã được khi áp

dụng với bài toán phân loại nút, dự đoán liên kết Điểm mạnh của mạng nơ-ron đồ thị GNN là khả năng kết hợp giữa thuộc tinh cau trúc và thuộc tinh nút Trong GNN, dữ liệu được biểu diễn dưới dạng đồ thị, bao gồm các nút (nodes) và các cạnh (edges) kết nối các nút với nhau Ta ký hiệu đồ thi bằng G = (V, E) với:

«_Ƒ là tập hợp các đỉnh, mỗi đỉnh thể hiện một thực thé hoặc đối tượng ¢ EF là tập hợp các cạnh, biểu thị mối quan hệ hoặc kết nối giữa các đỉnh.

Mỗi đỉnh v € V có các đặc trưng (features) tương ứng, thường được biểu diễn

dưới dạng vector x,.

Ý tưởng trung tâm trong GNN là học cách nhúng (embed) mỗi nút trong đồ thị.

Nhung nút (node embeddings) chứa thông tin về cau trúc và mối quan hệ giữa các nút bằng cách tổng hợp thông tin từ các nút lân cận Quá trình tính toán nhúng nút trong GNN có thê chia thành các bước sau:

Ban dau, mỗi nút v được khởi tạo với vector trạng thái ban đầu:

0 —_

h, _ f(x)

Ở đây, ƒ (x,) là một hàm biểu diễn định dang nút v với x, là vector đặc trưng của nút.

Sau đó, thông tin từ các nút lân cận được truyên qua các cạnh đên nút hiện tại.

Công thức cho quá trình này có thể được ký hiệu như sau:

Trang 26

CHƯƠNG I TONG QUAN BÀI TOÁN

* AGGREGATE là hàm tổng hợp thông tin từ các nút lân cận.

Cuối cùng, trạng thái của các nút được cập nhật dựa trên thông tin đã truyền tải: ÿ*' = UPDATE(„', „*')

v M y

Ham UPDATE thường là một hàm kết hợp thông tin mới và trạng thái cũ của nút để

tạo ra trạng thái mới.

Hình 1.3: Kiến trac GNN Đầu tiên, GNN lựa chon các hàng xóm theo một chiến lược cụ thé Sau đó, một hàm tổng hợp được áp dụng dé trích xuất thông tin xung quanh nút

trung tâm Cuối cùng, thông tin đã tổng hợp đi qua một mạng nơ-ron đề thực hiện biến đổi phi tuyến tính Dau ra là biéu diễn cập nhật của nút trung tâm.

Nguồn:

https://www.researchgate.net/figure/A-typical-and-basic-architecture-and-processing-procedures-of-GNN-First-GNN-selects_fig2 352526255

Nhung đồ thi (graph embedding), kỹ thuật biến đổi một đồ thi đã cho thành một

không gian chiều thấp (lower-dimensional space) trong khi vẫn bảo tồn các đặc điểm cau trúc cơ bản và các đặc điểm vốn có khác, hiện đang thu hút sự chú ý đáng ké trong

các lĩnh vực nghiên cứu ([22], [2]) Bằng cách tao ra các nhúng nút, một loạt các nhiệm vụ phân tích đồ thị, như là phân loại nút, phân cụm nút và dự đoán liên kết, có

thể được thực hiện một cách hiệu quả, tối ưu hóa cả mặt thời gian và không gian [16] Các thuật toán nhúng đồ thị bán giám sát (semi-supervised graph embedding

algorithms) thường giả định rằng dữ liệu được gán nhãn đào tạo đã được cung cấp, điều này có thể không luôn đúng trong thực tế [23] Với một ngân sách gán nhãn

(labeling budget), chiến lược lựa chọn các nút dé gan nhãn cho đào tạo dé tôi đa hóa

hiệu suất cuối cùng (eventual performance) là một van dé quan trọng Dé giải quyết

vấn đề này, khái niệm Học tập chủ động (Active Learning - AL) đã được giới thiệu như một giải pháp [11] Các chiến lược AL cung cấp một cơ chế hiệu qua dé cải thiện quá trình gán nhãn dữ liệu bằng cách ưu

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 11

Trang 27

CHƯƠNG I TONG QUAN BÀI TOÁN

tiên xác định và gán nhãn các trường hợp có nhiều thông tin nhất Điều này giúp tối ưu hóa hiệu suất và hiệu quả tong thé của các mô hình học máy Đặc biệt, các nhiệm vụ

dựa trên đồ thị, bao gồm nhiều ứng dụng như phân tích mạng xã hội, hệ thống đề xuất và suy luận mang sinh học, đã hưởng lợi lớn từ những phát triển này ([36], [40]).

1.1.4 Học chủ động

Trong nhiều lĩnh vực, đữ liệu đã được gán nhãn thường tốn kém về chỉ phí và thời gian Do đó, học chủ động (Active Learning - AL) được đề xuất dé huấn luyện một bộ

phân loại có khả năng dự đoán nhãn của các trường hợp mới một cách chính xác trong

khi yêu cầu ít nhãn đào tạo nhất có thể Một khung làm việc AL thường bao gồm hai thành phần chính: một hệ thống truy vấn chọn một trường hợp từ dữ liệu dao tao dé yêu cầu nhãn của nó và một "chuyên gia" gan nhãn cho trường hợp được truy van Cac nhà nghiên cứu đã đề xuất nhiều thuật toán đề tối ưu hóa hiệu suất đào tạo trong một

lượng gán nhãn cô định Nói chung, các triển khai khác nhau của AL có thé được đề

xuất cho các thuật toán phân loại khác nhau Không tồn tại một giải pháp AL "tối ưu"

cho tất cả nhiệm vụ phân loại.

học một mô hình mô hình học máy

tập nhãnđào tạo

—_chon cac mau

Hình 1.4: Tổng quát các bước của phương thức hoc chủ động.

Nguồn: hftps:/medium.com/better-ml/introduetion-to-active-learning-23f50725ca§5

Các thuật toán học tập chủ động truyền thống hoạt động bang cách truy vấn từng

mau dé gan nhãn một cách tuần tự Tuy nhiên, cách tiếp cận như vậy thường không tối

ưu khi áp dụng cho các mô hình học sâu vì thường xuyên tạo lại mô hình nhưng cập

nhật rất ít và có nguy cơ quá khớp (overfitting) [5] Do đó, trong học tập chủ động sâu, truy van theo lô (batch-mode setting), trong đó một tập hợp đa dạng các trường hợp được lấy mẫu và truy vấn, thường được sử dụng nhiều hơn Trong những năm gần

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 12

Trang 28

CHƯƠNG I TONG QUAN BÀI TOÁN

đây, nguyên

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 13

Trang 29

CHƯƠNG I TONG QUAN BÀI TOÁN

tắc thiết kế thử nghiệm tối ưu (optimal experimental design principle) ({31], [30]) đã thúc day cộng đồng học máy dé giảm thiểu việc sử dụng tài nguyên đào tao và tránh

việc điều chỉnh (tuning) trên một tập kiểm định Kết hợp các cai đặt của hoc tập một lần (one-shot learning) và học tập chủ động chế độ theo lô (batch-mode), một số nghiên cứu gần đây ([1], [14]) đã áp dung cài đặt học tập một lần theo lô (one-step

batch-mode active learning).

Tất cả các kịch bản hoc tập chủ động đều liên quan đến việc đánh giá tính thông tin của các mẫu không được gan nhãn, có thé được tao mới hoặc lay mau từ một phân

nhất định Dưới đây, em sử dụng ký hiệu x% dé chỉ mẫu có nhiều thông tin nhất (tức là truy van tối ưu) theo một số thuật toán lựa chọn truy vẫn A.

1.1.4.1 Lay mẫu bat định

Có lẽ chiến lực truy vấn đơn giản nhất và được sử dụng phô biến nhất là lấy mẫu không chắc chắn [4] Trong chiến lực này, một chiến lực học tích cực truy vẫn các

trường hợp mà nó ít chắc chắn nhất về cách gắn nhãn Cách tiếp cận này thường đơn

giản đối với các mô hình học tập xác suất Ví dụ: khi sử dụng mô hình xác suất để phân loại nhị phân, chiến lược lay mẫu không chắc chan chi cần truy vấn trường hop có

Trong đó y; là tat cả các nhãn có thé có Entropy là thước đo về ly thuyết thông tin thé hiện lượng thông tin cần thiết dé “ma hóa” một phân phối Vì vậy, nó thường được coi

là thước đo độ không chắc chắn trong học máy Đối với phân loại nhị phân, việc lấy

mẫu bất định dựa trên entropy giống hệt với việc chọn mẫu có hậu nghiệm gần nhất với 0,5 Tuy nhiên, cách tiếp cận dựa trên entropy có thé được khái quát hóa dé dang

thành các bộ phân loại đa nhãn xác suất và các mô hình xác suất cho các trường hợp có cấu trúc phức tạp hơn.

Chiến lược lay mẫu bat định cũng có thê được sử dụng với các mô hình phi xác

suất Một trong những công trình đầu tiên khám phá việc lay mẫu không chắc chắn đã

sử dụng bộ phân loại cây quyết định bang cách sửa đổi nó dé có đầu ra xác suất Các cách tiếp cận tương tự đã được áp dụng cho việc học tập tích cực với các bộ phân loại

hàng xóm gần nhất, bằng cách cho phép mỗi người hàng xóm bỏ phiếu về nhãn lớp

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 14

Trang 30

CHUONG I TONG QUAN BÀI TOÁN

của x, với tỷ lệ phiêu bâu này đại diện cho xác suât nhãn sau.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 15

Trang 31

CHƯƠNG 1 TONG QUAN BÀI TOÁN

1.1.4.2 Phuong thức Query-By-Committee

Một khung lựa chọn truy van khác là thuật toán truy vấn theo commitee

(Query-By-Committee) (QBC) Cách tiếp cận QBC liên quan đến việc duy trì một commitee

C= 6(I), , Ø (C) của các mô hình đều được huấn luyện trên tập L được gan nhãn hiện tại, nhưng đại diện cho các giả thuyết cạnh tranh với nhau Sau đó, mỗi thành viên trong commitee được phép bỏ phiếu về việc gan nhãn cho các ứng cử viên truy van.

Truy vấn có nhiều thông tin nhất được coi là trường hợp mà họ không đồng tình nhất Tiền đề cơ bản đăng sau chiến lực QBC là giảm thiểu không gian phiên bản, là tập

hợp các giả thuyết phù hợp với dir liệu huấn luyện được gắn nhãn hiện tại L Nếu chúng ta xem học máy là một cuộc tìm kiếm mô hình “tốt nhất” trong không gian phiên bản thì mục tiêu của chúng ta trong học tích cực là hạn chế kích thước của không gian này càng nhiều càng tốt (dé việc tìm kiếm có thé chính xác hơn) với càng it

trường hợp được gán nhãn càng tốt Đây chính xác là những gì QBC thực hiện bằng cách truy vân trong các vùng gây tranh cãi của không gian đâu vào.

1.1.4.3 Phuong thức Estimated Error Reduction

Các chiến lược truy van cô gang giảm thiểu lỗi tong quát hóa một cách trực tiếp cũng đã được xem xét như một chiến lực truy van (Estimated Error Reduction) (EER).

Các thuật toán trong phần trước giảm thiểu lỗi một cách gián tiếp bằng cách giảm

phương sai mô hình, tuy nhiên, điều này không thể thực hiện được ở dạng đóng cho tất cả các lớp mô hình Thay vào đó, chúng ta có thé ước tính lỗi dự kiến trong tương lai sẽ xảy ra nếu một số phiên bản x mới được gắn nhãn và thêm vào L, sau đó chọn phiên

bản giảm thiểu kỳ vọng đó Khung giảm lỗi ước tính có ưu điểm kép là gần tối ưu và

không phụ thuộc vào lớp mô hình Tất cả những gì cần thiết là một hàm mất mát thích hợp và một cách ước tính xác suất nhãn sau Ví dụ, các chiến lược trong khuôn khô này đã được sử dụng thành công với nhiều mô hình khác nhau bao gồm Naive Bayes,

Gaussian random fields, logistic regression va SVM.

Ngược lại, việc giảm lỗi ước tính cũng có thể là chiến lực lựa chọn truy vẫn cực ky

tốn kém Nó không chi yêu cầu ước tính lỗi dự kiến trong tương lai trên U cho mỗi truy van mà một mô hình mới còn phải được dao tạo lại dan dần cho từng nhãn truy

vấn có thé, từ đó lặp lại trên toàn bộ nhóm Điều này dẫn đến sự gia tăng mạnh mẽ trong chỉ phí tính toán Do đó, các ứng dụng của khung giảm lỗi ước tính hầu hết chỉ xem xét các nhiệm vụ phân loại nhị phân đơn giản Hơn nữa, do cách tiếp cận này

thường không thực tế nên một số nhà nghiên cứu đã sử dụng đến việc lấy mẫu con

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 16

Trang 32

CHƯƠNG I TONG QUAN BÀI TOÁN

nhóm U khi chọn truy

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 17

Trang 33

CHƯƠNG I TONG QUAN BÀI TOÁN

van hoặc chỉ sử dụng các kỹ thuật dao tạo gần đúng.

1.2 Học chủ động cho bài toán phân loại nút trên đồ thị

Phương pháp AL trên đồ thị khác biệt với hầu hết các thuật toán AL theo hai cách:

các nút đào tạo nằm trong cấu trúc đồ thị thay vì độc lập và biểu dién của các nút đào

tạo được học trong quá trình đào tạo bộ phân loại thay vì được đưa vào như là một đầu vào có định Phan lớn AL trên đồ thị có thé được chia thành bốn loại, bao gồm: EER,

Heuristics, Uncertainty và GraphPart EER (Expected Error Reduction) ({19], [43],

[42]) là một tiêu chí trong hoc tập chủ động chon các trường hợp có kha năng giảm lỗi

phân loại dự kiến cao nhất, nhằm tối ưu hóa hiệu suất mô hình một cách hiệu quả Heuristics ([43], [S]) là các chiến lược theo nguyên tắc thông thường được sử dụng trong học tập chủ động dé hướng dan việc lựa chon các điểm dữ liệu thông tin cho việc

đánh nhãn, thường dựa trên các độ đo như sự không chắc chắn, đa dạng hoặc không

đồng tình giữa các mô hình Lay mẫu không chắc chắn (Uncertainty sampling) ([38], [8], [14], [33]) là một phương pháp học tập chủ động chọn các trường hợp dé đánh nhãn dựa trên độ không chắc chắn của xác suất phân loại dự kiến của họ, nhắm vào

các trường hợp mà mô hình ít tự tin nhất trong dự đoán của mình Gần đây, GraphPart [33] đầu tiên chia đồ thị thành các phần không giao nhau và sau đó chọn các nút đại

diện trong mỗi phần để truy vấn Cần lưu ý rằng tất cả công việc trước đây đều hoạt động dưới giả định về đồ thị day đủ, điều này không phan ánh hiện thực do tính không

day đủ của hầu hết các đồ thị thực tế Trong Bảng 1.1, em tóm tắt các phương pháp học tập chủ động nêu trên cho nhiệm vụ phân loại nút.

¬- Phương pháp or so hi a

Thử nghiệm — - Đô thi không hoàn chỉnh | Thích ứngEER | Heuristics | Uncertainty | GraphPart

Zhu et al [19] x Khong Không

Macskassy [43] X X Không CóGu and Han [42] x Khong Không

Ma and Yifei [38] x Không Không

Cai et al [8] x x Không Có

Wu et al [14] x Khong CoMa and Jiaqi [33] x x Không CóALIN x x Co Co

Bang 1.1: Tom tắt về các kỹ thuật học tập chủ động cho việc phân loại nút trên đồ thị.

Ở đây, cột "Thích ứng" cho biết rằng học tập chủ động được cập nhật dựa trên các

trường hop đã được gan nhãn mới.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 1§

Trang 34

CHUONG 1 TONG QUAN BÀI TOÁN

1.3 Bài toán phân loại nút trên do thị không hoàn chỉnh

Các phương pháp mới của AL trên đồ thị thường giả định rằng đồ thị gốc là hoàn

toàn đầy đủ ([33]) Tuy nhiên, giả định này thường quá đơn giản vì đồ thị gốc không

thể được quan sát hoàn toàn trong nhiều ứng dụng thực tế của phân tích đồ thị ([24], [29]) Mặc dù, trong lý thuyết, có thể tận dụng thêm nguồn lực để khám phá toàn bộ cấu trúc đồ thị, việc thu thập cau trúc đồ thị toàn điện thường tỏ ra quá tốn kém, đòi

hỏi công sức hoặc hoàn toàn không khả thi trong thực tế [24] Ví dụ, dữ liệu mạng

trích xuất từ các nền tảng truyền thông xã hội mang lại hạn chế về quyền riêng tư khi một tỷ lệ lớn 52,6% người dùng Facebook đã thực hiện biện pháp dé che giấu kết nối bạn bè của họ trong quá trình phân tích dân số của Facebook tại New York City vào tháng 6 năm 2011.' Do đó, khi làm việc với dữ liệu đồ thị, người ta nên giả định một trường hợp thực tế hơn là chỉ một phan cấu trúc đồ thị có sẵn trong thực tế ([28], [35],

[20]) Điều này đặt ra một thách thức quan trọng: Làm thế nào chúng ta có thể điều chỉnh các phương pháp AL dé hoạt động hiệu quả trên những đồ thị không đầy đủ như

Dé giải quyết thách thức này, em giới thiệu một khung học tập chủ động mới được điều chỉnh một cách rõ ràng dé xử lý đồ thị không hoàn chỉnh: ALIN (Active Learning

for Incomplete Networks) Em đề xuất một khung học tập chủ động mà tích hợp cơ

chế điểm số dựa trên cạnh vào khung làm việc Thông thường, các phương pháp AL

trên đồ thị đã ưu tiên mục tiêu liên quan đến nút, chăng hạn như tối ưu hóa độ chính xác trong việc phân loại nút, điều này không còn đủ và cần phải chọn các nút một cách chiến lược để đóng góp vào tính đầy đủ của đồ thị Tuy nhiên, việc đơn giản chỉ giới

thiệu điểm cạnh có thé anh hưởng đến mục tiêu chính của việc phân loại nút, dẫn đến

sự giảm độ chính xác tông thé Dé tạo ra sự cân bằng giữa việc nâng cao độ đầy đủ của đồ thị và bảo toàn độ chính xác trong việc phân loại nút, em giới thiệu một quy trình đào tạo hai pha Trong các kỷ nguyên (epoch) ban đầu, em tập trung vào dự đoán liên

kết giữa các nút như một nhiệm vụ phụ Giai đoạn sớm này nhằm thiết lập một sự hợp

tác hiệu quả giữa điểm số nút và điểm số cạnh, tạo điều kiện thuận lợi cho việc tạo ra các cạnh có thông tin trong đồ thị không đầy đủ Trong các kỷ nguyên sau, phương pháp của em chuyền một cách mượt mà đến việc ưu tiên nhiệm vụ cốt lõi của phân

loại nút, đảm bảo rằng mục tiêu cuối cùng được đạt được với độ chính xác cao Bằng cách kết hợp mục tiêu nâng cao độ đầy đủ của đồ thị và tăng cường độ chính xác trong

việc phân loại nút, khung học tập chủ động mà em đề xuất giải quyết những thách thức đặc biệt của các đồ thị không đầy đủ Phương pháp đột phá này không chỉ mở rộng khả

năng áp dụng của các kỹ thuật học tập chủ động đối với các tình huống thực tế mả còn

mở ra cửa cho việc phân tích dữ liệu

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 19

Trang 35

CHƯƠNG I TONG QUAN BÀI TOÁN

'Em tham khảo [21] cho thống kê này.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 20

Trang 36

CHƯƠNG I TONG QUAN BÀI TOÁN

dựa trên đồ thị toàn điện và chính xác hơn.

1.4 Mục tiêu của đô án

Trong đồ án của em, em sẽ trình bày một tập hợp các đóng góp, mỗi đóng góp đề cập đến một khía cạnh riêng biệt của vấn đề học tập chủ động trong ngữ cảnh của các đồ thi không day đủ:

+ Em giới thiệu khung học tập chủ động trên các đồ thị không day đủ (ALIN) được thiết kế tỉ mi dé giải quyết những thách thức mà cấu trúc đồ thị không day

đủ đặt ra, đồng thời cung cấp một giải pháp mạnh mẽ từ đầu đến cuối

(end-to-end solution).

- Em mở rộng phương pháp tính điểm nút thông thường bằng cách giới thiệu điểm cạnh Sáng kiến này được thiết kế đặc biệt để đáp ứng các yêu cầu tối ưu hóa của các đồ thị không đầy đủ, cho phép việc lựa chọn nút truy vấn một cách hiệu quả

+ Em đề xuất một hàm mat mát chung mới kết hợp một cách mượt mà giữa phân

loại nút và dự đoán liên kết Sự kết hợp này đảm bảo rang tương tác giữa hai thành phần quan trọng này được tối ưu hóa Hơn nữa, em giới thiệu một phương pháp dé điều hòa hai hàm mất mát này, từ đó đạt được kết quả xuất sắc trong

nhiệm vụ cuôi cùng của phân loại nút.

* Các đóng góp của em được chứng minh thông qua một loạt các thử nghiệm mở

rộng được tiến hành trên các bộ dit liệu Các thử nghiệm này không chỉ xác định hiệu suất vượt trội của ALIN so với các phương pháp học tập chủ động truyền thống trên các đồ thị thử nghiệm chuẩn mà còn nhấn mạnh tính 6n định của

phương pháp của em trên nhiều bộ đữ liệu và với các nền tảng GNN khác nhau.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 21

Trang 37

CHƯƠNG I TONG QUAN BÀI TOÁN

1.5 Kết chương 1

Như vậy, trong chương 1 của đồ án, em đã trình bày kiến thức cơ sở liên quan đến

bài toán học chủ động cho bai toán phân loại trên đồ thị nói chung và trên đồ thị không hoàn chỉnh Bên cạnh đó, em cũng đưa ra mục tiêu đồ án của mình đó là giới thiệu

khung học tập mới tinh chỉnh trên đồ thị khuyết cạnh và đưa ra các kết quả thử nghiệm

chứng minh tính hiệu quả.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 22

Trang 38

CHƯƠNG 2 MÔ HÌNH DE XUẤT

Chương 2

MÔ HINH DE XUẤT

Trong chương 2 của đồ án, em sẽ trình bày vê hướng giải quyết bài toán và các

bước triển khai phương pháp đã đề xuất Chương 2 bao gồm các đầu mục:

» Tiệp cận bai toán¢ Giai đoạn truy van» Giai đoạn đào tạo

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp23

Trang 39

CHƯƠNG 2 MÔ HÌNH DE XUẤT

2.1 Tiép cận bài toán

Trong phần này, em mô tả một định nghĩa chính thức của vấn đề học tập chủ động

trên một đồ thị không đầy đủ dưới cài đặt chế độ theo lô lặp (iterative batch-mode

settings) và giới thiệu một tập hợp thống nhất các biểu thức và kí hiệu toán học.

Em ký hiệu một mạng cơ sở G = (V, E) với N nút v; € V, edges (v„ v;) C E,

ma trận đặc trưng nút là X € R**f (tức là, vectơ đặc trưng có kích thước F cho N nút),

ma trận nhãn cho các nút đã gan nhãn Y € R**€ (C là số nhãn của nút) (tức là, Y; ; = 1 cho biết nút i có nhãn /), một "chuyên gia" (oracle) dé gan nhãn cho các nút được

truy vân và các cạnh liên quan của chúng, và một ngân sách gan nhãn B.

Trong nghiên cứu này, em sẽ theo cài đặt chế độ batch lặp (iterative batch-mode setting) [14] Trong cai đặt nay, cho mỗi lần lặp, em sử dụng một nguồn ngân sách xác

định trước dé chọn một lô các nút dé gan nhãn, tối ưu hóa quá trình truy vấn dé làm

giảm thiểu việc huấn luyện lặp lại không cần thiết Em chia ngân sách đã cho B thành K phần có kích thước bằng nhau Trong mỗi lần lặp k, em chọn b = [B/K] nút để truy

vấn, tạo thành một tập hợp các nút đã chọn, được ký hiệu là Q“) Mục tiêu chính của

phương pháp này là tận dụng thông tin hữu ích được rút ra từ quá trình đào tạo, đồng

thời đảm bảo rằng không tiêu tốn quá nhiều nguồn lực Điều này khác biệt so với cài

đặt học chủ động cơ bản, trong đó chỉ có một nút đơn lẻ được chọn vào một thời điểm,

có thê gây ra sự tăng đáng kể về nguồn lực đào tạo.

Vi em đang nghiên cứu một cài đặt trong đó dir liệu đồ thị không đầy đủ, cho mỗi

lần lặp k = {0,-+- , K}, em được cung cấp một đồ thị không đầy đủ GM= (V,

E )) và một tập nhãn không đầy đủ Y” an trong đó EM CE vay Me Y la tap

canh va tap nhan nut da cap nhat tai lần lặp thứ k Tai lần lặp &, thông qua việc truy

k „ ~ ¬ yy ian , ~ „ rs oe

van b nút, em thu được Y va E “ là tập hợp các nhãn nút mới thu được va các

cạnh mới sau truy vân Ngoài

ngân sách b là sé luong tối đa của các nhãn nút được cập nhật tại một lần truy vấn.

Trong cài đặt này, em giả định rằng ma trận đặc trưng nút X là hoàn toàn quan sát

Mục tiêu của em là huấn luyện một mô hình phân loại dựa trên GNN băng cách

cập nhật lặp lại các tham số của nó Ø (9, Mô hình GNN ánh xạ (E~, X) thành các

(re Lo, , , igvà Eˆ®, Từ dự đoán và quan sát, em tính toán mât mát phân loại

Trang 40

CHUONG 2 MÔ HÌNH ĐỀ XUẤT

¬ aly og, yaa

Inc ( Y : Y )vàmâtmát dự đoánlên (E

kết Ip

em tông hợp Jvc và Jip với siêu tham số , được ký hiệu là L !.

~{k A ag Lo.

( š E &)), Đê kết hợp cả hai mât mát,

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 25

Ngày đăng: 28/03/2024, 10:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan