CHƢƠNG 1 : TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP HỌC MÁY
1.3. Một số phƣơng pháp học nửa giám sát
1.3.4. Phƣơng pháp dựa trên đồ thị
Phƣơng pháp Graph-based với các điểm dữ liệu đã gán nhãn và chƣa gán nhãn đƣợc xem nhƣ các đỉnh của một đồ thị, mục đích của chúng ta là dựa vào các dữ liệu đã gán nhãn, kết hợp với các thuật toán học nửa giám sát dựa trên đồ thị để gán nhãn cho các dữ liệu chƣa có nhãn, thông thƣờng việc gán nhãn này dựa trên tƣ tƣởng các đỉnh gần nhau hơn và đƣợc kết nối bởi cạnh có trọng số cao hơn thì sẽ có nhãn tƣơng tự nhau.
Hình 1.6: Minh họa đồ thị đƣợc gán nhãn Tóm tắt ý tƣởng của phƣơng pháp dựa trên đồ thị: Tóm tắt ý tƣởng của phƣơng pháp dựa trên đồ thị:
- Xây dựng một đồ thị kết nối các điểm dữ liệu tƣơng tự nhau.
- Cho các nhãn ẩn đi hoặc quan sát các nhãn nhƣ các biến ngẫu nhiên trên đồ thị. - Bằng trực quan, các điểm dữ liệu “tƣơng tự” nhau thì có nhãn giống nhau. - Thông tin đƣợc lan truyền từ các điểm dữ liệu đã đƣợc gán nhãn tới các điểm chƣa đƣợc gán nhãn.
Xây dựng đồ thị:
- Các đỉnh: là các dữ liệu nằm trong tập dữ liệu có nhãn và chƣa có nhãn L∪U. Trong bài toán phân lớp nhị phân, tập nhãn y ∈ {0, 1}n
- Hàm năng lƣợng: . Với các đỉnh có nhãn tƣơng tự nhau thì hàm năng lƣợng đạt giá trị thấp và ngƣợc lại.
Ƣu điểm:
- Có nền tảng toán học rõ ràng
- Hiệu suất thuật toán cao nếu đồ thị phù hợp với các yêu cầu của thuật toán. - Ma trận nghịch đảo của Laplace đƣợc xem là ma trận hạt nhân.
- Có thể mở rộng phƣơng pháp này cho các đồ thị có hƣớng. Nhƣợc điểm:
- Hiệu suất của thuật toán là tồi nếu đồ thị là tồi.
- Dễ thay đổi nếu cấu trúc đồ thị và các trọng số cạnh khi có sự thay đổi các đỉnh.