CHƢƠNG 2 : PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ
2.4. Thuật toán lan truyền nhãn trong đồ thị
2.4.4. Phƣơng pháp xác định siêu tham số của đồ thị
Các thuật toán học nửa giám sát đã đƣợc áp dụng thành công trong nhiều ứng dụng với số lƣợng ít dữ liệu có nhãn bằng cách sử dụng các dữ liệu không có nhãn. Một vấn đề quan trọng là các thuật toán học nửa giám sát dựa trên đồ thị phụ thuộc vào chất lƣợng của đồ thị hay siêu tham số của nó[6].
Phƣơng pháp học nửa giám sát dựa trên đồ thị tạo ra một đồ thị mà các đỉnh tƣợng trƣng cho dữ liệu có nhãn và chƣa có nhãn, trong khi các cạnh đƣợc thể hiện sự giống nhau giữa các cặp điểm dữ liệu. Sự phân lớp ở đây đƣợc thực hiện bằng cách sử dụng đồ thị và gán nhãn cho các dữ liệu chƣa có nhãn dựa vào việc các đỉnh đƣợc kết nối bởi các cạnh có trọng số lớn hơn thì sẽ có nhãn giống nhau.
Các bộ phân lớp phụ thuộc đáng kể vào độ đo tƣơng tự của đồ thị, thƣờng đƣợc thực hiện theo hai bƣớc. Bƣớc thứ nhất, các trọng số cạnh đƣợc xác định cục bộ bằng cách sử dụng các hàm tính khoảng cách. Các hàm tính khoảng cách đóng vai trò thành phần quan trọng trong học nửa giám sát dựa trên đồ thị để có đƣợc một khoảng cách tốt nhất. Bƣớc thứ hai là bƣớc làm mịn, đƣợc áp dụng vào toàn bộ đồ thị, điển hình là dựa trên sự lan truyền quang phổ của đồ thị Laplace.
Hiện nay, mới chỉ có một vài phƣơng pháp tiếp cận để giải quyết vấn đề học trên đồ thị nhƣ: Học không tham số trên đồ thị Laplace, phƣơng pháp này giả sử rằng trọng số và khoảng cách đƣợc đƣa ra trƣớc; Học có tham số trên đồ thị sử dụng phƣơng pháp chứng minh cực đại hóa sử dụng suy luận xấp xỉ gradient. Việc sử dụng chứng minh cực đại hóa và xấp xỉ Laplace để học các tham số đơn giản của
các hàm tƣơng tự vì chỉ học trên một đồ thị tốt, đề xuất xây dựng các đồ thị mạnh hơn bằng cách áp dụng sự xáo trộn ngẫu nhiên và bỏ đi cạnh từ một tập các cạnh trong cây bao trùm nhỏ nhất. Kết hợp đồ thị Laplace để học đồ thị. Học các băng thông khác nhau với các chiều khác nhau bằng phƣơng pháp cực tiểu hóa Entropy trên dữ liệu chƣa gán nhãn, giống nhƣ phƣơng pháp lề cực đại trong TSVM.
Trở lại với công thức tính ma trận W trong nội dung thuật toán Lan truyền nhãn (Labeled Propagation), siêu tham số của đồ thị đƣợc ký kiệu là α. Ma trận trọng số W đƣợc đƣa ra là cố định. Sau đây chúng ta nghiên cứu việc học các trọng số từ cả dữ liệu gán nhãn và dữ liệu chƣa gán nhãn. Có một số phƣơng pháp dùng để xác định siêu tham số nhƣ: Phƣơng pháp chứng minh cực đại trong các tiến trình Gaussian (Evidence Maximization), Phƣơng pháp Cực tiểu hóa Entropy (Entropy Minimization) và phƣơng pháp Cây khung nhỏ nhất (Minimum spanning tree). Sau đây, chúng ta sử dụng phƣơng pháp Cây khung nhỏ nhất, để xác định siêu tham số cho đồ thị.
Phƣơng pháp cây khung nhỏ nhất:
Nếu các cạnh của đồ thị đƣợc đánh trọng số exp với một siêu tham số , ta có thể xác định giá trị tham số này theo thuật toán sau:
Ta xây dựng một cây khung nhỏ nhất trên tất cả các điểm dữ liệu với thuật toán Kruskal[6].
Ban đầu không có đỉnh nào đƣợc nối với nhau. Trong suốt quá trình phát triển cây, các cạnh lần lƣợt đƣợc xác định bởi trọng số từ ngắn đến dài.
Một cạnh đƣợc thêm vào cây nếu nó kết nối hai thành phần riêng biệt với nhau.
Quá trình lặp lại cho tới khi toàn bộ đồ thị đƣợc kết nối.
Ta tìm ra cạnh đầu tiên của cây mà kết nối hai thành phần với nhãn khác nhau. Ta coi độ dài của cạnh này là d0
nhƣ là một giải thuật tối thiểu hóa khoảng cách giữa các vùng lớp với nhau.
Sau đó ta đặt = d0/3 theo quy tắc 3α, do đó trọng số của cạnh này sẽ gần tới 0, với hy vọng rằng việc lan truyền cục bộ chủ yếu bên trong các lớp.