CHƢƠNG 2 : PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ
2.2. Các loại đồ thị phổ biến có thể sử dụng trong học nửa giám sát
Đôi khi các tập dữ liệu mà chúng ta có đƣợc lại bị giới hạn về miền tri thức, đồng thời ta cần có một đồ thị để bắt đầu việc giải quyết vấn đề đó, do vậy, dƣới đây là một số cách phổ biến dùng để xây dựng đồ thị phục vụ cho các thuật toán học nửa giám sát[10].
2.2.1. Đồ thị kết nối đầy đủ
Hình 2.2: Đồ thị kết nối đầy đủ
Đồ thị kết nối đầy đủ là đồ thị với mỗi cặp đỉnh có một cạnh kết nối giữa chúng. Đồ thị đƣợc đánh trọng số, các đỉnh “tƣơng tự” nhau thì có trọng số cạnh lớn hơn giữa chúng. Ƣu điểm của đồ thị kết nối đầy đủ là trong việc học trọng số- với một hàm trọng số khác nhau. Điều này dễ dàng đƣa ra các dẫn xuất của đồ thị, trọng số tham số. Nhƣợc điểm của đồ thị kết nối đầy đủ là chi phí tính toán lớn do giữa các đỉnh đều có cạnh nối.
2.2.2. Đồ thị rời rạc
Hình 2.3: Đồ thị rời rạc
Đồ thị rời rạc là đồ thị NN hay εNN mà mỗi đỉnh chỉ kết nối tới một vài đỉnh khác. Đồ thị này đƣợc tính toán nhanh, tạo ra hiệu suất tính toán cao. Điều đáng lo ngại ở đây là vì sự giả lập kết nối giữa các đỉnh không tƣơng tự nhau (có khuynh hƣớng khác lớp) là bị bỏ đi. Với đồ thị rời rạc này, các cạnh có thể đƣợc
đánh trọng số hoặc không đánh trọng số. Một nhƣợc điểm của đồ thị rời rạc là khi ta thay đổi trọng số học thì dẫn tới việc thay đổi các láng giềng của các đỉnh.
2.2.3. Đồ thị -láng giềng gần nhất
Hình 2.4: Đồ thị -láng giềng gần nhất
Đồ thị -láng giềng gần nhất là đồ thị trong đó đỉnh i và đỉnh j đƣợc kết nối với nhau bởi một cạnh nếu đỉnh i nằm trong k láng giềng gần nhất của đỉnh j. là một siêu tham số điều khiển mật độ của đồ thị. -NN có khả năng mở rộng bởi vì bán kính láng giềng là khác nhau với các vùng dữ liệu có mật độ cao hay thấp. Số nhỏ có thể là kết quả của đồ thị không liên thông. Tuy nhiên với phƣơng pháp lan truyền nhãn thì đây không phải là vấn đề đáng ngại nếu mỗi thành phần kết nối có một vài điểm dữ liệu đã đƣợc gán nhãn.
Nhƣợc điểm của phƣơng pháp -NN là không thể mở rộng và kết quả trong đồ thị không đối xứng.
Đồ thị ε-láng giềng gần nhất là đồ thị trong đó đỉnh i và đỉnh j đƣợc kết nối bởi một cạnh nếu khoảng cách d(i, j) ≤ ε. Siêu tham số ε quyết định bán kính của các láng giềng. Mặc dù ε mang giá trị liên tục, việc tìm kiếm giá trị tối ƣu là rời rạc với hầu hết giá trị độ dài các cạnh O(n2).
2.2.5. Đồ thị trọng số exp
Hình 2.6: Trọng số cạnh giữa hai đỉnh của đồ thị wij = exp ( −d(i, j)2/α2 ) wij = exp ( −d(i, j)2/α2 )
Hàm trọng số này rất hữu ích khi ta không có đủ miền tri thức. Tuy nhiên ta quan sát thấy rằng đồ thị trọng số -NN với một số nhỏ có khuynh hƣớng thực hiện tốt theo kinh nghiệm. Tất cả các phƣơng pháp xây dựng đồ thị đều có các siêu tham số.
Đồ thị này đƣợc đƣa ra bởi ma trận trọng số Wn×n, Wij = 0 nếu giữa đỉnh i và j không có cạnh nối. Ma trận trọng số W phải chứa các giá trị không âm và phải đối xứng.