Trƣớc khi đi vào việc học trên đồ thị, đầu tiên ta cần tìm hiểu một số định nghĩa liên quan trong đồ thị.
Cấu trúc của đồ thị
Các thuật toán trong phƣơng pháp học nửa giám sát dựa trên đồ thị hầu nhƣ có tƣ tƣởng giống nhau và điều quan trọng là cần xây dựng đƣợc một đồ thị tốt, hơn là việc sẽ sử dụng thuật toán nào giữa chúng.
Cho đồ thị G = (V, E) với n đỉnh, V: tập đỉnh, E: tập cạnh. Đồ thị G đƣợc thể hiện bởi ma trận liền kề W trong đó wij > 0 nếu có cạnh nối giữa đỉnh i và đỉnh j và wij = 0 trong các trƣờng hợp còn lại.
Đặt wij = 0 nếu đồ thị có chứa chu trình thì không tính cạnh đó. Với đồ thị có hƣớng, đỉnh i có tổng bậc đầu ra wi+ = và tổng bậc đầu vào w+i = . Tổng trọng số của đồ thị ký hiệu . Giả sử không có đỉnh nào bị cô lập, do đó w+i > 0 và wi+ > 0. Trong trƣờng hợp đặc biệt của đồ thị không có trọng số, ta có wij ∈ {0, 1}. Với đồ thị vô hƣớng, tổng bậc đầu vào và đầu ra tƣơng ứng với di (= wi+ = w+i) đại diện cho cả hai để nhấn mạnh nhƣ một thuộc tính.
Trong thực tế, wij thƣờng có thể đƣợc giải thích một cách tự nhiên. Nó có thể là số lƣợng các siêu liên kết từ một trang web tới các trang khác hay là một giá trị nhị phân chỉ ra protein i tƣơng tác với protein j.
Tuy nhiên, khi các trọng số không sẵn có từ các dữ liệu, thƣờng có hai bƣớc xử lý để xây dựng chúng. Bƣớc đầu tiên là sử dụng một hàm không âm và đối xứng để định lƣợng các mối quan hệ giữa một cặp đỉnh. Ví dụ, nếu mỗi đỉnh đƣợc xét trong không gian Euclidean ℝd, một sự lựa chọn phổ biến là sử dụng hàm mật độ Gaussian a(i, j) = exp ( −||xi−xj||2 / 2σ2 ), trong đó xi ∈ ℝd
thể hiện vị trí đỉnh i. Sau đó, chúng ta cần xây dựng trọng số wij dựa trên mối quan hệ giữa các cặp a(i, j). Phƣơng pháp tiếp cận ε-láng giềng đặt wij = a(i, j) nếu a(i, j) > ε và wij = 0 trong các trƣờng hợp còn lại. Mặt khác, phƣơng pháp k-láng giềng gần nhất đặt wij = a(i, j) nếu j là một trong số các láng giềng gần i nhất và wij = 0 trong các trƣờng hợp còn lại. Từ đây, ta giả sử rằng đồ thị đƣợc xây dựng với các trọng số cạnh đƣợc đƣa ra dựa trên phƣơng pháp xác định trọng số trong không gian Euclidian.
2.2. Các loại đồ thị phổ biến có thể sử dụng trong học nửa giám sát
Đôi khi các tập dữ liệu mà chúng ta có đƣợc lại bị giới hạn về miền tri thức, đồng thời ta cần có một đồ thị để bắt đầu việc giải quyết vấn đề đó, do vậy, dƣới đây là một số cách phổ biến dùng để xây dựng đồ thị phục vụ cho các thuật toán học nửa giám sát[10].
2.2.1. Đồ thị kết nối đầy đủ