CHƢƠNG 2 : PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ
2.4. Thuật toán lan truyền nhãn trong đồ thị
2.4.2. Nội dung thuật toán
Cho {(x1, y1)…(xℓ, yℓ)} là các dữ liệu đã gán nhãn, YL={y1, …yℓ} là các nhãn của các lớp, y ={1..C} và {xℓ+1 … xℓ+u} là các dữ liệu chƣa đƣợc gán nhãn, thƣờng ℓ≪u. Cho n=ℓ+u. Chúng ta thƣờng sử dụng L và U để thể hiện tƣơng ứng với tập dữ liệu đã gán nhãn và tập dữ liệu chƣa gán nhãn. Giả sử rằng, số lƣợng các lớp C là đã biết và tất cả các lớp đã đƣợc thể hiện trong dữ liệu đã gán nhãn. Chúng ta sẽ nghiên cứu bài toán lan truyền cho việc tìm kiếm các nhãn cho tập U.
Bằng trực giác chúng ta muốn các điểm dữ liệu tƣơng tự nhau sẽ có cùng nhãn. Ta tạo ra một đồ thị đầy đủ mà các đỉnh là tất cả các điểm dữ liệu, cả dữ liệu đã gán nhãn và chƣa gán nhãn. Cạnh nối bất kỳ giữa đỉnh i và đỉnh j biểu thị cho sự giống nhau của chúng. Giả sử đồ thị là đầy đủ với các trọng số sau đây, các trọng số đƣợc điều khiển bởi tham số .
hoặc cụ thể hơn
Trong đó: dij là khoảng cách giữa điểm dữ liệu xi và xj.
Có thể lựa chọn cách tính giá trị khoảng cách khác nhau, tuy nhiên có lẽ là phù hợp nếu x là các giá trị rời rạc. Trong phạm vi thuật toán này, chúng tôi lựa chọn khoảng cách Euclid để xác định khoảng cách giữa các điểm dữ liệu và tùy theo
các giá trị siêu tham số cho mỗi chiều thuộc tính.
Tất cả các đỉnh có nhãn mềm có thể thay đổi nhãn trong quá trình thực hiện việc lan truyền nhãn và đƣợc hiểu là phân phối nhãn.
Chúng ta cho nhãn của một đỉnh lan truyền tới tất cả các đỉnh khác thông qua các cạnh giữa chúng. Cạnh có trọng số lớn hơn cho phép các nhãn đi qua dễ dàng hơn. Ta định nghĩa một Ma trận xác suất chuyển đổi Pn×n.
Trong đó Pij là xác suất để nhảy từ đỉnh i tới j. Cũng định nghĩa một ma trận nhãn YL ℓ×C mà dòng thứ i của chúng là một véctơ chỉ số cho yi, i ∈ L: Yic=δ(yi, c).
Chúng ta sẽ tính toán nhãn mềm f cho các đỉnh. f là ma trận n × C (f n×C), các hàng có thể đƣợc thể hiện nhƣ sự phân bổ xác suất trên các nhãn. Việc khởi tạo giá trị ban đầu cho f là không quan trọng. Sau đây chúng ta sẽ xem xét thuật toán:
Thuật toán:
Đầu vào: đồ thị vô hƣớng bao gồm các đỉnh đã gán nhãn và các đỉnh chƣa gán nhãn. Đầu ra: đồ thị vô hƣớng với các đỉnh đã đƣợc gán nhãn.
Thuật toán lan truyền nhãn thực hiện theo các bƣớc sau: Bƣớc 1. Lan truyền: f ← Pf
Bƣớc 2. Gán (giữ lại) các dữ liệu đã gán nhãn fL = YL (YL đã xây dựng ở trên)
Bƣớc 3. Lặp lại từ bƣớc 1 cho tới khi f hội tụ.
Trong bƣớc 1, tất cả các đỉnh lan truyền các nhãn tới các láng giềng của chúng. Bƣớc 2 là quan trọng: chúng ta muốn giữ lại các nhãn từ dữ liệu đã gán nhãn. Vì vậy, thay vì cho việc làm các nhãn mờ đi, chúng ta giữ lại chúng ở ma trận
YL. Với sự hỗ trợ từ các đỉnh đã đƣợc gán nhãn, các lớp biên có thể đƣợc phân loại thông qua các vùng có tỉ trọng cao và các vùng tỉ trọng thấp.