CHƢƠNG 2 : PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ
2.6. Các trƣờng Gaussian ngẫu nhiên và các hàm điều hòa
2.6.1. Các trƣờng Gaussian ngẫu nhiên
Một cách tiếp cận khác của học nửa giám sát là đề xuất dựa trên mô hình Gaussian ngẫu nhiên (GRF). Dữ liệu đã gán nhãn và chƣa gán nhãn đƣợc đƣa ra nhƣ là các đỉnh trong một đồ thị có trọng số, với việc mã hóa trọng số các cạnh giữa các mẫu dữ liệu giống nhau. Bài toán học sau đó đƣợc xây dựng trong các trƣờng Gaussian ngẫu nhiên trên đồ thị này, tại đó ý nghĩa của các trƣờng đƣợc đặc trƣng
bởi các hàm điều hòa và hiệu quả thu đƣợc bằng cách sử dụng các phƣơng pháp ma trận hay lan truyền tin cậy.
Không giống nhƣ các phƣơng pháp khác hiện nay, dựa trên hàm năng lƣợng cực tiểu và các trƣờng ngẫu nhiên trong học máy, ta xem xét các trƣờng Gaussian ngẫu nhiên trên không gian trạng thái liên tục thay vì các trƣờng ngẫu nhiên trên các tập dữ liệu rời rạc. Đặc biệt, dạng phổ biến nhất của các trƣờng (field) có thể xảy ra là duy nhất, đƣợc đặc trƣng bởi các hàm điều hòa và có thể tính toán dựa vào các phƣơng pháp ma trận hay lan truyền. Ngƣợc lại, với các trƣờng ngẫu nhiên đa nhãn, việc tính toán cấu hình năng lƣợng thấp nhất thƣờng là NP-khó và các thuật toán xấp xỉ hay ƣớc lƣợng đƣợc sử dụng. Kết quả của thuật toán phân lớp với các trƣờng Gaussian có thể đƣợc xem nhƣ một dạng của phƣơng pháp tiếp cận láng giềng gần nhất, tại đó các mẫu dữ liệu láng giềng đã đƣợc gán nhãn bởi phƣơng pháp Bƣớc di chuyển trên đồ thị.
Ta giả sử có ℓ điểm đã đƣợc gán nhãn (x1, y1),..., (xℓ, yℓ) và u điểm chƣa gán nhãn xℓ+1, ..., xℓ+u; ℓ<<u.
Cho n=ℓ+u là tổng số các điểm dữ liệu. Để bắt đầu, ta giả sử các nhãn mang giá trị nhị phân: y ∈ {0, 1}. Xét một đồ thị liên thông G=(V, E) với tập các đỉnh V tƣơng ứng với n điểm dữ liệu, với tập L các đỉnh ứng với các điểm dữ liệu đã gán nhãn, với các nhãn y1,..., yℓ và tập U các đỉnh tƣơng ứng với các điểm dữ liệu chƣa đƣợc gán nhãn. Nhiệm vụ của chúng ta là dự đoán các nhãn cho các điểm dữ liệu trong tập U.
Ta giả sử một ma trận trọng số đối xứng Wn×n trên các cạnh của đồ thị đƣợc đƣa ra. Ví dụ khi x ∈ ℝm thì ma trận trọng số đƣợc biểu diễn theo công thức sau:
Trong đó, xid là thành phần thứ d của mẫu dữ liệu xi biểu diễn nhƣ một véc tơ xi ∈ ℝmvà σ1, ..., σm là siêu tham số cho mỗi chiều.
Chiến lƣợc của chúng ta đầu tiên là tính toán một hàm giá trị thực f: VR trên đồ thị G với các thuộc tính nhất định và sau đó gán các nhãn dựa trên f. Chúng
ta hạn chế f để f(i) = fl(i) ≡ yi trên dữ liệu đã gán nhãn i=1, ..., ℓ. Bằng trực giác chúng ta muốn các điểm dữ liệu chƣa gán nhãn gần nhau trong đồ thị sẽ có nhãn tƣơng tự nhau. Điều này dẫn tới sự lựa chọn hàm bậc 2:
Rõ ràng, E đƣợc cực tiểu hóa bởi hàm không đổi. Nhƣng vì ta đã có một số dữ liệu đã gán nhãn, chúng ta gán cho f một giá trị f(i) = yi, (i ∈ L trên tập dữ liệu đã gán nhãn). Ta chỉ định một phân bổ xác suất tới hàm f bởi một trƣờng Gausian ngẫu nhiên (GRF).
Trong đó β là một tham số “nghịch đảo” và Z là một hàm phân hoạch.
đƣợc chuẩn hóa trên các hàm ràng buộc với YL trên dữ liệu đã gán nhãn. Ta đang quan tâm đến vấn đề suy luận p(fi|YL), i ∈ U hay nghĩa là
Sự phân bố p(f) giống các trƣờng Markov ngẫu nhiên với các trạng thái rời rạc. Thực tế thì sự khác biệt duy nhất là trạng thái giá trị số thực. Tuy nhiên, điều này làm cho vấn đề suy luận đơn giản hơn rất nhiều. Bởi vì hàm năng lƣợng bậc 2 p(f) và p(fU|YU) đều là phân phối Gaussian đa biến. Do đó p đƣợc gọi là GRF. Biên p(fi|YL) là một biến đơn Gaussian và gần với giải pháp đƣa ra.
2.6.2. Đồ thị Laplacian
Bây giờ ta xem xét tổ hợp Laplat, ký hiệu: Δ
Cho D là ma trận đƣờng chéo bậc của các đỉnh, có Dii = ΣjWij là bậc của đỉnh i. Laplat đƣợc định nghĩa nhƣ sau: Δ ≡ D – W.
Hàm Gaussian ngẫu nhiên có thể đƣợc viết nhƣ sau:
2.6.3. Các hàm điều hòa
Không khó để chỉ ra rằng hàm năng lƣợng cực tiểu là hàm điều hòa, cụ thể là Δf = 0 trên các điểm dữ liệu chƣa gán nhãn trong tập U, và bằng Δf =YL trên các điểm dữ liệu đã gán nhãn L.
Ký hiệu hàm điều hòa là:
Thuộc tính điều hòa ở đây có nghĩa là giá trị của (i) tại mỗi điểm dữ liệu chƣa gán nhãn i là giá trị trung bình của các láng giềng của nó trong đồ thị, ta có công thức sau:
Do các nguyên lý cực đại của hàm điều hòa (Doyle & Snell, 1984), thỏa mãn 0 ≤ (i) ≤1 với i ∈ U (lƣu ý: (i)=0 hoặc (i)=1 cho mỗi i ∈L).
Để tính toán giải pháp điều hòa, ta chia nhỏ ma trận W (tƣơng tự D, Δ, ...) thành 4 khối cho L và U:
Giải pháp điều hòa Δh=0 với hL = YL đƣợc đƣa ra bởi
Mô tả cuối cùng giống với công thức fU = ( I−PUU)−1 PULYL, mà P=D/W là ma trận lan truyền trong đồ thị. Thuật toán lan truyền nhãn (labled propagation) thực tế đã tính hàm điều hòa này.
Hàm điều hòa đã cực tiểu hóa năng lƣợng và do đó nó là một dạng của Trƣờng Gaussian ngẫu nhiên.
Hàm điều hòa có thể đƣợc thể hiện trong một vài cách nhìn khác nhau và những cách nhìn khác nhau này cung cấp một tập hợp các lý luận bổ sung và kỹ thuật phong phú cho lĩnh vực học nửa giám sát.