CHƢƠNG 2 : PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ
2.3. Các phƣơng pháp xác định khoảng cách giữa các điểm dữ liệu
Ở phần trƣớc, chúng ta đã tìm hiểu các loại đồ thị có thể dùng để xây dựng phục vụ quá trình học. Mỗi đồ thị đƣợc xây dựng nên bởi các điểm dữ liệu hay còn gọi là các đối tƣợng dữ liệu, các đối tƣợng dữ liệu này lại đƣợc mô tả theo nhiều chiều khác nhau nhƣ: miền rời rạc, miền liên tục,... Trong khi đó, phƣơng pháp học nửa giám sát dựa trên đồ thị phụ thuộc vào khoảng cách giữa các điểm trên đồ thị. Do đó, trƣớc khi đi vào các thuật toán học cụ thể, chúng ta cần phải lựa chọn hàm xác định khoảng cách sẽ sử dụng. Sau đây chúng ta đi tìm hiểu một số hàm xác định khoảng cách:
Giả sử mỗi đối tƣợng đƣợc mô tả bởi các thuộc tính có dạng nhƣ sau: : {A1 = a1, A2 = a2, …, An = an}. Hàm khoảng cách giữa hai đối tƣợng và q ký hiệu là: d( , q).
2.3.1. Khoảng cách cục bộ, khoảng cách toàn cục và trọng số
cách nào đó một số hàm khoảng cách cục bộ, distA, trên mỗi thuộc tính của nó. Cách đơn giản nhất của sự kết hợp chúng là lấy tổng của chúng:
Tổng quát hơn, khoảng cách toàn cục có thể đƣợc định nghĩa nhƣ Tổng trọng số của các khoảng cách cục bộ. Các trọng số wi cho phép các thuộc tính khác nhau có tầm quan trọng khác nhau trong việc tính toán khoảng cách tổng thể. Các trọng số đôi khi nằm giữa 0 và 1; trọng số bằng 0 sẽ chỉ ra một thuộc tính hoàn toàn không liên quan.
Trọng số trung bình thƣờng là:
Các trọng số có thể đƣợc đƣa ra bởi các nhà thiết kế hệ thống. Ngoài ra còn có các trọng số học từ một tập dữ liệu.
2.3.2. Khoảng cách Hamming
Hàm khoảng cách cục bộ đơn giản nhất đƣợc biết đến nhƣ một hàm nạp chồng (overlap function), trả lại giá trị 0 nếu hai giá trị bằng nhau và 1 trong các trƣờng hợp khác.
Nếu hàm khoảng cách toàn cục đƣợc định nghĩa nhƣ là tổng của các hàm khoảng cách cục bộ thì chúng ta sẽ đếm số lƣợng các thuộc tính mà trên đó hai trƣờng hợp không đồng nhất. Điều này gọi là khoảng cách Hamming. Tổng trọng số và trọng số trung bình cũng có thể xảy ra.
2.3.3. Khoảng cách Manhattan cho các thuộc tính số học
Nếu một thuộc tính là thuộc tính số học thì hàm khoảng cách cục bộ có thể đƣợc
Nếu khoảng cách toàn cục đƣợc tính bằng tổng của các khoảng cách cục bộ này thì chúng ta đề cập tới khoảng cách Manhattan.
Tổng trọng số và trọng số trung bình cũng có thể xảy ra.
Một nhƣợc điểm của khoảng cách Manhattan đó là, nếu một trong số các thuộc tính có miền giá trị tƣơng đối lớn thì nó có thể sẽ chế ngự các thuộc tính khác. Vì vậy, khoảng cách cục bộ thƣờng đƣợc chuẩn hóa, do đó chúng nằm trong phạm vi từ 0 đến 1. Có nhiều cách để chuẩn hóa. Để đơn giản, chúng ta chỉ xét một công thức sau. Chúng ta chia miền giá trị chấp nhận đƣợc:
Trong đó, Amax là giá trị lớn nhất có thể của A và Amin là giá trị nhỏ nhất có thể của A. Chúng ta gọi là khoảng cách đã đƣợc chuẩn hóa.
Một nhƣợc điểm nữa của ý tƣởng này là nó chỉ có thể đƣợc sử dụng trên các thuộc tính số học.
2.3.4. Các hàm khoảng cách cục bộ không đồng nhất
Chúng ta có thể kết hợp khoảng cách tuyệt đối và độ trùng khớp để xử lý cả hai thuộc tính số và thuộc tính ký hiệu (symbolic):
Khoảng cách toàn cục ở đây có thể đƣợc tính bằng tổng trọng số hoặc trọng số trung bình của khoảng cách cục bộ.
2.3.5. Hàm khoảng cách tri thức chuyên gia
Các chuyên gia đôi khi có thể định nghĩa miền đặc biệt cho hàm khoảng cách cục bộ, đặc biệt là cho các giá trị-ký hiệu của các thuộc tính.
Một ví dụ tuy không phải là phổ biến là khi có một số định nghĩa ở phần trƣớc trên các giá trị của các thuộc tính ký hiệu. Ví dụ, bữa ăn cuối cùng một ngƣời đã ăn có các giá trị là: không ăn gì, ăn nhanh và ăn đầy đủ. Những thứ này có thể đƣợc nghĩ tới một thứ tự đã đƣợc sắp xếp trƣớc về số lƣợng thức ăn tiêu thụ: không
ăn gì < ăn nhanh < ăn đầy đủ.
Chúng ta có thể phân chia các giá trị số nguyên nhƣ sau: không ăn gì = 0; ăn nhanh = 1; ăn đầy đủ = 2. Bây giờ chúng ta có thể sử dụng công thức sau:
Nhƣ vậy, chúng ta đã tìm hiểu một số hàm xác định khoảng cách giữa các điểm dữ liệu với các miền thuộc tính khác nhau.
Sau đây chúng ta sẽ nghiên cứu thuật toán lan truyền nhãn trên đồ thị (Label Propagation). Ý tƣởng của thuật toán là nhãn của các đỉnh sẽ đƣợc lan truyền tới các đỉnh láng giềng dựa vào các đỉnh gần chúng. Trong quá trình này, ta cố định các nhãn trên tập dữ liệu đã đƣợc gán nhãn. Do đó dữ liệu đã đƣợc gán nhãn sẽ đƣợc xem nhƣ một tập nguồn và đƣa ra các nhãn thông qua dữ liệu chƣa đƣợc gán nhãn.