Phương pháp học bán giám sát (Semi-Supervised Learning)

Một phần của tài liệu 28074_1712202001941437LuanVan_DangThaiDuy_hoanchinh (Trang 30 - 34)

6. Bố cục của luận văn

1.4.2. Phương pháp học bán giám sát (Semi-Supervised Learning)

Trong thực tế, để cĩ được một tập dữ liệu cĩ chất lượng và đã được gán nhãn của một lĩnh vực, thường được thực hiện thủ cơng bằng tay bởi người cĩ nhiều kinh nghiệm về lĩnh vực đĩ. Vì vậy, dữ liệu đã được gán nhãn thường ít và đắt. Trong khi đĩ, dữ liệu chưa được gán nhãn lại rất nhiều và phong phú. Phương pháp học bán giám sát (hay học nửa giám sát) được đặt ra để tận dụng cả hai nguồn dữ liệu này.

Khái niệm học bán giám sát: Học bán giám sát là học với tập dữ liệu huấn luyện gồm cả dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn. Tuỳ vào từng mục

đích cụ thể, học bán giám sát cĩ thể được áp dụng cho bài tốn phân lớp hoặc phân cụm.

Nội dung phương pháp học bán giám sát:

 Nội dung chính của học bán giám sát là hệ thống sử dụng một tập học (training set) gồm 2 phần: các ví dụ học cĩ nhãn, thường với số lượng (rất) ít, và các ví dụ học khơng cĩ nhãn, thường với số lượng (rất) nhiều. Thực tế cho thấy khi sử dụng kết hợp dữ liệu khơng cĩ nhãn với một lượng nhất định dữ liệu cĩ nhãn cĩ thể tăng độ chính xác đáng kể.

 Một thuật tốn học bán giám sát được sử dụng (ví dụ Self-training) sẽ học các ví dụ cĩ nhãn, sau đĩ tiến hành gán nhãn cho một số (cĩ lựa chọn) các ví dụ khơng cĩ nhãn - một cách hợp lý, cĩ đánh giá chất lượng cơng việc hay độ chính xác. Tiếp theo, chọn các ví dụ vừa được gán nhãn cĩ độ tin cậy cao (vượt trên một ngưỡng chọn trước) đưa vào kết hợp với tập dữ liệu cĩ nhãn, tạo thành một tập dữ liệu huấn luyện mới.

 Áp dụng một phương pháp kiểm thử (cĩ thể kết hợp với một tập dữ liệu đã biết trước nhãn) để đánh giá hiệu năng/độ chính xác của mơ hình.

Một số thuật tốn học bán giám sát:

Một số thuật tốn thường được sử dụng gồm cĩ: thuật tốn Cực đại kỳ vọng (EM - Expectation Maximization), SVM truyền dẫn (TSVM - Transductive Support Vector Machine), Self-training, Co-training và các phương pháp dựa trên đồ thị (graph-based).

Việc lựa chọn thuật tốn nào dựa trên một số định hướng: nếu các lớp dữ liệu cĩ tính phân cụm cao thì nên dùng EM với mơ hình hỗn hợp sinh; nếu đã sử dụng SVM thì mở rộng thành TSVM; khi khĩ nâng cấp mơ hình học cĩ giám sát đã cĩ, thì nên dùng self-training; nếu các đặc trưng của dữ liệu phân chia tự nhiên thành hai phần riêng rẽ thì nên dùng Co-training; cịn nếu hai mẫu dữ liệu cĩ đặc trưng tương tự nhau hướng tới một lớp thì sử dụng phương pháp dựa trên đồ thị.

Trong số các thuật tốn học bán giám sát thơng dụng, cĩ 2 thuật tốn tiêu biểu là Self-training và Co-training:

Thuật tốn Self-training:

Self-training là kỹ thuật học bán giám sát được sử dụng khá phổ biến do tận dụng được nguồn dữ liệu chưa gán nhãn lớn và ban đầu chỉ cần lượng nhỏ dữ liệu đã gán nhãn. Nội dung chính của Self-training là lặp nhiều lần phương pháp học cĩ giám sát.

Gọi D: là tập các dữ liệu đã được gán nhãn. C: là tập các dữ liệu chưa gán nhãn.

Thuật tốn Self-training thực hiện như sau:

Lặp (cho đến khi C = Ỉ):

i. Huấn luyện bộ phân lớp cĩ giám sát h trên tập D ii. Sử dụng h để phân lớp dữ liệu trong tập C iii. Tìm tập con C’ Í C cĩ độ tin cậy cao nhất: D + C’ Þ D; C – C’ Þ C.

Ban đầu huấn luyện bộ phân lớp bằng cách cho bộ phân lớp học một tập dữ liệu huấn luyện đã được gán nhãn (tập này thường nhỏ so với tập dữ liệu chưa gán nhãn). Dùng bộ phân lớp đã được huấn luyện, phân lớp cho các dữ liệu chưa được gán nhãn. Trong số dữ liệu mới được gán nhãn, chọn các dữ liệu cĩ độ tin cậy cao (lớn hơn một ngưỡng nào đĩ) kèm với nhãn vừa gán, đem bổ sung vào tập dữ liệu huấn luyện ban đầu. Sau đĩ, bộ phân lớp được học lại trên tập huấn luyện mới (gồm dữ liệu đã gán nhãn ban đầu và dữ liệu do bộ phân lớp mới gán nhãn) và thuật tốn được lặp lại. Sau mỗi vịng lặp, bộ phân lớp sẽ bổ sung một số mẫu dữ liệu cĩ độ tin cậy cao nhất cùng với dự đốn phân lớp của chúng vào tập dữ liệu huấn luyện. Tên gọi Self-training xuất phát từ việc sử dụng dự đốn của nĩ để huấn luyện chính nĩ.

Thuật tốn Co-training:

Thuật tốn Co-training dựa trên giả thuyết rằng các đặc trưng của tập dữ liệu huấn luyện cĩ thể được phân chia thành 2 tập con (trường hợp lý tưởng là hai tập con này thoả mãn điều kiện độc lập nhau - conditional independent). Nội dung chính của thuật tốn như sau:

luyện một bộ phân lớp).

 Mỗi bộ phân lớp thực hiện phân lớp cho các dữ liệu chưa gán nhãn, thu được kết quả là tập dữ liệu chưa gán nhãn kèm theo nhãn dự đốn của chúng. Trong tập kết quả của bộ phân lớp 1, chọn ra những mẫu dữ liệu (kèm nhãn đã dự đốn) cĩ độ tin cậy cao nhất bổ sung vào tập huấn luyện của bộ phân lớp 2 và ngược lại.

 Mỗi bộ phân lớp được học lại tập dữ liệu huấn luyện (gồm dữ liệu gán nhãn ban đầu và dữ liệu gán nhãn mới bổ sung từ kết quả của bộ phân lớp kia). Quá trình được lặp lại cho đến khi tập dữ liệu chưa gán nhãn rỗng hoặc số vịng lặp đạt tới một ngưỡng được xác định trước.

Thuật tốn Co-training:

(1). Huấn luyện hai bộ phân lớp: f (1) từ (Xl (1), Yl), f (2) từ (Xl (2), Yl).

(2). Phân lớp các mẫu dữ liệu chưa gán nhãn Xu với f (1) và f (2) tách biệt nhau. (U là tập các mẫu dữ liệu chưa gán nhãn)

(3). Chèn thêm vào f (1) k-most-confident (x, f (1) (x)) tới các dữ liệu đã gán nhãn của f (2).

(4). Chèn thêm vào f (2) k-most-confident (x, f (2) (x)) tới các dữ liệu đã gán nhãn của f (1).

(5). Lặp lại các quá trình trên.

Thuật tốn Co-training trên cĩ thể viết như sau: L: là tập các mẫu dữ liệu đã gán nhãn

U: là tập các mẫu dữ liệu chưa gán nhãn

(1). L cĩ thể phân chia thành hai tập con L1 và L2 (trường hợp lý tưởng thì L1 và L2 độc lập nhau).

(2). Cho bộ phân lớp h1 học L1 (hay L1 huấn luyện bộ phân lớp h1) Cho bộ phân lớp h2 học L2 (hay dùng L2 huấn luyện bộ phân lớp h2)

(3). Dùng h1 phân lớp cho U thu được tập U1’ kèm nhãn dự đốn của chúng. Dùng h2phân lớp cho U thu được tập U2’ kèm nhãn dự đốn của chúng.

(4). Từ U1’ chọn ra u1 mẫu dữ liệu kèm theo nhãn của nĩ, cĩ độ tin cậy cao nhất. Bổ sung u1 vào L2. Khi đĩ, L2 + u1 => L2.

Từ U2’ chọn ra u2 mẫu dữ liệu kèm theo nhãn của nĩ, cĩ độ tin cậy cao nhất. Bổ sung u2vào L1. Khi đĩ, L1 + u2 => L1.

(5). Dùng L1 mới huấn luyện bộ phân lớp h1 (hay h1 học L1) Dùng L2 mới huấn luyện bộ phân lớp h2 (hay h2 học L2)

(6). Lặp lại từ bước (3). Cho đến khi tập U rỗng hoặc số vịng lặp đạt đến ngưỡng xác định trước.

Cĩ thể viết rút gọn bằng cách bỏ bước (5). Ở trên. Bước (6). đổi thành bước (5): Lặp lại từ bước (2). Cho đến khi tập U rỗng hoặc số vịng lặp đạt đến ngưỡng xác định trước.

Một phần của tài liệu 28074_1712202001941437LuanVan_DangThaiDuy_hoanchinh (Trang 30 - 34)

Tải bản đầy đủ (PDF)

(91 trang)