Đồng huấn luyện (Co-training) là một kỹ thuật học nửa giám sát yêu cầu hai Khung nhìn dữ liệu (View). Nó giả sử rằng mỗi mẫu dữ liệu đƣợc mô tả bằng cách sử dụng hai bộ đặc tính khác nhau, đƣợc cung cấp khác nhau, bổ sung thông tin về mẫu dữ liệu đó. Lý tƣởng nhất, hai khung nhìn đƣợc xem là điều kiện độc lập (ví dụ: hai bộ đặc tính của mỗi mẫu dữ liệu là điều kiện độc lập để đƣa ra phân lớp của chúng) và mỗi khung nhìn là đủ (ví dụ: phân lớp của một mẫu dữ liệu có thể đƣợc dự đoán chính xác từ mỗi khung nhìn độc lập). Co- training ban đầu học một bộ phân lớp riêng cho mỗi khung nhìn, sử dụng bất kỳ mẫu dữ liệu đã gán nhãn nào. Những dự đoán gần đúng nhất của mỗi bộ phân
lớp trên các dữ liệu chƣa gán nhãn sau đó đƣợc sử dụng lặp đi lặp lại để xây dựng thêm các dữ liệu đƣợc gán nhãn.
2.1.3.2. Nội dung thuật toán
Giả sử các dữ liệu đƣa ra đã đƣợc gán nhãn nhƣ sau:
- Dữ liệu đã gán nhãn : (x1, y1),..., (xℓ, yℓ). - Dữ liệu chƣa gán nhãn : xℓ+1, ..., xℓ+u . - Hàm học f: x ⟼y.
Giả sử véc tơ đặc trƣng X có thể đƣợc chia thành hai Khung nhìn (View) nhƣ sau:
Huấn luyện hai bộ học cơ bản f(1): x(1)⟼y và f(2): x(2)⟼y
Đầu tiên, học từ các dữ liệu đã gán nhãn: o f(1) học trên (x(1)1, y1),..., (x(1) ℓ, yℓ) o f(2) học trên (x(2)1, y1),..., (x(2) ℓ, yℓ)
Sau đó, sử dụng lặp lại các dữ liệu chƣa gán nhãn:
o f(1) phân lớp các điểm chƣa gán nhãn mà hầu hết chứa các điểm rỗng. o f(1) thêm điểm này vào tập các nhãn của f(2).
o f(2) lặp lại nhƣ f(1) tới khi dữ liệu đƣợc gán nhãn hết thì dừng. Ƣu điểm của phƣơng pháp Co-training
o Là một phƣơng pháp đơn giản, đƣợc áp dụng cho hầu hết các bộ phân lớp hiện nay.
o Ít xảy ra lỗi hơn so với phƣơng pháp Self-training. Nhƣợc điểm của phƣơng pháp Co-training
o Các Khung nhìn đƣợc chia tách có thể tồn tại hoặc không tồn tại. o Mô hình sử dụng cả hai Khung nhìn có thể sẽ tốt hơn.