Dữ liệu và thử nghiệm

CHƢƠNG 3 MỘT SỐ LƢỢC ĐỒ ỨNG DỤNG CO-TRAINING

3.3. Một tiếp cận co-training cho đa bộ phân lớp bán giám sát (MCS)

3.3.3. Dữ liệu và thử nghiệm

Đầu vào:

- Tập L các mẫu đã cĩ nhãn dùng để huấn luyện thuộc vào M lớp khác nhau - x được mơ tả bởi K view khác nhau (x1,x2, … , xk)

- U là tập các dữ liệu chưa cĩ nhãn

Tiến trình:

- Tạo 1 tập con U‟ các mẫu bằng cách chọn ngẫu nhiên u mẫu từ tập U - Lặp lại k lần:

1. Dùng L để huấn luyện một bộ phân lớp chỉ quan tâm đến thành phần xi của x 2. Cho CLi gán nhãn tất cả các mẫu của U‟

3. Kết nối các kết quả đầu ra bằng các luật kết hợp

4. Chọn n mẫu đáng tin cậy nhất cho mỗi lớp trên tất cả các bộ phân lớp 5. Thêm các mẫu đã được gán nhãn vào L

Dữ liệu dùng cho các thử nghiệm là một tập đối tượng ảnh lấy từ thư viện ảnh đối tượng Columbia (Columbia Object Image Library). Tập dữ liệu chứa các ảnh của các đối tượng khác nhau, với mỗi đối tượng cĩ sẵn 72 mẫu huấn luyện.

Trong thử nghiệm, mỗi ảnh được chia thành 2x2 phần thành 4 ảnh con tương ứng. Mỗi ảnh con được xử lý như là một ảnh đầu vào độc lập cho 1 bộ phân lớp trong kiến trúc quần thể, như mơ tả trong hình 26 bên dưới:

Hình 26. Ví dụ đầu vào cho bộ phân lớpMCS.

Các thử nghiệm được thực hiện để xác định liệu các giải thuật MCS/CO1 và MCS/CO2 trên cĩ thể sử dụng thành cơng dữ liệu chưa gán nhãn để làm tốt hơn tiếp cận nhiều bộ phân lớp giám sát thơng thường (MCS) khơng.

Bộ phân lớp cơ bản dùng cho cả 3 mơ hình là k lân cận gần nhất (K-Nearest Neighbor). Các tác giả dùng số lượng biến thiên mẫu cĩ nhãn ban đầu trên 1 lớp (5, 10, 15,…30) để nghiên cứu sự ảnh hưởng của kích thước dữ liệu cĩ nhãn ban đầu trong kết quả của các kỹ thuật được so sánh. MCS, MCS/CO1 và MCS/CO2 được huấn luyện trên cùng 1 tập dữ liệu đã gán nhán (L). Với mỗi số lượng mẫu cĩ nhãn, các tác giả lặp lại thử nghiệm của mình 5 lần và kết quả được đưa ra là trung bình trên 5 lựa chọn ngẫu nhiên của dữ liệu cĩ nhãn ban đầu, L, tập dữ liệu ban đầu chưa được gán nhãn, U và tập dữ liệu kiểm tra, T

Các tác giả sử dụng 4 bộ phân lớp để thực hiện 4 phần của ảnh đầu vào (K=4). Với mỗi kỹ thuật MCS/CO số vịng lặp được ấn định là 20 và U‟ được chọn là 100. Những mẫu đáng tin cậy nhất của U‟ được sắp xếp trong mỗi lớp và chỉ cĩ các mẫu cĩ độ tin cậy cao nhất trong mỗi lớp mới được thêm vào tập dữ liệu cĩ nhãn.

Co-training trong bài tốn VSSVM

Bài tốn thực nghiệm phân lớp văn bản