Phân tích và đánh giá kết quả

CHƢƠNG 3 MỘT SỐ LƢỢC ĐỒ ỨNG DỤNG CO-TRAINING

3.3. Một tiếp cận co-training cho đa bộ phân lớp bán giám sát (MCS)

3.3.4. Phân tích và đánh giá kết quả

Các kết quả của các thử nghiệm được tổng hợp trong bảng 10 và bảng 11. Số liệu được trình bày ở đây là tỉ lệ lỗi thử nghiệm được lấy trung bình trên 5 phần dữ liệu huấn luyện, thử nghiệm và khơng cĩ nhãn ngẫu nhiên.

Bảng 10 so sánh tỉ lệ lỗi trung bình của một bộ phân lớp đơn (CL1, CL2, CL3, CL4) khi huấn luyện chỉ với dữ liệu đã được gán nhãn với các bộ phân lớp được huấn luyện với mơ hình bán giám sát ở trên. các tác giả chỉ trình bày kết quả của thuật tốn MCS/CO2 dùng luật kết hợp trung bình („M‟) và điểm giữa („D‟), khi luật kết hợp cực đại cho các kết quả khơng thoả đáng. Các cột bĩng mờ trong bảng cho biết các trường hợp khi dùng dữ liệu khơng gán nhãn đã giảm được lỗi phân lớp. Rõ ràng, các bộ phân lớp được huấn luyện dùng giải thuật MCS/CO1&2 thường làm tốt hơn các bộ phân lớp được huấn luyện bằng phương pháp cĩ giám sát thuần tuý, đặc biệt cho trường hợp cĩ rất ít dữ liệu cĩ nhãn.

Bảng 10 . So sánh kết quả của các bộ phân lớp đơn

Mặt khác, bảng 11 lại so sánh kết quả sau bước kết nối cuối cùng của 4 máy phân lớp được huấn luyện với kỹ thuật cĩ giám sát và với phương pháp bán giám sát kể trên.

Ở đây, các tác giả biểu diễn các kết quả của sự hợp nhất dùng luật hợp nhất cực đại, trung bình, giá trị giữa và tích, được chỉ ra trong bảng bởi các cột Max, Mn, Md và Pro tường ứng.

Bảng 11. Kết quả sau khi hợp nhất đầu ra cuối cùng của các bộ phân lớp.

Hình 27 đưa ra kết quả cải thiện độ chính xác trong các bộ phân lớp đơn với kỹ thuật bán giám sát MCS/CO1 và MCS/CO2 (với phép hợp nhất trung bình và giá trị giữa), với L cĩ kích cỡ là 5, 10, 15, 20, 25 và 30.

Một lần nữa, sự cải thiện so với mơ hình cĩ giám sát thuần tuý trở nên rõ ràng với số lượng ít các dữ liệu đã gán nhãn. Phương pháp MCS/CO2 thường thực thiện tốt hơn MCS/CO1.

Hình 27. Biểu đồ so sánh kết quả của MCS với các kỹ thuật cĩ giám sát.

Mặt khác, hình 28 đưa ra kết quả sự cải thiện của mơ hình bán giám sát so với kỹ thuật MCS cơ bản, với tập L cĩ các kích cỡ 5, 10, 15, 20, 25 và 30. Kết quả được trình bày với luật hợp nhất lớn nhất (max), nhỏ nhất (min), giá trị giữa (median) và tích (product). Rõ ràng mơ hình MCS/CO1 mặc dù tạo ra sự giảm lỗi ấn tượng cho từng bộ phân lớp độc lập, kết quả hợp nhất của nĩ khơng cĩ bất kỳ tiến bộ nào thậm chí cĩ tác động tiêu cực tới tỉ lệ lỗi. Điều này cĩ thể giải thích bởi sự thực rằng thuật tốn huấn luyện gây cho các bộ phân lớp tình trạng độc lập để trở thành lỗi, nghĩa là các bộ phân lớp được huấn luyện theo cách mà chúng tạo ra cùng một lỗi đồng thời. Các nghiên cứu tương lai sẽ chú ý tới vấn đề này nhiều hơn. Thuật tốn MCS/CO2, mặt khác vẫn làm giảm lỗi so với kỹ thuật MCS thơng thường khi dùng kết quả ra hợp nhất.

Hình 28: Kết quả đã hợp nhất của các bộ phân lớp khi huấn luyện với MCS.

Co-training trong bài tốn VSSVM

Bài tốn thực nghiệm phân lớp văn bản