CHƢƠNG 3 MỘT SỐ LƢỢC ĐỒ ỨNG DỤNG CO-TRAINING
3.3. Một tiếp cận co-training cho đa bộ phân lớp bán giám sát (MCS)
3.3.1. Hệ thống đa bộ phân lớp bán giám sát
Hệ thống đa bộ phân lớp (Multiple classifier system (MCS)) và học quần thể (essemble learning) đã trở nên phổ biến trong trong những năm gần đây trong việc giải quyết các bài tốn khác nhau trong nhận dạng mẫu và học máy. Đa bộ phân lớp (MC) được đặc tả bởi đặc tính kỹ thuật của chúng, dựa trên kiểu bộ phân lớp và luật kết hợp.
Cho đến nay, hầu hết các nghiên cứu trên MCS đều hướng trực tiếp tới nhiệm vụ phân lớp cĩ giám sát đơn thuần. Học cĩ giám sát địi hỏi phải cĩ một tập dữ liệu đã gán nhãn. Trong nhiều ứng dụng nhận dạng mẫu, các dữ liệu đã gán nhãn thường tốn
nhiều thời gian và chi phí để cĩ được và cần người chú thích, những người phải cĩ đủ kỹ năng yêu cầu.
Học bán giám sát giải quyết vấn đề này với thiết kế của bộ phân lớp dùng cả dữ liệu đã gán nhãn (thường là ít) với dữ liệu chưa gán nhãn dùng huấn luyện. Học bán giám sát hướng mục tiêu vào các tình huống phổ biến khi mà dữ liệu đã gán nhãn là rất ít nhưng dữ liệu chưa gán nhãn lại rất nhiều. Kỳ vọng của học bán giám sát là cĩ khả năng dùng các dữ liệu chưa gán nhãn cùng với các dữ liệu đã gán nhãn để tăng chất lượng của bộ phân lớp
Bài tốn học bán giám sát đã thu hút một lượng quan tâm lớn trong thời gian gần đây. Cĩ rất nhiều các kỹ thuật học bán giám sát như: phương pháp self-training, phương pháp cực đại kỳ vọng, học SVM truyền dẫn, co-training và active learning [22]. Trong một báo cáo của Seeger [32] tĩm lược một vài phương pháp tiếp cận cho học bán giám sát.
Mặc dù đều cĩ liên quan đến nhiệm vụ phân lớp bán giám sát, tất cả các kỹ thuật trên đều chỉ tập trung vào một bộ phân lớp đơn lẻ, hoặc cùng lắm là hai bộ phân lớp (co-training). Gần đây, một số cơng trình về MCS đã được cơng bố, trong nghiên cứu của mình, Roli cũng cố gắng đưa ra một định nghĩa cĩ tính hệ thống về hệ thống đa bộ phân lớp bán giám sát và gợi ý một vài hướng nghiên cứu tương lai trong lĩnh vực này. Trong 2 bài báo trước đã cơng bố [34, 35], nhĩm tác giả đã đưa ra một cách tiếp cận trực tiếp quyết định cho việc huấn luyện quần thể bộ phân lớp. Kỹ thuật này làm việc trên các khung nhìn khác nhau của dữ liệu vào và dùng các kết quả ra đã được kết nối của các bộ phân lớp để gán nhãn cho các mẫu chưa biết. Quần thể bộ phân lớp sau đĩ được huấn luyện lại bằng các nhãn giả mới. Kỹ thuật này khơng dùng một phương pháp đo để loại bỏ các mẫu được gán nhãn một cách khơng chắc chắn từ các bộ phân lớp đã được huấn luyện lại. Các thử nghiệm được tiến hành với một phần nhỏ dữ liệu chưa gán nhãn và cho kết quả tốt hơn cách tiếp cận cĩ giám sát đơn thuần trong đa số các trường hợp
Trong bài báo này, các tác giả cố gắng mở rộng mơ hình trong (9) thơng qua việc áp dụng lại một số kỹ thuật bán giám sát cho các bộ phân lớp đơn.
Đặc biệt, các tác giả hướng trọng tâm chú ý vào phương pháp co-training do mối liên hệ mật thiết của nĩ với MCS. Hướng tiếp cận co-training được Blum và Mitchell đưa ra năm 1998[11]. Co-training lúc đầu chỉ được sử dụng với 2 bộ phân lớp
và khơng chứa bất kỳ một sự kết hợp nào giữa các máy. Do đĩ, cịn rất nhiều vấn đề cần giải quyết về việc sử dụng co-training để tạo ra các quần thể bộ phân lớp tốt.
Thuật tốn co-training giả thiết rằng một mơ tả về một mẫu cĩ thể được chia thành 2 khung nhìn độc lập. Cả 2 khung nhìn của mẫu đều cĩ thể đủ cho việc học, và cần cĩ đủ các mẫu đã được gán nhãn. Mục đích của co-training là dùng cả 2 khung nhìn cùng nhau để cho phép dữ liệu chưa gán nhãn khơng tốn kém để làm tăng lên số lượng rất nhỏ các tập dữ liệu chưa gán nhãn.
Các ứng dụng phù hợp với hướng tiếp cận này là khi cả dữ liệu đã gán nhãn và dữ liệu đều sẵn cĩ và 2 hoặc 3 kiểu thơng tin khác nhau của đối tượng được chỉ ra. Ví dụ cho ứng dụng này là việc phân lớp trang web và việc phân lớp đa phương thức đa cảm biến (multi-sensor multi-modal) (như nhận dạng sinh trắc đa hình thái (multi- modal biometric recognition)). Các bộ phân lớp được huấn luyện độc lập trên mỗi khung nhìn và sau đĩ mỗi dự đốn của bộ phân lớp trên mỗi mẫu chưa gán nhãn được thêm vào để mở rộng tập dữ liệu huấn luyện.
Trong cơng trình này[], các tác giả cố gắng mở rộng ý tưởng của co-training cho một quần thể lớn các bộ phân lớp và để kết hợp với chiến lược kết nối các bộ phân lớp trong kỹ thuật co-training. Đặc biệt, các tác giả giới thiệu một tiếp cận mới cho việc học dùng dữ liệu đã gán nhãn và dữ liệu chưa gán nhãn dùng một thuật tốn co- training được cải tiến. Các kết quả thử nghiệm so sánh kỹ thuật trên với hệ đa bộ phân lớp cĩ giám sát đơn thuần trong một bài tốn nhận dạng đối tượng dùng KNN (14) như là bộ phân lớp cơ bản. Nghiên cứu này cũng điều tra hiệu quả của việc dùng các kỹ thuật kết nối khác nhau và các kích cỡ khác nhau của các mẫu đã được gán nhãn.