Hệ thống đa bộ phân lớp bán giám sát

Hệ thống đa bộ phân lớp (Multiple classifier system (MCS)) và học quần thể (essemble learning) đã trở nên phổ biến trong trong những năm gần đây trong việc giải quyết các bài toán khác nhau trong nhận dạng mẫu và học máy. Đa bộ phân lớp (MC) được đặc tả bởi đặc tính kỹ thuật của chúng, dựa trên kiểu bộ phân lớp và luật kết hợp.

Cho đến nay, hầu hết các nghiên cứu trên MCS đều hướng trực tiếp tới nhiệm vụ phân lớp có giám sát đơn thuần. Học có giám sát đòi hỏi phải có một tập dữ liệu đã gán nhãn. Trong nhiều ứng dụng nhận dạng mẫu, các dữ liệu đã gán nhãn thường tốn

nhiều thời gian và chi phí để có được và cần người chú thích, những người phải có đủ kỹ năng yêu cầu.

Học bán giám sát giải quyết vấn đề này với thiết kế của bộ phân lớp dùng cả dữ liệu đã gán nhãn (thường là ít) với dữ liệu chưa gán nhãn dùng huấn luyện. Học bán giám sát hướng mục tiêu vào các tình huống phổ biến khi mà dữ liệu đã gán nhãn là rất ít nhưng dữ liệu chưa gán nhãn lại rất nhiều. Kỳ vọng của học bán giám sát là có khả năng dùng các dữ liệu chưa gán nhãn cùng với các dữ liệu đã gán nhãn để tăng chất lượng của bộ phân lớp

Bài toán học bán giám sát đã thu hút một lượng quan tâm lớn trong thời gian gần đây. Có rất nhiều các kỹ thuật học bán giám sát như: phương pháp self-training, phương pháp cực đại kỳ vọng, học SVM truyền dẫn, co-training và active learning [22]. Trong một báo cáo của Seeger [32] tóm lược một vài phương pháp tiếp cận cho học bán giám sát.

Mặc dù đều có liên quan đến nhiệm vụ phân lớp bán giám sát, tất cả các kỹ thuật trên đều chỉ tập trung vào một bộ phân lớp đơn lẻ, hoặc cùng lắm là hai bộ phân lớp (co-training). Gần đây, một số công trình về MCS đã được công bố, trong nghiên cứu của mình, Roli cũng cố gắng đưa ra một định nghĩa có tính hệ thống về hệ thống đa bộ phân lớp bán giám sát và gợi ý một vài hướng nghiên cứu tương lai trong lĩnh vực này. Trong 2 bài báo trước đã công bố [34, 35], nhóm tác giả đã đưa ra một cách tiếp cận trực tiếp quyết định cho việc huấn luyện quần thể bộ phân lớp. Kỹ thuật này làm việc trên các khung nhìn khác nhau của dữ liệu vào và dùng các kết quả ra đã được kết nối của các bộ phân lớp để gán nhãn cho các mẫu chưa biết. Quần thể bộ phân lớp sau đó được huấn luyện lại bằng các nhãn giả mới. Kỹ thuật này không dùng một phương pháp đo để loại bỏ các mẫu được gán nhãn một cách không chắc chắn từ các bộ phân lớp đã được huấn luyện lại. Các thử nghiệm được tiến hành với một phần nhỏ dữ liệu chưa gán nhãn và cho kết quả tốt hơn cách tiếp cận có giám sát đơn thuần trong đa số các trường hợp

Trong bài báo này, các tác giả cố gắng mở rộng mô hình trong (9) thông qua việc áp dụng lại một số kỹ thuật bán giám sát cho các bộ phân lớp đơn.

Đặc biệt, các tác giả hướng trọng tâm chú ý vào phương pháp co-training do mối liên hệ mật thiết của nó với MCS. Hướng tiếp cận co-training được Blum và Mitchell đưa ra năm 1998[11]. Co-training lúc đầu chỉ được sử dụng với 2 bộ phân lớp

và không chứa bất kỳ một sự kết hợp nào giữa các máy. Do đó, còn rất nhiều vấn đề cần giải quyết về việc sử dụng co-training để tạo ra các quần thể bộ phân lớp tốt.

Thuật toán co-training giả thiết rằng một mô tả về một mẫu có thể được chia thành 2 khung nhìn độc lập. Cả 2 khung nhìn của mẫu đều có thể đủ cho việc học, và cần có đủ các mẫu đã được gán nhãn. Mục đích của co-training là dùng cả 2 khung nhìn cùng nhau để cho phép dữ liệu chưa gán nhãn không tốn kém để làm tăng lên số lượng rất nhỏ các tập dữ liệu chưa gán nhãn.

Các ứng dụng phù hợp với hướng tiếp cận này là khi cả dữ liệu đã gán nhãn và dữ liệu đều sẵn có và 2 hoặc 3 kiểu thông tin khác nhau của đối tượng được chỉ ra. Ví dụ cho ứng dụng này là việc phân lớp trang web và việc phân lớp đa phương thức đa cảm biến (multi-sensor multi-modal) (như nhận dạng sinh trắc đa hình thái (multi- modal biometric recognition)). Các bộ phân lớp được huấn luyện độc lập trên mỗi khung nhìn và sau đó mỗi dự đoán của bộ phân lớp trên mỗi mẫu chưa gán nhãn được thêm vào để mở rộng tập dữ liệu huấn luyện.

Trong công trình này[], các tác giả cố gắng mở rộng ý tưởng của co-training cho một quần thể lớn các bộ phân lớp và để kết hợp với chiến lược kết nối các bộ phân lớp trong kỹ thuật co-training. Đặc biệt, các tác giả giới thiệu một tiếp cận mới cho việc học dùng dữ liệu đã gán nhãn và dữ liệu chưa gán nhãn dùng một thuật toán co- training được cải tiến. Các kết quả thử nghiệm so sánh kỹ thuật trên với hệ đa bộ phân lớp có giám sát đơn thuần trong một bài toán nhận dạng đối tượng dùng KNN (14) như là bộ phân lớp cơ bản. Nghiên cứu này cũng điều tra hiệu quả của việc dùng các kỹ thuật kết nối khác nhau và các kích cỡ khác nhau của các mẫu đã được gán nhãn.

Hệ thống đa bộ phân lớp bán giám sát

Phạm vi sử dụng học bán giám sát

Sơ đồ thiết lập đồng huấn luyện