Các thuật tốn học cĩ giám sát cĩ đặc điểm là chỉ cĩ thể học từ dữ liệu đã gán nhãn, việc tạo ra các dữ liệu gán nhãn thƣờng là cơng việc buồn tẻ, nhƣng lại tốn cơng sức. Trong thực tế, các dữ liệu chƣa gán nhãn thƣờng tồn tại với số lƣợng lớn. Nếu tận dụng đƣợc cả các nguồn dữ liệu chƣa đƣợc gán nhãn thì sẽ làm giảm đƣợc cơng sức tạo dữ liệu cũng nhƣ nâng cao chất lƣợng của các bộ phân lớp. Hiện tại đã cĩ rất nhiều nghiên cứu và đề xuất các giải thuật cĩ khả năng sử dụng dữ liệu cĩ nhãn, đồng thời tận dụng cả dữ liệu chƣa gán nhãn để làm phong phú thêm dữ liệu huấn luyện, nhằm làm tăng chất lƣợng phân lớp. Các giải thuật cĩ đặc điểm này đƣợc phân vào lớp giải thuật học bán giám sát. [1]
Trong thuật tốn học bán giám sát, mẫu khơng nhãn cĩ tác dụng hỗ trợ để cung cấp một số tri thức miền tồn diện hơn. Tuy nhiên, mẫu khơng nhãn cũng cĩ phạm vi tác dụng của nĩ. Mẫu khơng nhãn cũng cĩ thể làm sai lệch tri thức miền nếu việc lựa chọn chúng khơng đảm bảo tính đại diện cho miền ứng dụng.
Khi mẫu cĩ nhãn ít thì dù cĩ đƣợc lựa chọn cẩn thận, chúng vẫn cĩ hạn chế về tính đại diện cho miền ứng dụng, và vì vậy cần khai thác dữ liệu khơng cĩ nhãn. Việc lựa chọn dữ liệu khơng nhãn làm dữ liệu học cũng phải đƣợc thi hành theo định hƣớng về tính đại diện. Nếu việc lựa chọn khơng dựa theo mơ hình sinh dữ liệu, khơng thực hiện một cách ngẫu nhiên thì sẽ tạo nên sự lệch lạc về tri thức miền.
Theo Xiaojin Zhu [Zhu08], tồn tại rất nhiều các thuật tốn học bán giám sát thuộc vào khoảng 190 cơng trình nghiên cứu khoa học đƣợc cơng bố về học bán giám sát. Dƣới đây là một số thuật tốn điển hình trong số đĩ.[1]
2.3.1. Thuật tốn Co-training
Một trong những kỹ thuật học bán giám sát tiêu biểu là Co-training, trong đĩ hai (hoặc nhiều hơn) bộ học đƣợc huấn luyện trên một tập dữ liệu mẫu, nhƣng các bộ học đƣợc huấn luyện trên các tập thuộc tính độc lập nhau.
Theo [4], mơ hình Co-training cĩ thể đƣợc định nghĩa nhƣ sau. Ta cĩ khơng gian mẫu với và là hai “khung nhìn” trên mỗi mẫu. Nghĩa là, mỗi mẫu sẽ đƣợc cho bởi cặp ( ). Giả định rằng mỗi khung nhìn tự nĩ đủ đảm bảo cho việc phân lớp đúng đắn. Gọi là phân bố trên , và là các lớp khái niệm đƣợc định nghĩa trên và tƣơng ứng. Giả sử tất cả nhãn của tập mẫu cĩ xác suất khác khơng trên đều tuân theo hàm mục tiêu , và cũng đúng với hàm . Nĩi cách khác, nếu f là hàm mục tiêu nối trên tồn bộ mẫu, thì với mọi mẫu ( ) với nhãn quan sát đƣợc là l, thì ta cĩ ( ) ( ) ( ) . Điều này đồng nghĩa với sẽ gán xác suất 0 cho bất kỳ mẫu ( )nào cĩ ( ) ( ).
“Khung nhìn” – “view”: mỗi tập dữ liệu cĩ các tập con các thuộc tính tách rời nhau, mỗi tập con này được gọi là một “khung nhìn”.
Gọi là khơng gian nhãn.
Cĩ tập dữ liệu mẫu huấn luyện là , với
*〈( ) 〉 〈( ) 〉+ là tập mẫu cĩ nhãn và *( ) ( )+ là tập khơng nhãn. Thơng thƣờng thì .
Mục tiêu của Co-training là từ tập cĩ nhãn ban đầu, từng bƣớc học và gán nhãn cho các mẫu trong , cuối cùng thu đƣợc các hàm mục tiêu trên và trên . Chi tiết thuật tốn với phân lớp nhị phân nhƣ sau:
Khi làm việc với bộ phân lớp Co-training cần lƣu ý một số vấn đề sau. Thứ nhất, tập dữ liệu gán nhãn cĩ ảnh hƣởng lớn đến hiệu quả của thuật tốn Co-training. Nếu tập này quá ít thì sẽ khơng hỗ trợ Co-training. Trong trƣờng hợp quá nhiều, thì thực sự khơng thu đƣợc lợi ích từ Co-training. Thứ hai, cơ sở tăng hiệu quả Co-training là vấn đề thiết lập các tham số trong thuật tốn nhƣ kích cỡ tập dữ liệu cĩ nhãn, kích cỡ tập khơng nhãn, số mẫu đƣợc thêm vào tập L sau mỗi vịng lặp. Trong mọi trƣờng hợp, việc chọn bộ phân lớp thành phần cho từng khung nhìn là rất quan trọng. [1]
Trên đây là thiết lập tổng quát cho giải thiết của Co-training. Trong thực tế, tùy thuộc vào cách phân chia thuộc tính và cách chọn giải thuật phân lớp mà ta cĩ hai biến thể của Co-training: (1) Co-training dựa trên việc phân chia khung nhìn; (2) Co-training dựa trên sự cộng tác của các giải thuật phân lớp khác nhau.
a. Co-training dựa trên việc phân chia khung nhìn
Khi tập thuộc tính X cĩ thể đƣợc chia thành hai tập con X1, X2 độc lập cĩ điều kiện (conditional independent) với nhau khi biết trƣớc Y. X1đƣợc gọi là độc
Cho trước:
* tham số p, n
* tập L gồm lƣợng nhỏ các mẫu huấn luyện cĩ nhãn * tập U gồm lƣợng lớn các mẫu huấn luyện chƣa cĩ nhãn
Thuật tốn:
1. while U is not empty do
2. Dùng L để huấn luyện bộ phân lớp C1 theo đặc trƣng X1 3. Dùng L để huấn luyện bộ phân lớp C2 theo đặc trƣng X2 4. for each Ci do
5. Ci dự đốn nhãn cho tập U dựa trên Xi
6. Chọn (p,n) mẫu đƣợc dự đốn tin cậy nhất từ U cho vào E
7. E đƣợc loại khỏi U và bổ sung vào L
8. end for 9. end while
lập cĩ điều kiện với X2 biết trƣớc Y, nếu phân bố xác suất chi phối X1 độc lập với giá trị phân bố xác suất chi phối X2với Y cho trƣớc.
Cùng với cách phân chia tập thuộc tính nhƣ trên thì bộ phân lớp trên hai khung nhìn X1, X2 dựa trên cùng một giải thuật phân lớp f.
b. Co-training dựa trên sự cộng tác của các giải thuật phân lớp khác nhau Trong trƣờng hợp việc phân chia thuộc tính thành hai tập con khơng giao nhau và độc lập cĩ điều kiện với nhau làm cho mỗi tập con này khơng đại diện cho việc biểu diễn dữ liệu đầy đủ, dẫn đến chất lƣợng dữ liệu thấp. Hay khi số lƣợng thuộc tính là ít, khơng thể phân chia thành hai tập con đƣợc. Khi đĩ giải pháp đề xuất cho các trƣờng hợp này là sử dụng các giải thuật phân lớp khác nhau, thay vì một nhƣ trong trƣờng hợp 2.3.1.a. Các giải thuật phân lớp này cùng hỗ trợ huấn luyện nhau trên cùng một tập thuộc tính.
2.3.2. Thuật tốn bán giám sát cực đại EM đại phương
Thuật tốn học bán giám sát cực đại kỳ vọng (EM) địa phương thuộc loại thuật tốn trong mơ hình sinh. Mơ hình hoạt động dựa trên giả thiết Bayes P(x, y) = P(y) * P(x|y). Với số lƣợng nhiều dữ liệu chƣa nhãn cho P(x|y) mơ hình đồng nhất, tài liệu đƣợc phân thành các thành phần mà trong trƣờng hợp lý tƣởng (trong mơ hình “đồng nhất”) mọi đối tƣợng trong một thành phần cĩ cùng nhãn, vì vậy, chỉ cần biết nhãn của một đối tƣợng nào đĩ trong thành phần là kết luận đƣợc nhãn cho tồn bộ các đối tƣợng khác trong thành phần đĩ.
Tính đồng nhất đƣợc phát biểu nhƣ sau: “Cho họ phân bố {Pβ} là đồng nhất nếu thì . Từ tính chất này dẫn tới tính khả tách của phân bố tới các thành phần. Khi quan tâm tới tính xác thực của mơ hình, cĩ thể thấy trong trƣờng hợp giả thiết mơ hình trộn là chính xác thì việc bổ sung các dữ liệu khơng nhãn sẽ làm tăng độ chính xác phân lớp.[1]
Thuật tốn EM đƣợc mơ tả dạng giả mã nhƣ sau:
2.3.3. Thuật tốn Self-training
Là kỹ thuật phổ biến trong học bán giám sát và thƣờng đƣợc áp dụng cho các bài tốn xử lý ngơn ngữ tự nhiên.
Ký hiệu:
D: tập ví dụ đã cĩ (cĩ nhẵn/chƣa cĩ nhãn)
DK: tập ví dụ cĩ nhãn trong D (|DK| << |D|). DK gồm DTrain và DTest.
Thuật tốn:
1. Cố định tập khơng nhãn DUD \DKdùng trong E-bƣớc và M-bƣớc 2. dùng DK xây dựng mơ hình ban đầu 0
3. for i = 0, 1, 2, . . . cho đến khi kết quả đảm bảo do 4. for mỗi tài liệu d DUdo
5. E-bƣớc: dùng phân lớp Bayes thứ nhất xác định P(c|d,i) 6. end for
7. for mỗi lớp c và từ khĩa t do
8. M-bƣớc: xác định c,t dùng cơng thức (*) để xây dựng mơ hình i+1 9. end for