Thuật tốn self-training và co-training với các kỹ thuật làm trơn

Một phần của tài liệu THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN (Trang 37 - 39)

Sau đây, chúng tơi đề xuất một mơ hình cải tiến thuật tốn self-training và co- training bằng hai kỹ thuật làm trơn được trình bày ở trên.

Vì hai bộ phân lớp dựa trên hai views của dữ liệu cĩ thể dự đốn nhãn khác nhau cho cùng một mẫu dữ liệu, nên ta sẽ sử dụng một trong số các chiến lược liên kết các bộ phân lớp. Việc kết hợp này hy vọng sẽ thu được kết quả tốt hơn từng bộ phân lớp. Ởđây ta cĩ thể sử dụng các chiến lược nhưmax, min, median ... nhưđã trình bày trong [12].

Thuật tốn co-training được mơ tả bằng sơđồ trong hình 8.

Sự khác biệt khi thi hành thuật tốn self-training và co-training chỉ là ở chỗ co- training sử dụng hai khung nhìn dữ liệu trong khi đĩ self-training sử dụng một khung nhìn dữ liệu. Thuật tốn self-training cĩ thể thu được từ sơ đồ thuật tốn co-training trên đây bằng cách thay thế bước 2,3,4,5 bởi hai bước sau:

• Sử dụng L trên khung nhìn V và thuật tốn Hđể huấn luyện bộ phân lớp h1. • Sử dụng h1 gán nhãn các mẫu trong U’ và lựa chọn các mẫu cĩ độ tin cậy

vượt trên ngưỡng θ.

if i,m

m argmax d (w)

j=

Đầu vào:

L: Tập các mẫu huấn luyện đã gán nhãn;

U: Tập các mẫu chưa gán nhãn;

H: Thuật tốn học giám sát cơ bản;

θ: Ngưỡng tin cậy để lựa chọn một mẫu mới;

C: Một chiến lược liên kết các bộ phân lớp;

Thuật tốn:

Lặp k vịng lặp: Begin

1. Tạo tập U' bằng cách lấy ngẫu nhiên u mẫu từUđể U' =u

2. Sử dụng L trên view1 và thuật tốn Hđể huấn luyện bộ phân lớp h1

3. Sử dụng L trên view2 và thuật tốn Hđể huấn luyện bộ phân lớp h2

4. Dùng h1 gán nhãn các mẫu trong U' và chọn các mẫu được gán nhãn mới cĩ độ tin cậy lớn hơn ngưỡng θ

5. Dùng h2 gán nhãn các mẫu trong U' và chọn các mẫu được gán nhãn mới cĩ độ tin cậy lớn hơn ngưỡng θ

Gọi tập các mẫu gán nhãn mới vừa thu được là SL

6. Gọi thủ tục SAE với đầu vàoSL, đầu ra của thủ tục này SNLgồm tập các mẫu gán nhãn được chọn mới.

7. Thêm các mẫu tự gán nhãn SNLnày vào tập L

8. Loại bỏ khỏi U’ tập các mẫu chưa gán nhãn tương ứng với các mẫu trong

NL

S

Hình 8: Thuật tốn co-training mới với thủ tục duy trì phân phối lớp và liên kết các bộ phân lớp.

Chương 3 THC NGHIM TRONG BÀI TỐN PHÂN LP VĂN BN

Một phần của tài liệu THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN (Trang 37 - 39)

Tải bản đầy đủ (PDF)

(54 trang)