Thuật tốn Co-Class

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định bà viết chứa ý định người dùng trên diễn đàn (Trang 40 - 43)

d. Các ưu thế của SVM trong phân lớp văn bản

2.4.3. Thuật tốn Co-Class

Thuật tốn Co-Class là thuật tốn kết hợp giữa cả dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn khi chạy qua bộ phân lớp h (DP). Co-Class sử dụng ý tưởng của FS-EM, nhưng được kết hợp với Co-Training (Blum & Mitchell, 1998).

Input: Tập dữ liệu được gán nhãn DL và chưa gán nhãn DU

1. Chọn tập đặc trưng  của tập dữ liệu được gán nhãn DL

2. Dựng bộ phân lớp h từ DL dựa trên đặc trưng 

3. Lặp:

4. for: Với mỗi văn bản d trong tập dữ liệu DU

5. c = h(di) // gán nhãn cho d sử dụng bộ phân lớp h 6. end.

7. Đặt DP là tập dữ liệu đã được gán nhãn của DU

8. Chọn tập đặc trưng mới  dựa trên DP

9. Dựng bộ phân lớp h từ DP và dựa trên tập đặc trưng mới 

10. Dừng vịng lặp khi nhãn tập dữ liệu DPkhơng thay đởi 11. Trả về bộ phân lớp h của lần lặp cuối cùng

Co-Class giúp giải quyết được điểm yếu của thuật tốn FS-EM là tận dụng được bộ phân lớp được xây dựng từ dữ liệu đã được gán nhãn và điểm mạnh của Co- Training là sử dụng một lúc 2 bộ phân lớp từ với 2 bộ dữ liệu khác nhau.

Nhưng thay vì việc xây dựng bộ phân lớp dựa trên đặc trưng của thuật tốn Co-Training được thực hiện trên 2 tập dữ liệu khác nhau, để tạo ra 2 bộ phân lớp khác nhau. Thì Co-Class sẽ chỉ sử dụng một bộ đặc trưng duy nhất để xây dựng ra 2 bộ phân lớp.

Chi tiết của thuật tốn Co-Class được trình bày như sau:

Thuật tốn Co-Class sẽ gần tương tự với thuật tốn FS-EM. Tuy nhiên ở bước 8 việc chọn dữ liệu đặc trưng được lấy từ tập dữ liệu DP và sinh ra 2 bộ phân

Input: Tập dữ liệu được gán nhãn DL và chưa gán nhãn DU

1. Chọn tập đặc trưng  của tập dữ liệu được gán nhãn DL

2. Dựng bộ phân lớp h từ DL dựa trên đặc trưng 

3. for: Với mỗi văn bản d trong tập dữ liệu DU

4. c = h(di) // gán nhãn cho d sử dụng bộ phân lớp h 5. end.

6. Đặt DP là tập dữ liệu đã được gán nhãn của DU

7. Lặp:

8. Chọn bộ đặc trưng  mới từ tập dữ liệu DP

9. Dựng bộ phân lớp hL sử dụng đặc trưng  và tập dữ liệu DL

10. Dựng bộ phân lớp hP sử dụng đặc trưng  và tập dữ liệu DP

11. for: Với mỗi văn bản d trong tập dữ liệu DU

12. c = (hL(di), hP(di)); // kết hợp 2 bộ phân lớp hL, hP

13. end.

14. Đặt DP là tập dữ liệu đã được gán nhãn của DU 15. Dừng vịng lặp khi nhãn tập dữ liệu DPkhơng thay đởi 16. Trả về bộ phân lớp h của lần lặp cuối cùng

lớp hL, hPdựa trên đặc trưng  ứng với 2 bộ dữ liệu đã cĩ nhãn DL và bộ dữ liệu chưa được gán nhãn sau khi chạy được qua bộ phân lớp h là DP. Ở bước 11-13, kết quả phân lớp bộ dữ liệu chưa gán nhãn được thay thế bằng kết quả kết hợp giữa 2 bộ phân lớp. Việc kết hợp sẽ theo quy tắc như sau:

 (hL (di), hP (di)) = {+ ℎ𝐿(𝑑𝑖) = ℎ𝑃(𝑑𝑖) = + − 𝑇𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ị𝑛 𝑙ạ𝑖

Co-Class khác với thuật tốn EM (Nigam et al., 2000) ở 2 khía cạnh. Đầu tiên là Co-Class luơn thay đởi việc chọn đặc trưng sau mỗi quá trình lặp. Thứ 2 là thay vì EM chỉ cĩ 1 bộ phân lớp duy nhất xây dựng trên dữ liệu chưa gán nhãn thì Co-Class cĩ 2 bộ phân lớp sinh ra dựa trên 2 tập dữ liệu đã được gán nhãn và tập dữ liệu chưa gán nhãn, việc kết hợp giữa 2 bộ phân lớp cĩ thể tận dụng được những thơng tin phân lớp chính xác của bộ dữ liệu gán nhãn ban đầu nhưng được tối ưu đúng với dữ liệu chưa được gán nhãn.

2.5. Kết chương

Chương 2 đã trình bày về quá trình tìm hiểu và áp dụng thuật tốn TF-IDF, N-Grams để trích xuất đặc trưng và thuật tốn Nạve Bayes, SVM để phân lớp dữ liệu.

Để phân tích quan điểm người dùng, luận văn đã đề xuất và áp dụng 2 thuật tốn FS-EM, và Co-Class để cải thiện kết quả khi xây dựng thực nghiệm.

Chương 3 sẽ tiến hành thử nghiệm ứng dụng đã xây dựng trên các kịch bản khác nhau, sau đĩ sẽ đánh giá độ chính xác của ứng dụng dựa trên các kết quả thu được.

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

Sau khi trình bày chi tiết các thuật tốn được áp dụng cho bài tốn xác định ý định ở chương 2, trong chương này luận văn sẽ xây dựng thực nghiệm ứng với các kịch bản thực nghiệm khác nhau, sau đĩ tiến hành đánh giá độ chính xác dựa trên kết quả thu được và đưa ra kết luận

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định bà viết chứa ý định người dùng trên diễn đàn (Trang 40 - 43)

Tải bản đầy đủ (PDF)

(59 trang)