Giới thiệu bài tốn thực nghiệm

Phân lớp văn bản hiện nay là một chủ đề giành được nhiều sự quan tâm. Đây cũng chính là một trong những động lực thúc đẩy sự phát triển các phương pháp học bán giám sát. Trong thực tế, tồn tại một số lượng lớn các trang web chưa được gán nhãn, ta cĩ thể dễ dàng thu được chỉ bằng một bộ web crawler.

Trong luận văn này chúng tơi tiến hành ứng dụng hai thuật tốn học bán giám sát self-training và co-training trong bài tốn phân lớp trang Web bởi các lý do sau:

• Việc ứng dụng trong phân lớp văn bản cĩ một đặc điểm hấp dẫn: Mỗi mẫu cĩ thểđược mơ tả sử dụng các “loại” thơng tin khác nhau (different “kinds” of information). Loại thơng tin đầu tiên là text xuất hiện trong chính trang web đĩ. Loại thơng tin thứ hai là anchor text gắn với các

hyperlink trỏ tới các trang web này từ các trang web khác.

• Chúng ta cĩ thể giả thiết rằng đối với mỗi một trang P thì các từ trên trang P và các từ trong hyperlinks trỏ tới trang P đĩ là độc lập điều kiện khi cho trước phân lớp của P. Đây là điểm bắt đầu hợp lý vì trang web thường được xây dựng bởi người dùng chứ khơng phải là người tạo ra các liên kết (links).

Với hai đặc điểm trên, ta cĩ thể tiến hành học theo thuật tốn co-training với hai khung nhìn là: view #1 (page-based)-các từ trên trang web; view #2 (hyperlink-based) -các từ xuất hiện trong các hyperlinks trỏ tới trang web đĩ

Một trang web cĩ thể được phân lớp dựa trên các từ xuất hiện trong trang web hoặc các từ xuất hiện trong các siêu liên kết trỏ tới trang web đĩ. Do đĩ, ta huấn luyện hai bộ phân lớp tương ứng trên hai khung nhìn đĩ. Thêm vào đĩ, ta xác định một bộ phân lớp liên kết để trộn kết quảđầu ra của hai bộ phân lớp này. Hình 9 dưới đây cho một ví dụ về hai khung nhìn của một trang web.

Anchor Text

Phân hoạch đồ thị quang phổ

Xây dựng các đặc trưng