Bài tốn thực nghiệm phân lớp văn bản

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp đồng huấn luyện và ứng dụng (Trang 53 - 56)

CHƢƠNG 3 MỘT SỐ LƢỢC ĐỒ ỨNG DỤNG CO-TRAINING

3.2. Co-training trong bài tốn phân lớp văn bản

3.2.1. Bài tốn thực nghiệm phân lớp văn bản

Với tốc độ phát triển và bùng nổ thơng tin trên mạng tồn cầu như hiện nay, thì nhu cầu phân loại tài nguyên trên mạng theo chủ đề để tiện phục vụ cho từng đối tượng người đọc là vơ cùng quan trọng và cấp thiết. Việc thu nhận các trang web này thì dễ, cĩ thể thu được hàng nghìn trang nhờ một bộ thu web (web crawler) tự động trong khoảng vài giờ đồng hồ. Song việc gán nhãn chúng mới là tốn kém cơng sức và tiền của.

Với mục đích khai thác thơng tin hữu ích từ dữ liệu chưa gán nhãn, Co-training được ứng dụng vào giải quyết bài tốn phân lớp trang web bởi các lý do sau:

 Việc ứng dụng trong phân lớp văn bản cĩ một đặc điểm hấp dẫn: Mỗi mẫu cĩ thể được mơ tả sử dụng các “loại” thơng tin khác nhau (different “kinds” of information). Loại thơng tin đầu tiên là text xuất hiện trong chính trang web đĩ. Loại thơng tin thứ hai là anchor text gắn với các hyperlink trỏ tới các trang web này từ các trang web khác.

 Chúng ta cĩ thể giả thiết rằng đối với mỗi một trang P thì các từ trên trang P và các từ trong hyperlinks trỏ tới trang P đĩ là độc lập điều kiện khi cho trước phân lớp của P. Đây là điểm bắt đầu hợp lý vì trang web thường được xây dựng bởi người dùng chứ khơng phải là người tạo ra các liên kết (links).

Với hai đặc điểm trên, ta cĩ thể tiến hành học theo phương pháp học bán giám sát co-training với hai khung nhìn là: #1 (page-based)-các từ trên trang web; #2 (hyperlink-based) -các từ xuất hiện trong các hyperlinks trỏ tới trang web đĩ.

Hình 21: Hai khung nhìn của một trang web

* Các lớp văn bản

Hệ thống phân lớp nội dung Web được xây dựng dựa trên cây phân lớp tin tức của Báo điện tử VnExpress (http://vnexpress.net) của cơng ty truyền thơng FPT.

Các phân lớp sau được lựa chọn từ cây phân lớp của VnExpress: Cơng nghệ, Phương tiện, Đời sống, Thể thao, Pháp luật, Văn hố. Các phân lớp này được lựa chọn vì chúng cĩ đặc trưng là tính chuyên biệt cao. Dưới đây là bảng mơ tả nội dung liên quan đến từng lớp.

STT Tên phân lớp Vnexpress Mơ tả các nội dung liên quan

1 Cơng nghệ Vi tính Cơng nghệ thơng tin và truyền thơng

2 Pháp luật Pháp luật Các vụ án, vụ việc, các văn bản mới, ...

3 Phương tiện Ơtơ – Xe máy Chủ yếu là giới thiệu các loại ơtơ, xe máy mới

4 Đời sống Đời sống Sức khoẻ, giới tính, chăm sĩc sắc đẹp, ...

5 Thể thao Thể thao Bĩng đá, tennis, ...; các cầu thủ, trận đấu, ...

6 Văn hố Văn hố Âm nhạc, thời trang, điện ảnh, mỹ thuật, ...

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp đồng huấn luyện và ứng dụng (Trang 53 - 56)

Tải bản đầy đủ (PDF)

(111 trang)