Thử nghiệm trên trang báo điện tử VNExpress với chuyên mục

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 100 - 101)

6. Cấu trúc của luận vă n

3.4.3.1. Thử nghiệm trên trang báo điện tử VNExpress với chuyên mục

Ba hệ thống hoạt động lấy về 2000 tài liệu: Hệ thống Breadth-First Crawler lấy về được 1084 tài liệu đúng chủđề. Trong khi đĩ, hệ thống Focused Crawler thu thập

được 1740 tài liệu đúng chủ đề. Một tín hiệu đáng mừng khi hệ thống ứng dụng học tăng cường tỏ ra vượt trội hai phương pháp cịn lại, đã lấy vềđược 1937 tài liệu đúng chủđề.

0 500 1000 1500 2000 2500 0 400 800 1000 1400 1600 1800 2000 2200 2521 Số tài liệu tải về S i li u đ úng c h đề

Breadth-first Focused Reinforcement

Hình 3.10: Kết quả thử nghiệm trên VNExpress với chuyên mục sức khỏe. Trang VNExpress chia tin tức thành từng chuyên mục. Sức khỏe là một chuyên

đề con (chuyên mục) trong chủ đề Đời sống thơng dụng và cĩ rất nhiều bài viết. Chuyên mục này được sắp xếp thành một vùng riêng và cĩ thể coi là một “mỏ” tài liệu. Focused crawler và học tăng cường đều cĩ khả năng khai thác tài liệu hiệu quả

một khi đã tìm đến được vùng mỏ này. Do vậy, trong thực nghiệm này hệ thống nào tìm được chuyên mục sức khỏe sớm hơn sẽ cĩ cơ hội lấy về được nhiều tài liệu đúng chủđề hơn.

Ở giai đoạn đầu Focused Crawler phải download hết các trang về rồi mới tiến hành phân tích với số lượng out-link trong một trang rất lớn. Trong khi đĩ, học tăng cường sử dụng khả năng phân tích anchor text và text của chính trang web chứa link

đĩ để nhanh trĩng tiếp cận trực tiếp chuyên mục sức khỏe. Mặc dù, chuyên mục sức khỏe khơng xuất hiện ngay trên trang chủ và cũng khơng xuất hiện ngay ởđầu chủđề đời sống, điều này đã khẳng định khả năng thích ứng của hệ thống học tăng cường.

Nếu như Breadth-First Crawler đánh đồng tất cả out-link xuất phát từđây. Điều này dẫn hệ thống tới những trang khơng thuộc chủđề do cĩ rất nhiều out-link là những trang quảng cáo hoặc trỏ tới các chuyên mục khác. Cịn với hệ thống học tăng cường khi đã tiếp cận được mỏ link với khả năng phân tích anchor và text của chính trang web chứa link đĩ, hệ thống học tăng cường đánh giá các out-link một cách độc lập từ đĩ tránh được những trang “nhiễu” nằm trong mỏ link.

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 100 - 101)

Tải bản đầy đủ (PDF)

(108 trang)