Quá trình hoạt động của crawler

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 51 - 53)

6. Cấu trúc của luận vă n

2.1.7.5. Quá trình hoạt động của crawler

Quá trình crawl (Hình 2.12) sẽ bắt đầu với một số trang hạt giống. Với mỗi link thu được trong quá trình crawl sẽđược bộ phân loại phân vào các lớp tương ứng, đây chính là quá trình dựđốn độ xa tới tài liệu. Các link này được cho vào hàng đợi tương

ứng với độ xa. Hàng đợi cĩ điểm ưu tiên cao hơn sẽ được ưu tiên crawl trước. Đầu tiên, lấy tất cả các out-link của các trang web và ước tính khoảng cách của chúng. Các trang web cĩ khoảng cách ngắn hơn sẽ cĩ điểm số cao hơn.

Điểm của một text mới t trong giai đoạn crawling được tính theo (2.11):

scorcet = γd (2.11)

ởđây: - d là số thứ tự của lớp cĩ chứa text mới t;

- γ là hệ số suy giảm (tỷ lệ chiết khấu) và (0≤γ <1) như đã trình bày trong phần lý thuyết học tăng cường.

Đểước lượng khoảng cách của các out-link chúng tơi dựa vào kết quả phân lớp text của các anchor và kết quả phân lớp text của các trang web. Điểm của các out-link cho một trang web được tính theo (2.12):

2 anchor page from link out score score score + = − − (2.12)

- scoreanchor là điểm của text trong anchor và cũng được tính theo (2.11).

Hình 2.12: Quá trình hoạt động của bộ crawl.

Khơng giống như các Focused crawler [4],[9],[19],[24], crawler của chúng tơi khơng chỉ ưu tiên các liên kết đến từ trang web cĩ điểm số cao mà cịn tính tốn điểm

cho mỗi out-link, bởi vì các trang web cĩ điểm cao cĩ thể chứa các liên kết dẫn đến trang web cĩ điểm thấp. Ở đây chúng tơi dùng một bộ phân loại được huấn luyện để

vừa phân loại text của các trang web, vừa phân loại text của các anchor vì anchor text

được xem là tĩm tắt của các trang web mục tiêu. Cịn nếu chỉ xem xét đến kết quả

phân loại text của các anchor, thì tính chính xác khơng được bảo đảm vì độ dài của các anchor text rất ngắn.

Nhưđã biết, để cĩ thể giúp cho bộ Crawler xác định đúng chủ đề và cĩ thể xác

định được khoảng cách từ trang web hiện thời tới trang web khác cĩ tài liệu cần quan tâm dựa trên nội dung của trang web đĩ thì cần phải phân loại văn bản.

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 51 - 53)

Tải bản đầy đủ (PDF)

(108 trang)