Môđun Crawler

Một phần của tài liệu LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB potx (Trang 37 - 38)

Gồm hai mô đun: Crawler1, Crawler2 có chung nhiệm vụ là tải các trang web về dựa theo việc phân tích liên kết trong nội dung của các trang. Mô đun Crawler1 tải các trang từ một thư mục trên Internet, còn mô đun Crawler2 dựa vào máy tìm kiếm để tải các trang về.

a. Mô đun Crawler1 - Yêu cầu:

ƒ input: địa chỉ của một trang web có chứa địa chỉ của tập các trang web cần sinh từ khóa( ví dụ như 1 thư mục trong các máy tìm kiếm).

ƒ output: Tải về nội dung của các trang có địa chỉ trong trang thư mục đó, kể cả các thư mục con của nó.

- Quy trình thực thi:

ƒ Bước 1: Tải trang web của thư mục cần lấy về.

ƒ Bước 2: Phân tích nội dung trang này, lấy về các địa chỉ cần sinh từ khóa.

ƒ Bước 3: Tải các trang cần sinh từ khóa có địa chỉ vừa lấy được.

ƒ Bước 4: Đưa địa chỉ các thư mục khác liên quan rồi quay lại bước 2. Lặp cho đến khi không còn trang web, hoặc đạt đến số trang cần lấy.

29

- Yêu cầu:

ƒ input: địa chỉ trang web cần sinh từ khóa

ƒ output: Tải về nội dung của các trang có liên kết đến trang web này. - Quy trình thực thi:

ƒ Gửi yêu cầu đến các công cụ tìm kiếm là google, yahoo, altavista. Yêu cầu dạng : “link:A” (với A là địa chỉ trang web cần sinh từ khóa).

ƒ Tải các trang nội dung trả về từ các máy tìm kiếm.

ƒ Phân tích nội dung các trang này, tìm các địa chỉ và tải các trang về. Lặp lại để tìm được số lượng trang phù hợp.

Để tiết kiệm bộ nhớ không phải lưu nội dung các trang khi tải về, có thể kết hợp việc tải các trang và xử lý sinh từ khóa cùng lúc.

Một phần của tài liệu LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB potx (Trang 37 - 38)