Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ

Một phần của tài liệu LUẬN VĂN: TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN ppt (Trang 25 - 27)

Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ (Naive Best-First, [1]) sử dụng thuật toán tìm kiếm theo lựa chọn tốt nhất theo quy tắc tính điểm số cho các URL. Điểm số của một URL được tính bằng phương pháp độ tương đồng cosin (cosine similarity, [6]) của trang web tương ứng và truy vấn mà người dùng đưa ra. Độ tương đồng cosin là phương pháp tính giá trị tương đồng giữa 2 vectơ n chiều bằng cách tìm cosin góc giữa chúng, phương pháp độ tương đồng cosin thường được dùng

18

để so sánh một truy vấn với một trang văn bản. Độ tương đồng cosin của trang p và truy vấn q được tính bằng công thức:

Độ tương đồng (p,q) = cos(vp,vq) = vp*vq ||vp||*||vq||

Trong đó vp,vq là các vecto đại diện được tính dựa trên tần số phát sinh (term frequency, [6]). Tần số phát sinh có thể hiểu là số lần xuất hiện của các từ truy vấn q trong trang p.

vp*vq là tích vô hướng của 2 vectơ; ||v|| là giá trị độ dài Euclid của vectơ v. Nếu độ tương đồng (p,q) = -1 tức là khác nhau tuyệt đối

Nếu độ tương đồng (p,q)= 0 tức là độc lập với nhau Nếu độ tương đồng (p,q)= 1 tức là chính xác tuyệt đối

0 < độ tương đồng (p,q) < 1 tức là trang p có liên quan đến truy vấn q

-1< độ tương đồng (p,q) < 0 tức là trang p không có liên quan đến truy vấn q Quá trình thu thập dữ liệu dùng trong trình thu thập tuần tự được thực hiện như sau :

Bước 1: Sắp xếp các URL theo thứ tự giảm dần điểm số. Lấy ra URL đầu tiên trong danh sách.

- Nếu có qua bước 2. - Nếu không qua bước 5.

Bước 2: Lấy trang tương ứng với URL qua HTTP. - Nếu có qua bước 3.

- Nếu không quay lại bước 1.

Bước 3: Kiểm tra xem trang này đã được được thăm chưa? - Nếu chưa qua bước 4.

- Nếu rồi quay lại bước 1.

Bước 4: Đánh dấu trang này đã được thăm. Bóc tách trang và tìm các liên kết có trong trang này.

- Nếu có, thêm các liên kết vào cuối danh sách. Quay lại bước 3. - Nếu không, quay lại bước 1.

19

Bước 5: Kết thúc.

Ngoài ra chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ cũng có thể dùng cho trình thu thập đa luồng nhưng độ ưu tiên được tính theo N trong đó N là hàm của số lượng các luồng đang chạy đồng thời. Các bước trong quá trình thu thập dữ liệu cũng giống như trên chỉ khác là URL được sắp xếp theo giá trị N giảm dần.

Ngoài chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ còn có nhiều cách thu thập dữ liệu khác sử dụng thuật toán theo lựa chọn tốt nhất. Chúng khác nhau ở quy tắc tính điểm số cho URL. Có thể kể đến một số trình thu thập như tìm kiếm tham ăn (Shark Search), nhện thông tin (InfoSpiders) [1].

Một phần của tài liệu LUẬN VĂN: TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN ppt (Trang 25 - 27)