Giải pháp song song hóa

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 63 - 65)

c. Module tìm kiếm s.cgi

4.3.2.1 Giải pháp song song hóa

Giải pháp chúng tôi đưa ra ở đây là sử dụng cơ sở dữ liệu, các bảng trong MySQL và các file nhị phân, tập trung trên một bộ xử lý chính, và sử dụng cơ sở dữ liệu MySQL làm kênh giao tiếp trung gian chính giữa các bộ xử lý trong hệ thống. Ở đây hệ quản trị cơ sở dữ liệu sẽ đóng vai trò chính trong việc phân chia công việc cho các bộ xử lý. Quá trình tải và chọn các url để index tiếp theo trong cơ chế này như sau:

Trong quá trình duyệt file cấu hình, các địa chỉ url được đặt làm địa chỉ xuất phát của quá trình index sẽ chỉ được thêm vào các bảng trong cơ sở dữ liệu MySQL mà không được thêm vào trong hàng đợi của bất kỳ bộ xử lý nào. Tương tự như vậy, trong quá trình duyệt nội dung một trang Web, các địa chỉ url mà trang này liên kết tới cũng chỉ được thêm vào cơ sở dữ liệu mà không thêm vào trong hàng đợi của các bộ xử lý. Các bộ xử lý sẽ lấy ra các url để thêm vào hàng đợi bằng các truy vấn cơ sở dữ liệu. Như vậy quá các bảng trong cơ sở dữ liệu sẽ là nguồn cung cấp các địa chỉ url để index duy nhất cho các bộ xử lý.

URL outgoing url infomation Next URL Load configure Master_queue Database

Slave queue Slave queue

Binaryfile Binaryfile

Parse Binaryfile

Parse Parse

Khi đó quá trình crawler trên mỗi bộ xử lý được minh họa như hình 4 Sai Có Không Đúng Không

URL outgoing từ trang web được tải URL hạt nhân Lấy URL từ CSDL vào hàng đợi Kết thúc? Duyệt file cấu hình

Lấy URL tiếp theo để duyệt

Tải và duyệt trang Web

Lưu URL vào CSDL

End

Start

URLCSDL

Lưu thông tin vào CSDL, và file nhị phân

- Đầu tiên bộ xử lý chính sẽ tiến hành duyệt file cấu hình, lưu các url bắt đầu vào trong cơ sở dữ liệu MySQL nếu nó chưa có mặt trong đó. Tiếp theo các bộ xử lý sẽ thực hiện các vòng lặp crawler như sau:

- Tiến hành truy vấn cơ sở dữ liệu để lấy ra các url để thêm vào hàng đợi nếu số lượng url trong hàng đợi nhỏ hơn một số lượng xác định.

- Kiểm tra điều kiện kết thúc, nếu đúng dừng lại

- Lấy url tiếp theo từ hàng đợi để tải và duyệt, nếu không lấy thêm được các url mới, quá trình crawler cũng kết thúc.

- Duyệt nội dung các trang web ứng với các url, lưu thông tin của trang vào trong các bảng trong cơ sở dữ liệu cũng như các file nhị phân. Các url được trích ra từ trang web sẽ được lưu vào trong bảng urlword trong cơ sở dữ liệu (nếu chưa tồn tại).

- Lặp lại quá trình trên cho tới khi thỏa mãn điều kiện dừng.

Thi hành cụ thể

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 63 - 65)

Tải bản đầy đủ (PDF)

(68 trang)