Giải pháp song song hĩa

c. Module tìm kiếm s.cgi

4.3.2.1 Giải pháp song song hĩa

Giải pháp chúng tơi đưa ra ở đây là sử dụng cơ sở dữ liệu, các bảng trong MySQL và các file nhị phân, tập trung trên một bộ xử lý chính, và sử dụng cơ sở dữ liệu MySQL làm kênh giao tiếp trung gian chính giữa các bộ xử lý trong hệ thống. Ở đây hệ quản trị cơ sở dữ liệu sẽ đĩng vai trị chính trong việc phân chia cơng việc cho các bộ xử lý. Quá trình tải và chọn các url để index tiếp theo trong cơ chế này như sau:

Trong quá trình duyệt file cấu hình, các địa chỉ url được đặt làm địa chỉ xuất phát của quá trình index sẽ chỉ được thêm vào các bảng trong cơ sở dữ liệu MySQL mà khơng được thêm vào trong hàng đợi của bất kỳ bộ xử lý nào. Tương tự như vậy, trong quá trình duyệt nội dung một trang Web, các địa chỉ url mà trang này liên kết tới cũng chỉ được thêm vào cơ sở dữ liệu mà khơng thêm vào trong hàng đợi của các bộ xử lý. Các bộ xử lý sẽ lấy ra các url để thêm vào hàng đợi bằng các truy vấn cơ sở dữ liệu. Như vậy quá các bảng trong cơ sở dữ liệu sẽ là nguồn cung cấp các địa chỉ url để index duy nhất cho các bộ xử lý.

URL outgoing url infomation Next URL Load configure Master_queue Database

Slave queue Slave queue

Binaryfile Binaryfile

Parse Binaryfile

Parse Parse

Khi đĩ quá trình crawler trên mỗi bộ xử lý được minh họa như hình 4 Sai Cĩ Khơng Đúng Khơng

URL outgoing từ trang web được tải URL hạt nhân Lấy URL từ CSDL vào hàng đợi Kết thúc? Duyệt file cấu hình

Lấy URL tiếp theo để duyệt

Tải và duyệt trang Web

Lưu URL vào CSDL

End

Start

URL∈CSDL

Lưu thơng tin vào CSDL, và file nhị phân

- Đầu tiên bộ xử lý chính sẽ tiến hành duyệt file cấu hình, lưu các url bắt đầu vào trong cơ sở dữ liệu MySQL nếu nĩ chưa cĩ mặt trong đĩ. Tiếp theo các bộ xử lý sẽ thực hiện các vịng lặp crawler như sau:

- Tiến hành truy vấn cơ sở dữ liệu để lấy ra các url để thêm vào hàng đợi nếu số lượng url trong hàng đợi nhỏ hơn một số lượng xác định.

- Kiểm tra điều kiện kết thúc, nếu đúng dừng lại

- Lấy url tiếp theo từ hàng đợi để tải và duyệt, nếu khơng lấy thêm được các url mới, quá trình crawler cũng kết thúc.

- Duyệt nội dung các trang web ứng với các url, lưu thơng tin của trang vào trong các bảng trong cơ sở dữ liệu cũng như các file nhị phân. Các url được trích ra từ trang web sẽ được lưu vào trong bảng urlword trong cơ sở dữ liệu (nếu chưa tồn tại).

- Lặp lại quá trình trên cho tới khi thỏa mãn điều kiện dừng.

Thi hành cụ thể

Các tiêu chuẩn đánh giá các crawler

quan trọng của trang web