Danh sách các bảng

Một phần của tài liệu Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website (Trang 66 - 72)

6 Hiện thực

6.4.1 Danh sách các bảng

STT Tên Mô tả

1 wde_crawl Dữ liệu về Robot (Tên, Cấu hình, Trạng thái…)

2 wde_url Các link của các trang web mà Robot trích xuất dữ liệu

3 wde_log Quá trình hoạt động của Robot

4 wde_setting Cac cấu hình của chương trình

5 wde_data_[num] Dữ liệu mà Robot thu thập được với [num] tương ứng với ID của Robot, Cấu trúc của bảng phụ thuộc vào khai báo của người sử dụng.

6.4.2 Chi tiết các bảng

• Bảng Robot (wde_crawl)

STT Tên cột Ý nghĩa Kiểu Miền GT Ghi chú

1 id Mã Robot int(11) Khóa chính

2 pid Mã quá trình (process

id) của Robot

int(11)

3 name Tên Robot varchar(256)

5 settings Cấu hình Robot được phân tích từ xml

text

6 options Tùy chọn của Robot text

7 status Trạng thái Robot varchar(1) [R,S,P,E] R: Ready

S: Started P: Paused E: Error 8 start Thời gian robot được

kích hoạt gần nhất

int(11)

9 stop Thời gian robot được

hủy bỏ gần nhất

int(11) 10 pause Thời gian robot được

được tạm dừng gần nhất

int(11)

11 last Thời gian robot cập

nhật dữ liệu lấy được gần nhất

int(11)

12 created Thời gian robot được tạo

int(11) 13 modified Thời gian robot được

chỉnh sửa gần nhất

int(11)

• Bảng URL (wde_url)

STT Tên cột Ý nghĩa Kiễu dữ liệu Miền GT Ghi chú

1 id Mã URL int(11) Khóa chính

2 crawl_id Mã Robot int(11) Quan hệ với

bảng Robot

3 parent_id Mã URL cha int(11) Quan hệ với

bảng URL

4 pagination_id Mã URL phân trang int(11) Quan hệ với

bảng URL

5 hash MD5 Hash để kiểm tra

trùng

varchar(32)

6 url URL của trang text

8 options Tùy chọn text

9 status Trạng thái varchar(1) [W,D] W: Wating

D: Done 10 child_status Trạng thái của trang

con

varchar(1) [W,D] W: Wating

D: Done 11 created Thời gian URL được

tạo

int(11) 12 modified Thời gian URL được

thay đổi

int(11)

• Bảng Setting (wde_setting)

STT Tên cột Ý nghĩa Kiễu dữ liệu Miền GT Ghi chú

1 id Mã Setting int(11) Khóa chính

2 crawl_id Mã Robot int(11) Quan hệ với

bảng Robot

3 setting Tên cấu hình Varchar(256)

4 value Giá trị Varchar(256)

• Bảng Log (wde_log)

STT Tên cột Ý nghĩa Kiễu dữ liệu Miền GT Ghi chú

1 id Mã Log int(11) Khóa chính

2 crawl_id Mã Robot int(11) Quan hệ với

bảng Robot

3 message Thông tin Text

6.5 Front

6.5.1 Bot Manager

Hình 6-23. Sơ đồ tuần tự của tác vụ start Bot

Hình 6-25. Sơ đồ tuần tự của tác vụ pause Bot

6.6 Core

6.6.1 Robot

Class Robot đóng vai trò trung tâm điều khiển của Crawler và Extractor. Mọi hoạt động của hai đối tượng này đều được điều khiển, phối hợp với nhau bởi Robot.

Hình 6-28. Sơ đồ tuần tự thể hiện quá trình hoạt động tổng quát của Robot

Một phần của tài liệu Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website (Trang 66 - 72)

Tải bản đầy đủ (DOC)

(102 trang)
w