6 Hiện thực
6.4.1 Danh sách các bảng
STT Tên Mô tả
1 wde_crawl Dữ liệu về Robot (Tên, Cấu hình, Trạng thái…)
2 wde_url Các link của các trang web mà Robot trích xuất dữ liệu
3 wde_log Quá trình hoạt động của Robot
4 wde_setting Cac cấu hình của chương trình
5 wde_data_[num] Dữ liệu mà Robot thu thập được với [num] tương ứng với ID của Robot, Cấu trúc của bảng phụ thuộc vào khai báo của người sử dụng.
6.4.2 Chi tiết các bảng
• Bảng Robot (wde_crawl)
STT Tên cột Ý nghĩa Kiểu Miền GT Ghi chú
1 id Mã Robot int(11) Khóa chính
2 pid Mã quá trình (process
id) của Robot
int(11)
3 name Tên Robot varchar(256)
5 settings Cấu hình Robot được phân tích từ xml
text
6 options Tùy chọn của Robot text
7 status Trạng thái Robot varchar(1) [R,S,P,E] R: Ready
S: Started P: Paused E: Error 8 start Thời gian robot được
kích hoạt gần nhất
int(11)
9 stop Thời gian robot được
hủy bỏ gần nhất
int(11) 10 pause Thời gian robot được
được tạm dừng gần nhất
int(11)
11 last Thời gian robot cập
nhật dữ liệu lấy được gần nhất
int(11)
12 created Thời gian robot được tạo
int(11) 13 modified Thời gian robot được
chỉnh sửa gần nhất
int(11)
• Bảng URL (wde_url)
STT Tên cột Ý nghĩa Kiễu dữ liệu Miền GT Ghi chú
1 id Mã URL int(11) Khóa chính
2 crawl_id Mã Robot int(11) Quan hệ với
bảng Robot
3 parent_id Mã URL cha int(11) Quan hệ với
bảng URL
4 pagination_id Mã URL phân trang int(11) Quan hệ với
bảng URL
5 hash MD5 Hash để kiểm tra
trùng
varchar(32)
6 url URL của trang text
8 options Tùy chọn text
9 status Trạng thái varchar(1) [W,D] W: Wating
D: Done 10 child_status Trạng thái của trang
con
varchar(1) [W,D] W: Wating
D: Done 11 created Thời gian URL được
tạo
int(11) 12 modified Thời gian URL được
thay đổi
int(11)
• Bảng Setting (wde_setting)
STT Tên cột Ý nghĩa Kiễu dữ liệu Miền GT Ghi chú
1 id Mã Setting int(11) Khóa chính
2 crawl_id Mã Robot int(11) Quan hệ với
bảng Robot
3 setting Tên cấu hình Varchar(256)
4 value Giá trị Varchar(256)
• Bảng Log (wde_log)
STT Tên cột Ý nghĩa Kiễu dữ liệu Miền GT Ghi chú
1 id Mã Log int(11) Khóa chính
2 crawl_id Mã Robot int(11) Quan hệ với
bảng Robot
3 message Thông tin Text
6.5 Front
6.5.1 Bot Manager
Hình 6-23. Sơ đồ tuần tự của tác vụ start Bot
Hình 6-25. Sơ đồ tuần tự của tác vụ pause Bot
6.6 Core
6.6.1 Robot
Class Robot đóng vai trò trung tâm điều khiển của Crawler và Extractor. Mọi hoạt động của hai đối tượng này đều được điều khiển, phối hợp với nhau bởi Robot.
Hình 6-28. Sơ đồ tuần tự thể hiện quá trình hoạt động tổng quát của Robot