Các tài liệu sau khi được lấy về sẽ được lưu vào cơ sở dữ liệu. Sau đây là cấu trúc các bảng dữ liệu được sử dụng của hệ thống.
Bảng URL
Bảng Crawl
No Field Name Field Type Field Size Description
1 Crawl_ID smallInt 16 Crawl ID của Crawl
2 Topic_ID Nvarchar 255 Topic ID của crawl
3 Url_master Nvarchar 255 Url chính của crawl
4 Url_level tinyInt 8 Độ sâu tối đa của
cho các url
5 Fetch_time Int 32 Thời gian viếng
thăm lại của crawl
6 Thread_number tinyInt 8 Số thread của crawl
dùng để download
7 Last_crawl Date Time 32 Thời gian cuối cùng
crawl hoạt động
8 Is_enable Bool 1 Crawl có được cho
phép hoạt động hay không
Bảng Document
No Field Name Field Type Field Size Description
1 Doc_ID Int 32 Document ID
2 URL_ID Nvarchar 255 URL ID của
document
3 Topic_ID Nvarchar 255 Topic ID của
document
No Field Name Field Type Field Size Description
1 Url_ID Nvarchar 255 Địa chỉ của url
2 Crawl_ID smallInt 16 Crawl id của url
3 Depth tinyInt 8 Độ sâu của Url
4 Status tinyInt 8 Trạng thái của URL
( chưa download, đã download, bị lỗi)
4 Status tinyInt 8 Trạng thái của document ( Đã crawl, đã index)
5 Title Nvarchar 255 Tiêu đề của
document
6 Doc_content Nvarchar Max Nội dung đã được
download về của document
7 Last_crawl Date time 32 Thời điểm được
crawl gần nhất của document
8 Last_Index Date time 32 Thời điểm được
đánh index gần nhất của document
Bảng Topic
No Field Name Field type Field Size Description
1 Topic_ID Nvarchar 255 ID của Topic
2 Description Nvarchar 255 Mô tả về topic
Các topic hệ thống có thể nhận diện:
1. Thể thao (Sport) 2. Văn hóa (Culture ) 3. Du lịch (Travel)
4. Công nghệ (Technology) 5. Ô tô (Automotive)
6. Sức khỏe (Health) 7. Kinh tế (Economy)
Hình 4.5:Crawl tiến hành thu thập thông tin
Hình 4.7: Giao diện index và xác định topic cho các document.
Hình 4.9 Giao diện search có sự kết hợp của topic