Cấu trúc dữ liệu

Các tài liệu sau khi được lấy về sẽ được lưu vào cơ sở dữ liệu. Sau đây là cấu trúc các bảng dữ liệu được sử dụng của hệ thống.

Bảng URL

Bảng Crawl

No Field Name Field Type Field Size Description

1 Crawl_ID smallInt 16 Crawl ID của Crawl

2 Topic_ID Nvarchar 255 Topic ID của crawl

3 Url_master Nvarchar 255 Url chính của crawl

4 Url_level tinyInt 8 Độ sâu tối đa của

cho các url

5 Fetch_time Int 32 Thời gian viếng

thăm lại của crawl

6 Thread_number tinyInt 8 Số thread của crawl

dùng để download

7 Last_crawl Date Time 32 Thời gian cuối cùng

crawl hoạt động

8 Is_enable Bool 1 Crawl có được cho

phép hoạt động hay không

Bảng Document

No Field Name Field Type Field Size Description

1 Doc_ID Int 32 Document ID

2 URL_ID Nvarchar 255 URL ID của

document

3 Topic_ID Nvarchar 255 Topic ID của

document

No Field Name Field Type Field Size Description

1 Url_ID Nvarchar 255 Địa chỉ của url

2 Crawl_ID smallInt 16 Crawl id của url

3 Depth tinyInt 8 Độ sâu của Url

4 Status tinyInt 8 Trạng thái của URL

( chưa download, đã download, bị lỗi)

4 Status tinyInt 8 Trạng thái của document ( Đã crawl, đã index)

5 Title Nvarchar 255 Tiêu đề của

document

6 Doc_content Nvarchar Max Nội dung đã được

download về của document

7 Last_crawl Date time 32 Thời điểm được

crawl gần nhất của document

8 Last_Index Date time 32 Thời điểm được

đánh index gần nhất của document

Bảng Topic

No Field Name Field type Field Size Description

1 Topic_ID Nvarchar 255 ID của Topic

2 Description Nvarchar 255 Mô tả về topic

Các topic hệ thống có thể nhận diện:

1. Thể thao (Sport) 2. Văn hóa (Culture ) 3. Du lịch (Travel)

4. Công nghệ (Technology) 5. Ô tô (Automotive)

6. Sức khỏe (Health) 7. Kinh tế (Economy)

Hình 4.5:Crawl tiến hành thu thập thông tin

Hình 4.7: Giao diện index và xác định topic cho các document.

Hình 4.9 Giao diện search có sự kết hợp của topic

Đánh giá tổng quan về hệ thống