c. Module tìm kiếm s.cgi
4.2.1 Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek
Bảng urlword: bảng này chứa thơng tin tổng quan về tất cả các URL đã hoặc chưa được đánh chỉ số bởi máy tìm kiếm ASPseek, thỏa mãn một điều kiện đặc biệt nào đĩ do người dùng chỉ định. Các thơng tin chi tiết hơn sẽ được lưu trữ trong các bảng urlwordsNN.
Tên trường Miêu tả
url_id Số định danh của URL site_id Số định danh của site
deleted =1 nếu máy chủ trả về lỗi 404 hay do file “robots.txt” khơng cho phép được đánh chỉ số trang Web này
url Nội dung của chính URL
next_index_time Thời điểm tiếp theo cần index, tính theo giây
status Trạng thái HTTP trả về bởi máy chủ hoặc 0 nếu trang này chưa được đánh chỉ số
crc chuỗi đại diện MD5 của tài liệu
last_modified Thời gian thay đổi nội dung gần đây nhất, được trả về từ server. etag tiêu đề “Etag” được trả về bởi máy chủ
last_index_time thời điểm tiến hành đánh chỉ số cuối cùng
referre Số định danh của URL tham chiếu đầu tiên đến trang Web này hops độ sâu của URL trong cây siêu liên kết
redir =URLID mới nếu trang Web này bị chuyển hướng nếu khơng sẽ bằng 0
origin =URLID của trang Web ban đầu nếu trang Web này là một bản sao, nếu khơng cĩ giá trị bằng 0.
Bảng UrlwordNN (NN là các số từ 00 – 15): Các bảng này chứa các thơng tin chi tiết về nội dung các Url đã được đánh chỉ số trong cơ sở dữ liệu. Việc một url được ghi vào bảng nào trong 16 bảng này phụ thuộc vào giá trị url_id mod 16.
Tên trường Miêu tả
url_id Số định danh của URL
deleted Được đặt bằng 1 nếu máy chủ trả về lỗi, hoặc do file “robots.txt” khơng cho phép đánh chỉ số trang Web này.
wordcount Số lượng các từ khác nhau trong nội dung đã được index của trang totalcount Tổng tất cả các từ trong nội dung đã được đánh chỉ số của trang content-type Tiêu đề “Content-Type” được trả về bởi máy chủ
charset Bộ chữ cái được sử dụng trong nội dung tài liệu, thơng tin này được lấy từ thẻ META
title 128 ký tự đầu tiên trong tiêu đề của trang Web
txt 255 ký tự đầu tiên, khơng tính các thẻ HTML, trong nội dung của trang Web.
docsize Kích thước của trang Web.
keywords 255 ký tự đầu tiên từ các từ khĩa của trang Web. description 100 ký tự đầu tiên trong phần mơ tả trang Web words Nội dung đã được nén của các URL
hrefs Danh sách đã sắp xếp các URL liên kết ra (outgoing) từ trang này
Bảng wordurl: chứa thơng tin về mỗi từ khĩa (khơng phải từ dừng) xuất hiện trong các trang Web được tải.
word bản thân các từ khĩa, khơng phải từ dừng word_id Số định danh của từ( khĩa chính)
urls Thơng tin về các site và các url mà từ khĩa này xuất hiện.Trường này sẽ rỗng nếu như kích thước của nĩ lớn hơn 1000 byte, trong trường hợp này thơng tin sẽ được lưu trữ trong các file nhị phân. urlcount Số lượng các url cĩ chứa từ khĩa này
totalcount Tổng số lần xuất hiện của từ khĩa này trong tất cả các tài liệu. Bảng wordurl1: chứa thơng tin các từ khĩa trong cơ sở dữ liệu thời gian thực
Tên trường Miêu tả
word Nội dung các từ khĩa (khơng phải từ dừng) word_id Số định danh của từ ( khĩa chính)
urls Thơng tin về các site và các url mà từ khĩa này xuất hiện.Trường này luơn luơn khác rỗng, bất kể kích thước của nĩ.
urlcount Số lượng các url cĩ chứa từ khĩa này
totalcount Tổng số lần xuất hiện của từ này trong tất cả các tài liệu đã index. Bảng Stat: chứa thơng tin thống kê về các câu truy vấn của người dùng.
Tên trường Miêu tả
addr Địa chỉ IP của máy tính cĩ câu truy vấn tới máy tìm kiếm ASPSeek proxy Địa chỉ IP của máy chủ proxy
query Nội dung câu truy vấn
ul Giới hạn về URL được sử dụng để áp đặt lên câu truy vấn sp Khơng gian Web được áp đặt lên câu truy vấn
site SiteID dùng để hạn chế khơng gian tìm kiếm sites Số lượng các site tìm thấy thỏa mãn câu truy vấn
urls Số lượng các Url tìm thấy thỏa mãn câu truy vấn referer URLID của các trang Web cĩ các yêu cầu truy vấn