c. Module tìm kiếm s.cgi
4.2.1 Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek
Bảng urlword: bảng này chứa thông tin tổng quan về tất cả các URL đã hoặc chưa được đánh chỉ số bởi máy tìm kiếm ASPseek, thỏa mãn một điều kiện đặc biệt nào đó do người dùng chỉ định. Các thông tin chi tiết hơn sẽ được lưu trữ trong các bảng urlwordsNN.
Tên trường Miêu tả
url_id Số định danh của URL site_id Số định danh của site
deleted =1 nếu máy chủ trả về lỗi 404 hay do file “robots.txt” không cho phép được đánh chỉ số trang Web này
url Nội dung của chính URL
next_index_time Thời điểm tiếp theo cần index, tính theo giây
status Trạng thái HTTP trả về bởi máy chủ hoặc 0 nếu trang này chưa được đánh chỉ số
crc chuỗi đại diện MD5 của tài liệu
last_modified Thời gian thay đổi nội dung gần đây nhất, được trả về từ server. etag tiêu đề “Etag” được trả về bởi máy chủ
last_index_time thời điểm tiến hành đánh chỉ số cuối cùng
referre Số định danh của URL tham chiếu đầu tiên đến trang Web này hops độ sâu của URL trong cây siêu liên kết
redir =URLID mới nếu trang Web này bị chuyển hướng nếu không sẽ bằng 0
origin =URLID của trang Web ban đầu nếu trang Web này là một bản sao, nếu không có giá trị bằng 0.
Bảng UrlwordNN (NN là các số từ 00 – 15): Các bảng này chứa các thông tin chi tiết về nội dung các Url đã được đánh chỉ số trong cơ sở dữ liệu. Việc một url được ghi vào bảng nào trong 16 bảng này phụ thuộc vào giá trị url_id mod 16.
Tên trường Miêu tả
url_id Số định danh của URL
deleted Được đặt bằng 1 nếu máy chủ trả về lỗi, hoặc do file “robots.txt” không cho phép đánh chỉ số trang Web này.
wordcount Số lượng các từ khác nhau trong nội dung đã được index của trang totalcount Tổng tất cả các từ trong nội dung đã được đánh chỉ số của trang content-type Tiêu đề “Content-Type” được trả về bởi máy chủ
charset Bộ chữ cái được sử dụng trong nội dung tài liệu, thông tin này được lấy từ thẻ META
title 128 ký tự đầu tiên trong tiêu đề của trang Web
txt 255 ký tự đầu tiên, không tính các thẻ HTML, trong nội dung của trang Web.
docsize Kích thước của trang Web.
keywords 255 ký tự đầu tiên từ các từ khóa của trang Web. description 100 ký tự đầu tiên trong phần mô tả trang Web words Nội dung đã được nén của các URL
hrefs Danh sách đã sắp xếp các URL liên kết ra (outgoing) từ trang này
Bảng wordurl: chứa thông tin về mỗi từ khóa (không phải từ dừng) xuất hiện trong các trang Web được tải.
word bản thân các từ khóa, không phải từ dừng word_id Số định danh của từ( khóa chính)
urls Thông tin về các site và các url mà từ khóa này xuất hiện.Trường này sẽ rỗng nếu như kích thước của nó lớn hơn 1000 byte, trong trường hợp này thông tin sẽ được lưu trữ trong các file nhị phân. urlcount Số lượng các url có chứa từ khóa này
totalcount Tổng số lần xuất hiện của từ khóa này trong tất cả các tài liệu. Bảng wordurl1: chứa thông tin các từ khóa trong cơ sở dữ liệu thời gian thực
Tên trường Miêu tả
word Nội dung các từ khóa (không phải từ dừng) word_id Số định danh của từ ( khóa chính)
urls Thông tin về các site và các url mà từ khóa này xuất hiện.Trường này luôn luôn khác rỗng, bất kể kích thước của nó.
urlcount Số lượng các url có chứa từ khóa này
totalcount Tổng số lần xuất hiện của từ này trong tất cả các tài liệu đã index. Bảng Stat: chứa thông tin thống kê về các câu truy vấn của người dùng.
Tên trường Miêu tả
addr Địa chỉ IP của máy tính có câu truy vấn tới máy tìm kiếm ASPSeek proxy Địa chỉ IP của máy chủ proxy
query Nội dung câu truy vấn
ul Giới hạn về URL được sử dụng để áp đặt lên câu truy vấn sp Không gian Web được áp đặt lên câu truy vấn
site SiteID dùng để hạn chế không gian tìm kiếm sites Số lượng các site tìm thấy thỏa mãn câu truy vấn
urls Số lượng các Url tìm thấy thỏa mãn câu truy vấn referer URLID của các trang Web có các yêu cầu truy vấn