Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek

Một phần của tài liệu Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa (Trang 53 - 56)

c. Module tìm kiếm s.cgi

4.2.1Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek

Bảng urlword: bảng này chứa thơng tin tổng quan về tất cả các URL đã hoặc chưa được đánh chỉ số bởi máy tìm kiếm ASPseek, thỏa mãn một điều kiện đặc biệt nào đĩ do người dùng chỉ định. Các thơng tin chi tiết hơn sẽ được lưu trữ trong các bảng urlwordsNN.

Tên trường Miêu tả

url_id Số định danh của URL site_id Số định danh của site

deleted =1 nếu máy chủ trả về lỗi 404 hay do file “robots.txt” khơng cho phép được đánh chỉ số trang Web này

url Nội dung của chính URL

next_index_time Thời điểm tiếp theo cần index, tính theo giây

status Trạng thái HTTP trả về bởi máy chủ hoặc 0 nếu trang này chưa được đánh chỉ số

crc chuỗi đại diện MD5 của tài liệu

last_modified Thời gian thay đổi nội dung gần đây nhất, được trả về từ server. etag tiêu đề “Etag” được trả về bởi máy chủ

last_index_time thời điểm tiến hành đánh chỉ số cuối cùng

referre Số định danh của URL tham chiếu đầu tiên đến trang Web này hops độ sâu của URL trong cây siêu liên kết

redir =URLID mới nếu trang Web này bị chuyển hướng nếu khơng sẽ bằng 0

origin =URLID của trang Web ban đầu nếu trang Web này là một bản sao, nếu khơng cĩ giá trị bằng 0.

Bảng UrlwordNN (NN là các số từ 00 – 15): Các bảng này chứa các thơng tin chi tiết về nội dung các Url đã được đánh chỉ số trong cơ sở dữ liệu. Việc một url được ghi vào bảng nào trong 16 bảng này phụ thuộc vào giá trị url_id mod 16.

Tên trường Miêu tả

url_id Số định danh của URL

deleted Được đặt bằng 1 nếu máy chủ trả về lỗi, hoặc do file “robots.txt” khơng cho phép đánh chỉ số trang Web này.

wordcount Số lượng các từ khác nhau trong nội dung đã được index của trang totalcount Tổng tất cả các từ trong nội dung đã được đánh chỉ số của trang content-type Tiêu đề “Content-Type” được trả về bởi máy chủ

charset Bộ chữ cái được sử dụng trong nội dung tài liệu, thơng tin này được lấy từ thẻ META

title 128 ký tự đầu tiên trong tiêu đề của trang Web

txt 255 ký tự đầu tiên, khơng tính các thẻ HTML, trong nội dung của trang Web.

docsize Kích thước của trang Web.

keywords 255 ký tự đầu tiên từ các từ khĩa của trang Web. description 100 ký tự đầu tiên trong phần mơ tả trang Web words Nội dung đã được nén của các URL

hrefs Danh sách đã sắp xếp các URL liên kết ra (outgoing) từ trang này

Bảng wordurl: chứa thơng tin về mỗi từ khĩa (khơng phải từ dừng) xuất hiện trong các trang Web được tải.

word bản thân các từ khĩa, khơng phải từ dừng word_id Số định danh của từ( khĩa chính)

urls Thơng tin về các site và các url mà từ khĩa này xuất hiện.Trường này sẽ rỗng nếu như kích thước của nĩ lớn hơn 1000 byte, trong trường hợp này thơng tin sẽ được lưu trữ trong các file nhị phân. urlcount Số lượng các url cĩ chứa từ khĩa này

totalcount Tổng số lần xuất hiện của từ khĩa này trong tất cả các tài liệu. Bảng wordurl1: chứa thơng tin các từ khĩa trong cơ sở dữ liệu thời gian thực

Tên trường Miêu tả

word Nội dung các từ khĩa (khơng phải từ dừng) word_id Số định danh của từ ( khĩa chính)

urls Thơng tin về các site và các url mà từ khĩa này xuất hiện.Trường này luơn luơn khác rỗng, bất kể kích thước của nĩ. (adsbygoogle = window.adsbygoogle || []).push({});

urlcount Số lượng các url cĩ chứa từ khĩa này

totalcount Tổng số lần xuất hiện của từ này trong tất cả các tài liệu đã index. Bảng Stat: chứa thơng tin thống kê về các câu truy vấn của người dùng.

Tên trường Miêu tả

addr Địa chỉ IP của máy tính cĩ câu truy vấn tới máy tìm kiếm ASPSeek proxy Địa chỉ IP của máy chủ proxy

query Nội dung câu truy vấn

ul Giới hạn về URL được sử dụng để áp đặt lên câu truy vấn sp Khơng gian Web được áp đặt lên câu truy vấn

site SiteID dùng để hạn chế khơng gian tìm kiếm sites Số lượng các site tìm thấy thỏa mãn câu truy vấn

urls Số lượng các Url tìm thấy thỏa mãn câu truy vấn referer URLID của các trang Web cĩ các yêu cầu truy vấn

Một phần của tài liệu Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa (Trang 53 - 56)