Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 53 - 56)

c. Module tìm kiếm s.cgi

4.2.1 Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek

Bảng urlword: bảng này chứa thông tin tổng quan về tất cả các URL đã hoặc chưa được đánh chỉ số bởi máy tìm kiếm ASPseek, thỏa mãn một điều kiện đặc biệt nào đó do người dùng chỉ định. Các thông tin chi tiết hơn sẽ được lưu trữ trong các bảng urlwordsNN.

Tên trường Miêu tả

url_id Số định danh của URL site_id Số định danh của site

deleted =1 nếu máy chủ trả về lỗi 404 hay do file “robots.txt” không cho phép được đánh chỉ số trang Web này

url Nội dung của chính URL

next_index_time Thời điểm tiếp theo cần index, tính theo giây

status Trạng thái HTTP trả về bởi máy chủ hoặc 0 nếu trang này chưa được đánh chỉ số

crc chuỗi đại diện MD5 của tài liệu

last_modified Thời gian thay đổi nội dung gần đây nhất, được trả về từ server. etag tiêu đề “Etag” được trả về bởi máy chủ

last_index_time thời điểm tiến hành đánh chỉ số cuối cùng

referre Số định danh của URL tham chiếu đầu tiên đến trang Web này hops độ sâu của URL trong cây siêu liên kết

redir =URLID mới nếu trang Web này bị chuyển hướng nếu không sẽ bằng 0

origin =URLID của trang Web ban đầu nếu trang Web này là một bản sao, nếu không có giá trị bằng 0.

Bảng UrlwordNN (NN là các số từ 00 – 15): Các bảng này chứa các thông tin chi tiết về nội dung các Url đã được đánh chỉ số trong cơ sở dữ liệu. Việc một url được ghi vào bảng nào trong 16 bảng này phụ thuộc vào giá trị url_id mod 16.

Tên trường Miêu tả

url_id Số định danh của URL

deleted Được đặt bằng 1 nếu máy chủ trả về lỗi, hoặc do file “robots.txt” không cho phép đánh chỉ số trang Web này.

wordcount Số lượng các từ khác nhau trong nội dung đã được index của trang totalcount Tổng tất cả các từ trong nội dung đã được đánh chỉ số của trang content-type Tiêu đề “Content-Type” được trả về bởi máy chủ

charset Bộ chữ cái được sử dụng trong nội dung tài liệu, thông tin này được lấy từ thẻ META

title 128 ký tự đầu tiên trong tiêu đề của trang Web

txt 255 ký tự đầu tiên, không tính các thẻ HTML, trong nội dung của trang Web.

docsize Kích thước của trang Web.

keywords 255 ký tự đầu tiên từ các từ khóa của trang Web. description 100 ký tự đầu tiên trong phần mô tả trang Web words Nội dung đã được nén của các URL

hrefs Danh sách đã sắp xếp các URL liên kết ra (outgoing) từ trang này

Bảng wordurl: chứa thông tin về mỗi từ khóa (không phải từ dừng) xuất hiện trong các trang Web được tải.

word bản thân các từ khóa, không phải từ dừng word_id Số định danh của từ( khóa chính)

urls Thông tin về các site và các url mà từ khóa này xuất hiện.Trường này sẽ rỗng nếu như kích thước của nó lớn hơn 1000 byte, trong trường hợp này thông tin sẽ được lưu trữ trong các file nhị phân. urlcount Số lượng các url có chứa từ khóa này

totalcount Tổng số lần xuất hiện của từ khóa này trong tất cả các tài liệu. Bảng wordurl1: chứa thông tin các từ khóa trong cơ sở dữ liệu thời gian thực

Tên trường Miêu tả

word Nội dung các từ khóa (không phải từ dừng) word_id Số định danh của từ ( khóa chính)

urls Thông tin về các site và các url mà từ khóa này xuất hiện.Trường này luôn luôn khác rỗng, bất kể kích thước của nó.

urlcount Số lượng các url có chứa từ khóa này

totalcount Tổng số lần xuất hiện của từ này trong tất cả các tài liệu đã index. Bảng Stat: chứa thông tin thống kê về các câu truy vấn của người dùng.

Tên trường Miêu tả

addr Địa chỉ IP của máy tính có câu truy vấn tới máy tìm kiếm ASPSeek proxy Địa chỉ IP của máy chủ proxy

query Nội dung câu truy vấn

ul Giới hạn về URL được sử dụng để áp đặt lên câu truy vấn sp Không gian Web được áp đặt lên câu truy vấn

site SiteID dùng để hạn chế không gian tìm kiếm sites Số lượng các site tìm thấy thỏa mãn câu truy vấn

urls Số lượng các Url tìm thấy thỏa mãn câu truy vấn referer URLID của các trang Web có các yêu cầu truy vấn

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 53 - 56)

Tải bản đầy đủ (PDF)

(68 trang)