Từ điển chỉ mục

Một phần của tài liệu Hệ thống search engine (Trang 109 - 115)

Từ điển chỉ mục chứa danh sách các mục từ. Từ điển chỉ mục xây dựng sẵn gồm 1100.000 từ gồm cả tiếng Anh và tiếng Việt . Trong quá trình lập chỉ mục , từ mới nào chưa có sẽ được thêm vào tự điển . Do đó số lượng từ trong từ điển đã lên hơn 150.000 từ , từ tăng thêm chủ yếu là từ tiếng Anh

Số lượng mục từ trong từ điển chỉ mục lớn và thao tác tìm kiếm được thực hiện thường xuyên nên từ điển phải tổ chức sao cho việc tìm kiếm một mục từ được thực hiện nhanh chóng.

Chúng ta có thể tổ chức từ điển theo danh sách tuyến tính được sắp xếp của các mục từ và thực hiện giải thuật tìm kiếm nhị phân tuy nhiên gặp phải trở ngại là khi thêm một mục từ vào đòi hỏi phải sắp xếp lại từ điển, điều này gây khó khăn cho việc quản lí từ điển .

Hệ thống tổ chức từ điển dưới dạng cây n-phân biến thể thành cây nhị phân để dễ dàng cho việc cài đặt

Dưới đây là mô hình cây từ điển n-phân chứa các mục từ "bạn", "bà con", "bà nội":

ROOT a b y a n 5 Data Data Data Thêm từ “ bạn ”

ROOT a b y a 2 Data Data Data n 5 c o n Data Mã ascci của n >2 Thêm từ “ bà con “

Mỗi mục từ trong từ điển có một cấu trúc dữ liệu Info kèm theo, được gắn vào ký tự cuối cùng của mục từ. Cấu trúc Info gồm các trường sau:

Struct Info{

int n; //số lần xuất hiện của mục từ này trong danh sách các trang Web mà hệ thống đã lập chỉ mục

int nDoc; //số tài liệu chứa mục từ này

ROOT a b y a n 5 Data Data Data 1 n o i c o n Mã ascii của n<c Thêm từ “ bà nội “ Data 6 5 Data

int signal; //xác định thuộc tính của mục từ này 0:tiếng Anh; 1: tiếng Việt; 2: stop-word

int startPage; //trang bắt đầu trong danh sách các trang trong file chỉ mục thuộc về mục từ này.

int endPage; //trang kết thúc trong danh sách các trang trong file chỉ mục thuộc về mục từ này.

}

Thuộc tính endPage được đưa vào nhằm làm tăng tốc độ lập chỉ mục. Với endPage, ta có thể truy xuất đến trang cuối cùng nhanh nhất khi cần thêm tài liệu vào file nghịch đảo, không cần phải duyệt tuần tự từ đầu danh sách các trang thuộc về mục từ đó.

Biến cờ signal có các giá trị như sau:  Stopword : signal =1  Từ mới : signal =2  Tiếng Anh : signal = 3  Tiếng Việt : signal = 4

Trong cấu trúc cây từ điển, dấu được chuyển về cuối để tiện cho việc tìm kiếm không dấu hoặc bỏ dấu không đúng kiểu, đồng thời giải quyết được tình trạng bỏ dấu khác biệt vị trí trong tiếng Việt. Ví dụ : Đối với từ Cộng Sản => Cong65 san3

Các thao tác chính trên tự điển chỉ mục gồm có:

 Thêm một mục từ  Xoá một mục từ

 Xem thông tin về một mục từ

Một phần của tài liệu Hệ thống search engine (Trang 109 - 115)

Tải bản đầy đủ (DOC)

(147 trang)
w