Lập chỉ mục tài liệu

Một phần của tài liệu Nghiên cứu các phương pháp nén chỉ số trong các hệ thống tìm kiếm (Trang 26 - 31)

CHƯƠNG 1. KIẾN TRÚC CHUNG CỦA MÁY TÌM KIẾM

1.3 Tổng quan về phương pháp lập chỉ số

1.3.3 Lập chỉ mục tài liệu

a. Khái quát về hệ thống lập chỉ mục

Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term) tốt người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào tiến trình này.

Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept)... Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các khoảng trắng giữa chúng. Hơn nữa ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt.

Tạo chỉ mục cho tài liệu là một cách để tăng tốc độ tìm kiếm thông tin. Tuy nhiên, việc lập chỉ mục có một nhược điểm lớn, đó là khi thêm một tài liệu mới, phải cập nhật lại tập tin chỉ mục. Nhưng đối với hệ thống tìm kiếm thông tin, chỉ cần cập nhật lại tập tin chỉ mục vào một khoảng thời gian định kỳ. Do đó, chỉ mục là một công cụ rất có giá trị.

Lập chỉ mục bao gồm các công việc sau:

Bước 1: Xác định các từ có khả năng đại diện cho nội dung của tài liệu;

1.1 Thu thập các tài liệu được lập chỉ mục

1.2 Tạo các thẻ văn bản, đưa mỗi tài liệu vào một danh sách các thẻ được tạo

Bước 2: Đánh trọng số cho các từ này, trọng số phản ánh tầm quan trọng của từ trong một tài liệu.

Thực hiện tiền xử lý ngôn ngữ, tạo ra danh sách các thẻ thông thường, đó là các chỉ mục của từ vựng.

b. Cấu trúc tệp mục lục

Trong tệp mục lục, chỉ mục được xây dựng cho mỗi thuật ngữ để lưu trữ chỉ danh (ID) tài liệu cho toàn bộ tài liệu chứa thuật ngữ này. Đầu vào tệp mục lục thông thường chứa thuật ngữ (từ khoá) và một số ID tài liệu. Mỗi thuật ngữ và các ID tài liệu (mà có chứa thuật ngữ) được tổ chức thành một hàng.

Ví dụ 1: Thí dụ tệp mục lục như sau:

Term1: Doc1, Doc3 Term2: Doc1, Doc2 Term3: Doc2, Doc3, Doc4 Term4: Doc1, Doc2, Doc3, Doc4

trong đó, Termi (i = 1,2,3,4) là số ID thuật ngữ i, Doci (i = 1, 2, 3, 4) là số ID của tài liệu i(Doci).

Dòng 1 có nghĩa rằng Doc1 Doc3 chứa Term1, các dòng khác có ý nghĩa tương tự. Việc tìm kiếm sẽ được thực hiện nhanh chóng trong các tệp mục lục. Chỉ các hàng chứa thuật ngữ tìm kiếm mới được tìm kiếm, không cần tìm mọi tài liệu trong CSDL. Tệp chỉ mục có định dạng như trên người ta gọi là Tệp chỉ mục ngược (inverted index). Sau khi thực hiện tiến trình lập chỉ mục, chúng ta sẽ có được tệp tin ngược (IF) chứa một bộ từ vựng (lexicon) - một danh sách tất cả thuật ngữ xuất hiện trong CSDL.

Như vậy inverted index là một cấu trúc dữ liệu chỉ mục chứa ánh xạ từ nội dung như từ, con số, địa chỉ database, document… Danh sách ngược (IL) lưu trữ một danh

sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính. Đây là phương pháp chỉ số tự nhiên nhất, gần tương ứng với chỉ số của một cuốn sách và với cách dùng mục lục truyền thống

Ví dụ 2: Cho 3 file F0, F1, F2 lần lượt có nội dung sau:

• F0=“it is what it is”

• F1=“what is it”

• F2=“it is a banana”

Ánh xạ sang inverted index file ta có:

• “it”: {0,1,2}

• “is”: {0,1,2}

• “what”: {0,1}

• “banana”: {2}

• “a”: {2}

Chuỗi search = “what is it” được tách thành các từ “what”, “is”, “it”

Ta có kết quả tổ hợp : “what” + “is” + “it” là: {0,1}  {0,1,2}  {0,1,2} = {0,1}

=> Kết quả tìm kiếm là file F0 và file F1

* Phân biệt giữa tập chỉ số ngược và tập chỉ số thuận

Tập chỉ số thuận (direct file) là tập tin mà chính các mục thông tin đã cung cấp thứ tự chính của tập tin.

Ngược lại, tập chỉ số ngược (inverted file) được sắp xếp theo chủ đề, mỗi chủ đề lại bao gồm một tập các mục thông tin.

Giả sử có một tập các tài liệu (Doci), mỗi tài liệu chứa danh sách các từ (termj).

Nếu một từ xuất hiện trong một tài liệu, ghi số 1. Ngược lại, ghi 0. Khi đó, tập tin thuận và tập tin ngược sẽ lưu trữ như Bảng 1.1 và Bảng 1.2

Tài liệu 1 Tài liệu 2 Tài liệu 3

Từ 1 1 0 1

Từ 2 1 1 0

Từ 3 0 1 1

Từ 4 1 1 1

Bảng 1.1 Cách tập chỉ số ngược lưu trữ

Từ 1 Từ 2 Từ 3 Từ 4

Tài liệu 1 1 1 0 1

Tài liệu 2 0 1 1 1

Tài liệu 3 1 0 1 1

Bảng 1.2 Cách tập chỉ số thuận lưu trữ

* Tại sao sử dụng chỉ số ngược để lập chỉ mục?

Trong hệ thống tìm kiếm thông tin, tập chỉ số ngược có ý nghĩa rất lớn, giúp việc truy cập đến các mục thông tin được nhanh chóng. Giả sử khi người dùng nhập một câu truy vấn, hệ thống sẽ tách thành 2 từ là “Term1” và “Term2”. Dựa vào tập chỉ số ngược, ta dễ dàng xác định được các tài liệu có liên quan đến 2 từ này để trả về cho người tìm kiếm. Tuy nhiên, khó khăn chính của tập chỉ số ngược là khi thêm một tài liệu mới, tất cả các từ có liên quan đến tài liệu này đều phải được cập nhật lại.

Ví dụ khi thêm tài liệu 4 có chứa 2 từ “Term3” và “Term4” vào tập chỉ số ngược.

Tài liệu 1 Tài liệu 2 Tài liệu 3 Tài liệu 4

Từ 1 1 0 1 0

Từ 2 1 1 0 0

Từ 3 0 1 1 1

Từ 4 1 1 1 1

Bảng 1.3 Thêm một tài liệu mới vào tập chỉ số ngược

Rõ ràng việc này tốn một chi phí lớn nếu tập chỉ số ngược. Trong thực tế, tập tin chỉ số ngược tài liệu có thể chứa hàng trăm ngàn từ. Tuy nhiên, trong các hệ thống tìm kiếm thông tin, người ta chỉ cập nhật lại tập tin tại một khoảng thời gian định kỳ.

Vì vậy, tập chỉ số ngược vẫn được sử dụng để lập chỉ mục.

KẾT LUẬN CHƯƠNG I

Kích thước quá lớn và bản chất thay đổi không ngừng của Web đã đặt ra nhu cầu to lớn trong việc hỗ trợ và cập nhật một cách không ngừng các hệ thống trích chọn các thông tin dựa trên nền Web. Sự phát triển của Internet dẫn đến nhu cầu sử dụng chỉ số, chỉ số ngược để xử lý truy vấn hiệu quả, tìm kiếm, khai thác, tổ chức, truy cập và

duy trì thông tin đối với người sử dụng thường xuyên hơn. Vì vậy yêu cầu lập chỉ mục trong máy tìm kiếm, cụ thể hơn là tài liệu Web trở thành bài toán cho các nhà khoa học nghiên cứu và giải quyết. Trong chương này, luận văn đã giới thiệu tổng quát bài toán tìm kiếm thông tin trên web và phân tích cấu trúc tập chỉ mục trong máy tìm kiếm. Từ những phân tích trên, luận văn sẽ trình bày các quy trình xây dựng chỉ mục, chỉ mục ngược và các phương pháp nén chỉ mục trong chương 2, đưa ra thuật toán cải tiến tối ưu và cài đặt trong chương 4.

Một phần của tài liệu Nghiên cứu các phương pháp nén chỉ số trong các hệ thống tìm kiếm (Trang 26 - 31)

Tải bản đầy đủ (PDF)

(77 trang)