2.3.1 Cấu trỳc logic, vật lý và sự độc lập dữ liệu
Một trong những tớnh chất cần xem xột khi xõy dựng cơ sở dữ liệu cho việc tỡm kiếm thụng tin là sự khỏc nhau giữa tổ chức vật lý và tổ chức logic dữ liệu. Đú là quan hệ giữa cỏc mục dữ liệu, độc lập với cỏch đưa ra cỏc dữ liệu này vào trong bộ nhớ mỏy tớnh. Trong phần này, chỳng ta quan tõm đến cấu trỳc logic của dữ liệu.
53
Cấu trỳc vật lý sẽ chỉ được quan tõm trong việc tối ưu khả năng lưu trữ cỏc cấu trỳc logic.
Chẳng hạn, khi lưu trữ cỏc cấu trỳc cõy trờn băng từ, chỳng ta sẽ phải quan tõm đến việc tổ chức cỏc đỉnh cõy để đảm bảo việc truy cập được nhanh chúng.
Làm việc trờn cơ sở dữ liệu, điều được quan tõm rất nhiều đú là khỏi niệm “sự độc lập dữ liệu”. Điều này nhằm cho phộp cỏc chương trỡnh viết ra độc lập với cấu trỳc logic của dữ liệu mà chỳng tương tỏc. Sự độc lập này đạt được nhờ vào việc đặt mụ hỡnh dữ liệu vào giữa người dựng và cơ sở dữ liệu. Một trong những mụ hỡnh dữ liệu nổi tiếng và tốt nhất là mụ hỡnh của Boy Codd. Mụ hỡnh này được gọi là mụ hỡnh cơ sở dữ liệu quan hệ, trong mụ hỡnh này dữ liệu được mụ tả bởi một số n thuộc tớnh. Nếu dữ liệu được mụ tả bởi cỏc quan hệ thỡ một quan hệ trờn một tập cỏc khụng gian D1,D2,...,Dn sẽ được biểu diễn bởi cỏc tập cú thứ tự gồm n phần tử
gọi là cỏc bản ghi (d1,d2,...,dn), trong đú di Di. Cỏc mức chuẩn hoỏ dữ liệu đó được
đưa ra (thường dựng 3 mức) để trỏnh việc dư thừa dữ liệu và đảm bảo tớnh nhất quỏn, toàn vẹn dữ liệu.
Giả sử cú một tập thuộc tớnh A và một tập giỏ trị V, khi đú, một bản ghi R là một tập hợp con của tớch đecac AxV, trong đú, mỗi thuộc tớnh cú một và chỉ một giỏ trị. Như vậy, R là một tập cỏc cặp cú thứ tự (thuộc tớnh, giỏ trị).
Sử dụng thuật toỏn phõn tớch nội dung tự động để xử lý một bản ghi của tài liệu như sau:
R={(k1,x1), (k2,x2),...,(kn,xn)}
ở đõy, ki là cỏc từ khoỏ, được biểu diễn như cỏc thuộc tớnh của tài liệu, xi là cỏc giỏ trị của cỏc khoỏ ki, cú thể là trọng số của chỳng. Nghĩa là cỏc tài liệu được biểu diễn dự cú cỏc từ hay khụng cú cỏc từ xi.
Ta cú thể viết như sau:
54
Và khi cú mặt nếu xti=1 và vắng mặt nếu kti1. Cỏc bản ghi được lưu trữ
trong cỏc đơn vị logic gọi là cỏc file. Như vậy, mỗi file được thể hiện bởi một tập tờn cỏc bản ghi và tờn file. Cỏc bản ghi trong file thường được tổ chức theo quan hệ của chỳng, cỏc tổ chức logic này được gọi là cấu trỳc file hay cấu trỳc dữ liệu.
k1 k2 k3 R= k4 P1 P2 P3 P4 2.3.2 Cỏc tập tin đảo
Một trong những mấu chốt của tất cả cỏc hệ thống tỡm kiếm thụng tin và tỡm kiếm dữ liệu là cỏc tập tin đảo. Cú 3 tập tin đảo quan trọng thường dựng là Document File (DF), Dictionary và Inversion List (IL). Cỏc tập tin đảo giỳp cho việc tỡm kiếm trờn toàn bộ cỏc tài liệu, cỏc IF tổ chức thụng tin vào một danh sỏch ngắn gọn cỏc mục từ và từ. Tương tự như khi ta tra một bài nào đú trong một quyển sỏch, thay bằng việc lật từng trang để tỡm đến trang sỏch cần tỡm thỡ ta chỉ cần mở mục lục và tra xem bài cần tỡm ở trang nào và mở nhanh đến trang đú.
Document File (DF): Tập tin tài liệu. Mỗi tài liệu được gỏn một định danh
duy nhất và được lưu ở file này. File này cú thể lưu cỏc thụng tin bổ trợ cho việc xỏc định tài liệu như đường dẫn đến tập tin đú hoặc thư mục chưa tập tin đú.
Dictionary File: Tập tin từ điển từ là một danh sỏch đó được sắp xếp của tất
cả cỏc từ, thuật ngữ duy nhất với cỏc con trỏ trỏ đến InvertionList. Cỏc từ ở đõy được sắp xếp thưo thứ tự bảng chữ cỏi. Ngoài ra cũn cú cỏch làm giảm thời gian tỡm kiếm và khụng gian lưu trữ. Thay vỡ xử lý cỏc từ, cỏc mỏy tim kiếm cũn cú thể tỏch chỳng thành mức nhỏ hơn mức chữ cỏi. Hai cấu trỳc dữ liệu nổi tiếng cho vấn đề xử lý từ điển từ ở trờn là N_grams và cõy PAT.
Từ điển từ cũng cú thể chứa số lần xuất hiện của từ trong tài liệu.
55
Inversion List (IL): Tập tin chứa cỏc con trỏ trỏ đến cỏc từ, thuật ngữ, chỳng
được index đến cỏc tài liệu chứa từ, thuật ngữ đú, giống phần index trong cỏc quyển sỏch, cỏc con trỏ tương ứng với trang sỏch.