c.1. Quy tắc lưu trữ
Một trong những phương phỏp điển hỡnh để biểu diễn văn bản núi chung là sử dụng khụng gian Vector. Trong cỏch biểu diễn này, mỗi văn bản được biểu diễn bằng một vector. Mỗi thành phần của Vector là một từ mục riờng biệt trong tập văn bản gốc(corpus)và được gỏn một giỏ trị là hàm f chỉ mật độ của từ mục trong văn bản.
Chỳng ta cú thể biểu diễn cỏc văn bản dưới dạng với từ mục là cỏc từ đơn và hàm f biểu diến số lần xuất hiện của chỳng, cỏch biểu diễn này cũn gọi là biểu diễn theo tỳi cỏc từ (bag of words)
Chẳng hạn văn bản vb1, nú được biểu diễn bởi một vector V (v1,v2,…,vn) Với vi là số lần xuất hiện của từ khúa thứ i (ti) trong văn bản vb1.
Ta xột hai văn bản sau:
Từ Vector cho văn V
Computer 2 1
Is 1 1
Life 0 1
Not 1 0
Only 1 0
Cú nhiều tiờu chuẩn để chọn hàm f, do đú mà chỳng ta cú thể sinh ra nhiều giỏ trị trọng số khỏc nhau. Sau đõy là một vài tiờu chuẩn để chọn hàm f
Computer is not only computer
Mụ hỡnh Boolean
Giả sử cú một CSDL gồm m văn bản D={d1,d2,…,dm}. Mỗi văn bản được biểu diễn dưới dạng một vector gồm n từ mục T={t1,t2,…,tn}. Gọi W=(wij) là ma trận trọng số, trong đú wij là giỏ trị của từ mục ti trong văn bản dj.
Mụ hỡnh Boolean là mụ hỡnh đơn giản nhấ, được xỏc định như sau: Wij = 0 nếu ti khụng cú mặt trong dj
1 nếu ngược lại
Vớ dụ chỳng ta cú hai văn bản sau:
Từ Vector cho văn V
Computer 1 1 Is 1 1 Life 0 1 Not 1 0 Only 1 0 Mụ hỡnh tần số (Frequency Model)
Mụ hỡnh tấn số xỏc định giỏ trị cỏc số trong ma trận W=(wij) cỏc giỏ trị là cỏc số dương dựa vào tần số của cỏ từ suất hiện trong văn bản hoặc tần số xuất hiện của văn bản trong CSDL. Cú ba phương phỏp phổ biến sau:
Phương phỏp dựa trờn tần số từ mục (TF_Term Frequency)
Cỏc giỏ trị của cỏc từ mục được tớnh dựa trờn số lần xuất hiện của của cỏ từ mục trong văn bản . Gọi tfij là số lần xuất hiện của từ mục ti trong văn bản dj, khi đú wij được tớnh bởi cụng thức:
Wij = tfij hoặc wij = 1+log(tfij) hoặc w=tfij.
Phương phỏp dựa trờn nghịch đảo t số văn bản(IDF_ Inverse Document Frequency)
Giỏ trị từ mục được tớnh bởi cụng thức sau: Wij= log
dfij
m =log(m)- log(dfi)
Computer is not only computer
Phương phỏp TF.IDE
Phương phỏp này là tổng hợp của hai phương phỏp TF và IDF, ma trận trọng số được tớnh như sau:
Wij = [1+log(tfij)] log ( dfi m ) nếu tfij >=1 0 nếu tfij =0 c.2. Cỏc quy tắc tỡm kiếm
Cỏc cõu hỏi đưa vào được ỏnh xạ vector Q(q1,q2,…,qm)theo hệ số của cỏc từ vựng là khỏc nhau. Tức là: Từ vựng càng cú ý nghĩa với nội dung cần tỡm cú hệ số càng lớn.
Qi =0 khi từ vựng đú khụng thuộc danh sỏch những từ cần tỡm.
Qi<>0 khi từ vựng đú thuộc danh sỏch cỏc từ cần tỡm và Qi càng lớn thỡ mức độ liờn quan đến nội dung tài liệu càng cao. Tức là hệ thống sẽ ưu tiờn hơn đối với cỏc tài liệu cú chứa cỏc từ tỡm kiếm cú hệ số cao.
Vớ dụ: Nếu nội dung cần tỡm cú từ “Machine” quan trọng hơn từ “Computer”, thỡ trong đú vector Q ta cú thể đặt qk=2,qh=1 tương ứng với tk=”Machine”, th=”đa số”.
Khi đú, cho một hệ thống cỏc từ vựng ta sẽ xỏc định được cỏc vector tương ứng với từng tài liệu và ứng với mỗi cõu hỏi đưa vào ta sẽ cú một vector tương với nú với những hệ số đĩ được xỏc định từ trước. Việc tỡm kiếm và quản lý sẽ được thực hiện trờn tài liệu này.
Từ cỏch xỏc định nội dung cỏc tài liệu và cõu hỏi theo cỏc vector trệ cho ta phương phỏp tỡm kiếm và lưu trữ cỏc tài liệu dạng Full-Text theo cỏch mới như sau:
1. Mỗi tài liệu được mĩ húa bởi một vector 2. Phõn loại cỏc tài liệu theo cỏc vector núi trờn.
3. Mỗi cõu hỏi đưa vào cũng được mĩ húa bởi một vector
Việc tỡm kiếm cỏc tài liệu được thực hiện bằng cỏch nhõn lần lượt từng Vector cõu hỏi với vector của từng tài liệu
Kết quả trả lại sẽ là mọi tài cú liờn quan đến cõu hỏi tỡm kiếm
c.3. Ưu, nhược điểm
Ưu điểm
- Cỏc tài liệu trả lại cú thể được sắp xếp theo mức độ liờn quan đến nội dung yờu cầu do trong phộp thử mỗi tài liệu đều trả lại chỉ số đỏnh giỏ độ liờn quan của nú đến nội dung yờu cầu.
- Việc đưa ra cỏc cõu hỏi tỡm kiếm là dễ dàng và khụng yờu cầu người tỡm kiếm cú trỡnh độ chuyờn mụn cao về vấn đề đú
- Tiến hành lưu trữ và tỡm kiếm đơn giản hơn phương phỏp Logic. Người tỡm kiếm cú thể tự đưa ra số cỏc tài liệu trả lại cú mức độ chớnh xỏc cao nhất
Nhược điểm
- Việc tỡm kiếm tiến hành khỏ chậm khi hệ thống cỏc từ vựng là lớn do phải tớnh toỏn trờn tồn bộ cỏc Vector của tài liệu.
- Khi biểu diễn cỏc Vector với cỏc hệ số là số tự nhiờn làm tăng mức độ chớnh xỏc của việc tỡm kiếm nhưng làm tốc độ tớnh toỏn giảm đi rẩt nhiều do cỏc phộp nhõn vector phải tiến hành trờn cỏc số tự nhiờn hoặc số thực, hơn nữa việc lưu trữ cỏc vector sẽ tốn kộm và phức tạp
- Hệ thống khụng linh hoạt khi lưu trữ cỏc từ khúa. Chỉ cần một thay đổi rất nhỏ trong bảng từ vựng sẽ kộo theo hoặc là vector hoỏ lại tồn bộ cỏc tài liệu lưu trữ, hoặc là sẽ bỏ qua cỏc từ cú nghĩa bổ sung trong cỏc tài liệu được mĩ húa trước đú. Tuy nhiờn, với những ưu điểm nhất định sự sai số nhỏ này cú thể bỏ qua do hiện tại số cỏc từ cú nghĩa được mĩ húa khỏ đầy đủ trước khi tiến hành mĩ húa tài liệu. Vỡ ậy phương phỏp Vector vẫn được quan tõm và sử dụng
- Một nhược điểm nữa, chiều của mỗi Vector theo cỏch biểu diễn này là rất lớn, bởi vỡ chiều của nú được xỏc định bằng số lượng cỏc từ khỏc nhau trong tập hợp văn bản. Vớ dụ số lượng cỏc từ cú thể cú từ 103 đến 105 trong tập hợp cỏc văn bản nhỏ, cũn trong tập hợpc ỏc văn bản lớn thỡ số lượng sẽ nhiều hơn, đặc biệt trong mụi trường Web
Cỏch khắc phục: Cú một số phương phỏp giảm bớt số chiều của Vector được ỏp dụng. Một phương phỏp đơn giản và hiệu quả là loại bỏ cỏc từ dừng (stop words).
Từ dừng là cỏc từ dựng để biểu diễn cấu trỳc cõu chứ khụng biểu đạt nội dung văn bản, vớ dụ như cỏc từ nối, cỏc giới từ…Những từ như vậy xuất hiện rất nhiều trong văn bản nhưng lại khụng liờn quan đến chủ đề và nội dung văn bản. Do đú chỳng ta cú thể loại bỏ cỏc từ này đi để làm giảm được số chiều của cỏc vector biểu diễn mà lại khụng làm ảnh hưởng gỡ đến hiệu quả tỡm kiếm.
Một số vớ dụ về cỏc từ dựng
Tiếng Việt Tiếng Anh
Và a Hoặc the Cũng do
3.2.2. Cỏc phương phỏp biểu diễn văn bản trong Cơ sở dữ liệu HyperText HyperText
Trong chương I chỳng ta đĩ nờu ra những khú khăn trong việc tỡm kiếm dữ liệu Web và sự khỏc nhau giữa cấu trỳc một văn bản truyền thống với một văn bản HyperText Chớnh vì những khĩ khăn gặp phải nh− vậy mà việc biểu diễn dữ liệu trong các máy tìm kiếm là rất quan trọng. Biểu diễn các trang web nh− thế nào để cĩ thể l−u trữ đ−ợc một số l−ợng khổng lồ các trang web đĩ để máy tìm kiếm cĩ thể thực hiện việc tìm kiếm nhanh chĩng và đ−a ra các kết quả chính xác cho ng−ời sử dụng?