Error! Ngược lại, recall của thuật toán A là thước đo bao nhiêu tài liệu là kết quả đúng đã được truy vấn cho lại. Độ chính xác hỏi câu hỏi “Bao nhiêu tài liệu do thuật toán A tìm ra là đúng?”. Recall hỏi câu hỏi “Bao nhiêu tài liệu được tìm ra bởi thuật toán A?”. Error! Sử dụng cùng ký pháp như độ chính xác, recall R t kết hợp với chủ điểm t cho bởi công thức sau: Error! Tỷ lệ recall tổng thể R kết hợp với bộ thử D test của tài liệu và T test của chủ điểm cho bởi: Nói cách khác (hình 4.2) ta cần đếm mọi tài liệu trong phần giao của hai vùng (và cộng thêm 1) rồi chia nó cho tổng số thành phần trong vùng không tô (cộng thêm 1). Error! Thí dụ, giả sử tổng các đối tượng trong mỗi vùng của hình 4.2 được chỉ ra trong hình 4.3. Sau đó, độ chính xác của truy vấn chủ điểm cụ thể cho bởi: Error! Cùng cách suy diễn, recall của cùng chủ điểm này được tính như sau: Độ chính xác và recall hình thành hai cách nổi tiếng nhất để đo thuật toán truy vấn văn bản “tốt như thế nào”. Trong nhiều trường hợp, một thuật toán với độ chính xác rất cao có thể có recall rất tồi. Thí dụ, thuật toán không cho lại cái gì có thể có độ chính xác 100%, nhưng thuật toán này không hữu ích. Mặt khác, thuật toán với tỷ lệ recall rất cao có thể có độ chính xác rất tồi. Thuật toán luôn cho lại mỗi tài liệu với 100% recall nhưng lại không được sử dụng nhiều. 6.1 Danh sách dừng, gốc từ và bảng tần số Trong phần này, một số kỹ thuật cơ bản sử dụng trong phần lớn các hệ thống truy vấn tài liệu/văn bản được trình bày. Danh sách dừng (Stop List) kết hợp với tập tài liệu D là tập StopL của các từ không thích hợp lắm (deemed irrelevant), mặc dù nó có thể xuất hiện thường xuyên. Thí dụ, hệ thống SMART của Cornell University sử dụng stop list với 439 từ. Thí dụ các từ xuất hiện trong danh sách dừng có thể là the, and, for, with Rõ ràng, danh sách dừng có thể khác nhau vì D khác nhau. Thí dụ, nếu D là tập tài liệu kết hợp với các bài báo khoa học của Bộ môn máy tính, University of Meryland, thì hiệu quả nếu đưa từ (word) computer vào danh sách dừng liên kết với cơ sở tài liệu này. Ngược lại, không nên cho từ computer vào danh sách dừng của tập tài liệu về địa chất. Như chúng ta đã dự đoán, mục tiêu của danh sách dừng là hạn chế các từ “vô dụng” từ góc nhìn tìm kiếm và chỉ số hoá. Thông thường, một số từ có thể là biến thể cú pháp của từ khác. Thí dụ, từ drug, drugged và drugs là cùng chia sẻ từ gốc (word stem)-drug. Tài liệu d 1 chứa từ drugged, có thể là về drug khi tài liệu tương tự d 2 có được từ d 1 bằng cách thay thế mọi từ drugged trong d 1 bởi drug. Bằng giảm các từ khác nhau về từ gốc, ta có thể nhóm các từ suy diễn từ cùng gốc. Do vậy, thay vì chỉ số hóa tài liệu trên cơ sở ba từ khác nhau – drug, drugged và drugs – chúng ta chỉ cần sử dụng một từ cho chúng, đó là drug. Giả sử D là tập N tài liệu, T là tập M từ/từ gốc trong tài liệu D. Giả sử rằng không có từ trong danh sách dừng D trong T và mọi từ trong T đều là từ gốc. Bảng tần số với tên FreqT kết hợp với D và T là ma trận (MxN) như sau Freq(i,j) bằng tổng lần xuất hiện của từ t i trong tài liệu d j . Thí dụ, hãy xem xét tập tài liệu D={d 8 , d 9 , d 10 } chỉ ra trong hình 4.1. Hơn nữa, giả sử ta có tài liệu khác tên d 11 với tiêu đề “Drugs, drugs, drugs”. Các từ có trong bốn tiêu đề tài liệu này là sex, drug, videotape, iran, connection, boat, slip, own, calivàcartel. Chú ý rằng các từ như and và the không được liệt kê trong danh sách này bởi vì chúng có mặt trong danh sách dừng D. Tương tự, các từ như owned được thay thế bởi các từ gốc own. Bảng tần số cho bốn tài liệu này là: Term/document d 8 d 9 d 10 d 11 sex 1 0 0 0 drug 1 0 1 3 videotape 1 0 0 0 iran 0 1 0 0 connection 0 1 0 0 boat 0 0 1 0 slip 0 0 1 0 own 0 0 1 0 cali 0 0 1 0 cartel 0 0 1 0 Trong bảng tần số FreqT, mỗi tài liệu d j được biểu diễn bởi cột j của FreqT. Tương tự, sự xuất hiện của term/word t i được biểu diễn bởi cột i. Nhưng tại sao tần số lại quan trọng? Nó có ích lợi gì? Để trả lời phi hình thức câu hỏi này, ta sẽ xem xét thí dụ đơn giản chứa một vài tài liệu với 5 thuật ngữ như trong bảng sau đây: Term/document d 1 d 2 d 3 d 4 d 5 d 6 t 1 615 390 10 10 18 65 t 2 15 4 76 217 91 816 t 3 2 8 815 142 765 1 t 4 312 511 677 11 711 2 t 5 45 33 516 64 491 59 Khi khảo sát tài liệu này ta thấy d 1 và d 2 là tương đương bởi vì phân bổ các từ trong d 1 phản ánh phân bổ từ trong d 2 . Cả hai chứa rất nhiều t 1 và t 4 , tương đối ít t 2 và t 3 , và chứa vừa phải t 5 . Cùng mạch như vậy, ta có d 3 và d 5 cũng tương tự. Tuy nhiên, d 4 và d 6 là hoàn toàn khác. Có cần quan tâm đến độ dài tương đối của tài liệu hay không? Việc đếm đơn thuần các từ không cho thấy tầm quan trọng các từ trong tài liệu. Thí dụ, nếu một từ xuất hiện ba lần trong tài liệu dài 10 từ thì nó được xem là quan trọng. Mặt khác nếu nó xuất hiện ba lần trong tài liệu dài 1 triệu từ thì ý nghĩa của nó bị giảm. Do vậy, trong bảng tần số, chúng ta quan tâm đến tỷ lệ tổng số lần xuất hiện của từ trong tài liệu với tổng số toàn bộ từ có trong tài liệu. Bổ sung vào thước đo này, có nhiều thước đo tầm quan trọng của khái niệm/từ (Term/Words) được đề xuất trong nhiều tài liệu. Trong phần tiếp theo ta chỉ giả sử đơn thuần rằng FreqT(i,j) là số thực lớn hơn hay bằng 0, và giá trị chính xác của nó được xác định theo một trong hai cách nói trên. Cần chú ý rằng, một vài định nghĩa khác của FreqT(i,j) cũng được đề xuất trong tài liệu này. Bây giờ giả sử rằng người sử dụng muốn khai thác (retrieve) n tài liệu đầu tiên trong CSDL tài liệu D mà nó thích hợp (relevant) với truy vấn Q. Thí dụ, người sử dụng có thể phát biểu “Find the 25 documents that are maximally relevant with respect to banking operations and drugs”. Trong trường hợp này, truy vấn Q thử tìm lấy ra các tài liệu thích hợp với hai từ khóa, sau khi lấy từ gốc, là bank và drug. Nếu ta suy nghĩ truy vấn Q là tài liệu thì ta tìm kiếm các cột trong FreqT mà nó “gần” nhất tới véctơ kết hợp với Q. Tính “gần” được xác định trong khái niệm thước đo như sau đây: 1. Error! Khoảng cách khái niệm (term distance): Giả sử vec Q (i) biểu thị tổng số lần xuất hiện khái niệm t i trong Q. Sau đó khoảng cách khái niệm giữa Q và tài liệu d r được xác định bởi: Dĩ nhiên thước đo này là khá tuỳ ý. 2. Error! Khoảng cách cosin (cosine distance): Thước đo này được sử dụng rộng rãi trong thế giới CSDL và được mô tả như sau đây: Tại đây, ta tính tích các véctơ kết hợp với truy vấn Q và tài liệu d i , và chia nó cho tích căn bậc hai của các véctơ liên quan. Trong trường hợp xấu nhất, cần đến O(N) so sánh, mỗi so sánh cho một tài liệu, mỗi so sánh cần O(M) thời gian cho từng khái niệm. Vậy, sẽ cần O(MxN) thời gian để tìm giải pháp tốt nhất. Tuy nhiên ngay cả với CSDL rất nhỏ như CSDL chứa các bài báo khoa học của Bộ môn máy tính, University of Meryland từu 1990 thì (MxN) có thể là hàng trăm triệu hay hàng tỷ phép so sánh. Kỹ thuật chỉ số hoá ngữ nghĩa tiềm tàng (LSI-Latent Sematic Indexing) sẽ làm giảm đáng kể thời gian nói trên. 4.3 Chỉ số hoá ngữ nghĩa tiềm tàng (LSI) Ý tưởng cơ bản của chỉ số hoá ngữ nghĩa tiềm tàng (LSI-Latent Sematic Indexing” là các tài liệu tương tự có tần số xuất hiện từ tương tự. Tuy nhiên, với bất kỳ CSDL tài liệu không tầm thường nào đều có tổng số tài liệu M và tổng số khái niệm N là rất lớn. Nếu ta muốn chỉ số hoá các bài báo khoa học của trường đại học bằng full text, chúng ta sẽ nhanh chóng nhận ra rằng tổng số khái niệm sẽ là hàng trăm ngàn chứ không phải hàng triệu. Cho trước hàng trăm ngàn tài liệu kỹ thuật đang tồn tại, bảng tần số sẽ lớn ghê gớm (MxN), có đến hàng trăm triệu đầu vào. Xử lý bảng lớn như vậy là khó khăn đáng kể. Cái LSI sẽ làm là sử dụng kỹ thuật gọi là tách giá trị khác thường (SVD-Singular Value Decomposition), nó được quen biết trong lý thuyết ma trận, để giảm kích thước bảng tần số xuống còn ít hơn (MxN). Tổng quát, bất kỳ giảm thiểu nào đều dẫn tới mất mát thông tin, do vậy, ta phải đảm bảo rằng SVD phải có “năng lực thông tin – information efficient” cao nhất có thể. Có nghĩa rằng, chúng chỉ mất phần bảng tần số ít ý nghĩa nhất. Nói cách khác, kỹ thuật LSI sử dụng ma trận (MxN) để biểu diễn ma trận nhỏ hơn (KxK). Nó được thực hiện bằng loại bỏ vài hàng và vài cột của ma trận tần số gốc. Thông thường K có giá trị khoảng 200 cho tập hợp tài liệu lớn. Nhớ lại rằng, mỗi cột trong ma trận tần số biểu diễn một tài liệu. LSI coi mỗi tài liệu là một véctơ độ dài K bởi đơn thuần giữ lại K hàng có ý nghĩa nhất trong bảng tần số. Các bước cơ bản của LSI như sau: 1. Tạo bảng: Tạo ma trận tần số FreqT. 2. Xây dựng SVD: Tính toán phân chia giá trị véc tơ khác thường (A, S, B) của FreqT bằng cách chia FreqT thành ba ma trận A, S, B (xem phần sau). 3. Nhận dạng véctơ: Với mỗi tài liệu d, gọi vec(d) là tập các khái niệm trong FreqT mà các hàng tương ứng của nó không bị loại bỏ trong ma trận đơn S. 4. Tạo chỉ số: Lưu trữ tập các véctơ vec(d) được chỉ số bởi một trong các kỹ thuật như nghiên cứu sau. Khi khai thác tài liệu tương tự với tài liệu truy vấn d Q , ta chỉ đơn giản tìm cấu trúc chỉ số tạo ra trên đây và tìm tài liệu d trong lưu trữ sao cho vec(d 0 ) gần nhất với vec(d) thừa nhận thước đo đã chọn trên véctơ . . dụng cùng ký pháp như độ chính xác, recall R t kết hợp với chủ điểm t cho bởi công thức sau: Error! Tỷ lệ recall tổng thể R kết hợp với bộ thử D test của tài liệu và T test của chủ. List) kết hợp với tập tài liệu D là tập StopL của các từ không thích hợp lắm (deemed irrelevant), mặc dù nó có thể xuất hiện thường xuyên. Thí dụ, hệ thống SMART của Cornell University sử dụng. là the, and, for, with Rõ ràng, danh sách dừng có thể khác nhau vì D khác nhau. Thí dụ, nếu D là tập tài liệu kết hợp với các bài báo khoa học của Bộ môn máy tính, University of Meryland, thì