Truy vấn xếp hạng tài liêu văn bản trong Thư viện số

Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 1 TRUY VẤN XẾP HẠNG TÀI LIỆU VĂN BẢN TRONG THƯ VIỆN SỐ ĐỖ QUANG VINH Abstract: In this paper, we deal with rank query in digital libraries. We study how to assign a similarity measure to each document that indicates how closely it matches a query. We define two important measures of effectiveness: precision and recall in order to evaluate a rank query. Từ khóa: tìm kiếm thông tin, truy vấn xếp hạng, thư viện số. 1. ĐẶT VẤN ĐỀ Cho đến nay, hầu hết các hệ thống tìm kiếm thông tin IR hiện có trong thư viện sử dụng truy vấn Boole BQ, nhưng xử lý không chính xác truy vấn Boole không hội, phức tạp. BQ không phải là phương pháp tìm kiếm thông tin duy nhất. N ếu tập con tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích hợp, đó là nguyên nhân BQ thành công ở các hệ thống tìm kiếm thư mục. Tuy nhiên, yêu cầu thông tin thường biết ít chính xác hơn. Vì vậy, nó đôi khi hữu ích có khả năng định rõ một danh sách thuật ngữ chỉ thị tốt các tài liệu có liên quan, dù chúng không cần tất cả có mặt trong tìm kiếm tài liệu. Hệ thống xếp hạng toàn bộ CSDL đối vớ i truy vấn, như vậy, các tài liệu xếp hạng 100 cao nhất có thể được khảo sát đối với sự liên quan và chúng tạo thành tập câu trả lời trích lọc. Ở đây, tác giả nghiên cứu gán một độ tương tự cho mỗi một tài liệu theo cách đòi hỏi phải so khớp sát một truy vấn. 2. SO KHỚP TOẠ ĐỘ Một cách đưa ra tính linh động hơn so với một câu trả lời có-hoặc-không nhị phân đơn giản là đếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu. Càng nhiều thuật ngữ xuất hiện hơn, càng có nhiều khả năng hơn tài liệu là có liên quan. Cách tiếp cận được gọi là so khớp toạ độ. Truy vấn thành một truy vấn lai, trung gian giữa một truy vấn hội AND và một truy vấn tuyển OR: một tài liệu chứa bất kỳ trong số thuật ngữ đượ c xem như một câu trả lời tiềm năng, nhưng sự ưu tiên được cho các tài liệu chứa tất cả hoặc hầu hết chúng. Tất cả thông tin cần thiết nằm trong IF và cài đặt tương đối dễ. Chẳng hạn, xét 4 tài liệu trình bày ở bảng 1. Đối với truy vấn searching, rõ ràng tài liệu 1 là câu trả lời tốt nhất và duy nhất. Nhưng về truy vấn information retrieval? Ở ngữ cảnh BQ h ội, tài liệu 1 là câu trả lời duy nhất. Nhưng 3 tài liệu khác có thể có liên quan và so khớp toạ độ tạo ra xếp hạng D 1 > D 2 = D 3 = D 4 = 0. Các tài liệu chỉ chứa một trong số thuật ngữ có sẵn khi trả lời, NSD nên kiểm tra. Bảng 1 - Một CSDL tài liệu nhỏ: 4 tài liệu trên 8 thuật ngữ. TÀI LIỆU VĂN BẢN 1 Information retrieval is searching and indexing 2 Indexing is building an index 3 An inverted file is an index 4 Building an inverted file is indexing Chẳng hạn, xét 4 tài liệu trình bày ở bảng 1. Đối với truy vấn searching, rõ ràng tài liệu 1 là câu trả lời tốt nhất và duy nhất. Nhưng về truy vấn information retrieval? Ở ngữ cảnh BQ hội, Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 2 tài liệu 1 là câu trả lời duy nhất. Nhưng 3 tài liệu khác có thể có liên quan và so khớp toạ độ tạo ra xếp hạng D 1 > D 2 = D 3 = D 4 = 0. Các tài liệu chỉ chứa một trong số thuật ngữ có sẵn khi trả lời, người dùng tin nên kiểm tra. 3. TÍCH TRONG ĐỘ TƯƠNG TỰ Quá trình được hình thức hoá bằng một tích trong của một vector truy vấn với một tập vector tài liệu. Bảng 2a trình bày chính CSDL với một tập vector tài liệu nhị phân biểu diễn bằng n thành phần, n số thuật ngữ riêng biệt hiện có trong CSDL. Để giữ mẫu có thể quản lý được, giả sử các thuật ngữ is, an và and bị bỏ qua. Hai truy vấn mẫu có thể được biểu diễn bằng vector n chiều và được trình bày ở bảng 3.1b. Độ tương tự của truy vấn Q với tài liệu D d được biểu diễn như sau: S(Q, D d ) = Q . D d (1) trong đó phép toán . là phép tích trong. Tích trong của hai n-vector X = <x i > và Y = <y i > được định nghĩa:    n i ii yxYX 1 . (2) Chẳng hạn, S(indexing, D 1 ) = (0, 0, 0, 1, 0, 0, 0, 0) . (1, 1, 1, 1, 0, 0, 0, 0) = 1 Bảng 2 – Các vector đối với tính toán tích trong: (a) Vector tài liệu; (b) Vector truy vấn. (a) d Vector tài liệu W d , t inf ret sea indexing bui index inv file 1 1 1 1 1 0 0 0 0 2 0 0 0 1 1 1 0 0 3 0 0 0 0 0 1 1 1 4 0 0 0 1 1 0 1 1 (b) searching 0 0 1 0 0 0 0 0 indexing 0 0 0 1 0 0 0 0 Mặc dù lực lượng thêm vào bởi khái niệm xếp hạng, cách tiếp cận so khớp toạ độ đơn giản có ba hạn chế sau đây:  Thứ nhất, nó không tính đến tần suất thuật ngữ. Ở bảng 1, indexing xuất hiện 1 lần ở tài liệu 1, 2 và 4, ba tài liệu được xếp hạng bằng nhau trên truy vấn indexing.  Thứ hai, có thể dường như có điểm giống nhau, nhưng nó không có – công thức không tính đến sự khó tìm thuật ngữ. Vì searching xuất hiện chỉ ở một tài liệu, nó là một thuật ngữ quan trọng hơn so với indexing xuất hiện ở 3 tài liệu ít nhất theo giá trị bề ngoài.  Thứ ba, các tài liệu dài với nhiều thuật ngữ được trợ giúp bằng quá trình xếp hạng bởi vì chúng có thể chứa nhiều hơn trong bất kỳ danh sách đã cho của các thuật ngữ truy vấn chỉ vì tính đa dạng của văn bản hiện có trong một tài liệu dài. Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 3 Bài toán thứ nhất có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc “không” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu. Số đếm xuất hiện này được gọi là tần suất bên trong tài liệu của thuật ngữ f d,t . Khi tích trong được tính, sau đó, các giá trị f d,t được tính. Chẳng hạn, tính độ tương tự đối với truy vấn mẫu trở thành S(information retrieval, D 1 ) = (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2 vì tài liệu D 1 chứa information 1 lần và retrieval 1 lần. Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu-thuật ngữ, ký hiệu là w d,t và trọng số khác w q,t trong vector truy vấn. Độ tương tự là tích trong của hai trọng số w d,t và w q,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng: S(Q, D d ) = Q . D d =    n t tdtq ww 1 ,, (3) Gán w q,t = 0 là chuẩn nếu t không xuất hiện trong Q, như vậy, độ tương tự được biểu diễn như sau: S(Q, D d ) = ∑ ∈ ,, Qt tdtq ww  (4) Điều này đưa ra một cơ chế đánh giá dựa vào IF. Tuy nhiên, trước khi thảo luận các tuỳ chọn cài đặt, cho phép tác giả khảo sát hai bài toán khác đã chú ý ở trên. Bài toán thứ hai không nhấn mạnh đến các thuật ngữ khó tìm. Thực vậy, một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác. Lời giải đối với các trọng số thuật ngữ được giảm đối với thuật ngữ xuất hiện trong nhiều tài liệu, sao cho một xuất hiện đơn lẻ của the đếm ít hơn nhiều so với một xuất hiện đơn lẻ của Library. Điều này có thể được thực hiện bằng cách lấy tr ọng số thuật ngữ tuân theo tần suất tài liệu đảo (IDF) của nó. Giả thiết nhất quán với các quan sát của Zipf [5], [6]. Zipf quan sát tần suất của một mục có xu hướng là tỉ lệ nghịch với hạng của nó. Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số w t của một thuật ngữ t được tính như sau: t t f w 1  (5) trong đó f t là số tài liệu chứa thuật ngữ t. Sau đó, trọng số thuật ngữ có thể được sử dụng theo ba cách khác nhau:  Thứ nhất, nó có thể được nhân với một giá trị tần suất thuật ngữ tương đối r d,t để sinh ra trọng số tài liệu-thuật ngữ w d,t , trong đó r d,t có thể được tính theo một số cách khác nhau và được thảo luận sâu hơn sau đây.  Thứ hai, trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với r q,t sinh ra một trọng số truy vấn-thuật ngữ w q,t .  Thứ ba, nó có thể được dùng trong cả hai tính toán w d,t và w q,t , tức là, áp dụng hai lần. Không công thức nào ở trên là khả năng duy nhất được dùng đối với w t , thành phần IDF. Các thành phần khác xuất hiện trong tài liệu bao gồm: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 4          t et f N w 1log (6a)          t m et f f w 1log (6b) t t et f fN w   log (6c) trong đó N là số tài liệu trong CSDL và f m là giá trị f d,t lớn nhất trong CSDL. Thứ nhất trong ba đại lượng bây giờ được coi là cơ chế thông thường, với logarit tính đến ngăn cản một thuật ngữ có f t = 1 xuất phát từ được coi là 2 lần quan trọng như một thuật ngữ có f t = 2. Tương tự, thành phần tần suất thuật ngữ tương đối r d,t được tính theo một số cách khác nhau bằng một hàm của tần suất bên trong tài liệu f d,t : r d,t = 1 (7a) r d,t = f d,t (7b) r d,t = 1 + log e f d,t (7c) r d,t =          tdi td f f KK , , max )1( (7d) và v.v. Công thức (7c) dùng một logarit cho lượng đáp ứng giảm vì tần suất thuật ngữ tăng lên. Không có một cận trên rõ ràng bị bắt buộc, nhưng một thuật ngữ hay xảy ra thực sự có một phần đóng góp tần suất thuật ngữ lớn hơn 4. Ở công thức (7d), lần xuất hiện thứ nhất của một thuật ngữ trong một tài liệu đóng góp nhiều hơn l ần xuất hiện thứ hai và tiếp sau với hằng số 0 K1 điều khiển sự cân bằng giữa lần xuất hiện đầu tiên và cuối cùng. Đây là hoàn toàn hợp lý, trong đó lần xuất hiện của một thuật ngữ nên đóng góp nhiều hơn vào độ tương tự có sẵn so với lần xuất hiện thứ năm. Nhân tử max i f d,t là tần suất cực đại của bất kỳ thuật ngữ trong tài liệu d và được đưa vào để giữ số nhân tần suất thuật ngữ từ thích hợp lớn hơn 1. Sau đó, các vector tài liệu được tính như sau: w d,t = r d,t (8) hoặc w d,t = r d,t . w t (TF x IDF) Phương pháp sau nhằm gán các trọng số tài liệu-thuật ngữ được gọi là luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo. Chú ý các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra tên của chúng. Một heuristic độ tương tự được gọi là “TF x IDF” bất kỳ khi nào nó dùng tần suất thuật ngữ f d,t theo cách tăng đều và tần suất tài liệu của thuật ngữ f t theo cách giảm đều. Các trọng số truy vấn-thuật ngữ w q,t được tính tương tự. Tần suất bên trong truy vấn f q,t và trọng số thuật ngữ w t có thể được tính đến. Hơn nữa, các danh sách ở trên chắc chắn là không vét cạn – có nhiều công thức khác đối với cả hai w t và r d,t được đưa ra. Đề xuất tuân theo ràng buộc trực tiếp: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 5 Một thuật ngữ xuất hiện trong nhiều tài liệu không nên coi là quan trọng hơn so với một thuật ngữ xuất hiện ít và một tài liệu với nhiều lần xuất hiện của một thuật ngữ không nên coi là ít quan trọng hơn so với một tài liệu chỉ có ít. Ngoài ra, nó được dùng ở bất kỳ trạng thái riêng biệt có xu hướng là một lựa chọn chủ quan đúng hơn một lựa chọn khách quan. Gi ả sử tài liệu và các vector truy vấn được mô tả bằng w t = log e (1 + N / f t ) r d,t = 1 + log e f d,t r q,t = 1 (9) w d,t = r d,t w q,t = r q,t . w t Bất kỳ khi nào luật lấy trọng số, tất cả phương pháp tích trong có thể bị vi phạm với hiệu ứng thứ ba ở trên: tài liệu dài được thích hợp hơn tài liệu ngắn vì nó chứa nhiều thuật ngữ hơn và như vậy, giá trị của tích trong tăng lên. Vì vậy, người ta thường dựa vào một nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệ u dài. Do đó, biến thể khác của luật tích trong đánh giá độ tương tự bằng d tdtqQt d D ww DQS     ,, ),( (10) trong đó   idid fD , là độ dài của tài liệu D d nhận được bằng cách đếm số thuật ngữ chỉ mục. Giả thiết khác sử dụng căn bậc hai của độ dài. May thay, có một cách đơn giản để hiểu các luật khác nhau này sử dụng mô hình không gian vector. 4. MÔ HÌNH KHÔNG GIAN VECTOR Bất kỳ trọng số thuật ngữ w t và các tần suất thuật ngữ tương đối r d,t và tài liệu r q,t được gán và bất kỳ trong số tài liệu-thuật ngữ w d,t và trọng số truy vấn-thuật ngữ w q,t phát sinh do sự gán này, kết quả là giống nhau – mỗi một tài liệu được biễu diễn bởi một vector trong không gian n- chiều và truy vấn cũng được biễu diễn bằng một vector n-chiều. Rõ ràng, độ tương tự đối với một cặp vector là khoảng cách Euclide:    n t tdtqd wwDQS 1 2 ,, ),( (11) Đây thực chất là độ không tương tự vì một giá trị lớn chỉ thị các vector rất khác nhau; trả lại nó vào độ tương tự, lấy nghịch đảo. Độ đo chịu lỗi nghịch đảo với tích trong – bởi vì truy vấn thường ngắn hơn tài liệu, nó phân biệt đối xử đối với các tài liệu dài. Điều thực sự quan tâm là hướng chỉ thị bởi hai vector ho ặc chính xác hơn sự khác nhau về hướng, không kể độ dài. Hơn nữa, sự khác nhau về hướng là góc giữa hai vector. Đại số vector tạo ra một phương pháp tính độ tương tự. Nếu X và Y là hai vector n-chiều <x i > và <y i >, góc  giữa chúng thoả mãn X . Y = |X| |Y| cos (12) Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 6 trong đó X . Y là tích trong vector đã định nghĩa ở trên và    n i i xX 1 2 (13) là độ dài Euclide của X. Góc  được tính từ        n i i n i i n i ii yx yx YX YX 1 2 1 2 1 cos  (14) Công thức có hai hàm ý sau đây:  Thứ nhất, nó chứng minh sự chuẩn hoá được mô tả ở cuối mục trước. Nhân tử chuẩn hoá là độ dài Euclide của tài liệu – tức là, độ dài trong n-không gian của tập trọng số tài liệu-thuật ngữ đang mô tả tài liệu.  Thứ hai, công thức cung cấp một sự trực quan rõ ràng của luật xếp hạng thực hiện. Hãy hình dung tập tài liệu là các điểm trong vùng dương của không gian n-chiều, với các tài liệu ngắn nằm gần gốc và các tài liệu dài nằm xa hơn. Một truy vấn có thể hình dung là một đường bắt nguồn từ gốc, xuyên qua không gian này theo hướng yêu cầu nào đó. Ở khuôn khổ này, nhiệm vụ của phương pháp xếp hạng là l ựa chọn các tài liệu nằm gần đường này nhất theo một góc. Vì cos = 1 khi  = 0 và cos = 0 khi các vector là trực giao, độ đo tương tự có thể lấy cosin của góc giữa tài liệu và vector truy vấn – cosin này càng lớn thì độ tương tự càng lớn. Các khái niệm này dẫn đến luật cosin đối với xếp hạng: td n t tq dqd d d ww WWDQ DQ DQ , 1 , ∑ 1 ),cos(     (15) trong đó    n t tdd wW 1 2 , (16) là độ dài Euclide – trọng số – của tài liệu d và ∑ 1 2 , n t tqq wW   (17) là trọng số của truy vấn. Có thể sử dụng luật này với bất kỳ phương pháp lấy trọng số thuật ngữ mô tả ở trên. Chẳng hạn, giả sử biến thể mô tả ở phương trình (9) được sử dụng. Sau đó, tính độ tương tự được mô tả bằng            d DQt t etde qd d f N f WW DQ 1log)log1( 1 ),cos( , (18) Thật vậy, không cần nhân tử trong W d vì nó không đổi đối với bất kỳ truy vấn đã cho và trong khi nó ảnh hưởng đến độ tương tự, thứ tự tài liệu là không bị ảnh hưởng. Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 7 5. ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM Có nhiều biến thể về các luật xếp hạng, một số trong chúng được mô tả ở trên. Để so sánh chúng, chúng ta cần cách nào đó định lượng hiệu năng của chúng. Hiệu năng của một luật xếp hạng nên dựa vào xếp hạng tổng nó áp đặt trên CSDL đối với một truy vấn. Một số phương pháp được đưa ra. Không có một phương pháp nào hoàn toàn thoả đáng, nhưng đây là một hệ quả tự nhiên của thử nghiệm trình bày cách xử lý nhiều chiều với một giá trị đại diện đơn. Đầu tiên, tác giả định nghĩa hai độ đo quan trọng về hiệu suất: độ phục hồi và độ chính xác. 5.1 Độ phục hồi và độ chính xác Cách thông thường nhất mô tả hiệu năng tìm kiếm là tính bao nhiêu tài liệu có liên quan được tìm kiếm và chúng được liệt kê theo hạng như thế nào. Điều này dẫn đến các định nghĩa sau đây: [2], [5], [6], [7], [10], [12], [14]. Độ chính xác (precision) P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn: duoc kiem timlieu tai sotong quan lien co duoc kiem timlieu tai so P (19) Chẳng hạn, nếu 50 tài liệu được tìm kiếm trong câu trả lời về truy vấn nào đó và 35 trong chúng có liên quan thì độ chính xác tại 50 là P = 70%. Với độ chính xác, tác giả đánh giá tính chính xác của sự tìm kiếm. Độ phục hồi (recall) R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất: quan lien colieu tai sotong quan lien co duoc kiem timlieu tai so R (20) Nếu ở truy vấn tương tự như trước đó, có 70 tài liệu liên quan thì độ phục hồi tại 50 là R=50%, vì 35/70 của tài liệu liên quan được lựa chọn bên trong 50 tài liệu cao nhất. Độ phục hồi đánh giá sự mở rộng tới tìm kiếm là vét cạn và định lượng mức độ phủ của tập câu trả lời. Bảng 3a trình bày một mẫu của tính toán này áp dụng vào một xếp hạng đáp ứng truy vấn nào đó. Cột thứ nhất trình bày thứ tự hạng của tài liệu và cột thứ hai chỉ thị liệu có tài liệu liên quan đến truy vấn không. Đối với bảng 3, giả sử có 10 tài liệu liên quan trong toàn bộ CSDL và 25 tài liệu được tìm kiếm và hiển thị. Dĩ nhiên, tại thời điểm giải thuật được yêu cầu đáp ứng xếp hạng, sự liên quan là không biết; mặt khác, giải thuậ t có thể đơn giản loại bỏ các tài liệu không liên quan và không bao giờ trình bày chúng. Sự liên quan là một quyết định thực hiện sau khi biến cố bởi một hoặc nhiều người đánh giá. Nó không nên được giả thiết sự liên quan là tuyệt đối. Một người đánh giá có thể xét đoán một tài liệu có liên quan, trong khi người khác nói nó không liên quan. Người thiết kế các thử nghiệm IR lớn phải xem xét tất cả bài toán và thiết lập một cách thứ c thử nghiệm hợp lý không tầm thường. Cột thứ hai trình bày độ phục hồi - một phần trong số tài liệu liên quan được trả lại. Theo định nghĩa, độ phục hồi không giảm như danh sách hạng được xử lý. Cột cuối cùng ở bảng 3.2a trình bày độ chính xác tại điểm đó – một phần trong số tài liệu đã tìm kiếm có liên quan. Vì tài liệu thứ nhất có liên quan, độ chính xác tại đi ểm đó là 100%. Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 8 Bảng 3 – Độ phục hồi và độ chính xác: (a) Hạng; (b) Hiệu suất tính toán (a) r R (%) P (%) (b) R (%) P (%) 1 10 100 0 - 2 10 50 10 100 3 10 33 20 50 4 20 50 30 60 5 30 60 40 57 6 30 50 50 42 7 40 57 60 46 8 40 50 70 50 9 40 44 80 50 10 40 40 90 47 11 40 36 100 45 12 50 42 TB 3-điểm 53 13 60 46 TB 11-điểm 61 14 70 50 15 70 47 16 80 50 17 80 47 18 80 44 19 90 47 20 90 45 21 90 43 22 100 45 23 100 43 24 100 42 25 100 40 Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 9 Đuong cong P-R doi voi hang 0 50 100 150 R P R P Do thi hieu suat tinh toan 0 50 100 150 200 R P R P Hình – Đường cong P-R đối với hạng của bảng 3 Bảng 3b trình bày xếp hạng của bảng 3a được báo cáo như các giá trị độ phục hồi - độ chính xác chuẩn hoá như thế nào. Cột thứ nhất trình bày 11 điểm độ phục hồi chuẩn từ 0% đến 100%. Đối với mỗi một điểm, cột thứ hai trình bày giá trị độ chính xác tương ứng, đánh giá tại số tài liệu yêu c ầu để đạt được mức độ phục hồi đó. Cuối cùng, 11 giá trị độ chính xác này thường được kết hợp thành một tổng giá trị đơn giản đối với hiệu suất tìm kiếm. Có hai cách thực hiện: Thứ nhất, lấy trung bình độ chính xác tại các giá trị phục hồi 20%, 50% và 80%, cho một hiệu suất 3-điểm, ở mẫu này là 53%. Thứ hai, sử dụng một trung bình 11-điểm, trong đó mức 0% cũng được bao hàm, cho một hiệu suất 11-điểm ở mẫu có khoảng 61%. 5.2 Đường cong độ phục hồi-độ chính xác Vì độ phục hồi là một hàm không giảm của hạng, độ chính xác có thể được coi là một hàm của độ phục hồi đúng hơn là hàm của hạng. Thật vậy, hiệu suất tính toán được trình bày ở bảng 3b là hiệu quả. Quan hệ được tạo thành ở một đồ thị đã biết như một đường cong độ phục hồi- độ chính xác, vẽ đồ thị độ chính xác là một hàm c ủa độ phục hồi. Bởi vì độ chính xác thường cao tại các mức độ phục hồi thấp và thấp tại các mức độ phục hồi cao, đường cong nói chung giảm dần. Đường cong độ phục hồi-độ chính xác đối với mẫu ở bảng 3 được trình bày ở hình trên Nếu một giải thuật xếp hạng hoàn chỉnh được phát triển, tất cả tài liệu liên quan nên được xếp h ạng trước trong số tất cả tài liệu không liên quan. Ở trường hợp này, độ chính xác bằng 100% tại tất cả mức độ phục hồi và đường cong độ phục hồi-độ chính xác là một đường nằm ngang tại 100%. Điều này cung cấp một cách so sánh hai giải thuật xếp hạng: vẽ đồ thị các Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đà Lạt 2006 10 đường cong độ phục hồi-độ chính xác của chúng và nếu một đường cong nằm hoàn toàn phía trên đường cong khác thì giải thuật đó tốt hơn. Không may, tình huống đơn giản này là trường hợp hiếm khi xảy ra và các đường cong thường cắt nhau, có thể vài lần. Phương pháp đánh giá độ tương tự dự đoán tập tài liệu chuẩn nào đó và các truy vấn có sẵn và một tập xét đoán liên quan đầy đủ – các quyết định như về các tài liệu đó trong CSDL là các câu trả lời cho mỗi một truy vấn – là có sẵn. Đây là một yêu cầu khó, đặc biệt nếu thử nghiệm được thực hiện trên các mẫu thực và các CSDL lớn. TÀI LIỆU THAM KHẢO [1] W.Y. Arms, Digital Libraries, MIT Press, Cambridge, 2003. [2] G.G Chowdhury., Introduction to Modern Information Retrieval, Library Assocciation Publishing, London, 1999. [3] E.A. Fox, Advanced Digital Libraries, Virginia Polytechnic Institue and State University, 2000. [4] Journal of Network and Computer Applications, Special Issue of JNCA on Digital Libraries 20 (1,2), 1997. [5] R.A. Korfhage , Information Storage and Retrieval, John Wiley, New York, 1997. [6] G. Kowalski, Information Retrieval Systems, Kluwer Academic Publishers, Boston, 1997. [7] A. Large, L.A. Tedd, R.J. Hartley, Information Seeking in the Online Age, K.G. Saur Verlag, Munchen, 2001. [8] W. Mendelhall, T. Sincich, Statistics for the Engineering and Computer Science, 2 nd Edition, Collier Macmillan, London, 1989. [9] C.T. Meadow, Text Information Retrieval Systems, Academic Press, San Diego, 1992. [10] S.E. Robertson, M. Beaulieu, Research and Evaluation in Information Retrieval, Journal of Documentation, 53(1), 1997, pp. 51-57. [11] B.R. Schatz, Information Retrieval in Digital Libraries, Science 275, 1997, pp. 327- 334. [12] C.J. Van Rijsbergen, Information Retrieval, 2 nd Edition, Butterworths, London, 1979. [13] I.H. Witten, D. Bainbridge, How to Build a Digital Library, Morgan Kaufmann, San Francisco, 2003. [14] C.T. Yu, W. Meng, Principles of Database Query Processing for Advanced Applications, Morgan Kaufmann, San Francisco, 1998. [15] D. Ellis, Progress Problems in Information Retrieval, 2 nd Edition, Library Assocciation Publishing, London, 1996. . truy vấn xếp hạng, thư viện số. 1. ĐẶT VẤN ĐỀ Cho đến nay, hầu hết các hệ thống tìm kiếm thông tin IR hiện có trong thư viện sử dụng truy vấn Boole BQ, nhưng xử lý không chính xác truy vấn. Một số vấn đề chọn lọc của Công nghệ thông tin và truy n thông, Đà Lạt 2006 1 TRUY VẤN XẾP HẠNG TÀI LIỆU VĂN BẢN TRONG THƯ VIỆN SỐ ĐỖ QUANG VINH Abstract:. quá trình xếp hạng bởi vì chúng có thể chứa nhiều hơn trong bất kỳ danh sách đã cho của các thuật ngữ truy vấn chỉ vì tính đa dạng của văn bản hiện có trong một tài liệu dài. Một số vấn đề chọn

Định dạng
Số trang	10
Dung lượng	304,23 KB