Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
709,94 KB
Nội dung
Header Page of 16 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC NGHIÊN CỨU VÀ ĐÁNH GIÁ CÁC HỆ TRUY XUẤT THÔNG TIN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: CAO THỊ THU HƯƠNG Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH THUỶ HÀ NỘI - 2006 Footer Page of 16 Header Page of 16 LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn sâu sắc tới Thầy giáo hướng dẫn, PGS.TS.Nguyễn Thanh Thuỷ người có hướng dẫn tận tình, quý báu giúp em hoàn thành luận văn Em xin cảm ơn Thầy Cô khoa Công nghệ Thông tin trường Đại học Bách Khoa Hà Nội truyền đạt kiến thức quý báu khoá học Cuối xin cảm ơn gia đình quan nơi công tác tạo điều kiện thuận lợi để hoàn thành khoá học Hà nội, tháng 10 năm 2006 Cao Thị Thu Hương Footer Page of 16 Header Page of 16 MỤC LỤC Chương 1: TỔNG QUAN VỀ HỆ TRUY XUẤT THÔNG TIN 1.1 Lịch sử truy xuất thông tin hệ thống truy xuất thông tin .5 1.2 Hệ truy xuất thông tin 1.2.1 Khái niệm hệ truy xuất thông tin .9 1.2.2 Cách thức hoạt động hệ thống truy xuất thông tin .10 1.2.3 Các phương tiện truy xuất thông tin 12 1.3 So sánh truy xuất thông tin cổ điển truy xuất thông tin Web .14 1.4 So sánh truy xuất thông tin với truy xuất liệu .15 1.5 So sánh IRS với hệ thống thông tin khác 16 Chương 2: XÂY DỰNG MỘT HỆ TRUY XUẤT THÔNG TIN 19 2.1 Một số mô hình xây dựng hệ truy xuất thông tin 19 2.1.1 Mô hình không gian vector 19 2.1.2 Tìm kiếm Boolean .21 2.1.3 Tìm kiếm Boolean mở rộng 22 2.1.4 Mô hình xác suất .23 2.1.5 Đánh giá chung mô hình 23 2.2 Các bước xây dựng hệ truy xuất thông tin 23 2.2.1 Tách từ tự động cho tập tài liệu .23 2.2.2 Lập mục cho tài liệu 25 2.2.3 Tìm kiếm .25 2.2.4 Sắp xếp tài liệu trả (Ranking) 26 Chương 3: LẬP CHỈ MỤC 27 3.1 Khái quát hệ thống lập mục .27 3.2 Xác định mục từ quan trọng cần lập mục 28 3.3 Một số hàm tính trọng số mục từ .31 3.3.1 Tần số tài liệu nghịch đảo (Inverse Document Frequency) 32 3.3.2 Độ nhiễu tín hiệu (The Signal – Noise Ratio) 32 3.3.3 Giá trị độ phân biệt mục từ (Term Discrimination Value) 34 3.4 Lập mục cho tài liệu tiếng Anh 35 3.5 Lập mục cho tài liệu tiếng Việt 37 3.5.1 Khó khăn cho việc lập mục tiếng Việt 38 3.5.2 Đặc điểm từ tiếng Việt 40 3.5.3 Việc tách từ 41 3.6 Lập mục tự động cho tài liệu 43 3.7 Tập tin nghịch đảo tài liệu 44 3.7.1 Tập tin nghịch đảo 44 3.7.2 Phân biệt tập tin nghịch đảo tập tin trực tiếp 47 3.7.3 Tại sử dụng tập tin nghịch đảo để lập mục 48 Chương 4: TRUY XUẤT THÔNG TIN ĐA PHƯƠNG TIỆN 50 4.1 Truy xuất thông tin đa phương tiện 50 4.2 Truy xuất audio ngôn ngữ nói 51 Footer Page of 16 Header Page of 16 4.3 Truy xuất audio 51 4.4 Truy xuất đồ hoạ .51 4.5 Truy xuất ảnh 53 4.5.1 Truy xuất ảnh dựa vào màu sắc 54 4.5.2 Truy xuất ảnh dựa vào vân 54 4.5.3 Truy xuất ảnh dựa vào hình dạng .55 Chương 5: ĐÁNH GIÁ CÁC HỆ THỐNG TRUY XUẤT THÔNG TIN 58 5.1 Lý để tiến hành đánh giá hệ thống truy xuất thông tin 58 5.2 Các tiêu chuẩn dùng để đánh giá .59 5.3 Các mô hình đánh giá .59 5.4 Các độ đo dùng để đánh giá .62 5.4.1 Các khái niệm độ đo liên quan 62 5.4.2 Cách tính độ bao phủ (R) độ xác (P) 63 5.5 Phương pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ 65 5.5.1 Đồ thị biểu diễn hiệu suất thực thi hệ thống truy xuất 65 5.5.2 Đường cong độ bao phủ độ xác RP 66 5.5.3 Đường cong RP cho tập truy vấn 69 5.5.4 Đánh giá hệ thống truy xuất thông tin dựa vào đồ thị 69 5.6 Sự liên quan câu hỏi tài liệu 70 5.6.1 Các độ liên quan 70 5.6.2 Các vấn đề độ liên quan 70 5.6.3 Đánh giá với độ liên quan nhiều cấp độ .73 5.6.4 Phương pháp đo độ bao phủ (R), độ xác (P) dựa độ liên quan nhiều cấp độ 75 KẾT LUẬN .77 HƯỚNG PHÁT TRIỂN 78 TÀI LIỆU THAM KHẢO .79 Footer Page of 16 Header Page of 16 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Hệ thống truy xuất thông tin theo chế cổ điển 10 Hình 1.2: Cơ chế tìm kiếm Search Engine 13 Hình 3.1: Lưu đồ xử lý cho hệ thống lập mục 28 Hình 3.2: Các từ theo thứ tự 30 Hình 3.3: Quá trình chọn từ làm mục 37 Hình 5.1: Tập liệu tài liệu 63 Hình 5.2: Đường cong mô tả hiệu suất thực thi hệ thống 64 Hình 5.3: Đồ thị RP cho câu hỏi thứ k 68 Hình 5.4: Đồ thị biểu diễn hệ thống với tập tài liệu mẫu 69 tập câu truy vấn mẫu DANH MỤC CÁC BẢNG Bảng 1.1: So sánh IR cổ điểm với Web IR 14 Bảng 1.2: Sự khác hệ truy xuất thông tin hệ truy xuất 16 liệu Bảng 1.3: So sánh hệ truy xuất thông tin với hệ thống khác 18 Bảng 3.1: Cách tập tin nghịch đảo lưu trữ 47 Bảng 3.2: Cách tập tin trực tiếp lưu trữ 48 Bảng 3.3 Thêm tài liệu vào tập tin nghịch đảo 48 Bảng 5.1: Bảng giá trị R, P tính với n tài liệu trả 67 Bảng 5.2: Bảng nội suy giá trị P cho câu hỏi thứ k 68 Footer Page of 16 Header Page of 16 Chương 1: TỔNG QUAN VỀ HỆ TRUY XUẤT THÔNG TIN 1.1 Lịch sử truy xuất thông tin hệ thống truy xuất thông tin Truy xuất thông tin có lịch sử lâu đời gắn liền với thư viện trung tâm tìm kiếm thông tin Trước đây, máy tính internet chưa đời, người có nhu cầu thông tin việc nhờ trợ giúp thông tin từ bạn bè, người thân tìm đến thư viện trung tâm thông tin để tìm kiếm thông tin cần thiết Cách biểu diễn, lưu trữ, tổ chức phổ biến thông tin thư viện xem cách làm truyền thống hệ thống truy xuất thông tin Khi tiếp nhận yếu tố thông tin hay tài liệu mới, thư viện tiến hành phân tích yếu tố thông tin Sau đó, mô tả thích hợp chọn để mô tả, phản ánh nội dung yếu tố thông tin Dựa mô tả này, yếu tố thông tin phân loại theo thủ tục thiết lập xát nhập vào tập hợp yếu tố thông tin tồn Các thủ tục tạo để hệ thống hóa yêu cầu (các yêu cầu thiết kế để thay cho nhu cầu thông tin) để so sánh yêu cầu, truy vấn với mô tả yếu tố thông tin lưu trữ Việc so sánh sở để định yếu tố thông tin thích hợp với câu truy vấn tương ứng Cuối cùng, chế tìm kiếm phổ biến thông tin dùng để trả yếu tố thông tin cần thiết đến người sử dụng hệ thống Tuy nhiên, phải xem xét vấn đề nảy sinh vị trí thật yếu tố thông tin thêm vào tập hợp tài liệu Có nhiều chế tiếp cận khác để giải vấn đề chúng liên quan đến cách tổ chức vật lý luận lý yếu tố thông tin Trong thư viện, cách tổ Footer Page of 16 Header Page of 16 chức vật lý việc lập mục cho tài liệu, tức xếp số sách, cách đánh số thường quy định thư viện lớn Những sách đặt vào vị trí xác định dựa vào số Ngoài ra, cách tổ chức luận lý liệu phải thêm vào với cách tổ chức vật lý để giúp người sử dụng truy xuất thông tin dễ dàng Chẳng hạn, sách ấn truy xuất thông tin xác định cách nhìn vào danh mục chủ đề thư viện với thuật ngữ cần tìm “truy xuất thông tin” Một ta tìm thấy thuật ngữ thích hợp, thẻ số xác định sách liên quan đến chủ đề tìm kiếm Những sách phụ thuộc vào số chúng tìm thấy vị trí xác định Bên cạnh đó, muốn thay đổi thuật ngữ chủ đề sách, không cần thay đổi vị trí sách kệ sách; tức là, yếu tố thông tin tổ chức luận lý lại cách thay đổi danh mục thư viện mà không cần thay đổi xếp vật lý Xã hội ngày phát triển, thông tin đa dạng phong phú Bài toán đặt phải để quản lý số lượng thông tin khổng lồ cách có hiệu Từ dẫn đến nhu cầu làm giảm lượng yếu tố thông tin đến kích thước quản lý, yếu tố thông tin lại xem có liên quan nhiều đến lĩnh vực tìm kiếm Mặt khác, khó dự đoán mẫu, trạng thái phát triển tương lai thông tin, dự đoán tỉ lệ rủi ro cao Khó khăn việc tổ chức thông tin hiệu ước muốn giữ yếu tố liên quan gần Ví dụ, chủ đề liên quan đến nhiều lĩnh vực phân tích hệ thống (nó liên quan đến khoa học máy tính, vận trù học, kỹ thuật học, khoa học quản lý, giáo dục hệ thống thông tin) để gần mà phải để riêng theo lĩnh vực Đây thực khó khăn Còn nhiều khó khăn nữa, chẳng hạn khó khăn phân loại, so sánh tài liệu, yếu tố thông Footer Page of 16 Header Page of 16 tin, lập mục, đánh số cho tài liệu Những khó khăn không giải đời máy tính Quả thật, nhờ có máy tính mà việc lưu trữ, truy xuất thông tin trở nên dễ dàng Máy tính thao tác tất loại thông tin lưu trữ cách nhanh chóng số lượng thông tin khổng lồ Ngoài ra, chế truy xuất thông tin máy tính nhanh chóng hiệu tùy thuộc mô hình cài đặt, thuật toán chế Cơ chế tìm kiếm giống với chế truy xuất thông tin thư viện Trước hết, dựa ngôn ngữ mục yếu tố thông tin đại diện cho nội dung tài liệu, tập tài liệu biểu diễn dạng tập hợp mục đại diện cho tập tài liệu Trong đó, nhu cầu truy xuất thông tin biểu diễn dạng câu truy vấn có cấu trúc không cấu trúc mà máy hiểu Sau đó, máy so sánh hai dạng biểu diễn trên, biểu diễn tài liệu biểu diễn câu truy vấn, để biết tài liệu phù hợp với truy vấn Sau so sánh, máy định vị vị trí vật lý yếu tố thông tin cần tìm kiếm phổ biến đến người sử dụng Đây chế tìm kiếm chung cho hệ thống truy xuất thông tin Tuy nhiên, cách không 20 năm, sau máy tính đời, hệ thống truy xuất thông tin chủ yếu sử dụng phòng thí nghiệm để tìm kiếm kho ngữ liệu sách tài liệu Mặc dù chúng không bao hàm phương pháp toán phức tạp, Internet phát triển, kỹ thuật tìm kiếm chủ yếu World Wide Web kỹ thuật truy xuất thông tin Quả thật, hệ thống truy xuất thông tin ngày phát triển thuật toán, kỹ thuật truy xuất thông tin nhờ có đời Internet Vì nhu cầu truy xuất thông tin người Internet nhu cầu phổ biến, thiết thực, thiếu nên nhà phát triển hệ thống truy xuất thông tin phải nỗ lực để mang lại hiệu năng, hiệu cho người sử dụng Footer Page of 16 Header Page of 16 Chúng ta thấy rõ ràng nghiên cứu truy xuất thông tin có truyền thống tập trung vào truy xuất thông tin dạng văn (Text Retrieval) hay tài liệu văn (Document Retrieval) Trong thời gian dài, truy xuất thông tin gần đồng nghĩa với tìm kiếm tài liệu hay tìm kiếm văn Trong thời gian gần đây, viễn cảnh ứng dụng ứng dụng trả lời câu hỏi (Question Answering), ứng dụng nhận dạng chủ đề (Topic Detection), hay ứng dụng lưu vết (tracking) trở thành lĩnh vực hoạt động mạnh mẽ nghiên cứu truy xuất thông tin Càng ngày, ranh giới cộng đồng truy xuất thông tin hay cộng đồng truy xuất thông tin cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên, cộng đồng nghiên cứu sở liệu trở nên mờ nhạt cộng đồng phát triển lĩnh vực quan tâm chung, ví dụ trả lời câu hỏi, tóm tắt truy xuất thông tin từ tài liệu có cấu trúc Một lĩnh vực phát triển khác mà kỹ thuật truy xuất thông tin kế tục phát huy, truy xuất thông tin không văn hay gọi truy xuất thông tin đa phương tiện Loại hình tìm kiếm dựa rút trích tự động phần văn hay lời nói tài liệu đa phương tiện, sau xử lý kỹ thuật truy xuất thông tin dựa văn (text-based IR techniques) Tuy nhiên, người ta ngày quan tâm đến phát triển kỹ thuật phơi bày cụ thể thông tin phương tiện truyền thông tích hợp chúng với phương pháp tìm kiếm thiết lập tốt cách rút trích chúng Trong phạm vi đề tài, quan tâm nhiều đến truy xuất thông tin văn Footer Page of 16 Header Page 10 of 16 1.2 Hệ truy xuất thông tin 1.2.1 Khái niệm hệ truy xuất thông tin Theo lý thuyết, hệ thống truy xuất thông tin hệ thống thông tin Nó sử dụng để lưu trữ, xử lý, tra cứu, tìm kiếm, phổ biến yếu tố thông tin đến người sử dụng Hệ thống truy xuất thông tin thường thao tác với liệu dạng văn giới hạn yếu tố thông tin văn Hệ thống thông tin bao gồm tập hợp yếu tố thông tin, tập yêu cầu chế tìm kiếm để định yếu tố thông tin liên quan đến yêu cầu Theo nguyên tắc, mối quan hệ câu truy vấn tài liệu có từ so sánh trực tiếp Nhưng thực tế, liên quan câu truy vấn tài liệu xác định định trực tiếp mà gián tiếp cách: tài liệu, yếu tố thông tin phải chuyển sang ngôn ngữ mục trước xác định mức độ liên quan Sau định nghĩa hệ truy xuất thông tin số tác giả: Salton (1989): “Hệ truy xuất thông tin xử lý tập tin lưu trữ yêu cầu thông tin, xác định tìm từ tập tin thông tin phù hợp với yêu cầu thông tin Việc truy xuất thông tin đặc thù phụ thuộc vào tương tự thông tin lưu trữ yêu cầu, đánh giá cách so sánh giá trị thuộc tính thông tin lưu trữ yêu cầu thông tin” Kowalski (1997): “Hệ truy xuất thông tin hệ thống có khả lưu trữ, truy xuất trì thông tin Thông tin trường hợp bao gồm văn bản, hình ảnh, âm thanh, video đối tượng đa phương tiện khác” Footer Page 10 of 16 Header Page 66 of 16 65 Bởi tập kết trả xếp theo thứ tự nên độ xác độ bao phủ tính ngưỡng vị trí thứ tự thứ i tài liệu Vấn đề bảng liên quan thực tế: Đối với cách tính ta phải quan niệm độ liên quan tài liệu mức độ: tài liệu có liên quan tài liệu không liên quan Cách quy ước nhằm làm đơn giản hoá cách đánh giá Trên thực tế, độ liên quan tài liệu không mức độ mà có nhiều mức độ 5.5 Phương pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ 5.5.1 Đồ thị biểu diễn hiệu suất thực thi hệ thống truy xuất • Ứng với câu truy vấn thực hệ thống có độ bao phủ (Ri), độ xác (Pi) cụ thể • Với cặp (Ri, Pi) biểu diễn hệ trục toạ độ ROP tương ứng với điểm • Biểu diễn kết tập câu truy vấn ROP ta có đường cong mô tả hiệu suất thực thi hệ thống Đường cong có dạng: Hình 5.2: Đường cong mô tả hiệu suất thực thi hệ thống Footer Page 66 of 16 Header Page 67 of 16 66 • Từ đồ thị ta rút kết luận: độ bao phủ vả độ xác có mối quan hệ gần tỷ lệ nghịch, R tăng P giảm ngược lại • Khi ta cố gắng làm tăng R cách tăng số tài liệu trả (N), N tăng nên may số tài liệu có liên quan tăng tổng số tài liệu có liên quan so với câu truy vấn bảng liên quan chuẩn không đổi ⇒ R tăng • Do N tăng có nghĩa số tài liệu trả tăng số tài liệu có liên quan tăng không đáng kể so với số tài liệu trả (lúc tăng) nên P giảm Nói cách khác, cho hệ thống thực thi câu truy vấn mà ta tăng số tài liệu trả kết có nhiều tài liệu có ích nhiều số tài liệu không liên quan (tài liệu rác) tăng 5.5.2 Đường cong độ bao phủ độ xác RP Cơ sở tính bảng giá trị cho đường cong RP dựa vào bảng liên quan lý thuyết danh sách tài liệu liên quan thứ tự hệ thống truy xuất thông tin trả (còn gọi bảng liên quan thực tế) Xét ví dụ sau: Thực kiểm tra hệ thống tìm kiếm thông tin với tập câu hỏi Xét câu hỏi thứ k Cách tính sau: Tài liệu liên quan trả phần giao danh sách tài liệu liên quan theo lý thuyết theo thực tế Do đó, tổng số tài liệu liên quan trả : Bảng giá trị R, P tính với n tài liệu trả sau: Footer Page 67 of 16 67 Header Page 68 of 16 Bảng 5.1: Bảng giá trị R, P tính với n tài liệu trả Liên quan Số tài liệu Số tài liệu Độ bao phủ theo lý liên quan trả (R) thuyết ? trả true 1 1/5=0.2 n Doc ID Độ xác (P) 588 589 true 2 2/5=0.4 2/2=1.00 576 false 2/5=0.4 2/3=0.67 590 true 3/5=0.6 3/4=0.75 986 false 3/5=0.6 3/5=0.60 592 true 4/5=0.8 4/6=0.67 984 false 4/5=0.8 4/7=0.57 988 false 4/5=0.8 4/8=0.50 578 false 4/5=0.8 4/9=0.44 10 985 false 10 4/5=0.8 4/10=0.40 11 103 false 11 4/5=0.8 4/11=0.36 12 591 false 12 4/5=0.8 4/12=0.33 13 772 true 13 5/5=1.0 5/13=0.38 14 990 false 14 5/5=1.0 5/14=0.36 1/1=1.00 Nhìn bảng giá trị trên, ta thấy giá trị R=0.6 có giá trị P (P=0.75 P=0.6) ngược lại giá trị P=1.0 có giá trị R (R=0.2, R=0.4) Để xây dựng đường cong cho câu truy vấn ta dùng phương pháp tính nội suy độ xác dựa 11 điểm chuẩn độ bao phủ: Xét giá trị R điểm chuẩn 0.0, 0.1, 0.2, 0.3, 0.4,0.5,0.6,0.7,0.8,0.9, 1.0 Tại vị trí tính giá trị P theo công thức sau: PR(i) = max PR( j ) với j ≥ i Ta có bảng nội suy giá trị P cho câu hỏi thứ k sau: Footer Page 68 of 16 68 Header Page 69 of 16 Bảng 5.2: Bảng nội suy giá trị P cho câu hỏi thứ k Độ bao phủ Độ Độ bao phủ Độ xác (R) xác (P) chuẩn hoá nội suy 588 1/5=0.2 1/1=1.00 hoá 1.00 589 2/5=0.4 2/2=1.00 0.1 1.00 576 2/5=0.4 2/3=0.67 0.2 1.00 590 3/5=0.6 3/4=0.75 0.3 1.00 986 3/5=0.6 3/5=0.60 0.4 1.00 592 4/5=0.8 4/6=0.67 0.5 0.75 984 4/5=0.8 4/7=0.57 0.6 0.75 988 4/5=0.8 4/8=0.50 0.7 0.67 578 4/5=0.8 4/9=0.44 0.8 0.67 10 985 4/5=0.8 4/10=0.40 0.9 0.38 11 103 4/5=0.8 4/11=0.36 1.0 0.38 12 591 4/5=0.8 4/12=0.33 13 772 5/5=1.0 5/13=0.38 14 990 5/5=1.0 5/14=0.36 N ID Đồ thị RP cho câu hỏi thứ k Hình 5.3: Đồ thị RP cho câu hỏi thứ k Footer Page 69 of 16 69 Header Page 70 of 16 5.5.3 Đường cong RP cho tập truy vấn Xét tập câu truy vần gồm N câu truy vấn Lần lượt tính bảng giá trị RP nội suy (tính P dựa 11 điểm chuẩn R) Tính giá trị trung bình P điểm chuẩn R sau: N F(R ) =1 N P(R ) = ∑ Nhận xét: Phương pháp đánh giá hệ thống dựa vào bảng giá trị RP nội suy không đánh giá cách xác hiệu suất tìm kiếm thông tin hệ thống truy xuất thông tin giá trị R, P giá trị nội suy 5.5.4 Đánh giá hệ thống truy xuất thông tin dựa vào đồ thị Ta tiến hành kiểm tra hệ thống với tập tài liệu mẫu tập câu truy vấn mẫu Giả sử đồ thị biểu diễn hệ thống sau: Hình 5.4: Đồ thị biểu diễn hệ thống với tập tài liệu mẫu tập câu truy vấn mẫu Nhìn đồ thị : • Đường cong A biểu diễn hiệu suất thực thi hệ thống A Footer Page 70 of 16 Header Page 71 of 16 70 • Đường cong B biểu diễn hiệu suất thực thi hệ thống B • Do đường A nằm đường B nên hiệu suất hệ thống A lớn hệ thống B Một cách tổng quát : đường cong gần phía góc bên phải hệ trục toạ độ (có nghĩa độ xác độ bao phủ lớn nhất) đường cong biểu diễn hiệu suất thực thi tốt Với cách biểu diễn đồ thị ta đánh giá nhiều hệ thống đánh giá hệ thống điều kiện thực thi khác 5.6 Sự liên quan câu hỏi tài liệu 5.6.1 Các độ liên quan Các độ liên quan gồm có: • Độ liên quan nhị phân (binary relevance): độ liên quan có giá trị: có liên quan (relevant: 1), không liên quan (not relevant: 0) • Độ liên quan nhiều mức độ (độ liên quan đa cấp độ): (multiple degree relevance, multiple level relevance): độ liên quan xét nhiều mức độ, có nhiều giá trị Ví dụ độ liên quan mức độ : - Mức độ có liên quan (relevant): - Mức độ liên quan phận (partically relevant): - Không liên quan (not relevant) : 5.6.2 Các vấn đề độ liên quan Cơ sở đánh giá hệ thống truy xuất thông tin: - Một tập tài liệu (document) đại diện - Một tập chủ đề (topic) đại diện - Một vài câu truy vấn cho chủ đề Footer Page 71 of 16 Header Page 72 of 16 71 - Bảng đánh giá độ liên quan tài liệu với chủ đề Do vấn đề việc đánh giá phải thống quan điểm mức độ liên quan Độ liên quan khái niệm đa khía cạnh (multifaceted), đa chiều (multidimensional) Khái niệm độ liên quan đến vấn đề khó khăn lĩnh vực khoa học thông tin Những nghiên cứu gần tập trung vào nhân tố ảnh hưởng lên việc đánh giá độ liên quan chiều (hoặc tiêu chuấn) độ liên quan Có nhiều loại độ liên quan: độ liên quan thuật toán, độ liên quan chủ đề, độ liên quan nhận thức, độ liên quan tình huống, độ liên quan động Độ liên quan vốn mang tính chủ quan, đánh giá độ liên quan thường không thống tính cá nhân nhân tố thời gian : - Một tài liệu đánh giá có liên quan với tỉ lệ đồi với người khác tỉ lệ khác => độ liên quan phủ thuộc tính cá nhân - Một tài liệu đánh giá có liên quan với tỉ lệ thời điểm t, thời điểm t’ tỉ lệ thay đổi => độ liên quan phụ thuộc nhân tố thời gian Tuy nhiên thay đổi chấp nhận tương đối thấp Trong hầu hết thử nghiệm đánh giá hệ thống tìm kiếm thông tin (bao gồm thử nghiệm TREC) người ta thường quan tâm độ liên quan nhị phân (có nghĩa tài liệu đánh giá có liên quan (1) liên quan (0)) Ưu điểm dộ liên quan nhị phân việc tính toán R, P đơn giản; khuyết điểm phản ánh khả liên quan tài liệu nhiều mức độ với thực tế Footer Page 72 of 16 Header Page 73 of 16 72 Trong cách đánh giá tìm kiếm thông tin TREC, khái niệm “liên quan” khái niệm tuyệt đối: tài liệu liên quan không liên quan Điều giả sử nhằm làm đơn giản hóa việc tính toán độ đo Nhiều kiềm tra khác tiến hành đánh giá với tỷ lệ độ liên quan nhiều mức độ Độ liên quan cấp độ thực Hội nghị NTCIR 1999 (NIINACSIS Test Collection for IR systems), WEB track TREC-9 Độ liên quan cấp dùng NTCIR 2000 Tỷ lệ độ liên quan tài liệu vị trí thứ N trừ hao, điều phản ánh tình trạng tài liệu trả phía danh sách có giá trị người sử dụng : mức độ tương quan không giảm trùng lặp thông tin với tài liệu phía làm cho tài liệu phía phần giá trị Giả sử liên quan tài liệu độc lập với tài liệu khác không thực tế hầu hết trường hợp Trong hầu hết nhiệm vụ tìm kiếm thông tin giống tìm kiếm mạng, tìm kiếm câu trả lời cho câu hỏi đặc biệt cho vài tham khảo đó, giả sử rắng người dùng đọc lướt qua tài liệu trả bắt đầu với tài liệu dễ thấy nhất, bật (ở phía danh sách) độ liên quan tài liệu phía danh sách phụ thuộc vào tài liệu đọc Khả tài liệu chứa thông tin giảm xuống đến cuối danh sách tài liệu Sự phụ thuộc thường bỏ qua lần nghiên cứu tìm kiếm thông tin Ngoài việc định giá độ liên quan mang tính chủ quan Chúng ta thường có nhiều ý kiến khác mức độ liên quan Do mức độ liên quan tài liệu phân biệt: Footer Page 73 of 16 73 Header Page 74 of 16 - Bảng liên quan đươc định giá tác giả tài liệu hay tác giả - Bảng liên quan định giá nhóm đánh giá - Bảng liên quan định giá điều kiện hay định giá điều kiện khác 5.6.3 Đánh giá với độ liên quan nhiều cấp độ (Multiple degree relevance or non-binary relevance) Trong vài thử nghiệm đánh giá độ liên quan nhiều cấp độ có vài thí nghiệm thực cho thấy lợi ích việc đánh giá độ liên quan nhiều cấp độ khác Độ bao phủ (R), độ xác (P) phương pháp cổ điển để đánh giá khả thực thi IR thường tính dựa việc đánh giá độ liên quan nhị phân Do việc đánh giá độ liên quan nhiều cấp độ tiến hành bước đầu, sau giá trị mức độ qui giá trị 0, để đánh giá Ví dụ : đánh giá độ liên quan tiến hành mức độ: - có liên quan (relevant) => ký hiệu A - liên quan phần (partically relevant ) => ký hiệu B - không liên quan (not relevant) => ký hiệu C Mức độ liên quan qui giá trị để tính R, P Có cách tính: • A, B mang giá trị (có liên quan) C mang giá trị (không liên quan) • A mang giá giá trị (có liên quan) B, C mang giá trị (không liên quan) Với cách tiến hành để trì mức độ liên quan tài liệu, định dạng tập tin đánh giá độ liên quan (relevant judgement) sau: Footer Page 74 of 16 74 Header Page 75 of 16 topic-ID dumy doc-ID relevant assessment Trong đó: topic-ID : số chủ đề (topic) dumy : trường cho biết tài liệu có mức độ liên quan (A, B, C) doc-ID : số tài liệu relevant assessment: mang giá trị 1, giá trị đánh giá độ liên quan sau qui độ liên quan nhị phân Một ví dụ khác đo độ liên quan tài liệu mức độ: - độ liên quan cao (highly relevant) - độ liên quan vừa (fairly relevant) - độ liên quan trung bình (marginally relevant) - không liên quan (irrelevant) Tuy nhiên Hội nghị Đánh giá hệ thống thông tin gần đây, độ liên quan nhị phân xem cách đánh giá chuẩn, chí nhiều trường hợp đánh giá độ liên quan nhiều cấp độ qui đánh giá nhị phân để tính độ bao phủ độ xác Cách tiến hành có khuyết điểm không kiểm tra mức độ cụ thể độ liên quan Một số người có quan điểm cách đo độ R P dựa vào việc đánh giá nhị phân nên tránh cách tính không quan tâm đến thay đổi độ phức tạp mức độ liên quan, làm sai lệch tính tự nhiên thực tế độ liên quan Một giải pháp để giải vấn đề tổng quát hoá độ R P Dựa vào lý thuyết, thực nghiệm, nghiên cứu, mức độ liên quan tài liệu thay đổi cách rõ ràng, vài tài liệu liên quan nhiều hơn, số khác Thật khó để xác định mức độ liên quan tiến hành đánh giá Điều tuỳ thuộc vào tình đánh giá hệ thống Footer Page 75 of 16 75 Header Page 76 of 16 5.6.4 Phương pháp đo độ bao phủ (R), độ xác (P) dựa độ liên quan nhiều cấp độ Phương pháp đo dựa vào độ bao phủ (R) độ xác (P) phương pháp truyền thống độ đo R, P tính dựa vào độ liên quan nhị phân Đối với trường hợp độ liên quan nhiều cấp độ ta có cách giải sau: • Qui tất mức độ liên quan giá trị 0, (giống đưa dộ liên quan nhị phân) => cách theo Schamber nên tránh • Tổng quát hoá R P Độ bao phủ tổng quát độ xác tổng quát: (generalized, non-binary recall and precision) Gọi R tập n tài liệu phục hồi từ sở liệu tài liệu D={ d1, d2, …, dN } với câu truy vấn thuộc chủ đề đó, R ≤ D Gọi tài liệu di sở liệu tài liệu có tỉ lệ độ liên quan r(di) Độ bao phủ tổng quát gR độ xác tổng quát gP tính theo công thức sau: gP = gR = ∑ r(d) d ∈D n ∑ r(d) d ∈R ∑ r(d) d∈D Cách tính tương tự tính R, P nhị phân truyền thống, cho phép tính R trung bình P trung bình tập câu truy vấn, tính P dựa R, tính dựa ngưỡng giới hạn số tài liệu trả cho phép biểu diễn đường cong PR Footer Page 76 of 16 Header Page 77 of 16 76 Ghi chú: r(d) số thực có giá trị khoảng (0.0, 1.0) Ví dụ với mức độ liên quan Tính r(d) • Mức độ liên quan cao : => r(d)=3/4 • Mức độ liên quan vừa : => r(d)=2/4 • Mức độ liên quan trung bình : => r(d)=1/4 • Không liên quan :0 => r(d)=0 Footer Page 77 of 16 Header Page 78 of 16 77 KẾT LUẬN Hiện có nhiều hệ thống truy xuất thông tin (Information Retrieval system) tồn để trợ giúp người Tuy nhiên, khả tìm kiếm thông tin hệ thống chắn khác Do đó, việc đánh giá hệ thống truy xuất thông tin (Evaluation of Information Retrieval systems) nhu cầu thiếu nhằm xác định hệ thống truy xuất thông tin hiệu Luận văn nghiên cứu vấn đề hệ truy xuất thông tin đánh giá hệ truy xuất thông tin Việc đánh giá có ý nghĩa lớn tồn phát triển hệ thống truy xuất thông tin Nó giúp xác định khả tìm kiếm hệ thống truy xuất thông tin Từ mà tổ chức, công ty, trường học tạo hệ thống phát triển, thay đổi hệ thống để đưa khả tìm kiếm thông tin tốt Việc đánh giá hệ truy xuất thông tin (IR) để biết điểm mạnh, điểm yếu hệ thống IR mà từ ta chọn hệ thống IR tối ưu phục vụ cho nhu cầu tìm kiếm thông tin cách có hiệu Tôi hy vọng đề tài đóng góp nhỏ, có ý nghĩa cho việc nghiên cứu lĩnh vực truy xuất thông tin Footer Page 78 of 16 Header Page 79 of 16 78 HƯỚNG PHÁT TRIỂN Việc nghiên cứu đánh giá hệ thống tìm kiếm thông tin đa dạng với nhiều phương pháp, mô hình đánh giá khác Những mô hình, phương pháp tiếp tục nghiên cứu, bàn luận giới Trên sở phần nghiên cứu, đề tài có hướng phát triển phương pháp đánh giá: Ngoài cách đánh giá dựa vào 11 điểm chuẩn độ bao phủ, đề tài phát triển thêm phương pháp đánh giá khác phương pháp đánh giá dựa độ xác trung bình nghiêm ngặt (Mean Average Precision – MAP), đo dựa giá trị đơn Swet’s E-Measure (Singlevalued Measure) chiều dài tìm kiếm trung bình Footer Page 79 of 16 79 Header Page 80 of 16 TÀI LIỆU THAM KHẢO Tiếng Việt: Nguyễn Duy Hiệp - Hoàng Minh Ngọc Hải (2004), “Xây dựng tòa soạn điện tử có hỗ trợ lấy tin từ website khác”, luận văn cử nhân, trường Đại học Khoa học Tự nhiên Nguyễn Thị Thanh Hà – Nguyễn Trung Hiếu (2005), “Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa mục từ ghép”, luận văn cử nhân, trường Đại học Khoa học Tự nhiên Tiếng Anh: Gerald J.Kowalski, Mark T.Maybury, “Information Storage and Retrieval System”, 2004 Gerard Salton, Michael J.McGill, “Introduction to Modern Information Retrieval”, International Student Edition, New York, 1983 William B.Frakes, Ricardo Baeza – Yakes, “Information Retrieval – Data Structures & Algorithms”, 1992 Ricardo Baeza – Yakes, Berthier Ribeiro-Neto, “Modern Information Retrieval ”, Addison Press, Anh, 1999 Dong Thi Bich Thuy, Ho Bao Quoc, Marie-France Bruandet, JeanPierre Chevallet, “An approach to Vietnamese Information Retrival” Footer Page 80 of 16 ... QUAN VỀ HỆ TRUY XUẤT THÔNG TIN 1.1 Lịch sử truy xuất thông tin hệ thống truy xuất thông tin .5 1.2 Hệ truy xuất thông tin 1.2.1 Khái niệm hệ truy xuất thông tin .9 1.2.2 Cách... hệ thống truy xuất thông tin .10 1.2.3 Các phương tiện truy xuất thông tin 12 1.3 So sánh truy xuất thông tin cổ điển truy xuất thông tin Web .14 1.4 So sánh truy xuất thông tin với truy. .. Chương 5: ĐÁNH GIÁ CÁC HỆ THỐNG TRUY XUẤT THÔNG TIN 58 5.1 Lý để tiến hành đánh giá hệ thống truy xuất thông tin 58 5.2 Các tiêu chuẩn dùng để đánh giá .59 5.3 Các mô hình đánh giá