Nghiên cứu và đánh giá các hệ truy xuất thông tin

40 478 0
Nghiên cứu và đánh giá các hệ truy xuất thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn sâu sắc tới Thầy giáo hướng dẫn, PGS.TS.Nguyễn Thanh Thuỷ người có hướng dẫn tận tình, quý báu giúp em hoàn thành luận văn Em xin cảm ơn Thầy Cô khoa Công nghệ Thông tin trường LUẬN VĂN THẠC SỸ KHOA HỌC Đại học Bách Khoa Hà Nội truyền đạt kiến thức quý báu khoá học Cuối xin cảm ơn gia đình quan nơi công tác tạo điều kiện thuận lợi để hoàn thành khoá học NGHIÊN CỨU VÀ ĐÁNH GIÁ CÁC HỆ TRUY XUẤT THÔNG TIN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: CAO THỊ THU HƯƠNG Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH THUỶ HÀ NỘI - 2006 Hà nội, tháng 10 năm 2006 Cao Thị Thu Hương MỤC LỤC 4.3 Truy xuất audio 51 4.4 Truy xuất đồ hoạ .51 4.5 Truy xuất ảnh 53 4.5.1 Truy xuất ảnh dựa vào màu sắc 54 4.5.2 Truy xuất ảnh dựa vào vân 54 4.5.3 Truy xuất ảnh dựa vào hình dạng .55 Chương 5: ĐÁNH GIÁ CÁC HỆ THỐNG TRUY XUẤT THÔNG TIN 58 5.1 Lý để tiến hành đánh giá hệ thống truy xuất thông tin 58 5.2 Các tiêu chuẩn dùng để đánh giá .59 5.3 Các mô hình đánh giá .59 5.4 Các độ đo dùng để đánh giá .62 5.4.1 Các khái niệm độ đo liên quan 62 5.4.2 Cách tính độ bao phủ (R) độ xác (P) 63 5.5 Phương pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ 65 5.5.1 Đồ thị biểu diễn hiệu suất thực thi hệ thống truy xuất 65 5.5.2 Đường cong độ bao phủ độ xác RP 66 5.5.3 Đường cong RP cho tập truy vấn 69 5.5.4 Đánh giá hệ thống truy xuất thông tin dựa vào đồ thị 69 5.6 Sự liên quan câu hỏi tài liệu 70 5.6.1 Các độ liên quan 70 5.6.2 Các vấn đề độ liên quan 70 5.6.3 Đánh giá với độ liên quan nhiều cấp độ .73 5.6.4 Phương pháp đo độ bao phủ (R), độ xác (P) dựa độ liên quan nhiều cấp độ 75 KẾT LUẬN .77 HƯỚNG PHÁT TRIỂN 78 TÀI LIỆU THAM KHẢO .79 Chương 1: TỔNG QUAN VỀ HỆ TRUY XUẤT THÔNG TIN 1.1 Lịch sử truy xuất thông tin hệ thống truy xuất thông tin .5 1.2 Hệ truy xuất thông tin 1.2.1 Khái niệm hệ truy xuất thông tin .9 1.2.2 Cách thức hoạt động hệ thống truy xuất thông tin .10 1.2.3 Các phương tiện truy xuất thông tin 12 1.3 So sánh truy xuất thông tin cổ điển truy xuất thông tin Web .14 1.4 So sánh truy xuất thông tin với truy xuất liệu .15 1.5 So sánh IRS với hệ thống thông tin khác 16 Chương 2: XÂY DỰNG MỘT HỆ TRUY XUẤT THÔNG TIN 19 2.1 Một số mô hình xây dựng hệ truy xuất thông tin 19 2.1.1 Mô hình không gian vector 19 2.1.2 Tìm kiếm Boolean .21 2.1.3 Tìm kiếm Boolean mở rộng 22 2.1.4 Mô hình xác suất .23 2.1.5 Đánh giá chung mô hình 23 2.2 Các bước xây dựng hệ truy xuất thông tin 23 2.2.1 Tách từ tự động cho tập tài liệu .23 2.2.2 Lập mục cho tài liệu 25 2.2.3 Tìm kiếm .25 2.2.4 Sắp xếp tài liệu trả (Ranking) 26 Chương 3: LẬP CHỈ MỤC 27 3.1 Khái quát hệ thống lập mục .27 3.2 Xác định mục từ quan trọng cần lập mục 28 3.3 Một số hàm tính trọng số mục từ .31 3.3.1 Tần số tài liệu nghịch đảo (Inverse Document Frequency) 32 3.3.2 Độ nhiễu tín hiệu (The Signal – Noise Ratio) 32 3.3.3 Giá trị độ phân biệt mục từ (Term Discrimination Value) 34 3.4 Lập mục cho tài liệu tiếng Anh 35 3.5 Lập mục cho tài liệu tiếng Việt 37 3.5.1 Khó khăn cho việc lập mục tiếng Việt 38 3.5.2 Đặc điểm từ tiếng Việt 40 3.5.3 Việc tách từ 41 3.6 Lập mục tự động cho tài liệu 43 3.7 Tập tin nghịch đảo tài liệu 44 3.7.1 Tập tin nghịch đảo 44 3.7.2 Phân biệt tập tin nghịch đảo tập tin trực tiếp 47 3.7.3 Tại sử dụng tập tin nghịch đảo để lập mục 48 Chương 4: TRUY XUẤT THÔNG TIN ĐA PHƯƠNG TIỆN 50 4.1 Truy xuất thông tin đa phương tiện 50 4.2 Truy xuất audio ngôn ngữ nói 51 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Hệ thống truy xuất thông tin theo chế cổ điển 10 Chương 1: TỔNG QUAN VỀ HỆ TRUY XUẤT Hình 1.2: Cơ chế tìm kiếm Search Engine 13 THÔNG TIN Hình 3.1: Lưu đồ xử lý cho hệ thống lập mục 28 Hình 3.2: Các từ theo thứ tự 30 Hình 3.3: Quá trình chọn từ làm mục 37 Hình 5.1: Tập liệu tài liệu 63 Hình 5.2: Đường cong mô tả hiệu suất thực thi hệ thống 64 Hình 5.3: Đồ thị RP cho câu hỏi thứ k 68 Hình 5.4: Đồ thị biểu diễn hệ thống với tập tài liệu mẫu 69 tập câu truy vấn mẫu 1.1 Lịch sử truy xuất thông tin hệ thống truy xuất thông tin Truy xuất thông tin có lịch sử lâu đời gắn liền với thư viện trung tâm tìm kiếm thông tin Trước đây, máy tính internet chưa đời, người có nhu cầu thông tin việc nhờ trợ giúp thông tin từ bạn bè, người thân tìm đến thư viện trung tâm thông tin để tìm kiếm thông tin cần thiết Cách biểu diễn, lưu trữ, tổ chức phổ biến thông tin thư viện xem cách làm truyền thống hệ thống truy xuất thông tin Khi tiếp nhận yếu tố thông tin hay tài liệu mới, thư viện DANH MỤC CÁC BẢNG Bảng 1.1: So sánh IR cổ điểm với Web IR 14 Bảng 1.2: Sự khác hệ truy xuất thông tin hệ truy xuất 16 liệu Bảng 1.3: So sánh hệ truy xuất thông tin với hệ thống khác 18 Bảng 3.1: Cách tập tin nghịch đảo lưu trữ 47 Bảng 3.2: Cách tập tin trực tiếp lưu trữ 48 Bảng 3.3 Thêm tài liệu vào tập tin nghịch đảo 48 Bảng 5.1: Bảng giá trị R, P tính với n tài liệu trả 67 Bảng 5.2: Bảng nội suy giá trị P cho câu hỏi thứ k 68 tiến hành phân tích yếu tố thông tin Sau đó, mô tả thích hợp chọn để mô tả, phản ánh nội dung yếu tố thông tin Dựa mô tả này, yếu tố thông tin phân loại theo thủ tục thiết lập xát nhập vào tập hợp yếu tố thông tin tồn Các thủ tục tạo để hệ thống hóa yêu cầu (các yêu cầu thiết kế để thay cho nhu cầu thông tin) để so sánh yêu cầu, truy vấn với mô tả yếu tố thông tin lưu trữ Việc so sánh sở để định yếu tố thông tin thích hợp với câu truy vấn tương ứng Cuối cùng, chế tìm kiếm phổ biến thông tin dùng để trả yếu tố thông tin cần thiết đến người sử dụng hệ thống Tuy nhiên, phải xem xét vấn đề nảy sinh vị trí thật yếu tố thông tin thêm vào tập hợp tài liệu Có nhiều chế tiếp cận khác để giải vấn đề chúng liên quan đến cách tổ chức vật lý luận lý yếu tố thông tin Trong thư viện, cách tổ chức vật lý việc lập mục cho tài liệu, tức xếp số tin, lập mục, đánh số cho tài liệu Những khó khăn không giải sách, cách đánh số thường quy định thư viện lớn đời máy tính Quả thật, nhờ có máy tính mà việc Những sách đặt vào vị trí xác định dựa vào lưu trữ, truy xuất thông tin trở nên dễ dàng Máy tính thao tác số Ngoài ra, cách tổ chức luận lý liệu phải thêm vào với cách tổ tất loại thông tin lưu trữ cách nhanh chóng số lượng chức vật lý để giúp người sử dụng truy xuất thông tin dễ dàng Chẳng thông tin khổng lồ Ngoài ra, chế truy xuất thông tin máy tính hạn, sách ấn truy xuất thông tin xác định nhanh chóng hiệu tùy thuộc mô hình cài đặt, thuật toán chế cách nhìn vào danh mục chủ đề thư viện với thuật ngữ cần tìm Cơ chế tìm kiếm giống với chế truy xuất thông tin “truy xuất thông tin” Một ta tìm thấy thuật ngữ thích hợp, thẻ số kế thư viện Trước hết, dựa ngôn ngữ mục yếu tố thông tin đại tiếp xác định sách liên quan đến chủ đề tìm kiếm diện cho nội dung tài liệu, tập tài liệu biểu diễn dạng tập hợp Những sách phụ thuộc vào số chúng tìm thấy mục đại diện cho tập tài liệu Trong đó, nhu cầu truy xuất thông vị trí xác định Bên cạnh đó, muốn thay đổi thuật ngữ chủ tin biểu diễn dạng câu truy vấn có cấu trúc không cấu trúc mà đề sách, không cần thay đổi vị trí sách kệ sách; tức là, máy hiểu Sau đó, máy so sánh hai dạng biểu diễn trên, biểu yếu tố thông tin tổ chức luận lý lại cách thay đổi danh diễn tài liệu biểu diễn câu truy vấn, để biết tài liệu phù hợp với mục thư viện mà không cần thay đổi xếp vật lý truy vấn Sau so sánh, máy định vị vị trí vật lý yếu tố Xã hội ngày phát triển, thông tin đa dạng phong phú Bài thông tin cần tìm kiếm phổ biến đến người sử dụng Đây chế tìm toán đặt phải để quản lý số lượng thông tin khổng kiếm chung cho hệ thống truy xuất thông tin Tuy nhiên, cách không lồ cách có hiệu Từ dẫn đến nhu cầu làm giảm lượng yếu 20 năm, sau máy tính đời, hệ thống truy xuất thông tin chủ yếu tố thông tin đến kích thước quản lý, yếu tố thông tin lại sử dụng phòng thí nghiệm để tìm kiếm kho ngữ liệu sách xem có liên quan nhiều đến lĩnh vực tìm kiếm Mặt khác, chúng tài liệu Mặc dù chúng không bao hàm phương pháp toán phức tạp, ta khó dự đoán mẫu, trạng thái phát triển tương lai thông tin, Internet phát triển, kỹ thuật tìm kiếm chủ yếu World Wide Web dự đoán tỉ lệ rủi ro cao Khó khăn việc tổ chức kỹ thuật truy xuất thông tin Quả thật, hệ thống truy xuất thông tin thông tin hiệu ước muốn giữ yếu tố liên quan gần Ví dụ, ngày phát triển thuật toán, kỹ thuật truy xuất thông tin nhờ có chủ đề liên quan đến nhiều lĩnh vực phân tích hệ thống (nó liên đời Internet Vì nhu cầu truy xuất thông tin người Internet quan đến khoa học máy tính, vận trù học, kỹ thuật học, khoa học quản lý, giáo nhu cầu phổ biến, thiết thực, thiếu nên nhà phát triển hệ dục hệ thống thông tin) để gần mà phải để riêng thống truy xuất thông tin phải nỗ lực để mang lại hiệu năng, hiệu theo lĩnh vực Đây thực khó khăn Còn nhiều khó khăn cho người sử dụng nữa, chẳng hạn khó khăn phân loại, so sánh tài liệu, yếu tố thông Chúng ta thấy rõ ràng nghiên cứu truy xuất thông tin có truyền thống 1.2 Hệ truy xuất thông tin tập trung vào truy xuất thông tin dạng văn (Text Retrieval) hay tài liệu văn (Document Retrieval) Trong thời gian dài, truy xuất thông tin 1.2.1 Khái niệm hệ truy xuất thông tin gần đồng nghĩa với tìm kiếm tài liệu hay tìm kiếm văn Trong thời Theo lý thuyết, hệ thống truy xuất thông tin hệ thống thông tin gian gần đây, viễn cảnh ứng dụng ứng dụng trả lời câu hỏi Nó sử dụng để lưu trữ, xử lý, tra cứu, tìm kiếm, phổ biến yếu tố (Question Answering), ứng dụng nhận dạng chủ đề (Topic Detection), hay thông tin đến người sử dụng Hệ thống truy xuất thông tin thường thao tác với ứng dụng lưu vết (tracking) trở thành lĩnh vực hoạt động mạnh mẽ liệu dạng văn giới hạn yếu tố thông tin nghiên cứu truy xuất thông tin Càng ngày, ranh giới cộng đồng truy xuất văn Hệ thống thông tin bao gồm tập hợp yếu tố thông tin, thông tin hay cộng đồng truy xuất thông tin cộng đồng nghiên cứu xử tập yêu cầu chế tìm kiếm để định yếu tố thông tin lý ngôn ngữ tự nhiên, cộng đồng nghiên cứu sở liệu trở nên mờ nhạt liên quan đến yêu cầu Theo nguyên tắc, mối quan hệ câu truy cộng đồng phát triển lĩnh vực quan tâm chung, ví dụ vấn tài liệu có từ so sánh trực tiếp Nhưng thực tế, liên trả lời câu hỏi, tóm tắt truy xuất thông tin từ tài liệu có cấu trúc Một lĩnh vực phát triển khác mà kỹ thuật truy xuất thông tin kế tục phát huy, truy xuất thông tin không văn hay gọi truy xuất thông tin đa phương tiện Loại hình tìm kiếm dựa rút trích tự động phần văn hay lời nói tài liệu đa phương tiện, sau quan câu truy vấn tài liệu xác định định trực tiếp mà gián tiếp cách: tài liệu, yếu tố thông tin phải chuyển sang ngôn ngữ mục trước xác định mức độ liên quan Sau định nghĩa hệ truy xuất thông tin số tác giả: Salton (1989): xử lý kỹ thuật truy xuất thông tin dựa văn (text-based IR “Hệ truy xuất thông tin xử lý tập tin lưu trữ yêu cầu techniques) Tuy nhiên, người ta ngày quan tâm đến phát triển kỹ thông tin, xác định tìm từ tập tin thông tin phù hợp với thuật phơi bày cụ thể thông tin phương tiện truyền thông tích hợp chúng yêu cầu thông tin Việc truy xuất thông tin đặc thù phụ thuộc vào với phương pháp tìm kiếm thiết lập tốt cách rút trích tương tự thông tin lưu trữ yêu cầu, đánh giá chúng cách so sánh giá trị thuộc tính thông tin lưu trữ Trong phạm vi đề tài, quan tâm nhiều đến truy xuất thông tin văn yêu cầu thông tin” Kowalski (1997): “Hệ truy xuất thông tin hệ thống có khả lưu trữ, truy xuất trì thông tin Thông tin trường hợp bao gồm văn bản, hình ảnh, âm thanh, video đối tượng đa phương tiện khác” 10 11 Một cách cách đơn giản hệ thống truy xuất thông tin hệ Ở giai đoạn đầu tiên, giai đoạn tiền xử lý, tài liệu thô ngữ liệu thống hỗ trợ cho người sử dụng tìm kiếm thông tin cách nhanh chóng xử lý thành tài liệu tách từ, phân đoạn (tokenized dễ dàng Người sử dụng đưa vào câu hỏi, yêu cầu (dạng documents) sau lập mục thành danh sách vị trí ngôn ngữ tự nhiên) hệ thống tìm kiếm tập tài liệu (dạng ngôn từ (postings per terms) ngữ tự nhiên) lưu trữ để tìm tài liệu có liên quan, sau Ở giai đoạn thứ hai, người sử dụng đưa câu truy vấn (phi cấu xếp tài liệu theo mức độ liên quan giảm dần trả cho người sử trúc ngôn ngữ tự nhiên) mô tả nhu cầu thông tin họ Hệ thống dụng truy xuất thông tin biểu diễn câu truy vấn thành câu truy 1.2.2 Cách thức hoạt động hệ thống truy xuất thông tin vấn có cấu trúc mà máy hiểu Hệ thống truy xuất thông tin bắt đầu thực chất vấn, đối chiếu để tìm tài liệu, Hình 1.1 minh họa cấu trúc, cách hoạt động hệ thống truy yếu tố thông tin trả lời liên quan đến câu truy vấn Các thủ xuất thông tin cổ điển tục dùng để định yếu tố thông tin có liên quan đến câu truy vấn dựa biểu diễn câu truy vấn yếu tố Các tài liệu trả xếp thông tin có chứa thành phần ngôn ngữ mục Câu truy vấn thành danh sách tài liệu xếp theo thứ tự liên quan Câu truy vấn Người sử dụng hệ thống người dùng Cuối cùng, tài liệu, yếu tố thông tin tìm thấy hiển thị Xử lý câu truy vấn So khớp (ranked retrieved documents) Thông thường, tài liệu, yếu tố thông tin có liên quan nhiều xếp tài liệu liên Các tài liệu trả Sắp thứ tự Tài liệu lập mục quan Tùy vào hệ thống truy xuất thông tin khác mà chúng hiển thị thông tin liên quan theo cách khác Chẳng hạn, có hệ thống hiển thị tên tiêu đề đường dẫn đến tài liệu đó, có hệ thống vừa hiển thị tên, đường dẫn, vừa hiển thị nội Chỉ mục Kho ngữ liệu Các tài liệu trích lấy Xử lý văn dung liên quan đến câu truy vấn, có hệ thống phục vụ truy Vị trí từ Tài liệu phân đoạn, tách từ xuất thông tin mạng thêm vào liên kết đến trang web khác Lập mục Nhiều hệ thống thông tin có chế cho phép người sử dụng cung cấp phản hồi đến chất lượng kết trả Sử dụng phản hồi, hệ thống cố Hình 1.1: Hệ thống truy xuất thông tin theo chế cổ điển gắng thích ứng nỗ lực tìm kết tốt cho câu truy vấn 12 13 Việc lập mục giai đoạn tiền xử lý nguyên tắc giống sách báo không lành mạnh Ngoài ra, phân tích toàn cục chịu trách hệ thống thuật toán, cách thức khác Nguyên nhiệm tính toán toàn cục dùng hệ thống truy xuất thông tin tắc lập mục: Tài liệu hay yếu tố thông tin phi cấu trúc thêm xếp thứ tự trang (thứ tự trang hầu hết xác định trang hệ thống truy xuất thông tin chuyển sang thể đặc biệt, ngôn có liên kết với trang liên kết tới) ngữ mục Việc chuyển đổi thành phần thông tin thành ngôn ngữ mục thực thủ công, hay tự động hai gọi tiến trình Các tài liệu trả xếp lập mục Tiến trình lập mục thực dựa yếu tố người dùng 1.2.3 Các phương tiện truy xuất thông tin Người sử dụng Hình 1.2 minh họa cấu trúc phương tiện tìm kiếm Một Xử lý câu truy vấn Câu truy vấn Câu truy vấn tập mục đại diện cho tài liệu hệ thống thông tin đại diện cho nội dung tài liệu Do đó, kết tiến trình So khớp phương tiện tìm kiếm hệ thống truy xuất thông tin, nhiên, không Các tài liệu trả Sắp thứ tự Tài liệu lập mục giống hoàn toàn với hệ thống truy xuất thông tin cổ điển mô tả Sự khác biệt hệ thống truy xuất thông tin cổ điển phương tiện tìm Chỉ mục kiếm bắt nguồn từ khác biệt nguồn gốc liệu, có nghĩa kho lưu trữ khép kín định nghĩa tốt trái ngược với World Wide Web Vì cách tiếp cận trực tiếp đến tài liệu Web (như có kho ngữ liệu Xử lý văn thư viện), phương tiện tìm kiếm phải cần đến thành phần crawler Thành Vị trí từ Tài liệu phân đoạn, tách từ Lập mục phần phần mềm chịu trách nhiệm lấy trang web lưu trữ chúng kho nội Cơ chế crawling đưa thách thức công nghệ liên Kho ngữ liệu quan đến hiệu trình đến liên quan tài liệu – trang web động, nên crawler phải giữ cho kho nội cập nhật Các tài liệu ngày trích lấy Spider Kho liệu Việc crawling tài liệu Web không đủ liệu web gồm có nhiều thông tin dư thừa Phân tích toàn cục có trách nhiệm loại bỏ liệu không quan trọng trang Web giống trang bao gồm Hình 1.2: Cơ chế tìm kiếm Search Engine Bộ phân tích toàn cục 14 15 1.3 So sánh truy xuất thông tin cổ điển truy xuất thông tin Như đề cập trên, thay đổi liệu IR cổ điển không thường xuyên, thường lập mục lần Ngược lại, liệu Web Web thay đổi thường xuyên nên mục cần cập nhật Hơn Bảng biểu diễn khác biệt hệ thống truy xuất thông tin cổ điển (IR cổ điển) hệ thống truy xuất thông tin Web (Web nữa, tính khả truy cập liệu không quan trọng Web IR Tài liệu IR cổ điển thường đồng định dạng tài liệu IR) Web IR gồm nhiều loại khác nhau: tạo trang Bảng 1.1: So sánh IR cổ điển với Web IR web định dạng ngôn ngữ IR cổ điển Web IR Kích thước Lớn Khổng lồ viết dạng văn thô tài liệu IR cổ điển Trang Web thường Chất lượng liệu Sạch, không trùng lặp Lộn xộn, trùng lặp viết HTML (Hypertext Markup Language), vừa có lợi ích Tỉ lệ thay đổi liệu Hiếm Liên tục bất lợi hệ thống truy xuất thông tin : mặt, bao gồm liệu Khả truy cập liệu Có thể Truy cập phần có cấu trúc giúp việc phân tích dễ dàng ; mặt khác, thường không chứa Đa dạng định dạng Đồng nhất, nguồn Rất đa dạng Văn HTML # liên quan Nhỏ Lớn Dựa nội dung nhiều văn (hệ thống IR dựa thứ này), khó phân loại Kết trả Web IR nhiều so với IR cổ điển, gốc Tài liệu Kỹ thuật IR Một điểm khác biệt quan trọng tài liệu web không thường xuyên Dựa liên kết khó để thứ tự danh sách kết Và cuối cùng, IR cổ điển sử dụng kĩ thuật thứ tự dựa nội dung (content-based) Tuy nhiên, kĩ thuật áp dụng với Web IR Đây kĩ thuật thông dụng trước Google giới thiệu kĩ thuật thứ tự Khối lượng liệu hệ thống IR cổ điển lớn, khối dựa liên kết (link-based) Kĩ thuật thứ tự dựa liên kết sử lượng liệu hệ thống Web IR khổng lồ Khác biệt lớn dụng siêu liên kết (hyperlink) tài liệu web để thứ tự trang khối lượng liệu, thứ tự lượng, ảnh hưởng đến phần web cách hiệu chắn cứng đòi hỏi (một máy tính không đủ, nhớ 1.4 So sánh truy xuất thông tin với truy xuất liệu chứa toàn liệu) thuật toán (các định nghĩa hiệu thời gian không gian bị thay đổi) Một khác biệt khác biệt liệu Một hệ thống truy xuất thông tin hệ thống truy xuất Trong hệ thống IR cổ điển liệu làm sạch, liệu liệu Bảng trình bày số thuộc tính khác hệ thống Web IR phức tạp, hai trùng lắp vô ý spam có dụng truy xuất thông tin hệ thống truy xuất liệu ý tăng thứ hạng trang tạo lộn xộn Bảng 1.2: Sự khác hệ truy xuất thông tin hệ truy xuất liệu 16 17 Truy xuất thông tin Dữ liệu Truy xuất liệu liệu (DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ định (DSS), Các bảng liệu, có cấu trúc hệ trả lời câu hỏi (QAS) hệ truy xuất thông tin (IR) Truy vấn Từ khóa, ngôn ngữ tự nhiên SQL, đại số quan hệ Hệ quản trị sở liệu (DBMS) Liên quan tương đối, xấp xỉ Liên quan xác Sắp xếp theo mức độ liên quan Không xếp Người sử dụng có kiến thức liệu đơn giản hệ thống thiết kế nhằm thao tác trì điều tiến trình tự động khiển sở liệu Kết Văn tự do, không cấu trúc Truy cập Những người chuyên gia Bất hệ thống thông tin dựa tập mục lưu trữ (gọi sở liệu) cần thiết cho việc truy cập Do hệ quản trị sở DBMS tổ chức lưu trữ liệu dạng bảng Mỗi Hệ thống truy xuất thông tin thu thập tài liệu dựa yêu cầu thông tin sở liệu lưu trữ thành bảng khác Mỗi cột bảng người dùng Câu truy vấn liệu cấu trúc (thường dạng thuộc tính đại diện cho bảng, không trùng lặp ta gọi văn tự do), sử dụng từ khóa ngôn ngữ tự nhiên khóa Các bảng có mối liên hệ với thông qua khóa viết người dùng không thông thạo Vì cú pháp câu truy vấn DBMS có tập lệnh để hỗ trợ cho người dùng sử dụng truy vấn đến không định nghĩa xác nên kết bao gồm kết hợp liệu Vì muốn truy vấn đến CSDL DBMS ta phải học hết không xác thứ tự liên quan hay tương quan (relevance) chúng tập lệnh Nhưng ngược lại cung cấp cho ta liệu đầy đủ gần hoàn toàn xác Hiện DBMS sử dụng rộng rãi giới Hệ thống truy xuất liệu thu thập tập hợp tài liệu phù hợp mặt cú pháp với câu truy vấn người sử dụng Câu truy vấn liệu có cấu trúc (thường bảng sở liệu) thường sử dụng ngôn ngữ truy vấn định nghĩa hoàn chỉnh SQL hay đại số quan hệ Người sử dụng phải quen thuộc với cú pháp hiểu ngữ nghĩa ngôn ngữ truy vấn Vì vậy, câu truy vấn thường viết người am hiểu trình tự động Kết trả bao gồm tất tài liệu xác phù hợp với ngữ nghĩa câu truy vấn, thứ tự 1.5 So sánh IRS với hệ thống thông tin khác Hệ truy xuất thông tin tương tự nhiều hệ thống xử lý thông tin khác Hiện hệ thống thông tin quan trọng là: hệ quản trị sở Một số DBMS thông dụng: Access, SQL Server, Oracle Hệ quản lý thông tin (IMS) Hệ quản lý thông tin hệ quản trị sở liệu có thêm nhiều chức việc quản lý Những chức quản lý phụ thuộc vào giá trị nhiều kiểu liệu khác Nói chung hệ thống có mục đích đặc biệt phục vụ cho việc quản lý ta gọi hệ quản lý thông tin Hệ hỗ trợ định (DSS) Hệ hỗ trợ đinh dựa vào tập luật học, từ luật học rút luật mới, sau gặp vấn đề vào tập luật để đưa định thay cho người 18 19 Hệ thống áp dụng nhiều cho công việc nhận dạng Chương 2: XÂY DỰNG MỘT HỆ TRUY XUẤT chẩn đoán bệnh THÔNG TIN Hệ trả lời câu hỏi (QAS) Hệ trả lời câu hỏi cung cấp việc truy cập đến thông tin ngôn 2.1 Một số mô hình xây dựng hệ truy xuất thông tin ngữ tự nhiên Việc lưu trữ sở liệu thường bao gồm số lượng lớn vấn đề liên quan đến lĩnh vực riêng biệt kiến thức tổng quát Câu Mục tiêu hệ truy xuất thông tin trả tài liệu liên hỏi người dùng dạng ngôn ngữ tự nhiên Công việc hệ trả lời quan đến câu hỏi tốt Vì người ta đưa nhiều mô hình tìm câu hỏi phân tích câu truy vấn người dùng, so sánh với tri thức kiếm nhằm tính toán cách xác độ tương quan Sau số mô hình tìm kiếm bản: lưu trữ tập hợp vấn đề có liên quan lại để đưa câu trả lời thích hợp 2.1.1.Mô hình không gian vector Tuy nhiên, hệ trả lời câu hỏi giai đoạn thử nghiệm Việc xác định ý nghĩa ngôn ngữ tự nhiên dường chướng ngại lớn để sử dụng rỗng rãi hệ thống Bảng 1.3: So sánh hệ truy xuất thông tin với hệ thống khác IRS Tìm kiếm Lưu trữ Xử lý DBMS QAS Nội dung Các phần tử Các kiện tài có kiểu rõ ràng liệu Mô hình không gian vector tính toán độ tương quan câu hỏi tài liệu cách định nghĩa vector biểu diễn cho tài liệu, vector biểu diễn cho câu hỏi Mô hình dựa ý tưởng ý nghĩa tài MIS liệu phụ thuộc vào từ sử dụng bên Vector tài liệu vector câu hỏi sau tính toán để xác định độ tương quan Giống chúng Độ tương quan lớn chứng tỏ tài liệu liên quan tới câu liệu DBMS hỏi định nghĩa hỗ trợ Giả sử tập tài liệu gồm có hai từ t1 t2 Vector xây dựng Các văn Các phần tử Các kiện thêm gồm có thành phần: thành phần thứ biểu diễn xuất ngôn ngữ tự liệu rõ ràng thủ tục (tính t1, thành phần thứ hai biểu diễn xuất t2 Cách đơn giản để xây nhiên dạng bảng kiến thức tổng, tính dựng vector đánh vào thành phần xuất hiện, đánh từ tổng quát trung bình, không xuất Giả sử tài liệu gồm có từ t1 Ta biểu diễn cho tài liệu Các câu truy Các câu truy Các câu truy phép vector nhị phân sau: Tuy nhiên, biểu diễn vấn không vấn có cấu vấn không chiếu,…) không cho thấy tần số xuất từ tài liệu Trong trường xác trúc giới hạn hợp này, vector biểu diễn sau: 50 Chương 4: TRUY XUẤT THÔNG TIN ĐA PHƯƠNG TIỆN 51 4.2 Truy xuất audio ngôn ngữ nói Một người dùng muốn để tìm kiếm kho liệu văn lớn, khả để tìm kiếm nội dung nguồn audio chẳng hạn 4.1 Truy xuất thông tin đa phương tiện Truy xuất thông tin truyền thống tập trung vào vào tìm kiếm thông tin dạng văn (Text Retrieval) hay tài liệu văn (Document Retrieval) Trong thời gian dài, truy xuất thông tin gần đồng nghĩa với tìm kiếm tài liệu hay tìm kiếm văn Trong thời gian gần đây, viễn cảnh ứng dụng ứng dụng trả lời câu hỏi (question answering), ứng dụng nhận dạng chủ đề (Topic detection), hay ứng dụng lưu vết (tracking) trở thành lĩnh vực hoạt động mạnh mẽ nghiên cứu truy xuất thông tin Một lĩnh vực phát triển khác mà kỹ thuật truy xuất thông tin kế tục phát huy, truy xuất thông tin không văn hay gọi truy xuất thông tin đa phương tiện Loại hình tìm kiếm dựa rút trích tự động phần văn hay lời nói tài liệu đa phương tiện, sau xử lý kỹ thuật truy xuất thông tin dựa văn (text-based IR Techniques) Tuy nhiên, người ta ngày quan tâm đến phát triển kỹ thuật phơi bày cụ thể thông tin đa phương tiện truyền thông tích hợp chúng với phương pháp tìm kiếm thiết lập Định nghĩa: Truy xuất thông tin đa phương tiện trình làm thỏa mãn thông tin mà người dùng yêu cầu việc tất văn bản, đồ họa, audio (lời nói liên tục, hình ảnh tài liệu video có liên quan) vị trí tài liệu từ kho tài liệu lời nói, radio quảng bá đoạn hội thoại đánh giá cho phạm vi ứng dụng Một phân loại kỹ thuật phát triển hỗ trợ cho việc nhận dạng tự động lời nói Có nhiều ứng dụng phạm vi lĩnh vực ứng dụng chẳng hạn xác minh người nói, transcription, điều khiển lời nói,… 4.3 Truy xuất audio Thêm vào truy cập dựa nội dung tới âm lời nói, truy xuất nhiễu/tiếng động quan trọng lĩnh vực sản xuất âm nhạc phim/video/ Một hệ thống mô tả phân loại tiếng động userextensible hệ thống truy xuất, gọi Sound Fisher (www.musclefish.com), đưa từ số môn học bao gồm xử lý tín hiệu, Psychoacoustics, nhận dạng tiếng nói, âm nhạc máy tính sở liệu đa phương tiện Các thuật toán đánh mục hình ảnh sử dụng vector đặc trưng để tạo mục đối sánh ảnh, tác giả sử dụng vector đo trực tiếp đặc trưng âm học (như khoảng thời gian, loudness, pitch, độ sáng-brightness) để lập mục âm Điều làm cho người sử dụng tìm kiếm âm phạm vi đặc trưng rõ 4.4 Truy xuất đồ hoạ Lớp phương tiện quan trọng khác đồ hoạ, bao gồm bảng đồ thị (ví dụ đồ thị cột, thanh, line, hình tròn, scatter,…) Đồ thị tạo 52 53 thành từ thành phần liệu chẳng hạn điểm, dòng, nhãn Một ví thuộc tính chúng, quan hệ cấu trúc phân tích cho dụ hệ thống truy xuất đồ hoạ Sagebook đưa trường đại mục đích truy xuất liệu học Carnegie Mellon Sagebook, bao gồm tìm kiếm theo yêu cầu từ liệu đồ hoạ lưu trữ Ta yêu cầu truy vấn audio truy xuất audio Sagebook hỗ trợ truy vấn liệu đồ hoạ, việc biểu diễn (ví dụ mô tả nội dung), đánh số, tìm kiếm khả thích ứng 4.5 Truy xuất ảnh Các sách tăng nhiều hình ảnh - từ hình ảnh trang web tới sưu tập cá nhân từ máy ảnh số - leo thang yêu cầu truy Thêm vào đó, liệu đồ hoạ truy xuất sửa lại cho nhập hình ảnh hiệu hiệu suất cao Các nhà nghiên cứu rõ thích hợp tay Sagebook chứa biểu diễn bên ngữ nghĩa yêu cầu cho việc lập mục tìm kiếm không metadata kết hợp với cú pháp liệu đồ hoạ, bao gồm quan hệ không gian các hình ảnh (ví dụ: tên, giải) mà truy xuất trực tiếp đối tượng, mối quan hệ miền liệu (ví dụ interval, tọa độ chiều), nội dung hình ảnh Sự phát triển thuật toán tập trung vào đồ thị biến thiên thuộc tính liệu Tìm kiếm thực việc lập mục tự động cho đặc trưng visual hình ảnh (ví dụ: màu, đồ thị thuộc tính liệu, với chiến lược tìm kiếm vân, hình dáng) sử dụng nghĩa cho việc truy xuất luân phiên, theo thứ tự định sẵn để biến đổi mức độ đối sánh hình ảnh chủ đề lập mục thủ công Tuy nhiên, mục tiêu cuối Khi sưu tập hình ảnh văn lớn, có số kỹ thuật nhóm dựa vào ngữ nghĩa truy nhập vào hình ảnh liệu đồ hoạ dựa vào thuộc tính liệu đồ thị thiết kế để phân cụm cho việc trình duyệt sưu tập Lấy thông tin từ liệu ảnh có liên quan đến nhiều lĩnh vực khác, từ phòng trưng bày tranh nghệ thuật nơi lưu trữ Sagebook cung cấp kỹ thuật thích ứng tự động mà sửa tranh nghệ thuật lớn viện bảo tàng, kho lưu trữ ảnh chụp, kho lưu trữ đổi đồ thị truy xuất (ví dụ việc loại bỏ thành phần đồ thị) mà ảnh tội phạm, sở liệu ảnh địa lý, y học, điều làm cho lĩnh không phù hợp với truy vấn vực nghiên cứu phát triển nhanh công nghệ thông tin Khả truy xuất đồ thị nội dung đưa khả Lấy thông tin từ liệu ảnh đặt nhiều thách thức nghiên cứu mới phạm vi miền dựa vào đồ thị thương mại Chẳng hạn, cho khoa học gia kỹ sư Phân tích ảnh, xử lý ảnh, nhận dạng đồ thị hiển thị quy tắc chiếm ưu (predominant) mẫu, giao tiếp người máy lĩnh vực nghiên cứu quan trọng miền chẳng hạn nghiên cứu đồ (địa hình, đặc trưng), kiến trúc góp phần vào phạm vi nghiên cứu (bản thiết kế nhà), truyền thông mạng (các router liên kết), hệ Khía cạnh tiêu biểu lấy thông tin từ liệu ảnh dựa thống máy móc (các thành phần kết nối) kế hoạch vận động cho công bố có sẵn đối tượng nhận thức màu sắc, vân lực lượng vũ trang (ví dụ: ảnh hưởng phòng thủ che phủ (texture), hình dáng, cấu trúc, quan hệ không gian, hay thuộc ngữ nghĩa đồ) Trong trường hợp trường hợp thành phần đồ thị, như: đối tượng, vai trò hay kiện hay liên quan đến thông tin 54 55 ngữ nghĩa quan hệ cảm giác, cảm xúc, nghĩa ảnh Thật phân tích láng giềng với Vân ảnh màu vân ảnh xám ảnh, nhận dạng mẫu, hay xử lý ảnh đóng vai trò hệ thống Vân gồm nhiều vân gốc hay vân phần tử gộp lại, gọi texel lấy thông tin từ ảnh Chúng cho phép trích rút tự động hầu hết Có lớp ảnh mà màu sắc giải được, đòi hỏi phải thông tin nhận thức, thông qua phân tích phân bổ điểm ảnh dùng đặc trưng vân Ví dụ ảnh liên quan đến cấu trúc điểm phân tích độ đo 4.5.1 Truy xuất ảnh dựa vào màu sắc Màu sắc vấn đề cần tập chung giải nhiều nhất, ảnh màu thông tin quan trọng ảnh màu sắc Hơn thông tin ảnh như: cỏ, mây, đá, sợi Vân giải tốt cho việc tìm kiếm lớp ảnh Trong hầu hết trường hợp, phân đoạn ảnh thật texel khó nhiều trường hợp tự nhiên sinh hoa văn thiên nhiên màu sắc thông tin người dùng quan tâm nhất; qua đặc trưng màu sắc, có Thay vậy, việc định lượng số hay thông tin thống kê số mô thể lọc nhiều lớp ảnh, thông qua vị trí, không gian, định lượng tả cho vân tính từ mức xác, hay mức màu chúng màu ảnh Phương pháp phổ biến để tìm kiếm ảnh tập ảnh hỗn tạp cho trước dựa vào lượt đồ màu chúng Đây cách làm đơn giản, tốc độ tìm kiếm tương đối nhanh khuyết điểm kết tìm kiếm lại có độ xác không cao Nhưng xem bước lọc cho tìm kiếm sau Muốn kết xác cao đòi hỏi kết hợp đồng thời với vân (texture) hình dáng (shape) Cho đến nay, để giải vấn đề màu sắc, cách tiếp cận dựa vào lượt đồ màu 4.5.2 Truy xuất ảnh dựa vào vân Vân (texture), đến chưa có định nghĩa xác cụ thể vân, đối tượng dùng để phân hoạch ảnh thành vùng quan tâm để phân lớp vùng Vân cung cấp thông tin Tuy cách tiếp cận trực quan có hiệu suất tính toán cao, cách tiếp cận phù hợp với đồng thời cho việc phân đoạn vân phân loại vân 4.5.3 Truy xuất ảnh dựa vào hình dạng Màu sắc vân thuộc tính có khái niệm toàn cục ảnh Trong đó, hình dạng thuộc tính ảnh Thay vậy, hình dạng có khuynh hướng định tới khu vực đặc biệt ảnh Hay hình dạng biên đối tượng ảnh Đối với lớp ảnh cần tìm mà liên quan đến hình dạng đối tượng đặc trưng vân màu giải Ví dụ tìm vật có hình dạng ellipse hay hình tròn ảnh Tìm kiếm theo hình dáng thật đích hệ thống tìm kiếm dựa vào nội dung muốn đạt tới xếp mặt không gian màu sắc cường độ ảnh Vân đặc Hình dạng cấp cao màu sắc vân Nó đòi hỏi phân trưng phân bổ không gian mức cường độ khu vực biệt vùng để tiến hành xử lý độ đo hình dạng Trong nhiều 56 57 trường hợp, phân biệt cần thiết phải làm tay Nhưng tự hình dạng đặc biệt Lượt đồ hình dạng ví dụ độ đo đơn động hóa số trường hợp khả thi Trong đó, vấn đề giản, loại trừ đối tượng hình dạng so khớp, yếu trình phân đoạn ảnh Nếu trình phân đoạn ảnh làm điều mang lại khẳng định sai, việc làm lượt đồ cách xác, rõ ràng hiệu tìm kiếm thông tin màu Kỹ thuật dùng đường biên đặc hiệu phương pháp trước, chúng dựa vào hình dạng có hiệu lực lớn làm việc với hữu đường biên hình dạng đối tượng đồng Nhận dạng ảnh hai chiều khía cạnh quan trọng trình thời tìm kiếm hình dạng đối tượng gần giống với đường biên phân tích ảnh Tính chất hình dạng toàn cục ám đến hình dạng ảnh Phương pháp vẽ phác họa có thề phương pháp có nhiều đặc trưng rõ mức toàn cục Hai hình dạng so sánh với theo tính chất ràng hơn, không tìm kiếm đường biên đối tượng đơn, mà đối toàn cục phương pháp nhận dạng theo hoa văn, mẫu vẽ Sự so với tập đối tượng phân đoạn ảnh mà người dùng khớp hình dạng ảnh dùng kỹ thuật cấu trúc, vẽ hay cung cấp ảnh mô tả thành phần quan hệ không gian chúng Vì hiển thị ảnh trình liên quan đến đồ thị, phương pháp so khớp đồ thị dùng cho việc so sánh hay so khớp Sự so khớp đồ thị xác, dựa quan hệ không gian bất biến toàn thể phép biến đổi hai chiều Tuy nhiên, trình so khớp đồ thị diễn chậm, thời gian tính toán tăng theo cấp số mũ tương ứng với số lượng phần tử Trong việc tìm kiếm liệu ảnh dựa vào nội dung, ta cần phương pháp định giống khác cách nhanh chóng Thông thường, đòi hỏi bất biến kích thước ảnh hướng ảnh không gian Vì vậy, đối tượng xác định số hướng Tuy nhiên, tính chất không thường yêu cầu tìm kiếm ảnh Trong nhiều cảnh vật, hướng đối tượng thường không đổi Ví dụ như: cối, nhà cửa, Độ đo hình dạng nhiều phạm vi lý thuyết môn xử lý ảnh Chúng trải rộng từ độ đo toàn cục dạng thô với trợ giúp việc nhận dạng đối tượng, độ đo chi tiết tự động tìm kiếm 58 Chương 5: ĐÁNH GIÁ CÁC HỆ THỐNG TRUY XUẤT THÔNG TIN 5.1 Lý để tiến hành đánh giá hệ thống truy xuất thông tin Khi nhu cầu truy xuất thông tin phát triển, có nhiều mô hình, thuật toán, hệ thống truy xuất thông tin đời Do đó, việc đánh giá mô hình, thuật toán, hệ thống truy xuất thông tin điều bắt buộc phải làm 59 So sánh để biết người sử dụng cần danh sách tài liệu trả (ranked list) dài cỡ để họ nhìn dễ dàng Đánh giá để biết hệ thống thật tốt, người dùng tin tưởng kết trả 5.2 Các tiêu chuẩn dùng để đánh giá Hiện nay, giới có ba tiêu chuẩn dùng để đánh giá hệ thống truy xuất thông tin: • Tiêu chuẩn tính hiệu tức xác, tính đầy đủ kết trả so với mục đích tìm kiếm người sử dụng, giá trị Chúng ta so sánh hệ thống (có thể hệ thống mới) với hệ đoán tình khác có nghĩa đưa vào câu thống khác tồn phương diện: tính hiệu quả, chi phí, thời gian, tốc độ truy vấn khác, tập tài liệu khác hệ thống tìm kết xử lý…Hệ thống truy xuất thông tin thường thực hai trình: trình xác lập mục trình tìm kiếm Mỗi trình có nhiều phương • Tiêu chuẩn hiệu năng, gồm có tốc độ tìm kiếm thuật toán, khả pháp để thực hiện, đánh giá hệ thống dùng để xác định tính tối ưu lưu trữ, thời gian trả cho người sử dụng, thời gian lập mục, phương pháp kích thước mục… Lý khác để tiến hành đánh giá để so sánh thành phần hệ • Tiêu chuẩn khả sử dụng hệ thống tức nghiên cứu, thống Do hệ thống gồm nhiều thành phần, đánh giá hệ thống để xác định học hỏi hệ thống tìm kiếm, người tin học hay cách thành phần hệ thống thực thi để có thay đổi thành chuyên gia tin học sử dụng hệ thống phần thành phần khác thay đổi ảnh hưởng đến hệ thống nào, từ ta định có nên thay đổi thành phần không 5.3 Các mô hình đánh giá Đánh giá để tìm kiếm thành phần tốt cho hàm xếp thứ tự Có tất bốn mô hình đánh giá hệ thống truy xuất thông tin Chúng (dot-product, cosine…); thành phần tốt cho lựa chọn thuật ngữ bao gồm: đánh giá hộp kính, đánh giá hộp đen, đánh giá hướng hệ thống, (loại bỏ stopword, phương pháp lấy gốc từ stemming…); thành phần đánh giá hướng người dùng hay gọi đánh giá nghiên cứu người dùng tốt lựa chọn phương pháp đánh giá thuật ngữ (term weighting) TF, IDF • Đánh giá hộp trắng (Glass Box Evaluation) : đánh giá hệ thống dựa việc đánh giá tất thành phần hệ thống Có nghĩa biết rõ thành phần hệ thống, tiến hành đánh giá thành phần 60 61 • Đánh giá hộp đen (Black Box Evaluation) : đánh giá hệ thống dụng Hướng đánh giá cho phép xem xét hệ thống khía cạnh cách xem hệ thống thực thể hợp nhất, không đánh giá người dùng; tức đánh giá mặt tương tác với người sử dụng xác thành phần bên hệ thống giao diện hệ thống truy xuất thông tin, thời gian hệ thống tìm kiếm • Đánh giá hướng hệ thống (System-Oriented Evaluation) xu hướng câu truy vấn, mức độ hài lòng người sử dụng… Hướng đánh giá từ hệ thống tìm kiếm lập mục tự động nghiên cứu cho nhu cầu người dùng thoả mãn tương phát triển vào năm 1960 Một mục đích đương với hiệu hệ thống Chỉ nhu cầu thông tin người dùng hướng đánh giá kiểm tra hệ thống tự động thỏa mãn, truy xuất thông tin gọi có ích Hội thủ tục thủ công thực thi Ngoài ra, mô hình đánh nghị quốc tế truy xuất thông tin Ngữ cảnh (Information giá so sánh cách thực liên quan đến ngôn ngữ mục, xử Seeking in Context) tổ chức diễn đàn cho nhà lý tìm kiếm hệ thống hệ thống khác hay đánh giá so nghiên cứu lĩnh vực khám phá phương pháp kết sánh lược đồ mục tự động khác Đánh giá hướng hệ thống nghiên cứu Một hội nghị khác thành lập tên Nhóm Quan có điểm lợi điều kiện môi trường kiểm tra quản lý chặt tâm Đặc biệt (Special Interest Group - SIG) đến tìm kiếm, nhu cầu chẽ, sử dụng phương pháp đánh giá theo lô hay gọi đánh giá dựa sử dụng thông tin Xã hội Hoa Kỳ Khoa học Thông tin tập câu truy vấn; có nghĩa hệ thống truy xuất thông tin (American Society of Information Science) Những hội nghị thực câu truy vấn, tìm kiếm tập liệu xây dựng tương tự TREC việc cố gắng khuyến khích nghiên cứu ghi lại kết tài liệu liên quan đến câu truy vấn hướng người dùng, để phát triển mối liên hệ nhà nghiên cứu đem so sánh với Bảng đánh giá liên quan chuẩn (Relevance judgment) kỹ thuật, giáo dục phủ, để xác định, cải tiến kỹ xây dựng Với câu truy vấn tính toán độ xác độ thuật tìm kiếm thích hợp Nhưng hội nghị khác chỗ bao phủ dựa kết trả bảng đánh giá liên quan chuẩn để hội nghị chưa có phương pháp luận đánh giá chuẩn xúc nhận xét hiệu tìm kiếm hệ thống truy xuất thông tin Hướng tiến Đánh giá hướng người dùng có đóng góp lớn đến lĩnh vực truy đánh giá thực phổ biến dự án, hội nghị xuất thông tin Đóng góp gồm có việc xác định cách thức truy xuất nghiên cứu hệ thống truy xuất thông tin như: Cranfield, MEDLARS, thông tin người, nối liền khoảng cách nhu cầu thông tin SMART, STAIRS TREC cá nhân hệ thống truy xuất thông tin, dẫn đến • Đánh giá hướng người dùng (User Studies Evaluation): Hướng hệ hệ thống truy xuất thông tin bao gồm giao diện đồ nghiên cứu người dùng đời vào năm 1970 mà nhiều hệ hoạ máy tính-người sử dụng thống truy xuất thông tin thương mại đời Mục đích hướng Hiện nay, số bốn mô hình hai mô hình đánh giá hướng hệ nghiên cứu nhằm xác định cách thức tìm kiếm người sử thống hướng người dùng sử dụng rộng rãi Vì mô 62 63 hình đánh giá hướng người dùng cần có hợp tác nhiều người dùng Cho biết khả hệ thống tìm tài liệu xác để lấy thông tin phản hồi sau sử dụng hệ thống truy xuất thông tin cần phải tham gia trao đổi hiệu tìm kiếm hội nghị Nhưng hội nghị dành cho mô hình đánh giá hướng người dùng đa số chưa có phương pháp luận cụ thể dùng để đánh giá 5.4 Các độ đo dùng để đánh giá Độ bao phủ (Recall) độ xác (Precision) đơn vị đo để đánh giá chất lượng hệ thống truy xuất thông tin Độ bao phủ tỉ lệ tài liệu liên quan trả tổng số tài liệu liên quan thật Có liên quan (Relevant) A A∩B Không liên quan (non- relevant) A∩ B A ∩ B A A ∩B B Tìm thấy (retrieved) B Không tìm thấy (not retrieved) • Khả loại bỏ: (Fall out - F): Cho biết khả hệ thống loại bỏ tài liệu không liên quan 5.4.2 Cách tính độ bao phủ (R) độ xác (P) Trong đó, độ xác tỉ lệ tài liệu liên quan trả tổng số tài liệu trả Có nhiều phương pháp sử dụng độ đo để tính toán đánh giá, chẳng hạn phương pháp Độ xác trung bình (Mean Average Precision–MAP) sử dụng độ xác, không quan tâm đến độ bao phủ Phương pháp đo dựa giá trị đơn Swet’s E-Measure chiều dài tìm kiếm trung bình sử dụng giá trị để tính toán Phương pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ sử dụng hai độ đo độ bao phủ độ xác 5.4.1 Các khái niệm độ đo liên quan • Tính liên quan tài liệu (relevant ): Hình 5.1: Tập liệu tài liệu Độ bao phủ (R): R= Một tài liệu gọi có liên quan nội dung tài liệu có đề cập đến vấn đề mà câu truy vấn người dùng quan tâm • Độ bao phủ (Recall - R): Cho biết khả hệ thống tìm kiếm tài liệu có liên quan • Độ xác (Precision - P): A ∩B B Độ xác (P): P= A ∩B A 64 Khả loại bỏ: (Fall out - F): F= 65 Bởi tập kết trả xếp theo thứ tự nên độ xác độ bao phủ tính ngưỡng vị trí thứ tự thứ i tài liệu A ∩B Vấn đề bảng liên quan thực tế: A Đối với cách tính ta phải quan niệm độ liên quan tài liệu Mối liên hệ R, P, F: mức độ: tài liệu có liên quan tài liệu không liên quan R ∗G F= R ∗ G + F (1 − G ) G : nhân tố tổng quát đo độ dày đặc tài liệu liên quan tập liệu ⇔G cho biết độ liên quan tài liệu so với câu truy vấn cao hay thấp: G= A S Với S tập tài liệu Vấn đề đo độ bao phủ: Tính độ bao phủ vấn đề khó khăn việc đánh giá hệ thống tìm kiếm thông tin liên quan đến việc định giá thủ công tổng số tài liệu liên quan tập tài liệu câu truy vấn (vấn đề tạo bảng liên quan lý thuyết), việc định tốn tập liệu lớn Để giải Cách quy ước nhằm làm đơn giản hoá cách đánh giá Trên thực tế, độ liên quan tài liệu không mức độ mà có nhiều mức độ 5.5 Phương pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ 5.5.1 Đồ thị biểu diễn hiệu suất thực thi hệ thống truy xuất • Ứng với câu truy vấn thực hệ thống có độ bao phủ (Ri), độ xác (Pi) cụ thể • Với cặp (Ri, Pi) biểu diễn hệ trục toạ độ ROP tương ứng với điểm • Biểu diễn kết tập câu truy vấn ROP ta có đường cong mô tả hiệu suất thực thi hệ thống Đường cong có dạng: vấn đề người ta đưa phương pháp “pooling” Ý tưởng phương pháp “pooling” danh sách tài liệu trả lấy n tài liệu đầu, n gọi chiều dài “pool” Việc tạo bảng liên quan lý thuyết áp dụng phương pháp “pooling” tiến hành sau: tiến hành tìm kiếm nhiều hệ thống áp dụng phương pháp “pooling”, tài liệu liên quan trả hệ thống cao, ta tiến hành giao tập tài liệu liên quan trả hệ thống lấy n tài liệu đầu Hình 5.2: Đường cong mô tả hiệu suất thực thi hệ thống 66 • Từ đồ thị ta rút kết luận: độ bao phủ vả độ xác có mối 67 Bảng 5.1: Bảng giá trị R, P tính với n tài liệu trả quan hệ gần tỷ lệ nghịch, R tăng P giảm ngược Liên quan Số tài liệu Số tài liệu Độ bao phủ theo lý liên quan trả (R) thuyết ? trả true 1 1/5=0.2 n Doc ID • Khi ta cố gắng làm tăng R cách tăng số tài liệu trả (N), N tăng 588 nên may số tài liệu có liên quan tăng tổng số tài liệu có liên 589 true 2 2/5=0.4 2/2=1.00 quan so với câu truy vấn bảng liên quan chuẩn không đổi 576 false 2/5=0.4 2/3=0.67 590 true 3/5=0.6 3/4=0.75 986 false 3/5=0.6 3/5=0.60 592 true 4/5=0.8 4/6=0.67 984 false 4/5=0.8 4/7=0.57 988 false 4/5=0.8 4/8=0.50 lại ⇒ R tăng • Do N tăng có nghĩa số tài liệu trả tăng số tài liệu có liên quan tăng không đáng kể so với số tài liệu trả (lúc tăng) nên P giảm Nói cách khác, cho hệ thống thực thi câu truy vấn mà ta tăng số tài liệu trả kết có nhiều tài liệu có ích nhiều số tài liệu không liên quan (tài liệu rác) tăng 5.5.2 Đường cong độ bao phủ độ xác RP Cơ sở tính bảng giá trị cho đường cong RP dựa vào bảng liên quan lý thuyết danh sách tài liệu liên quan thứ tự hệ thống truy xuất thông tin trả (còn gọi bảng liên quan thực tế) Xét ví dụ sau: Thực kiểm tra hệ thống tìm kiếm thông tin với tập câu hỏi Xét câu hỏi thứ k Cách tính sau: Tài liệu liên quan trả phần giao danh sách tài liệu liên quan theo lý thuyết theo thực tế Do đó, tổng số tài liệu liên quan trả : Bảng giá trị R, P tính với n tài liệu trả sau: Độ xác (P) 1/1=1.00 578 false 4/5=0.8 4/9=0.44 10 985 false 10 4/5=0.8 4/10=0.40 11 103 false 11 4/5=0.8 4/11=0.36 12 591 false 12 4/5=0.8 4/12=0.33 13 772 true 13 5/5=1.0 5/13=0.38 14 990 false 14 5/5=1.0 5/14=0.36 Nhìn bảng giá trị trên, ta thấy giá trị R=0.6 có giá trị P (P=0.75 P=0.6) ngược lại giá trị P=1.0 có giá trị R (R=0.2, R=0.4) Để xây dựng đường cong cho câu truy vấn ta dùng phương pháp tính nội suy độ xác dựa 11 điểm chuẩn độ bao phủ: Xét giá trị R điểm chuẩn 0.0, 0.1, 0.2, 0.3, 0.4,0.5,0.6,0.7,0.8,0.9, 1.0 Tại vị trí tính giá trị P theo công thức sau: PR(i) = max PR( j ) với j ≥ i Ta có bảng nội suy giá trị P cho câu hỏi thứ k sau: 68 69 5.5.3 Đường cong RP cho tập truy vấn Bảng 5.2: Bảng nội suy giá trị P cho câu hỏi thứ k Xét tập câu truy vần gồm N câu truy vấn Độ bao phủ Độ Độ bao phủ Độ xác (R) xác (P) chuẩn hoá nội suy 588 1/5=0.2 1/1=1.00 hoá 1.00 589 2/5=0.4 2/2=1.00 0.1 1.00 R) 576 2/5=0.4 2/3=0.67 0.2 1.00 Tính giá trị trung bình P điểm chuẩn R sau: 590 3/5=0.6 3/4=0.75 0.3 1.00 986 3/5=0.6 3/5=0.60 0.4 1.00 592 4/5=0.8 4/6=0.67 0.5 0.75 Nhận xét: Phương pháp đánh giá hệ thống dựa vào bảng giá trị RP nội suy 984 4/5=0.8 4/7=0.57 0.6 0.75 không đánh giá cách xác hiệu suất tìm kiếm thông tin hệ thống 988 4/5=0.8 4/8=0.50 0.7 0.67 truy xuất thông tin giá trị R, P giá trị nội suy 578 4/5=0.8 4/9=0.44 0.8 0.67 10 985 4/5=0.8 4/10=0.40 0.9 0.38 11 103 4/5=0.8 4/11=0.36 1.0 0.38 12 591 4/5=0.8 4/12=0.33 13 772 5/5=1.0 5/13=0.38 14 990 5/5=1.0 5/14=0.36 N ID Lần lượt tính bảng giá trị RP nội suy (tính P dựa 11 điểm chuẩn N F(R ) =1 N P(R ) = ∑ 5.5.4 Đánh giá hệ thống truy xuất thông tin dựa vào đồ thị Ta tiến hành kiểm tra hệ thống với tập tài liệu mẫu tập câu truy vấn mẫu Giả sử đồ thị biểu diễn hệ thống sau: Đồ thị RP cho câu hỏi thứ k Hình 5.4: Đồ thị biểu diễn hệ thống với tập tài liệu mẫu tập câu truy vấn mẫu Nhìn đồ thị : Hình 5.3: Đồ thị RP cho câu hỏi thứ k • Đường cong A biểu diễn hiệu suất thực thi hệ thống A 70 • Đường cong B biểu diễn hiệu suất thực thi hệ thống B • Do đường A nằm đường B nên hiệu suất hệ thống A lớn hệ thống B 71 - Bảng đánh giá độ liên quan tài liệu với chủ đề Do vấn đề việc đánh giá phải thống quan điểm mức độ liên quan Một cách tổng quát : đường cong gần phía góc bên Độ liên quan khái niệm đa khía cạnh (multifaceted), đa chiều phải hệ trục toạ độ (có nghĩa độ xác độ bao phủ lớn nhất) (multidimensional) Khái niệm độ liên quan đến vấn đề khó đường cong biểu diễn hiệu suất thực thi tốt khăn lĩnh vực khoa học thông tin Những nghiên cứu gần Với cách biểu diễn đồ thị ta đánh giá nhiều hệ thống đánh giá hệ thống điều kiện thực thi khác 5.6 Sự liên quan câu hỏi tài liệu 5.6.1 Các độ liên quan Các độ liên quan gồm có: • Độ liên quan nhị phân (binary relevance): độ liên quan có giá trị: có liên quan (relevant: 1), không liên quan (not relevant: 0) • Độ liên quan nhiều mức độ (độ liên quan đa cấp độ): (multiple degree relevance, multiple level relevance): độ liên quan xét nhiều mức độ, có nhiều giá trị Ví dụ độ liên quan mức độ : - Mức độ có liên quan (relevant): - Mức độ liên quan phận (partically relevant): - Không liên quan (not relevant) : 5.6.2 Các vấn đề độ liên quan Cơ sở đánh giá hệ thống truy xuất thông tin: - Một tập tài liệu (document) đại diện - Một tập chủ đề (topic) đại diện - Một vài câu truy vấn cho chủ đề tập trung vào nhân tố ảnh hưởng lên việc đánh giá độ liên quan chiều (hoặc tiêu chuấn) độ liên quan Có nhiều loại độ liên quan: độ liên quan thuật toán, độ liên quan chủ đề, độ liên quan nhận thức, độ liên quan tình huống, độ liên quan động Độ liên quan vốn mang tính chủ quan, đánh giá độ liên quan thường không thống tính cá nhân nhân tố thời gian : - Một tài liệu đánh giá có liên quan với tỉ lệ đồi với người khác tỉ lệ khác => độ liên quan phủ thuộc tính cá nhân - Một tài liệu đánh giá có liên quan với tỉ lệ thời điểm t, thời điểm t’ tỉ lệ thay đổi => độ liên quan phụ thuộc nhân tố thời gian Tuy nhiên thay đổi chấp nhận tương đối thấp Trong hầu hết thử nghiệm đánh giá hệ thống tìm kiếm thông tin (bao gồm thử nghiệm TREC) người ta thường quan tâm độ liên quan nhị phân (có nghĩa tài liệu đánh giá có liên quan (1) liên quan (0)) Ưu điểm dộ liên quan nhị phân việc tính toán R, P đơn giản; khuyết điểm phản ánh khả liên quan tài liệu nhiều mức độ với thực tế 72 Trong cách đánh giá tìm kiếm thông tin TREC, khái niệm “liên 73 - Bảng liên quan đươc định giá tác giả tài liệu hay quan” khái niệm tuyệt đối: tài liệu liên quan không liên quan Điều giả sử nhằm làm đơn giản hóa việc tính toán độ đo Nhiều tác giả - Bảng liên quan định giá nhóm đánh giá - Bảng liên quan định giá điều kiện hay định kiềm tra khác tiến hành đánh giá với tỷ lệ độ liên quan nhiều mức độ Độ liên quan cấp độ thực Hội nghị NTCIR 1999 (NIINACSIS Test Collection for IR systems), WEB track TREC-9 Độ liên quan cấp dùng NTCIR 2000 Tỷ lệ độ liên quan tài liệu vị trí thứ N trừ hao, điều phản ánh tình trạng tài liệu trả phía danh sách có giá trị người sử dụng : mức độ tương quan không giảm trùng lặp thông tin với tài liệu phía làm cho tài liệu phía phần giá trị Giả sử liên quan tài liệu độc lập với tài liệu khác không thực tế hầu hết trường hợp Trong hầu hết nhiệm vụ tìm kiếm thông tin giống tìm kiếm mạng, tìm kiếm câu trả lời cho câu hỏi đặc biệt cho vài tham khảo đó, giả sử rắng người dùng đọc lướt qua tài liệu trả bắt đầu với tài liệu dễ thấy nhất, bật (ở phía danh sách) độ liên quan tài liệu phía danh sách phụ thuộc vào tài liệu đọc Khả tài liệu chứa thông tin giảm xuống đến cuối danh sách tài liệu Sự phụ thuộc thường bỏ qua lần nghiên cứu tìm kiếm thông tin Ngoài việc định giá độ liên quan mang tính chủ quan Chúng ta thường có nhiều ý kiến khác mức độ liên quan Do mức độ liên quan tài liệu phân biệt: giá điều kiện khác 5.6.3 Đánh giá với độ liên quan nhiều cấp độ (Multiple degree relevance or non-binary relevance) Trong vài thử nghiệm đánh giá độ liên quan nhiều cấp độ có vài thí nghiệm thực cho thấy lợi ích việc đánh giá độ liên quan nhiều cấp độ khác Độ bao phủ (R), độ xác (P) phương pháp cổ điển để đánh giá khả thực thi IR thường tính dựa việc đánh giá độ liên quan nhị phân Do việc đánh giá độ liên quan nhiều cấp độ tiến hành bước đầu, sau giá trị mức độ qui giá trị 0, để đánh giá Ví dụ : đánh giá độ liên quan tiến hành mức độ: - có liên quan (relevant) => ký hiệu A - liên quan phần (partically relevant ) => ký hiệu B - không liên quan (not relevant) => ký hiệu C Mức độ liên quan qui giá trị để tính R, P Có cách tính: • A, B mang giá trị (có liên quan) C mang giá trị (không liên quan) • A mang giá giá trị (có liên quan) B, C mang giá trị (không liên quan) Với cách tiến hành để trì mức độ liên quan tài liệu, định dạng tập tin đánh giá độ liên quan (relevant judgement) sau: 74 topic-ID dumy doc-ID relevant assessment Trong đó: 75 5.6.4 Phương pháp đo độ bao phủ (R), độ xác (P) dựa độ liên quan nhiều cấp độ Phương pháp đo dựa vào độ bao phủ (R) độ xác (P) topic-ID : số chủ đề (topic) dumy : trường cho biết tài liệu có mức độ liên quan phương pháp truyền thống độ đo R, P tính dựa vào độ liên (A, B, C) quan nhị phân Đối với trường hợp độ liên quan nhiều cấp độ ta có cách giải doc-ID : số tài liệu relevant assessment: mang giá trị 1, giá trị đánh giá độ liên quan sau qui độ liên quan nhị phân Một ví dụ khác đo độ liên quan tài liệu mức độ: - độ liên quan cao (highly relevant) sau: • Qui tất mức độ liên quan giá trị 0, (giống đưa dộ liên quan nhị phân) => cách theo Schamber nên tránh • Tổng quát hoá R P - độ liên quan vừa (fairly relevant) Độ bao phủ tổng quát độ xác tổng quát: - độ liên quan trung bình (marginally relevant) (generalized, non-binary recall and precision) - không liên quan (irrelevant) Gọi R tập n tài liệu phục hồi từ sở liệu tài liệu Tuy nhiên Hội nghị Đánh giá hệ thống thông tin gần D={ d1, d2, …, dN } với câu truy vấn thuộc chủ đề đó, R ≤ D đây, độ liên quan nhị phân xem cách đánh giá chuẩn, Gọi tài liệu di sở liệu tài liệu có tỉ lệ độ liên quan r(di) chí nhiều trường hợp đánh giá độ liên quan nhiều cấp độ Độ bao phủ tổng quát gR độ xác tổng quát gP tính theo công qui đánh giá nhị phân để tính độ bao phủ độ xác Cách tiến thức sau: hành có khuyết điểm không kiểm tra mức độ cụ thể độ liên quan Một số người có quan điểm cách đo độ R P dựa vào việc d ∈D gR = d ∈R đánh giá nhị phân nên tránh cách tính không quan tâm đến thay đổi độ phức tạp mức độ liên quan, làm sai lệch tính tự nhiên thực tế độ liên quan Một giải pháp để giải vấn đề tổng quát hoá độ R P Dựa vào lý thuyết, thực nghiệm, nghiên cứu, mức độ liên quan tài liệu thay đổi cách rõ ràng, vài tài liệu liên quan nhiều hơn, số khác Thật khó để xác định mức độ liên quan tiến hành đánh giá Điều tuỳ thuộc vào tình đánh giá hệ thống ∑ r(d) gP = n ∑ r(d) ∑ r(d) d∈D Cách tính tương tự tính R, P nhị phân truyền thống, cho phép tính R trung bình P trung bình tập câu truy vấn, tính P dựa R, tính dựa ngưỡng giới hạn số tài liệu trả cho phép biểu diễn đường cong PR 76 77 Ghi chú: r(d) số thực có giá trị khoảng (0.0, 1.0) Ví KẾT LUẬN dụ với mức độ liên quan Tính r(d) • Mức độ liên quan cao : => r(d)=3/4 • Mức độ liên quan vừa : => r(d)=2/4 • Mức độ liên quan trung bình : => r(d)=1/4 • Không liên quan :0 => r(d)=0 Hiện có nhiều hệ thống truy xuất thông tin (Information Retrieval system) tồn để trợ giúp người Tuy nhiên, khả tìm kiếm thông tin hệ thống chắn khác Do đó, việc đánh giá hệ thống truy xuất thông tin (Evaluation of Information Retrieval systems) nhu cầu thiếu nhằm xác định hệ thống truy xuất thông tin hiệu Luận văn nghiên cứu vấn đề hệ truy xuất thông tin đánh giá hệ truy xuất thông tin Việc đánh giá có ý nghĩa lớn tồn phát triển hệ thống truy xuất thông tin Nó giúp xác định khả tìm kiếm hệ thống truy xuất thông tin Từ mà tổ chức, công ty, trường học tạo hệ thống phát triển, thay đổi hệ thống để đưa khả tìm kiếm thông tin tốt Việc đánh giá hệ truy xuất thông tin (IR) để biết điểm mạnh, điểm yếu hệ thống IR mà từ ta chọn hệ thống IR tối ưu phục vụ cho nhu cầu tìm kiếm thông tin cách có hiệu Tôi hy vọng đề tài đóng góp nhỏ, có ý nghĩa cho việc nghiên cứu lĩnh vực truy xuất thông tin 78 79 HƯỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO Việc nghiên cứu đánh giá hệ thống tìm kiếm thông tin đa dạng với nhiều phương pháp, mô hình đánh giá khác Những mô hình, phương pháp tiếp tục nghiên cứu, bàn luận giới Trên sở phần nghiên cứu, đề tài có hướng phát triển phương pháp đánh giá: Ngoài cách đánh giá dựa vào 11 điểm chuẩn độ bao phủ, đề tài phát triển thêm phương pháp đánh giá khác phương pháp đánh giá dựa độ xác trung bình nghiêm ngặt (Mean Average Precision – MAP), đo dựa giá trị đơn Swet’s E-Measure (Single- Tiếng Việt: Nguyễn Duy Hiệp - Hoàng Minh Ngọc Hải (2004), “Xây dựng tòa soạn điện tử có hỗ trợ lấy tin từ website khác”, luận văn cử nhân, trường Đại học Khoa học Tự nhiên Nguyễn Thị Thanh Hà – Nguyễn Trung Hiếu (2005), “Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa mục từ ghép”, luận văn cử nhân, trường Đại học Khoa học Tự nhiên valued Measure) chiều dài tìm kiếm trung bình Tiếng Anh: Gerald J.Kowalski, Mark T.Maybury, “Information Storage and Retrieval System”, 2004 Gerard Salton, Michael J.McGill, “Introduction to Modern Information Retrieval”, International Student Edition, New York, 1983 William B.Frakes, Ricardo Baeza – Yakes, “Information Retrieval – Data Structures & Algorithms”, 1992 Ricardo Baeza – Yakes, Berthier Ribeiro-Neto, “Modern Information Retrieval ”, Addison Press, Anh, 1999 Dong Thi Bich Thuy, Ho Bao Quoc, Marie-France Bruandet, JeanPierre Chevallet, “An approach to Vietnamese Information Retrival” [...]... truy xuất nghiên cứu hệ thống truy xuất thông tin như: Cranfield, MEDLARS, thông tin của con người, nối liền khoảng cách giữa nhu cầu thông tin SMART, STAIRS và TREC giữa các cá nhân và các hệ thống truy xuất thông tin, dẫn đến một thế • Đánh giá hướng người dùng (User Studies Evaluation): Hướng hệ mới của các hệ thống truy xuất thông tin bao gồm các giao diện đồ nghiên cứu người dùng ra đời vào những... kiếm 58 Chương 5: ĐÁNH GIÁ CÁC HỆ THỐNG TRUY XUẤT THÔNG TIN 5.1 Lý do để tiến hành đánh giá các hệ thống truy xuất thông tin Khi nhu cầu truy xuất thông tin phát triển, có rất nhiều mô hình, thuật toán, hệ thống truy xuất thông tin ra đời Do đó, việc đánh giá các mô hình, thuật toán, hệ thống truy xuất thông tin là điều bắt buộc phải làm 59 So sánh để biết người sử dụng cần danh sách các tài liệu trả... mạnh mẽ trong nghiên cứu truy xuất thông tin Một lĩnh vực phát triển khác mà các kỹ thuật truy xuất thông tin đang kế tục và phát huy, đó là truy xuất thông tin không văn bản hay còn gọi là truy xuất thông tin đa phương tiện Loại hình tìm kiếm này sẽ dựa trên rút trích tự động các phần văn bản hay lời nói của các tài liệu đa phương tiện, sau đó được xử lý bởi các kỹ thuật truy xuất thông tin dựa văn... weighting) như TF, IDF • Đánh giá hộp trắng (Glass Box Evaluation) : đánh giá hệ thống dựa trên việc đánh giá tất cả mọi thành phần của hệ thống Có nghĩa là khi biết rõ các thành phần của hệ thống, chúng ta tiến hành đánh giá các thành phần đó 60 61 • Đánh giá hộp đen (Black Box Evaluation) : đánh giá hệ thống bằng dụng Hướng đánh giá này còn cho phép xem xét hệ thống ở khía cạnh cách xem hệ thống như là một... đánh giá chính người dùng; tức là đánh giá về mặt tương tác với người sử dụng như xác các thành phần bên trong hệ thống giao diện của hệ thống truy xuất thông tin, thời gian hệ thống tìm kiếm • Đánh giá hướng hệ thống (System-Oriented Evaluation) là xu hướng đối với một câu truy vấn, mức độ hài lòng của người sử dụng… Hướng đánh giá chính từ khi các hệ thống tìm kiếm và lập chỉ mục tự động nghiên cứu. .. đánh giá các hệ thống truy xuất thông tin Chúng (dot-product, cosine…); thành phần nào là tốt nhất cho lựa chọn thuật ngữ bao gồm: đánh giá hộp kính, đánh giá hộp đen, đánh giá hướng hệ thống, (loại bỏ stopword, phương pháp lấy gốc từ stemming…); thành phần nào là đánh giá hướng người dùng hay còn gọi là đánh giá nghiên cứu người dùng tốt nhất trong lựa chọn phương pháp đánh giá thuật ngữ (term weighting)... chỗ các bao phủ dựa trên kết quả trả về và bảng đánh giá liên quan chuẩn để hội nghị mới chưa có phương pháp luận đánh giá chuẩn nào được xúc nhận xét hiệu quả tìm kiếm của hệ thống truy xuất thông tin Hướng tiến Đánh giá hướng người dùng có đóng góp rất lớn đến lĩnh vực truy đánh giá này được thực hiện rất phổ biến ở các dự án, hội nghị về xuất thông tin Đóng góp này gồm có việc xác định cách thức truy. .. hình, các đặc trưng), kiến trúc góp phần vào phạm vi nghiên cứu mới này (bản thiết kế nhà), truy n thông và mạng (các router và các liên kết), các hệ Khía cạnh tiêu biểu của lấy thông tin từ dữ liệu ảnh dựa trên những thống máy móc (các thành phần và các kết nối) và các kế hoạch vận động cho công bố có sẵn như là những đối tượng nhận thức như màu sắc, vân lực lượng vũ trang (ví dụ: ảnh hưởng và sự... trong Ngữ cảnh (Information giá so sánh các cách thực hiện liên quan đến các ngôn ngữ chỉ mục, xử Seeking in Context) được tổ chức như là một diễn đàn cho các nhà lý tìm kiếm của hệ thống của các hệ thống khác nhau hay đánh giá so nghiên cứu lĩnh vực này khám phá các phương pháp và các kết quả sánh các lược đồ chỉ mục tự động khác nhau Đánh giá hướng hệ thống nghiên cứu Một hội nghị khác mới được thành... cầu và chẽ, sử dụng phương pháp đánh giá theo lô hay còn gọi là đánh giá dựa sử dụng thông tin của Xã hội Hoa Kỳ về Khoa học Thông tin trên tập câu truy vấn; có nghĩa là hệ thống truy xuất thông tin lần lượt (American Society of Information Science) Những hội nghị này cũng thực hiện các câu truy vấn, tìm kiếm trên tập dữ liệu đã được xây dựng tương tự như TREC trong việc cố gắng khuyến khích nghiên cứu

Ngày đăng: 06/08/2016, 22:54

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan