Đang tải... (xem toàn văn)
XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN TSÀN QUẾ HƯƠNG – 0112385 VÕ HỒ BẢO KHANH – 0112387 XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THƠNG TIN KHĨA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN T.S HỒ BẢO QUỐC NIÊN KHÓA 2001 - 2005 Luận văn : Đánh giá hệ thống tìm kiếm thơng tin Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………………… ….………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Xác nhận GVPB Trang Luận văn : Đánh giá hệ thống tìm kiếm thơng tin ĐỀ CƯƠNG CHI TIẾT Thông tin chung đề tài: Tên đề tài: Xây dựng ngữ liệu để đánh giá (test collection) tiếng Việt chương trình trợ giúp đánh giá hệ tìm kiếm thơng tin GVHD: Tiến sĩ Hồ Bảo Quốc Sinh viên thực hiện: MSSV: 0112385 Họ tên: Tsàn Quế Hương MSSV: 0112387 Họ tên: Võ Hồ Bảo Khanh Tóm tắt nội dung luận văn: Đề tài gồm phần : Xây dựng ngữ liệu để đánh giá hệ thống tìm kiếm thơng tin tiếng Việt Việc xây dựng ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây dựng tập câu truy vấn mẫu tiếng Việt _ Xây dựng bảng đánh giá thủ công 2.Xây dựng hệ thống chương trình trợ giúp việc đánh giá hệ thống tìm kiếm thơng tin với thành phần đầu vào : ngữ liệu mẫu, câu truy vấn mẫu, hệ thống tìm kiếm thông tin ; thành phần đầu : kết truy vấn, kết đánh giá, nội dung tập tài liệu, câu truy vấn Một số từ khóa liên quan đến nội dung đề tài: Đánh giá hệ thống tìm kiếm thơng tin (information retrieval systems evaluation) Lĩnh vực áp dụng: Đánh giá hệ thống tìm kiếm thơng tin tiếng Việt Các thuật tốn, phương pháp, quy trình nghiên cứu, ứng dụng đề tài _ Tìm hiểu tìm kiếm thơng tin (information retrieval), đánh giá hệ thống tìm kiếm thơng tin (information retrieval systems evaluation) _ Tìm hiểu cấu trúc ngữ liệu, phương pháp xây dựng ngữ liệu TREC (Text REtrieval Conference) _ Tìm hiểu sử dụng hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier… _ Xây dựng ngữ liệu kiểm tra tiếng Việt Trang Luận văn : Đánh giá hệ thống tìm kiếm thơng tin _ Xây dựng hệ chương trình phục vụ việc kiểm tra đánh giá hệ thống tìm kiếm thơng tin Chương trình phải chạy hai hệ điều hành : Windows Linux, chương trình viết ngơn ngữ Java Các cơng cụ, cơng nghệ nghiên cứu, ứng dụng đề tài Borland Jbuider X Visual Studio NET Microsoft Visio 2003 Rational Rose Microsoft Word, Power Point Xác nhận GVHD Trang Luận văn : Đánh giá hệ thống tìm kiếm thơng tin Lời cám ơn Chúng em xin chân thành cảm ơn Thầy Cô Khoa Công nghệ Thông tin hướng dẫn giảng dạy nhiệt tình cho chúng em suốt bốn năm học Trường Đại học Khoa học Tự nhiên Những kiến thức mà chúng em học giảng đường hành trang quý báu bước đường đời chúng em Chúng em xin cảm ơn Thầy Hồ Bảo Quốc tạo hội cho chúng em nghiên cứu học hỏi lĩnh vực tìm kiếm thơng tin Tiếng Việt, lĩnh vực tương đối hấp dẫn Việt Nam Một lần chúng em xin cảm ơn Thầy Thầy tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng ngữ liệu dùng để đánh giá tiếng Việt chương trình trợ giúp đánh giá hệ thống tìm kiếm thơng tin” Chúng em xin cảm ơn gia đình, anh chị, bạn bè động viên, giúp đỡ chúng em để hoàn thành tốt đề tài luận văn Nhóm sinh viên thực Tsàn Quế Hương – Võ Hồ Bảo Khanh Trang Luận văn : Đánh giá hệ thống tìm kiếm thông tin MỤC LỤC MỞ ĐẦU 10 Chương : TỔNG QUAN 13 1.1 Tổng quan tìm kiếm thơng tin hệ thống tìm kiếm thông tin 13 1.2 Tổng quan đánh giá hệ thống tìm kiếm thơng tin 14 1.2.1 Lý để tiến hành đánh giá hệ thống tìm kiếm thơng tin 14 1.2.2 Các tiêu chuẩn dùng để đánh giá 15 1.2.3 Các mơ hình đánh giá 15 1.2.4 Các độ đo dùng để đánh giá 18 1.2.5 Các phương pháp xây dựng ngữ liệu dùng để đánh giá 18 1.2.6 Phương pháp xây dựng ngữ liệu chọn 20 1.2.7 Phương pháp đánh giá tầm quan trọng kết trả .21 Chương : CƠ SỞ LÝ THUYẾT 22 2.1 Tìm kiếm thơng tin hệ thống tìm kiếm thơng tin .22 2.1.1 Lịch sử tìm kiếm thơng tin hệ thống tìm kiếm thơng tin 22 2.1.2 Hệ thống tìm kiếm thơng tin .25 2.1.2.1 Khái niệm hệ thống tìm kiếm thơng tin .25 2.1.2.2 Cách thức hoạt động hệ thống tìm kiếm thông tin 25 2.1.2.3 Các phương tiện tìm kiếm thơng tin (Search Engines) 27 2.1.3 So sánh tìm kiếm thơng tin cổ điển tìm kiếm thơng tin Web .29 2.1.4 So sánh tìm kiếm thơng tin với tìm kiếm liệu 30 2.1.5 Công thức trừu tượng tìm kiếm thơng tin 31 2.1.6 Các mơ hình tìm kiếm thơng tin cổ điển để thứ tự liên quan 32 2.1.6.1 Mơ hình Đại số Bool .32 2.1.6.2 Mơ hình không gian vec-tơ 33 2.2 Đánh giá hệ thống tìm kiếm thông tin 36 2.2.1 Nền tảng đánh giá hệ thống tìm kiếm thơng tin 36 2.2.2 Mơ hình đánh giá hướng hệ thống 37 2.2.2.1 Từ Cranfield đến TREC 37 2.2.2.2 Thủ tục đánh giá 39 2.2.2.3 Đánh giá liên quan 40 2.2.3 Thực đo khả tìm kiếm 41 2.2.3.1 Các khái niệm độ đo liên quan .41 2.2.3.2 Cách tính độ bao phủ (R) độ xác (P) 42 2.2.3.3 Phương pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ 44 2.2.3.3.1 Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm .44 2.2.3.3.2 Đường cong độ bao phủ độ xác RP 45 2.2.3.3.3 Đường cong RP cho tập truy vấn 47 2.2.3.3.4 Đánh giá hệ thống tìm kiếm thơng tin dựa vào đồ thị 48 2.2.3.4 Sự liên quan câu hỏi tài liệu 49 2.2.3.4.1 Các độ liên quan .49 2.2.3.4.2 Các vấn đề độ liên quan .49 2.2.3.4.3 Đánh giá với độ liên quan nhiều cấp độ 51 2.2.3.4.4 Phương pháp đo độ bao phủ (R), độ xác (P) dựa độ liên quan nhiều cấp độ 53 Trang Luận văn : Đánh giá hệ thống tìm kiếm thông tin 2.2.4 TREC đánh giá theo chuẩn TREC 54 2.2.4.1 TREC gì? 54 2.2.4.2 Cách xây dựng ngữ liệu TREC 56 2.2.4.2.1 Xây dựng tập hợp tài liệu 57 2.2.4.2.2 Xây dựng chủ đề .57 2.2.4.2.3 Xây dựng bảng đánh giá liên quan chuẩn 58 2.3 Ngữ liệu tiếng Việt .59 2.3.1 Từ 60 2.3.1.1 Quan niệm từ 60 2.3.1.2 Quan niệm hình vị 61 2.3.1.3 Khái niệm cấu tạo từ .61 2.3.2 Ranh giới từ 62 Chương : THIẾT KẾ VÀ CÀI ĐẶT 63 3.1 Xây dựng ngữ liệu dùng để đánh giá 63 3.1.1 Xây dựng kho ngữ liệu tiếng Việt 63 3.1.1.1 Chuẩn hóa ngữ liệu .63 3.1.1.1.1 Chuẩn hóa dạng ngữ liệu 63 3.1.1.1.2 Định dạng ngữ liệu 64 3.1.2 Xây dựng tập câu hỏi tiếng Việt 64 3.1.3 Tách từ tiếng Việt 65 3.1.4 Xây dựng bảng đánh giá .65 3.1.4.1 Hệ thống SMART 66 3.1.4.1.1 Giới thiệu hệ thống SMART 66 3.1.4.1.2 Q trình tìm kiếm thơng tin SMART 66 3.1.4.1.3 Mơ hình vec-tơ hệ thống SMART 67 3.1.4.1.4 Sử dụng mơ hình vec-tơ 69 3.1.4.2 Hệ thống Search4Vn .73 3.1.4.3 Hệ thống TERRIER 73 3.1.4.4 Hệ thống X-IOTA 74 3.1.4.5 Hệ thống LUCENE .74 3.2 Phân tích hệ thống đánh giá hệ thống tìm kiếm thông tin 74 3.2.1 Mô tả hệ thống trợ giúp đánh giá 74 3.2.1.1 Phát biểu toán 74 3.2.1.2 Mục tiêu 75 3.2.1.3 Phạm vi 75 3.2.1.4 Chức .75 3.2.1.5 Tính khả dụng .76 3.2.1.6 Hiệu suất .76 3.2.1.7 Tính bảo mật 76 3.2.2 Phân tích hệ thống đánh giá 76 3.2.2.1 Chức hệ thống 76 3.2.2.2 Chức yêu cầu 77 3.2.2.2.1 Chức đánh giá hệ thống IR 77 3.2.2.2.2 Chức so sánh nhiều hệ thống IR .77 3.2.2.2.3 Sơ đồ use case 77 3.2.2.2.4 Sơ đồ hoạt động usecase .79 Trang Luận văn : Đánh giá hệ thống tìm kiếm thơng tin 3.3 Thiết kế hệ thống đánh giá 86 3.3.1 Các chức chương trình 86 3.3.1.1 Chức “Định dạng sở liệu tài liệu” 86 3.3.1.2 Chức “Định dạng kết trả về” 86 3.3.1.3 Chức “Định dạng file index” .87 3.3.1.4 Chức “Thực thi hệ thống IR” 87 3.3.1.5 Chức “Xử lý kết trả về” 87 3.3.1.6 Chức ”Đánh giá hệ thống IR” .87 3.3.1.7 Chức “Đánh giá nhiều hệ thống IR” 87 3.3.2 Thiết kế hệ thống 88 3.3.2.1 Sơ đồ kiến trúc tổng thể .88 3.3.2.1.1 Danh sách lớp đối tượng 88 3.3.2.1.2 Lớp đối tượng thể 88 3.3.2.1.3 Lớp đối tượng xử lý 91 3.3.2.1.4 Lớp đối tượng lưu trữ .99 3.3.2.2 Sơ đồ kiến trúc tổng quát cho chức chương trình 99 3.3.2.2.1 Chức “Định dạng tài liệu” 99 3.3.2.2.2 Chức “Định dạng câu hỏi” 100 3.3.2.2.3 Chức “Thực thi hệ thống” 101 3.3.2.2.4 Chức “Định dạng kết quả” 102 3.3.2.2.5 Chức “Định dạng file index” 103 3.3.2.2.6 Chức “Đánh giá thi kết đánh giá” 103 3.3.2.2.7 Chức ”So sánh hệ thống IR thực thi” 104 3.3.2.3 Thiết kế liệu – tổ chức lưu trữ 105 3.3.2.3.1 Mơ hình liệu 105 3.3.2.3.2 Sơ đồ logic liệu 107 3.3.2.4 Tố chức lưu trữ liệu 110 3.3.2.4.1 System 110 3.3.2.4.2 Topic 112 3.3.2.4.3 Index_topic 113 3.3.2.4.4 Document 114 3.3.2.4.5 Index_Doc 115 3.3.2.4.6 relevant_TT 115 3.3.2.4.7 relevant_LT 116 3.3.2.4.8 evaluation 117 3.3.2.5 Thiết kế giao diện 119 3.3.2.5.1 Sơ đồ liên hệ hình 119 3.3.2.6 Thiết kế hình 122 3.3.2.6.1 Màn hình (TH_Main) 122 3.3.2.6.2 Màn hình định dạng tài liệu (TH_DDTaiLieu) 122 3.3.2.6.3 Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) 124 3.3.2.6.4 Màn hình định dạng câu hỏi (TH_DDCauHoi) 125 3.3.2.6.5 Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi) 127 3.3.2.6.6 Màn hình xử lý điều kiện để thực thi hệ thống IR 128 3.3.2.6.7 Màn hình thực thi hệ thống (TH_ThucThiHT) 129 3.3.2.6.8 Màn hình định dạng kết (TH_DDKetQua) 130 Trang Luận văn : Đánh giá hệ thống tìm kiếm thơng tin 3.3.2.6.9 Màn hình định dạng thông tin index (TH_DDIndex) 131 3.3.2.6.10 Màn hình đánh giá hệ thống (TH_KqDanhGia) 133 3.3.2.6.11 Màn hình xem đồ thị hệ thống 136 3.3.2.6.12 Màn hình xem chi tiết (TH_XemChiTiet) 136 3.3.2.6.13 Màn hình so sánh hệ thống (TH_SoSanhHT) 138 3.3.2.7 Thiết kế hệ thống lớp đối tượng 139 3.3.2.7.1 Các lớp đối tượng xử lý 139 3.3.2.7.2 Các lớp đối tượng lưu trữ 169 Chương : KẾT QUẢ ĐÁNH GIÁ 171 4.1 Ngưỡng đánh giá 171 4.2 Đánh giá hệ thống tìm kiếm thơng tin search4VN 171 4.3 So sánh hệ thống tìm kiếm search4VN hệ thống Lucene 177 4.4 Nhận xét chương trình hỗ trợ đánh giá hệ thống tìm kiếm thơng tin 179 4.4.1 Ưu điểm 179 4.4.2 Khuyết điểm 179 Chương : KẾT LUẬN 181 Chương : HƯỚNG PHÁT TRIỂN 182 PHỤ LỤC 183 Tài liệu tham khảo 186 Trang Luận văn : Đánh giá hệ thống tìm kiếm thơng tin MỞ ĐẦU Tìm kiếm thơng tin nhu cầu thiết thực tất người Đặc biệt bối cảnh bùng nổ thơng tin nay, gồm có đời internet sáng kiến thư viện điện tử, nhu cầu tìm kiếm thơng tin lại phát triển Nhưng nhờ có trợ giúp cơng nghệ thơng tin người thỏa mãn nhu cầu cách dễ dàng Thật vậy, có nhiều hệ thống tìm kiếm thơng tin (Information Retrieval system hay IR system) máy tính tồn để trợ giúp người Tuy nhiên, khả tìm kiếm thơng tin hệ thống chắn khác Do đó, việc đánh giá hệ thống tìm kiếm thông tin (Evaluation of Information Retrieval systems) nhu cầu thiếu nhằm xác định hệ thống tìm kiếm thơng tin hiệu Việc đánh giá có ý nghĩa lớn tồn phát triển hệ thống tìm kiếm thơng tin Nó giúp xác định khả tìm kiếm hệ thống tìm kiếm thơng tin từ mà tổ chức, công ty, trường học tạo hệ thống phát triển, thay đổi hệ thống để đưa khả tìm kiếm thơng tin tốt Ngồi ra, việc xác định hệ thống tìm kiếm thơng tin hiệu hữu ích người dùng, họ cảm thấy tin tưởng vào kết tìm kiếm mà hệ thống tìm Xa nữa, việc đánh giá tạo cách mạng lĩnh vực tìm kiếm thơng tin; giúp đưa tìm kiếm thơng tin vào giới thực đời sống Chẳng hạn, hệ thống tìm kiếm thông tin tiến chuyển từ nghiên cứu sang giới thực cạnh tranh thương mại nhà thiết kế, nhà phát triển, người bán hàng, đại diện bán hàng sản phẩm thông tin sách điện tử, phương tiện tìm kiếm (Search engines) … muốn biết sản phẩm họ có cung cấp cho người sử dụng người mua hàng tiềm lợi cạnh tranh hay không, thỏa mãn nhu cầu thông tin cách dễ dàng, xác Khả tìm kiếm hệ thống tìm kiếm thơng tin chúng tơi vừa đề cập nghiên cứu nhiều cấp độ: thứ khả xử lý tức thời gian tìm kiếm khơng gian lưu trữ hay cịn gọi hiệu năng; thứ hai khả tìm Trang 10 ... để đánh giá hệ thống tìm kiếm thông tin tiếng Việt Việc xây dựng ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây dựng tập câu truy vấn mẫu tiếng Việt _ Xây dựng bảng đánh giá. .. : Đánh giá hệ thống tìm kiếm thơng tin ĐỀ CƯƠNG CHI TIẾT Thông tin chung đề tài: Tên đề tài: Xây dựng ngữ liệu để đánh giá (test collection) tiếng Việt chương trình trợ giúp đánh giá hệ tìm kiếm. .. ,Lucene,Terrier… _ Xây dựng ngữ liệu kiểm tra tiếng Việt Trang Luận văn : Đánh giá hệ thống tìm kiếm thơng tin _ Xây dựng hệ chương trình phục vụ việc kiểm tra đánh giá hệ thống tìm kiếm thơng tin Chương trình