Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
1,76 MB
Nội dung
ĐẠI HỌCigure GIA HÀ NỘI QUỐC TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Chung NGHIÊN CỨU, PHÁT TRIỂN PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ CÂU TRUY VẤN TRONG HỆ TÌM KIẾM VÀ ỨNG DỤNG THỬ NGHIỆM VÀO MỘT HỆ TÌM KIẾM THỰC THỂ TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Chung NGHIÊN CỨU, PHÁT TRIỂN PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ CÂU TRUY VẤN TRONG HỆ TÌM KIẾM VÀ ỨNG DỤNG THỬ NGHIỆM VÀO MỘT HỆ TÌM KIẾM THỰC THỂ TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội - 2011 Mục lục Lời cảm ơn Lời cam đoan Bảng ký hiệu chữ viết tắt .4 Danh sách bảng Danh sách hình .6 MỞ ĐẦU Chương Bài tốn tính độ tương tự câu truy vấn máy tìm kiếm 1.1 Đặc trưng truy vấn 1.2 Bài tốn tính độ tương tự truy vấn 1.2.1 Bài tốn tính độ tương tự truy vấn 1.2.2 Các vấn đề cần quan tâm tính độ tương tự câu truy vấn 10 1.3 Tóm tắt chương 13 Chương Các phương pháp tính độ tương tự 14 2.1 Phương pháp thống kê 14 2.1.1 Phát biểu toán 14 2.1.2 Tính tốn độ tương tự dựa từ vựng 14 2.2 Phương pháp sử dụng xử lý ngôn ngữ tự nhiên 16 2.2.1 Phương pháp tính độ tương tự câu sử dụng Wordnet corpus 16 2.2.2 Phương pháp tính độ tương tự câu sử dụng chủ đề ẩn 21 2.3 Phương pháp sử dụng lưu vết truy vấn máy tìm kiếm 26 2.4 Tóm tắt chương 28 Chương Mơ hình đề xuất thực nghiệm .30 3.1 Cơ sở thực tiễn 30 3.2 Mơ hình đề xuất 30 3.3 Thực nghiệm 33 3.3.1 Môi trường thực nghiệm 33 3.3.2 Quá trình thực nghiệm 33 3.3.3 Đánh giá 35 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41 PHỤ LỤC 43 Kết trả từ máy tìm kiếm sau truy vấn 43 Bảng ký hiệu chữ viết tắt Ký hiệu viết tắt Ý nghĩa TF Term Frequency - IDF Inverse Document Frequency LDA Latent Dirichlet Allocation Userlog Lưu vết truy vấn máy tìm kiếm Danh sách bảng Bảng 1: Kết so sánh độ đo 19 Bảng 2: Kết tính độ tương tự truy vấn 34 Bảng 3: Bảng phân loại đánh giá 35 Bảng 4: Bảng đánh giá kết theo phân loại 36 Danh sách hình Hình 1: Lược đồ tính tốn độ tương tự câu 17 Hình 2: Hệ thống phân cấp ngữ nghĩa 19 Hình 3: Mơ hình biểu diễn LDA 22 Hình 4: Mơ hình đề xuất 31 Hình 5: Tìm kiếm với câu truy vấn 43 Hình 6: Tìm kiếm với câu truy vấn 44 Hình 7: Tìm kiếm với câu truy vấn tổng hợp 45 Hình 8: Tìm kiếm với câu truy vấn 46 Hình 9: Tìm kiếm với câu truy vấn 47 Hình 10: Tìm kiếm với câu truy vấn mở rộng 48 MỞ ĐẦU Tìm kiếm thơng tin web nhu cầu thiếu giới Việt Nam Với tốc độ phát triển internet nhanh chóng mạnh mẽ Việt Nam, theo báo cáo – tháng 4/2011 Netcitizens [20], Việt Nam quốc gia có tỷ lệ tăng trưởng Internet nhanh khu vực nằm số quốc gia có tỷ lệ tăng trưởng cao giới Từ năm 2000 đến số người sử dụng Internet nhân lên khoảng 120 lần Việc sử dụng trang web tìm kiếm chiếm 92% tổng hoạt động trực tuyến [20] Trong bối cảnh, lượng thông tin Internet ngày lớn cập nhật kịp thời người dùng cần cơng cụ để tìm kiếm thơng tin họ cần cách hiệu Trong hệ thống tìm kiếm, hầu hết truy vấn đặt từ khóa, cụm từ khóa đoạn văn ngắn Biểu diễn lại, làm truy vấn phù hợp toán đặc trưng hệ tìm kiếm, mở rộng truy vấn (query expansion) biểu diễn truy vấn có tính tương tự (query similarity) hai giải pháp điển hình Nhiều cơng trình nghiên cứu tính tương tự truy vấn tính tương tự văn ngắn cơng bố, chẳng hạn [18][7][1][8] Tính tương tự văn không hỗ trợ việc biểu diễn lại truy vấn mà sử dụng nhiều toán khác, chẳng hạn toán phân cụm truy vấn Luận văn với đề tài “Nghiên cứu, phát triển phương pháp tính độ tương tự truy vấn hệ tìm kiếm ứng dụng thử nghiệm vào hệ tìm kiếm thực thể tiếng Việt” thực khảo sát, nghiên cứu phương pháp tính độ tương tự truy vấn hệ tìm kiếm Từ đưa hướng phát triển cho phương pháp tính độ tương tự truy vấn phù hợp để áp dụng thử nghiệm vào hệ tìm kiếm tiếng Việt Đồng thời, luận văn tiến hành đánh giá bước cuối để đưa so sánh việc tìm kiếm thơng thường máy tìm kiếm tiếng Việt với việc sử dụng tính độ tương tự truy vấn để đưa câu trả lời Trong thời gian tiếp theo, luận văn nghiên cứu để áp dụng tính độ tương tự câu hỏi áp dụng vào hệ tìm kiếm thực thể Tiếng Việt Luận văn trình bày thành bốn chương, nội dung trình bày sơ đây: Chương Bài tốn tính độ tương tự truy vấn máy tìm kiếm Chương Các phương pháp tính độ tương tự truy vấn Chương Mơ hình đề xuất thực nghiệm Phần kết luận: Tổng kết, tóm lược nội dung kết đạt luận văn Chương Bài tốn tính độ tương tự câu truy vấn máy tìm kiếm Máy tìm kiếm cơng cụ hữu ích giúp người dùng tìm kiếm thông tin họ cần nhanh Vấn đề đặt người dùng đưa truy vấn vào truy vấn máy tìm kiếm làm giúp người dùng hiểu, lựa chọn xác họ cần hỏi Bài tốn tính độ tương tự truy vấn (query similarity) đưa để giải vấn đề Đây tốn khó thu hút ý nhà nghiên cứu lĩnh vực tìm kiếm Một phương pháp đo độ tương tự hai truy vấn có độ xác cao hữu ích cho ứng dụng giúp hỗ trợ người dùng việc tìm kiếm giúp máy tìm kiếm đưa câu trả lời với mục đích người hỏi Các ứng dụng là: Mở rộng truy vấn (question expansions) [13][5][18], gợi ý truy vấn (query recommendations) [15], quảng cáo trực tuyến (online advertising) [9] Bên cạnh đó, ngày có nhiều cơng việc địi hỏi việc tính tốn độ tương tự văn đoạn văn ngắn, đặc biệt độ tương tự hai truy vấn Các toán bao gồm: viết lại truy vấn (query reformulation) - tính độ tương tự hai câu truy vấn, tìm kiếm quảng cáo (sponsored search) - tính độ tương tự truy vấn người dùng từ khóa quảng cáo, tìm kiếm hình ảnh (image retrieval) – tính độ tương tự câu truy vấn tiêu đề hình ảnh Như biết, tốn tính độ tương tự văn quan tâm nghiên cứu từ lâu, tảng quan trọng để phát triển toán quan trọng khác lĩnh vực khai phá liệu phân cụm [2][3], tóm tắt văn [10], … Việc tính tốn độ tương tự văn thường dựa vào nội dung, ngữ cảnh văn [4] Các thuật tốn thơng thường sử dụng là: độ đo cosin, độ đo TF-IDF, Dice, … [8] Với văn bản, thường có khối lượng từ ngữ nhiều, có khả thể đầy đủ nội dung ngữ cảnh việc sử dụng phương pháp truyền thống thường tỏ hiệu quả, nhiên, đặc trưng câu truy vấn thường ngắn mang ngữ cảnh so với văn ví dụ câu truy vấn: apple biểu thị loại hoa quả, đồng thời tên cơng ty máy tính Ngồi ra, câu truy vấn người dùng thường đa dạng mà mẫu hay biểu diễn với nội dung mà người dùng muốn tìm kiếm Truy vấn có đặc trưng riêng mà ta cần nắm bắt đề lựa chọn áp dụng phương pháp phù hợp cho việc tính độ tương tự truy vấn Dưới luận văn trình bày đặc trưng truy vấn 1.1 Đặc trưng truy vấn Truy vấn dạng biểu diễn đặc biệt văn Truy vấn có đặc điểm riêng, đặc trưng cho truy vấn mà người dùng đưa vào máy tìm kiếm Truy vấn đưa vào máy tìm kiếm thường mang tính chủ quan người dùng Nó khơng phải lúc biểu diễn điều mà người dùng mong muốn thể Do trình độ người dùng người khác nhau, nên câu truy vấn đưa vào có định dạng khác nhau, đơi cịn xuất lỗi tả, Ngồi ra, không giống với văn với lượng lớn câu chữ, thường thể bối cảnh, nội dung rõ ràng, câu truy vấn thường ngắn, khơng thể đầy đủ nội dung mà người dùng mong muốn Ví dụ: Khi người dùng đưa vào câu truy vấn apple – táo Khi đọc câu truy vấn này, máy tìm kiếm khó để hiểu người dùng muốn ám loại hoa hay ám hãng máy tính tiếng Để đáp ứng đặc trưng riêng truy vấn, người ta thường áp dụng phương pháp biểu diễn truy vấn từ ngữ nội Tức khơng thêm bớt từ khóa truy vấn Ngoài ra, để tăng thêm ngữ nghĩa cho truy vấn, người ta sử dụng phương pháp mở rộng câu truy vấn, giúp máy tìm kiếm xác định rõ mục đích người dùng Một vấn đề khác cần quan tâm biểu diễn câu truy vấn, vấn đề từ đồng nghĩa Hai câu truy vấn biểu diễn khác dạng truy vấn người dùng lại mang mục đích, ý nghĩa Nếu hai câu truy vấn đồng nghĩa với nhau, máy tìm kiếm dễ dàng việc đưa câu trả lời thỏa đáng cho người dùng 1.2 Bài tốn tính độ tương tự truy vấn 1.2.1 Bài tốn tính độ tương tự truy vấn Khi sử dụng hệ thống tìm kiếm, người dùng nhập vào câu truy vấn yêu cầu máy tìm kiếm trả tập tài liệu liên quan Tuy nhiên, máy tìm kiếm thông thường dựa vào từ ngữ truy vấn mà trả tài liệu với nội dung khác nhau, cụ thể là: Máy tìm kiếm hiển thị kết với nội dung liên quan tới xác từ ngữ thuộc truy vấn Ví dụ: ta đưa vào truy vấn “Du lịch sinh thái” vào máy tìm kiếm kết hiển thị trang web có chứa xác cụm từ “du lịch sinh thái” có từ “du lịch” “sinh thái” “du” “lịch” “sinh” “thái” hiển thị 10 Máy tìm kiếm hiển thị kết với nội dung từ ngữ liên quan đến truy vấn từ đồng nghĩa với truy vấn Ví dụ: ta đưa vào máy tìm kiếm câu truy vấn “decease” máy tìm kiếm đưa kết liên quan đến từ khóa “decease” từ “die”, “death”, “demise”, “dying”, “fate” … từ đồng nghĩa “decease” (nghĩa “chết” tiếng Việt) Máy tìm kiếm hiển thị kết có liên quan đến lĩnh vực khác liên quan đến truy vấn Ví dụ: Người dùng đưa vào từ khóa Apple máy tìm kiếm hiển thị tài liệu liên quan đến máy tính apple apple fruit Để máy tìm kiếm hiển thị kết phù hợp với mục đích người dùng, cần tìm câu truy vấn mà theo người dùng câu truy vấn có ý nghĩa (tương tự) với câu truy vấn thời để máy tìm kiếm tự động viết lại truy vấn người dùng, tiến hành tìm kiếm đưa kết tốt Đấy nội dung tốn tính độ tương tự câu truy vấn Ví dụ: Người dùng đưa vào truy vấn: Lê Hồng Phong người ta muốn có kết liên quan đến Lê Huy Dỗn Tổng bí thư giai đoạn 1935-1936 Như vậy, máy tìm kiếm cần viết lại truy vấn Lê Hồng Phong thành Tổng bí thư Lê Hồng Phong, Lê Huy Doãn 1.2.2 Các vấn đề cần quan tâm tính độ tương tự câu truy vấn a Biểu diễn truy vấn Do đặc trưng riêng truy vấn, để tính tốn độ tương tự truy vấn, ta cần có cách biểu diễn truy vấn phù hợp Truy vấn biểu diễn theo phương pháp: Biểu diễn nguyên thể, Biểu diễn rút gọn, Biểu diễn mở rộng [7] Các phương pháp biểu diễn câu truy vấn trình bày đây: Biểu diễn không thay đổi từ ngữ - Surface representation Biểu diễn truy vấn từ ngữ nội phương pháp biểu diễn văn ngắn đơn giản Việc biểu diễn truy vấn phương pháp đưa lại liệu rời rạc, nhiên có chất lượng cao khơng có thay đổi (tự động thủ cơng) tác động để thay đổi Phương pháp gây nhiều nhiễu xử lý tính độ tương tự truy vấn nhiên ta lại không tốn công sức để xử lý Ví dụ: Nếu người dùng đưa vào truy vấn 34 o Lược bỏ câu truy vấn với lựa chọn liên kết trùng o Định dạng lại liệu dạng: “truy vấn” link1 link2 … > kết quả: Có 500 câu truy vấn với liên kết lựa chọn tương ứng Tính độ tương tự Sử dụng mơ hình tính độ tương tự trình bày trên, tính độ tương tự dựa vào lưu vết truy vấn máy tìm kiếm Kết đạt sau Sau trình thực nghiệm, luận văn thực tính tốn với trọng số {x1, x2, …, xn} khác thấy trọng số {0.9, 0.95, 1, 1.05, 1, , 1} đạt kết tốt Kết thu lấy 10 kết với ngưỡng đưa 0.45 STT Truy vấn | | truy vấn Độ tương tự Clb MU | | Manchester united 0.9 báo| |tin nhanh 0.9 trò chơi việt miễn phí | | chơi game miễn phí 0.9 thi thiết kế phần mềm microsoft || thi imagine 0.9 cup nghe nhạc online| |mp3 trực tuyến 0.6166666 baby einstein| |nhạc cho bà bầu 0.46249998 báo gia đình| |ni dạy 0.46249998 tro choi trang diem| |game vui thoi trang 0.46249998 tro choi trang diem| |tro choi mien phi 0.46249998 10 tin tức online | |tin nhanh 0.45 Bảng 2: Kết tính độ tương tự truy vấn 35 3.3.3 Đánh giá Do việc tính tốn định lượng để đánh giá tính xác việc tính độ tương tự câu hỏi khó khăn, nên người ta sử dụng phương pháp đánh giá định tính dựa vào người/ chuyên gia để đánh giá [7] [12] Luận văn sử dụng phương pháp đánh giá dựa vào người để đánh giá việc tính tốn độ tương tự câu truy vấn thực nghiệm Sử dụng bảng đánh giá phân loại sau [7]: Phân loại Mô tả Ví dụ Rất tốt Hai câu truy vấn có tương đương ngữ nghĩa Clb MU Manchester united Tốt Hai câu truy vấn có chung mục đích truy vấn, ngữ nghĩa không giống Người sử dụng muốn nói đến ý đưa vào truy vấn thi thiết kế phần mềm microsoft thi imagine cup Khá tốt Hai câu truy vấn có mục đích truy vấn, tro choi trang diem liên quan không rõ ràng game vui thoi trang Không tốt Hai câu truy vấn không liên quan đến Máy đếm tiền đếm số lần truy cập web Bảng 3: Bảng phân loại đánh giá Bảng đánh giá liệt kê đây: STT Truy vấn | | truy vấn Phân loại Mô tả Clb MU | | Manchester 0.9 united Rất tốt – Câu lạc MU Câu lạc Manchester United báo| |tin nhanh Tốt – báo tin nhanh thuộc phạm trù tin tức 0.9 36 trị chơi việt miễn phí | | 0.9 chơi game miễn phí Rất tốt – chơi trị chơi miễn phí, với việc tìm kiếm máy tìm kiếm tiếng Việt nên ý nghĩa tương đồng thi thiết kế phần mềm 0.9 microsoft || thi imagine cup Tốt – thi imagine cup thi thiết kế phần mềm Microsoft tổ chức nghe nhạc online| |mp3 trực 0.6166666 tuyến Khá tốt – người dùng có ý muốn nghe nhạc trực tuyến baby Einstein | | nhạc cho 0.46249998 bà bầu Khá tốt Baby Einstein thể loại nhạc dành riêng cho phụ nữ bầu cho em bé nghe để thơng minh Mục đích người dùng tìm nhạc cho em bé bụng mẹ nghe báo gia đình || ni dạy 0.46249998 Khá tốt – nuôi dạy phạm trù quan tâm gia đình khía cạnh khơng thể thiếu để tờ báo gia đình khai thác tro choi trang diem || game 0.46249998 vui thoi trang Khá tốt – trò chơi trang điểm hay game vui thời trang trò chơi online phổ biến dành cho nữ tro choi trang diem || tro 0.46249998 choi mien phi Khá tốt – Trò chơi trang điểm trị chơi trực tuyến miễn phí 10 tin tức online || tin nhanh Tốt – tin tức online tin nhanh thuộc phạm trù đưa tin báo chí 0.45 Bảng 4: Bảng đánh giá kết theo phân loại Ngoài ra, luận văn đưa truy vấn vào tìm kiếm với Google tiếng Việt [23] với câu truy vấn: Clb MU, Manchester united vn, Manchester united Clb MU truy vấn: thi thiết kế phần mềm microsoft, thi imagine cup, thi thiết kế 37 phần mềm microsoft thi imagine cup thu kết liệt kê phần phụ lục Nhận xét: Kết máy tìm kiếm trả đưa vào hai truy vấn: Clb MU, Manchester united o o Với 10 trang web máy tìm kiếm trả về, có kết chung liệt kê o Với 20 trang web máy tìm kiếm trả về, có kết chung liệt kê o Ngoài ra, trang web khác trang web tiếng việt, có nội dung nói câu lạc bóng đá Anh Manchester United o Với trang web máy tìm kiếm trả về, có ba kết chung liệt kê là: redcafe.vn, mufc.vn/vn, manutd.com.vn Từ kết trên, chứng tỏ, hai câu truy vấn đưa vào Clb MU Manchester united có tương đồng đưa vào máy tìm kiếm Trên thực tế, dựa vào ngữ nghĩa hai câu truy vấn này, Clb MU viết tắt cụm Câu lạc Manchester United – tương đương với truy vấn Manchester United Với câu truy vấn Clb MU Manchester united câu truy vấn tổng hợp – ghép hai câu truy vấn truy vấn với máy tìm kiếm Google đạt kết quả: o Tính mở rộng: máy tìm kiếm trả 8.540.000 kết với truy vấn tổng hợp, trả 1.260.000 6.620.000 kết với hai câu truy vấn riêng lẻ o Tính chun sâu: Khơng thể tính chun sâu o Tính bao gói: trang bao gói trang hai câu truy vấn cũ Cụ thể đưa vào truy vấn tổng hợp máy tìm kiếm trả trả trang web: redcafe.vn, mufc.vn/vn, manutd.com.vn, vi.wikipedia.org/wiki/Manchester_United trang web xuất truy vấn hai câu truy vấn riêng lẻ Clb MU Manchester United o Tính xác: Các trang web trả đưa vào câu truy vấn tổng hợp nói thơng tin câu lạc bóng đá 38 Manchester United nói câu lạc cổ động viên hâm mộ đội bóng đá Cụ thể Với 20 trang web máy tìm kiếm trả về: Có 19 trang web nói thơng tin câu lạc bóng đá MU trang web nói hát thức câu lạc bóng đá MU Với 10 trang web máy tìm kiếm trả về: Có kết diễn đàn cổ động viên đội tuyển bóng đá Manchester United trang web nói tin tức đội bóng đá Với trang web máy tìm kiếm trả về: Cả năm trang web diễn đàn hội cổ động viên đội tuyển MU Như vậy, truy vấn tổng hợp hai câu truy vấn Clb MU Manchester United đạt độ xác cao đưa vào truy vấn máy tìm kiếm Kết máy tìm kiếm trả đưa vào hai truy vấn: thi thiết kế phần mềm microsoft, thi imagine cup o o Với 10 trang web máy tìm kiếm trả về, có kết chung o Với 20 trang web máy tìm kiếm trả có kết chung o Với trang web máy tìm kiếm trả về, có bốn kết chung liệt kê là: www.microsoft.com/vietnam/imaginecup/, www.microsoft.com/vietnam/imaginecup/schedulte.aspx, www.microsoft.com/vietnam/imaginecup/introduction.aspx, www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID topic new Từ kết trên, chứng tỏ hai truy vấn thi thiết kế phần mềm microsoft, thi imagine cup có tính tương đồng cao – độ tương tự hai câu truy vấn cao Với câu truy vấn thi thiết kế phần mềm microsoft thi imagine cup câu truy vấn tổng hợp – ghép hai câu truy vấn truy vấn với máy tìm kiếm Google đạt kết quả: o Tính mở rộng: Khơng thể tính mở rộng o Tính chuyên sâu: hai câu truy vấn riêng lẻ trả 48600 6280000 kết quả, câu truy vấn tổng hợp trả 15800 kết quả, 39 máy tìm kiếm trả kết chuyên sâu thi imagine cup microsoft tổ chức o Tính bao gói: trang bao gói bốn trang web hai câu truy vấn cũ Cụ thể đưa vào truy vấn tổng hợp máy tìm kiếm trả trả trang web: liệt kê là: www.microsoft.com/vietnam/imaginecup/, www.microsoft.com/vietnam/imaginecup/schedulte.aspx, www.microsoft.com/vietnam/imaginecup/introduction.aspx, www.cusc.ctu.edu.vn/forum/index.php?PHPSESSID topic new o Tính xác: Các trang web trả đưa vào câu truy vấn tổng hợp nói thơng tin thi imagine cup Từ bảng đánh giá ví dụ truy vấn máy tìm kiếm google, ta thấy kết tính độ tương tự câu truy vấn lấy ngưỡng từ 0.4 đến có độ tương đồng ngữ nghĩa hay mục đích người sử dụng cao chứng tỏ việc tính độ tương tự câu truy vấn dựa vào userlog theo mơ hình đề xuất đạt kết tốt 40 KẾT LUẬN Luận văn tìm hiểu trình bày vấn đề tốn tính độ tương tự câu truy vấn, phương pháp tính độ tương tự truy vấn Từ đưa đánh giá phương pháp đề xuất mô hình tính tốn phù hợp với tính tốn độ tương tự truy vấn tiếng Việt Kết luận văn là: - Trình bày vấn đề khái quát, tổng quan độ tương tự câu truy vấn, - Nghiên cứu hướng tiếp cận khác nhau, nhằm giải tốn tính độ tương tự câu truy vấn máy tìm kiếm, phương pháp: phương pháp thống kê, phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy vấn máy tìm kiếm - Trên sở lý thuyết tìm hiểu, luận văn lựa chọn phương pháp làm sở để đề xuất mơ hình tính độ tương tự cho câu truy vấn dựa phương pháp sử dụng lưu vết truy vấn máy tìm kiếm Đã đề xuất cải tiến việc đưa thêm giá trị trọng số cho liên kết web để nâng cao độ xác kết trả - Luận văn đồng thời xây dựng phần mềm thực nghiệm thi hành mơ hình đề xuất, thực thi việc tạo thành truy vấn kết bước đầu thu khả quan - Phần đánh giá thực nghiệm, luận văn sử dụng cách đánh giá định tính, lấy 10 cặp câu truy vấn tương tự khối liệu đưa vào thực nghiệm để đánh giá đồng thời tạo câu truy vấn tổng hợp để đưa vào truy vấn máy tìm kiếm Google tiếng Việt, thấy kết trả phù hợp với kết tính độ tương tự truy vấn tương ứng Do hạn chế trình độ thời gian, luận văn chưa tiến hành phân tích cơng phu độ đo tương tự truy vấn tìm kiếm Đấy hướng nghiên cứu luận văn 41 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam [2] Nguyễn Thị Thu Chung (2009) Xây dựng danh bạ web Tiếng Việt với phương pháp phân cụm phân cấp văn bản, Khóa luận đại học, Trường Đại học Cơng nghệ, ĐHQGHN [3] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy (2009) Xây dựng danh bạ web tiếng Việt với phân cụm phân cấp văn bản, Hội thảo Quốc gia Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông lần thứ XII, Đồng Nai, 5-7/8/2009 Tài liệu tiếng Anh [4] Amac Herdagdelen, Massimiliano Ciaramita, Daniel Mahler, Maria Holmqvist, Keith Hall, Stefan Riezler, Enrique Alfonseca (2010) Generalized syntactic and semantic models of query reformulation, SIGIR 2010: 283-290 [5] Bodo Billerbeck (2005) Efficient Query Expansion, PhD Thesis, RMIT University, Australia [6] Caroline Gherbaoui (2008) Similarity Measures for Query Expansion in TopX, Master Thesis, Universität des Saarlandes [7] Donald Metzler, Susan T Dumais, Christopher Meek (2007) Similarity Measures for Short Segments of Text, ECIR 2007: 16-27 [8] Eui-Kyu Park, Seong-In Moon, Dong-Yul Ra, Myung-Gil Jang (2002) Web Document Retrieval Using Sentence-Query Similarity, TREC 2002 [9] Fan Yang, Bin An, Xizhao Wang (2009), Co – clustering for queries and corresponding advertisement, Machine Learning and Cybernetics, International Conference on 2009 [10] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro(2005), Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2) 2005: 638-646 42 [11] Fu, L., Goh, H L., Foo, S B., & Na, J C (2003) Collaborative querying through a hybrid query clustering approach Conference on Asian Digital Libraries (6th:2003:Malaysia) [12] Ji-Rong Wen, Jian – Yun Nie, Hong-Jiang Zhang (2002), Query Clustering Using User Logs, ACM Transactions on Information Systems, Vol 20, No 1, January 2002 [13] Jose R Perez-Aguera, Lourdes Araujo (2008) Comparing and Combining Methods for Automatic Query Expansion, Advances in Natural Language Processing and Applications Research in Computing Science, 33: 177-188 [14] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, 17th International World Wide Web Conference, 2008 [15] Ricardo Baeza-Yates, Carlos Hurtado, Marcelo Mendoza (2004), Query Recommendation Using Query Logs in Search Engines, In Current Trends in Database Technology - EDBT 2004 Workshops, Vol 3268/2004 (18 November 2004), pp 588-596 [16] Siddharth Patwardhan (2003) Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic Relatedness MSc Thesis, University of Minnesota, Duluth, MN [17] Wen-tau Yih, Christopher Meek (2007) Improving Similarity Measures for Short Segments of Text Microsoft Research One Microsoft Way Redmond, WA 98052, USA, 2007, pp 1489-1494 [18] Wesley W Chu, Guogen Zhang (1997) Associative query answering via query feature similarity, Intelligent Information Systems (IIS '97): 405-409 [19] Yuhua Li, David McLean, Zuhair A Bandar, James D O’Shea, and Keeley Crockett (2006), Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans on Knowl and Data Eng 18(8): pp 1138-1150 [20] http://sites.google.com/site/netcitizens/ [21] http://itim.vn/users/home [22] http://en.wikipedia.org/wiki/Query_expansion [23] http://www.google.com.vn/ 43 PHỤ LỤC Kết trả từ máy tìm kiếm sau truy vấn Với câu truy vấn: Clb MU Manchester united Hình 5: Tìm kiếm với câu truy vấn 44 Hình 6: Tìm kiếm với câu truy vấn 45 Hình 7: Tìm kiếm với câu truy vấn tổng hợp 46 Với câu truy vấn: thi thiết kế phần mềm microsoft thi imagine cup Hình 8: Tìm kiếm với câu truy vấn 47 Hình 9: Tìm kiếm với câu truy vấn 48 Hình 10: Tìm kiếm với câu truy vấn mở rộng ... CÔNG NGHỆ Nguyễn Thị Thu Chung NGHIÊN CỨU, PHÁT TRIỂN PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ CÂU TRUY VẤN TRONG HỆ TÌM KIẾM VÀ ỨNG DỤNG THỬ NGHIỆM VÀO MỘT HỆ TÌM KIẾM THỰC THỂ TIẾNG VIỆT Ngành: Cơng nghệ thơng... vào hệ tìm kiếm thực thể tiếng Việt? ?? thực khảo sát, nghiên cứu phương pháp tính độ tương tự truy vấn hệ tìm kiếm Từ đưa hướng phát triển cho phương pháp tính độ tương tự truy vấn phù hợp để áp dụng. .. lại truy vấn mà cịn sử dụng nhiều tốn khác, chẳng hạn toán phân cụm truy vấn Luận văn với đề tài ? ?Nghiên cứu, phát triển phương pháp tính độ tương tự truy vấn hệ tìm kiếm ứng dụng thử nghiệm vào