LỜI CAM ĐOAN Tôi xin cam đoan: Luận án cơng trình nghiên cứu thực cá nhân tôi, thực Trường Đại học Bách khoa, Đại học Đà Nẵng hướng dẫn khoa học PGS.TS Võ Trung Hùng PGS.TS Huỳnh Công Pháp Các số liệu, kết luận nghiên cứu trình bày luận án trung thực chưa cơng bố cơng trình tác giả khác Tôi xin chịu trách nhiệm lời cam đoan Tác giả, Lâm Tùng Giang -i- MỤC LỤC MỞ ĐẦU 1 ĐẶT VẤN ĐỀ MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2.1 Mục tiêu 2.2 Đối tượng 2.3 Phạm vi ĐÓNG GÓP CỦA LUẬN ÁN BỐ CỤC CỦA LUẬN ÁN CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU 1.1 TRUY VẤN THÔNG TIN 1.1.1 Khái niệm 1.1.2 Định nghĩa hình thức 10 1.1.3 Sơ đồ xử lý hệ thống truy vấn thông tin 10 1.1.4 Các mơ hình truy vấn thông tin truyền thống 12 1.1.5 Khai thác quan hệ thuật ngữ văn 16 1.2 ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN 19 1.2.1 Khái niệm 19 1.2.2 Các độ đo 20 1.2.3 Môi trường thực nghiệm 22 1.3 TRUY VẤN THÔNG TIN XUYÊN NGỮ 24 1.3.1 Khái niệm 24 1.3.2 Các hướng tiếp cận 24 1.3.3 Các kỹ thuật dịch tự động 25 1.4 CÁC KỸ THUẬT XẾP HẠNG LẠI 25 - ii - 1.4.1 Xếp hạng xếp hạng lại 25 1.4.2 Khai thác thơng tin máy tìm kiếm có sẵn 26 1.4.3 Học xếp hạng 28 1.4.4 Khai thác thông tin người sử dụng 30 1.5 XẾP HẠNG TRANG WEB 31 1.5.1 Đặc thù tìm kiếm web 31 1.5.2 Các phương pháp xếp hạng trang Web 32 1.5.3 Xếp hạng trang Web tìm kiếm xuyên ngữ 36 1.6 CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU 37 1.6.1 Hạn chế 37 1.6.2 Đề xuất nghiên cứu 37 1.7 TIỂU KẾT CHƯƠNG 41 CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ 42 2.1 CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG 42 2.1.1 Sử dụng máy dịch 42 2.1.2 Sử dụng kho ngữ liệu 43 2.1.3 Sử dụng từ điển 44 2.1.4 Sử dụng ngôn ngữ trung gian 44 2.1.5 Sử dụng không gian ngữ nghĩa 45 2.1.6 Đánh giá chung 45 2.2 KHỬ NHẬP NHẰNG 46 2.3 MƠ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY 47 2.3.1 Xây dựng liệu từ điển 48 2.3.2 Khử nhập nhằng dựa độ đo mức độ liên quan cặp từ 49 2.3.3 Các biến thể công thức MI 49 2.3.4 Thuật toán chọn dịch tốt 51 - iii - 2.3.5 Xây dựng câu truy vấn 58 2.4 THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI 62 2.4.1 Môi trường thực nghiệm 62 2.4.2 Kết thực nghiệm 64 2.5 THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CĨ CẤU TRÚC 65 2.5.1 Mơi trường thực nghiệm 65 2.5.2 Cấu hình thực nghiệm 65 2.5.3 Kết thực nghiệm 66 2.6 TIỂU KẾT CHƯƠNG 67 CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN 69 3.1 CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN 69 3.1.1 Phân đoạn câu truy vấn ngôn ngữ nguồn 69 3.1.2 Mở rộng câu truy vấn 70 3.1.3 Thu hẹp câu truy vấn 71 3.1.4 Xử lý thuật ngữ từ điển 72 3.2 PHÂN ĐOẠN CÂU TRUY VẤN 73 3.2.1 Sử dụng công cụ vnTagger 73 3.2.2 Thuật toán WLQS 73 3.2.3 Kết hợp WLQS công cụ vnTagger 75 3.3 ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGƠN NGỮ ĐÍCH 78 3.3.1 Phản hồi ẩn 79 3.3.2 Phản hồi ẩn truy vấn xuyên ngữ 81 3.3.3 Điều chỉnh câu truy vấn có cấu trúc ngơn ngữ đích 82 3.4 THỰC NGHIỆM 86 3.4.1 Cấu hình thực nghiệm 86 3.4.2 Kết 87 - iv - 3.5 TIỂU KẾT CHƯƠNG 89 CHƯƠNG 4: XẾP HẠNG LẠI 91 4.1 HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN 91 4.1.1 Mơ hình ứng dụng lập trình di truyền 93 4.1.2 Xây dựng công cụ kết thực nghiệm 94 4.1.3 Đánh giá 96 4.2 ĐỀ XUẤT CÁC MƠ HÌNH LÂN CẬN 97 4.2.1 Mơ hình CL-Büttcher 98 4.2.2 Mơ hình xếp hạng CL-Rasolofo 99 4.2.3 Mô hình xếp hạng CL-HighDensity 100 4.2.4 Thực nghiệm việc ứng dụng mơ hình lân cận xuyên ngữ 101 4.3 HỌC XẾP HẠNG TRANG WEB 103 4.3.1 Các mơ hình học xếp hạng 103 4.3.2 Môi trường thực nghiệm 106 4.3.3 Cấu hình thực nghiệm 109 4.3.4 Kết thực nghiệm 109 4.4 TIỂU KẾT CHƯƠNG 110 CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH 111 5.1 THIẾT KẾ HỆ THỐNG 111 5.1.1 Các thành phần hệ thống & sơ đồ thuật toán 111 5.1.2 Dữ liệu từ điển 114 5.1.3 Dữ liệu đánh mục 114 5.2 PHƯƠNG PHÁP THỰC NGHIỆM 115 5.3 THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN 116 5.3.1 Cấu hình thực nghiệm 116 5.3.2 Kết thực nghiệm 117 -v- 5.3.3 Đánh giá 119 5.4 THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN 119 5.4.1 Cấu hình thực nghiệm 119 5.4.2 Kết thực nghiệm 120 5.4.3 Đánh giá 121 5.5 THỰC NGHIỆM XẾP HẠNG LẠI 121 5.5.1 Cấu hình thực nghiệm 122 5.5.2 Kết thực nghiệm 123 5.5.3 Đánh giá 125 5.6 ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT 125 5.7 TIỂU KẾT CHƯƠNG 128 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 129 KẾT LUẬN 129 1.1 Tóm tắt nội dung luận án 129 1.2 Các kết đạt 129 HƯỚNG PHÁT TRIỂN 132 TÀI LIỆU THAM KHẢO 133 - vi - DANH MỤC HÌNH VẼ Hình 1.1: Quá trình xử lý hệ thống truy vấn thơng tin 11 Hình 1.2: Biểu đồ trung bình 11 điểm 22 Hình 1.3: Mơ hình xếp hạng tìm kiếm Web đa ngữ 38 Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn 39 Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn 71 Hình 3.2: Phản hồi người dùng 79 Hình 3.3: Phản hồi ẩn độ phù hợp kết tìm kiếm ban đầu 79 Hình 3.4: Đồ thị trung bình 11 điểm 88 Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh 107 Hình 5.1: Các thành phần hệ thống tìm kiếm Web Việt - Anh 111 Hình 5.2: Sơ đồ thuật toán hệ thống 112 Hình 5.3: So sánh cấu hình dùng dịch 118 Hình 5.4: So sánh cấu hình dùng dịch 119 Hình 5.5: Kết lần huấn luyện phương pháp 124 Hình 5.6: Điểm MAP sử dụng phương án dịch Top_three_all 127 Hình 5.7: Điểm MAP sử dụng phương án dịch Top_three_weight 128 - vii - DANH MỤC BẢNG Bảng 1.1 Thông tin sử dụng & đặc điểm mô hình xếp hạng 18 Bảng 2.1: Cấu hình thực nghiệm 63 Bảng 2.2: Kết thực nghiệm 64 Bảng 2.3: So sánh P@k MAP cấu hình 66 Bảng 3.1: Điểm số MAP 87 Bảng 3.2: Số lượng tài liệu phù hợp tải 88 Bảng 4.1 Ví dụ thuộc tính sưu tập OHSUMED 92 Bảng 4.2 So sánh giá trị MAP 95 Bảng 4.3 So sánh giá trị NDCG@k 96 Bảng 4.4: So sánh giá trị P@k 96 Bảng 4.5: Điểm MAP cấu hình thực nghiệm 102 Bảng 4.6: Mức độ tăng hiệu áp dụng mơ hình lân cận 102 Bảng 4.7: Các phương án hàm distance 105 Bảng 4.8: Kết thực nghiệm 109 Bảng 5.1: Các cấu hình đánh giá giải pháp dịch câu truy vấn 116 Bảng 5.2: So sánh giải pháp dịch câu truy vấn 117 Bảng 5.3: Cấu hình đánh giá kết điều chỉnh câu truy vấn 120 Bảng 5.4: So sánh giải pháp điều chỉnh câu truy vấn 121 Bảng 5.5: Cấu hình thực nghiệm học xếp hạng 122 Bảng 5.6: Kết thực nghiệm phương pháp học xếp hạng 123 Bảng 5.7: Đánh giá việc áp dụng kỹ thuật đề xuất 125 - viii - DANH MỤC TỪ VIẾT TẮT AP Average Precision CLEF Cross Language Evaluation Forum CLIR Cross Language Information Retrieval DF Document frequency FIRE Forum for Information Retrieval Evaluation GP Genetic Programming HITS Hypertext Induced Topic Search HTML Hyper Text Markup Language IDF Inverse Document Frequency IR Information Retrieval LETOR LEearning TO Rank LMIR Language Models in Information Retrieval LSI Latent Sematic Indexing MAP Mean Average Precision MI Mutual Information MRD Machine Readable Dictionary NDCG Normalized Discount Cumulative Gain PRF Pseudo-Relevance Feedback SMI Summary Mutual Information SVD Singular-Value Decomposition TF Term frequency TREC Text REtrieval Conference UNL Universal Network Language VSM Vector Space Model WLQS Word-Length-based Query Segmentation WWW Word Wide Web - ix - DANH MỤC THUẬT NGỮ Anchor Mốc, neo Authority Độ tin cậy Average Precision Độ xác trung bình Bag of Words Túi từ Bilingual Machine Readable Dictionary Từ điển máy song ngữ Binary Independence Retrieval – BIR Mơ hình truy vấn nhị phân độc lập Boolean model Mơ hình Boolean Cohesion Score Điểm liên kết Cross Language Information Retrieval - Truy vấn thông tin xuyên ngữ CLIR Cross-language Web Search Tìm kiếm web xuyên ngữ Data sparsity Tính thưa thớt liệu Degree of similarity Mức độ tương tự Discounted Cumulative Gain Độ lợi tích lũy giảm dần Fuzzy-Logic model Mơ hình lơ-gic mờ Gain Function Hàm lợi ích Hub Trung tâm Hyper Text Markup Language-HTML Ngơn ngữ siêu văn Hyperlink Siêu liên kết Information Retrieval – IR Truy vấn thông tin Inverse document frequency – IDF Tần suất tài liệu nghịch đảo IR model Mô hình truy vấn thơng tin Language Model – LMIR Mơ hình ngơn ngữ Latent Sematic Indexing - LSI Mơ hình mục ngữ nghĩa ngầm Learning to Rank Học xếp hạng Loss Function Hàm tổn thất Machine Learning - ML Học máy -x- nghiệm, hệ thống đề xuất có hiệu tốt (với độ đo MAP) so việc áp dụng dịch thủ công [86] Một kết quan trọng luận án với việc áp dụng đồng thời thành phần, chất lượng xếp hạng trang Web tìm kiếm xuyên ngữ nâng cao vượt kết xếp hạng sử dụng phương pháp dịch thủ công thực nghiệm tiến hành HƯỚNG PHÁT TRIỂN Bên cạnh kết đạt được, tác giả xác định hướng phát triển luận án tập trung giải vấn đề sau:  Các thuật toán xử lý câu truy vấn trình bày luận án nhạy cảm với loại ngơn ngữ, nội dung, kích thước câu truy vấn Trong khn khổ giới hạn thời gian, tác giả tập trung nghiên cứu mơ hình tìm kiếm với câu truy vấn tiếng Việt văn cần tìm kiếm tiếng Anh Các câu truy vấn trọng thực nghiệm câu truy vấn có độ dài trung bình, trường hợp câu truy vấn ngắn câu truy vấn dài chưa xem xét Hướng nghiên cứu mở rộng, hoàn chỉnh việc đánh giá thực nghiệm với cặp ngôn ngữ khác với độ dài câu truy vấn khác  Tối ưu hóa thuật toán tiền xử lý câu truy vấn, khử nhập nhằng Thời gian xử lý thuật toán xử lý câu truy vấn, khử nhập nhằng cần cải thiện  Nghiên cứu việc áp dụng kỹ thuật học máy khác, xây dựng tổ hợp hàm xếp hạng sở khác Hạn chế học máy dựa lập trình di truyền chi phí thời gian lớn Bên cạnh đó, luận án tập trung xem xét danh sách hàm sở hạn chế Hướng nghiên cứu xem xét áp dụng thuật toán học máy khác với danh sách mở rộng hàm sở - 145 - DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [1] [2] [3] [4] [5] [6] [7] [8] [9] Giang L.T., Hùng V.T (2012), "Các phương pháp xếp hạng lại trộn kết tìm kiếm" Tạp chí Khoa học Cơng nghệ trường Đại học Kỹ thuật, vol 91, pp 59–64 Lâm Tùng Giang, Võ Trung Hùng (2013), "Đánh giá thực nghiệm mô hình truy vấn thơng tin đa ngữ" In: Hội nghị quốc gia lần thứ VI Nghiên cứu ứng dụng Công nghệ thông tin, pp 103–107 Lâm Tùng Giang, Võ Trung Hùng (2013), "Ứng dụng lập trình di truyền học xếp hạng" Tạp chí Khoa học Công nghệ trường Đại học Kỹ thuật, vol 92, pp 58–63 Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Building Evaluation Dataset in Vietnamese Information Retrieval" Journal of Science and Technology Danang University, vol 12, no 1, pp 37–41 Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Experiments with query translation and re-ranking methods in Vietnamese-English bilingual information retrieval" In: Proceedings of the Fourth Symposium on Information and Communication Technology - SoICT ’13, ACM Press, pp 118–122 Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building Structured Query in Target Language for Vietnamese – English Cross Language Information Retrieval Systems" International Journal of Engineering Research & Technology (IJERT), vol 4, no 04, pp 146–151 Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Improve Cross Language Information Retrieval with Pseudo-Relevance Feedback" In: FAIR 2015, pp 315–320 Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building proximity models for Cross Language Information Retrieval" Issue on Information and Communication Technology- University of Danang, vol 1, no 1, pp 8–12 Lâm Tùng Giang, Võ Trung Hùng, Huỳnh Công Pháp (2016), "Áp dụng học máy dựa lập trình di truyền tìm kiếm Web xun ngữ" Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng, vol 1, no 98, pp 93–97 - 146 - ... XẾP HẠNG TRANG WEB 31 1.5.1 Đặc thù tìm kiếm web 31 1.5.2 Các phương pháp xếp hạng trang Web 32 1.5.3 Xếp hạng trang Web tìm kiếm xuyên ngữ 36 1.6 CÁC HẠN CHẾ VÀ... ngơn ngữ đích;  Đề xuất phương pháp xếp hạng lại danh sách kết tìm kiếm truy vấn xuyên ngữ, trọng việc xếp hạng trang Web  Kết hợp áp dụng giải pháp đề xuất mô hình tìm kiếm web xuyên ngữ nhằm... đề xuất gán trọng số cách thủ cơng đó, cần nghiên cứu nhằm khắc phục hạn chế Xuất phát từ tình hình thực tiễn trên, đề tài "Một số phương pháp phục vụ xếp hạng trang Web tìm kiếm xuyên ngữ" chọn

