Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
609,3 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Lâm Tùng Giang MỘTSỐPHƯƠNGPHÁPPHỤCVỤXẾPHẠNGCÁCTRANGWEBTRONG TÌM KIẾMXUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG - 2017 Công trình hoàn thành tại: Trường Đại học Bách khoa, Đại học Đà Nẵng Cán hướng dẫn khoa học: - PGS.TS Võ Trung Hùng - PGS.TS Huỳnh Công Pháp Phản biện 1: GS TS Hoàng Văn Kiếm Phản biện 2: PGS TS Lê Mạnh Thạnh Phản biện 3: PGS TS Phan Huy Khánh Luận án bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà nẵng họp Đại học Đà Nẵng vào hồi 14h00 ngày 26 tháng năm 2017 LỜI MỞ ĐẦU Tìmkiếmwebxuyênngữ đặt nhiệm vụ từ nhu cầu thông tin người dùng trình bày ngôn ngữ (ngôn ngữ nguồn) thực việc xác định trangweb phù hợp viết ngôn ngữ khác (ngôn ngữ đích) XếphạngtìmkiếmWebxuyênngữ liên quan đến việc tạo lập kết thực câu truy vấn dạng danh sách tài liệu theo thứ tự phù hợp với nhu cầu truy vấn Nhằm thực việc xếphạng truy vấn thông tin nói chung toán tìmkiếmWebxuyênngữ nói riêng, cần giải hai nhiệm vụtrọng tâm: Thứ nhiệm vụ dịch thuật, nhằm biểu diễn câu truy vấn tài liệu không gian chung, cụ thể ngôn ngữ Thứ hai nhiệm vụxếp hạng, thông qua việc triển khai giải pháp kỹ thuật, thước đo nhằm đánh giá, so sánh mức độ phù hợp tài liệu câu truy vấn Mộtsố hạn chế giải pháp bao gồm chất lượng dịch thuật thấp lệ thuộc vào cặp ngôn ngữ Với hệ thống tìmkiếm liên quan tiếng Việt, vấn đề xử lý ngôn ngữ dịch thuật khiến hiệu xếphạng kết tìmkiếm hạn chế Bên cạnh đó, hệ thống tìmkiếmWeb cần có thiết kế riêng biệt so với hệ thống truy vấn thông tin văn truyền thống nhằm khai thác cấu trúc đặc thù tài liệu HTML phụcvụ trình xếphạng Từ hạn chế nêu, phát sinh nhu cầu nghiên cứu nâng cao chất lượng dịch thuật nhu cầu nghiên cứu tăng hiệu xếphạng thông qua việc khai thác đặc thù tài liệu HTML Xuất phát từ tình hình thực tiễn, đề tài "Một sốphươngphápphụcvụxếphạngtrangWebtìmkiếmxuyên ngữ" chọn làm đề tài nghiên cứu luận án Tiến sĩ kỹ thuật nhằm đề xuất mô hình hệ thống tìmkiếmWebxuyênngữ giải pháp kỹ thuật áp dụng thành phần mô hình nhằm nâng cao hiệu xếphạng danh sách kết tìmkiếm Mục tiêu, đối tượng phạm vi nghiên cứu luận án Các mục tiêu cụ thể luận án bao gồm: nghiên cứu đề xuất phươngphápphụcvụ dịch thuật, bao gồm kỹ thuật tiền xử lý câu truy vấn, dịch câu truy vấn xử lý câu truy vấn ngôn ngữ đích nghiên cứu đề xuất phươngphápxếphạng lại danh sách kết tìmkiếm truy vấn xuyên ngữ, trọng việc xếphạngtrangWeb Thước đo hiệu sử dụng điểm MAP (Mean Average Precision) Bố cục luận án Ngoài phần mở đầu kết luận, luận án tổ chức thành chương với cấu trúc sau: Chương 1: Tổng quan đề xuất nghiên cứu Chương 2: Dịch tự động phụcvụ truy vấn xuyênngữ Chương : Hỗ trợ dịch câu truy vấn Chương 4: Xếphạng lại Chương 5: Hệ thống tìmkiếmWebxuyênngữ Việt Anh Đóng góp luận án - Đề xuất phươngpháp khử nhập nhằng mô-đun dịch câu truy vấn; - Đề xuất phươngpháp tiền xử lý câu truy vấn; - Đề xuất phươngpháp cải tiến câu truy vấn ngôn ngữ đích; - Đề xuất mô hình lân cận xuyên ngữ; - Đề xuất phươngpháp học xếphạng dựa lập trình di truyền - Thiết kế mô hình tìmkiếmWebxuyênngữ cho cặp ngôn ngữ Việt-Anh CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU 1.1 Truy vấn thông tin 1.1.1 Khái niệm 1.1.2 Định nghĩa hình thức 1.1.3 Sơ đồ xử lý hệ thống truy vấn thông tin Các giải pháp truy vấn thông tin chia thành giai đoạn: Giai đoạn I: Thu thập, xử lý, đánh mục, lưu trữ tài liệu Giai đoạn II: Truy vấn 1.1.4 Các mô hình truy vấn thông tin truyền thống Các mô hình truy vấn thông tin truyền thống phụcvụ việc đánh mục bao gồm mô hình Boolean (Boolean model), mô hình không gian vec-tơ (Vector Space model), mô hình xác suất (Probabilistic model) 1.1.5 Khai thác quan hệ thuật ngữ Mô hình mục ngữ nghĩa ngầm mô hình lân cận xem xét mối quan hệ ngữ nghĩa thuật ngữ văn 1.2 Đánh giá hệ thống truy vấn thông tin 1.3 Truy vấn thông tin xuyênngữ 1.3.1 Khái niệm Truy vấn thông tin xuyênngữ giải trường hợp tài liệu cần truy vấn viết ngôn ngữ khác với ngôn ngữ truy vấn 1.3.2 Các hướng tiếp cận Hai hướng tiếp cận chủ yếu CLIR dịch câu truy vấn dịch tài liệu 1.4 Các kỹ thuật xếphạng lại 1.5 XếphạngtrangWeb 1.6 Các hạn chế đề xuất nghiên cứu 1.6.1 Hạn chế Các hạn chế nghiên cứu bao gồm chất lượng dịch thuật việc chưa khai thác đặc thù tài liệu webxếphạng 1.6.2 Đề xuất nghiên cứu Tác giả xác định vấn đề cần thực nghiên cứu bao gồm vấn đề dịch thuật nhằm tạo môi trường cho phép so sánh câu truy vấn tài liệu cần tìmkiếm vấn đề cải tiến chất lượng xếp hạng, đảm bảo hệ thống tìmkiếm xây dựng phù hợp với loại tài liệu lưu trữ đạt hiệu cao dựa thước đo đánh giá hệ thống trình bày Từ đây, tác giả đề xuất xây dựng mô hình xếphạngphụcvụtìmkiếmWebxuyênngữCác nội dung tác giả thực nghiên cứu bao gồm: - Các kỹ thuật dịch tự động; - Các kỹ thuật hỗ trợ dịch thuật bao gồm tiền xử lý câu truy vấn ngôn ngữ nguồn tối ưu hóa câu truy vấn ngôn ngữ đích; - Cácphươngpháp học xếp hạng; - Xây dựng hệ thống tìmkiếmWebxuyênngữ 1.7 Tiểu kết chương Tác giả xác định vấn đề cần thực nghiên cứu bao gồm vấn đề dịch thuật nhằm tạo môi trường cho phép so sánh câu truy vấn với tài liệu cần tìmkiếm vấn đề cải tiến chất lượng xếphạng CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤCVỤ TRUY VẤN XUYÊNNGỮ 2.1 Cácphươngpháp dịch tự động 2.2 Khử nhập nhằng phươngpháp sử dụng từ điển Ba vấn đề có khả gây ảnh hưởng giảm hiệu hệ thống bao gồm độ bao phủ từ điển, việc phân đoạn câu truy vấn thành phần có nghĩa việc xác định dịch phù hợp 2.3 Mô hình sử dụng từ điển máy 2.3.1 Các biến thể công thức MI 2.3.1.1 Sử dụng tần xuất xuất cặp từ Công thức phổ biến tính giá trị MI thể quan hệ cặp từ có dạng sau: 𝑀𝐼𝑐𝑜𝑜𝑐 = log ( 𝑝(𝑥, 𝑦) ) 𝑝(𝑥) × 𝑝(𝑦) (2.1) đó, với p(x,y) xác suất hai từ x,y xuất câu với khoảng cách không từ, p(x) p(y) xác suất xuất từ x y kho ngữ liệu 2.3.1.2 Sử dụng máy tìmkiếm Với từ x y, chuỗi x,y 'x AND y' dùng câu truy vấn gửi tới máy tìmkiếmCác giá trị n(x), n(y), n(x,y) tương ứng số tài liệu chứa chuỗi x, y x,y xuất 𝑀𝐼𝑖𝑟 = 𝑛(𝑥, 𝑦) 𝑛(𝑥) × 𝑛(𝑦) (2.2) 2.3.2 Thuật toán chọn dịch tốt Các thuật toán phần thực câu truy vấn tiếng Việt qv phân tích thành tập hợp ((v1,L1),(v2,L2), ….,(vn,Ln)) chứa từ khóa tiếng Việt v1, danh sách dịch tương ứng L1,…,Ln, 𝐿𝑖 = (𝑡1 , … , 𝑡𝑘𝑖 ) danh sách chứa dịch ứng viên vi 2.3.2.1 Thuật toán sử dụng cohesion score 2.3.2.2 Thuật toán SMI Mỗi dịch ứng viên qtrane biểu diễn dạng qtrane = (e1, , en), ei chọn từ danh sách Li Hàm SMI (Summary Mutual Information) định nghĩa sau 𝑆𝑀𝐼(𝑞𝑡𝑟𝑎𝑛𝑒 ) = ∑ 𝑀𝐼(𝑥, 𝑦) 𝑥,𝑦 ∈𝑞𝑡𝑟𝑎𝑛𝑒 (2.3) Bản dịch ứng viên với giá trị SMI cao chọn dịch tiếng Anh cho câu truy vấn tiếng Việt qv ban đầu 2.3.2.3 Thuật toán SQ chọn dịch cách j k Đầu tiên, danh sách cặp dịch ( ti , t i 1 ) tất cặp cột liền kề (i, i+1) tạo lập Trong danh sách này, cột tương ứng cặp dịch có giá trị hàm MI cao chọn cột i0 i0+1, tạo thành tập hợp GoodColumns Sau dịch tốt từ cột liền kề với hai cột xác định dựa giá trị hàm cohesion score công thức: 𝑐𝑜ℎ𝑒𝑠𝑖𝑜𝑛(𝑡𝑖𝑘 ) = 𝑀𝐼(𝑡𝑖𝑘 , 𝑡𝑐𝑏𝑒𝑠𝑡 ) ∑ 𝑐∈𝐺𝑜𝑜𝑑𝐶𝑜𝑙𝑢𝑚𝑛𝑠 (2.4) Cột tương ứng dịch tốt bổ sung tập hợp GoodColumns Quá trình tiếp tục cột kiểm tra Tiếp theo, dịch cột xếp lại.Kết quả, tương ứng với từ tiếng Việt, ta nhận danh sách dịch tốt 2.3.3 Xây dựng câu truy vấn 2.3.3.1 Kết hợp phươngpháp gán trọngsố thủ công Câu truy vấn tạo có dạng: 𝑚 𝑚 𝑞 = (𝑡11 𝑤11 𝑂𝑅 𝑡12 𝑤12 … 𝑡1 𝑤1 ) 𝑤1 𝐴𝑁𝐷 (2.5) 𝑚 𝑚 … 𝐴𝑁𝐷 (𝑡𝑛1 𝑤𝑛1 𝑂𝑅 𝑡𝑛2 𝑤𝑛2 … 𝑡𝑛 𝑛 𝑤𝑛 𝑛 )𝑤𝑛 2.3.3.2 Gán trọngsố dựa kết trình khử nhập nhằng 𝑚 Gọi 𝑡𝑖1 , 𝑡𝑖2 , … 𝑡𝑖 𝑖 phương án dịch vi danh 𝑚 sách Li với trọngsố tương ứng 𝑤𝑖1 , 𝑤𝑖2 , … 𝑤𝑖 𝑖 Khi đó, câu truy vấn có dạng: 𝑚 𝑚 𝑞 = (𝑡11 𝑤11 𝑂𝑅 𝑡12 𝑤12 … 𝑡1 𝑤1 ) 𝐴𝑁𝐷 (2.6) 𝑚 𝑚 … 𝐴𝑁𝐷 (𝑡𝑛1 𝑤𝑛1 𝑂𝑅 𝑡𝑛2 𝑤𝑛2 … 𝑡𝑛 𝑛 𝑤𝑛 𝑛 ) 2.3.4 Áp dụng công thức SMI chọn dịch tốt Bảng 2.1: Kết thực nghiệm STT Cấu hình P@1 P@5 P@10 MAP So sánh nMI 0.497 0.482 0.429 0.436 74.79% SMI 0.511 0.488 0.447 0.446 76.50% Dịch 0.489 0.535 0.505 0.499 85.59% Google Dịch thủ 0.605 0.605 0.563 0.583 100% công 2.4 Thực nghiệm tạo dịch câu truy vấn có cấu trúc Bảng 2.2: So sánh P@k MAP cấu hình Cấu hình P@1 P@5 P@10 MAP Tỷ lệ 6 top_one_ch 0.64 0.48 0.444 0.275 71.24% top_one_sq 0.52 0.472 0.46 0.291 75.39% top_three_ch 0.68 0.528 0.524 0.316 81.87% top_three_sq 0.64 0.552 0.532 0.323 84.55% top_three_all 0.76 0.576 0.54 0.364 94.30% Google 0.64 0.568 0.536 0.349 90.41% Baseline 0.76 0.648 0.696 0.386 100% 2.5 Tiểu kết chương Chương trình bày nghiên cứu tác giả liên quan kỹ thuật dịch tự động phụcvụ truy vấn xuyênngữ Đề xuất tác giả trình bày chương phương án dịch câu truy vấn từ điển: Phươngpháp thứ định nghĩa hàm Summary Mutual Information nhằm chọn phương án dịch tốt cho từ khóa câu truy vấn Phươngpháp thứ hai dựa thuật toán chọn dịch cho từ khóa truy vấn cách Việc sử dụng công thức SMI cho kết tốt phươngpháp sử dụng thuật toán Greedy, nhiên không tốt máy dịch Google Phươngpháp chọn dịch cách SQ cho kết vượt trội máy dịch Google Điều kiện để triển khai thuật toán máy tìmkiếm phải hỗ trợ câu truy vấn có cấu trúc CHƯƠNG 3: CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN 3.1 Phân đoạn câu truy vấn 3.1.1 Sử dụng công cụ vnTagger 3.1.2 Thuật toán WLQS Thuật toán WLQS (Word-length-based Query Segmentation) - tác giả đề xuất - thực việc phân đoạn câu truy vấn dựa độ dài từ khóa Việc đề xuất thuật toán sở giả thuyết: từ đa âm (compound word) tồn từ điển chứa từ bên khác, dịch từ có xu hướng tốt việc kết hợp dịch từ bên 3.1.3 Kết hợp WLQS công cụ vnTagger Nhằm nâng cao hiệu thuật toán WLQS khai thác ưu điểm công cụ vnTagger, thuật toán phân đoạn, bóc tách từ khóa từ câu truy vấn xây dựng sở kết hợp ưu điểm hai thành phần Thuật toán bóc tách từ khóa từ câu truy vấn tiếng Việt gồm bước: tìm từ từ điển, gán nhãn từ, loại bỏ từ chứa từ khác, loại bỏ từ chồng chéo, bổ sung lại từ sót 3.2 Điều chỉnh câu truy vấn ngôn ngữ đích 3.2.1 Phản hồi ẩn truy vấn xuyênngữTrong truy vấn xuyên ngữ, PRF áp dụng giai đoạn khác nhau: trước sau trình dịch thuật kết hợp sử dụng giai đoạn với mục tiêu nâng cao hiệu truy vấn 3.2.2 Điều chỉnh câu truy vấn có cấu trúc ngôn ngữ đích Với tập hợp tài liệu trả từ câu truy vấn ban đầu, trọngsố thuật ngữ chứa câu truy vấn tính lại để xây dựng lại câu truy vấn với dạng 𝑚 𝑚 𝑞′ = (𝑡11 𝑤11 𝑂𝑅 𝑡12 𝑤12 … 𝑡1 𝑤1 ) 𝐴𝑁𝐷 𝑚 𝑚 … 𝐴𝑁𝐷 (𝑡𝑛1 𝑤𝑛1 𝑂𝑅 𝑡𝑛2 𝑤𝑛2 … 𝑡𝑛 𝑛 𝑤𝑛 𝑛 ) Để mở rộng câu truy vấn, xem xét công thức khác phụcvụ việc tính toán trọngsố cho thuật ngữ: Công thức FW1: 𝜆 𝑗 𝑤(t j ) = × ∑ 𝑤𝑑𝑖 (3.1) |𝐷𝑟 | 𝑑𝑖 ∈𝐷𝑟 Công thức FW2, kết hợp trọngsố tf-idf cục trọngsố idf từ khóa: 𝜆 𝑁+1 𝑗 𝑤(t j ) = × ∑ 𝑤𝑑𝑖 × log( ) (3.2) |𝐷𝑟 | 𝑁𝑡𝑖 + 𝑑𝑖 ∈𝐷𝑟 Ở đây, N tổng số tài liệu kho tài liệu, Nt số tài liệu chứa thuật ngữ t, 𝜆 tham số điều chỉnh Với thuật ngữ tj từ khóa qk, mi(tj,qk) số lần xuất hai từ với khoảng cách không ký tự Công thức FW3: Các hàm xếphạng sau sử dụng để kiểm tra so sánh: 𝑠𝐶𝐿−𝐵𝑢𝑡𝑡𝑐ℎ𝑒𝑟 (𝑑, 𝑞) = 𝑠𝑐𝑜𝑟𝑒𝑠𝑜𝑙𝑟 (𝑑, 𝑞) + 𝑠𝑐𝑜𝑟𝑒𝑜𝑘𝑎𝑝𝑖 (𝑑, 𝑞) (4.4) + 10 × 𝑠𝑐𝑜𝑟𝑒𝐶𝐿−𝐵𝑢𝑡𝑡𝑐ℎ𝑒𝑟 (𝑑, 𝑞) 𝑠𝐶𝐿−𝑅𝑎𝑠𝑜𝑙𝑜𝑓𝑜 (𝑑, 𝑞) = 𝑠𝑐𝑜𝑟𝑒𝑠𝑜𝑙𝑟 (𝑑, 𝑞) + 𝑠𝑐𝑜𝑟𝑒𝑜𝑘𝑎𝑝𝑖 (𝑑, 𝑞) (4.5) + 10 × 𝑠𝑐𝑜𝑟𝑒𝐶𝐿−𝑅𝑎𝑠𝑜𝑙𝑜𝑓𝑜 (𝑑, 𝑞) 𝑠𝐶𝐿−𝐻𝑖𝑔ℎ𝐷𝑒𝑛𝑠𝑖𝑡𝑦 (𝑑, 𝑞) = 𝑠𝑐𝑜𝑟𝑒𝑠𝑜𝑙𝑟 (𝑑, 𝑞) + 𝑠𝑐𝑜𝑟𝑒𝑜𝑘𝑎𝑝𝑖 (𝑑, 𝑞) (4.6) + × 𝑠𝑐𝑜𝑟𝑒𝐶𝐿−𝐻𝑖𝑔ℎ𝐷𝑒𝑛𝑠𝑖𝑡𝑦 (𝑑, 𝑞) Bảng 3.1: Điểm MAP cấu hình thực nghiệm CLCLCLOrigin Buttcher Rasolofo HighDensity 0.365 top_three_ch 0.350 0.352 0.372 0.389 top_three_sq 0.370 0.375 0.397 0.397 top_three_all 0.380 0.386 0.403 0.374 Join-all 0.351 0.357 0.376 0.299 Flat 0.262 0.271 0.310 Google 0.372 Baseline 0.381 Bảng 3.2: Mức độ tăng hiệu áp dụng mô hình lân cận CLCL-Butcher CL-Rasolofo HighDensity 4.29% top_three_ch 0.57% 6.29% 5.14% top_three_sq 1.35% 7.30% 4.47% top_three_all 1.58% 6.05% 6.55% Join-all 1.71% 7.12% 14.12% Flat 3.44% 18.32% 4.3 Học xếphạngtrangWeb 4.3.1 Các mô hình học xếphạng Hai mô hình học xếphạng dựa lập trình di truyền đề xuất nhằm "học" hàm xếphạng dạng tổ hợp tuyến tính 11 ác hàm xếphạngsở Mô hình thứ sử dụng liệu huấn luyện chứa điểm số gán cho thành phần tài liệu HTML nhãn xác định tài liệu có phù hợp hay không so với câu truy vấn Mô hình thứ hai sử dụng điểm số gán cho thành phần tài liệu HTML, sau so sánh thứ tự xếphạng hàm ứng viên so với hàm xếphạngsở 4.3.2 Cá thể Với tập n hàm xếphạngsở F0, F1,…,Fn, cá thể xem xét có dạng hàm tuyến tính f kết hợp hàm xếphạng sở: 𝑛 𝑓(𝑑) = ∑ 𝛼𝑖 × 𝐹𝑖 (𝑑) (4.7) 𝑖=0 Với 𝛼𝑖 số thực, d tài liệu cần gán điểm Mục đích xác định hàm f cho kết xếphạng tốt 4.3.2.1 Hàm mục tiêu Hàm mục tiêu (fitness function) xác định mức độ thích nghi cá thể Hàm mục tiêu sử dụng mô hình học xếphạng có giám sát đề xuất giá trị MAP Thuật toán 4.1: tính độ phù hợp (có giám sát) Input: Hàm ứng viên f, tập câu truy vấn Q Output: mức độ phù hợp hàm f begin n = 0; sap = 0; for each câu truy vấn q n+=1; tính điểm tài liệu hàm xếphạng f; ap = độ xác trung bình cho hàm xếphạng f; sap += ap; map = sap/n return map Trong mô hình học xếphạng không giám sát, gọi r(i,d,q) 12 thứ hạng tài liệu d danh sách kết tìmkiếm câu truy vấn q, sử dụng hàm xếphạng Fi; rf(d,q) thứ hạng tài liệu d danh sách kết tìmkiếm câu truy vấn q, sử dụng hàm xếphạng f; thuật toán trình bày sau: Thuật toán 4.2: tính độ phù hợp (không giám sát) Input: Hàm ứng viên f, tập câu truy vấn Q Output: mức độ phù hợp hàm f begin s_fit = 0; for each câu truy vấn q tính điểm tài liệu hàm xếphạng f; D = tập hợp 200 tài liệu đứng đầu; for each tài liệu d in D k+=1;d_fit = 0; for i=0 to n d_fit +=distance(i,k,q) s_fit += d_fit return s_fit Tác giả thực nghiệm phương án hàm distance(i,k,q) sử sụng thuật toán 4.2 sau: Bảng 4.3: Cácphương án hàm distance distance(i,k,q) Phương án abs(r(i,d,q)-rf(d,q)) abs(r(i,d,q)-rf(d,q))/log(k+1) (r(i,d,q)-rf(d,q))/ k 4.3.2.2 Quá trình huấn luyện 4.3.3 Môi trường thực nghiệm 4.3.4 Cấu hình thực nghiệm Thuật toán đề xuất kiểm tra với cấu hình sau: Cấu hình SQ: sử dụng dịch có cấu trúc Cấu hình SC: kết học xếphạng có giám sát 13 Các cấu hình UC1, UC2, UC3: kết học xếphạng không giám sát, tương ứng với cấu hình hàm mục tiêu định nghĩa Bảng 4.3 4.3.5 Kết thực nghiệm Bảng 4.4: Kết thực nghiệm Cấu hình Giá trị MAP Baseline 0.3742 Google 0.3548 SQ 0.4307 SC 0.4640 UC1 0.4284 UC2 0.4394 UC3 0.4585 4.4 Tiểu kết chương Từ câu truy vấn ngôn ngữ nguồn, việc áp dụng kỹ thuật trình bày chương chương cho phép tạo lập hiệu chỉnh câu truy vấn có cấu trúc ngôn ngữ đích Chương kế thừa kết chương trình bày đề xuất kỹ thuật tác giả phụcvụxếphạng lại kết tìmkiếmCác đóng góp tác giả trình bày chương bao gồm: - Đề xuất bóc tách đánh mục thành phần nội dung trangweb máy tìmkiếm nhằm định nghĩa tập hợp hàm xếphạng sở; - Định nghĩa mô hình lân cận xuyênngữ CL-Buttcher, CL-Rasolofo CL-HighDensity áp dụng tìmkiếmxuyênngữ nhằm tìmkiếm hàm xếphạngsở mới; - Đề xuất mô hình học xếphạng hệ thống tìmkiếmWebxuyên ngữ, hàm xếphạng cuối xây dựng dạng tổ hợp tuyến tính hàm xếphạngsở Kết thực nghiệm cho thấy việc áp dụng học xếphạng giúp tăng hiệu hệ thống (đo độ đo MAP) CHƯƠNG 5: HỆ THỐNG TÌMKIẾMWEBXUYÊNNGỮ VIỆT-ANH 14 Chương trình bày chi tiết thiết kế hệ thống tìmkiếmWebxuyênngữ Việt-Anh kết thực nghiệm nhằm đánh giá ảnh hưởng việc áp dụng giải pháp kỹ thuật đề xuất luận án so sánh hiệu với giải pháp kỹ thuật khác 5.1 Thiết kế hệ thống 5.1.1 Các thành phần hệ thống Các thành phần hệ thống bao gồm tiền xử lý câu truy vấn, dịch câu truy vấn, điều chỉnh câu truy vấn, tìmkiếm tiếng Anh xếphạng lại; tương ứng với kết nghiên cứu trình bày chương 2, 5.1.2 Dữ liệu từ điển 5.1.3 Dữ liệu đánh mục 5.2 Phươngpháp thực nghiệm 5.3 Thực nghiệm giải pháp dịch câu truy vấn 5.3.1 Cấu hình thực nghiệm Bảng 5.1: Các cấu hình đánh giá giải pháp dịch câu truy vấn Cấu hình Diễn giải Baseline Các câu truy vấn dịch thủ công Google Các câu truy vấn dịch cách sử dụng máy dịch Google nMI Sử dụng thuật toán khử nhập nhằng greedy SMI Sử dụng thuật toán khử nhập nhằng SMI Top_one_all Sử dụng thuật toán chọn dịch cách tuần tự, kết xuất dịch tốt cho từ khóa, tạo lập câu truy vấn có cấu trúc Top_three_all Sử dụng thuật toán chọn dịch cách tuần tự, kết xuất dịch tốt cho từ khóa, tạo lập câu truy vấn có cấu trúc Top_three_weight Sử dụng thuật toán chọn dịch cách tuần, kết xuất dịch tốt cho từ 15 khóa,tạo lập câu truy vấn có cấu trúc với trọngsố xác định trình khử nhập nhằng Top-Three_flat Sử dụng thuật toán chọn dịch cách tuần tự, tạo lập câu truy vấn có cấu trúc cách lập nhóm dịch từ khóa toán tử OR, nối nhóm toán tử AND Join-All Lập nhóm dịch kết xuất từ từ điển từ khóa toán tử OR, sau nối nhóm toán tử AND 5.3.2 Kết thực nghiệm Bảng 5.2: So sánh giải pháp dịch câu truy vấn Cấu hình P@5 P@10 P@20 MAP So sánh Baseline 0.636 0.562 0.514 0.3838 100% Google 0.616 0.54 0.507 0.3743 97,52% nMI 0.5 0.464 0.418 0.269 70,09% SMI 0.496 0.478 0.427 0.2862 74,57% Top_one_all 0.56 0.526 0.451 0.3245 84,55% Top_three_all 0.64 0.582 0.52 0.3924 102,24% Top_three_weight 0.64 0.592 0.52 0.3988 103,91% Top-Three_flat 0.592 0.556 0.499 0.3737 97,37% Join-All 0.612 0.574 0.509 0.3865 100,70% 5.3.3 Đánh giá Giữa phươngpháp sử dụng dịch tốt cho từ khóa ngôn ngữ nguồn, cấu hình SMI cho kết tốt so với cấu hình nMI, cấu hình Top_one_all sử dụng câu truy vấn có cấu trúc với trọngsố cho kết tốt Việc sử dụng câu truy vấn có cấu trúc cho kết tốt Giữa cấu hình sử dụng dịch tốt cho từ khóa, cấu hình Top_three_weight cho kết tốt 5.4 Thực nghiệm điều chỉnh câu truy vấn 16 5.4.1 Cấu hình thực nghiệm Bảng 5.3: Cấu hình đánh giá kết điều chỉnh câu truy vấn Cấu hình Diễn giải Baseline FW2_Top_three_all Sử dụng thuật toán dịch câu truy vấn Top_three_all Thực điều chỉnh câu truy vấn FW2_Top_three_weight_A Sử dụng thuật toán dịch câu truy vấn Top_three_weight mở rộng câu truy vấn Thực việc tính lại trọngsố từ khóa truy vấn FW2_Top_three_weight_B Sử dụng thuật toán dịch câu truy vấn Top_three_weight mở rộng câu truy vấn Không thực việc tính lại trọngsố từ khóa truy vấn Top-Three_flat Sử dụng thuật toán dịch câu truy vấn Top-Three_flat mở rộng câu truy vấn 5.4.2 Kết thực nghiệm Bảng 5.4: So sánh giải pháp điều chỉnh câu truy vấn Cấu hình P@5 P@10 P@20 MAP Baseline 0.636 0.562 0.514 0.3838 FW2_Top_three_all 0.640 0.586 0.522 0.4261 FW2_Top_three_weight_A 0.644 0.586 0.522 0.4192 FW2_Top_three_weight_B 0.660 0.594 0.535 0.4312 FW2_Top-Three_flat 0.652 0.586 0.520 0.4220 5.4.3 Đánh giá Bảng kết cho thấy việc áp dụng kỹ thuật điều chỉnh câu truy vấn giúp tăng hiệu hệ thống với kết tốt tương ứng với cấu hình kiểm thử FW2_Top_three_weight_B, cấu hình FW2_Top_three_all 17 5.5 Thực nghiệm xếphạng lại Cácphươngpháp học máy áp dụng lập trình di truyền tác giả đề xuất đánh giá so sánh với sốphươngpháp học xếphạng khác triển khai công cụ RankLib 5.5.1 Cấu hình thực nghiệm Bảng 5.5: Cấu hình thực nghiệm học xếphạng Cấu hình Diễn giải SC-1 Áp dụng học xếp hạng, có sử dụng liệu huấn luyện Sử dụng phương án dịch câu truy vấn FW2_Top_three_all UC3-1 Áp dụng học xếp hạng, không sử dụng liệu huấn luyện Sử dụng phương án dịch câu truy vấn FW2_Top_three_all SC-2 Áp dụng học xếp hạng, có sử dụng liệu huấn luyện Sử dụng phương án dịch câu truy vấn FW2_Top_three_weight_B UC3-2 Áp dụng học xếp hạng, không sử dụng liệu huấn luyện Sử dụng phương án dịch câu truy vấn FW2_Top_three_weight_B MART Sử dụng RankLib với phươngpháp MART Coordinate Ascent Sử dụng RankLib với phươngpháp Coordinate Ascent Random Forests Sử dụng RankLib với phươngpháp Random Forests 5.5.2 Kết thực nghiệm Điểm MAP trung bình cao thuộc cấu hình học máy có huấn luyện SC-1 SC-2 Các điểm cao điểm MAP trung bình tương ứng thuật toán MART, Coordinate Ascent Random Forests triển khai với công cụ RankLib Các cấu hình UC3-1 UC3-2 cho kết điểm MAP trung bình tương ứng 0.456 0.464 18 5.5.3 Đánh giá Bảng kết cho thấy hiệu phươngpháp học xếphạng dựa lập trình di truyền Các cấu hình học máy có giám sát SC-1 SC-2 cho kết tương ứng 0.476 0.484, 123,96% 126,09% so với phương án sử dụng dịch thủ công Điểm MAP trung bình cấu hình UC3-1 UC3-2 không sử dụng liệu huấn luyện tương ứng 0.456 0.464, tăng tương ứng 7% 7,7% so với điểm MAP cấu hình FW2_Top_three_all FW2_Top_three_weight_B 5.6 Đánh giá hiệu việc áp dụng kỹ thuật đề xuất Bảng 5.6: Đánh giá việc áp dụng kỹ thuật đề xuất Cấu hình Diễn giải MAP Baseline Các câu truy vấn dịch thủ 0.384 công Google Các câu truy vấn dịch 0.374 cách sử dụng máy dịch Google Cácphươngpháp dịch câu truy vấn SMI Sử dụng thuật toán khử nhập 0.286 nhằng SMI Top_one_all Kết xuất dịch tốt 0.325 cho từ khóa Top_three_all họn dịch cách tuần tự, 0.392 kết xuất dịch tốt cho từ khóa, tạo lập câu truy vấn có cấu trúc Top_three_weight Chọn dịch cách tuần tự, 0.399 tạo lập câu truy vấn có cấu trúc với trọngsố xác định trình khử nhập nhằng Cácphươngpháp điều chỉnh câu truy vấn FW2_Top_three_all Sử dụng thuật toán dịch câu truy 0.427 19 FW2_Top_three_wei ght_B vấn Top_three_all Áp dụng công thức FW2 Sử dụng thuật toán dịch câu truy 0.431 vấn Top_three_weight Áp dụng công thức FW2 Không thực việc tính lại trọngsố từ khóa truy vấn Áp dụng học máy UC3 FW2_Top_three_all Sử dụng hàm xếphạng tổng hợp 0.456 kết học xếphạng không giám sát cho cấu hình FW2_Top_three_all SC Sử dụng hàm xếphạng tổng hợp 0.476 FW2_Top_three_all kết học xếphạng có giám sát cho cấu hình FW2_Top_three_all UC3 Sử dụng hàm xếphạng tổng hợp 0.464 FW2_Top_three_wei kết học xếphạng không ght giám sát cho cấu hình FW2_Top_three_weight SC Sử dụng hàm xếphạng tổng hợp 0.484 FW2_Top_three_wei kết học xếphạng có giám ght sát cho cấu hình FW2_Top_three_weight Cácphươngpháp dịch câu truy vấn chọn lựa dịch tốt cho từ khóa SMI Top_one_all cho kết điểm MAP tương ứng 0.286 0.325, tương ứng 74,48% 84,64% so với điểm MAP cấu hình baseline sử dụng dịch thủ công Khi áp dụng việc chọn lựa dịch tốt cho từ khóa, sau điều chỉnh câu truy vấn áp dụng học xếp hạng, kết điểm MAP tiếp tục nâng cao 20 5.7 Tiểu kết chương Trong chương 5, môi trường thực nghiệm thống xây dựng sử dụng nhằm kiểm tra hiệu việc áp dụng đề xuất kỹ thuật tác so sánh với số giải pháp kỹ thuật khác Kết cho thấy, qua bước áp dụng kỹ thuật dịch thuật, điều chỉnh câu truy vấn học xếp hạng, hiệu hệ thống (đo điểm MAP) cải thiện KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận 1.1 Tóm tắt nội dung luận án Nội dung luận án trình bày kết nghiên cứu tác giả phươngphápxếphạngtìmkiếmtrangWebxuyênngữ Tác giả nghiên cứu sở lý thuyết kết nghiên cứu truy vấn thông tin, truy vấn thông tin xuyênngữ toán xếphạng lại Trên sởsơ đồ xử lý hệ thống truy vấn thông tin, tác giả đề xuất mô hình xếphạngtrangWebtìmkiếmxuyênngữ xác định nội dung nghiên cứu Lần lượt chương 2, 4, tác giả sâu nghiên cứu thành phần kỹ thuật xử lý câu truy vấn, toán dịch tự động xếphạng lại đề xuất giải pháp kỹ thuật áp dụng thành phần này, phụcvụ mục tiêu nâng cao hiệu xếphạngtrangWeb mô hình xếphạngtrangWebtìmkiếmxuyênngữTrong chương 5, tác giả triển khai việc kiểm tra, đánh giá kỹ thuật đề xuất môi trường thực nghiệm thống Kết thực nghiệm cho thấy: qua bước áp dụng kỹ thuật dịch thuật, điều chỉnh câu truy vấn học xếp hạng, hiệu hệ thống (đo độ đo MAP) cải thiện 1.1 Các kết đạt Lý thuyết Các kết lý thuyết tác giả đề xuất bao gồm hai nhóm kỹ thuật áp dụng bước mô hình tìmkiếmWebxuyênngữ 21 Nhóm thứ bao gồm đề xuất kỹ thuật phụcvụ dịch thuật, bao gồm kỹ thuật tiền xử lý câu truy vấn, dịch câu truy vấn xử lý câu truy vấn ngôn ngữ đích Cụ thể: - Đề xuất phươngpháp tiền xử lý câu truy vấn ngôn ngữ nguồn Một cách cụ thể, tác giả đề xuất thuật toán WLQS, sử dụng công cụ mã nguồn mở vnTagger, thực việc phân đoạn câu truy vấn thành cụm từ cần dịch, kèm với danh sách dịch ứng viên - Đề xuất phươngpháp khử nhập nhằng mô-đun dịch thuật Tác giả giới thiệu hàm Summary Mutual Information phụcvụ việc chọn dịch tốt cho từ khóa truy vấn thuật toán chọn dịch cách nhằm xác định danh sách dịch tốt xếp theo thứ tự cho từ khóa truy vấn - Đề xuất phươngpháp xây dựng câu truy vấn ngôn ngữ đích Tác giả đề xuất phương án xây dựng câu truy vấn có cấu trúc ngôn ngữ đích dựa danh sách dịch từ khóa truy vấn Tiếp theo, tác giả đề xuất việc sử dụng kỹ thuật phản hồi ẩn, kết hợp với việc áp dụng công thức khác cho việc tính toán trọngsố thuật ngữ chứa văn bản, nhằm xây dựng lại câu truy vấn có cấu trúc mở rộng câu truy vấn Nhóm kỹ thuật thứ hai kỹ thuật phụcvụxếphạng lại danh sách kết tìmkiếm truy vấn xuyên ngữ, trọng việc xếphạngtrangWeb Cụ thể: - Đề xuất mô hình lân cận (proximity model) xuyênngữ Hai mô hình xây dựng tảng mô hình lân cận đơn ngữ Büttcher Rasolofo Một mô hình khác định nghĩa dựa việc xem xét câu tài liệu chứa nhiều từ khóa truy vấn - Đề xuất phươngphápxếphạng lại kết tìmkiếmWeb Trên sở sử dụng máy tìmkiếm Solr, tác giả phân tích tập tin HTML thành trường tạo lập đa mục cho tài liệu Một danh sách hàm xếphạng định nghĩa áp dụng 22 hàm xếphạngsở tài liệu danh sách kết tìmkiếm ban đầu Cuối cùng, kỹ thuật học máy ứng dụng lập trình di truyền áp dụng nhằm xây dựng hàm xếphạng tổng hợp cho từ hàm xếphạngsở để xếphạng lại danh sách tài liệu Các đề xuất nêu tích hợp thành phần mô hình tìmkiếmWebxuyên ngữ, đảm bảo việc hoàn thành kế hoạch nghiên cứu tác giả Thực nghiệm Các kết thực nghiệm kiểm chứng trình bày báo khoa học bao gồm: - Kết thực nghiệm mô hình tìmkiếm áp dụng thuật toán phân đoạn WLQS hàm Summary Mutual Information phụcvụ việc khử nhập nhằng cho thấy hàm tạo kết tốt so với việc áp dụng công thức nMI thường sử dụng với mục tiêu chọn dịch tốt cho từ khóa truy vấn - Kết thực nghiệm mô hình truy vấn xuyênngữ kết hợp áp dụng thuật toán phân đoạn WLQS công cụ vnTagger phụcvụ phân đoạn câu truy vấn, trình chọn lọc dịch tốt cho từ khóa truy vấn dựa thuật toán chọn dịch cách bước khử nhập nhằng xây dựng câu truy vấn có cấu trúc ngôn ngữ đích cho kết vượt trội so với việc sử dụng máy dịch Google Translate - Kết thực nghiệm việc áp dụng phản hồi ẩn để điều chỉnh mở rộng câu truy vấn cho thấy kỹ thuật đề xuất cho phép tăng hiệu hệ thống truy vấn độ xác (precision) độ bao phủ (recall) - Trên sở kết thực nghiệm việc học xếphạng với liệu thực nghiệm truyền thống LETOR Microsoft kết thực nghiệm việc áp dụng mô hình lân cận truy vấn xuyên ngữ, tác giả tiến hành thực nghiệm hệ thống học xếphạngphụcvụtìmkiếmWebxuyên ngữ, sở áp dụng kỹ thuật học máy dựa lập trình di truyền hàm xếphạngsở định nghĩa cho 23 thành phần khác tập tin HTML Kết thực nghiệm, hệ thống đề xuất có hiệu tốt (với độ đo MAP) so việc áp dụng dịch thủ công Tóm lại, việc áp dụng kỹ thuật thành phần giúp bước nâng cao hiệu xếphạng hệ thống Kết quan trọng luận án với việc áp dụng đồng thời thành phần, chất lượng xếphạngtrangWebtìmkiếmxuyênngữ nâng cao vượt kết xếphạng sử dụng phươngpháp dịch thủ công thực nghiệm tiến hành Hướng phát triển Bên cạnh kết đạt được, tác giả xác định hướng phát triển luận án tập trung giải vấn đề sau: - Các thuật toán xử lý câu truy vấn trình bày luận án nhạy cảm với loại ngôn ngữ, nội dung, kích thước câu truy vấn Trong khuôn khổ giới hạn thời gian, tác giả tập trung nghiên cứu mô hình tìmkiếm với câu truy vấn tiếng Việt văn cần tìmkiếm tiếng Anh Các câu truy vấn trọng thực nghiệm câu truy vấn có độ dài trung bình, trường hợp câu truy vấn ngắn câu truy vấn dài chưa xem xét Hướng nghiên cứu mở rộng, hoàn chỉnh việc đánh giá thực nghiệm với cặp ngôn ngữ khác với độ dài câu truy vấn khác - Tối ưu hóa thuật toán tiền xử lý câu truy vấn, khử nhập nhằng Thời gian xử lý thuật toán xử lý câu truy vấn, khử nhập nhằng cần cải thiện cách tổ chức tốt cấu trúc liệu tối ưu hóa thuật toán - Nghiên cứu việc áp dụng kỹ thuật học máy khác, xây dựng tổ hợp hàm xếphạngsở khác Hạn chế học máy dựa lập trình di truyền chi phí thời gian lớn Bên cạnh đó, luận án tập trung xem xét danh sách hàm sở hạn chế 24 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [1] Giang L.T., Hùng V.T., "Các phươngphápxếphạng lại trộn kết tìm kiếm" Tạp chí Khoa học Công nghệ trường Đại học Kỹ thuật, vol 91, pp 59–64, 2012 [2] Giang L.T., Hùng V.T., "Ứng dụng lập trình di truyền học xếp hạng" Tạp chí Khoa học Công nghệ trường Đại học Kỹ thuật, vol 92, pp 58–63, 2013 [3] Giang L.T., Hùng V.T., "Đánh giá thực nghiệm mô hình truy vấn thông tin đa ngữ" In: Hội nghị quốc gia lần thứ VI Nghiên cứu ứng dụng Công nghệ thông tin, pp 103–107, 2013 [4] Giang L.T., Hung V.T., Phap H.C., "Building Evaluation Dataset in Vietnamese Information Retrieval" Journal of Science and Technology Danang University, vol 12, no 1, pp 37–41, 2013 [5] Giang L.T., Hung V.T., Phap H.C., "Experiments with query translation and re-ranking methods in Vietnamese-English bilingual information retrieval" In: Proceedings of the Fourth Symposium on Information and Communication Technology, pp 118–122, 2013 [6] Giang L.T., Hung V.T., Phap H.C., "Building Structured Query in Target Language for Vietnamese – English Cross Language Information Retrieval Systems" International Journal of Engineering Research & Technology (IJERT), vol 4, no 04, pp 146–151, 2015 [7] Giang L.T., Hung V.T., Phap H.C., "Improve Cross Language Information Retrieval with Pseudo-Relevance Feedback" In: FAIR 2015, pp 315–320, 2015 [8] Giang L.T., Hung V.T., Phap H.C., "Building proximity models for Cross Language Information Retrieval" Issue on Information and Communication Technology- University of Danang, vol 1, no 1, pp 8–12, 2015 [9] Giang L.T., Hùng V.T., Pháp H.C., "Áp dụng học máy dựa lập trình di truyền tìmkiếmWebxuyên ngữ" Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng, vol 1, no 98, pp 93-97, 2016 ... đề tài "Một số phương pháp phục vụ xếp hạng trang Web tìm kiếm xuyên ngữ" chọn làm đề tài nghiên cứu luận án Tiến sĩ kỹ thuật nhằm đề xuất mô hình hệ thống tìm kiếm Web xuyên ngữ giải pháp kỹ... cận xuyên ngữ CL-Buttcher, CL-Rasolofo CL-HighDensity áp dụng tìm kiếm xuyên ngữ nhằm tìm kiếm hàm xếp hạng sở mới; - Đề xuất mô hình học xếp hạng hệ thống tìm kiếm Web xuyên ngữ, hàm xếp hạng. .. ĐẦU Tìm kiếm web xuyên ngữ đặt nhiệm vụ từ nhu cầu thông tin người dùng trình bày ngôn ngữ (ngôn ngữ nguồn) thực việc xác định trang web phù hợp viết ngôn ngữ khác (ngôn ngữ đích) Xếp hạng tìm kiếm