Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
2,17 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TRẦN QUANG VINH KẾT NỐI TỪ ĐIỂN VỚI WIKIPEDIA Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2014 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM Cán hƣớng dẫn khoa học : GS.TS Cao Hoàng Trụ (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : TS Võ Thị Ngọc Châu (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : TS Hồ Bảo Quốc (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày 17 tháng 07 năm 2014 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: GS TS Cao Hoàng Trụ TS Võ Thị Ngọc Châu TS Nguyễn Văn Minh Mẫn TS Nguyễn Đức Thái TS Hồ Bảo Quốc Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TS Nguyễn Đức Thái TRƢỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập -Tự -Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TRẦN QUANG VINH MSHV: 11071002 Ngày, tháng, năm sinh: 01/10/1987 Nơi sinh: QUẢNG NGÃI Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 604801 I TÊN ĐỀ TÀI: KẾT NỐI TỪ ĐIỂN VỚI WIKIPEDIA II NHIỆM VỤ VÀ NỘI DUNG: III NGÀY GIAO NHIỆM VỤ: 20/01/2014…… …… …… IV NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014.….……………… V CÁN BỘ HƢỚNG DẪN: GS.TS CAO HOÀNG TRỤ TP HCM, ngày tháng năm 20… CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) GS.TS CAO HOÀNG TRỤ TRƢỞNG KHOA….…………… (Họ tên chữ ký) LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn chân thành sâu sắc đến GS.TS Cao Hồng Trụ, ngƣời ln tận tình dẫn, động viên, khích lệ tơi suốt trình làm luận văn Sự hƣớng dẫn tận tình, lời khuyên quý báu nhƣ động viên, khích lệ từ thầy động lực để tơi hồn thành đƣợc luận văn Tơi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, ngƣời ủng hộ, cổ vũ tạo điều kiện tốt cho công việc học tập nghiên cứu Xin chân thành biết ơn tận tình giảng dạy giúp đỡ tất quý thầy cô trƣờng Đại học Bách khoa, đặc biệt thầy cô khoa Khoa học Kỹ thuật Máy tính TĨM TẮT Trong từ điển, từ có nhiều nghĩa khác nghĩa đƣợc miêu tả thích Nhƣng thích cịn đơn giản đơi lúc gây khó hiểu cho ngƣời sử dụng Vì vậy, để hỗ trợ cách trực quan cho ngƣời sử dụng, nghĩa từ điển đƣợc kết nối đến khái niệm tƣơng ứng Wikipedia Trong luận văn này, hai phƣơng pháp khác đƣợc đề xuất để kết nối nghĩa từ điển với khái niệm tƣơng ứng Wikipedia: dựa luật học máy Tiến hành thử nghiệm hai từ điển Wiktionary Oxford tiếng Anh, hiệu suất hai phƣơng pháp đề xuất đạt đƣợc : với phƣơng pháp dựa luật, độ xác độ đầy đủ 73.0% cho từ điển Wiktionary, 77.2 % cho từ điển Oxford ; với phƣơng pháp học máy, độ xác độ đầy đủ 67 % cho từ điển Wiktionary, 69.8% cho từ điển Oxford ABSTRACT In the dictionary, a word can have different senses, and each sense is described by a gloss But the gloss remains simple and sometimes confusing for users To support a more intuitive way for the users, the dictionary senses will be linked to the appropriate Wikipedia articles In this thesis, two different methods are proposed to link the dictionary senses with the appropriate Wikipedia articles: Rule-based and Machine Learning The results of experiments on English Oxford dictionary and Wiktionary are: with Rules-based method, precision and recall of 73.0% on Wiktionary, 77.2% on the Oxford dictionary; with Machine Learning method, precision and recall of 67% on the Wiktionary, 69.8% on the Oxford dictionary LỜI CAM ĐOAN Tôi xin cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác nhƣ ghi rõ luận văn, nội dung trình bày luận văn tơi thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng khác TP.HCM, ngày … tháng … năm 20… Trần Quang Vinh MỤC LỤC MỤC LỤC i DANH MỤC HÌNH iii DANH MỤC BẢNG v CHƢƠNG TỔNG QUAN 1.1 Giới thiệu 1.2 Bài toán phạm vi nghiên cứu .3 1.3 Các cơng trình liên quan CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Wikipedia 2.2 WordNet 10 2.3 Wiktionary 12 2.4 Từ điển Oxford .14 2.5 Học máy 15 2.6 Các độ đo 18 CHƢƠNG PHƢƠNG PHÁP ĐỀ XUẤT .20 3.1 Phƣơng pháp Fernando Stevenson (2012) 20 3.2 Phƣơng pháp Milne Witten (2008) 23 3.3 Phƣơng pháp kết nối dựa luật 26 3.4 Phƣơng pháp kết nối học máy .30 CHƢƠNG ĐÁNH GIÁ PHƢƠNG PHÁP 35 4.1 Tập đánh giá 35 4.2 Phƣơng pháp đánh giá 41 4.3 Kết thí nghiệm 44 CHƢƠNG TỔNG KẾT 50 5.1 Các đóng góp 50 i 5.2 Hƣớng phát triển 51 TÀI LIỆU THAM KHẢO 52 ii DANH MỤC HÌNH Hình 1.1: Kết nối nghĩa từ "plant" Wikationary đến Wikipedia Hình 2.1: Một phần trang thực thể "Mouse (computing)" đƣợc trích từ Wikipedia Hình 2.2: Một phần trang thể loại "Category:Computing input devices" đƣợc trích từ Wikipedia Hình 2.4: Một phần hai trang chuyển hƣớng "U.S.", "USA" trang thực thể "United States" đƣợc trích từ Wikipedia Một phần trang phân giải nhập nhằng "Server (Disambiguation)" hai trang hai thực thể "Waiting staff", "Server (computing)" trích từ Wikipedia 10 Hình 2.5: Hình 2.6: Hình 2.7: Định nghĩa danh từ "father" đƣợc trích từ Wiktionary 13 Định nghĩa từ "server" trích từ Oxford online 15 Một ví dụ giải thuật C4.5 .18 Hình 3.1: Nhiều synset kết nối đến trang Wikipedia theo Fernando Stevenson (2012) 22 Tinh lọc với liên kết hai chiều theo Fernando Stevenson (2012) 23 Phân giải nhập nhằng cho từ "tree" theo Milne Witten (2008) 25 Mơ hình cho phƣơng pháp kết nối dựa luật 26 Hình 2.3: Hình 3.2: Hình 3.3: Hình 3.4: Hình 3.5: Hình 3.6: Liên kết trang phân giải nhập nhằng "Client (Disambiguation)" trích từ Wikipedia 27 Giải thuật xác định trang Wikipedia ứng viên 29 Hình 3.7: Hình 3.8: Giải thuật lựa chọn trang Wikipedia kết .30 Kết sau áp dụng phƣơng pháp Milne Witten (2008) cho nghĩa từ "client" từ điển Wiktionary 32 Hình 3.9: Kết sau áp dụng phƣơng pháp Milne Witten (2008) cho nghĩa từ "address" từ điển Wiktionary 33 Hình 3.10: Kết sau áp dụng Heuristic cho nghĩa từ "address" từ điển Wiktionary 34 Hình 4.1: So sánh định nghĩa "waiter" WordNet, từ điển Wiktionary Hình 4.2: từ Oxford tiếng Anh 36 Tạo ánh xạ cho nghĩa từ "waiter" từ điển Wikitionary 38 iii Hình 4.3: Hình 4.4: Hình 4.5: Các nghĩa từ điển Wiktionary trích từ tập tin WiktionaryData.txt 38 Một số ánh xạ đƣợc trích từ tập tin WiktionaryResult.txt 39 Tạo ánh xạ cho nghĩa từ "waiter" từ điển Oxford .40 Hình 4.6: Các nghĩa từ điển Oxford đƣợc trích từ tập tin OxfordData.txt 40 Hình 4.7: Hình 4.8: Một số ánh xạ đƣợc trích từ tập tin OxfordResult.txt 41 Đánh giá ánh xạ mà hệ thống trả khơng tính ánh xạ Nil 42 Hình 4.9: Đánh giá ánh xạ mà hệ thống trả có tính ánh xạ Nil 44 Hình 4.10: Hiệu suất phƣơng pháp kết nối dựa luật Wiktionary 45 Hình 4.11: Hiệu suất phƣơng pháp kết nối dựa luật từ điển Oxford .46 iv Tập tin OxfordResult.txt trình bày ánh xạ 149 nghĩa đƣợc trình bày tập tin OxfordData.txt trang Wikipedia tƣơng ứng Từng dòng tập tin OxfordResult.txt bao gồm: Id nghĩa (giống với giá trị tập OxfordData.txt), kết ánh xạ (match = có trang Wikipedia, nil = khơng có trang Wikipedia), cuối tiêu đề trang Wikipedia đƣợc ánh xạ trang chuyển hƣớng Ví dụ hình 4.7 ánh xạ tập tin OxfordResult.txt cho nghĩa từ "oilstone", "sconce", "soil pie", "splat", "stogy" từ điển Oxford (đƣợc trình bày hình 4.6) Nghĩa "A long, thin, cheap cigar" từ stogy đƣợc ánh xạ đến hai trang Wikipedia "Stogy" "Cheroot" Trong nghĩa "A sewage or waste-water pipe." đƣợc ánh xạ đến Nil 28 match#Oilstone#Sharpening stone 29 match#Sconce (light fixture) 30 nil 31 match#Splat (furniture) 32 match#Stogy#Cheroot Hình 4.7: Một số ánh xạ đƣợc trích từ tập tin OxfordResult.txt Bảng 4.1 trình bày số liệu tổng hợp cho tập đánh giá từ điển Wiktionary Oxford Với tập đánh giá từ điển Wiktionary, tổng số lƣợng nghĩa 200 183 trƣờng hợp ánh xạ thành công đến trang Wikipedia (91.5%) 17 trƣờng hợp ánh xạ đến Nil (8.5%) Với tập đánh giá từ điển Oxford, tổng số lƣợng nghĩa 149 137 trƣờng hợp ánh xạ thành công đến trang Wikipedia (91.95%) 12 trƣờng hợp ánh xạ đến Nil (8.05%) Tập đánh giá Wiktionary Oxford Tổng số lƣợng nghĩa 200 149 Ánh xạ thành công 183 (91.5%) 137 (91.95%) Ánh xạ Nil 17 (8.5%) 12 (8.05%) Bảng 4.1: Tập đánh giá cho từ điển Wiktionary Oxford 4.2 Phƣơng pháp đánh giá Để đánh giá hai phƣơng pháp đề xuất, sử dụng phƣơng pháp đánh giá dựa theo ánh xạ Trong phƣơng pháp này, câu trả lời ánh xạ từ nghĩa từ điển m vào trang Wikipedia e Nil khơng thể tìm đƣợc 41 trang Wikipedia tƣơng Chúng sử dụng hai cách đánh giá kết quả: đánh giá không tính đến ánh xạ Nil đánh giá có tính đến ánh xạ Nil Đánh giá khơng tính đến ánh xạ Nil Giả sử, ta quy ƣớc số kí hiệu nhƣ sau: - Tall tổng số ánh xạ không Nil tập chuẩn vàng TR tổng ánh xạ không Nil mà hệ thống trả - TC tổng số ánh xạ không Nil mà hệ thống trả Một ánh xạ {m e} hệ thống trả thỏa điều kiện sau: - Id nghĩa m ánh xạ hệ thống trả phải so khớp với Id nghĩa mgold tập chuẩn vàng - Tiêu đề trang Wikipedia e phải so khớp với tiêu đề trang Wikipedia tập egold đƣợc ánh xạ cho mgold Ví dụ hình 4.8 số trƣờng hợp cụ thể đánh giá ánh xạ mà hệ thống trả trả cho nghĩa từ "waiter" từ điển Wiktionary hay sai Giả sử tập chuẩn vàng, nghĩa (Id = 43511:0:1) đƣợc ánh xạ đến hai trang "Waiter" "Waiting staff" Ánh xạ mà hệ thống trả nghĩa (Id = 43511:0:1) đƣợc kết nối đến trang "Waiter" "Waiting staff" Và ngƣợc lại, Ánh xạ mà hệ thống trả sai nghĩa (Id = 43511:0:1) đƣợc kết nối đến trang khác, chẳng hạn nhƣ trang "Waiter rant" Ánh xạ tập chuẩn vàng 43511:0:1 match#Waiter#Waiting staff Ánh xạ hệ thống trả 43511:0:1 match#Waiting staff 43511:0:1 match#Waiter Ánh xạ hệ thống trả sai 43511:0:1 match#Waiter rant Hình 4.8: Đánh giá ánh xạ mà hệ thống trả khơng tính ánh xạ Nil Độ xác P đƣợc tính với cơng thức: 42 Độ đầy đủ R đƣợc tính với cơng thức: Và, độ hài hịa F đƣợc tính với cơng thức: Ví dụ, tập chuẩn vàng có 183 ánh xạ khơng Nil hệ thống trả 156 ánh xạ không Nil có 113 ánh xạ đúng, độ xác P = 113 / 156 = 73%, độ đầy đủ R = 113 / 183 = 62% độ hài hồ F = 67% Đánh giá có tính đến ánh xạ Nil Giả sử, ta quy ƣớc số kí hiệu nhƣ sau: - Tall tổng số ánh xạ tập chuẩn vàng (bao gồm ánh xạ Nil) TR tổng ánh xạ mà hệ thống trả (bao gồm ánh xạ Nil) - TC tổng số ánh xạ mà hệ thống trả Một ánh xạ {m e} hệ thống trả thỏa điều kiện sau: - Id nghĩa m ánh xạ hệ thống trả phải so khớp với Id nghĩa mgold tập chuẩn vàng Nếu mgold ánh xạ đến Nil, e phải Nil Hoặc mgold ánh xạ đến tập egold , tiêu đề trang Wikipedia e phải so khớp với tiêu đề trang Wikipedia tập egold Ví dụ hình 4.9 số trƣờng hợp đánh giá ánh xạ trả có tính - Nil Giả sử tập chuẩn vàng, nghĩa (Id = 43511:0:1) ánh xạ đến hai trang "Waiter", "Waiting staff" nghĩa (Id = 52338:0:1) ánh xạ đến Nil Các ánh xạ mà hệ thống trả nghĩa (Id = 43511:0:1) kết nối đến trang "Waiter" trang "Waiting staff", nghĩa (Id = 52338:0:1) không kết nối đến trang (ánh xạ Nil) Và ngƣợc lại, ánh xạ mà hệ thống trả sai nghĩa (Id = 43511:0:1) kết nối đến trang khác với hai trang "Waiter", "Waiting staff" nghĩa (Id = 43511:0:1) không kết nối đƣợc đến trang (ánh xạ Nil) Và hệ thống trả nghĩa (Id = 52338:0:1) đƣợc ánh xạ trang ánh xạ sai 43 Ánh xạ tập chuẩn vàng : 43511:0:1 match#Waiter#Waiting staff 52338:0:1 nil Ánh xạ hệ thống trả 43511:0:1 match#Waiting staff 52338:0:1 nil Ánh xạ hệ thống trả sai 43511:0:1 nil 52338:0:1 match#Ditmar award results Hình 4.9: Đánh giá ánh xạ mà hệ thống trả có tính ánh xạ Nil Trong trƣờng hợp này, nghĩa tập chuẩn vàng đƣợc xử lý hệ thống trả ánh xạ đến trang Wikipedia đến Nil, tổng số ánh xạ mà hệ thống trả số lƣợng ánh xạ tập chuẩn vàng: Công thức độ xác, độ đầy đủ, độ hài hịa trở thành: Công thức đồng thời tƣơng ứng với phƣơng pháp đánh giá MAA (MicroAveraged Accuracy) Ví dụ, tập chuẩn vàng có 200 ánh xạ (bao gồm ánh xạ Nil) số lƣợng ánh xạ mà hệ thống trả về, 200 ánh xạ trả có 149 ánh xạ đúng, P = R = F = 149 / 200 = 75% 4.3 Kết thí nghiệm Sau xây dựng đƣợc tập liệu, đánh giá cho hai từ điển Wiktionary Oxford nhƣ trình bày phần 4.1, chúng tơi tiến hành thí nghiệm hai phƣơng pháp đề xuất Sau đó, chúng tơi tiến hành đánh giá kết trả từ thí nghiệm theo phƣơng pháp trình bày phần 4.2 thu đƣợc số kết tƣơng đối khả quan Kết thí nghiệm từ điển Wiktionary Chúng tơi tiến hành lấy mẫu giá trị cho số đóng góp cho độ tƣơng tự tiêu đề khoảng [0, 1] đo hiệu suất phƣơng pháp kết nối dựa luật 44 tập đánh giá từ điển Wiktionary Phƣơng pháp kết nối dựa luật cho hiêu suất nhƣ trình bày hình 4.10, đƣờng cong phía bên trình bày cho hiệu suất trƣờng hợp đánh giá khơng tính ánh xạ Nil, đƣờng cong phía bên dƣới trình bày cho hiệu suất trƣờng hợp đánh giá có tính ánh xạ Nil Từ hình 4.10, chúng tơi nhận xét phƣơng pháp kết nối dựa luật cho hiệu suất cao với số đóng góp độ tƣơng tự tiêu đề α = 0.2 tập đánh giá từ điển Wiktionary 0.9 F-measure khơng tính NIL 0.8 F-measure có tính NIL Hiệu suất 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Hằng số đóng góp độ tƣơng tự tiêu đề Hình 4.10: Hiệu suất phƣơng pháp kết nối dựa luật Wiktionary Bảng 4.2 bảng 4.3 trình bày hiệu suất hai phƣơng pháp đề xuất tập liệu đánh giá từ điển Wiktionary Trong trƣờng hợp đánh giá khơng tính đến ánh xạ Nil, phƣơng pháp kết nối dựa luật đạt hiệu suất 76.1% phƣơng pháp kết nối học máy đạt hiệu suất 69.4% (bảng 4.2) Trong trƣờng hợp đánh giá có tính đến ánh xạ Nil, phƣơng pháp kết nối dựa luật đạt hiệu suất 73.0% phƣơng pháp kết nối học máy đạt hiệu suất 67.0% (bảng 4.3) Phƣơng pháp Kết nối dựa luật Kết nối học máy Precision 73.2% 68.8% Recall 79.2% 70.0% F-measure 76.1% 69.4% Bảng 4.2: Kết khơng tính đến ánh xạ Nil cho từ điển Wiktionary 45 Phƣơng pháp Kết nối dựa luật Kết nối học máy Precision 73.0% 67.0% Recall 73.0% 67.0% F-measure 73.0% 67.0% Bảng 4.3: Kết có tính đến ánh xạ Nil cho từ điển Wiktionary Kết thí nghiệm từ điển Oxford Chúng tiến hành lấy mẫu giá trị cho số đóng góp cho độ tƣơng tự tiêu đề khoảng [0, 1] đo hiệu suất phƣơng pháp kết nối dựa luật tập đánh giá từ điển Oxford Phƣơng pháp kết nối dựa luật cho hiêu suất nhƣ trình bày hình 4.11, đƣờng cong phía bên trình bày cho hiệu suất trƣờng hợp đánh giá không tính ánh xạ Nil, đƣờng cong phía bên dƣới trình bày cho hiệu suất trƣờng hợp đánh giá có tính ánh xạ Nil Từ hình 4.11, chúng tơi nhận xét phƣơng pháp kết nối dựa luật cho hiệu suất cao với số đóng góp độ tƣơng tự tiêu đề α = 0.25 tập đánh giá từ điển Oxford 0.9 F-measure khơng tính NIL 0.8 F-measure có tính NIL Hiệu suất 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Hằng số đóng góp độ tƣơng tự tiêu đề Hình 4.11: Hiệu suất phƣơng pháp kết nối dựa luật từ điển Oxford Bảng 4.4 bảng 4.5 trình bày hiệu suất hai phƣơng pháp đề xuất tập liệu đánh giá từ điển Oxford Trong trƣờng hợp đánh giá khơng tính đến ánh xạ Nil, phƣơng pháp kết nối dựa luật đạt hiệu suất 80.3% phƣơng 46 pháp kết nối học máy đạt hiệu suất 71.7% (bảng 4.4) Trong trƣờng hợp đánh giá có tính đến ánh xạ Nil, phƣơng pháp kết nối dựa luật đạt hiệu suất 77.2% phƣơng pháp kết nối học máy đạt hiệu suất 69.8% (bảng 4.5) Phƣơng pháp Kết nối dựa luật Kết nối học máy Precision 77.6% 70.4% Recall 83.2% 73.0% F-measure 80.3% 71.7% Bảng 4.4: Kết khơng tính đến ánh xạ Nil cho từ điển Oxford Phƣơng pháp Kết nối dựa luật Kết nối học máy Precision 77.2% 69.8% Recall 77.2% 69.8% F-measure 77.2% 69.8% Bảng 4.5: Kết có tính đến ánh xạ Nil cho từ điển Oxford So sánh kết hai phƣơng pháp Bảng 4.6 trình bày tổng hợp so sánh hiệu suất hai phƣơng pháp sau tiến hành thí nghiệm hai từ điển Wiktionary Oxford Từ bảng 4.6, nhận thấy hiệu suất hai phƣơng pháp đề xuất thu đƣợc tƣơng đối khả quan Với phƣơng pháp kết nối dựa luật hiệu suất thấp 73.0%, cao 80.3% phƣơng pháp kết nối học máy hiệu suất thấp 67.0%, cao 71.7% Và thông qua bảng 4.6, nhận thấy hiệu suất phƣơng pháp kết nối dựa luật cao hiệu suất phƣơng pháp kết nối học máy khoảng - 9% Điều đƣợc giải thích ngữ cảnh đƣợc lấy từ thành phần nghĩa nhƣ thích, ví dụ từ đồng nghĩa q cịn nhập nhằng Vì vậy, số trƣờng hợp nghĩa kết nối đƣợc đến trang Wikipedia kết nối đến trang Wikipedia không sử dụng phƣơng pháp Milne Witten (2008) Phƣơng pháp đánh giá Wiktionary without Nil Wiktionary with Nil Oxford without Nil Oxford with Nil Kết nối dựa luật 76.1% 73.0% 80.3% 77.2% Kết nối học máy 69.4% 67.0% 71.7% 69.8% Bảng 4.6: So sánh kết thí nghiệm hai phƣơng pháp 47 Ngồi ra, thông qua bảng 4.6, nhận thấy hiệu suất từ điển Oxford cao hiệu suất từ điển Wiktionary Điều đƣợc giải thích xây dựng tập đánh giá cho từ điển Oxford, so khớp đƣợc 149 trƣờng hợp, cịn 51 trƣờng hợp khơng thể so khớp đƣợc Do đó, tập đánh giá cho từ Oxford trƣờng hợp kết nối khó tập đánh giá cho từ điển Wiktionary Tuy nhiên, mức độ chênh lệch hiệu suất từ điển Wiktionary Oxford khơng q lớn, khoảng 2-4% Ví dụ hiệu suất phƣơng pháp dựa luật khơng tính ánh xạ Nil từ điển Wiktionary Oxford lần lƣợt 76.1% 80.3% Vì vậy, chúng tơi đánh giá hai phƣơng pháp đề xuất tƣơng đối ổn định từ điển khác nhƣng có cấu trúc nghĩa gần tƣơng tự Một nhận xét cuối mà rút đƣợc từ bảng 4.6 hiệu suất đánh giá có tính đến ánh xạ Nil thấp hiệu suất khơng tính đến ánh xạ Nil Điều đƣợc giải thích giải thuật hai phƣơng pháp đề xuất cố gắng kết nối nghĩa từ điển đến trang Wikipedia luật Heuristic Ví dụ, chẳng hạn nghĩa "A show or spectacle." từ "display" từ điển Wiktionary khơng có trang Wikipedia tƣơng ứng cho (kết nối đến Nil) Nhƣng xử lý nghĩa phƣơng pháp kết nối dựa luật đề xuất kết nghĩa kết nối đƣợc đến trang "Display device" Và với phƣơng pháp kết nối học máy đề xuất, kết nghĩa kết nối đƣợc đến trang "Typeface" Đánh giá phƣơng pháp dựa luật Nhƣ trình bày phần 3.1, Fernando Stevenson (2012) thu đƣợc hiệu suất (khơng tính ánh xạ Nil) với độ xác 87.8% độ đầy đủ 46.9% cho phƣơng pháp kết nối WordNet với Wikipedia Với phƣơng pháp kết nối dựa luật chúng tơi, độ xác (khơng tính ánh xạ Nil) từ điển Wiktionary Oxford thấp (73.2% 77.6%) Nhƣng độ đầy đủ (khơng tính ánh xạ Nil) phƣơng pháp lại cao (79.2% 83.2%) (bảng 4.7) Điều đƣợc giải thích Fernando Stevenson cố gắng tinh lọc lại kết nối liên kết hai chiều trang (bƣớc thứ ba phần 3.1) Với trình tinh lọc này, kết nối bị loại bỏ trang 48 Wikipedia kết nối khơng có liên kết hai chiều với trang Wikipedia khác Trong đó, chúng tơi khơng sử dụng bƣớc tinh lọc mà sử dụng số đóng gớp cho độ tƣơng tự tiêu đề để nâng cao hiệu suất nhƣ trình bày phần 3.3 Phƣơng pháp Kết nối WordNet Wikipedia Fernando Stevenson Kết nối Wiktionary Wikipedia dựa luật Kết nối từ điển Oxford Wikipedia dựa luật Precision Recall F-measure 87.8% 46.9% 61.1% 73.2% 79.2% 76.1% 77.6% 83.2% 80.3% Bảng 4.7: Đánh giá kết phƣơng pháp dựa luật 49 CHƢƠNG TỔNG KẾT 5.1 Các đóng góp Trong luận án này, tiến hành nghiên cứu đề xuất hai phƣơng pháp khác để kết nối tự động nghĩa từ điển với khái niệm tƣơng ứng Wikipedia: kết nối dựa luật (Rule-based) kết nối học máy (Machine Learning) Nền tảng hai phƣơng pháp đề xuất dựa hai phƣơng pháp Fernando Stevenson (2012), Milne Witten (2008), nhƣng chúng tơi tích hợp số cải tiến heuristic để phù hợp với toán đề cải thiện hiệu suất Chúng tiến hành thực hệ thống kết nối tự động từ điển với Wikipedia dựa hai phƣơng pháp đề xuất xây dựng liệu đánh giá cho hai từ điển Wiktionary Oxford dựa vào tập 200NS Fernando Stevenson Qua thử nghiệm hai liệu đánh giá hai từ điển Wiktionary Oxford, thu đƣợc số kết cho hiệu suất hai phƣơng pháp đề xuất Đối với phƣơng pháp kết nối dựa luật, hiệu suất thu đƣợc từ điển Wiktionary 76.1% cho trƣờng hợp không ánh xạ Nil 73.0% cho trƣờng hợp có ánh xạ Nil Với từ điển Oxford, hiệu suất thu đƣợc cho phƣơng pháp 80.3% cho trƣờng hợp không ánh xạ Nil 77.2% cho trƣờng hợp có ánh xạ Nil Đối với phƣơng pháp kết nối học máy, hiệu suất thu đƣợc từ điển Wiktionary 69.4% cho trƣờng hợp không ánh xạ Nil 67.0% cho trƣờng hợp có ánh xạ Nil Với từ điển Oxford, hiệu suất thu đƣợc cho phƣơng 50 pháp 71.7% cho trƣờng hợp không ánh xạ Nil 69.8% cho trƣờng hợp có ánh xạ Nil Ngoài ra, theo giới hạn hiểu biết chúng tơi chƣa có cơng trình nghiên cứu trƣớc tiến hành kết nối từ điển Wiktionary hay Oxford với Wikipedia Vì vậy, luận văn đƣợc xem cơng trình nghiên cứu cho việc kết nối từ điển với Wikipedia 5.2 Hƣớng phát triển Từ kết thử nghiệm, nhận thấy đánh giá trƣờng hợp có ánh xạ Nil, hiệu suất hai phƣơng pháp đề xuất ln thấp so với trƣờng hợp khơng có ánh xạ Nil Đây nhƣợc điểm hai phƣơng pháp đề xuất cố gắng kết nối nghĩa từ điển đến khái niệm Wikipedia việc sử dụng Heuristic để vét cạn Vì vậy, việc cải tiến Heuristic điều chỉnh phƣơng pháp để cải thiện hiệu suất cho trƣờng hợp đánh giá có ánh xạ Nil điều cần thiết Ngoài ra, điều nhận thấy hiệu suất phƣơng pháp kết nối học máy chƣa cao Đây nhƣợc điểm áp dụng phƣơng pháp Milne Witten, ngữ cảnh từ thành phần miêu tả số nghĩa (nhƣ thích, ví dụ minh hoạ từ đồng nghĩa) ít, không đủ để thực việc phân giải nhập nhằng Nên số nghĩa từ điển sau áp dụng phƣơng pháp Milne Witten cho kết khơng xác Vì vậy, việc làm giàu ngữ cảnh nghĩa từ điển để cải thiện hiệu suất phƣơng pháp kết nối học máy điều cần thiết 51 TÀI LIỆU THAM KHẢO [1] Fellbaum, C (1998) WordNet: An Electronic Lexical Database MA: MIT Press, Cambridge [2] Fernando, S and Stevenson, M (2012) Mapping WordNet synsets to Wikipedia articles In Proceedings of the 8th International conference on Language Resources and Evaluation, pp 590-596 [3] Gales, J (2005) Internet encyclopedia go head to head In Nature, vol 438, pp 900-901 [4] Juliet New (2000) The world's greatest dictionary' goes online Ariadne (UK) (23), ISSN 1361-3200 [5] Medelyan, O and Legg, C (2008) Integrating Cyc and Wikipedia: Folksonomy meets rigorously defined common-sense In Proceedings of the AAAI 2008 Workshop on Wikipedia and Artificial Intelligence (WIKIAI 2008), Chicago, I.L [6] Medelyan, O., Witten, I.H and Milne, D (2008) Topic Indexing with Wikipedia In Proceedings of the AAAI 2008 Workshop on Wikipedia and Artificial Intelligence (WIKIAI 2008), Chicago, IL [7] Meyer, C.M (2013) Wiktionary: The Metalexicographic and Natural Language Processing Perspective Technische Universität Darmstadt, Darmstadt [8] Meyer, C.M and Gurevych, I (2011) What Psycholinguists Know About Chemistry: Aligning Wiktionary and WordNet for Increased Domain Coverage In Proceedings of the 5th International Joint Conference on Natural Language Processing, pp 883-892 [9] Meyer, C.M and Gurevych, I (2012) OntoWiktionary – Constructing an Ontology from the Collaborative Online Dictionary Wiktionary.In SemiAutomatic Ontology Development Processes and Resources, pp 131-161 [10] Meyer, C.M and Gurevych, I (2012) Wiktionary: A new rival for expert- 52 built lexicons? Exploring the possibilities of collaborative lexicography In Sylviane Granger and Magali Paquot: Electronic Lexicography, Oxford University Press, pp 259-291 [11] Mihalcea, R and Csomai, A (2007) Wikify!: linking documents to encyclopedic knowledge In Proceedings of the 16th ACM Conference on Information and Knowledge management (CIKM’07), Lisbon, Portugal, pp 233-242 [12] Miller, G.A (1995) WordNet: A Lexical Database for English In Communications of the ACM, vol 38 [13] Milne, D (2007) Computing Semantic Relatedness using Wikipedia Link Structure In Proceedings of the New Zealand Computer Science Research Student Conference, Hamilton, New Zealand [14] Milne, D., and Witten, I.H (2008) An effective, low-cost measure of semantic relatedness obtained from Wikipedia links In Proceedings of the AAAI 2008 Workshop on Wikipedia and Artificial Intelligence (WIKIAI 2008), Chicago, IL [15] Milne, D., and Witten, I.H (2008) Learning to link with Wikipedia In Proceedings of the 17th ACM Conference Information and Knowledge Management, pp 509-518 [16] Milne, D., and Witten, I.H (2012) An open-source toolkit for mining Wikipedia Artificial Intelligence, vol 194, pp 222-239 [17] Milne, D., Witten, I.H and Nichols, D.M (2007) A Knowledge-Based Search EnginePowered by Wikipedia In Proceedings of the ACM Conference on Information and Knowledge Management (CIKM'2007), Lisbon, Portugal [18] Petr Onderka (2012) NET library for the MediaWiki API Department of Theoretical Computer Science and Mathematical Logic, Charles University in Prague [19] Ponzetto, P and Navigli, R (2010) Knowledge-rich Word Sense Disambiguation rivaling supervised system In Proceedings of the 48th 53 Annual Meeting of the Association for Computational Linguistics, pp 15221531 [20] Quinlan, J.R (1993) C4.5: Programs for Machine Learning Morgan Kaufmann [21] Sarah Ogilvie (2013) Words of the World: A Global History of the Oxford English Dictionary ISBN 1107605695 Cambridge University Press [22] Suchanek, F.M and Kasneci, G and Weikum, G (2008) YAGO — A Large Ontology from Wikipedia and WordNet Web Semantics: Sci-ence, Services and Agents on the World Wide Web, 6(3):203–217 [23] Weaver, G., Strickland, B and Crane, G (2006) Quantifying the accuracy of relational statements in Wikipedia: A methodology In Proceedings of the 6th ACM/IEEE-CS Joint Conference Digital Libraries, pp 358-358 [24] Zesch, T., Mueller, T and Gurevych, I (2008) Extracting lexical semantic knowledge from Wikipedia and Wiktionary In Proceedings of the conference on Language Resources and Evaluation (LREC) [25] Ruiz-Casado, M., Alfonseca, E and Castells, P (2005) Automatic Assignment of Wiki-pedia Encyclopedic Entries to WordNet Synsets In Proceedings of the Third International Atlantic Web Intelligence Conference, vol 3528, pp 380–386 [26] Mihalcea, R (2007) Using Wikipedia for automatic word sense disambiguation In the Conference of the North American Chapter of the Association for Computational Linguistics, Rochester, New York 54 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: TRẦN QUANG VINH Ngày, tháng, năm sinh: 01/10/1987 Nơi sinh: Quảng Ngãi Địa chỉ: 1052/4 Kha Vạn Cân, Phƣờng Linh Chiểu, Quận Thủ Đức, TP.Hồ Chí Minh Q TRÌNH ĐÀO TẠO - Từ năm 2005 đến năm 2010: sinh viên trƣờng Đại Học Bách Khoa, TP.Hồ Chí Minh, khoa Khoa học Kỹ thuật Máy tính - Từ năm 2011 đến nay: học viên cao học trƣờng Đại Học Bách Khoa, TP.Hồ Chí Minh, chuyên ngành Khoa học máy tính Q TRÌNH CƠNG TÁC - Từ năm 2010 đến nay: làm việc công ty ELCA Information Technology, Vietnam 55 ... toàn cục kết nối thông tin cấu trúc liên kết Wikipedia để tinh lọc kết nối Đầu tiên, tác giả loại bỏ tất kết nối mà có nhiều synset kết nối đến trang Wikipedia, theo tác giả kết nối thƣờng khơng... viên kết nối cho nghĩa từ điển, mục đích bƣớc thu hẹp khơng gian tìm kiếm trang Wikipedia kết Từ tập ứng viên nghĩa, bƣớc thứ hai tiến hành lựa chọn trang Wikipedia ứng viên phù hợp để kết nối với. .. (2008) Sử dụng phƣơng pháp Milne Witten để kết nối từ điển Wikipedia Có điểm khác biệt áp dụng phƣơng pháp Milne Witten cho toán kết nối từ điển với Wikipedia ngữ cảnh văn Mà ngữ cảnh đƣợc sử