Vì vậy, để hỗ trợ một cách trực quan hơn cho người sử dụng, từng nghĩa trong từ điển sẽ được kết nối đến các khái niệm tương ứng trong Wikipedia.. Suchanek 2008 đã sử dụng các phương phá
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-
TRẦN QUANG VINH
KẾT NỐI TỪ ĐIỂN VỚI WIKIPEDIA
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 07 năm 2014
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM
Cán bộ hướng dẫn khoa học : GS.TS Cao Hoàng Trụ
(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1 : TS Võ Thị Ngọc Châu
(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2 : TS Hồ Bảo Quốc
(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại: Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 17 tháng 07 năm 2014 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 GS TS Cao Hoàng Trụ
TS Nguyễn Đức Thái
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: TRẦN QUANG VINH MSHV: 11071002
Ngày, tháng, năm sinh: 01/10/1987 Nơi sinh: QUẢNG NGÃI
Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 604801
I TÊN ĐỀ TÀI: KẾT NỐI TỪ ĐIỂN VỚI WIKIPEDIA
II NHIỆM VỤ VÀ NỘI DUNG:
III NGÀY GIAO NHIỆM VỤ: 20/01/2014…… …… ……
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014.….………
V CÁN BỘ HƯỚNG DẪN: GS.TS CAO HOÀNG TRỤ TP HCM, ngày tháng năm 20… CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA….………
(Họ tên và chữ ký) (Họ tên và chữ ký)
GS.TS CAO HOÀNG TRỤ
Trang 4LỜI CẢM ƠN
Đầu tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến GS.TS Cao Hoàng Trụ, người đã luôn tận tình chỉ dẫn, động viên, khích lệ tôi trong suốt quá trình làm luận văn này Sự hướng dẫn tận tình, những lời khuyên quý báu cũng như những sự động viên, khích lệ từ thầy là động lực để tôi có thể hoàn thành được luận văn này
Tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè và đồng nghiệp, những người luôn ủng hộ, cổ vũ và tạo điều kiện tốt nhất cho tôi trong công việc học tập và nghiên cứu
Xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý thầy cô tại trường Đại học Bách khoa, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính
Trang 5TÓM TẮT
Trong từ điển, một từ có thể có nhiều nghĩa khác nhau và từng nghĩa được miêu tả bởi một chú thích Nhưng các chú thích vẫn còn đơn giản và đôi lúc gây khó hiểu cho người sử dụng Vì vậy, để hỗ trợ một cách trực quan hơn cho người sử dụng, từng nghĩa trong từ điển sẽ được kết nối đến các khái niệm tương ứng trong Wikipedia
Trong luận văn này, hai phương pháp khác nhau được đề xuất để kết nối các nghĩa trong từ điển với các khái niệm tương ứng trong Wikipedia: dựa trên luật và học máy Tiến hành các thử nghiệm trên hai bộ từ điển Wiktionary và Oxford tiếng Anh, hiệu suất của hai phương pháp đề xuất đạt được là : với phương pháp dựa trên luật, độ chính xác và độ đầy đủ là 73.0% cho từ điển Wiktionary, 77.2 % cho từ điển Oxford ; với phương pháp học máy, độ chính xác và độ đầy đủ là 67 % cho từ điển Wiktionary, 69.8% cho từ điển Oxford
ABSTRACT
In the dictionary, a word can have different senses, and each sense is described by a gloss But the gloss remains simple and sometimes confusing for users To support a more intuitive way for the users, the dictionary senses will be linked to the appropriate Wikipedia articles
In this thesis, two different methods are proposed to link the dictionary senses with the appropriate Wikipedia articles: Rule-based and Machine Learning The results of experiments on English Oxford dictionary and Wiktionary are: with Rules-based method, precision and recall of 73.0% on Wiktionary, 77.2% on the Oxford dictionary; with Machine Learning method, precision and recall of 67% on the Wiktionary, 69.8% on the Oxford dictionary
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy bằng cấp ở một trường khác
TP.HCM, ngày … tháng … năm 20…
Trần Quang Vinh
Trang 71.2 Các công trình liên quan 3
1.3.CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 6
Wikipedia 6
2.1 WordNet 10
2.2 Wiktionary 12
2.3 Từ điển Oxford 14
2.4 Học máy 15
2.5 Các độ đo căn bản 18
2.6.CHƯƠNG 3 PHƯƠNG PHÁP ĐỀ XUẤT 20
Phương pháp nền của Fernando và Stevenson (2012) 20
3.1 Phương pháp nền của Milne và Witten (2008) 23
3.2 Phương pháp kết nối dựa trên luật 26
3.3 Phương pháp kết nối bằng học máy 30
3.4.CHƯƠNG 4 ĐÁNH GIÁ PHƯƠNG PHÁP 35
Tập đánh giá 35
4.1 Phương pháp đánh giá 41
4.2 Kết quả thí nghiệm 44
4.3.CHƯƠNG 5 TỔNG KẾT 50
Các đóng góp 505.1
Trang 8Hướng phát triển 515.2.
TÀI LIỆU THAM KHẢO 52
Trang 9DANH MỤC HÌNH
Hình 1.1: Kết nối các nghĩa của từ "plant" trong Wikationary đến Wikipedia 2
Hình 2.1: Một phần trang thực thể "Mouse (computing)" được trích từ Wikipedia 8
Hình 2.2: Một phần trang thể loại "Category:Computing input devices" được trích từ Wikipedia 8
Hình 2.3: Một phần của hai trang chuyển hướng "U.S.", "USA" và trang thực thể "United States" được trích từ Wikipedia 9
Hình 2.4: Một phần của trang phân giải nhập nhằng "Server (Disambiguation)" và hai trang hai thực thể "Waiting staff", "Server (computing)" trích từ Wikipedia 10
Hình 2.5: Định nghĩa của danh từ "father" được trích từ Wiktionary 13
Hình 2.6: Định nghĩa của từ "server" trích từ Oxford online 15
Hình 2.7: Một ví dụ về giải thuật C4.5 18
Hình 3.1: Nhiều synset cùng kết nối đến một trang Wikipedia theo Fernando và Stevenson (2012) 22
Hình 3.2: Tinh lọc với liên kết hai chiều theo Fernando và Stevenson (2012) 23
Hình 3.3: Phân giải nhập nhằng cho từ "tree" theo Milne và Witten (2008) 25
Hình 3.4: Mô hình cho phương pháp kết nối dựa trên luật 26
Hình 3.5: Liên kết trong trang phân giải nhập nhằng "Client (Disambiguation)" trích từ Wikipedia 27
Hình 3.6: Giải thuật xác định các trang Wikipedia ứng viên 29
Hình 3.7: Giải thuật lựa chọn các trang Wikipedia kết quả 30
Hình 3.8: Kết quả sau khi áp dụng phương pháp Milne và Witten (2008) cho một nghĩa của từ "client" trong từ điển Wiktionary 32
Hình 3.9: Kết quả sau khi áp dụng phương pháp Milne và Witten (2008) cho một nghĩa của từ "address" trong từ điển Wiktionary 33
Hình 3.10: Kết quả sau khi áp dụng Heuristic cho một nghĩa của từ "address" trong từ điển Wiktionary 34
Hình 4.1: So sánh định nghĩa của "waiter" trong WordNet, từ điển Wiktionary và từ Oxford tiếng Anh 36
Hình 4.2: Tạo ánh xạ cho một nghĩa của từ "waiter" trong từ điển Wikitionary 38
Trang 10Hình 4.3: Các nghĩa của từ điển Wiktionary trích từ tập tin WiktionaryData.txt 38
Hình 4.4: Một số ánh xạ được trích từ tập tin WiktionaryResult.txt 39
Hình 4.5: Tạo ánh xạ cho một nghĩa của từ "waiter" trong từ điển Oxford 40
Hình 4.6: Các nghĩa của từ điển Oxford được trích từ tập tin OxfordData.txt 40
Hình 4.7: Một số ánh xạ được trích từ tập tin OxfordResult.txt 41
Hình 4.8: Đánh giá một ánh xạ mà hệ thống trả về không tính ánh xạ Nil 42
Hình 4.9: Đánh giá một ánh xạ mà hệ thống trả về có tính ánh xạ Nil 44
Hình 4.10: Hiệu suất của phương pháp kết nối dựa trên luật trên Wiktionary 45
Hình 4.11: Hiệu suất của phương pháp kết nối dựa trên luật trên từ điển Oxford 46
Trang 11DANH MỤC BẢNG
Bảng 2.1: Số lượng từ, synset trong WordNet 3.1 11
Bảng 3.1: Tiêu đề của 20 trang kết quả trả về đầu tiên cho từ khoá "client" 28
Bảng 3.2: Độ tương quan ngữ cảnh của các trang ứng viên cho một nghĩa của từ "client" trong từ điển Wiktionary 34
Bảng 4.1: Tập đánh giá cho từ điển Wiktionary và Oxford 41
Bảng 4.2: Kết quả không tính đến ánh xạ Nil cho từ điển Wiktionary 45
Bảng 4.3: Kết quả có tính đến ánh xạ Nil cho từ điển Wiktionary 46
Bảng 4.4: Kết quả không tính đến ánh xạ Nil cho từ điển Oxford 47
Bảng 4.5: Kết quả có tính đến ánh xạ Nil cho từ điển Oxford 47
Bảng 4.6: So sánh kết quả thí nghiệm của hai phương pháp 47
Bảng 4.7: Đánh giá kết quả của phương pháp dựa trên luật 49
Trang 12CHƯƠNG 1
TỔNG QUAN
Giới thiệu 1.1.
Cùng với việc phát triển của Internet và công nghệ thông tin, các bộ từ điển cũng được số hoá và tích hợp trên các trang Web để hỗ trợ trực tuyến Một số từ điển hỗ trợ sử dụng trực tuyến với nhiều ngôn ngữ khác nhau đã được sử dụng rộng rãi trên khắp thế giới, chẳng hạn như Wiktionary1 hay Oxford2 Vì vậy, việc tra cứu và sử dụng các từ điển cho các nhu cầu hàng ngày của con người được thực hiện một cách nhanh chóng và tiện lợi hơn
Với các từ điển ngôn ngữ trực tuyến trên Web, khi tra cứu một từ hoặc một cụm từ thì các nghĩa khác nhau của nó sẽ được thể hiện Mỗi nghĩa khác nhau của từ hoặc cụm từ được trình bảy bởi một chú thích ngắn gọn, các ví dụ minh hoạ cho việc sử dụng của nghĩa trong ngữ cảnh cụ thể, các từ có mối quan hệ ngữ nghĩa (đồng nghĩa, tương phản,…) với nó
Việc trình bày bằng những chú thích ngắn ngọn là dễ hình dung và phân biệt các nghĩa khác nhau của một từ hoặc một cụm từ đối với các chuyên gia về ngôn ngữ Tuy nhiên, đối với những người sử dụng bình thường không hiểu rõ về ngôn ngữ, đôi khi họ khó có thể hình dung và phân biệt những nghĩa khác nhau bằng những chú thích đơn giản
Vì vậy, để cải thiện thêm chất lượng của các từ điển và hỗ trợ tốt hơn cho người sử dụng, chúng ta có thể kết nối từng nghĩa trong từ điển đến các khái niệm tương
Trang 13
ứng trong một cơ sở tri thức, chẳng hạn như Wikipedia3 Và khi người dùng sử dụng từ điển họ có thể truy cập trực tiếp đến các khái niệm trong Wikipedia để hiểu rõ hơn về các nghĩa Ví dụ trong hình 1.1 trình bày cho việc kết nối hai nghĩa của từ "plant" trong từ điển Wiktionary với các khái niệm tương ứng trong Wikipedia
Trong đó, nghĩa 1 ("An organism that is not an animal, especially an organism capable of photosynthesis Typically a small or herbaceous organism of this kind, rather than a tree.") được kết nối đến khái niệm "Plant" (cây xanh) trong Wikipedia Và nghĩa 5 ("A factory or other industrial or institutional building or facility.") được kết nối đến khái niệm "Factory" (nhà máy) trong Wikipedia
Hình 1.1: Kết nối các nghĩa của từ "plant" trong Wikationary đến Wikipedia
3
http://wikipedia.org/
Trang 14
Bài toán và phạm vi nghiên cứu 1.2.
Như đã đặt vấn đề trong phần giới thiệu, hiện nay các chú thích cho nghĩa trong các từ điển vẫn còn đơn giản Vì vậy để hỗ trợ tốt hơn cho người sử dụng hiểu một cách rõ ràng từng nghĩa của từ khi sử dụng các từ điển, chúng tôi sẽ liên kết từng nghĩa đến khái niệm tương ứng trong một cơ sở tri thức Và Wikipedia là một cở sở tri thức hữu dụng và chất lượng với việc cung cấp mô tả chi tiết cho các khái niệm trong các trang thực thể
Bởi vì một từ hay một cụm từ trong từ điển có thể mang nhiều nghĩa khác nhau, vì vậy việc xác định chính xác khái niệm tương ứng trong cơ sở tri thức cho từng nghĩa cơ bản cũng chính là bài toán phân giải nhập nhằng nghĩa của từ (Word Sense Disambiguation) dựa vào ngữ cảnh miêu tả cho nghĩa đó (chú thích, các ví dụ minh hoạ cho việc sử dụng, các từ có mối quan hệ ngữ nghĩa tương ứng)
Để giải quyết cho bài toán phân giải nhập nhằng nghĩa của từ, chúng tôi đã dựa trên hai phương pháp tiếp cận cơ bản là: dựa trên luật (Rule-based) và học máy (Machine Learning) Trong luận văn này, chúng tôi tiến hành nghiên cứu và đề xuất hai phương pháp để kết nối nghĩa của các danh từ tiếng Anh trong các từ điển đến các khái niệm tương ứng trong Wikipedia Để đánh giá các phương pháp đề xuất, chúng tôi tiến hành hiện thực, thử nghiệm và đánh giá trên hai bộ từ điển Wiktionary và Oxford
Các công trình liên quan 1.3.
Hiện nay, đã có một số nghiên cứu trước đây sử dụng cơ sở tri thức Wikipedia để làm giàu ngữ nghĩa cho các văn bản không có cấu trúc hoặc các nguồn cơ sở tri thức từ vựng khác, chẳng hạn như mạng từ vựng WordNet Để lựa chọn đúng các khái niệm tương ứng trong Wikipedia, phương pháp đề xuất cho các nghiên cứu này dựa trên hai hướng tiếp cận: dựa trên luật và học máy
Có nhiều công trình nghiên cứu trước đây đã tiến hành kết nối mạng từ vựng WordNet với cơ sở tri thức Wikipedia, chẳng hạn như Ruiz-Casado (2005), Suchanek (2008), Ponzetto và Navigli (2010), Fernando và Stevenson (2012) Các nghiên cứu này định nghĩa giải thuật với các luật hoặc heuristic khác nhau để lựa chọn khái niệm tương ứng trong Wikipedia cho các WordNet synset Ruiz-Casado (2005) đã sử dụng việc so sánh mức độ tương tự văn bản giữa các synset và trang Wikipedia để kết nối WordNet và Simple Wikiepdia tiếng Anh
Trang 15Suchanek (2008) đã sử dụng các phương pháp heuristic để kết nối các trang thể loại của Wikipedia với các WordNet synset Ponzetto và Navigli (2010) sử dụng các phương pháp giao nhau văn bản để lựa chọn trang Wikipedia phù hợp nhất cho từng WordNet synset, tuy nhiên khi tìm kiếm các trang Wikipedia ứng viên tác giả chỉ sử dụng tiêu đề của trang Wikipedia mà không sử dụng nội dung của nó
Nghiên cứu gần đây nhất của việc kết nối WordNet và Wikipedia là công trình của Fernando và Stevenson (2012) Tác giả đã đề xuất một phương pháp tự động kết nối các WordNet synset đến các trang Wikipedia với ba bước: xác định tập các trang ứng viên cho từng WordNet synset (Generation of Candidate Articles), lựa chọn các kết nối tốt nhất (Selecting the Best Mappings) và tinh lọc các kết nối (Refining the Mappings)
Trong phương pháp của Fernando và Stevenson, mục tiêu của bước thứ nhất là thu giảm không gian tìm kiếm trang Wikipedia kết nối cho từng synset Với bước thứ hai, mục tiêu là giải quyết nhập nhằng để xác định trang Wikipedia phù hợp nhất và tác giả đã sử dụng hai độ đo: tương tự văn bản (Text Similarity) và tương tự tiêu đề (Title Similarity) Cuối cùng, một phương pháp đánh giá toàn cục và các liên kết trong Wikipedia được sử dụng để tinh lọc những kết nối tốt nhất
Ngoài ra, cũng có một số nghiên cứu khác đã tiến hành kết nối các văn bản không có cấu trúc với Wikipedia, chẳng hạn như Mihalcea và Csomai (2007), Milne và Witten (2008) Các nghiên cứu này sử dụng phương pháp học máy để phân giải nhập nhằng cho các cụm từ trong văn bản Mihalcea và Csomai (2007) đã đề xuất phương pháp Wikify để làm giàu ngữ nghĩa cho các văn bản không có cấu trúc với hai bước chính: rút trích từ khoá (Keyword Extraction) và giải quyết nhập nhằng (Word Sense Disambiguation)
Rút trích từ khoá là xác định các từ và các cụm từ quan trọng trong văn bản, chúng là các thuật ngữ kỹ thuật (Technical Terms), các thực thể được định danh (Named Entities), các thuật ngữ mới (New Terminology) Để rút trích các từ khoá trong văn bản, đầu tiên tác giả tiến hành xây dựng một từ điển với các tiêu đề của các trang Wikipedia, sau đó văn bản sẽ được phân tích và rút trích ra các từ và cụm từ nếu chúng nằm trong từ điển
Tiếp theo để đánh giá các từ và cụm từ nào quan trọng, một hàm xếp hạng (ranking) dựa trên truy hồi thông tin (IR), xác suất, hoặc độc lập tuyến tính được sử dụng Ví dụ, với văn bản "A tree is a large, perennial, woody plant [ ] The earliest
Trang 16trees were tree ferns and horsetails, which grew in forests in the Carboniferous
Period." thì các từ khoá được rút trích là: "perennial", "plant", "tree ferns",
"horsetails", "Carboniferous" Sau khi rút trích được các từ khoá trong văn bản, Mihalcea và Csomai sử dụng giải thuật học máy dựa trên việc phân tích các liên kết trong Wikipedia để giải quyết nhập nhằng cho các từ khoá và liên kết chúng đến các trang Wikipedia tương ứng Trong đoạn văn bản của ví dụ trên, từ "plant" có một vài nghĩa khác nhau, chẳng hạn "green plant" (cây xanh) hay "industrial plant" (nhà máy công nghiệp), nhưng nghĩa đúng của từ "plant" trong đoạn văn bản nên là "green plant" (cây xanh)
Milne và Witten (2008) đề xuất một phương pháp cải tiến cho phương pháp Wikify trong việc kết nối các văn bản không câu trúc với Wikipedia Và để giải quyết nhập nhằng cho các từ khoá, Milne và Witten đã sử dụng phương pháp học máy dựa trên ba nhân tố chính: độ phổ biến (Commoness), độ tương quan ngữ cảnh (Semantic Relatedness) và chất lượng của ngữ cảnh (Context Quality)
Ngoài các nghiên cứu kết nối WordNet và các văn bản đến Wikipedia, còn có một số nghiên cứu khác kết nối các cơ tri thức từ vựng lại với nhau Chẳng hạn như, Meyer và Gurevych (2011) đã đề xuất một phương pháp kết nối các WordNet synset với các nghĩa tương ứng trong Wiktionary
Ví dụ, synset {plant, works, industrial plant (buildings for carrying on industrial labor; "they built a large plant to manufacture automobiles")} trong WordNet sẽ được kết nối với nghĩa "A factory or other industrial or institutional building or facility" của từ "plant" trong Wiktionary Phương pháp của Meyer và Gurevych bao gồm hai bước chính: rút trích các ứng viên (Candidate Extraction) và giải quyết nhập nhằng các ứng viên (Candidate Disambiguation)
Rút trích các ứng viên nghĩa là xác định một tập các nghĩa ứng viên trong Wiktionary cho từng WordNet synset Với từng WordNet synset, tác giả lấy tất cả các nghĩa trong Wiktionary của các từ đồng nghĩa và thêm vào tập các nghĩa ứng viên Sau khi xác định được tập các nghĩa ứng viên, tác giả sử dụng hai hàm đánh giá COS (Cosine Similarity) và PPR (Personalized PageRank Based Measure) để giải quyết nhập nhằng và xác định những kết nối đúng cho từng WordNet synset đến từng nghĩa trong Wiktionary
Trang 17CHƯƠNG 2
CƠ SỞ LÝ THUYẾT
Wikipedia 2.1.
Wikipedia4 là một nguồn tri thức mở to lớn của con người, được đưa vào hoạt động chính thức vào ngày 15 tháng 1 năm 2001 nhờ hai người sáng lập Jimmy Wales và Larry Sanger, cùng với vài người cộng tác nhiệt thành Trong những năm gần đây, Wikipedia đã phát triển rất nhanh nhờ sự đóng góp tích cực của đông đảo cộng đồng người sử dụng trên toàn thế giới và trở thành nguồn thông tin đáng tin cậy
Tính đến tháng 5 năm 2014, cơ sở dữ liệu của Wikipedia bao gồm hơn 31,6 triệu trang Web, hơn 46 triệu người sử dụng, bao quát nhiều lĩnh vực khác nhau, hỗ trợ trên 287 ngôn ngữ khác nhau5 Theo Alexa6, hiện nay Wikipedia là một website phổ biến đứng hàng thứ sáu trên thế giới Và theo comScore7, mỗi tháng có trung bình khoảng 495 triệu lượt truy cập đến Wikipedia trên toàn thế giới, trong đó 85 triệu lượt truy cập đến từ Mỹ
Xét về mức độ tin cậy thông tin của Wikipedia, nhiều nghiên cứu trước đây đã chỉ ra rằng độ chính xác của Wikipedia có thể tương đương với các nguồn tri thức đóng khác Giles (2005) đã so sánh Wikipedia và từ điển bách khoa toàn thư Britannica8 bằng việc thu thập ngẫu nhiên 41 bài viết có chủ đề liên quan đến khoa học, và kết quả có 162 lỗi trên các bài viết của Wikipedia so với 123 lỗi của các bài
Trang 18viết lấy từ Britannica Weaver và Strickland (2006) đánh giá mức độ chính xác của liên kết giữa các bài viết trong Wikipedia đạt 97% Điều này có thể khẳng định rằng Wikipedia có mức độ tin cậy cao và là nguồn tri thức đáng giá
Trong phạm vi luận văn này, chúng tôi sử dụng phiên bản Wikipedia vào ngày 22 tháng 7 năm 2011 làm cơ sở tri thức với số lượng trang cho mỗi loại được thống kê như sau:
- Trang thực thể: 3,573,789 trang - Trang phân giải nhập nhằng: 148,818 trang - Trang thể loại: 739,980 trang
- Trang chuyển hướng: 5,001,026 trang Sau đây, chúng tôi sẽ trình bày sơ lược các thành phần cơ bản của Wikipedia
Trang thực thể
Trang thực thể là thành phần quan trọng nhất của Wikipedia, mô tả chi tiết thông tin về một thực thể mà nó đề cập tới và được xác định bằng một tiêu đề (title), cũng là định danh của thực thể Trong trường hợp tiêu đề bị nhập nhằng thì sẽ có một phần văn bản phân giải nhập nhằng đi kèm phía sau và nhận diện bằng ký hiệu đóng mở ngoặc "()" hay ký hiệu dấu phẩy ","
Ví dụ, trong hình 2.1 là một phần nội dung của trang thực thể "Mouse (computing)" được trích từ Wikipedia tiếng Anh Tiêu đề của trang thực thể này bao gồm hai phần: tiêu đề chính "Mouse" và phần văn bản phân giải nhập nhằng "computing" Và phần văn bản phân giải nhập nhằng này giúp xác định trang thực thể đang đề cập đến chuột máy tính, chứ không phải là chuột sinh học
Ngoài tiêu đề, trang thực thể còn có một số thành phần khác như infobox, liên kết vào (in-going link), liên kết ra (out-going link)… Infobox là nội dung tóm tắt quan trọng về thực thể hoặc chứa liên kết đến các thực thể có liên hệ mật thiết; Infobox thường được biểu diễn dưới dạng một bảng (table) nằm ở góc phải ngoài cùng của một trang thực thể
Liên kết vào là tập hợp những liên kết trỏ vào trang thực thể hiện tại có điểm xuất phát từ nội dung các trang thực thể khác Ví dụ, trang thực thể "Mouse (computing)" ở hình 2.1 được liên kết đến từ nội dung của trang thực thể "Pointing device" Ngược lại, liên kết ra là liên kết xuất phát từ nội dung của trang thực thể
Trang 19hiện tại đến những thực thể khác Ví dụ, trong nội dung của trang thực thể "Mouse (computing)" ở hình 2.1 có liên kết đến trang thực thể "Computing"
Hình 2.1: Một phần trang thực thể "Mouse (computing)" được trích từ Wikipedia Trang thể loại
Mỗi thực thể trong Wikipedia đều thuộc một hoặc nhiều thể loại khác nhau Các thể loại này được phân cấp theo quan hệ cha con và thường xuất hiện trong phần cuối các trang thực thể Mỗi trang thể loại chứa các liên kết trỏ đến trang thể
loại con của nó Tiêu đề của trang thể loại có dạng: Category: + tên thể loại Ví dụ
trong hình 2.2 là một phần nội dung của trang thể loại "Category:Computing input devices" được trích từ Wikipedia tiếng Anh với các liên kết đến các trang thể loại con của nó "Computer keyboards", "Joysticks", "Touchscreens"
Hình 2.2: Một phần trang thể loại "Category:Computing input devices" được trích
từ Wikipedia
Trang 20Trang chuyển hướng
Với những thực thể trong Wikipedia, ngoài một tên gọi chính thức, đôi khi chúng cũng có thể nhiều tên gọi hoặc bí danh khác Nếu tên gọi chính thức của một thực thể là tiêu đề cho trang thực thể gốc thì các bí danh và các tên gọi khác của thực thể đó được biểu hiện dưới dạng các trang chuyển hướng Một điểm thú vị là theo thời gian, tên gọi chính thức (hay tiêu đề của trang thực thể) có thể bị thay đổi bởi người dùng, và những tên gọi cũ của thực thể sẽ trở thành những trang chuyển hướng
Ví dụ trong hình 2.3 là một phần nội dung của các trang chuyển hướng là "U.S.", "USA" và trang thực thể chính "United States" được trích từ Wikipedia tiếng Anh Trong nội dung của các trang chuyển hướng "U.S." và "USA" có những liên kết đến trang thực thể chính "United States" Khi người sử dụng tìm kiếm với "U.S.", "USA" thì Wikipedia sẽ tự động chuyển hướng đến trang thực thể chính "United States" và hiển thị nội dung của trang này đến người sử dụng
Hình 2.3: Một phần của hai trang chuyển hướng "U.S.", "USA" và trang thực thể
"United States" được trích từ Wikipedia
Trang phân giải nhập nhằng
Trang thực thể là trang có tiêu đề mô tả về một thực thể duy nhất Trong khi đó, trang phân giải nhập nhằng là trang chứa những liên kết của những thực thể có tên gọi giống nhau nhưng lại mang nghĩa khác nhau Tiêu đề của trang phân giải nhập
nhằng có dạng: tên thực thể nhập nhằng + (disambiguation)
Trang 21
Ví dụ trong hình 2.4 là một phần nội dung của trang phân giải nhập nhằng "Server (Disambiguation)" và trang hai thực thể "Waiting staff", "Server (computing)" đƣợc trích từ Wikipedia tiếng Anh Trong nội dung của trang phân giải nhập nhằng "Server (Disambiguation)" có chứa các liên kết đến hai trang thực thể " Waiting staff " và " Server (computing)"
Hình 2.4: Một phần của trang phân giải nhập nhằng "Server (Disambiguation)" và
hai trang hai thực thể "Waiting staff", "Server (computing)" trích từ Wikipedia
WordNet 2.2.
WordNet là một hệ cơ sở tri thức khổng lồ về ngữ nghĩa của từ vựng tiếng Anh với hơn 100,000 ý niệm khác nhau, được xây dựng bởi một nhóm nghiên cứu dẫn đầu là Prof George Miller ở Đại học Princeton (Mỹ) từ đầu thập niên 1980 Và cho đến ngày nay, WordNet vẫn đang đƣợc các nhà khoa học trên toàn thế giới tiếp tục khai thác, đóng góp để cải tiến ngày càng hoàn thiện hơn
Ứng dụng của WordNet đƣợc các nhà nghiên cứu khoa học thực hiện trong nhiều lĩnh vực khác nhau Một trong những thành công của ứng dụng của WordNet là việc sử dụng nó trong xử lý ngôn ngữ tự nhiên, chẳng hạn nhƣ truy vấn thông tin (information retrieval), phân loại thông tin (information categorization)
Trang 22WordNet có rất nhiều ưu điểm: tính khoa học, tính hệ thống, tính mở (open), dễ sử dụng, tính phổ biến, tính phát triển,… Chính vì vậy, đến nay, đã có một số công trình bản địa hóa (localization) WordNet theo ngôn ngữ của một số nước, như Pháp, Nhật, Hàn Quốc, Tây Ban Nha, Trung Quốc,… Và gần đây, ở nước ta một số nhà khoa học bắt tay vào nghiên cứu để xây dựng WordNet cho tiếng Việt
Các từ trong Wordnet được phân loại thành danh từ, động từ, tính từ, và phó từ và được tổ chức thành những tập các từ đồng nghĩa (synset) Các synset miêu tả, tượng trưng cho một ý niệm cơ bản và được nối với nhau bởi nhiều loại quan hệ (relation) ngữ nghĩa khác nhau: quan hệ hypernym/hyponym, quan hệ tương phản antonym, quan hệ thành phần meronym/holonym,…
Hiện nay, WordNet đã phát triển lên đến phiên bản 3.1 bao gồm hơn 110,000 synset với hơn 150,000 từ và hệ cơ sở tri thức này miễn phí (cung cấp cả chức năng online9 và offline) cho các công tác học tập và nguyên cứu
Từ loại Số từ Số synset Tổng số mục từ
Danh từ 117,798 82,115 146,312 Động từ 11,529 13,767 25,047
Tính từ 21,479 18,156 30,002 Phó từ 4,481 3,621 5,580 Tổng cộng 155,287 117,659 206,941
Bảng 2.1: Số lượng từ, synset trong WordNet 3.1
Trong giới hạn của luận văn này, chúng tôi chỉ sử dụng các synset danh từ trong phiên bản 3.1 của WordNet Sau đây chúng tôi xin trình bày sơ lược các quan hệ ngữ nghĩa chính của các synset danh từ
Quan hệ hypernym/hyponym của các synset danh từ
Quan hệ hypernym được kí hiệu là "@->", nó giống như một quan hệ tổng quát hóa (generalization) đi từ một khái niệm cụ thể đến khái niệm tổng quát hơn Ví dụ, chẳng hạn như "{ robin } @-> { birb}", khái niệm "robin" là một khái niệm cụ thể, còn khái niệm "birb" tổng quát hơn Chúng ta có thể đọc quan hệ hypernym theo nghĩa "IS-A" (là-một) hay "IS-A-KIND-OF" (là-một-loại) Theo ví dụ trên chúng ta có thể hiểu là "robin" là một loại chim (bird)
Trang 23
Quan hệ đối ngẫu của quan hệ hypernym đó là quan hệ hyponym Nếu một
synset Ss "@->" một synset Sg khác, thì synset Ss gọi là hypernym của Sg và Sg gọi là
hyponym của Ss Quan hệ hyponym được kí hiệu là "~->", nó giống như một quan hệ cụ thể hóa (specialization) đi từ một khái niệm tổng quát đến một khái niệm cụ thể hơn, chẳng hạn như "{ person } ~-> { man}" Quan hệ hyponym có thể được đọc là "SUBSUMES" (xếp-vào)
Quan hệ meronym/holonym của các synset danh từ
Quan hệ meronym/holonym là một quan hệ giữa danh từ và danh từ, trong đó có một danh từ đóng vai trò là chủ thể và một danh từ đóng vai trò là thành phần Quan hệ meronym/holonym bao gồm hai quan hệ con: quan hệ meronym và quan hệ holonym, hai quan hệ này đối ngẫu nhau
Nếu Wm là một phần của (A-PART-OF) Wh, thì Wm được gọi là meronym của
Wh Ví dụ chẳng hạn như ngón tay (finger) là một phần của bàn tay (hand) thì
"{ finger }" là một meronym của "{ hand }" Nếu Wh có một thành phần (HAS-A)
là Wm, thì Wh được gọi là holonym của Wm Ví dụ, mỗi cơ thể con người (body) có một cái miệng (mouth) nên "{ body }" là một holonym của "{ mouth }"
Quan hệ antonym của các synset danh từ
Quan hệ antonym là quan hệ giữa các cặp danh từ mang ý nghĩa trái ngược nhau, và thông thường chúng được dẫn xuất từ một cặp tính từ tương phản Chẳng hạn, cặp danh từ "kindness - unkindness" có quan hệ antonym, và chúng được dẫn xuất từ cặp tính từ tương phản "kind-unkind" Trong WordNet, quan hệ antonym được trình bày bởi một con trỏ giữa hai danh từ, và được kí hiệu là !->, ví dụ "{ man } !-> { woman }", "{ woman } !-> { man }"
Wiktionary 2.3.
Wiktionary10 là một từ điển mở trực tuyến, đa ngôn ngữ, được đưa vào hoạt động chính thức vào tháng 12 năm 2002 nhờ hai người sáng lập Daniel Alston và Larry Sanger Tên "Wiktionary" là một sự kết hợp giữa hai từ "wikipedia" và "dictionary" Cũng tương tự như Wikipedia, bất kỳ người sử dụng Internet nào đều có thể chỉnh sửa nội dung các trang Web của Wiktionary
10
http://en.wiktionary.org
Trang 24Và nhờ đóng góp tích cực của cộng đồng người sử dụng, Wiktionary cũng phát triển một cách nhanh chóng với hơn hàng triệu trang web trên một số lượng lớn các ngôn ngữ khác nhau Tính đến tháng 5 năm 2014, cơ sở dữ liệu của Wiktionary bao gồm hơn 24 triệu trang Web, hơn 2,7 triệu người sử dụng, hỗ trợ trên 171 ngôn ngữ khác nhau11
Trong Wiktionary, một trang Web trình bày các nghĩa khác nhau của một từ hoặc cụm từ Cũng tương tự như WordNet, từng nghĩa của từ hoặc cụm từ được thể hiện bởi một chú thích, các ví dụ minh hoạ cho việc sử dụng của nghĩa và một tập từ đồng nghĩa (synonyms), cũng như các từ có mối quan hệ hypernym/hyponym, meronym/holonym, antonym tương ứng
Ví dụ, trong hình 2.5 là định nghĩa của danh từ "father" trích từ Wiktionary tiếng Anh Danh từ này có 7 nghĩa khác nhau, từng nghĩa được miêu tả bởi một chú thích ngắn gọn và các nghĩa 1, 3, 5, 6 còn có những ví dụ minh hoạ cho việc sử dụng Ngoài ra, các synonym và antonym cũng được định nghĩa tương ứng
Hình 2.5: Định nghĩa của danh từ "father" được trích từ Wiktionary
Trong phạm vi luận văn này, chúng tôi sử dụng phiên bản Wiktionary tiếng anh vào ngày 3 tháng 4 năm 2010 làm từ điển với số lượng 335,748 từ tiếng Anh và 421,847 nghĩa
Trang 25
Từ điển Oxford 2.4.
Từ điển tiếng Anh Oxford (OED12) là một trong những từ điển tiếng Ạnh lâu đời nhất trên thế giới được xuất bản bởi nhà xuất bản đại học Oxford Công việc biên soạn cho từ điển tiếng Anh Oxford được bắt đầu từ năm 1857 nhưng cho đến
năm 1884, nó mới được công bố lần đầu tiên với tên A New English Dictionary on
Historical Principles (NED) Và đến năm 1895, tiêu đề The Oxford English Dictionary (OED) mới bắt đầu được sử dụng rộng rãi
Phiên bản thứ hai của từ điển tiếng Anh Oxford được xuất bản vào năm 1989 với 20 tập, bao gồm 291,500 mục trong 21,730 trang Cho đến ngày 24 tháng 3 năm 2011, các nhà biên tập đã hoàn tất phiên bản thứ ba của từ điển tiếng Anh Oxford với khoảng trên 750,000 từ và được đánh giá là từ điển đơn ngôn ngữ toàn diện nhất thế giới theo sách kỷ lục Guinness13
Phiên bản online trên web14 đầu tiên của từ điển tiếng Anh Oxford được công bố vào ngày 14 tháng 3 năm 2000 theo Juliet New (2000) Và tính đến tháng 8 năm 2010, mỗi tháng trung bình có khoảng 2 triệu lượt truy cập của người sử dụng trên khắp thế giới đến từ điển Oxford online Với mục đích phục vụ cho việc học tập và nghiên cứu, từ điển Oxford online hỗ trợ miễn phí cho mọi người
Với từ điển tiếng Anh Oxford online, chúng ta có thể tìm kiếm định nghĩa của một từ hoặc một cụm từ một cách nhanh chóng Cũng tương tự như WordNet và Wiktionary, từng từ hoặc cụm từ trong từ điển Oxford sẽ có thể có nhiều nghĩa khác nhau Và mỗi nghĩa trong từ điển Oxford cũng được trình bảy bởi một chú thích, các ví dụ minh hoạ cho việc sử dụng của nghĩa trong các ngữ cảnh cụ thể, và một tập các từ đồng nghĩa (synonyms), antonyms,…
Ví dụ trong hình 2.6 là định nghĩa của danh từ "server" trích từ điển Oxford tiếng Anh online Danh từ "server" có 3 nghĩa khác nhau, và mỗi nghĩa được miêu tả bởi chú thích và các ví dụ minh hoạ cụ thể Trong phạm vi luận văn này, chúng tôi đã sử dụng từ điển Oxford tiếng Anh online bản được cập nhật ngày 13 tháng 1 năm 2014
Trang 26
Hình 2.6: Định nghĩa của từ "server" trích từ Oxford online
Học máy 2.5.
Học máy (Machine Learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép hệ thống có thể "học" được những kinh nghiệm cho trước để từ đó áp dụng cho những tình huống tương tự của cùng một bài toán Hay nói một cách khác là xây dựng những chương trình có thể tự động học và cải thiện hiệu quả thông qua kinh nghiệm
Quá trình học bao gồm các yếu tố sau: - Nhiệm vụ (task): cho biết học để làm việc gì - Độ đo hiệu quả (performance measure): để đánh giá kết quả của việc học - Tập huấn luyện (training data): là những bài huấn luyện cho quá trình học - Tập kiểm tra (testing data): dữ liệu để kiểm tra việc học
- Các đặc trưng để học (learning features): những đặc trưng dùng cho việc học Tập hợp các đặc trưng của một nhiệm vụ được gọi là vector đặc trưng của nhiệm vụ đó
Chúng ta có thể lấy một ví dụ cụ thể như việc "học" cách phân biệt thư điện tử có phải là thư rác hay không như sau:
Trang 27- Nhiệm vụ: phân loại thư rác - Độ đo hiệu quả: độ chính xác (tỉ lệ giữa số thư rác nhận dạng được trên tổng
số thư nhận dạng), độ đầy đủ (tỉ lệ giữa số thư rác nhận dạng được trên tổng số thư rác của tập kiểm tra)
- Tập huấn luyện: chứa những dữ liệu đã phân loại sẵn là thư rác hay không - Tập kiểm tra: chứa dữ liệu để kiểm tra việc nhận diện thư rác có hiệu quả
hay không - Các đặc trưng để học: số lượng những từ được nghi ngờ là của thư rác, ví dụ
như "quảng cáo", "liên hệ ngay"… Học máy được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau như dịch thuật, xử lý ảnh, xử lý ngôn ngữ tự nhiên, khai phá dữ liệu, nhận dạng chữ viết, giọng nói…Một ví dụ điển hình cho ứng dụng của học máy là Google dịch15 (Google Translate)
Các loại giải thuật cho học máy bao gồm:
- Học máy có giám sát (Supervised Learning) Tập huấn luyện chứa đầy đủ
vector mang giá trị của các đặc trưng và cho biết trước câu trả lời chính xác Giá trị của từng đặc trưng có thể là giá trị liên tục (continuous) hoặc rời rạc (discrete), hoặc là nhãn của đối tượng đầu vào Nhiệm vụ chính là xây dựng mô hình học hợp lý của việc tổng quát hoá dữ liệu
- Học máy không giám sát (Unsupervised Learning) Tương tự như học
máy giám sát nhưng tập huấn luyện không có câu trả lời chính xác mà giải thuật học máy sẽ tự đưa ra câu trả lời Thông thường thì độ chính xác của phương pháp học máy không giám sát sẽ thấp hơn học máy có giám sát
- Học máy bán giám sát (Semi-Supervised Learning) Trong thực tế, tập
huấn luyện không phải lúc nào cũng có đầy đủ các câu trả lời chính xác bởi vì chi phí hay hoàn cảnh khó khăn Và kết quả của phương pháp học máy không giám sát lại không đạt được yêu cầu nên phương pháp học máy bán giám sát ra đời để kết hợp hai ưu điểm của hai phương pháp trên
- Học máy tăng cường (Reinforcement Learning) Thuật toán sẽ có tương
tác trực tiếp với tình huống thực tế Và các tình huống này sẽ cung cấp những thông tin phản hồi ngay tại lúc đó để việc học máy thích ứng thực tế hơn và đưa ra kết quả chính xác hơn
15
http://translate.google.com/
Trang 28Bagging
"Bagging" (tên đầy đủ là Bootstrap Aggregating), là một siêu giải thuật (meta algorithm) trong học máy, tổ hợp các kết quả khác nhau của cùng một giải thuật học máy, nhưng cho những tập huấn luyện riêng lẻ khác nhau được trích dẫn từ tập huấn luyện ban đầu
- Cho một tập dữ liệu D, siêu giải thuật Bagging sẽ tạo ra m tập dữ liệu con
D1 đến Dm bằng cách chọn ngẫu nhiên các mẫu trong D và các mẫu này có
thể trùng nhau trong cùng một tập dữ liệu con Theo đó, sẽ có một số dữ liệu được lấy lại nhiều lần, trong khi có một số dữ liệu không hề được lấy Cách lấy mẫu như thế được gọi là bootstrap
- Mục đích của bootstrap là tạo ra các mô hình huấn luyện con khác nhau từ một tập huấn luyện ban đầu Và kết quả được tập hợp từ các mô hình con bằng cách lấy trung bình đối với bài toán hồi quy hoặc dùng phương pháp bỏ phiếu (voting) đối với bài toán gán nhãn
Giải thuật học máy C4.5
C4.5 là một giải thuật học máy dựa trên cây quyết định (decision tree) được phát triển bởi Ross Quinlan16 Đây là giải thuật mở rộng của giải thuật ID3 (cũng do Ross Quinlan phát triển) và cây quyết định của nó có thể dùng để làm giải thuật phân loại Hiện nay C4.5 có một phiên bản phát triển hơn là C5.0, tối ưu việc sử dụng phần cứng, cho kết qua nhanh hơn và cây quyết định sinh ra nhỏ gọn hơn, nhưng C5.0 lại là phiên bản được thương mại hóa
C4.5 dựa trên nền tảng của nhóm giải thuật chia để trị (devide and conquer): - Kiểm tra trường hợp nền (base case)
- Với từng đặc trưng a, tìm tỉ lệ thông tin chuẩn hóa (normalized information
gain ratio) tương ứng - Chọn đặc trưng có tỉ lệ thông tin chuẩn hoá tốt nhất - Tạo nút (node) quyết định tương ứng với đặc trưng đó - Lặp lại với từng nhánh con của cây quyết định được phân ra từ nút quyết
định tốt nhất vừa tìm được
Trang 29
Ví dụ cây quyết định trong hình 2.7 mô tả có nên bán cổ phiếu hiện tại hay không Đặc trưng đầu tiên có tỉ lệ thông tin chuẩn hoá tốt nhất là điểm của cổ phiếu đó Nếu dưới 100 điểm là bán liền nếu không thì tạo cây con tiếp tục với đặc trưng thứ hai có tỉ lệ thông tin chuẩn hoá tốt nhất Cụ thể là so giá của ngày hôm trước nếu giảm thì giữ lại, nếu tăng thì mua ngay, còn nếu vẫn giữ đúng giá đó thì bán
Hình 2.7: Một ví dụ về giải thuật C4.5
Các độ đo căn bản 2.6.
Để đánh giá hiệu suất một phương pháp, các độ đo căn bản thường được sử
dụng là độ chính xác (Precision), độ đầy đủ (Recall) và độ hài hòa (F-measure)
Việc hiện thực hóa các độ đo này có thể khác nhau tùy vào mục đích của từng người sử dụng để phù hợp cho bài toán của họ Trong phần này, chúng tôi chỉ trình bày khái niệm tổng quan về các độ đo căn bản, còn chi tiết về việc hiện thực chúng cho bài toán kết nối từ điển với Wikipedia sẽ được trình trong phần 4.2
Ta quy ước một số ký hiệu như sau:
- Tall: tập câu hỏi (mỗi câu hỏi đều có câu trả lời đúng)
- TC: tập câu hỏi được hệ thống trả lời đúng
- TR: tập câu hỏi mà hệ thống đã trả lời
Độ chính xác P là tỉ lệ giữa số câu hỏi mà hệ thống trả lời đúng và tổng số câu
hỏi mà hệ thống đã trả lời
Độ đầy đủ R là tỉ lệ giữa số câu hỏi mà hệ thống trả lời đúng và tổng số câu hỏi
Điểm<= 100
Giá so với ngày trước
Mua vào Đúng
Bán ra
Sai
Bán ra Giảm Ổn định Tăng Giữ lại
Trang 30
Độ hài hòa F đƣợc sử dụng để cân bằng độ chính xác P và độ đầy đủ R bởi vì
nếu chỉ đánh giá riêng độ chính xác hoặc độ đầy đủ thì không thể phản ánh toàn diện hiệu suất của hệ thống
Chẳng hạn nhƣ, khi một hệ thống có độ chính xác cao nhƣng độ đầy đủ thấp thì sẽ đồng nghĩa với việc câu hỏi nào đƣợc hệ thống trả lời hầu nhƣ đúng nhƣng số lƣợng câu hỏi mà hệ thống trả lời đƣợc lại rất ít Ví dụ, nếu ta có 100 câu hỏi và hệ thống chỉ trả lời 10 câu với 9 câu đúng, thì độ chính xác là 90% tuy nhiên độ đầy đủ chỉ 10%
Ngƣợc lại, khi một hệ thống có độ đầy đủ càng cao nhƣng độ chính xác càng thấp thì sẽ đồng nghĩa với việc hệ thống càng cố gắng trả lời càng nhiều câu hỏi, tuy nhiên số câu trả lời đúng lại rất ít Ví dụ, nếu ta có 100 câu hỏi và hệ thống trả lời 80 câu với 16 câu đúng, thì độ đầy đủ là 80% tuy nhiên độ chính xác chỉ có 20%
Do đó việc sử dụng độ đo hài hòa F là một điều cần thiết Công thức độ hài hòa
32% nên ta có thể nói rằng hệ thống S2 có hiệu suất tốt hơn S1 Tuy nhiên không phải lúc nào độ hài hoà cũng đƣợc sử dụng để so sánh giữa các hệ thống, đôi khi vì mục đích đặc biệt thì độ chính xác hoặc độ đầy đủ có thể đƣợc sử dụng
Trang 31CHƯƠNG 3
PHƯƠNG PHÁP ĐỀ XUẤT
Trong chương này, chúng tôi trình bày hai phương pháp khác nhau để kết nối tự động các nghĩa trong một từ điển với các trang Wikipedia tương ứng, đó là kết nối dựa trên luật (Rule-based) và kết nối bằng học máy (Machine Learning) Nền tảng của các phương pháp đề xuất cơ bản dựa trên hai phương pháp Fernando và Stevenson (2012), Milne và Witten (2008), nhưng tích hợp một số cải tiến và heuristic để phù hợp với bài toán kết nối từ điển và Wikipedia
Phương pháp nền của Fernando và Stevenson (2012) 3.1.
Để làm giàu ngữ nghĩa cho mạng từ vựng WordNet, Fernando và Stevenson đã đề xuất một phương pháp tự động kết nối các WordNet synset đến các trang Wikipedia với ba bước chính: xác định tập các trang Wikipedia ứng viên cho từng WordNet synset (Generation of Candidate Articles), lựa chọn các kết nối phù hợp nhất (Selecting the Best Mappings) và tinh lọc lại các kết nối (Refining the Mappings) Hiệu suất tác giả đạt được với độ chính xác 87.8% và độ đầy đủ 46.9%
Xác định các trang Wikipedia ứng viên
Để xác định tập các trang Wikipedia ứng viên cho WordNet synset, tác giả đã sử dụng hai chiến lược là: so khớp tiêu đề (Title Matching) và hệ thống tìm kiếm (Search Engine)
So khớp tiêu đề: xem xét và so khớp tiêu đề của các trang Wikipedia với các từ đồng nghĩa trong WordNet synset để xác định tập các trang ứng
viên Từng WordNet synset S có một tập các từ đồng nghĩa { w1, w2,
Trang 32wn }, và với từng từ wi:
- Thêm các trang thực thể có tiêu đề trùng khớp với wi vào tập các
trang ứng viên Ví dụ, nếu wi là "automobile" thì trang Wikipedia với tiêu đề "Automobile" sẽ được thêm vào tập ứng viên
- Thêm trang đổi hướng từ wi vào tập ứng viên Ví dụ, nếu wi là "car" đổi hướng đến trang Wikipedia "Automobile" thì trang này sẽ được thêm vào tập ứng viên
- Thêm các trang thực thể được liên kết đến từ các trang phân giải nhập nhằng đã nằm trong tập ứng viên
Hệ thống tìm kiếm: sử dụng một hệ thống tìm kiếm trên Wikipedia để xác định tập các trang ứng viên thay vì chỉ sử dụng tiêu đề của chúng để so
sánh
Lựa chọn kết nối phù hợp nhất
Sau bước đầu tiên, từng WordNet synset sẽ có một tập các trang Wikipedia ứng viên kết nối tương ứng Tiếp theo, tác giả tiến hành lựa chọn một trang phù hợp nhất trong tập các trang ứng viên để kết nối cho từng synset dựa trên hai độ đo: độ tương tự văn bản (Text Similarity) và độ tương tự tiêu đề (Title Similarity)
Độ tương tự văn bản: toàn bộ nội dung của trang Wikipedia sẽ được tiền xử lý bằng cách bằng cách loại bỏ các đánh dấu (markup), stopword và được trình bày như một vector Tương ứng WordNet synset, các thành phần như chú thích, các ví dụ và tập các từ đồng nghĩa được sử dụng để trình bày như một vector Và độ tương tự văn bản được tính bằng công thức:
mức độ tương tự để lựa chọn trang phù hợp nhất Với S = { w1, w2,…,wn }
là tập các từ đồng nghĩa của một WordNet synset và title là tiêu đề của trang ứng viên, thì độ tương tự tiêu đề được tính bằng công thức:
Trang 33
{
Với len(string) là độ dài của một chuỗi và substr(a, b) là đúng nếu a là chuỗi con của b
Tinh lọc lại các kết nối
Kết quả sau bước thứ hai là một tập các cặp WordNet synset và trang Wikipedia, tiếp đến tác giả sử dụng một phương pháp đánh giá toàn cục trên các kết nối và thông tin về cấu trúc liên kết trong Wikipedia để tinh lọc các kết nối Đầu tiên, tác giả loại bỏ tất cả các kết nối mà có nhiều synset kết nối đến cùng một trang Wikipedia, bởi vì theo tác giả những kết nối này thường không tốt Hình 3.1 trình bày các kết nối đến cùng trang Wikipedia "Tongue" của hai synset khác nhau cho từ "tongue" và các kết nối này sẽ bị loại bỏ
Hình 3.1: Nhiều synset cùng kết nối đến một trang Wikipedia theo Fernando và
Stevenson (2012)
Sau đó, tác giả tiếp tục tinh lọc các liên kết bằng cách khai thác các liên kết hai
chiều giữa các trang Wikipedia, tức là trang p có liên kết đến trang p1 và ngược lại
trang p1 có liên kết đến trang p Giả sử S là tập các synset và A là tập các trang Wikipedia được kết nối từ các synset, một kết nối giữa synset m với trang p được đánh giá là tốt và được giữa lại nếu p có liên kết hai chiều với một trang p1 (≠ p)
trong A Ví dụ, hình 3.2 trình bày kết nối từ các WordNet synset tương ứng đến các trang Wikipedia với tiêu đề "Counting", "Accountancy", "Internal control", "Exhumation" Nhưng chỉ có hai trang "Counting", "Accountancy" có liên kết hai
Wikipedia pages WordNet synsets
tongue: muscular tissue in oral cavity
tongue: flap of material under schoelaces
Tongue: muscle on floor of mounth…