Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở

Trang 1

Nguyễn Thanh Hiên

PHÂN GIẢI NHẬP NHẰNG THỰC THỂ CÓ TÊN

Chuyên ngành: Khoa học Máy tính Mã số: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS CAO HOÀNG TRỤ

TP HCM - NĂM 2010

Trang 2

i

cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo được đề cập ở phần sau của luận án Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận án và chưa được công bố trong bất kỳ công trình khoa học nào khác.

Trang 3

ii

Hoàng Trụ Thầy đã tận tình chỉ bảo tôi từ những ngày đầu tiếp cận con đường khoa học Thầy đã dạy tôi từ những việc tưởng chừng đơn giản như cách thức để thu thập các tài liệu liên quan, đến khả năng tư duy có phê phán và sự hoài nghi cần thiết trong hoạt động nghiên cứu Sự tận tình hướng dẫn, cộng với sự động viên, khích lệ thường xuyên của Thầy đã thật sự đánh thức trong tôi những khả năng tiềm ẩn, nếu không luận án này đã không thể hoàn thành Sự cẩn thận, tỉ mỉ, kiên nhẫn và nghiêm túc trong công việc là những đức tính mà Thầy luôn nhắc nhở tôi Những gì Thầy dạy tôi đã ảnh hưởng sâu sắc đến cá nhân tôi, và sẽ có tác động lâu dài đến cuộc sống, sự nghiệp và tương lai của tôi Tôi tin rằng, bằng những lời lẽ thông thường sẽ không đủ để chuyển tải hết lòng biết ơn với những gì Thầy đã dạy tôi Dù vậy, tôi cũng muốn viết ra đây, và gởi đến Thầy, lời cảm ơn chân thành nhất Em cảm ơn Thầy!

Tôi cũng muốn bày tỏ lòng biết ơn đối với tập thể các thầy cô Khoa Khoa học và Kỹ thuật máy tính, Trường Đại học Bách Khoa Tp HCM, nơi tôi học tập và gắn bó hơn mười năm qua, tính cả thời gian tôi học đại học và làm luận văn thạc sĩ Các thầy cô luôn tạo điều kiện để tôi hoàn thành tốt công việc của mình, và sự dạy dỗ của quí thầy cô đã giúp tôi trưởng thành Xin chân thành cảm ơn quí thầy cô trong Khoa Khoa học và Kỹ thuật máy tính Tôi cũng chân thành cảm ơn sự hỗ trợ và giúp đỡ nhiệt thành của Phòng Quản lý Sau Đại học, Trường Đại học Bách Khoa Tp HCM trong thời gian tôi thực hiện luận án này Cảm ơn Ban giám hiệu Trường Đại học Bách Khoa Tp HCM, Phòng Khoa học Công nghệ & Dự án đã xét duyệt cho tôi thực hiện đề tài nghiên cứu cấp trường, hỗ trợ tài chính để trang trải một phần kinh phí học tập và nghiên cứu của tôi trong thời gian qua

Tôi chân thành cảm ơn Tiến sĩ Lê Vinh Danh, Hiệu trưởng Trường Đại học Tôn Đức Thắng, đã động viên và tạo mọi điều kiện thuận lợi cho tôi hoàn thành luận án này Cảm ơn các anh chị trong Phòng Điện toán và Thông tin tư liệu, Trường Đại học Tôn Đức Thắng, đã nhiệt tình giúp đỡ tôi trong thời gian vừa qua

Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên, hỗ trợ về mặt tinh thần để tôi vượt qua khó khăn và hoàn thành tốt luận án

Trang 4

iii

người, tổ chức, hoặc nơi chốn Phân giải nhập nhằng thực thể có tên là nhằm ánh xạ mỗi tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước Nổi lên gần đây như là một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa Web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên, phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu khắp thế giới Luận án đề xuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng

Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia Các ontology đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo hướng tiếp cận từ dưới lên, với các khái niệm được hình thành từ một tập từ vựng tự do và các thoả thuận mang tính cộng đồng Các đặc trưng được nghiên cứu là tên của các thực thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từ cùng với các cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham chiếu với tên đó trong văn bản Ngoài ra luận án cũng khai thác vị trí xuất hiện, chiều dài của các tên, và tên thường dùng của các thực thể Luận án đề xuất ba mô hình phân giải nhập nhằng tương ứng với ba phương pháp nói trên là: (i) mô hình dựa trên heuristic; (ii) mô hình dựa trên thống kê; và (iii) mô hình lai - kết hợp heuristic và thống kê

Điểm mới chung của ba phương pháp là phân giải nhập nhằng theo một quá trình lặp cải thiện dần, trong đó bao gồm một số bước lặp Thực thể được xác định tại mỗi bước lặp sẽ được sử dụng để phân giải nhập nhằng các thực thể còn lại ở các bước lặp tiếp theo Các thí nghiệm được thực hiện để đánh giá và chứng tỏ tính hiệu quả của các phương pháp được đề xuất Luận án cũng nghiên cứu xử lý các trường hợp khi mà các tên trong văn bản chỉ được nhận ra bán phần và thực thể được đề cập đến trong văn bản nằm ngoài nguồn tri thức sử dụng, đồng thời đề xuất các độ đo hiệu quả phân giải nhập nhằng mới tương ứng

Trang 5

iv

locations Named entity disambiguation is a problem that aims at mapping entity names in a text to the right referents in a given source of knowledge Having been emerging in recent years as a challenging problem, but significant to realization of the semantic web, as well as advanced development of natural language processing applications, named entity disambiguation has attracted much attention by researchers all over the world This thesis proposes three methods for disambiguating named entities, and rigoruously investigates the three important factors affecting disambiguation performance, namely, employed knowledge sources, named entity representation features, and disambiguation models

The knowledge sources exploited are close ontologies and Wikipedia Close gies are built by experts following a top-down approach, with a hierarchy of concepts based on a controlled vocabulary and strict constraints Wikipedia, considered as an open ontology, is built by volunteers following a bottom-up approach, with concepts formed by a free vocabulary and community agreements The investigated features are entity names, identifiers of resolved entities, and words together with phrases surrounding a target name and surrounding names that are coreferential with that target name Besides, the thesis ex-ploits occurrence positions and lengths of names, and main alias of entities This thesis proposes three models corresponding to the three above-mentioned methods: (i) a heuris-tic-based model; (ii) a statistical model; and (iii) a hybrid model, combining heuristics and statistics

ontolo-The common novelty of the proposed methods is disambiguating named entities tively and incrementally, including several iterative steps Those named entities that are resolved in each iterative step will be used to disambiguate the remaining ones in the next iterative steps Experiments are conducted to evaluate and show the advantages of the pro-posed methods Besides, this thesis deals with the cases when entity names in text are par-tially recognized and entities referred to in text are outside an employed knowledge source, as well as proposes new corresponding disambiguation performance measures

Trang 6

Danh mục các giải thuật x

Danh mục thuật ngữ viết tắt xi

Chương 1: GIỚI THIỆU 1

1.1 Lịch sử và động cơ nghiên cứu 1

Trang 7

vi

2.8 Kết luận 72

Chương 3: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY 74

3.1 Giới thiệu 74

3.2 Phân hạng ứng viên dựa trên ontology 75

3.3 Các độ đo hiệu quả mới 80

6.2 Hướng nghiên cứu mở rộng 135

CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 137

TÀI LIỆU THAM KHẢO 138

Trang 8

vii

DANH MỤC CÁC BẢNG

Bảng 2.1: Số liệu thống kê về các trang, thể loại và liên kết của các trang trong

Wikipedia 45

Bảng 2.2: Các loại trả lời để đánh giá một hệ thống nhận dạng thực thể có tên 49

Bảng 2.3: Kết quả phân giải đồng tham chiếu tên riêng tiếng Việt 59

Bảng 2.4: Minh họa tập dữ liệu huấn luyện của Bunescu và Paşca (2006) 66

Bảng 2.5: Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp phân giải nhập nhằng các vùng địa lý (Leidner, 2007) 71

Bảng 3.1: Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản 82

Bảng 3.2: Minh hoạ cách tính độ chính xác, độ đầy đủ và độ F ánh xạ 84

Bảng 3.3: Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu De1 85

Bảng 3.4: Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu De1 86

Bảng 3.5: Kết quả phân giải nhập nhằng cho (“Georgia”, Location) 86

Bảng 3.6: Kết quả phân giải nhập nhằng cho (“Smith”, Person) 87

Bảng 3.7: Kết quả phân giải nhập nhằng của OntoNEON trên tập Dv sử dụng ontology của VN-KIM 87

Bảng 3.8: Độ chính xác và độ đầy đủ ánh xạ của VN-KIM và OntoNEON trên tập dữ liệu Dv 88

Bảng 4.1: Thông tin về thực thể trong Wikipedia có một trong các tên “John McCarthy”, “John Williams”, “Georgia”, hoặc “Columbia” và số lần được đề cập đến trong tập dữ liệu De2 101

Bảng 4.2: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một trong bốn tên “John McCarthy”, “John Williams”, “Georgia”, hoặc “Columbia” và số lượng ánh xạ được thực hiện bởi phương pháp của chúng tôi 102

Trang 9

viii

Bảng 4.3: Độ chính xác và độ đầy đủ ánh xạ được tính toán cho các tên “John

McCarthy” và “John Williams” 103

Bảng 4.4: Độ chính xác và độ đầy đủ ánh xạ được tính toán cho các tên “Georgia” và

“Columbia” 104

Bảng 4.5: Độ chính xác và độ đầy đủ ánh xạ được tính trung bình cho các tên “John

McCarthy”, “John Williams”, “Georgia”, và “Columbia” 105

Bảng 4.6: Thống kê lỗi khi không sử dụng và sử dụng định danh của các thực thể như

các đặc trưng 106

Bảng 4.7: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một

trong hai tên “Georgia”, hoặc “Columbia” và số lượng ánh xạ được thực hiện bởi phương pháp NOW 110

Bảng 4.8: Kết quả thực hiện phân giải nhập nhằng của NOW trên tập dữ liệu với

“Georgia” và “Columbia” 111

Bảng 5.1: Thông tin về sự xuất hiện của các tên trong tập dữ liệu De3 126

Bảng 5.2: Thông tin về sự xuất hiện của các tên trong tập dữ liệu De31 127

Bảng 5.3: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ

liệu De32 128

Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ

liệu De31 129

Trang 10

ix

DANH MỤC CÁC HÌNH

Hình 1.1: Một mô hình phân giải nhập nhằng tiêu biểu 13

Hình 1.2: Một ví dụ của phân giải nhập nhằng thực thể có tên 15

Hình 2.1: Một số lớp xử lý của một ứng dụng rút trích thông tin 28

Hình 2.2: VN-KIM xử lý và chú thích các thực thể có tên trên một trang web tiếng Việt 33

Hình 2.3: Chú thích ngữ nghĩa 33

Hình 2.4: RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của KIM 34

VN-Hình 2.5: Một mô hình xử lý của một động cơ rút trích thông tin dựa trên GATE 35

Hình 2.6: Một trang thực thể trong Wikipedia tiếng Việt 38

Hình 2.7: Minh họa các mối liên kết giữa các trang trong Wikipedia 39

Hình 2.8: Minh họa hệ thống thể loại của Wikipedia 40

Hình 2.9: Một phần đồ thị các thể loại của thực thể Anna Maria Mozart 41

Hình 2.10: Biểu diễn thực thể China trong Wikipedia tiếng Anh 41

Hình 2.11: Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” 42

Hình 2.12: Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE 49

Hình 2.13: Minh họa các chuỗi đồng tham chiếu 51

Hình 5.1: Minh họa các đặc trưng rút trích được từ một đoạn văn bản mẫu 117

Hình 5.2: Một phần trang phân giải nhập nhằng của tên “Atlanta” 120

Trang 11

x

DANH MỤC CÁC GIẢI THUẬT

Giải thuật 1.1: Phân giải nhập nhằng lặp cải thiện dần 19

Giải thuật 2.1: Phân giải đồng tham chiếu tên tiếng Việt 57

Giải thuật 3.1: Phân giải nhập nhằng dựa trên ontology (OntoNEON) 79

Giải thuật 4.1: Phân hạng ứng viên dựa trên thống kê 99

Giải thuật 4.2: Phân giải nhập nhằng lặp cải thiện dần dựa trên thống kê (NOW) 100

Giải thuật 4.3: Làm giàu thông tin mô tả một thực thể trong một ontology 109

Giải thuật 5.1: Phân giải nhập nhằng kết hợp heuristic và thống kê (WIN) 124

Trang 12

xi

DANH MỤC THUẬT NGỮ VIẾT TẮT

Trang 13

Chương 1

GIỚI THIỆU

1.1 Lịch sử và động cơ nghiên cứu

Internet ngày nay đã trở thành một trong những kênh lưu trữ và truyền tải thông tin lớn nhất của nhân loại Sự ra đời và phát triển nhanh chóng của World Wide Web (gọi tắt là Web) đã tạo điều kiện thuận lợi cho việc phân phối và chia sẻ thông tin trên Internet, do đó dẫn đến bùng nổ thông tin cả về số lượng, chất lượng và các chủ đề thông tin trên đó Tuy nhiên, đa phần nội dung thông tin trên các trang web đều được thể hiện dưới dạng ngôn ngữ tự nhiên và được định dạng theo ngôn ngữ HTML, một ngôn ngữ thiếu khả năng diễn đạt ngữ nghĩa về các khái niệm và các đối tượng được trình bày trong các trang web Do vậy, phần lớn nội dung thông tin trên các trang web hiện nay chỉ phù hợp cho con người đọc hiểu Mục tiêu khai thác hiệu quả các nguồn thông tin trên Web đã thúc đẩy sự phát triển các ứng dụng xử lý văn bản tự động, trong đó các chủ đề nghiên cứu như Rút trích thông tin (Information Extraction – IE), Truy hồi thông tin (Information Retrieval – IR), Hỏi đáp (Question Answering), Dịch máy (Machine Translation), Tóm lược văn bản (Text Summarization), và Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) nói chung, đã thu hút sự quan tâm của nhiều nhà nghiên cứu

Để máy tính có thể hiểu ngữ nghĩa của một văn bản, một tiếp cận hợp lý hiện nay là

thay vì cố gắng hiểu một cách đầy đủ ngữ nghĩa của văn bản, chúng ta rút trích các thực

thể và các khái niệm chính yếu xuất hiện trong đó dựa vào một nguồn tri thức về các thực

Trang 14

thể và khái niệm phổ biến trong thế giới thực, ví dụ như Wikipedia1 Từ các thực thể và khái niệm rút trích được, các hệ thống khai thác dữ liệu có thể được xây dựng để khai phá các lớp tri thức mới, ví dụ như mối quan hệ giữa các thực thể, nhằm hướng đến hiểu đầy đủ ngữ nghĩa của văn bản

Trong hơn một thập niên qua, cũng nhằm hướng đến giúp máy tính hiểu ngữ nghĩa của

các văn bản, các chủ đề nghiên cứu lấy thực thể có tên (Named Entity – NE) làm trung

tâm, như nhận biết và phân lớp các thực thể có tên (Nadeau và Sekine, 2007), phân giải nhập nhằng các thực thể có tên (Bunescu và Paşca, 2006; Sarmento và CS2, 2009), rút trích tự động quan hệ của các thực thể có tên (Bunescu, 2007), đã nhận được sự quan tâm nghiên cứu rộng rãi Thực thể có tên là những thực thể có thể được tham chiếu đến bằng tên, như con người, tổ chức, nơi chốn; kể cả biểu thức thời gian, biểu thức số, giá trị tiền tệ và phần trăm (Chinchor và Robinson, 1997) Những năm gần đây thực thể có tên cũng đã

trở thành đối tượng chính yếu trong việc nghiên cứu phát triển Web có ngữ nghĩa

(Berners-Lee và CS, 2001) Đó là bởi vì các thực thể có tên rất phổ biến trên các trang web Hơn nữa, thông tin và ngữ nghĩa được chuyển tải trong nội dung của nhiều trang web tập trung xoay quanh các thực thể có tên và các mối quan hệ ngữ nghĩa được diễn đạt tường minh hoặc ngầm định giữa chúng

Web có ngữ nghĩa (Semantic Web – SW) là Web mà thông tin trên đó không chỉ con người mới có thể đọc hiểu mà máy tính cũng có thể hiểu và xử lý chúng một cách tự động Berners-Lee phác họa SW đầu tiên vào năm 1999 (Berners-Lee, 1999) Berners-Lee và CS

(2001) trong một bài báo trên Scientific American đã mô tả một sự tiến hóa từ Web của

các tài liệu (Web of documents) để con người đọc hiểu, sang Web của dữ liệu (Web of

data) mà thông tin trên đó đã được bổ sung ngữ nghĩa để máy có thể hiểu và thao tác Thật vậy, SW là một sự tiến hóa mở rộng của Web hiện tại bằng cách cung cấp các cơ

chế để thêm dữ liệu mô tả ngữ nghĩa (semantic metadata) về các thực thể và các khái niệm trên các tài liệu web hiện tại, dưới dạng các chú thích ngữ nghĩa (semantic annotation), để

máy tính có thể tích hợp và chia sẻ thông tin và dữ liệu giữa các ứng dụng một cách tự động Trên tinh thần đó, xác định các thực thể có tên trên các văn bản và thêm dữ liệu mô

1 http://www.wikipedia.org

2 Chúng tôi dùng CS viết tắt cho cụm các cộng sự

Trang 15

tả ngữ nghĩa về chúng trên chính các văn bản đó, sử dụng các ontology, hoặc các cơ sở tri

thức (knowledge base – KB), đóng một vai trò quan trọng trong việc đạt được mục tiêu

phát triển web có ngữ nghĩa

Hướng đến việc hiện thực các ứng dụng web có ngữ nghĩa, SemTag là một trong những hệ thống đầu tiên thực hiện chú thích ngữ nghĩa có qui mô lớn cho các thực thể có tên trên các trang web (Dill và CS, 2003) Các tác giả của SemTag đã trình bày một ví dụ cho thấy ý nghĩa của các chú thích ngữ nghĩa về các thực thể có tên trong việc phát triển

các ứng dụng web có ngữ nghĩa Ví dụ câu “The Chicago Bulls announced yesterday that

Michael Jordan will ” xuất hiện với các chú thích ngữ nghĩa về các thực thể có tên khi

Chicago Bulls và Michael Jordan được xác định chính xác dựa trên ontology của TAP (Guha và McCool, 2003) như sau:

“The<resource ref="http://tap.stanford.edu/BasketballTeam_Bulls"> Chicago Bulls</resource>announced yesterday that <resource

ref="http://tap.stanford.edu/AthleteJordan,_Michael"> Michael dan</resource> will ”

Jor-Trong đó chú thích <resource ref="http://tap.stanford.edu/AthleteJordan,

_Michael"> Michael Jordan </resource> ngụ ý rằng “Michael Jordan” trong câu trên đề

cập đến thực thể có định danh (identifier) là http://tap.stanford.edu/AthleteJordan,

_Michael trong ontology của TAP Dựa trên định danh này máy tính có thể xác định

Mi-chael Jordan là vận động viên bóng rổ người Mỹ, người sinh ngày 17 tháng 02 năm 1963 và đã về hưu Một văn bản được bổ sung các chú thích ngữ nghĩa như thế sẽ cung cấp nhiều thông tin hơn về các thực thể và các khái niệm được đề cập trong đó, giúp máy tính có thể đọc hiểu một phần hoặc toàn bộ văn bản

Hiện nay người ta mong muốn rằng các trang web sẽ được bổ sung các chú thích ngữ nghĩa như thế để tạo tiền đề cho việc phát triển các ứng dụng web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng trong mảng xử lý ngôn ngữ tự nhiên nói chung Thật vậy, có thể hình dung một viễn cảnh là, một khi các trang web đã được bổ sung dữ liệu mô tả ngữ nghĩa về các thực thể và các khái niệm, với một truy vấn về thành phố “Sài Gòn” sẽ nhận được các văn bản nói về Thành phố Sài Gòn và Thành phố HCM chứ không như các động cơ tìm kiếm hiện hành là trả về bất kì văn bản nào chứa cụm từ “Sài Gòn” mặc dù các văn bản đó có thể đề cập đến Công ty Bánh kẹo Sài Gòn, Trường ĐHCN Sài Gòn, người Sài Gòn,

Trang 16

Trực quan cho thấy rằng các trang web được bổ sung dữ liệu mô tả ngữ nghĩa như trên chưa xuất hiện rộng rãi trên Web hiện tại Để dữ liệu mô tả đó luôn sẵn sàng trên Web, một trong những công việc cần thiết là phải xác định đúng các thực thể có tên xuất hiện trên đó Nhận dạng thực thể có tên, được biết đến rộng rãi với tên Named Entity Recognition (NER), là một công việc bước đầu hướng đến mục tiêu đó Theo MUC-6 (Sixth Message Understanding Conference – MUC-6, 1995), NER là nhận biết và phân lớp (hoặc xác định thể loại) các thực thể có tên (ví dụ: con người, tổ chức, nơi chốn), các biểu thức thời gian (ví dụ: “02/04/2006”, “1-12-97”, “10h:20’”, ) và các biểu thức số (ví dụ: 45%, 15m, 25kg, )

Trong hơn một thập niên qua đã có nhiều nghiên cứu về nhận dạng thực thể có tên (Nadeau và Sekine, 2007) Một số nghiên cứu tập trung vào việc nhận biết và phân lớp các NE vào các lớp ở mức cao như con người, tổ chức và nơi chốn (Bikel và CS, 1999; Tjong Kim Sang, 2002; Tjong Kim Sang và De Meulder, 2003) Trong khi đó một số nghiên cứu khác quan tâm việc nhận biết và phân lớp các thực thể vào các lớp mịn hơn, dựa trên một hệ thống phân cấp gồm hàng trăm lớp thực thể (Cimiano và Völker, 2005; Nadeau, 2007) Tuy nhiên, NER chỉ dừng lại ở việc xác định lớp của các thực thể, mà chưa xác định được

định danh cụ thể của các thực thể Do đó, việc tiến một bước xa hơn nhằm xác định định

danh của các thực thể là thật sự cần thiết và có ý nghĩa, như đã trình bày, trong việc thúc đẩy sự phát triển Web có ngữ nghĩa và xử lý ngôn ngữ tự nhiên nói chung Luận án này

giải quyết bài toán Phân giải nhập nhằng thực thể có tên (Named Entity Disambiguation –

NED), nhằm vào mục tiêu đó

Một thách thức lớn trong thực tế là, một thực thể có thể có nhiều tên Ví dụ, “Ngân hàng Thương mại Cổ phần Á Châu”, “Ngân hàng Á Châu” và “ACB” là các tên của cùng một ngân hàng – Ngân hàng Thương mại Cổ phần Á Châu Hơn nữa, các thực thể khác nhau có thể trùng tên Ví dụ, tên “Võ Thị Sáu” cùng là tên của một con người (anh hùng

Võ Thị Sáu), một đường phố ở TP HCM (đường Võ Thị Sáu), một trường trung học ở TP HCM (trường PTTH Võ Thị Sáu, Đinh Tiên Hoàng, phường 3, quận Bình Thạnh, TP Hồ

Chí Minh) Do đó, cùng một tên, nhưng trong các lần xuất hiện khác nhau, có thể được dùng để đề cập đến các thực thể khác nhau Ví dụ, “John McCarthy” có thể được dùng để đề cập đến các thực thể khác nhau trong các ngữ cảnh khác nhau, như khoa học gia máy tính người Mỹ – nhà phát minh ngôn ngữ lập trình Lisp – hoặc nhà báo người Anh, người bị bắt cóc bởi các phần tử Hồi giáo Jihad ở Li Băng năm 1986, hoặc nhà âm vị học người

Trang 17

Mỹ – giáo sư ngôn ngữ học làm việc tại Đại học Massachusetts, Amherst Hệ quả là, một

tên xuất hiện trong văn bản đồng thời là tên của nhiều thực thể trong thế giới thực sẽ tạo ra

sự nhập nhằng (ambiguity), và tên đó được gọi là tên nhập nhằng Điều đó dẫn đến việc

xác định đúng các thực thể được đề cập đến trong một văn bản là thật sự khó khăn và thách thức, và là nguyên nhân dẫn đến phân giải nhập nhằng thực thể có tên đã và đang trở thành một chủ đề nghiên cứu quan trọng trong việc phát triển các ứng dụng web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng trong mảng xử lý ngôn ngữ tự nhiên nói chung Phân giải nhập nhằng thực thể có tên trước hết là nhằm xác định liệu hai lần xuất hiện của cùng một tên, hoặc các cách viết khác nhau của nó, trong các tài liệu khác nhau có đề cập đến cùng một thực thể hay hai thực thể khác nhau Ví dụ, NED là xác định hai lần xuất hiện của “John Smith” trên hai tài liệu khác nhau cùng đề cập đến một nguời hay đề cập đến hai người khác nhau có cùng tên “John Smith” Một ví dụ khác là xác định “J Smith” và “John Smith” xuất hiện trong hai tài liệu khác nhau có đề cập đến cùng một người hay hai người khác nhau

Cho đến nay, có hai hướng nghiên cứu chính đối với NED (Sarmento và CS, 2009)

Hướng nghiên cứu thứ nhất xem NED như là bài toán gom cụm (clustering - Cardie và

Wagstaff, 1999), trong đó mục tiêu là gom cụm các tên xuất hiện trong các tài liệu khác nhau thành các cụm khác nhau dựa trên thông tin rút trích từ chính các tài liệu, mỗi cụm bao gồm các tên đề cập đến cùng một thực thể (Bagga và Baldwin, 1998b; Mann và Ya-rowsky, 2003; Han và CS, 2004; Bekkerman và McCallum, 2005; Chen và Martin, 2007; Mayfield và CS, 2009; Sarmento và CS, 2009) Bunescu (2007) xem hướng nghiên cứu

này giải quyết bài toán Phân biệt các thực thể có tên (Named Entity Discrimination) Ví

dụ, khi “John Smith” xuất hiện trong các tài liệu khác nhau, một phương pháp theo hướng này xác định các xuất hiện nào của “John Smith” đề cập đến cùng một thực thể, rồi gom

thành một cụm Một trường hợp đặc biệt của hướng nghiên cứu này là bài toán Tìm kiếm

con người trên Web (Web People Search - WebPS), với mục tiêu là gom cụm các tài liệu

trong đó có xuất hiện các tên đề cập đến cùng một người thay vì gom cụm chính các tên đó (Artiles và CS, 2007; Artiles và CS, 2009)

Hướng nghiên cứu thứ hai xem NED như là bài toán ánh xạ (mapping) Chúng tôi gọi hướng nghiên cứu này theo đúng tên gọi Phân giải nhập nhằng thực thể có tên, với mục

tiêu là ánh xạ một tên xuất hiện trong một văn bản vào một thực thể (đối tượng tham chiếu)

Trang 18

trong một nguồn tri thức (bên ngoài) nào đó với một định danh duy nhất Hướng nghiên cứu này khai thác các thông tin không chỉ trên chính các tài liệu mà còn dựa trên các nguồn

tri thức bên ngoài các tài liệu, ví dụ như Wikipedia, để thực hiện việc phân giải nhập

nhằng (Bunescu và Paşca, 2006; Cucerzan, 2007; Hassell và CS, 2006; Volz và CS, 2007;

Buscaldi và Rosso, 2008; Overell, 2009) Khái niệm bên ngoài này hiểu theo nghĩa là khai

thác tri thức và thông tin không phải được rút trích trên chính các tài liệu Ví dụ, khi “John McCarthy” xuất hiện trong một văn bản (đề cập đến khoa học gia máy tính, người phát minh ra ngôn ngữ lập trình LISP), một phương pháp theo hướng này (Cucerzan, 2007) thực hiện việc ánh xạ “John McCarthy” vào đúng thực thể John McCarthy (com-puter scientist) trong Wikipedia - thực thể được mô tả bởi trang có nhan đề “John McCarthy (computer scientist)” Luận án này nghiên cứu và đề xuất các phương pháp phân giải nhập nhằng thực thể có tên theo hướng tiếp cận thứ hai

Một bài toán liên quan với NED là Liên kết bản ghi (Record Linkage) trong các cơ sở

dữ liệu Liên kết bản ghi là nhằm xác định các bản ghi trong cùng hoặc nhiều cơ sở dữ liệu có chứa thông tin về cùng một thực thể hay không, và sau đó liên kết hoặc hợp nhất chúng (Winkler, 2006; Elmagarmid và CS, 2007; Benjelloun và CS, 2009) Các phương pháp được đề xuất cho bài toán Liên kết bản ghi thực hiện việc so trùng các bản ghi bằng việc tính toán độ tương tự giữa các thuộc tính của các bản ghi Các thuộc tính này được xác định dựa trên lược đồ của các cơ sở dữ liệu Bởi vì các lược đồ cơ sở dữ liệu có cấu trúc, nên có thể dễ dàng xác định các thuộc tính của các bản ghi

Trong khi đó, NED thực hiện việc phân giải nhập nhằng các thực thể trên các tài liệu phi cấu trúc hoặc bán cấu trúc, trong đó thông tin liên quan đến các thực thể đang được xem xét thay đổi tùy theo tài liệu Nói một cách khác, NED khác Liên kết bản ghi ở chỗ:

• Mặc dù khi một số thông tin trên hai tài liệu là giống nhau, chúng ta vẫn chưa kết luận được hai lần xuất hiện của cùng một tên trên hai tài liệu đó có cùng đề cập đến một thực thể hay không Ví dụ, mặc dù khi trong cả hai tài liệu đều xuất hiện “John McCarthy” và cùng đề cập John McCarthy là công dân Mỹ, chúng ta vẫn chưa thể kết luận rằng hai lần xuất hiện của “John McCarthy” đề cập đến cùng một người • Các tài liệu khác nhau chứa nhiều kiểu thông tin đa dạng, dẫn đến việc phân tích

ngữ cảnh để xác định các thực thể được đề cập đến trong tài liệu trở nên khó khăn Ví dụ, Georgia (đề cập đến quốc gia Gruzia) trong một tài liệu có thể cùng xuất

Trang 19

hiện với Tbilisi, nhưng trong tài liệu khác có thể cùng xuất hiện với Zviad sakhurdia (tổng thống dân cử đầu tiên của Gruzia)

Gam-NED có thể được xem như là một trường hợp đặc biệt của bài toán Phân giải nhập

nhằng ngữ nghĩa từ vựng (Word Sense Disambiguation – WSD, Ide và Véronis, 1998;

Na-vigli, 2009) Mục tiêu của WSD là nhằm xác định nghĩa nào của một từ vựng được sử dụng trong một ngữ cảnh cụ thể, khi từ này có nhiều nghĩa khác nhau Các kỹ thuật phân giải nhập nhằng sử dụng các từ điển hoặc ontology (WordNet3 là một ví dụ) như là các kho ngữ nghĩa - định nghĩa các nghĩa có thể của mỗi từ Gần đây Mihalcea (2007) đã chứng tỏ rằng Wikipedia có thể được sử dụng như một nguồn tri thức thay thế cho các từ điển

Theo chúng tôi, đặc thù của NED so với WSD là:

• Thực thể có tên khác với các từ về bản chất và ý nghĩa Trong khi các thực thể có tên, nói một cách nôm na, là các cá thể cụ thể trong thế giới thực, các từ diễn đạt các khái niệm tổng quát như kiểu, thuộc tính, quan hệ Xử lý các từ do đó chỉ yêu cầu ngữ nghĩa từ vựng thông thường, trong khi đó, xử lý các thực thể có tên đòi hỏi tri thức về một lĩnh vực cụ thể

• Việc phân giải nhập nhằng ngữ nghĩa của một từ có thể dựa trên ngữ cảnh cục bộ của từ đó, bao gồm các từ đồng xuất hiện xung quanh nó trong một cửa sổ hẹp(thường là ba đến năm từ đứng trước và ba đến năm từ đứng sau nó) Trong khi đó, mỗi thực thể có tên đều có các thuộc tính riêng biệt và các mối quan hệ, được phát biểu tường minh hoặc không tường minh, với các thực thể khác đồng xuất hiện trong cùng văn bản Các tính chất của một thực thể có thể xuất hiện ở một vị trí bất kỳ trong văn bản, do đó, để phân giải nhập nhằng thực thể có tên trong các văn bản phi cấu trúc hoặc bán cấu trúc cần phải phân tích ngữ cảnh ở một bình diện rộng hơn

• Các phương pháp đề xuất cho WSD chủ yếu tập trung phân giải nhập nhằng ngữ nghĩa của các từ vựng thông thường (danh từ chung, động từ, tính từ), bỏ qua các danh từ riêng (hay tên riêng) Trong khi chỉ tồn tại một số lượng nhỏ các nghĩa có

3 http://wordnet.princeton.edu/ (Miller, 1995)

Trang 20

thể của một từ vựng thông thường, thực tế lại cho thấy rằng có thể có hàng trăm thực thể trùng tên Ví dụ, theo Guha và Garg (2004), từ dữ liệu của cục dân số Mỹ, có 90.000 tên được dùng để đặt tên cho 100 triệu người khác nhau

Quay lại với hướng nghiên cứu thứ nhất đối với NED tức là phân biệt các thực thể có tên Công trình đầu tiên theo hướng này là của Bagga và Baldwin (1998b) Từ đó cho đến nay, đã có nhiều nghiên cứu theo hướng này như Mann và Yarowsky (2003), Gooi và Al-lan (2004), Malin (2005), Pedersen và CS (2005), Chen và Martin (2007), Mayfield và CS (2009), Sarmento và CS (2009) WebPS cũng thu hút sự quan tâm nghiên cứu rộng rãi và đã có hai hội thảo được tổ chức vào các năm 2007 và 2009 là SemEval-2007 (Artiles và CS, 2007) và WebPS-2009 (Artiles và CS, 2009) Nhìn chung, một phương pháp phân giải

nhập nhằng theo hướng này có ba bước cơ bản như sau: (i) rút trích các đặc trưng (feature)

để tạo các hồ sơ về các thực thể được đề cập đến trong các văn bản; (ii) tính toán độ tương

tự giữa các hồ sơ sử dụng một số độ đo tương tự, như cosine, sự phân kỳ Kullback-Leibler

(Kullback-Leibler Divergence); và (iii) áp dụng các giải thuật gom cụm để gom các tên xuất hiện trong các tài liệu thành các nhóm khác nhau, mỗi nhóm bao gồm các tên cùng đề cập đến một thực thể Một vấn đề quan trọng mà các phương pháp này cần phải giải quyết

là thiết lập các điều kiện dừng (Pedersen và Kulkarni, 2006) cho các giải thuật gom cụm

Bởi vì tổng số cụm là không biết trước, nên các điều kiện dừng là rất cần thiết để bảo đảm các giải thuật gom cụm dừng với số cụm hợp lý nhất

Luận án này theo đuổi các phương pháp phân giải nhập nhằng thực thể có tên theo hướng nghiên cứu thứ hai Xuyên suốt phần còn lại của luận án, khi đề cập đến NED, chúng tôi ngầm định hướng nghiên cứu thứ hai đối với NED, còn khi đề cập đến hướng nghiên cứu thứ nhất chúng tôi sẽ nói rõ đó là bài toán phân biệt các thực thể có tên Đối với NED, mỗi tên xuất hiện trong một văn bản được ánh xạ vào một thực thể được mô tả trong một nguồn tri thức về các thực thể có tên, do đó các điều kiện dừng như vừa được đề cập ở đoạn trên là không cần thiết Khi một tên trong một văn bản cần được phân giải nhập

nhằng, các thực thể trong một cơ sở tri thức mà có tên trùng với nó được gọi là các thực

thể ứng viên (candidate entity), hay nói vắn tắt là các ứng viên

Các nghiên cứu về NED thời kì đầu tập trung chủ yếu vào phân giải nhập nhằng các vùng địa lý, và được biết đến rộng rãi với tên Toponym Resolution (TR) Mục tiêu của bài toán này là xác định liệu một tên trong một văn bản có phải là tên của một nơi chốn hay

Trang 21

không, sau đó ánh xạ tên này vào một tọa độ duy nhất trong một mô hình không gian (Leidner và CS, 2003) hoặc một định danh xác định duy nhất một vùng địa lý trong một cơ sở tri thức về các vùng địa lý (Overell, 2009) Các nghiên cứu về phân giải nhập nhằng các vùng địa lý bắt đầu từ những năm 90 của thế kỷ trước và phổ biến từ đầu thập niên này (Leidner và CS, 2003; Li và CS, 2003; Zong và CS, 2005; Overell và Rüger, 2006; Volz và CS, 2007; Andogah và CS, 2008; Buscaldi và Rosso, 2008; Overell và Rüger, 2008)

Các phương pháp phân giải nhập nhằng các vùng địa lý về cơ bản gồm có hai bước Bước thứ nhất là thực hiện xác định các tên trong một văn bản đề cập đến một vùng địa lý nào đó Ví dụ, xác định liệu “Paris” trong một văn bản đề cập đến một vùng địa lý (ví dụ như thủ đô nước Pháp) hay một con người (ví dụ như Paris Hilton), vì trong thực tế “Par-

thứ hai, sau khi đã xác định các tên nào trong văn bản đề cập đến các vùng địa lý, các phương pháp này thực hiện một bước xa hơn là ánh xạ các tên đã được xác định vào đúng thực thể trong một mô hình không gian hoặc một cơ sở tri thức về các vùng địa lý Ví dụ, sau khi xác định “Paris” đề cập đến một vùng địa lý, các phương pháp này thực hiện một bước xa hơn là quyết định ánh xạ “Paris” vào Paris thủ đô nước Pháp, hay thành phố Paris ở bang Texas, Mỹ, hoặc một vùng địa lý khác được mô tả trong Wikipedia Hai luận án tiến sĩ gần đây của Leidner (2007) và Overell (2009) đã khái quát đầy đủ các phương pháp phân giải nhập nhằng các vùng địa lý Trong đó, phần lớn các phương pháp sử dụng các heuristic

Một khảo sát đầy đủ về các phương pháp sử dụng heuristic đến đầu năm 2007 được trình bày trong Leidner (2007) Các phương pháp phân giải nhập nhằng sử dụng heuristic hiệu quả nhất khai thác ngữ cảnh gồm ±2 đến ±5 từ xung quanh các tên nhập nhằng Volz và CS (2007), Buscaldi và Rosso (2008) cũng đề xuất các heuristic để phân giải nhập nhằng Các heuristic áp dụng cho phân giải nhập nhằng các vùng địa lý sử dụng các đặc trưng mang tính đặc thù chỉ có đối với các vùng địa lý, do vậy khó điều chỉnh cho các thực thể thuộc thể loại khác, như con người hoặc các tổ chức Garbin và Mani (2005) đề xuất

mô hình học bán giám sát (semi-supervised learning) để phân giải nhập nhằng các vùng

địa lý Phương pháp này phân lớp các vùng địa lý trong văn bản vào ba lớp là vùng hành

4 Kiểm tra tại: http://en.wikipedia.org/wiki/Paris_(disambiguation)

Trang 22

chính/dân sự, thủ đô của các quốc gia, và khu dân cư Việc xác định đúng lớp trong nhiều trường hợp chắc chắn giúp xác định đúng thực thể Ví dụ như nếu biết rằng “Victoria” đề cập đến một thành phố hoặc một tiểu bang sẽ đủ để phân biệt giữa thủ phủ của tỉnh British Columbia của Canada, và tiểu bang Victoria của Australia Tuy nhiên điều này không phải luôn luôn đúng, như trong trường hợp “Paris”, “Paris” có thể là tên của một số thành phố thuộc các tiểu bang của Mỹ như thuộc các tiểu bang Idaho, Illinois, Kentucky, hoặc Maine Overell và Rüger (2008) khai thác Wikipedia để xây dựng mô hình đồng xuất hiện, phục

vụ như là một tập huấn luyện, sau đó triển khai một mô hình học có giám sát (supervised

learning) để thực hiện phân giải nhập nhằng Các tác giả khai thác ngữ cảnh bao gồm ±10 tên của các vùng địa lý xung quanh tên nhập nhằng đang được xem xét, không quan tâm đến các từ không là một phần của các tên này

SemTag (Dill và CS, 2003) thực hiện chú thích ngữ nghĩa về các thực thể có tên thuộc nhiều thể loại khác nhau cho 250 triệu trang web dựa trên ontology của TAP Để chú thích ngữ nghĩa chính xác, SemTag cũng bao hàm việc phân giải nhập nhằng các thực thể có tên Với mỗi tên cần phân giải nhập nhằng, SemTag trích ngữ cảnh gồm ±10 từ xung quanh nó, và so sánh với ngữ cảnh của các thực thể trong ontology của TAP để chọn thực thể phù hợp cho việc tạo chú thích ngữ nghĩa Tuy nhiên, bởi vì ưu tiên độ chính xác, SemTag chỉ tạo ra 450 triệu chú thích ngữ nghĩa, trung bình chưa đến 2 chú thích cho một trang web Do đó, tỉ lệ các chú thích tạo ra trên một tài liệu là không nhiều Hơn nữa, không có nhiều thực thể trong ontology của TAP có cùng tên (Kyriakov và CS, 2005), cho nên việc phân giải nhập nhằng của SemTag là khá đơn giản

Từ năm 2006 bắt đầu xuất hiện các nghiên cứu phân giải nhập nhằng các thực thể có tên, không chỉ tập trung vào các thực thể là các nơi chốn, với mật độ chú thích ngữ nghĩa cao hơn SemTag (Hassell và CS, 2006; Bunescu và Paşca, 2006; Cucerzan, 2007; Fernan-dez và CS, 2007; Mihalcea và Csomai, 2007; Medelyan và CS, 2008; Milne và Witten, 2008; Fader và CS, 2009; Kulkarni và CS, 2009) Hassell và CS (2006) đề xuất phương pháp nhận biết chính xác các ủy viên hội đồng phản biện trên các trang web hội nghị khoa học Phương pháp của Fernandez và CS (2007) nhận biết các thực thể có tên trên các văn bản trong lĩnh vực tin tức Phương pháp này là bán tự động, bởi vì kết quả phân giải nhập nhằng sẽ được hiển thị cho người sử dụng điều chỉnh kết quả nếu cần và cập nhật kết quả đã được điều chỉnh vào một cơ sở dữ liệu suy diễn phục vụ như là một tập huấn luyện

Trang 23

Nổi lên gần đây như là một từ điển bách khoa trực tuyến lớn nhất và được sử dụng rộng rãi nhất trên Internet, Wikipedia được khai thác để giải quyết nhiều bài toán trong mảng xử lý ngôn ngữ tự nhiên và xây dựng các ontology (Medelyan và CS, 2009) Chúng tôi sẽ trình bày chi tiết Wikipedia trong Chương 2, tuy nhiên ở đây chúng tôi khái quát vài nguồn thông tin quan trọng trên đó mà một số phương pháp phân giải nhập nhằng đã khai thác Wikipedia là từ điển bách khoa trực tuyến nội dung mở, được đóng góp bởi hàng

trăm nghìn tình nguyện viên Thành phần cơ bản của Wikipedia là các trang (page hay ticle) Có nhiều loại trang trên Wikipedia như trang thực thể (entity page), trang đổi hướng (redirect page), trang phân giải nhập nhằng (disambiguation page), trang thể loại (catego-

ar-ry page)

Mỗi trang thực thể định nghĩa duy nhất một thực thể hoặc một khái niệm, và được xác

định duy nhất bởi nhan đề (title) của nó Mỗi trang thực thể thuộc một hoặc nhiều thể loại, và có các trang đổi hướng tương ứng Mỗi trang thực thể cũng có nhiều liên kết vào (in-coming link) và nhiều liên kết ra (outgoing link) Các trang thể loại được tạo cho các thể

loại trong hệ thống phân loại của Wikipedia Mỗi trang đổi hướng chỉ chứa duy nhất một liên kết đến trang thực thể tương ứng và nhan đề của nó chứa một tên khác của thực thể này Mỗi liên kết ra trỏ đến một trang khác trong Wikipedia, và nhãn của liên kết chính là nhan đề của trang đó Một số nghiên cứu xem các liên kết ra như các nhãn ngữ nghĩa, và xem tập các trang thực thể trong Wikipedia như là một tập huấn luyện, với mỗi trang thực thể là một tài liệu đã được gán nhãn (Mihalcea và Csomai, 2007; Milne và Witten, 2008) Trang phân giải nhập nhằng được tạo cho các tên nhập nhằng trong Wikipedia Từ các trang này chúng ta có thể xác định các thực thể có cùng tên trong Wikipedia

Từ năm 2006, Wikipedia đã được khai thác để phân giải nhập nhằng các thực thể có tên Bunescu và Paşca (2006) khai thác các nguồn thông tin nêu trên của Wikipedia để phân giải nhập nhằng Các véctơ đặc trưng của các thực thể trong Wikipedia được xây

dựng sử dụng các từ xuất hiện trong cửa sổ gồm 55 từ xung quanh mỗi tên thực thể Cosine

được sử dụng để tính toán độ tương tự và phân hạng các ứng viên Nhiều trường hợp sine có giá trị quá thấp, nên ngữ cảnh được mở rộng bao gồm các từ xuất hiện trong nhãn thể loại của các thực thể nhằm khai thác mối tương quan giữa các từ trong văn bản và các nhãn thể loại (ví dụ: “concert” có tương quan với nhãn của thể loại “Musicians” mạnh hơn

co-so với nhãn của thể loại “Professional Wrestlers”), sử dụng mô hình máy véctơ hỗ trợ

(Su-port Vector Machine - SVM) Cucerzan (2007) cũng khai thác các nguồn thông tin nêu trên

Trang 24

của Wikipedia như Bunescu và Paşca (2006) Thay vì phân giải nhập nhằng từng tên trong văn bản, phương pháp của Cucerzan phân giải nhập nhằng cho tất cả các tên cùng lúc, dẫn

đến bài toán tối ưu cùng lúc các ánh xạ, là một bài toán NP-khó (NP-hard)(Kulkarni và CS,

2009; Pilz và CS, 2009)

Milhacea (2007) đã chứng tỏ rằng Wikipedia có thể được sử dụng như là một kho ngữ nghĩa cho việc phân giải nhập nhằng ngữ nghĩa từ vựng hiệu quả Mihalcea và Csomai (2007) đã hiện thực và đánh giá hai giải thuật phân giải nhập nhằng từ vựng khác nhau nhằm ánh xạ các từ khóa, bao gồm cả tên riêng, xuất hiện trong văn bản vào đúng các thực thể hoặc các khái niệm trong Wikipedia Các tác giả cho thấy mô hình học có giám sát, trong đó các trang trong Wikipedia mà các từ khóa xuất hiện trong đó đã được gán nhãn, được sử dụng như là tập huấn luyện, cho hiệu quả tốt nhất Medelyan và CS (2008) phát triển phương pháp phân giải nhập nhằng các từ khóa dựa trên mô hình của Mihalcea và Csomai, trong đó xác suất tiên nghiệm của các khái niệm trong Wikipedia và các từ khóa đã được phân giải nhập nhằng được khai thác để phân giải nhập nhằng Với mỗi ứng viên, số lượng trùng lắp giữa nhãn các liên kết ra của nó, và các từ khóa đã được xác định trong văn bản sẽ được tính toán, sau đó nhân với xác suất tiên nghiệm của ứng viên Ứng viên có

tích số lớn nhất sẽ được chọn Xác suất tiên nghiệm phản ánh mức độ phổ biến (thông qua

tần suất xuất hiện) của một khái niệm trong tập huấn luyện, được tính toán thông qua tổng số liên kết vào của chính khái niệm đó trên tổng số liên kết vào của tất cả các ứng viên

Milne và Witten (2008) mở rộng nghiên cứu của Mihalcea và Csomai (2007) và

Me-delyan và CS (2008) bằng cách khai thác mối quan hệ ngữ nghĩa (semantic relatedness),

được tính toán dựa trên các liên kết vào, của một từ khóa với các từ khóa đã được xác định

xuất hiện xung quanh nó Ngoài ra, các tác giả cũng khai thác mức độ phổ biến như trong

Medelyan và CS (2008) Kulkarni và CS (2009) đề xuất phương pháp tương tự như Milne và Witten (2008) với sự khác biệt là các tác giả tối ưu đồng thời các ánh xạ và giải bài toán NP-khó bằng hai phương pháp tối ưu là qui hoạch nguyên và chiến lược leo đồi Phương pháp của Fader và CS (2009) lấy ý tưởng từ Bunescu và Paşca (2006), Cucerzan (2007) và Medelyan và CS (2008)

Hình 1.1 trình bày một mô hình phân giải nhập nhằng phổ quát cho nhiều phương

pháp phân giải nhập nhằng Trong đó phần nhận dạng thực thể có tên có thể chỉ dừng lại ở

việc xác định các cụm từ đề cập đến các thực thể trong một ontology, hoặc có phân lớp các thực thể vào các lớp ở mức cao như con người, tổ chức, nơi chốn, hoặc phân lớp các thực

Trang 25

thể vào các lớp mịn hơn dựa trên hệ thống phân cấp các lớp của một ontology Phần tiền

xử lý của nhận dạng thực thể có tên không được thể hiện trong mô hình Mô hình cho thấy Nhận dạng thực thể có tên và Phân giải đồng tham chiếu tên riêng là phần tiền xử lý của

Phân giải nhập nhằng thực thể có tên

Hình 1.1: Một mô hình phân giải nhập nhằng phổ biến

Nhìn chung, NED mới nổi lên khoảng một thập niên trở lại đây như là một vấn đề đầy thách thức và có nhiều ý nghĩa trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ứng dụng web có ngữ nghĩa Để có thể đánh giá và so sánh các phương pháp phân giải nhập nhằng khác nhau, cần có một nền chung Cụ thể là phần tiền xử lý, nguồn tri thức được sử dụng, và tập dữ liệu dùng cho các thí nghiệm phải giống nhau Tuy nhiên, hiện nay chưa có một tập dữ liệu thí nghiệm chung có thể chia sẻ được, và các phương pháp đã công bố đều triển khai các mô hình tiền xử lý khác nhau Do vậy, các công trình nghiên cứu cho đến thời điểm hiện tại đều tạo các tập dữ liệu thí nghiệm riêng và việc so sánh trực tiếp các phương pháp là khó thực hiện (Kulkarni và CS, 2009)

Chúng tôi bắt đầu công việc nghiên cứu về NED từ giữa năm 2006, và đến cuối năm 2006 đã đề xuất ý tưởng khai thác mối quan hệ ngữ nghĩa của các ứng viên với các thực thể đã được xác định trong tài liệu để phân giải nhập nhằng các thực thể có tên dựa trên một ontology (Nguyen và Cao, 2007a) Ý tưởng này tiếp tục được phát triển trong Nguyen

Nguồn tri thức về các thực thể có tên (ontology

hoặc cơ sở tri thức)

Phân giải nhập nhằng thực thể có tên Tài liệu thô

Nhận dạng thực thể có tên

Phân giải đồng tham chiếu tên riêng

Tiền xử lý Phân giải nhập nhằng

Tài liệu với các tên (thực thể) đã được

chú giải

Luồng xử lý

Nguồn tri thức cung cấp thông tin cho các môđun xử lý Các ánh xạ đến các thực thể trong nguồn tri thức

Trang 26

và Cao (2007b) và Nguyễn Thanh Hiên và Cao Hoàng Trụ (2008) Đến giữa năm 2008, Medelyan và CS (2008) phát triển ý tưởng tương tự, tức là cũng khai thác các thực thể đã được xác định, áp dụng để phân giải nhập nhằng các từ khóa (bao gồm tên riêng) xuất hiện trong các văn bản sử dụng Wikipedia Milne và Witten (2008) tiếp tục hoàn thiện công trình của Medelyan và CS (2008) bằng cách cải thiện công thức phân hạng các ứng viên, và phân giải nhập nhằng sử dụng một mô hình học có giám sát Kulkarni và CS (2009) cải tiến công việc của Milne và Witten (2008) ở chỗ giải quyết bài toán tối ưu đồng thời các ánh xạ bằng cách giải quyết bài toán NP-khó lần lượt bằng hai phương pháp tối ưu là qui hoạch nguyên và chiến lược leo đồi

Tương tự như chúng tôi, Medelyan và CS (2008) xem các thực thể đã được xác định như là một tập các hạt giống, nhưng có sự khác biệt là tập các hạt giống của chúng tôi thay đổi tăng dần về số lượng theo diễn tiến của quá trình phân giải nhập nhằng, trong khi đó tập các hạt giống trong các công trình vừa nêu ở trên thì cố định trong quá trình phân giải nhập nhằng Nói một cách khác, chúng tôi thực hiện phân giải nhập nhằng bằng một quá

trình lặp cải thiện dần (incremental), khởi đầu với một tập các hạt giống Khi một tên cần

được phân giải nhập nhằng, các hạt giống sẽ được khai thác để xác định đúng thực thể mà tên đó đề cập đến Chính thực thể sau khi đã được xác định sẽ được bổ sung vào tập các hạt giống để phân giải nhập nhằng cho các trường hợp còn lại Cứ thế, quá trình phân giải nhập nhằng lặp đi lặp lại cho đến khi nào tất cả các thực thể được đề cập đến trong một văn bản được xác định hoặc khi số thực thể được xác định sau mỗi lần lặp không thay đổi so với lần lặp trước Trong quá trình phân giải nhập nhằng đó, một hạt giống nào đó có thể bị thay thế bằng một đối tượng mới

Như vậy, với việc đề xuất ý tưởng phân giải nhập nhằng theo một quá trình lặp cải thiện dần, chúng tôi đã xác lập được một hướng đi riêng kể từ đầu năm 2007 (Nguyen và Cao, 2007a) Ý tưởng này tiếp tục được phát triển trong các phương pháp phân giải nhập nhằng dựa trên thống kê (Nguyen và Cao, 2010a, 2010b), và phương pháp lai – kết hợp giữa một mô hình thống kê và các heuristic (Nguyen và Cao, 2008b) Chúng tôi sẽ trình bày chi tiết các phương pháp phân giải nhập nhằng được đề xuất trong luận án này lần lượt trong Chương 3, Chương 4, và Chương 5

Trang 27

1.2 Bài toán và phạm vi

Luận án này giải quyết bài toán phân giải nhập nhằng thực thể có tên bằng cách ánh xạ các tên xuất hiện trong các văn bản vào đúng các thực thể đã biết, ví dụ như các thực thể trong một ontology hoặc một cơ sở tri thức, mà các tên đó thật sự đề cập đến Ví dụ, cho đoạn

văn bản “the computer scientist John McCarthy coined the term artificial intelligence in

the late 1950's”, ánh xạ đúng là “John McCarthy” với thực thể John McCarthy

(computer scientist) trong Wikipedia

Hình 1.2 minh họa các ánh xạ từ mỗi tên xuất hiện trong một đoạn văn bản vào đúng thực thể mà nó đề cập; trong đó các tên được gạch dưới

Văn bản

Cơ sở tri thức

Thế giới thực

Hình 1.2: Một ví dụ của phân giải nhập nhằng thực thể có tên

Brazilian legend Pele has made comments that are sure to generate massive controversy in the footballing world, after he indicated that Ronaldo and Robinho took drugs at a private event in Sao Paulo with businessmen in the tourist sector (goal.com)

• Ronaldinho

• Cristiano Ronaldo • Pele

• Sao Paulo

Trang 28

Wacholder và CS (1997) đã chỉ ra một số mức độ nhập nhằng về thực thể có tên Thứ nhất là nhập nhằng giữa thực thể có tên và các khái niệm chung, khi tên của một thực thể

có tên trùng với một khái niệm chung Ví dụ như “Apple” là tên của một tổ chức, khác với “apple” (trong tiếng Anh) có nghĩa là quả táo Mức độ nhập nhằng thứ hai xảy ra khi cấu

trúc của các tên là nhập nhằng, và được gọi là nhập nhằng về cấu trúc Ví dụ, “Victoria and Albert Museum” trong một ngữ cảnh là tên của một bảo tàng, trong đó and là một phần của tên này Tuy nhiên, cũng cùng cấu trúc như vậy, and trong cụm từ “IBM and Bell

Laboratories” trong một văn bản tiếng Anh là liên từ nối tên của hai công ty khác nhau

Mức độ nhập nhằng tiếp theo là nhập nhằng về lớp thực thể, khi một tên có thể dùng để đề

cập đến các thực thể thuộc các lớp khác nhau trong các ngữ cảnh khác nhau Ví dụ, “Tôn Đức Thắng” trong một ngữ cảnh có thể đề cập đến một con người, chẳng hạn như đề cập đến Bác Tôn, nhưng trong ngữ cảnh khác có thể đề cập đến một trường đại học (là một tổ

chức), chẳng hạn như đề cập đến Trường Đại học Tôn Đức Thắng Cuối cùng là nhập

nhằng về đối tượng được tham chiếu, xảy ra khi một tên trong thực tế được dùng để đề cập

đến các thực thể khác nhau Ví dụ, “Paris” có thể dùng đề cập đến thủ đô của nước Pháp, một thành phố ở tiểu bang Texas của Mỹ hoặc cô đào Paris Hilton nổi tiếng

Luận án này đề xuất các phương pháp phân giải nhập nhằng mức độ lớp và đối tượng được tham chiếu Việc giải quyết các mức độ nhập nhằng còn lại nằm ngoài phạm vi của luận án Chúng tôi không đề xuất giải pháp cho phần tiền xử lý (Nhận dạng thực thể có tên và Phân giải đồng tham chiếu tên riêng), mà sử dụng lại các phương pháp đã có Phương pháp phân giải nhập nhằng của chúng tôi không khai thác các yếu tố mang tính đặc thù của ngôn ngữ Do đó, khi xử lý cho tiếng Anh, chúng tôi dùng các phần tiền xử lý áp dụng cho tiếng Anh, và khi xử lý cho tiếng Việt, các phần tiền xử lý áp dụng cho tiếng Việt sẽ được áp dụng Như vậy, đầu vào cho phương pháp của chúng tôi là phụ thuộc ngôn ngữ, nhưng quá trình phân giải nhập nhằng thì không phụ thuộc ngôn ngữ Do vậy, phương pháp phân giải nhập nhằng của chúng tôi có thể điều chỉnh cho một ngôn ngữ bất kì Khi áp dụng phương pháp của chúng tôi cho ngôn ngữ nào, thì phần tiền xử lý cho ngôn ngữ đó sẽ được triển khai Phương pháp phân giải nhập nhằng của chúng tôi chấp nhận nhiễu ở đầu vào – lỗi do phần tiền xử lý tạo ra Luận án nghiên cứu phân giải nhập nhằng các thực thể có tên trong các văn bản phi cấu trúc, tập trung vào các văn bản thuộc lĩnh vực tin tức Các tập dữ liệu thí nghiệm được thu thập từ các tờ báo điện tử trực tuyến

Trang 29

1.3 Phương pháp luận đề xuất

Luận án này đề xuất một phương pháp luận mới áp dụng cho phân giải nhập nhằng thực thể có tên Ý tưởng chủ đạo của phương pháp luận này là dựa vào định danh của các thực thể đã được xác định để phân giải nhập nhằng cho các trường hợp còn lại bằng một quá

trình lặp cải thiện dần Dựa trên phương pháp luận đó, chúng tôi đề xuất ba phương pháp

phân giải nhập nhằng thực thể có tên Phương pháp thứ nhất, đặt tên là OntoNEON, sử dụng một số heuristic, khai thác mối quan hệ ngữ nghĩa giữa các ứng viên với các thực thể đã được xác định trong văn bản, để phân giải nhập nhằng dựa trên một ontology Phương pháp thứ hai, đặt tên là NOW, sử dụng phương pháp thống kê để phân giải nhập nhằng dựa trên một ontology được làm giàu Phương pháp thứ ba, đặt tên là WIN, là một phương

pháp lai (hybrid), kết hợp việc sử dụng các heuristic với một mô hình thống kê để phân

giải nhập nhằng dựa trên Wikipedia

Trong phần này chúng tôi lần lượt trình bày mô hình phân giải nhập nhằng lặp cải thiện dần, các nguồn tri thức về thực thể, và các đặc trưng để biểu diễn thực thể mà luận án đề xuất

Mô hình phân giải nhập nhằng

Ý tưởng chung của các phương pháp được đề xuất trong luận án này là tiến hành phân giải nhập nhằng theo một quá trình lặp cải thiện dần, dựa trên phương pháp luận đã nêu ở trên Quá trình đó bao gồm nhiều vòng lặp, các thực thể sau khi được xác định tại mỗi vòng lặp sẽ được sử dụng cho việc phân giải nhập nhằng ở các vòng lặp tiếp theo Tức là việc phân giải nhập nhằng cho mỗi trường hợp sẽ dựa vào định danh của các thực thể đã được xác định trước đó Mỗi thực thể sau khi được xác định, đến lượt mình, định danh của nó, cùng với định danh của các thực thể đã được xác định trước nó, sẽ được dùng để phân giải nhập nhằng cho những trường hợp còn lại Quá trình này sẽ diễn tiến cho đến khi nào xác định được định danh của tất cả các thực thể được đề cập đến trong văn bản hoặc khi giữa hai vòng lặp không có thêm bất kì thực thể nào được xác định

Với các ngôn ngữ, thứ tự đọc phổ biến nhất là từ trái sang phải và từ trên xuống dưới, như với tiếng Anh và tiếng Việt Do đó, một cách mặc định, các phương pháp của chúng tôi thực hiện phân giải nhập nhằng cho các thực thể theo thứ tự này; ngoại trừ trường hợp các tên xuất hiện trong phần tiêu đề của văn bản, bởi vì các tên này thường không phải là

Trang 30

tên thường dùng của thực thể được đề cập, nên được phân giải nhập nhằng sau các tên khác Nếu một ngôn ngữ nào có thứ tự đọc khác, thì thứ tự phân giải sẽ được điều chỉnh cho phù hợp.

Giải thuật 1.1 trình bày ý tưởng phân giải nhập nhằng lặp cải thiện dần Đầu vào của giải thuật được cung cấp từ phần tiền xử lý – mô tả trong Hình 1.1; bao gồm danh sách các tên và thông tin bổ trợ về tên trích rút từ văn bản (các từ xuất hiện xung quanh các tên và mối quan hệ đồng tham chiếu giữa chúng), và nguồn tri thức được sử dụng Đầu ra là ánh xạ các tên vào các thực thể trong nguồn tri thức đó Trong phần thân của giải thuật, đầu tiên là xây dựng tập các “hạt giống”, sau đó mới tiến hành phân giải Mỗi hạt giống là một

sự kết hợp giữa một tên n trong văn bản và một thực thể e trong nguồn tri thức một khi n đã được ánh xạ vào e; khi đó, thực thể mà n tham chiếu đến đã được xác định, không còn

nhập nhằng nữa Tập các hạt giống có thể là tập rỗng hoặc là tập các kết hợp giữa một số tên trong văn bản với các ứng viên duy nhất của chúng Tùy theo phương pháp phân giải nhập nhằng được đề xuất trong luận án mà tập các hạt giống được thiết lập phù hợp Vòng lặp ở dòng 3 kết thúc khi tất cả các tên trong văn bản đã được thiết lập các ánh xạ tương ứng hoặc giữa hai vòng lặp không có bất kì thực thể nào mới được xác định so với vòng lặp trước

Tại Dòng 6, Γ cho mỗi tên là tập các thực thể trong cơ sở tri thức có tên trùng hoàn

hiện ánh xạ, trong đó score[i] là số điểm của ứng viên i Việc cho điểm các ứng viên phụ

thuộc vào mô hình phân hạng các ứng viên được triển khai, trong đó các thực thể đã được xác định sẽ được khai thác Trong luận án, chúng tôi đề xuất hai mô hình phân hạng các ứng viên; một mô hình phân hạng các ứng viên dựa vào mối quan hệ ngữ nghĩa của mỗi ứng viên với các thực thể đã được xác định xung quanh, và một mô hình phân hạng các ứng viên dựa trên thống kê Chi tiết về các mô hình phân hạng ứng viên sẽ được trình bày trong Chương 3 và Chương 4

Dòng 10 cho thấy các thực thể sau khi được xác định sẽ được bổ sung vào tập các hạt

giống Hàm revised thực thi tại dòng 10 sẽ thực hiện điều chỉnh tập E dựa vào mối quan hệ

đồng tham chiếu của tên đang xét với các tên khác trong cùng văn bản Ví dụ, giả sử “George Bush” và “Bush” cùng xuất hiện trong một văn bản và là đồng tham chiếu, “George Bush” là tên đang được xem xét để phân giải nhập nhằng, “Bush” trước đó đã

được ánh xạ vào một thực thể A nào đó Nếu sau khi phân giải nhập nhằng “George Bush”

Trang 31

được ánh xạ vào một thực thể B, thì dựa vào mối quan hệ đồng tham chiếu giữa “George Bush” và “Bush”, ánh xạ “Bush” vào A sẽ được điều chỉnh thành “Bush” ánh xạ vào B

Giải thuật 1.1: Phân giải nhập nhằng lặp cải thiện dần

Đầu vào: Tập các tên , các thông tin bổ trợ về các tên trong văn bản (các từ xung quanh, quan hệ đồng tham chiếu), và nguồn tri thức được sử dụng

Đầu ra: Ánh xạ các tên vào các thực thể trong nguồn tri thức

maxarg

Trang 32

Nguồn tri thức

Mục tiêu của các phương pháp được đề xuất trong luận án là ánh xạ các tên trong văn bản vào đúng thực thể trong một nguồn tri thức mà các tên đó đề cập đến Do vậy, việc khảo sát các nguồn tri thức khác nhau, chọn lựa nguồn tri thức phù hợp, và đề xuất cách thức khai thác chúng nhằm phục vụ công việc phân giải nhập nhằng là thật sự cần thiết Hiện nay, có nhiều nguồn tri thức sẵn có trên Internet để khai thác cho việc phân giải nhập nhằng, như Cyc (Lenat, 1995) hoặc Wikipedia Các nguồn tri thức đó có thể chia thành ba nhóm Nhóm thứ nhất là các nguồn tri thức được xây dựng thủ công bởi một nhóm nhỏ các chuyên gia, như WordNet hoặc ontology của KIM (Kiryakov và CS, 2005) Nội dung thông tin trong các nguồn tri thức này được đầu tư bài bản và kiểm duyệt kỹ lưỡng, do đó có độ tin cậy cao Các nguồn tri thức đó mặc dù tốn nhiều thời gian và công sức để xây dựng, nhưng giới hạn về kích thước và mức độ bao phủ các chủ đề thông tin Tần suất cập nhật thông tin trong các nguồn tri thức nhóm thứ nhất cũng không cao Lấy một ví dụ về Cyc ontology, theo Matuszek và CS (2006), sau 22 năm xây dựng, Cyc ontology chỉ chứa

được xây dựng tự động, ví dụ như YAGO (Suchanek và CS, 2007), DBpedia (Auer và CS, 2007) Các nguồn tri thức được phát triển tự động không tốn nhiều công sức, tuy nhiên thông tin được sinh tự động như thế có độ tin cậy không sánh bằng với những thông tin được tạo bởi các chuyên gia Nhóm thứ ba là các nguồn tri thức nội dung mở, mọi người đều có thể tham gia đóng góp nội dung thông tin Điển hình của nhóm này là từ điển bách khoa nội dung mở Wikipedia, từ điển được sử dụng rộng rãi nhất hiện nay trên Internet

Các ontology cũng được chia thành ba nhóm (Syed và CS, 2008) Nhóm thứ nhất bao

gồm các ontology “đóng và cứng” với một bộ từ vựng được kiểm soát (controlled

vocabu-lary), được xây dựng bài bản bởi các chuyên gia, và thông tin trong đó được kiểm duyệt kỹ lưỡng với độ tin cậy cao, như ontology của KIM (Kiryakov và CS, 2005) Bộ từ vựng đó được sử dụng để đề cập đến các khái niệm có quan hệ thứ bậc dựa trên các ràng buộc chặt chẽ Nhóm thứ hai bao gồm các ontology “mở” với bộ từ vựng được phát triển tự do,

không tuân thủ một thể thức cụ thể nào, ngoại trừ các thoả thuận mang tính cộng đồng

(nếu có) xuất phát từ người dùng Các ontology mở như thế có hệ thống các khái niệm

5 Matuszek và CS gọi chung bằng thuật ngữ term

Trang 33

phẳng (không có thứ bậc), được xây dựng dựa trên sự cộng tác bởi cộng đồng đông đảo các tình nguyện viên, cũng chính là cộng đồng người sử dụng Nhóm thứ ba bao gồm các ontology “mở” có những tính chất pha trộn giữa nhóm thứ nhất và nhóm thứ hai Điển hình cho nhóm này là từ điển bách khoa Wikipedia Hệ thống phân loại của Wikipedia vừa có thứ bậc, vừa là hệ thống mở, được xây dựng và phát triển bởi cộng đồng đông đảo các tình nguyện viên Luận án này khai thác các ontology đóng và Wikipedia như là các nguồn tri thức để phân giải nhập nhằng các thực thể có tên

Wikipedia là kho tri thức đa ngôn ngữ lớn nhất hiện nay và đang lớn mạnh về cả số lượng lẫn chất lượng Nội dung của Wikipedia được tạo ra bởi hàng trăm nghìn tình nguyện viên Tính đến 31 tháng 10 năm 2009, Wikipedia có hơn 14,4 triệu mục tin cho 269 ngôn ngữ khác nhau (Wikimedia, 2009); và mỗi mục tin chứa thông tin mô tả về một thực thể hoặc một khái niệm Theo Angwin và Fowler (2009), trang Wikipedia.org là trang web phổ biến đứng thứ 5 trên thế giới, với hơn 325 triệu lượt truy cập hàng tháng Các số liệu vừa nêu cho thấy Wikipedia là từ điển bách khoa lớn nhất và được truy cập rộng rãi nhất hiện nay

Mặc dù được xây dựng từ cộng đồng đông đảo các tình nguyện viên, nội dụng trên Wikipedia lại có chất lượng và độ tin cậy cao Một nghiên cứu của Giles (2005) chứng minh rằng các bài viết về khoa học trên Wikipedia đạt gần tới mức chính xác như các bài viết với mục đích tương tự trên từ điển bách khoa toàn thư Britannica6 - bộ bách khoa toàn thư tiếng Anh lâu đời nhất và được nhiều người cho là có uy tín nhất Kết quả nghiên cứu cho thấy, tính bình quân, mỗi bài viết trên Wikipedia có 3,86 lỗi (162 lỗi trên 42 bài viết), so với mức 2,92 lỗi (123 lỗi trong 42 bài viết) trong mỗi bài viết trên Britannica Chính vì đạt được độ tin cậy khá cao như vậy cho nên có rất nhiều nghiên cứu khai thác Wikipedia để phát triển các ứng dụng trong các mảng truy hồi thông tin, rút trích thông tin, xây dựng ontology, phân loại văn bản, và xử lý ngôn ngữ tự nhiên nói chung Một khảo sát của Me-delyan và CS (2009) minh chứng điều đó Hơn nữa, Wikipedia không chỉ được sử dụng rộng rãi như một từ điển mà còn được khai thác như một cơ sở tri thức trong nhiều công trình nghiên cứu về các hệ thống trí tuệ nhân tạo và thông tin thông minh7

6 http://www.britannica.com/

7 Tham khảo tại: http://en.wikipedia.org/wiki/Wikipedia:Wikipedia_in_academic_studies

Trang 34

Đặc trưng

Để đạt được hiệu quả cao trong việc ánh xạ các tên trong một văn bản vào đúng thực thể mà nó đề cập, một vấn đề quan trọng được đặt ra là ngữ cảnh của văn bản được khai thác như thế nào và các đặc trưng nào được rút trích để biểu diễn các thực thể được đề cập đến trong văn bản, cũng như các thực thể trong nguồn tri thức được sử dụng Luận án này

chủ trương khai thác các đặc trưng diễn đạt các tính chất (property) của các thực thể Tính

chất của các thực thể được thể hiện qua các thuộc tính (ví dụ: họ tên, ngày sinh, nghề

nghiệp, sở thích, ) và mối quan hệ của chúng (ví dụ: Hillary Rodham Clinton là_vợ_của Bill Clinton, Việt Nam có_thủ_đô_là Hà Nội, Texas là_tiểu_bang_của Mỹ, )

Chúng tôi tập trung vào các văn bản trong lĩnh vực tin tức, ở đó NE xuất hiện rộng khắp và đóng một vai trò quan trọng trong việc hiểu ngữ nghĩa của văn bản Trong lĩnh vực này, các văn bản thường được tổ chức theo cấu trúc kim tự tháp và bao gồm ba phần

chính đó là phần tiêu đề (headline), phần đầu (the lead) và phần thân (body) Theo đó, tầm

quan trọng của thông tin sẽ giảm dần khi văn bản được phát triển theo chiều từ trên xuống Thông thường các phần văn bản trong một bản tin sẽ cố gắng trả lời hầu hết các câu hỏi

tiêu đề cho biết văn bản đề cập đến vấn đề gì Tiêu đề nằm ở trên cùng của văn bản, thu hút sự quan tâm của người đọc và liên quan chặt chẽ với chủ đề của bản tin tương ứng Phần đầu là phần tóm tắt và thường là câu đầu tiên của văn bản Sau khi đọc phần đầu, người đọc nhiều khả năng sẽ nắm bắt được nội dung chính yếu của bản tin Phần thân triển khai chi tiết nội dung bản tin

Trong các văn bản, các thực thể đồng xuất hiện thường có mối liên hệ với nhau Mối liên hệ đó có thể được phát biểu tường minh hoặc không tường minh trong văn bản Hơn nữa, định danh của một thực thể có thể được xác định nhờ vào các thực thể bên cạnh và các thực thể đã được xác định trước đó Ví dụ, khi “Atlanta” xuất hiện bên cạnh “Georgia”, “Georgia” nhiều khả năng là đề cập đến tiểu bang Georgia của Mỹ hơn là đề cập đến quốc

gia Gruzia Trong khi đó nếu “Georgia” xuất hiện cùng với “Tbilisi”, như trong“TBILISI

(CNN) Most Russian troops have withdrawn from eastern and western Georgia”, thì

chính “Tbilisi” giúp xác định “Georgia” đề cập đến quốc gia nằm kế nước Nga Trực quan

8 http://en.wikipedia.org/wiki/Article_(publishing)

Trang 35

cũng cho thấy rằng, các từ xuất hiện xung quanh các tên thực thể nhiều khả năng sẽ diễn đạt các thuộc tính của các thực thể mà chúng đề cập đến Nếu định vị và rút trích được các từ này, tên nhập nhằng nhiều khả năng sẽ được phân giải chính xác Ví dụ, trong đoạn văn

bản “John McCarthy, 'great man' of computer science, wins major award”, cụm từ

“com-puter science” giúp phân biệt John McCarthy được đề cập là giáo sư làm việc tại Stanford

University thay vì trọng tài John McCarthy (làm việc tại Ultimate Fighting Championship,

Mỹ), hoặc nhà âm vị học người Mỹ (giáo sư ngôn ngữ học làm việc tại Đại học

Massachu-setts, Amherst)

Khi phân tích các văn bản, chúng tôi quan sát thấy rằng, lần đầu tiên đề cập đến một thực thể, thông thường các tác giả giới thiệu thực thể đó theo một cách tường minh hoặc không tường minh sao cho không gây ra nhập nhằng cho người đọc, bằng cách sử dụng tên thường dùng của nó hoặc chuyển tải thêm thông tin bên cạnh để người đọc hiểu đó là thực

thể nào Ví dụ, trong bản tin có tiêu đề “U.S on Palestinian government: Hamas is sticking

point” trên CNN (ngày 04 tháng 03 năm 2009) có phần đầu “JERUSALEM (CNN) U.S Secretary of State Hillary Clinton on Tuesday ruled out working with any Palestinian unity government that includes Hamas if Hamas does not agree to recognize Israel”, tác giả đề

cập đến ngoại trưởng của Mỹ một cách rõ ràng bằng cụm từ “U.S Secretary of State

Hil-lary Clinton” Sau đó trong phần thân của bản tin tác giả viết “Clinton said Hamas must do

what the Palestine Liberation Organization has done”, trong đó “Clinton” đề cập đến

ngoại trưởng Mỹ, mà không cần thêm thông tin để phân biệt với cựu tổng thống Mỹ Bill Clinton Tuy nhiên, với các thực thể là các vùng địa lý được biết đến rộng rãi, thậm chí nếu tên của nó là nhập nhằng, tác giả các văn bản thường đặt các tên đó đứng một mình Trong khi đó, đối với các vùng địa lý ít phổ biến hơn, nó thường đứng cạnh các thực thể có liên quan Ví dụ, khi sử dụng “Oxford” để đề cập đến một thành phố ở tiểu bang Mississippi của nước Mỹ, một tác giả có thể viết “Oxford, Mississippi”, ngược lại, khi dùng nó để đề cập đến thành phố Oxford ở vùng đông nam nước Anh, tác giả đó chỉ viết “Oxford”

Từ những phân tích nêu trên, chúng tôi quyết định dựa vào các thực thể đồng xuất hiện và các từ xuất hiện xung quanh các tên để rút trích các đặc trưng biểu diễn cho các thực thể mà chúng đề cập (nói khác đi là để biểu diễn các tên này) Cụ thể là, khi xem xét phân giải nhập nhằng cho một tên cụ thể trong văn bản, các đặc trưng được khai thác là định danh của các thực thể đã được xác định, các tên xuất hiện trong toàn bộ văn bản, các

Trang 36

từ cùng với các cụm từ xuất hiện xung quanh tên đang xét và xung quanh các tên là đồng tham chiếu với tên đang xét Đối với các thực thể trong một ontology đóng, chúng tôi dựa vào các tính chất của chúng, được định nghĩa bởi ontology, để trích các đặc trưng Đối với các thực thể trong Wikipedia, chúng tôi khai thác nhan đề các trang thực thể, nhan đề các trang đổi hướng, thể loại, các liên kết vào và liên kết ra của các thực thể đó để trích các đặc trưng Qua phân tích các văn bản, chúng tôi nhận thấy rằng vị trí xuất hiện và chiều dài của các tên, cùng với tên thường dùng của các thực thể cũng là các thông tin quan trọng, giúp xác định đúng thực thể đang được đề cập Luận án này khai thác các thông tin vừa nêu để phân giải nhập nhằng Chúng tôi trình bày chi tiết các cách mà các đặc trưng được sử dụng để phân giải nhập nhằng các thực thể có tên lần lượt trong Chương 3, Chương 4, và Chương 5

1.4 Những đóng góp chính của luận án

Sau đây là những đóng góp chính của luận án này

1 Đề xuất phương pháp luận phân giải nhập nhằng lặp cải thiện dần Theo đó quá trình phân giải nhập nhằng gồm nhiều vòng lặp Tại mỗi vòng lặp, định danh của

các thực thể đã được xác định sẽ được sử dụng để phân giải nhập nhằng cho các trường hợp còn lại Như vậy, một thực thể sau khi được xác định, định danh của nó, cùng với định danh của các thực thể đã được xác định trước nó, sẽ được dùng để phân giải nhập nhằng cho những trường hợp còn lại Quá trình này sẽ diễn tiến cho đến khi nào xác định được định danh của tất cả các thực thể được đề cập đến trong văn bản hoặc giữa hai lần lặp không có thêm một ánh xạ mới nào được thực hiện Cho đến thời điểm hiện tại, theo sự hiểu biết của chúng tôi, đây là đề xuất đầu tiên và duy nhất về phân giải nhập nhằng các thực thể có tên theo một quá trình lặp cải thiện dần

2 Đề xuất phương pháp phân hạng các thực thể ứng viên dựa trên một ontology Các ứng viên của một tên nhập nhằng sẽ được phân hạng dựa vào các mối quan hệ ngữ nghĩa của chúng với các thực thể đã được xác định xung quanh tên đó Việc có hay không có mối quan hệ giữa hai thực thể được xác định dựa trên một ontology cụ thể Theo hiểu biết của chúng tôi, khi được xuất bản, phương pháp phân hạng các

Trang 37

ứng viên của chúng tôi là phương pháp đầu tiên khai thác các mối quan hệ ngữ nghĩa giữa các thực thể trong một ontology để phân giải nhập nhằng thực thể có tên

3 Đề xuất một mô hình phân hạng các ứng viên dựa trên thống kê Các đặc trưng sẽ được rút trích để hình thành nên các hồ sơ về các thực thể ứng viên từ một nguồn tri thức Với một tên cần phân giải nhập nhằng, các đặc trưng trên văn bản sẽ được rút trích để hình thành hồ sơ về thực thể được đề cập Sau đó các ứng viên sẽ được phân hạng dựa vào độ tương tự giữa hồ sơ của chúng với hồ sơ của thực thể được đề cập trong văn bản Chúng tôi sử dụng mô hình phân hạng này để khai phá các đặc trưng, rút trích từ văn bản, một ontology và Wikipedia, bằng cách đánh giá các kết hợp khác nhau giữa chúng, và phân tích cho thấy rằng các đặc trưng nào là thực sự có ý nghĩa đối với việc phân giải nhập nhằng Các đặc trưng tốt nhất từ Wikipe-dia sẽ được sử dụng để làm giàu thông tin mô tả về các thực thể trong một ontology khác Sau đó, mô hình phân hạng này cũng được triển khai để phân giải nhập nhằng dựa trên ontology đã được làm giàu Trong mô hình phân hạng các ứng viên dựa trên thống kê chúng tôi khai thác các đặc trưng hoàn toàn mới so với các nghiên cứu trước là các từ xuất hiện xung quanh các tên đồng tham chiếu với tên đang xét Hơn nữa, việc khai phá và đánh giá các kết hợp khác nhau giữa các đặc trưng trích từ văn bản và trích từ một ontology cũng chưa được các nghiên cứu trước đề cập đến

4 Đề xuất một mô hình lai, kết hợp các heuristic và một mô hình thống kê, để thực hiện việc phân giải nhập nhằng sử dụng Wikipedia Việc phân giải nhập nhằng được thực hiện bằng hai giai đoạn Giai đoạn thứ nhất sử dụng các heuristic để thu giảm các ứng viên, và chọn đúng thực thể nếu có thể, bằng một quá trình lặp cải thiện dần Giai đoạn hai triển khai một mô hình phân hạng các ứng viên dựa trên thống kê để phân giải nhập nhằng cho các trường hợp còn lại Quá trình phân giải nhập nhằng trong giai đoạn hai cũng là lặp cải thiện dần Ý tưởng kết hợp các heu-ristic và một mô hình thống kê để phân giải nhập nhằng các thực thể có tên bằng các quá trình lặp cải thiện dần được chúng tôi đề xuất là đầu tiên và duy nhất cho đến thời điểm hiện tại

Trang 38

5 Đề xuất các độ đo mới, để đánh giá hiệu quả phân giải nhập nhằng, phù hợp cả cho các trường hợp khi mà các tên trong văn bản được nhận ra bán phần, và các thực thể được đề cập không tồn tại trong nguồn tri thức sử dụng Các công trình khác không xem xét đến các trường hợp này

1.5 Cấu trúc của luận án

Mục tiêu của chương này là giới thiệu lịch sử và động cơ nghiên cứu, phát biểu bài toán, khái quát các phương pháp, trình bày một phương pháp luận hoàn toàn mới mà luận án đề xuất áp dụng để phân giải nhập nhằng thực thể có tên và nêu các đóng góp chính của luận án Các chương còn lại được tổ chức như sau

Chương 2 – Nền tảng kiến thức

Chương này trình bày các kiến thức nền tảng được sử dụng trong luận án Trước tiên chúng tôi trình bày khái niệm ontology, giới thiệu sơ lược về hệ thống KIM, hệ thống VN-KIM và các ontology của các hệ thống này Tiếp theo chúng tôi giới thiệu cấu trúc của Wikipedia, các nguồn thông tin trên Wikipedia mà chúng tôi khai thác để thực hiện việc phân giải nhập nhằng Sau đó, chúng tôi giới thiệu hai công việc thuộc phần tiền xử lý của bài toán NED là nhận dạng thực thể có tên và phân giải đồng tham chiếu tên riêng Cuối cùng chúng tôi khảo sát các phương pháp luận và phương pháp giải quyết bài toán NED trong các nghiên cứu về NED cho đến thời điểm hiện tại, trong đó phân tích những điểm tương phản và những điểm mới nổi bật của luận án so với các nghiên cứu đó

Chương 3 – Phân giải nhập nhằng dựa trên ontology

Chương này giới thiệu phương pháp phân hạng các ứng viên dựa trên một ontology mà luận án đề xuất Với mỗi tên cần phân giải nhập nhằng, phương pháp này dựa vào mối quan hệ ngữ nghĩa của mỗi thực thể ứng viên với các thực thể khác đã được xác định để phân hạng các ứng viên, ứng viên có hạng cao nhất sẽ được chọn như là thực thể đúng Mối quan hệ đồng tham chiếu giữa các tên xuất hiện trong cùng văn bản cũng được khai thác để phân giải nhập nhằng Trong chương này chúng tôi cũng trình bày các độ đo mới để đánh giá hiệu quả của các phương pháp phân giải nhập nhằng Các độ đo mới này phù hợp cả cho các trường hợp khi mà các tên trong văn bản được nhận ra bán phần, và các thực thể được đề cập không tồn tại trong ontology hoặc cơ sở tri thức được sử dụng Các

Trang 39

tập dữ liệu thí nghiệm, và các kết quả đánh giá phương pháp phân hạng các ứng viên dựa trên ontology, sử dụng ontology của KIM trên tập dữ liệu tiếng Anh, và ontology của VN-KIM trên tập dữ liệu tiếng Việt, cũng được trình bày Nội dung của chương này dựa trên Nguyen và Cao (2007a), Nguyen và Cao (2007b), và Nguyễn Thanh Hiên và Cao Hoàng Trụ (2008)

Chương 4 – Phân giải nhập nhằng dựa trên ontology được làm giàu

Chương này trình bày một mô hình phân hạng các thực thể ứng viên dựa trên thống kê mà luận án nghiên cứu và đề xuất Chúng tôi khai phá và đánh giá các đặc trưng rút trích từ văn bản và từ Wikipedia, bằng cách kết hợp chúng theo nhiều cách khác nhau, và chọn lựa các đặc trưng cho kết quả phân giải nhập nhằng tốt nhất Các đặc trưng trích từ Wikipedia, được xem là góp phần quan trọng vào việc nâng cao hiệu quả phân giải nhập nhằng, sẽ được sử dụng để làm giàu thông tin mô tả về các thực thể trong một ontology khác Sau đó, mô hình phân hạng các thực thể ứng viên dựa trên thống kê được triển khai để ánh xạ lần lượt mỗi tên trong một văn bản vào đúng thực thể mà nó đề cập đến trong ontology đã được làm giàu Chúng tôi cũng trình bày tập dữ liệu thí nghiệm, các kết quả đánh giá phương pháp phân giải nhập nhằng dựa trên ontology của KIM được làm giàu bởi Wikipedia Nội dung chương này dựa trên Nguyen và Cao (2008a), Nguyen và Cao (2010a), Nguyen và Cao (2010b), Nguyễn Thanh Hiên và Cao Hoàng Trụ (2010)

Chương 5 – Phân giải nhập nhằng dựa trên Wikipedia

Chương này trình bày phương pháp lai để phân giải nhập nhằng dựa trên Wikipedia mà chúng tôi nghiên cứu và đề xuất trong luận án Trong đó Wikipedia vừa được sử dụng như là một nguồn cung cấp các đặc trưng phục vụ việc phân giải nhập nhằng, vừa là nguồn thực thể ứng viên mà phương pháp này ánh xạ lần lượt mỗi tên xuất hiện trong một văn bản vào Quá trình phân giải nhập nhằng gồm hai giai đoạn, một giai đoạn dùng heuristic và một giai đoạn dùng thống kê Mỗi giai đoạn đều lặp cải thiện dần Tập dữ liệu thí nghiệm và các kết quả đánh giá cũng được chúng tôi trình bày Nội dung chương này dựa trên Nguyen và Cao (2008b)

Chương 6 – Tổng kết

Chương này tóm lược nội dung của luận án, các đóng góp của luận án, và đề nghị các hướng nghiên cứu trong tương lai dựa trên các kết quả đạt được

Trang 40

Hình 2.1: Một số lớp xử lý của một ứng dụng rút trích thông tin

Các lớp xử lý Tách câuGán nhãn từ loại

Tách tokenNhận dạng thực thể có tênPhân giải đồng tham chiếuPhân giải nhập nhằng thực thể có tên

MUC CoNLL

ACE ACE, MUC

Tổ chức đánh giá

Tiêu đề	Phân Giải Nhập Nhằng Thực Thể Có Tên Dựa Trên Các Ontology Đóng Và Mở
Tác giả	Nguyễn Thanh Hiên
Người hướng dẫn	PGS. TS. Cao Hoàng Trụ
Trường học	Đại học Bách Khoa
Chuyên ngành	Khoa học Máy tính
Thể loại	luận án tiến sĩ kỹ thuật
Năm xuất bản	2010
Thành phố	TP. HCM

Định dạng
Số trang	164
Dung lượng	2,65 MB

Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở

Phân hạng ứng viên dựa trên ontology 75

Thí nghiệm và đánh giá 110