Phần này chúng tôi trình bày các công trình liên quan đến nghiên cứu của chúng tôi trong luận án này. Trước tiên chúng tôi khái quát các nghiên cứu về liên kết bản ghi và phân biệt các thực thể có tên. Sau đó chúng tôi trình bày các nghiên cứu gần với nghiên cứu của chúng tôi, trong đó có so sánh các phương pháp được đề xuất bởi các nghiên cứu đó với các phương pháp đề xuất trong luận án này.
Liên kết bản ghi
Liên kết bản ghi là một cách để hợp nhất thông tin từ các cơ sở dữ liệu khác nhau, nói rộng ra là từ các tập tin dữ liệu khác nhau và có cấu trúc. Bài toán này được biết đến rộng rãi hơn năm thập niên qua trong cộng đồng cơ sở dữ liệu và trí tuệ nhân tạo (Bilenko và CS, 2003; Elmagarmid và CS, 2007; Benjelloun và CS, 2009). Tiếp cận phổ biến cho liên kết bản ghi là so sánh giá trị các thuộc tính giữa các bản ghi để xác định cặp các bản ghi nào chứa thông tin mô tả về cùng một thực thể. Một tiếp cận điển hình bao gồm hai giai
đoạn chính là chuẩn bị dữ liệu và so trùng (Elmagarmid và CS, 2007). Chuẩn bị dữ liệu là nhằm chuẩn hóa dữ liệu, đưa chúng về một kiểu định dạng chung, nhằm tạo điều kiện cho việc so trùng dữ liệu đạt được hiệu quả cao. Sau giai đoạn chuẩn bị dữ liệu, một số phương
pháp có thêm một bước trung gian trước khi so trùng là xác định các thuộc tính nào của các bản ghi sẽđược so trùng (Dasu và CS, 2002).
Sau khi đã chuẩn bị dữ liệu và xác định được các thuộc tính nào sẽ được mang ra so sánh với nhau, giai đoạn so trùng sẽđược thực hiện. Việc so trùng các bản ghi là một vấn
đề khó, do lỗi chính tả, lỗi đánh máy, có nhiều cách mô tả các thực thể, những qui ước khác nhau, . . . trong các cơ sở dữ liệu. Việc so trùng bao gồm so trùng thuộc tính (hay trường dữ liệu trong các bản ghi), và so trùng các bản ghi dựa trên các thuộc tính của chúng. So trùng các thuộc tính là tính toán độ tương tự dựa trên khoảng cách giữa chúng, trong khi đó so trùng các bản ghi thường là được thực hiện dựa trên việc tính toán độ tương tự giữa các thuộc tính của các bản ghi. Có nhiều nhóm phương pháp để tính toán độ tương tự giữa hai thuộc tính của hai bản ghi khác nhau, như đo độ tương tự dựa trên kí tự, dựa trên token, và dựa trên âm vị. Các phương pháp so trùng bản ghi có hiệu quả cao biểu diễn các cặp bản ghi như là các véctơđặc trưng, sử dụng khoảng cách giữa các thuộc tính của mỗi cặp bản ghi như là các đặc trưng. Các mô hình học máy sau đó được triển khai cho việc so trùng các bản ghi. Các nghiên cứu về liên kết bản ghi có thể tìm thấy trong Bilenko và CS (2003), Winkler (2006), Elmagarmid và CS (2007) và Benjelloun và CS (2009).
Phân biệt thực thể có tên
Nhưđã được trình bày trong Chương 1, phân biệt thực thể có tên là hướng nghiên cứu thứ nhất của phân giải nhập nhằng thực thể có tên. Nó được xem như là bài toán gom cụm, với mục tiêu là xác định các tên khác nhau trong các tài liệu khác nhau có cùng đề cập đến một thực thể hay không, rồi gom chúng lại với nhau thành một cụm. Thông thường một phương pháp được đề xuất để phân biệt các thực thể có tên gồm hai bước chính: (i) khai thác ngữ cảnh để trích các đặc trưng và tạo hồ sơ về các tên (hay các thực thể) dựa trên các
đặc trưng đó; và (ii) áp dụng các giải thuật gom cụm để gom các tên đề cập đến cùng một thực thể với nhau dựa trên độ tương tự giữa các hồ sơ. Có hai yếu tố quan trọng tạo nên sự
khác biệt giữa các phương pháp được đề xuất để phân biệt các thực thể có tên là các đặc trưng được khai thác, và cách tính toán độ tương tự giữa các hồ sơ trong các giải thuật gom cụm được sử dụng.
Theo Malin (2005), có hai nguồn thông tin quan trọng trong các văn bản thường được khai thác để rút trích các đặc trưng là thông tin về các thuộc tính và thông tin về các mối quan hệ giữa các thực thể. Bagga và Badlwin (1998b) và Gooi và Allan (2004) rút trích các
đặc trưng là các từ xuất hiện xung quanh các tên. Pedersen và CS (2005) khai thác các
bigram và sử dụng độ đo tỷ suất khả năng (likelihood ratio) để chọn các đặc trưng. Mann và Yarowsky (2003) rút trích các thông tin mô tả tiểu sử, như ngày tháng năm sinh, nơi sinh, nghề nghiệp của một người trong các văn bản, để thực hiện phân biệt tên người trong các trang web.
Niu và CS (2004) khai thác các cụm danh từ xuất hiện xung quanh các tên, các tên xuất hiện trong toàn bộ văn bản, và kiểu của các quan hệ giữa các thực thể ví dụ như
Affiliation, Leaders-of, Has-Parent, Parent-of, Birth-Place, Birth-Time, Death-Time. Rút trích kiểu của các quan hệ giữa các thực thể là công việc rất khó, và thường hiệu quả đạt
được là không cao, do đó sẽ gây nhiễu cao. Chen và Martin (2007), tập trung vào các văn bản trong lĩnh vực tin tức, và khai thác các cụm danh từ cơ sở xuất hiện trong tiêu đề của mỗi bản tin, các cụm danh từ cơ sở xuất hiện trong cùng câu với các tên, và các tên xuất hiện trong toàn bộ văn bản. Han và CS (2004) khai thác quan hệđồng tác giả, nhan đề của
ấn phẩm xuất bản và nơi xuất bản để xác định hai tên tác giả trong hai trích dẫn có cùng đề
cập đến một người hay không. Phương pháp của Han và CS (2004) không phân biệt được các tác giả làm việc trong cùng một mảng chuyên môn và có tên giống nhau. Beckerman và McCallum (2005) dựa vào tên của những người trong cùng mạng xã hội để gom cụm các trang web cùng đề cập đến một người. Các nghiên cứu khác cũng rút trích các đặc trưng từ những thông tin đã đề cập.
Các hồ sơ về các thực thể sẽđược xây dựng dựa trên các đặc trưng rút trích được. Các
đặc trưng sau đó sẽđược gán trọng số, và các độ đo độ tương tự sẽđược áp dụng để tính toán độ tương tự giữa các hồ sơ. Phương pháp được sử dụng phổ biến nhất để gán trọng số
cho các đặc trưng là tf.idf, và cosine được sử dụng đểđo độ tương tự giữa các hồ sơ. Một sốđộ đo khác cũng được sử dụng nhưtỉ suất độ lợi (gain ratio - Lefever và CS, 2009), tỷ
suất khả năng (Pedersen và CS, 2005), độ phân kỳ Kullback-Leibler (Gooi và Allan, 2004). Bagga và Baldwin (1998b) và Mann và Yarowsky (2003) biểu diễn các hồ sơ như
là véctơ của các “túi từ” (bag-of-word). Gooi và Allan (2004) hiện thực độ đo độ phân kỳ
Kullback-Leibler để đo “khoảng cách” giữa các phân bố xác suất của các từ. Fleischman và Hovy (2004) xây dựng bộ phân lớp maxent, được huấn luyện dựa trên tập dữ liệu huấn luyện để đánh giá khả năng hai hồ sơ là của cùng môt thực thể. Chen và Martin (2007) biểu diễn các hồ sơ trong không gian véctơ dựa trên các chuỗi, và sử dụng soft.tfidfđể gán trọng số các chuỗi và tính toán độ tương tự giữa các hồ sơ sử dụng cosine.
Nhiều giải thuật gom cụm đã được áp dụng trong các phương pháp phân biệt các thực thể có tên, phổ biến là giải thuật hội tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) của Jain và CS (1999). Khi áp dụng các giải thuật gom cụm, bởi vì các cụm là không biết trước, cho nên các tiêu chuẩn dừng là một vấn đề thách thức (Pedersen và Kulkarni, 2006). Để giải quyết vấn đề này, một ngưỡng tương tựđược thiết lập. Tuy nhiên với giải thuật gom cụm con kiến mờ (fuzzy ants clustering - Schockaert và CS, 2007; Lefever và CS, 2009) thì một ngưỡng tương tự như vậy là không cần thiết. Sarmento và CS (2009) triển khai giải thuật gom cụm của Dean và Ghemawat (2004).
Phân giải nhập nhằng các vùng địa lý
Phân giải nhập nhằng các vùng địa lý (Toponym Resolution - TR) là nhằm ánh xạ tên của các vùng địa lý trong một văn bản vào đúng vùng địa lý trong một mô hình không gian (Leidner, 2007), hoặc được mô tả trong một cơ sở tri thức về các vùng địa lý (Overell, 2006). Một phương pháp phân giải nhập nhằng các vùng địa lý thường bao gồm hai phần chính là rút trích tên của các vùng địa lý, và phân giải nhập nhằng.
• Rút trích tên của các vùng địa lý: phần này được điều chỉnh từ các phương pháp nhận dạng thực thể có tên để xác định các tên nào đề cập đến các vùng địa lý. Giai
đoạn này cũng bao gồm việc thực hiện phân giải nhập nhằng lớp thực thể, thể hiện
ở việc loại bỏ các tên trong văn bản đề cập đến các thực thể không phải là các vùng
địa lý.
• Phân giải nhập nhằng: trước tiên là truy hồi các ứng viên từ một nguồn tri thức. Nếu chỉ có một ứng viên, tên đang xét sẽđược ánh xạ vào ứng viên đó. Hầu hết các phương pháp đều không quan tâm đến việc xác định một tên trong văn bản có đề
cập đến một vùng địa lý nằm ngoài nguồn tri thức được sử dụng hay không. Khi có nhiều hơn một ứng viên, việc phân giải nhập nhằng sẽđược thực hiện bằng cách so trùng ngữ cảnh xuất hiện tên trong văn bản và thông tin mô tả về các thực thểứng viên. Ứng viên được chọn là thực thể mà thông tin mô tả về nó trong nguồn tri thức sử dụng có mức độ tương tự cao nhất với ngữ cảnh của tên đang xét.
Các phương pháp được đề xuất để phân giải nhập nhằng các vùng địa lý có thể được chia thành hai nhóm: nhóm các phương pháp dựa trên luật heuristic, và nhóm các phương pháp học máy. Các phương pháp dựa trên luật áp dụng các heuristic để thực hiện việc phân
giải nhập nhằng. Các heuristic được đề xuất để khai thác thông tin từ ngữ cảnh xuất hiện các tên trong văn bản và khoảng cách trong không gian của các vùng địa lý. Sau đây là một số nhóm heuristic được sử dụng phổ biến, các heuristic ít phổ biến hơn được trình bày trong Leidner (2007).
• Một đối tượng được tham chiếu trong một diễn ngôn (one referent per discourse). Các xuất hiện khác nhau của cùng một tên trong một văn bản tại các vị trí khác nhau đều đề cập đến cùng một vùng địa lý. Heuristic này được điều chỉnh từ
heuistic một nghĩa trong một diễn ngôn (one sense per discourse - Gale, Church & Yarowsky 1992) trong phân giải nhập nhằng ngữ nghĩa từ vựng và được sử dụng trong Smith và Crane (2001), Li và CS (2003), Leidner và CS (2003), Pouliquen và CS (2004), Amitay và CS (2004), Schilder và CS (2004).
• So trùng mẫu. Các luật được viết nhằm khai thác các từ khóa mang thông tin về
kiểu của thực thể như thành phố, tiểu bang, quốc gia, tỉnh, hạt, thị xã, thủ đô, như
“X city”, “state of X”, hoặc một số mẫu so trùng dạng, như “X, Y”, “X in Y”, “X
(Y)”, trong đó X là tên của một vùng địa lý chưa được xác định, Y là tên của một vùng địa lý đã được xác định. Li và CS (2003), Rauch và CS (2003), Clough (2005), Zong và CS (2005), và Volz và CS (2007) sử dụng các mẫu so trùng như
trên.
• Cực tiểu khoảng cách không gian. Với một trường hợp cần phân giải nhập nhằng,
ứng viên được chọn sẽ là thực thể mà có tổng khoảng cách trong không gian với các thực thể đã được xác định là nhỏ nhất. Heuristic này được sử dụng trong Leidner và CS (2003), Li và CS (2003), Amitay và CS (2004) và Zong và CS (2005).
• Thiết lập mức độ ưu tiên cho các thực thể. Một thực thể có thể được ưu tiên hơn các thực thể khác khi xét chọn ứng viên (Overell và Rüger, 2006). Pouliquen và CS (2004) bỏ qua các ứng viên có diện tích nhỏ. Volz và CS (2007), Andogah và CS (2008) gán trọng số cho lớp của các thực thể, trọng số này phản ánh độưu tiên của một thực thể thuộc lớp này so với thực thể thuộc lớp khác. Ví dụ, với các ứng viên của “Paris” thì thực thể thuộc lớp thủđô sẽđược ưu tiên hơn các thực thể thuộc các lớp khác.
• Thực thể mặc định. Một số phương pháp chỉ định một thực thể mặc định cho một tên trong nguồn tri thức sử dụng. Một khi các heuristic khác đã được áp dụng mà chưa phân giải được nhập nhằng thì thực thể mặc định được chọn. Các phương pháp khác nhau đưa ra các tiêu chuẩn khác nhau để chọn thực thể mặc định. Li và CS (2003), Rough và CS (2003), Pouliquen và CS (2004), Andogah và CS (2008) chọn vùng địa lý có dân sốđông nhất. Schilder và CS (2004) thiết lập mặc định cho các ứng viên là thủđô, hoặc thủ phủ của một vùng khi chỉ có một ứng viên thuộc các lớp này.
Buscaldi và Rosso (2008) đề xuất và đánh giá hai phương pháp phân giải nhập nhằng; một phương pháp dựa trên bản đồ và một phương pháp dựa trên ontology (cụ thể là WordNet). Đối với phương pháp dựa trên bản đồ, ứng viên của một tên nhập nhằng sẽ được chọn nếu khoảng cách của nó đến trọng tâm của tài liệu là nhỏ nhất. Đối với phương pháp dựa trên ontology, ứng viên của một tên nhập nhằng sẽ được chọn nếu mật độ khái niệm (conceptual density) của nó là lớn nhất. Nhìn chung các phương pháp dựa trên luật khai thác các đặc trưng đặc thù đối với các vùng địa lý, do đó khó điều chỉnh để áp dụng cho các thực thể thuộc các lớp khác như con người hay tổ chức.
Nhóm thứ hai là nhóm các phuơng pháp áp dụng các kỹ thuật học máy (Smith và Mann, 2003; Garbin và Mani, 2005; Overell và Rüger, 2008). Smith và Mann (2003) xây dựng một tập huấn luyện tự động dựa trên các mẫu như “Nashville, Tenn.” hoặc “Springfield, MA”. Một bộ phân lớp Naive Bayes được huấn luyện dựa trên tập huấn luyện này, và sau đó được áp dụng để phân giải nhập nhằng cho các vùng địa lý trong một tài liệu mới. Garbin và Mani (2005) cũng xây dựng tựđộng tập huấn luyện bằng cách khai thác các từ xuất hiện trong cửa sổ ngữ cảnh ±5 từ xung quanh tên nhập nhằng. SVM sau đó
được triển khai để học một bộ phân lớp, trong đó ±3 (hoặc ±20) token xung quanh các tên nhập nhằng được khai thác như là các đặc trưng.
Overell và Rüger (2008) khai thác Wikipedia để phân giải nhập nhằng các vùng địa lý. Các tác giả xem tập các vùng địa lý trong Wikipedia như là tập huấn luyện, trong đó mỗi thực thể được biểu diễn bởi các thông tin rút trích từ infobox của thực thểđó. SVM được triển khai để phân giải nhập nhằng. Các tác giả khai thác ngữ cảnh bao gồm ±10 tên của các vùng địa lý xung quanh tên nhập nhằng đang được xem xét, không quan tâm đến các từ
vùng địa lý thì phương pháp của Overell và Rüger (2008) là khả chuyển, và có thể điều chỉnh để áp dụng cho các thực thể khác các vùng địa lý.
Mặc dù đã được quan tâm nghiên cứu từ cuối những năm 90, cho đến nay vẫn chưa có một tập dữ liệu mẫu chung đểđánh giá và so sánh các phương pháp phân giải nhập nhằng các vùng địa lý khác nhau (Overell, 2009). Hơn nữa, do chỉ tập trung vào các vùng địa lý, các phương pháp chỉ quan tâm đến mối quan hệ giữa các vùng địa lý, bỏ qua mối quan hệ
giữa các vùng địa lý với các thực thể khác các vùng địa lý. Theo chúng tôi thì các mối quan hệ này là thật sự có ý nghĩa đối với việc phân giải nhập nhằng các vùng địa lý. Ví dụ, khi “Mikhail Saakashvili” đứng bên cạnh “Georgia”, thì “Georgia” nhiều khả năng là đề
cập đến quốc gia Gruzia hơn là tiểu bang Georgia của Mỹ.
Phân giải nhập nhằng thực thể có tên
Các nghiên cứu phân giải nhập nhằng thực thể có tên tập trung vào các thực thể khác các vùng địa lý cũng thu hút được nhiều sự quan tâm. Hassell và CS (2006) đề xuất phương pháp nhận dạng và ánh xạ từng tên của từng ủy viên hội đồng phản biện trên các trang web hội nghị khoa học vào đúng thực thể mà mỗi tên đó đề cập đến trong một ontology. Các tác giả khai thác tên của tổ chức nơi một người làm việc; mảng nghiên cứu của các ủy viên như web có ngữ nghĩa, cơ sở dữ liệu, . . .; quan hệ đồng tác giả; và số