Người dùng nhập vào các từ khóa A, B, D, E mong muốn tìm được người P.
Trường hợp hệ thống tìm kiếm thực thể người khơng kết hợp giải quyết bài toán phân biệt tên người, khi người dùng nhập vào các từ khóa như trên, nếu khơng có bài viết
di nào khác nói về người P và chứa 4 đặc trưng A, B, D, E. Hệ thống tìm kiếm thực thể
người sẽ khơng đưa ra kết quả là người P.
Trường hợp hệ thống tìm kiếm thực thể người kết hợp giải quyết bài toán phân biệt tên người thì sau khi phân biệt nhập nhằng tên người. Hai bài báo d1 và d2 cùng nói về người P sẽ được nhóm vào một cụm. Hệ thống tiến hành tổng hợp thơng tin thuộc tính của hai tài liệu này, nhận được thơng tin thuộc tính cho người dùng P là S = {A, B, C, D,
E}. Khi người dùng nhập vào từ khóa trên, vì S chứa tất cả các từ khóa A, B, D và E, nên
hệ thống đưa ra kết quả chứa người P.
Từ những phân tích trên có thể thấy bài tốn phân biệt tên người có vai trị quan trọng để nâng cao độ chính xác cho hệ thống tìm kiếm thực thể người. Và bài tốn phân biệt tên người trong hệ thống tìm kiếm thực thể được quy về bài toán phân biệt tên người trong tập văn bản. P C D E P B A A B C D E P
14
1.1.2. Dãy hội nghị khoa học về vấn đề phân biệt tên ngƣời
Trên thế giới, vấn đề phân biệt tên người trên Web đang là chủ đề được quan tâm nhiều. Nghiên cứu về vấn đề này, đã có dãy hội nghị WePS -1,2,3 [19] (Web Person Search) được diễn ra từ năm 2007 đến năm 2010. Hội nghị thu hút được nhiều sự quan tâm của các nhóm tác giả và đạt được kết quả thực thi khá tốt.
Hội nghị WePS đầu tiên (WePS-1) [8] diễn ra ngày 22 và 23 tháng 6 năm 2007với 29 nhóm tham gia với 29 phần mềm và 16 bài báo được công bố. Hội nghị bàn về các nhiệm vụ liên quan tới tìm kiếm người trên Web và tập trung vào sự mơ hồ tên người.
Hội nghị WePS-2 [9] có với 19 nhóm nghiên cứu tham gia với 6 phần mềm trích chọn thuộc tính người, 17 phần mềm phân cụm web và 21 bài báo được công bố. Hội nghị tập trung vào hai nhiệm vụ chính:
- Nhiệm vụ thứ nhất: phân cụm các trang Web để giải quyết vấn đề nhập nhằng trong kết quả tìm kiếm.
- Nhiệm vụ thứ hai: trích chọn 18 loại thuộc tính (đặc trưng) về người xuất hiện trên tập các trang Web.
Hội nghị WePS-3 [10] tập trung vào giải quyết bài toán liên quan tới quản lý danh tiếng trực tuyến (ORM – Online Repuration Management) cho các tổ chức và tập trung vào vấn đề mơ hồ đối với tên tổ chức và sự liên quan của dữ liệu Web cho mục đích quản lý danh tiếng. Hội nghị đã có 8 phần mềm phân cụm web, 16 phần mềm quán lý danh tiếng và 13 bài báo được công bố.
Sự cần thiết phân biệt tên người trong hệ thống tìm kiếm thực thể và số lượng lớn các nghiên cứu nhằm giải quyết vấn đề này là minh chứng cho vai trị quan trọng của bài tốn phân biệt tên người để tối ưu hóa hoạt động khai thác dữ liệu trên WWW.
1.2. Bài toán phân biệt tên ngƣời. 1.2.1. Phát biểu bài toán
Theo Bagga [4], bài toán phân biệt nhập nhằng tên người trên tập văn bản có mục tiêu là với mỗi tên người cho trước cần phải phân chia tập văn bản chứa tên người đó thành các nhóm, sao cho các văn bản trong cùng một nhóm cùng chỉ đến một người và các văn bản thuộc các nhóm khác nhau thì chỉ đến những người khác nhau.
15
Input: Tập các trang Web là kết quả trả về từ máy tìm kiếm Google khi đưa vào
một tên người làm truy vấn
Output: Tập các trang Web chứa tên người đó đã được phân cụm, sao cho những
trang Web thuộc cùng một cụm cùng đề cập tới một người, các trang Web thuộc các cụm khác nhau đề cập tới những người khác nhau.
1.2.2. Mối quan hệ của bài toán phân biệt ngƣời cùng tên với bài toán phân biệt nhập nhằng ngữ nghĩa của từ và đồng tham chiếu.
Bài toán phân biệt ngữ nghĩa từ (Word Sense Disambiguation - WSD) là bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Mục tiêu của bài toán là xác định nghĩa của một từ trong một văn bản cho trước, trong đó nghĩa của một từ chỉ có thể xác định dựa trên ngữ cảnh xuất hiện của nó. Kết quả của bài tốn này đóng vai trị quan trọng để giải quyết các bài tốn khác trong xử lý ngơn ngữ tự nhiên như dịch máy, tóm tắt văn bản …
Bài toán phân biệt tên người (Person Name Disambiguation - PND) và phân biệt ngữ nghĩa từ có liên kết chặt chẽ với nhau. Chúng đều giải quyết vấn đề nhập nhằng trong ngôn ngữ tự nhiên. Tuy nhiên bài toán WSD giải quyết một lớp rộng các từ: danh từ, tính từ, động từ, trạng từ… So sánh hai bài toán, trong [8, 9], các tác giả nhận thấy chúng có hai sự khác nhau cơ bản:
Khác biệt đầu tiên là sự khác biệt nghĩa của từ rất tinh tế, có những từ có nghĩa rất
gần nhau mà chính con người cũng nhân biết khó khăn, vì vậy đối với một ứng dụng, vấn đề này càng khó khăn lớn. Trái lại, phân biệt tên người là dễ dàng hơn nhiều.
Khác biệt thứ hai là bài toán phân biệt ngữ nghĩa từ thường sử dụng một tập từ
điển chứa một lượng nhỏ ngữ nghĩa của từ. Bài toán phân biệt tên người thường khơng sử dụng bộ từ điển vì mặc dù theo lý thuyết thì số lượng người chia sẻ cùng tên là xác định, nhưng việc xác định này là rất khó khăn. Bên cạnh đó, số lượng người trung bình cho mỗi tên cao hơn số lượng nghĩa cho mỗi từ. Theo US Census Buereau [8], có khoảng 90 nghìn tên người được sử dụng bởi 100 triệu người. Bài tốn phân biệt tên người có thể hiểu là một trường hợp của bài toán phân WSD với “từ” là tên người cần phân biệt, “ngữ cảnh” là các người khác nhau.
Bài toán phân biệt tên người cũng liên hệ chặt chẽ tới bài toán giải quyết đồng tham chiếu thông qua tài liệu (Cross-document Co-reference - CDC). Bài toán đồng tham
16
chiếu thơng qua tài liệu nhằm mục đích xây dựng lại chuỗi đồng tham chiếu cho mỗi sự đề cập đến một người. Trong bài toán phân biệt tên người trên Web, kết quả của CDC được dùng để nhóm các tài liệu chứa ít nhất một đề cập đến tên người giống nhau.
Dựa vào mối liên hệ của bài toán phân biệt tên người và bài toán WSD và CDC, nên hầu hết các nhà nghiên cứu vấn đề phân biệt tên người tập trung vào giải quyết theo hướng đồng tham chiếu hoặc sử dụng một sơ phương pháp được sử dụng trong bài tốn WSD.
1.3. Một vài cơng trình nghiên cứu về phân biệt tên ngƣời tại ở Việt Nam
Ở Việt Nam, có một số hướng nghiên cứu giải quyết bài toán phân biệt nhập nhằng tên người trên môi trường Web.
Vào năm 2008, Nguyễn Cẩm Tú [2] đề nghị giải pháp “Đoán nhận và giải quyết nhập nhằng thực thể tiếng Việt trên môi trường Web” theo một mơ hình gồm hai bước.
Bước 1, dựa vào thơng tin lĩnh vực hoạt động của thực thể tên, tiến hành phân cụm các tài liệu thành các cụm khác nhau. Bước 2, đối với một số cụm có độ tương đồng nhỏ nhất giữa các cặp tài liệu nhỏ hơn một ngưỡng nào đó, tiến hành xây dựng một mơ hình sinh để phân tích nhập nhằng thực thể trong nội tại cụm đó. Báo cáo tập trung giải quyết bước thứ nhất của mơ hình. Sơ đồ 6 mơ tả quy trình thực hiện bước này.
Entity Collection HAC Disambiguate D o c u m e n ts Terms D o c u m e n ts Hidden Topics Enriched Data Entity1 Entity3 Entity2 Entity4 Entity5 Topic Analysis Entity Collection
Hình 7. Mơ hình đốn nhận và giải quyết nhập nhằng thực thể tiếng Việt [2]
Đầu vào của hệ thống là một tập các thực thể tên. Hệ thống tạo ra kho dữ liệu PERSON-X bằng cách tiến hành lấy các bài viết nói về các nhân vật khác nhau từ các trang Web, sau đó thay thế các tên nhân vật này bởi nhãn PERSON-X. Sử dụng mơ hình LDA (Latent Dirichlet Allocation) để tiến hành phân tích chủ đề ẩn cho một tập dữ liệu nền rất lớn (khác với kho dữ liệu PERSON-X). Đầu ra của bước này là một mơ hình sinh
17
tài liệu theo chủ đề được thể hiện thông qua phân phối xác suất của các từ trên chủ đề ẩn. Dựa trên mơ hình, tác giả tiến hành phân tích chủ đề cho kho dữ liệu PERSON-X. Thông tin về chủ đề sẽ được kết hợp với thông tin từ vựng của tài liệu để tiến hành phân cụm bằng phương pháp phân cụm phân cấp HAC. Dữ liệu test của hệ thống gồm 184 bài viết về 9 tên người làm thực thể gốc, hệ thống đạt kết quả khá khả quan F = 87% [2].
Nguyễn Đạo Thái [3] đề nghị một “Mơ hình hệ thống phân biệt nhập nhằng tên người trong tập văn bản và áp dụng trong hệ thống tìm kiếm thực thể người” bằng cách trích chọn các đặc trưng bao gồm các tên người và các thuật ngữ cùng xuất hiện với tên người cần phân biệt, xây dựng một ma trận tương đồng dựa trên việc tính tốn độ tương đồng ngữ cảnh trên tập văn bản và áp dụng thuật toán phân cụm phân cấp dựa trên ma trận tương đồng để gom cụm dữ liệu.
Tóm tắt chương 1
Trong chương một, khoá luận đã giới thiệu khái quát về hệ thống tìm kiếm thực thể, vấn đề phân biệt tên người trong hệ thống tìm kiếm thực thể và các hội nghị liên quan đến vấn đề phân biệt tên người. Khóa luận cũng trình bày bài tốn phân biệt tên người, mỗi liên hệ của bài toán phân biệt tên người với bài toán phân biệt ngữ nghĩa của từ và bài toán đồng tham chiếu. Bên cạnh đó, khóa luận cũng giới thiệu một vài cơng trình nghiên cứu liên quan đến vấn đề phân biệt tên người ở Việt Nam.
Trong chương tiếp theo, khóa luận mơ tả một số giải pháp phân biệt tên người trên thế giới.
18
Chương 2.Một số giải pháp phân biệt tên ngƣời trên Web
Trong chương này, khóa luận trình bày một số nghiên cứu trên thế giới về giải quyết bài toán phân biệt tên người trên Web. Bài toán được nghiên cứu trong nhiều miền dữ liệu khác nhau như các nhà khoa học, các trang web giáo dục … Với mỗi miền dữ liệu khác nhau, sẽ có các hướng tiếp cận khác nhau giải quyết tốt nhất cho miền dữ liệu đó. Ở đây, các phương pháp đều giả thiết tất cả các tên giống nhau trong một trang web/một
văn bản chỉ nói về một người duy nhất. Do đó việc phân biệt tên người chuyển về bài tốn
phân cụm văn bản, trong đó các văn bản đề cập đến một người giống nhau được nhóm vào một cụm, các văn bản nằm ở hai cụm khác nhau đề cập đến hai người khác nhau và mỗi văn bản chỉ thuộc về một cụm duy nhất.
2.1. Một số cách tiếp cận điển hình
2.1.1. Cách tiếp cận dựa trên thực thể định danh
Một trong những nghiên cứu đầu tiên về giải quyết nhập nhằng thực thể trên nhiều tài liệu là nghiên cứu của nhóm Bagga và Baldwin năm 1998 [4]. Bagga và Baldwin đã trình bày một thuật tốn cho việc giải quyết nhập nhằng thực thể trong nhiều tài liệu sử dụng mơ hình khơng gian vector. Phương pháp của họ được mơ tả như hình 8.
19
Hình 8. Hệ thống phân biệt thực thể người sử dụng không gian vector [4]
Hệ thống được xây dựng dựa trên hệ thống CAMP (phát triển bởi trường đại học Pennsylvania) sử dụng đồng tham chiếu trong một văn bản. Đầu vào của của hệ thống là tập các tài liệu chứa tên người nhập nhằng. Đầu tiên, tập văn bản được cho qua hệ thống CAMP. Với mỗi tài liệu được đưa vào, kết quả đầu ra sẽ là các chuỗi các thực thể và các tham chiếu của nó trong văn bản. Bước tiếp theo, module SentenceExtractor sẽ trích xuất tất cả các câu có chứa cụm danh từ và đại từ tạo thành chuỗi đồng tham chiếu. Nói cách khác, module SentenceExtractor sẽ tạo ra một bản tóm tắt biểu diễn chuỗi thực thể của mỗi bài viết hướng về thực thể được quan tâm. Với module VSM-Disambiguate, mỗi bản tóm tắt sẽ được được lưu dưới dạng một vector, mỗi phần tử trong vector là trọng số của từ khóa tương ứng. Sử dụng độ tương đồng Cosin để đánh giá độ tương đồng giữa hai vector, nếu độ tương đồng của chúng lớn hơn một ngưỡng nhất định thì hai tài liệu được
20
coi là cùng nói về một người. Đầu ra của thuật toán là các tài liệu đã được phân cụm, mỗi cụm là một chuỗi các tài liệu được coi là cùng đề cập đến một thực thể.
Các bước chính của thuật tốn đồng tham chiếu thơng qua tài liệu được mô tả như sau:
- Đầu tiên, mỗi tài liệu được đưa vào vào hệ thống CAMP. Kết quả của hệ thống là các chuỗi đồng tham chiếu cho mỗi thực thể được mơ tả trong bài báo đó.
Xem xét ví dụ với đầu vào là hai đoạn văn trích ra từ hai tài liệu đầu vào doc.36 và doc.38 như hình 9 và hình 10.
John Parry, of Weston Golf Club, announced his regination yesterday. He was President of Massachusetts Golf Association. During his two years, Perry guided the MGA into a closer relationship with Woment’s Golf Association of Massachusetts.
Hình 9. Trích từ tài liệu doc.36[4]
Oliver “Biff” Kelly of Weymonth succeeds John Perry as President of Massachusetts Golf Association. “We will haved continues growth in the future” said Kelly, who will serve for two years. “There’s been a lot of changes and there will be continued change as we head into the year 2000”
21
Kết quả trả về của hệ thống cho hai file đầu vào như sau:
Hình 11. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4]
Hình 12. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4]
- Tiếp theo, với mỗi chuỗi đồng tham chiếu được quan tâm trong mỗi bài báo (ở ví dụ trên là là chuỗi chứa “John Perry”), thành phần trích câu (SentenceExtractor) sẽ trích chọn tất cả các câu có chứa các cụm danh từ tạo thành chuỗi tham chiếu. Nói cách khác, thành phần trích chọn câu sẽ tạo ra một bản tóm tắt của các bài báo hướng tới thực thể được quan tâm. Các bản tóm tắt này là một trường hợp đặc biệt của các các kỹ thuật nhạy truy vấn được phát triển ở đại học Pennsylvania và đã được sử dụng trong phầm mềm CAMP. Vì vậy, với tài liệu doc.36 như trong hình 9, do có ít nhất một trong 3 cụm danh từ trong chuỗi đồng tham chiếu được quan tâm xuất hiện trong mỗi câu được trong văn bản đầu vào, nên bản tóm tắt được tạo ra bởi module Sentence Extractor chính là đoạn
John Parry Weston Golf Club
Massachusetts Golf Association Woment’s Golf Association He Perry Oliver “Biff” Kelly
John Parry Massachusetts Golf Association
22
văn bản đầu vào. Ngược lại, bản tóm tắt được tạo ra bởi module SentenceExtractor của văn bản doc.38 như hình 10 chỉ là câu đầu tiên trong đoạn văn bản đầu vào. Nguyên nhân là do chỉ có một thành phần duy nhất “Jonh Parry” xuất hiện trong câu này.
- Với mỗi bài báo, module VSM-Disambiguate biểu diễn bản tóm tắt được trích ra từ module SentenceExtractor bằng mơ hình biểu diễn không gian vector (Vector Space Model) và tính độ tương đồng với các bản tóm tắt khác được trích ra từ các bài báo khác. Các bản tóm tắt có độ tương đồng lớn hơn ngưỡng được coi là cùng nói về một người.
Hệ thống sử dụng bộ dữ liệu test gồm 173 bài viết năm 1996 và năm 1997 của tờ báo “The New York Times”, 173 bài báo này nói về 11 ơng “John Smith” khác nhau. Đánh giá kết quả bằng phương pháp B-CURED, kết quả phân cụm của hệ thống với độ đo F1 đạt 84,6%.
2.1.2. Cách tiếp cận phân cụm dựa trên các đặc trƣng đƣợc trích chọn