Cách tiếp cận dựa trên thực thể định danh

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 30 - 78)

Một trong những nghiên cứu đầu tiên về giải quyết nhập nhằng thực thể trên nhiều tài liệu là nghiên cứu của nhóm Bagga và Baldwin năm 1998 [4]. Bagga và Baldwin đã trình bày một thuật toán cho việc giải quyết nhập nhằng thực thể trong nhiều tài liệu sử dụng mô hình không gian vector. Phương pháp của họ được mô tả như hình 8.

19

Hình 8. Hệ thống phân biệt thực thể người sử dụng không gian vector [4]

Hệ thống được xây dựng dựa trên hệ thống CAMP (phát triển bởi trường đại học Pennsylvania) sử dụng đồng tham chiếu trong một văn bản. Đầu vào của của hệ thống là tập các tài liệu chứa tên người nhập nhằng. Đầu tiên, tập văn bản được cho qua hệ thống CAMP. Với mỗi tài liệu được đưa vào, kết quả đầu ra sẽ là các chuỗi các thực thể và các tham chiếu của nó trong văn bản. Bước tiếp theo, module SentenceExtractor sẽ trích xuất tất cả các câu có chứa cụm danh từ và đại từ tạo thành chuỗi đồng tham chiếu. Nói cách khác, module SentenceExtractor sẽ tạo ra một bản tóm tắt biểu diễn chuỗi thực thể của mỗi bài viết hướng về thực thể được quan tâm. Với module VSM-Disambiguate, mỗi bản tóm tắt sẽ được được lưu dưới dạng một vector, mỗi phần tử trong vector là trọng số của từ khóa tương ứng. Sử dụng độ tương đồng Cosin để đánh giá độ tương đồng giữa hai vector, nếu độ tương đồng của chúng lớn hơn một ngưỡng nhất định thì hai tài liệu được

20

coi là cùng nói về một người. Đầu ra của thuật toán là các tài liệu đã được phân cụm, mỗi cụm là một chuỗi các tài liệu được coi là cùng đề cập đến một thực thể.

Các bước chính của thuật toán đồng tham chiếu thông qua tài liệu được mô tả như sau:

- Đầu tiên, mỗi tài liệu được đưa vào vào hệ thống CAMP. Kết quả của hệ thống là các chuỗi đồng tham chiếu cho mỗi thực thể được mô tả trong bài báo đó.

Xem xét ví dụ với đầu vào là hai đoạn văn trích ra từ hai tài liệu đầu vào doc.36 và doc.38 như hình 9 và hình 10.

John Parry, of Weston Golf Club, announced his regination yesterday. He was President of Massachusetts Golf Association. During his two years, Perry guided the MGA into a closer relationship with Woment’s Golf Association of Massachusetts.

Hình 9. Trích từ tài liệu doc.36[4]

Oliver “Biff” Kelly of Weymonth succeeds John Perry as President of Massachusetts Golf Association. “We will haved continues growth in the future” said Kelly, who will serve for two years. “There’s been a lot of changes and there will be continued change as we head into the year 2000”

21

Kết quả trả về của hệ thống cho hai file đầu vào như sau:

Hình 11. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4]

Hình 12. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4]

- Tiếp theo, với mỗi chuỗi đồng tham chiếu được quan tâm trong mỗi bài báo (ở ví dụ trên là là chuỗi chứa “John Perry”), thành phần trích câu (SentenceExtractor) sẽ trích chọn tất cả các câu có chứa các cụm danh từ tạo thành chuỗi tham chiếu. Nói cách khác, thành phần trích chọn câu sẽ tạo ra một bản tóm tắt của các bài báo hướng tới thực thể được quan tâm. Các bản tóm tắt này là một trường hợp đặc biệt của các các kỹ thuật nhạy truy vấn được phát triển ở đại học Pennsylvania và đã được sử dụng trong phầm mềm CAMP. Vì vậy, với tài liệu doc.36 như trong hình 9, do có ít nhất một trong 3 cụm danh từ trong chuỗi đồng tham chiếu được quan tâm xuất hiện trong mỗi câu được trong văn bản đầu vào, nên bản tóm tắt được tạo ra bởi module Sentence Extractor chính là đoạn

John Parry Weston Golf Club

Massachusetts Golf Association Woment’s Golf Association He Perry Oliver “Biff” Kelly

John Parry Massachusetts Golf Association

22

văn bản đầu vào. Ngược lại, bản tóm tắt được tạo ra bởi module SentenceExtractor của văn bản doc.38 như hình 10 chỉ là câu đầu tiên trong đoạn văn bản đầu vào. Nguyên nhân là do chỉ có một thành phần duy nhất “Jonh Parry” xuất hiện trong câu này.

- Với mỗi bài báo, module VSM-Disambiguate biểu diễn bản tóm tắt được trích ra từ module SentenceExtractor bằng mô hình biểu diễn không gian vector (Vector Space Model) và tính độ tương đồng với các bản tóm tắt khác được trích ra từ các bài báo khác. Các bản tóm tắt có độ tương đồng lớn hơn ngưỡng được coi là cùng nói về một người.

Hệ thống sử dụng bộ dữ liệu test gồm 173 bài viết năm 1996 và năm 1997 của tờ báo “The New York Times”, 173 bài báo này nói về 11 ông “John Smith” khác nhau. Đánh giá kết quả bằng phương pháp B-CURED, kết quả phân cụm của hệ thống với độ đo F1 đạt 84,6%.

2.1.2. Cách tiếp cận phân cụm dựa trên các đặc trƣng đƣợc trích chọn

Năm 2007, Ergin Elmacioglu và cộng sự giới thiệu phương pháp phân biệt tên người trong bài báo tham gia hội nghị WePS-1 (Web Person Search)[5]. Các tác giả giải quyết bài toán bằng phân cụm tài liệu dựa vào các đặc trưng về người được trích chọn và thử nghiệm trên ba miền dữ liệu ECDL, Wikipedia và Census.

Trích chọn đặc trƣng và tính độ tƣơng đồng

Nhóm tác giả thực hiện trích chọn các token (T), các thực thể tên (Named Entities - NE), hostname và domain (Hvà D) và các URL của trang Web.

Để trích ra các token, các tác giả xuất phát từ các từ trong các trang web bằng cách sử dụng các từ gốc của Porter [14] để lập ra một danh sách các từ đồng nghĩa với với từ gốc. Mỗi từ gốc là một đặc trưng và được gán trọng số bằng phương pháp TF-IDF.

Trích chọn các thực thể tên từ các trang Web bằng cách sử dụng phương pháp nhận diện thực thể tên Stanford [11] mà kết hợp mô hình trường ngẫu nhiên điều kiện CRF (Conditional Random Field - CRF) và hai mô hình cấu trúc không cục bộ CoNLL Consistency Model và CMU Seminar Announcements Consistency Model. Hệ thống nhận diện thực thể bằng các nhãn “place”, “organizations”, “people”. Mỗi thực thể được coi như một đặc trưng riêng biệt và được gán trọng số bằng phương pháp tính trọng số TF-IDF. Các tác giả cũng trích chọn các đặc trưng “tên giữa” của thực thể cần tìm kiếm và gán nhán (NE-T). Ví dụ: Tên cần tìm kiếm “Edward Fox”, các đặc trưng được tạo ra từ

23

“Edward Charles Morrice Fox” là “Charles” và “Morrice”. Các đặc trưng này cũng được đánh trọng số bằng phương pháp TF-IDF.

Hostname và domain (H và D): Nếu hai trang Web có liên kết trỏ đến các URL giống nhau thì rất có khả năng hai trang web cùng nói đến một người. Mỗi URL sẽ được phân tích thành hai phần H và D. Ví dụ,với địa chỉ URL http://portal.acm.org/guide.cfm thì H là portal.acm.org và D là acm.org. Tính trọng số cho các đặc trưng này bằng phương pháp IDF. Bên cạnh đó, nhóm tác giả cũng xem xét đến một trường hợp đặc biệt, khi đưa cả URL của chính trang web đầu vào như một địa chỉ “link”. Trong trường hợp này, nhóm tác giả chỉ lấy hostname, được gọi là Host with Self URL (H-S).

Các URL của trang web (U): Các URL cũng chứa các thông tin cần thiết để phân biệt tên người. Ví dụ: http://www.cs.ualberta.ca/~lindek/ cho biết đây là trang “lindek” của khoa khoa học máy tính, trường đại học Alberta ở Canada. Nhóm tác giả sử dụng hệ thống MeURLin của Khan và Nguyen Thi Ngọc Oanh [15] để phân đoạn và tạo các đặc trưng bao gồm: (a) các đoạn URL đã được phân đoạn (Ví dụ: với địa chỉa URL: www.allposters.com, thì các đặc trưng là “www”, “all”, “posters” và “com”); (b) Các thành phần của URL mà các từ có thể xuất hiện như giao thức, tên miền, và thư mục đường dẫn; (c) độ dài của thẻ; (d) các đặc trưng chữ viết; (e) các n-gram tuần tự; (f) các bigram tuần tự. Mỗi đầu ra của bộ phận tách từ MeURLin thể hiện cho một tài liệu, từ đó có thể xác định độ tương đồng cosin TF-IDF giữa hai tài liệu.

Để kết hợp các đặc trưng trên, các tác giả đề xuất ghép các vector đặc trưng của cá nhân thành một vector đặc trưng duy nhất áp dụng theo hai mẫu thử nghiệm sau:

(T + NE + H-S)

(T + D + NE + NE-T + U).

Các tác giả cũng thử kết hợp các đặc trưng trên bằng cách thực hiện tính giá trị trung bình và giá trị cực đại của độ tương đồng giữa đặc trưng riêng rẽ. Trong đó độ tương đồng của các đặc trưng riêng rẽ cũng được tính bằng phương pháp tính độ tương đồng cosin giữa hai vector. Các tác giả thử nghiệm với ba mẫu sau:

(max(NE, H-S) (avg(T, H-S))

24

Phân cụm

Các tác giả sử dụng phân cụm phân cấp từ dưới lên (Hierarchical agglomerative clustering - HAC). Thuật toán xem mỗi trang Web đầu vào như là một cụm riêng biệt và tiến hành kết hợp các cụm có độ tương đồng lớn nhất để tạo thành cụm mới thay thế hai cụm cũ. Quá trình được lặp lại cho đến khi gặp một ngưỡng dừng nào đó.

Công thức đánh giá bằng 3 độ đo là Purity, Inverse-Purity và độ đo F với

và tương ứng với ngưỡng tương đồng trong thuật toán HAC là 0.1 và 0.2 cho

kết quả tương ứng của hệ thống là và .

2.1.3. Cách tiếp cận dựa trên mô hình chủ đề.

Năm 2010, Jiashen, Tianmin và Li Li [12] đề xuất hướng giải quyết bài toán phân biệt tên người bằng mô hình chủ đề cho tiếng Trung. Mô hình này được mô tả trong bài báo gửi tới hội nghị SIGHAN 2010. Hệ thống sử dụng hướng tiếp cận Bayes để giải quyết bài toán phân biệt tên người trong mô hình sinh. Theo như nghiên cứu của các tác giả, việc nhận diện thực thể tên người tiếng Trung khó khăn so với tiếng Anh do những nguyên nhân sau:

- Sự phong phú đa dạng của tên.

- Đặc điểm của tiếng Trung trong mỗi dạng tên.

- Tên người thường dễ bị nhầm lẫn với ngữ cảnh của nó. - Dịch các tên nước ngoài khó khăn.

Vì vậy, các tác giả tập trung vào giải quyết hai vấn đề lớn trong bài toán phân biệt tên người tiếng Trung là nhận diện thực thể tên và phân cụm. Hệ thống thực nghiệm trên bộ dữ liệu là các tờ báo “Nhân dân hằng ngày” của tháng 1 năm 1998 và các tờ báo

Nhân dân hằng ngày” của năm 2000.

Bƣớc 1.Nhận diện thực thể tên

Nhóm tác giả sử dụng mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields - CRFs) để tạo ra mô hình ngôn ngữ thích hợp cho việc thực hiện tự động gán nhãn cho các văn bản đầu vào. Dữ liệu được gán nhãn theo hệ thống nhãn BIEO bao gồm các nhãn sau: B-Nr (bắt đầu, các ký tự ban đầu của tên), I-Nr (ký tự giữa của tên), E- Nr (ký tự kết thúc của tên) và O (các đặc trưng không phải tên). Để tránh lỗi tách từ xảy

25

ra, họ sử dụng các đặc điểm của tiếng Trung thay vì sử dụng từ như các đặc trưng phân biệt cho mô hình học máy CRF.

Lỗi trong kết quả gán nhãn của mô hình CRF gồm các loại chính sau: các ký tự ban đầu của tên không được nhận ra, các ký tự trung gian của tên không được nhận ra, ký tự kết thúc của tên không được nhận ra và kết hợp của cả 3 lỗi trên. Hai lỗi nghiêm trọng khác bao gồm nhận ra không đúng tên và tên được nhận ra không phải tên mong muốn. Vì vậy, để giảm thiểu các lỗi trên và tăng kết quả nhận diện, họ sử dụng bộ luật để điều chỉnh.

Trong giai đoạn hiệu chỉnh theo luật, đầu tiên văn bản được tách từ, gán nhãn bằng mô hình CRF. Sau đó, mỗi tên người được nhận ra sẽ được kiểm tra các điểu kiện sau:

1. Các từ trong tên người có hợp lý hay không (kiểm tra họ và chữ được sử dụng trong tên).

2. Biên trái và biên phải đúng hay không, tức kiểm tra các chữ bên trái và bên phải của từ được tách có thể thêm vào tên hay không. Công việc kiểm tra bao gồm: các từ đứng trước tên, các từ đứng sau tên, họ và các chữ sử dụng trong tên.

Bƣớc 2. Trích chọn đặc trƣng

Các tác giả thực hiện trích chọn hai loại đặc trưng: các đặc trưng token (bao gồm các từ, các chữ đơn và chữ ghép) và các đặc trưng chủ đề. Việc phân phối dựa trên chủ đề vào ngữ cảnh toàn cục hay ngữ cảnh cửa sổ được học bởi mô hình LDA (Latent Dirichlet Allocation).

- Các đặc trưng token: Trích chọn 3 loại đặc trưng token: từ, chữ đơn và chữ ghép từ văn bản đầu vào. Mỗi loại đặc trưng token được biểu diễn trong một vector đặc trưng. Gán trọng số cho các đặc trưng băng hai phương pháp tf-idf và entropy. Các đặc trưng được chọn bằng 2 phương pháp: tần số tài liệu (Document frequency - DF) và “global TF-IDF”

- Các đặc trưng chủ đề: Trích chọn các thông tin chủ đề quan trọng xung quan tên người được quan tâm như nghề nghiệp, tổ chức, cố vấn, địa điểm… Phân tích chủ đề dựa trên cả ngữ cảnh toàn cục và ngữ cảnh cục bộ. Sau đó, phân phối các chủ đề ẩn dựa trên biểu diễn chủ đề của ngữ cảnh bằng mô hình LDA.

26

Các tác giả thử nghiệm với hai thuật toán phân cụm HAC và thuật toán phân cụm DBSCAN.

Thuật toán phân cụm phân cấp từ dưới lên HAC thực hiện phân cụm dựa trên độ tương đồng giữa giữa hai cụm bằng các cách đo: single-link, complete-link, group- average and centroid clustering.

Độ tương đồng giữa hai tài liệu được tổng hợp từ độ tương đồng của các ngữ cảnh toàn cục và các ngữ cảnh cục bộ. Công thức như sau:

Trong đó, độ tương đồng giữa hai vector đặc trưng bằng độ tương đồng cosin giữa hai vector.

Sau quá trình thực nghiệm, các tác giả đưa ra một số đánh giá sau:

- Các đặc trưng chủ đề được học bằng mô hình LDA và tốt hơn các đặc trưng token.

- Sử dụng phân cụm bằng thuật toán HAC cho kết quả tốt hơn thuật toán DBSCAN

- Sử dụng phương pháp lựa chọn đặc trưng “global TF-IDF” cho kết quả tốt hơn phương pháp DF.

2.2. Mô hình phân biệt tên ngƣời dựa trên mô hình thông tin Ngƣời

Nghiên cứu về phân biệt tên người trong tiếng Trung, vào năm 2010, Hua-Ping Zhang và cộng sự [7] đưa ra hệ thống phân biệt tên người LJDP dựa trên mô hình thông tin Người (Personal Model). Hệ thống giới thiệu trong bài báo giải quyết nhiệm vụ thứ ba với chủ đề phân biệt tên người của hội nghị First CIPS-SIGHAN.

2.2.1. Mô hình thông tin Ngƣời

Trong hệ thống của mình, các tác giả đưa ra mô hình giải quyết bài toán dựa vào mô hình thông tin Người. Khi đó, một người trọng một văn bản được biểu diễn bằng các đặc trưng mô tả cho người. Các đặc trưng này được phân vào 4 tập N, P, Q, R. Quy tắc chia vào bốn tập được như sau:

Person = {N, P, Q, R} Trong đó:

27

Văn bản Chuỗi từ đã

được gán nhãn

Mô hình thông tin Người Các cụm của các

người khác nhau

- N là tập các tên gọi, biệt danh của người như: tên, tên hiệu, bí danh … - P là tập hợp các thuộc tính cơ bản của người – các đặc trưng không đổi theo

thời gian.

- Q là tập hợp các thuộc tính khác của người – các đặc trưng có thể thay đổi theo thời gian.

- R là tập hợp các thuật ngữ cùng xuất hiện với tên người, được gọi là miền thuật ngữ.

Mô hình biểu diễn các đặc trưng mô tả cho người như trên được gọi là mô hình thông tin Người.

2.2.2. Phân biệt tên ngƣời dựa theo mô hình thông tin Ngƣời

Hệ thống phân biệt tên người theo mô hình thông tin Người của các tác giả gồm ba bước sau:

1. Tách từ và gán nhãn một phần của bài báo, từ đó nhận diện tên người tiếng Trung sử dụng hệ thống ICTCLAS 2010.

2. Trích chọn đặc trưng để tạo ra mô hình trích chọn người cho mỗi tài liệu.

3. Sinh các cụm đầu tiên theo các đặc trưng trong mô hình thông tin Người, từ đó nhóm các cụm này cho đến khi đạt được tiêu chí dừng.

Luồng xử lý của hệ thống được mô tả như hình vẽ dưới đây:

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 30 - 78)

Tải bản đầy đủ (PDF)

(78 trang)