TIẾNG VIỆT
2.2.1. Các nghiên cứu liên quan trên thế giớ
Chủ đề nghiên cứu nhận dạng thực thể và thuộc tính của thực thể đã nhận đƣợc khá nhiều sự quan tâm của cộng đồng xử lý ngôn ngữ tự nhiên trên thế giới. Từ năm 2007 đến năm 2010, chuỗi hội nghị Web People Search Campaigns (WePS) [SJ09, JAJ10] đƣợc tổ chứctập trung vào bài tốn tìm kiếm tên ngƣời trên web, chuỗi hội nghị này đã đóng góp rất nhiều nghiên cứu quan trọng về bài toán nhận dạng thực thể cũng nhƣ trích chọn thuộc tính của thực thể. Hội nghị WePS đầu tiên giới thiệu nhiệm vụ xử lý nhập nhằng tên ngƣời và chỉ ra rằng các thuộc tính nhƣ ngày sinh, quốc tịch, giới tính, nghề nghiệp, v.v.. là các đặc trƣng đặc biệt quan trọng trong việc giải quyết những trƣờng hợp trùng tên [SJ09]. Do đó, trong hội nghị WePS thứ hai, nhiệm vụ về trích chọn thuộc tính đã đƣợc đƣa ra [SJ09] và nó tiếp tục đƣợc giải quyết trong WePS thứ ba [JAJ10]. Nhiệm vụ này trong WePS 2 là trích chọn 18 giá trị thuộc tính của các cá nhân có tên xuất hiện trong từng trang web đƣợc cung cấp. Để giải quyết nhiệm vụ này, rất nhiều kỹ thuật đã đƣợc các nhà nghiên cứu sử dụng: NER, phân lớp, khai phá text, đối sánh mẫu, khai phá quan hệ, trích chọn thông tin, v.v.. Tuy nhiên, kết quả thực nghiệm trên tập đánh giá với 2.883 văn bản là khá thấp, giá trị F cao nhất đạt đƣợc bởi hệ thống PolyUHK là 12,2% [SJ09]. Nhiệm vụ trích chọn thuộc tính trong WePS 3 tƣơng đối khác so với nhiệm vụ này trong WePS-2, các hệ thống tham dự đƣợc yêu cầu phải liên hệ từng thuộc tính với một ngƣời (phân cụm văn bản). Hệ thống có kết quả tốt nhất đạt F là 18%, độ chính xác P 22% và độ hồi tƣởng R là 24% [JAJ10] trên tập dữ liệu đƣợc hội nghị cung cấp. WePS 2 cũng đƣa ra kết luận rằng một số thuộc tính có tần số xuất hiện cao hơn các thuộc tính khác, ví dụ nhƣ nghề nghiệp, tổ chức, ngày sinh, v.v.. [SJ09]. Dựa vào những thuộc tính có tần số xuất hiện cao nhất do WePS 2đƣa ra, luận án sử dụng 10 loại thuộc tính trong q trình thực nghiệm, bao gồm: tên khác, ngày sinh, ngày mất, nơi sinh, nơi mất, giới tính, nghề nghiệp, quốc tịch, nơi làm việc và thân nhân.
39
Năm 2008, Banko và Etzioni đề xuất mơ hìnhO-CRF [MO08] nhận dạng đồng thời thực thể và các mối quan hệ thuộc tính liên quan đến thực thể dựa trên kỹ thuật gán nhãn chuỗi CRF và các đặc trƣng chung giữa thực thể và thuộc tính.Mơ hình này đạt độ chính xác và độ hồi tƣởng tốt nhất lần lƣợt là 88,3% và 45,2% khi áp dụng thêm một số kỹ thuật lai ghép (ensemble models) giữa mơ hình CRF sử dụng đặc trƣng từ vựng truyền thống với mơ hình CRF sử dụng đặc trƣng liên quan đến quan hệ. Năm 2014, nghiên cứu của Miwa và Sasaki [MY14] cũng thực hiện việc nhận dạng đồng thời thực thể và mối quan hệ thuộc tính bằng kỹ thuật suy luận gộp (joint inference). Kỹ thuật này kết hợp trọng số đầu ra của hai mơ hình học trên hai nhóm đặc trƣng khác nhau vào cùng một bộ giải mã (decode) sử dụng giải thuật Beam Search phục vụ cho việc nhận diện đồng thời cả thực thể và mối quan hệ thuộc tính. Hiệu quả của việc kết hợp nhiều mơ hình học giúp nhận diện đồng thời cả thực thể và thuộc tính chính là một trong những lý do để nghiên cứu sinh sử dụng kỹ thuật này vào trong việc nhận dạng thực thể và thuộc tính tiếng Việt.