Như chúng ta đã phân tích ở mục 5.2, việc nhận dạng các thực thể chỉ tổ chức trong văn bản tiếng Việt là khá khó. Một số thực thể chỉ tổ chức rất khó để nhận biết như:
“Ngân hàng nông nghiệp và phát triển nông thôn” “Công ty Hợp tác lao động nước ngoài”.
“Cục Phòng chống buôn người và bảo vệ trẻ vị thành niên vương quốc
Campuchia”. v.v…
Có thể chúng tôi sẽ phải sử dụng thêm những từ điển đặc biệt, cùng với vận dụng văn cảnh ở mức độ cao để nhận ra các thực thể này.
Tuy đã có cả một phần nhận dạng thông minh nhằm giải quyết sự nhập nhằng của nhóm các từ: “Mỹ, Nga, Nhật v.v…” - nhập nhằng giữa <Person>, <Location> và <Nationality>, nhưng chúng tôi vẫn chưa thể giải quyết triệt để vấn đề này. Ngoài ra
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
52
còn có những trường hợp nhập nhằng giữa <Location> và <Nationality> làm cho kết quả nhận dạng <Nationaltiy> chưa được cao (F-measure: 74.07%). Lấy câu sau làm ví dụ phân tích:
“Sau khi con tàu đã có một bản “ khai sinh ” khác thì bọn chúng tìm mối tiêu
thụ và giao tàu tận nơi , Philippines là địa điểm mà chúng thường đến ... .”
Với câu này, hệ thống nhận “Philippines” là <Nationality> thay vì <Location> (nhận sai), tuy nhiên thật khó để nhận đúng trong trường hợp này. Ta chỉ có thể nhận đúng “Philippines” là <Location> khi sử dụng được ngữ nghĩa của cụm từ đứng sau: “là địa điểm”.
Ngoài thực thể thuộc về quốc gia <Nationality> và thực thể chỉ tổ chức <Organization>, thực thể chỉ tên người <Person> cũng chưa thu được một kết quả nhận dạng như ý (F-measure: 81.22%), trong đó kết quả Recall khá thấp: 71.89%. Cá biệt khi xem xét những lỗi trong quá trình nhận dạng, chúng tôi phát hiện những đoạn văn gồm khá nhiều thực thể chỉ người bị bỏ sót. Ví dụ:
“Người ta giới thiệu chúng tôi gặp S . , một thủy thủ già dặn đã có kinh nghiệm hàng chục năm trong nghề “ vệ sinh tàu bè ” . S . không đồng ý nêu tên thật của anh cho dù giờ đây S . đã là một ông chủ quán bình dị : “ Chúng tôi hay tụ tập tại quán cà phê “ tổng hành dinh ” , khi ấy tôi đang ngồi với hàng chục thủy thủ thất nghiệp khác thì “ ông chủ ” đến , chỉ cần mười phút ra giá là nhóm chúng tôi đi theo ông ta ngay .”
Trong đoạn văn trên “S.” là thực thể chỉ người, tuy nhiên hệ thống lại bỏ qua bởi hiện tại chưa có hệ luật đủ mạnh để vận dụng hết những yếu tố văn cảnh trong quá trình nhận dạng. Cũng phải nói thêm vì xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt nên chúng tôi chưa xử lý triệt để các trường hợp tên viết tắt, hoặc tên viết theo kiểu nước ngoài như: “A. Morgan” v.v… Ở đây dấu “.” không được phép nhận là dấu tách câu (Split).
Ngoài ra, còn một số trường hợp hệ thống nhận dạng lỗi do bộ tách từ hoạt động không chính xác. Ví dụ câu:
53
Câu được tách từ thành: “Linh_cảm thấy buồn.”, và không nhận ra được “Linh” là thực thể chỉ người. Trong khi nếu tách từ đúng “Linh cảm_thấy buồn” thì khả năng “Linh” sẽ được nhận ra là <Person> bởi đứng trước hành động “cảm thấy”, và có xuất hiện trong từ điển tên người.
Chương 6. Tổng kết và hướng phát triển Nguyễn Bá Đạt
54
Chương 6
Tổng kết và hướng phát triển
Có thể nói chúng tôi đã bước đầu xây dựng được một hệ thống mở trên nền GATE để cộng đồng có thể tiếp cận sử dụng và phát triển cho bài toán nhận dạng thực thể trong văn bản tiếng Việt. Tuy nhiên vẫn còn một số thực thể có kết quả nhận dạng khá thấp như: thực thể chỉ tổ chức <Organization>, thực thể thuộc nước <Nationality> và thực thể chỉ người <Person> là do chúng tôi chưa vận dụng được hết những yếu tố văn cảnh vào quá trình nhận dạng.
Bên cạnh hệ thống nhận dạng thực thể cho văn bản tiếng Việt, chúng tôi còn xây dựng được một tài liệu định nghĩa và phận loại các loại thực thể, cùng một tập dữ liệu đã được gán nhãn chuẩn. Khi tập dữ liệu được gán nhãn đủ lớn, chúng tôi có thể sử dụng thêm các thành phần nhận dạng thực thể bằng các phương pháp học máy, làm tăng sức mạnh của hệ thống.
Một hướng phát triển khác đã bắt đầu được chúng tôi sử dụng ở mức độ thấp là kết hợp giữa hệ luật được xây dựng bởi chuyên gia, cùng lý thuyết xác suất mờ để thêm vào những yếu tố văn cảnh trong quá trình nhận dạng thực thể.
Hiện tại, các hệ thống nhận dạng thực thể trong văn bản Tiếng Việt (Nguyễn 2005, Cao 2007) mới chỉ dừng lại ở độ chính xác khoảng 80% (F-measure), vì thế dù không cùng đánh giá trên một tập kiểm tra, nhưng với những kết quả đã đạt được (F- measure – 82.03%) và khả năng có thể cải tiển hệ thống ở nhiều mặt như: cải tiến bộ từ điển, thêm những thành phần xử lý sâu về ngữ cảnh, kết hợp với bộ nhận dạng sử dụng các phương pháp học máy v.v… sẽ hứa hẹn đem lại một hệ thống nhận dạng thực thể trong văn bản tiếng Việt đạt kết quả cao trong tương lai.
55
Tài liệu tham khảo
[1] [Appelt 1995] D. Appelt, SRI International FASTUS system MUC-6 test results
and analysis, Proceedings of the MUC-6, NIST, Morgan-Kaufmann Publisher,
Columbia, 1995.
[2] [Appelt 1999] D. Appelt, An Introduction to information extraction, Artificial
Intelligence Communications, 12, 1999.
[3] [Bechet 2000] F. Bechet, A. Nasr and F. Genet, Tagging Unknown Proper
Names Using Decision Trees, In proceedings of the 38th Annual Meeting of the
Association for Computational Linguistics, 2000.
[4] [Bikel 1998] D. Bikel, S. Miller, R. Schwartz, R. Weischedel, a High- Performance Learning Name-finder, fifth conference on applied natural
language processing, PP 194-201, 1998.
[5] [Borthwick 1998] A. Borthwick, J. Sterling, E, Agichtein, and R. Grishman,
Exploiting diverse knowledge sources via maximum entropy in named entity recognition, Proceedings of the Sixth workshop on Very Large Corpora,
Montreal, Canada, 1998.
[6] [Budi 2003] I. Budi, S. Bressan, Association Rules Mining for Name Entity Recognition, Proceedings of the Fourth International Conference on Web
Information Systems Engineering, 2003.
[7] [Cao 2007] T. Cao, Automatic Extraction of Vietnamese Named-Entities on the
Web, New Generation Computing, Ohmsha, Ltd. And Springer.
[8] [Collins 1999] Collins, Michael and Y. Singer, Unsupervised models for named
entity classification, In proceedings of the Joint SIGDAT Conference on
Empirical Methods in Natural Language Processing and Very Large Corpora, 1999.
Tài liệu tham khảo Nguyễn Bá Đạt
56
[9] [Cowie 1996] Cowie and W.Lehnert, Information Extraction, In Communications of the ACM, 39, 1996.
[10] [Cunningham 1999] H. Cunningham, Information extraction: a User Guide (revised version), Research Menorandum CS-99-07, Department of Computer
Science, University of Sheffied, May, 1999.
[11] [Cunningham 2002] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Applications, Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02). Philadelphia, July 2002.
[12] [Grishman 1995] R. Grishman, The NYU System for MUC-6 or Where's the Syntax, In Proceedings of the Sixth Message Understanding Conference
(MUC-6), 1995.
[13] [Iwanska 1995] L. Iwanska, M. Croll, T. Yoon, and M. Adams, Wayne state university: Description of the UNO processing system as used for MUC-6, In
Proc. of the MUC-6, NIST, Morgan- Kaufmann Publishers, Columbia, 1995. [14] [Kim 2002] J. Kim, I. Kang, k. Choi, Unsupervised Named Entity Classification
Models and their Ensembles, Proceedings of the 19th international conference
on Computational linguistics, 2002.
[15] [Mansouri 2008] A. Mansouri, L. Affendey, A. Mamat, Named Entity Recognition Using a New Fuzzy Support Vector Machine.
[16] [Maynard 2001] D. Maynard, V. Tablan, C. Ursu, H. Cunningham and Y. Wilks, Named Entity Recognition from deverse Test Types.
[17] [Maynard 2003] Maynard, Diana and Bontcheva, Kalina and Cunningham, Hamish, Towards a semantic extraction of named entities. In Proceedings Recent Advances in Natural, Borovets, Bulgaria.
[18] [Morgan 1995]R. Morgan, University of durham: Description of the LOLITA system as used for MUC-6, In Proc of the MUC-6, NIST, Morgan-Kaufmann
57
[19] [Nguyễn 2005] T. Nguyễn, T. Oanh, P. Hieu, H. Thuy, Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional
Ramdom Fields, The 8th Conference on Some selection problems of
Information Technology and Telecommunication, Hai Phong, Viet Nam 2005. [20] [Pastra 2002] K. Pastra, D. Maynard, O. Hamza, H. Cunningham, Y. Wilks,
How feasible is the reuse of grammars for Named Entity Recognition? (2002).
[21] [Phạm 2007] T. Pham, A. Kawazoe; D. Dinh; N. Collier, Construction of Vietnamese corpora for named entity recognition, In Conference RIAO2007,
Pittsburgh PA, U.S.A. May 30-June 1, 2007 – Copyright C.I.D. Paris, France, 2007.
[22] [Wu 2006] Y. Wu, T. Fan, Y. Lee, S. Yen, Extracting Named Entities Using Support Vector Machines, Spring-Verlag, Berlin Heidelberg, 2006.
[23] [Phạm 2009] D. Phạm, Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn
Phụ lục Nguyễn Bá Đạt
58
Phụ lục A. Annotation Guideline.
1. Khái niệm thực thể và tên thực thể
Thực thể (entity): là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự nhiên.
Thực thể thể hiện trong các dạng : o Tên riêng (name entity).
o Danh từ hoặc cụm danh từ chung (common noun, noun phrase). o Đại từ (pronoun).
Trong bài toán nhận dạng thực thể, chúng tôi sử dụng từ “thực thể” để chỉ các thực thể có tên.
2. Các loại thực thể
Person: Thực thể chỉ người
Organization: Thực thể chỉ một tổ chức, một nhóm người được thành lập theo một cấu trúc phân cấp nào đó.
Facility: Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Location: Thực thể chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông, suối v.v…
Nationality: Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia. Religion: Thực thể chỉ các tổ chức tôn giáo.
3. Quy tắc khi nhận dạng thực thể
Khi nhận dạng thực thể trong văn bản ta phải đảm bảo một số quy tắc như sau: không có các tên lồng nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ
59
có hai tên có phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên dài nhất được nhận (longest matching – dài thì thắng).
Ví dụ trong câu:
“Phòng Giáo dục huyện Mỹ Đức.”
ta chỉ nhận “Phòng Giáo dục huyện Mỹ Đức” là thực thể chỉ các tổ chức (Organization) và bỏ qua thực thể chỉ địa điểm “Mỹ Đức”.
4. Phân loại các loại thực thể
4.1 Thực thể chỉ người <Person>
Là các từ chỉ tên riêng của con người, bao gồm cả tên đầy đủ (cả họ và tên) và tên viết tắt (tên).
Ví dụ :
Chủ tịch <PERSON>Hồ Chí Minh</PERSON> Ông <PERSON>Nguyễn Bá Đạt</PERSON> Cầu thủ <PERSON>Hồng Sơn</PERSON>
Cựu tổng thống <PERSON>Saddam Hussein</PERSON> đã bị quân đội Mỹ bắt và giam giữ.
Các trường hợp lưu ý (các trường hợp này không phải là tên người) Các từ(cụm từ) gián tiếp chỉ người. Ví dụ:
o Tổng thống Hoa Kỳ.
o Quả bóng vàng Việt Nam 2008. Các dấu hiệu nhận biết từ loại này :
o Các tiền tố:
Các tiền tố chỉ cách xưng hô :
Ông “Nguyễn Minh Triết”.
Phụ lục Nguyễn Bá Đạt
60
Bác Sơn.
Tuy nhiên trong một vài trường hợp đặc biệt ví dụ: Bà Trưng, Bà Triệu v.v… ta sẽ nhận cả cụm Bà Trưng, Bà Triệu là Person.
Các tiền tố chỉ cách gọi theo quan hệ họ hàng :
Dì Ninh
Chú Duy
Anh Giang.
Các tiền tố chỉ cách gọi theo quan hệ chính trị - địa vị xã hội:
Chủ tịch nước Lê Khả Phiêu.
Giám đốc Đăng.
o Các hậu tố : các từ đi sau thực thể chỉ người thường là các động từ ở dạng chủ động như: chơi, cười, khóc v.v…
Đại cười duyên.
4.2 Thực thể chỉ tổ chức <Organization>
Thực thể chỉ một tổ chức, một nhóm người được thành lập theo một cấu trúc phân cấp nào đó (không bao gồm các tổ chức tôn giáo). Một số loại tổ chức:
Tổ chức chính trị - nhà nước
o <Organization>Văn Phòng Chính Phủ</Organization> o <Organization>Công an Thành phố Hà Nội</Organization> Tổ chức kinh tế
o <Organization>Công ty TNHH Tân Hoàng Phát</Organization> o <Organization>Tập đoàn FPT</Organization>
Tổ chức giáo dục
o <Organization>Trường Đại học Công Nghệ</Organization> o <Organization>Học viện Ngân Hàng</Organization>
61 Tổ chức y tế
o <Organization>Bệnh viện Y Tuệ Tĩnh</Organization> Các tổ chức khác
o <Organization>Hội Chữ Thập Đỏ</Organization> o <Organization>G20</Organization>
Dấu hiệu nhận biết: thực thể chỉ tổ chức thường đứng sau các tiền tố như: Công ty, tập đoàn, trường học, bệnh viện v.v…
4.3 Thực thể chỉ địa điểm <Location>
Thực thể chỉ chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông, suối v.v… Với các tên thành phố, quận, huyện, đường v.v… (mang tính chất hành chính do con người đặt ra)
o Thành Phố <Location>Hồ Chí Minh</Location> o Quận <Location>Tây Hồ</Location>
Tuy nhiên với các trường hợp Quận 5, Tiểu khu 8 v.v… thì sẽ nhận cả cụm Quận 5, Tiểu khu 8 là Location.
Với các tên đảo, đại dương, sông v.v… (mang tính tự nhiên) o <Location>Đảo Bạch Long Vỹ</Location>
o <Location>Sông Hồng</Location> o <Location>Châu Á</Location>
Dấu hiệu nhận biết: đứng sau các tiền tố chỉ nơi trốn: ở, trong, ngoài, tại v.v… Tôi sinh ra tại <Location>Hà Tây</Location>
Chiến Tranh đã nổ ra ở <Location>Đại Tây Dương</Location>
4.4 Thực thể chỉ thực thể do con người tạo ra <Facility>
Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Phụ lục Nguyễn Bá Đạt
62 Ví dụ
Tòa nhà <Facility> HITC</Facility> đang được xây mới.
Cầu <Facility>Trắng</Facility>
4.5 Thực thể chỉ thực thể thuộc về quốc gia <Nationality>
Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia. Ví dụ
Cô hướng dẫn viên du lịch người <Nationality>Hoa</Nationality> Chính phủ <Nationality> Việt Nam</Nationality>
<Location>Quần đảo Hoàng Sa</Location> của <Nationality> Việt Nam</Nationality>
4.6 Thực thể chỉ các tổ chức tôn giáo <Religion>
Thực thể chỉ các tổ chức tôn giáo như Phật Giáo, Thiên chúa giáo v.v… Ví dụ
Tôi là người theo <Religion>đạo Phật</Religion> <Religion>Hội Phật Giáo Việt Nam<Religion>
63
Phụ lục B. Bảng nhãn từ loại tiếng Việt
Np danh từ riêng proper noun Nc danh từ đơn thể countable noun Ng danh từ tổng thể collective noun Nt danh từ loại thể classifier noun Nu danh từ chỉ đơn vị concrete noun Na danh từ trừu tượng abstract noun Nn danh từ số lượng numeral Nl danh từ vị trí locative noun Vt động từ ngoại động transitive verb Vit động từ nội động intransitive verb Vim động từ cảm nghĩ impression verb Vo động từ chỉ hướng orientation verb Vs động từ tồn tại state verb
Vb động từ biến hoá transformation verb Vv động từ ý chí volotive verb
Va động từ tiếp thụ acceptation verb Vc động từ so sánh comparative verb Vm động từ chuyển động move verb
Vla động từ "là" “là” verb
Phụ lục Nguyễn Bá Đạt
64
Vta động từ ngoại động tiếp thụ transitive-acceptation verb Vtc động từ ngoại động so sánh transitive-comparative verb Vtb động từ ngoại động biến hoá transitive-transformation verb Vto động từ ngoại động chỉ hướng transitive-orientation verb Vts động từ ngoại động tồn tại transitive-state verb Vtm động từ ngoại động chuyển động transitive-move verb Vtv động từ ngoại động ý chí transitive-volotive verb Vitim động từ nội động cảm nghĩ intransitive-impression verb Vitb động từ nội động biến hoá intransitive-transformation verb Vits động từ nội động tồn tại intransitive-state verb
Vitc động từ nội động so sánh intransitive-comparative verb Vitm động từ nội động chuyển động intransitive-move verb
Aa tính từ hàm chất quality adjective An tính từ hàm lượng quantity adjective
Pp đại từ xưng hô personal pronoun
Pd đại từ không gian, thời gian demonstrative pronoun
Pn đại từ số lượng quantity pronoun
Pa đại từ hoạt động, tính chất quality pronoun Pi đại từ nghi vấn interrogative pronoun Jt phụ từ chỉ thời gian time adjunct
Jd phụ từ chỉ mức độ degree adjunct
Jr phụ từ so sánh rapport adjunct
Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation Ji phụ từ mệnh lệnh imperative adjunct
65
Cm giới từ major/minor conjunction
Cc liên từ combination conjunction
E cảm từ emotion word
I trợ từ introductory word