Nhận dạng thực thể định danh trong văn bản tiếng Việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	575,16 KB

Nội dung

Bài báo giới thiệu hệ thống nhận dạng thực thể định danh trong văn bản tiếng Việt dựa trên tập luật. Luật được xây dựng để tìm kiếm các mẫu qua quá trình so khớp. Các thực thể trong mẫu sau đó sẽ được phân loại vào từng lớp cụ thể dựa vào thông tin ngữ cảnh mà mẫu cung cấp. Kết quả thực nghiệm của hệ thống là tương đối khả quan với độ đo F đạt 80,64%.

NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT NGUYỄN LÊ TRUNG THÀNH Trường Đại học Sư phạm – Đại học Huế ĐT: 0902 615 658, Email: nguyenthanh224@gmail.com Tóm tắt: Nhận dạng thực thể định danh toán xác định lớp thực thể văn (thực thể tên người, tên tổ chức, tên địa điểm, ) Nhận dạng thực thể định danh toán nhiều vấn đề xử lý ngôn ngữ tự nhiên truy vấn thông tin, trích xuất thơng tin, dịch máy, hệ thống hỏi đáp, tóm tắt văn tự động Bài báo giới thiệu hệ thống nhận dạng thực thể định danh văn tiếng Việt dựa tập luật Luật xây dựng để tìm kiếm mẫu qua trình so khớp Các thực thể mẫu sau phân loại vào lớp cụ thể dựa vào thông tin ngữ cảnh mà mẫu cung cấp Kết thực nghiệm hệ thống tương đối khả quan với độ đo F đạt 80,64% Từ khóa: nhận dạng thực thể định danh, hệ thống nhận dạng dựa tập luật, xử lý ngôn ngữ tự nhiên, văn tiếng Việt GIỚI THIỆU Nhận dạng thực thể định danh toán quan trọng xử lý ngôn ngữ tự nhiên Nhận dạng thực thể định danh bao gồm xác định phân loại thực thể văn vào lớp gồm lớp Người, Tổ chức, Địa điểm lớp Khác (các thực thể khơng thuộc ba lớp trên) Kết q trình nhận dạng thực thể định danh sử dụng nhiều lĩnh vực truy vấn thơng tin, trích xuất thơng tin, dịch máy, hệ thống hỏi đáp, tóm tắt văn Bài báo giới thiệu hệ thống nhận dạng thực thể định danh tiếng Việt dựa tập luật Phần đề cập đến nghiên cứu liên quan Phần mô tả cách xây dựng hệ thống nhận dạng thực thể định danh dựa tập luật trình bày tập luật mà tác giả xây dựng Thực nghiệm hệ thống hiệu đánh giá phần Phần trình bày kết luận hướng phát triển tiếp tương lai CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN Nhiều nghiên cứu nhận dạng thực thể định danh thực với cách tiếp cận khác Có thể phân chia làm hai cách tiếp cận chính: tiếp cận dựa tập luật cách tiếp cận dựa vào kỹ thuật học máy Với cách tiếp cận học máy, học có giám sát kỹ thuật chiếm ưu Một số kỹ thuật học có giám sát bao gồm mơ hình Markov ẩn, mơ hình entropy cực đại [1], máy vectơ hỗ trợ, trường điều kiện ngẫu nhiên [5] Đối với tiếng Việt, Tu cộng [6] xây dựng hệ thống sử dụng trường điều kiện ngẫu nhiên Tran cộng [8] sử dụng máy vectơ hỗ trợ để nhận dạng thực thể định danh Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế ISSN 1859-1612, Số 02(42)/2017: tr 109-115 Ngày nhận bài: 22/02/2017; Hoàn thành phản biện: 05/4/2017; Ngày nhận đăng: 10/4/2017 NGUYỄN LÊ TRUNG THÀNH 110 Bên cạnh học có giám sát, kỹ thuật học bán giám sát thường sử dụng để nhận dạng thực thể bootstrapping Kỹ thuật bootstrapping cần tập liệu huấn luyện tương đối nhỏ bắt đầu q trình học Một nghiên cứu sử dụng kỹ thuật bootstrapping có ảnh hưởng Riloff Jones [10] Với cách tiếp cận tập luật, hệ thống nhận dạng thực thể định danh thông qua luật thiết kế người Các thực thể nhận dạng kỹ thuật so trùng mẫu dựa vào đặc trưng chữ viết thường, viết hoa, từ loại, từ đứng trước, từ đứng sau, Với cách tiếp cận này, Appelt cộng [2] thiết kế hệ thống FASTUS nhận dạng thực thể định danh biểu thức quy Cao cộng [11] sử dụng luật hệ thống VN KIM IE nhận biết thích tự động cho thực thể có tên trang web tiếng Việt Bên cạnh hướng tiếp cận đề cập, số hệ thống sử dụng hướng tiếp cận lai kết hợp tập luật kỹ thuật học máy nhằm tận dụng ưu điểm phương pháp R Sirhari cộng giới thiệu hệ thống lai cách kết hợp tập luật, mơ hình Markov ẩn entropy cực đại [9] HỆ THỐNG NHẬN DẠNG THỰC THỂ ĐỊNH DANH 3.1 Kiến trúc hệ thống Hệ thống nhận dạng thực thể định danh văn tiếng Việt xây dựng ứng dụng (application) GATE GATE (General Architecture for Text Engineering) kiến trúc tổng quát để phát triển ứng dụng xử lý ngôn ngữ tự nhiên [3] Kiến trúc hệ thống mơ tả hình 3.1 Hệ thống bao gồm bốn phần: tách từ; gán nhãn từ loại; từ điển tập luật Ban đầu, văn tách từ gán nhãn từ loại Trong đó, tách từ sử dụng vnTokenizer [4], gán nhãn từ loại sử dụng vnTagger [7] Các từ điển xây dựng qua trình làm việc ngữ liệu tiếng Việt cách liệt kê thực thể người, địa điểm, tổ chức nhận dạng với từ thường xuất với thực thể kể Một từ thuộc văn so khớp với từ thuộc từ điển GATE tự động gán nhãn thích Lookup từ Thơng tin kiểu từ điển nhãn Lookup kết hợp với thông tin khác nhãn thích (annotation) khác từ kiểu viết thường, viết hoa, từ loại, nội dung từ, làm sở cho tập luật nhận dạng thực thể định danh Hình Hệ thống nhận dạng thực thể định danh văn tiếng Việt NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT 111 3.2 Tập luật nhận dạng Về hình thức, luật cặp mẫu / cách thực thi (pattern / action) Trong đó, mẫu thể khn dạng nhóm từ thơng qua thơng tin nhãn thích từ đó; cách thực thi hành động thực mẫu tìm thấy qua trình so khớp Ví dụ, mẫu giúp nhận dạng tên công ty thể sau: (tiền tố cơng ty) (loại hình cơng ty) (ứng viên tên cơng ty) -> ứng viên tên công ty gán nhãn “Organization” (tổ chức) Một cụm từ phân loại thuộc lớp tổ chức so khớp với mẫu vế trái luật Ví dụ, cụm từ “cơng ty TNHH Phú Quốc” phân loại thuộc lớp tổ chức có từ bắt đầu tiền tố công ty (“công ty”), từ loại hình cơng ty (“TNHH”) cuối ứng viên tên cơng ty gồm từ có chữ đầu viết hoa (“Phú Quốc”) “Phú Quốc” trường hợp nhận dạng tên tổ chức Các luật cụ thể hóa GATE luật JAPE (Java Annotation Pattern Engine) Với luật JAPE, người dùng tạo mẫu biểu thức quy nhãn tạo nhãn mẫu so khớp Cặp mẫu / cách thực thi thể vế trái > vế phải JAPE Ví dụ, mẫu nhận dạng cơng ty thể sau: Rule: Corporation1 ( ({Lookup.majorType == corporation-prefix}) ({Lookup.majorType == corporation-type}) (CANDIDATE):name ):corp > :name.Organization = {type = "Corporation", rule = "Corporation1"}, :corp.OrganizationWrap = {type = "Corporation", rule = "Corporation1"} Trong đó, corporation-prefix thể cụm từ tiền tố cơng ty, corporation-type thể loại hình cơng ty, CANDIDATE thành phần thay (macro) thể cụm từ bắt đầu chữ viết hoa – ứng viên tên công ty Một cụm từ so khớp với mẫu vế trái gán nhãn “OrganizationWrap” cụm từ ứng viên thành phần thay gán nhãn “Organization” Các luật thực cách Nhãn thích sinh luật thực trước sử dụng liệu đầu vào cho luật thực sau Ví dụ, cụm từ “tỉnh Thừa Thiên Huế” nhận dạng tên địa phương giúp nhận dạng cụm từ “UBND tỉnh Thừa Thiên Huế” tổ chức so khớp mẫu: NGUYỄN LÊ TRUNG THÀNH 112 (tiền tố tổ chức) (thực thể địa điểm) > Gán toàn cụm từ (tiền tố tổ chức) (thực thể địa điểm) thực thể tổ chức Thứ tự thực luật hệ thống nhận dạng địa điểm, tổ chức, tên người Sau bước này, số luật xây dựng để nhận dạng lại thực thể dựa thông tin địa điểm, tổ chức, tên người thu từ bước trước Ví dụ luật dựa thơng tin địa điểm, tổ chức nhận dạng trước để nhận dạng tên người (tiền tố chức vụ) (thực thể tổ chức) (thực thể địa điểm) (ứng viên) > Gán cụm từ (ứng viên) thực tể tên người Với luật cụm từ “CEO Microsoft Việt Nam Vũ Minh Trí” có “CEO” nhận dạng chức vụ, “Microsoft” nhận dạng tổ chức, “Việt Nam” nhận dạng địa điểm cụm từ ứng viên “Vũ Minh Trí” nhận dạng tên người THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Tập liệu Dữ liệu thu thập từ 200 báo trang báo điện tử thanhnien.vn, tuoitre.vn vnexpress.net Các tài liệu chuẩn hóa để có loại mã (encoding) UTF-8 Các ký hiệu không cần thiết phát sinh từ trình chép nội dung trang web *,^ thích ảnh viết tiếng Việt khơng dấu “tong-thong-BarackObama-doc-dien-van” loại bỏ trước văn đưa vào tập liệu thức Sau đó, liệu trộn lẫn chia làm phần cách ngẫu nhiên: phần (ký hiệu D1) gồm 150 báo, phần (ký hiệu D2) gồm 50 báo Tập liệu D1 sử dụng để tạo từ điển tập luật Tập liệu D2 dùng để kiểm tra Các thực thể định danh tập liệu D2 gán nhãn phương pháp thủ công 4.2 Độ đo Hiệu hoạt động hệ thống nhận dạng thực thể định danh đánh giá qua độ đo sau: N1 Độ xác P (Precision): P = N2 ×100% Độ đầy đủ R (Recall): R= Độ đo F (F-score): F = 2× N1 ×100% N3 P×R ×100% P+R Trong đó, N1 số thực thể nhận dạng xác hệ thống, N2 số thực thể nhận dạng hệ thống (có thể xác khơng), N3 số thực thể thực tế NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT 113 4.3 Kết tập liệu kiểm tra Hệ thống nhận dạng thực thể định danh tập liệu D2 gồm gồm 989 câu, 19846 từ Kết nhận dạng sử dụng tập luật tác giả xây dựng thể bảng Kết thu tập liệu kiểm tra khả quan với độ đo F tổng thể đạt 80,64% Trong đó, độ đo F thực thể người 81,20%; thực thể tổ chức 68,51% thực thể địa điểm 84,85% Trong loại thực thể, thực thể địa điểm nhận dạng hiệu tốt với độ xác P 82,44%, độ bao phủ R 87,41% độ đo F 84,85% Bảng Kết nhận dạng thực thể định danh tập liệu kiểm tra Loại Số thực thể thực tế Số thực thể nhận dạng Số thực thể nhận dạng Độ xác P (%) Độ bao phủ R (%) Độ đo F (%) Người 324 309 257 83,17 79,32 81,20 Tổ chức 238 194 148 76,28 62,18 68,51 Địa điểm 564 598 493 82,44 87,41 84,85 Tất 1126 1101 898 81,56 79,75 80,64 Các thực thể địa điểm với đặc điểm thông thường gồm đến tiếng viết hoa chữ tạo nên thuận lợi cho việc nhận dạng Trong đó, thực thể tổ chức có hiệu nhận dạng thấp với độ đo F 68,51% phức tạp cấu tạo tên tổ chức “Hội Khoa học Phát triển Nguồn nhân lực nhân tài Việt Nam”, “Hiệp hội trường CĐ, trung cấp kinh tế, kỹ thuật” Bên cạnh đó, tên tổ chức thường viết trực tiếp mà không kèm với tiền tố tổ chức gây khó khăn cho việc nhận dạng Ví dụ câu sau: Ông Yuri vừa nâng cổ phần Bank Rossiya lên 60% “Bank Rossiya” không nhận dạng tên tổ chức dấu hiệu nhận biết “cổ phần” nằm ngữ cảnh nhận dạng Hiệu tương đối thấp việc nhận dạng tên tổ chức ảnh hướng đến việc nhận dạng tên người, đặc biệt tên người có liên quan đến tổ chức thể câu sau: Chủ tịch Hiệp hội trường CĐ, trung cấp kinh tế, kỹ thuật Hồng Lâm vừa có chuyến thăm làm việc với Đại học Huế Do “Hiệp hội trường CĐ, trung cấp kinh tế, kỹ thuật” không nhận dạng tổ chức nên chủ tịch “Hồng Lâm” khơng nhận dạng tên người câu Bên cạnh đó, việc nhận dạng tên người gặp số khó khăn nhập nhằng tên người tên địa điểm ví dụ sau: Sinh viên Huế tham dự thi "Đường chạy nghị lực VNU will run" 2016 NGUYỄN LÊ TRUNG THÀNH 114 Trong trường hợp này, “Huế” hiểu sinh viên tên Huế hay sinh viên (Đại học) Huế hợp lý Chính nhập nhằng tên người nên có cấu trúc đơn giản số trường hợp tên người khó để nhận Hiệu nhận dạng tên người thể qua độ đo F đạt 81,20% Hiệu nhận dạng chung hệ thống hứa hẹn cải tiến liệu mở rộng đồng nghĩa với từ điển tập luật phong phú Bên cạnh đó, q trình nhận dạng cần sử dụng nhiều yếu tố ngữ cảnh Phân giải đồng tham chiếu giải pháp tận dụng yếu tố ngữ cảnh để nhận dạng Thêm vào đó, kết hợp với phương pháp học máy để tìm ứng viên tiềm cho thực thể định danh KẾT LUẬN Bài báo trình bày vấn đề nhận dạng thực thể định danh Hệ thống nhận dạng thực thể định danh văn tiếng Việt thiết kế tảng khung làm việc GATE với tập luật nhận dạng xây dựng nhóm tác giả Hệ thống thử nghiệm tập liệu 50 báo trực tuyến Kết thu khả quan với độ đo F tổng thể đạt 80,64% Trong đó, độ đo F thực thể người 81,20%; thực thể tổ chức 68,51% thực thể địa điểm 84,85% Kết thu phần khẳng định hiệu hệ thống nhận dạng thực thể định danh dựa tập luật Tuy nhiên, kết thu khiêm tốn, hệ thống tiếp tục phát triển theo hướng: mở rộng kho ngữ liệu huấn luyện, từ phát nhiều mẫu để làm phong phú thêm tập luật nhận dạng; mở rộng từ điển nhờ tận dụng phong phú kho ngữ liệu Có thể phát triển từ điển cách tự động nhờ vào từ đồng nghĩa, từ điển WordNet; thực phân giải đồng tham chiếu cụm danh từ để hạn chế nhập nhằng thực thể; kết hợp với phương pháp học máy để tìm ứng viên thực thể Các ứng viên kiểm tra lại tập luật trước gán nhãn Trong tương lai hệ thống tiếp tục nghiên cứu phát triển để đạt độ xác tốt TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] D Borthwick, Andrew; Sterling, J.; Agichtein, E.; Grishman, R (1998) NYU: Description of the MENE Named Entity System as used in MUC-7 In Proc Seventh Message Understanding Conference D Appelt, and et al., (1993) FASTUS: A finite state processor for information extraction from real-world text Proceedings of IJCAI H Cunningham, D Maynard, K Bontcheva, V Tablan (2002) GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Application Proceedings of ACL'02 Philadelphia Hong-Phuong Le, Minh-Huyen Thi Nguyen, Azim Roussanaly, and Tuong-Vinh Ho (2008) A Hybrid Approach to Word Segmentation of Vietnamese Texts Language and Automata Theory and Applications, page 240 McCallum, Andrew; Li, W (2003) Early Results for Named Entity Recognition with Conditional Random Fields, Features Induction and Web-Enhanced Lexicons In Proc Conference on Computational Natural Language Learning NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT [6] [7] [8] [9] [10] [11] 115 Nguyen Cam Tu, Tran Thi Oanh, Phan Xuan Hieu, and Ha Quang Thuy (2005) Named entity recognition in Vietnamese free-text and web documents using conditional random fields In Conference on Some Selection Problems of Information Technology and Telecommunication Phuong Le-Hong, Azim Roussanaly, T M Huyen Nguyen, Mathias Rossignol (2010) An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts Traitement Automatique des Langues Naturelles Q Tri Tran, T.X Thao Pham, Q Hung Ngo, Dien Dinh, and Nigel Collier (2007) Named entity recognition in Vietnamese documents Progress in Informatics, 5:14–17 R Sirhari, C Niu, W Li (2000) A Hybrid Approach for Named Entity and Sub-Type Tagging In Proceedings of the sixth conference on Applied natural language processing, ACM Riloff, E and Jones, R (1999) Learning Dictionaries for Information Extraction by MultiLevel Bootstrapping In Proceedings of the AAAI Conference on Artificial Intelligence, Orlando, Florida, pages 474–479 JOHN WILEY & SONS LTD T Cao (2007) Automatic Extraction of Vietnamese Named Entities on the Web New Generation Computing, Springer Title: NAMED ENTITY RECOGNITION IN VIETNAMESE DOCUMENTS Abstract: Named Entity Recognition (NER) is the process of classifying different entity types (e.g person, organization, location, etc.) in documents NER is considered to be crucial in many natural language processing tasks such as information retrieval, information extraction, machine translation, question answering system, automatic text summarization This paper presents a NER rule-based system which is applied to Vietnamese documents Rules are created and used to find patterns through matching process Entities in matched pattern are classified into specific categories based on its contextual information The experimental result with an overall F-score of 80,64% shows that this system achieves significant accuracy Keywords: Named Entity Recognition (NER), rule-based system, natural language processing, Vietnamese documents ... sở cho tập luật nhận dạng thực thể định danh Hình Hệ thống nhận dạng thực thể định danh văn tiếng Việt NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT 111 3.2 Tập luật nhận dạng Về hình thức,... ×100% P+R Trong đó, N1 số thực thể nhận dạng xác hệ thống, N2 số thực thể nhận dạng hệ thống (có thể xác khơng), N3 số thực thể thực tế NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT 113... độ bao phủ R 87,41% độ đo F 84,85% Bảng Kết nhận dạng thực thể định danh tập liệu kiểm tra Loại Số thực thể thực tế Số thực thể nhận dạng Số thực thể nhận dạng Độ xác P (%) Độ bao phủ R (%) Độ

Ngày đăng: 18/05/2021, 19:33