1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NHẬN DẠNG THỰC THỂ TRONG văn bản TIẾNG VIỆT

73 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,3 MB

Nội dung

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Bá Đạt NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin Hà Nội – 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Bá Đạt NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: GV hướng dẫn: Cơng Nghệ Thông Tin TS Phạm Bảo Sơn Hà Nội – 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhận dạng thực thể văn Tiếng Việt Nguyễn Bá Đạt Lời mở đầu Bài toán nhận dạng thực thể văn toán quan trọng nhóm tốn rút trích thơng tin Nó có nhiệm vụ tìm kiếm phân loại thực thể như: thực thể người, thực thể tổ chức, thực thể địa điểm v.v… Trong khóa luận này, chúng tơi giới thiệu hệ thống nhận dạng thực thể văn tiếng Việt phát triển nguồn mở GATE (General Architecture for Text Engineering), với kết khả quan: F-measure – 82.03% Toàn hệ thống tài liệu liên quan gồm: định nghĩa thực thể, cách phân loại thực thể tập liệu gán nhãn chuẩn mở cho cộng động sử dụng phát triển i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhận dạng thực thể văn Tiếng Việt Nguyễn Bá Đạt Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc đến thầy TS Phạm Bảo Sơn, người không quản vất vả hướng dẫn em suốt thời gian làm khóa luận tốt nghiệp vừa qua Em xin chân thành cảm ơn thầy TS Bùi Thế Duy bảo em có vấn đề vướng mắc Em xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo Trường Đại Học Cơng Nghệ tận tình dạy dỗ em suốt bốn năm học qua Tôi xin chân thành cảm ơn đề tài “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt”, mã số KC01.01/06-10 hỗ trợ kinh phí liệu để tơi hồn thành khóa luận Con xin cảm ơn bố, mẹ gia đình ln bên con, cho động lực để làm việc tốt Cảm ơn bé Ngân bên động viên tớ Cảm ơn tất bạn bè sát cánh Hà Nội, ngày 20 tháng năm 2009 Nguyễn Bá Đạt ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhận dạng thực thể văn Tiếng Việt Nguyễn Bá Đạt Mục lục Lời mở đầu i Lời cảm ơn ii Mục lục iii Danh sách hình vẽ v Danh sách bảng vi Chương Giới thiệu Chương Các hướng tiếp cận cho toán nhận dạng thực thể 2.1 Hướng tiếp cận sử dụng hệ luật cho toán nhận dạng thực thể 2.2 Hướng tiếp cận sử dụng phương pháp học máy cho toán nhận dạng thực thể 2.3 Hướng tiếp cận lai 10 Chương Giới thiệu GATE 11 3.1 Tổng quan GATE 11 3.2 Những khái niệm khung làm việc GATE 13 3.3 Bộ từ điển (Gazetteers) 14 3.4 Bộ luật JAPE 15 3.4.1 Mệnh đề trái (LHS) 16 3.4.2 Thành phần thay (Macros) 17 3.4.3 Mệnh đề phải (RHS) 18 3.4.4 Sử dụng đoạn mã Java JAPE 19 3.4.5 Một vài lựa chọn viết luật 20 3.5 Tạo thêm thành phần tích hợp khung làm việc GATE 22 3.6 Tạo ứng dụng GATE 25 3.7 Các công cụ quản lý chất lượng 25 3.7.1 Công cụ đánh giá độ tương đồng gán nhãn hai văn (Annotation Diff) 26 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhận dạng thực thể văn Tiếng Việt Nguyễn Bá Đạt 3.7.2 Công cụ đánh giá chất lượng hệ thống (Corpus Benchmark tool) 26 Chương Nhận dạng thực thể văn tiếng Việt 28 4.1 Định nghĩa thực thể, loại thực thể cách phân biệt loại thực thể 29 4.1.1 Các khái niệm 29 4.1.1.1 Định nghĩa thực thể tên thực thể 29 4.1.1.2 Các loại thực thể nhận dạng 29 4.1.2 Quy tắc nhận dạng thực thể 30 4.2 Chuẩn bị tập liệu 30 4.3 Xây dựng hệ thống nhận dạng thực thể văn tiếng Việt 32 4.3.1 Bộ tách từ gán nhãn từ loại 33 4.3.2 Bộ từ điển 35 4.3.3 Bộ luật 37 4.3.3.1 Chuẩn hóa tập nhãn Lookup 38 4.3.3.2 Tạo nhãn “NamePhrase” 38 4.3.3.3 Nhận dạng thực thể cơng trình 39 4.3.3.4 Nhận dạng thực thể địa điểm thực thể thuộc quốc gia 39 4.3.3.5 Nhận dạng thực thể tổ chức 41 4.3.3.6 Nhận dạng thực thể tổ chức tôn giáo 41 4.3.3.7 Nhận dạng thực thể người 42 4.3.3.8 Sử dụng văn cảnh trình nhận dạng thông minh 42 Chương Kết thực nghiệm phân tích lỗi 48 5.1 Các bước tiến hành thực nghiệm 48 5.2 Kết thực nghiệm 48 5.3 Phân tích lỗi 51 Chương Tổng kết hướng phát triển 54 Tài liệu tham khảo 55 Phụ lục A Annotation Guideline 58 Phụ lục B Bảng nhãn từ loại tiếng Việt 63 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhận dạng thực thể văn Tiếng Việt Nguyễn Bá Đạt Danh sách hình vẽ Hình 2.1 - Kết cho 10 lần thực nghiệm Nguyễn Cẩm Tú (Nguyễn 2005) Hình 3.1 - Kiến trúc tổng quát GATE 12 Hình 3.2 - Giao diện thêm thành phần tích hợp vào GATE 24 Hình 3.3 - Chọn thành phần cho ứng dụng GATE 25 Hình 3.4 - Giao diện Annotation Diff 27 Hình 3.5 - Giao diện Corpus Benchmark tool 27 Hình 4.1 - Mơ hình bước phát triển hệ thống 31 Hình 4.2 - Mơ tả chi tiết hệ thống nhận dạng thực thể văn tiếng Việt 32 Hình 4.3 - Mô tả kết nhận dạng trường hợp nhập nhằng Person Nationality 43 Hình 4.4 – Một ví dụ cho q trình nhận dạng thông minh 45 Hình 4.5 - Trường hợp hệ thống nhận dạng dãy thực thể cạnh 46 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhận dạng thực thể văn Tiếng Việt Nguyễn Bá Đạt Danh sách bảng Bảng 3.1 – Minh họa nhãn (annotation) 14 Bảng 5.1 – Kết nhận dạng tập huấn luyện 49 Bảng 5.2 – Bảng kết nhận dạng tập kiểm tra 49 Bảng 5.3 – Kết nhận dạng tập kiểm tra với tiêu chí “lỏng” ( lenient evaluation) 50 Bảng 5.4 – Kết thực nghiệm số hệ thống nhận dạng thực thể văn tiếng Việt 51 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Giới thiệu toán nhận dạng thực thể Nguyễn Bá Đạt Chương Giới thiệu Với bùng nổ nguồn liệu Internet, tốn xử lý thơng tin như: trích chọn thơng tin, tóm tắt nội dung văn v.v… đời nhu cầu tất yếu Bài toán nhận dạng thực thể toán nhóm tốn trích chọn thơng tin Nó có nhiệm vụ tìm kiếm rút thông tin liên quan đến thực thể (một đối tượng tập hợp đối tượng giới tự nhiên) văn bản, thông thường loại thực thể Có thể tùy theo tốn, lĩnh vực cụ thể, người ta đưa danh sách loại thực thể nhận dạng khác Các hệ thống nhận dạng thực thể văn (Cao 2007, Mansouri 2008) thường nhận số loại thực thể: Thực thể người (Person) Thực thể tổ chức (Organization) Thực thể địa điểm (Location) Thực thể ngày (Date) Thực thể thời gian (Time) Thực thể đơn vị tiền tệ (Money) Thực thể phần trăm (Percent) Trong đó, loại thực thể ngày (Date), thực thể thời gian (Time), thực thể đơn vị tiền tệ (Money), thực thể phần trăm (Percent) thường mang tính nhập nhằng, khơng khó để nhận dạng Ngoài tùy lĩnh vực, người ta ý LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Giới thiệu toán nhận dạng thực thể Nguyễn Bá Đạt thêm vào loại thực thể khác đặc thù Ví dụ hệ thống nhận dạng thực thể văn với lĩnh vực y tế (Phạm 2007) nhận thực thể tên thuốc, loại bệnh v.v… loại thực thể Có ba hướng tiếp cận cho toán nhận dạng thực thể văn bản: hướng tiếp cận sử dụng hệ luật xây dựng chuyên gia (Maynard 2001, Cao 2007), hướng tiếp cận sử dụng phương pháp học máy (Mansouri 2008) hướng tiếp cận lai (Fang 2002) Tuy mang tính tự động cao, hướng tiếp cận sử dụng phương pháp học máy hướng tiếp cận lai đòi hỏi cần phải có tập liệu gán nhãn (annotated corpus) đủ lớn cho trình huấn luyện Trong đó, hướng tiếp cận sử dụng hệ luật xây dựng chuyên gia lại không yêu cầu điều này, hệ thống hoạt động hệ luật hình thành Là tốn quan trọng chưa có nhiều nghiên cứu tốn nhận dạng thực thể văn tiếng Việt Hơn hệ thống thời nguồn mở nên khó để tiếp cận sử dụng phát triển (Nguyễn 2005, Cao 2007) Chính chúng tơi định xây dựng hệ thống nhận dạng thực thể sử dụng hệ luật cho văn tiếng Việt nguồn mở khung làm việc GATE (General Architecture for Text Engineering)1 Toàn hệ thống mở cho cộng đồng sử dụng phát triển Song song với việc phát triển hệ thống, xây dựng tài liệu bao gồm: định nghĩa thực thể, loại thực thể, với tập liệu gán nhãn chuẩn (corpus) cho toán nhận dạng thực thể văn tiếng Việt Website thức GATE: http://gate.ac.uk/download/index.html LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Nguyễn Bá Đạt Rõ ràng kết nhận dạng thực thể khác khơng tăng nhiều, kết nhận dạng thực thể tổ chức tăng đáng kể (F-measure từ 61.72% lên 74.07%) Bảng 5.4 thể kết hệ thống nhận dạng thực thể văn tiếng Việt (Nguyễn 2005, Cao 2007) Tuy không so sánh tập kiểm tra, với kết tương đương (F-measure: 82.03%), nhiều hướng cải tiến: mở rộng từ điển, cải tiến luật để sử dụng tốt yếu tố văn cảnh v.v… tin hệ thống tảng để phát triển thành hệ thống nhận dạng thực thể văn tiếng Việt đạt hiệu cao Bảng 5.4 – Kết thực nghiệm số hệ thống nhận dạng thực thể văn tiếng Việt Precision Recall F-measure Hệ thống nhận dạng thực thể sử dụng CRF (Nguyễn 2005) 81.85% 79.35% 80.53% Hệ thống VN-KIM IE (Cao 2007 81.37% 81.37% 81.37% 5.3 Phân tích lỗi Như phân tích mục 5.2, việc nhận dạng thực thể tổ chức văn tiếng Việt khó Một số thực thể tổ chức khó để nhận biết như: “Ngân hàng nông nghiệp phát triển nông thôn” “Công ty Hợp tác lao động nước ngồi” “Cục Phịng chống bn người bảo vệ trẻ vị thành niên vương quốc Campuchia” v.v… Có thể chúng tơi phải sử dụng thêm từ điển đặc biệt, với vận dụng văn cảnh mức độ cao để nhận thực thể Tuy có phần nhận dạng thơng minh nhằm giải nhập nhằng nhóm từ: “Mỹ, Nga, Nhật v.v…” - nhập nhằng , , chưa thể giải triệt để vấn đề Ngoài 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Nguyễn Bá Đạt cịn có trường hợp nhập nhằng làm cho kết nhận dạng chưa cao (F-measure: 74.07%) Lấy câu sau làm ví dụ phân tích: “Sau tàu có “ khai sinh ” khác bọn chúng tìm mối tiêu thụ giao tàu tận nơi , Philippines địa điểm mà chúng thường đến ” Với câu này, hệ thống nhận “Philippines” thay (nhận sai), nhiên thật khó để nhận trường hợp Ta nhận “Philippines” sử dụng ngữ nghĩa cụm từ đứng sau: “là địa điểm” Ngoài thực thể thuộc quốc gia thực thể tổ chức , thực thể tên người chưa thu kết nhận dạng ý (F-measure: 81.22%), kết Recall thấp: 71.89% Cá biệt xem xét lỗi trình nhận dạng, phát đoạn văn gồm nhiều thực thể người bị bỏ sót Ví dụ: “Người ta giới thiệu gặp S , thủy thủ già dặn có kinh nghiệm hàng chục năm nghề “ vệ sinh tàu bè ” S không đồng ý nêu tên thật anh cho dù S ông chủ qn bình dị : “ Chúng tơi hay tụ tập quán cà phê “ tổng hành dinh ” , ngồi với hàng chục thủy thủ thất nghiệp khác “ ơng chủ ” đến , cần mười phút giá nhóm theo ông ta ” Trong đoạn văn “S.” thực thể người, nhiên hệ thống lại bỏ qua chưa có hệ luật đủ mạnh để vận dụng hết yếu tố văn cảnh q trình nhận dạng Cũng phải nói thêm xây dựng hệ thống nhận dạng thực thể văn tiếng Việt nên chưa xử lý triệt để trường hợp tên viết tắt, tên viết theo kiểu nước như: “A Morgan” v.v… Ở dấu “.” không phép nhận dấu tách câu (Split) Ngồi ra, cịn số trường hợp hệ thống nhận dạng lỗi tách từ hoạt động khơng xác Ví dụ câu: “Linh cảm thấy buồn.” 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Kết thực nghiệm phân tích lỗi Nguyễn Bá Đạt Câu tách từ thành: “Linh_cảm thấy buồn.”, không nhận “Linh” thực thể người Trong tách từ “Linh cảm_thấy buồn” khả “Linh” nhận đứng trước hành động “cảm thấy”, có xuất từ điển tên người 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Tổng kết hướng phát triển Nguyễn Bá Đạt Chương Tổng kết hướng phát triển Có thể nói chúng tơi bước đầu xây dựng hệ thống mở GATE để cộng đồng tiếp cận sử dụng phát triển cho toán nhận dạng thực thể văn tiếng Việt Tuy nhiên cịn số thực thể có kết nhận dạng thấp như: thực thể tổ chức , thực thể thuộc nước thực thể người chưa vận dụng hết yếu tố văn cảnh vào trình nhận dạng Bên cạnh hệ thống nhận dạng thực thể cho văn tiếng Việt, chúng tơi cịn xây dựng tài liệu định nghĩa phận loại loại thực thể, tập liệu gán nhãn chuẩn Khi tập liệu gán nhãn đủ lớn, chúng tơi sử dụng thêm thành phần nhận dạng thực thể phương pháp học máy, làm tăng sức mạnh hệ thống Một hướng phát triển khác bắt đầu sử dụng mức độ thấp kết hợp hệ luật xây dựng chuyên gia, lý thuyết xác suất mờ để thêm vào yếu tố văn cảnh trình nhận dạng thực thể Hiện tại, hệ thống nhận dạng thực thể văn Tiếng Việt (Nguyễn 2005, Cao 2007) dừng lại độ xác khoảng 80% (F-measure), dù khơng đánh giá tập kiểm tra, với kết đạt (Fmeasure – 82.03%) khả cải tiển hệ thống nhiều mặt như: cải tiến từ điển, thêm thành phần xử lý sâu ngữ cảnh, kết hợp với nhận dạng sử dụng phương pháp học máy v.v… hứa hẹn đem lại hệ thống nhận dạng thực thể văn tiếng Việt đạt kết cao tương lai 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Nguyễn Bá Đạt Tài liệu tham khảo [1] [Appelt 1995] D Appelt, SRI International FASTUS system MUC-6 test results and analysis, Proceedings of the MUC-6, NIST, Morgan-Kaufmann Publisher, Columbia, 1995 [2] [Appelt 1999] D Appelt, An Introduction to information extraction, Artificial Intelligence Communications, 12, 1999 [3] [Bechet 2000] F Bechet, A Nasr and F Genet, Tagging Unknown Proper Names Using Decision Trees, In proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, 2000 [4] [Bikel 1998] D Bikel, S Miller, R Schwartz, R Weischedel, a HighPerformance Learning Name-finder, fifth conference on applied natural language processing, PP 194-201, 1998 [5] [Borthwick 1998] A Borthwick, J Sterling, E, Agichtein, and R Grishman, Exploiting diverse knowledge sources via maximum entropy in named entity recognition, Proceedings of the Sixth workshop on Very Large Corpora, Montreal, Canada, 1998 [6] [Budi 2003] I Budi, S Bressan, Association Rules Mining for Name Entity Recognition, Proceedings of the Fourth International Conference on Web Information Systems Engineering, 2003 [7] [Cao 2007] T Cao, Automatic Extraction of Vietnamese Named-Entities on the Web, New Generation Computing, Ohmsha, Ltd And Springer [8] [Collins 1999] Collins, Michael and Y Singer, Unsupervised models for named entity classification, In proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Nguyễn Bá Đạt [9] [Cowie 1996] Cowie and W.Lehnert, Communications of the ACM, 39, 1996 Information Extraction, In [10] [Cunningham 1999] H Cunningham, Information extraction: a User Guide (revised version), Research Menorandum CS-99-07, Department of Computer Science, University of Sheffied, May, 1999 [11] [Cunningham 2002] H Cunningham, D Maynard, K Bontcheva, V Tablan GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Applications, Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02) Philadelphia, July 2002 [12] [Grishman 1995] R Grishman, The NYU System for MUC-6 or Where's the Syntax, In Proceedings of the Sixth Message Understanding Conference (MUC-6), 1995 [13] [Iwanska 1995] L Iwanska, M Croll, T Yoon, and M Adams, Wayne state university: Description of the UNO processing system as used for MUC-6, In Proc of the MUC-6, NIST, Morgan- Kaufmann Publishers, Columbia, 1995 [14] [Kim 2002] J Kim, I Kang, k Choi, Unsupervised Named Entity Classification Models and their Ensembles, Proceedings of the 19th international conference on Computational linguistics, 2002 [15] [Mansouri 2008] A Mansouri, L Affendey, A Mamat, Named Entity Recognition Using a New Fuzzy Support Vector Machine [16] [Maynard 2001] D Maynard, V Tablan, C Ursu, H Cunningham and Y Wilks, Named Entity Recognition from deverse Test Types [17] [Maynard 2003] Maynard, Diana and Bontcheva, Kalina and Cunningham, Hamish, Towards a semantic extraction of named entities In Proceedings Recent Advances in Natural, Borovets, Bulgaria [18] [Morgan 1995]R Morgan, University of durham: Description of the LOLITA system as used for MUC-6, In Proc of the MUC-6, NIST, Morgan-Kaufmann Publishers, Columbia, 1995 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo [19] Nguyễn Bá Đạt [Nguyễn 2005] T Nguyễn, T Oanh, P Hieu, H Thuy, Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Ramdom Fields, The 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Viet Nam 2005 [20] [Pastra 2002] K Pastra, D Maynard, O Hamza, H Cunningham, Y Wilks, How feasible is the reuse of grammars for Named Entity Recognition? (2002) [21] [Phạm 2007] T Pham, A Kawazoe; D Dinh; N Collier, Construction of Vietnamese corpora for named entity recognition, In Conference RIAO2007, Pittsburgh PA, U.S.A May 30-June 1, 2007 – Copyright C.I.D Paris, France, 2007 [22] [Wu 2006] Y Wu, T Fan, Y Lee, S Yen, Extracting Named Entities Using Support Vector Machines, Spring-Verlag, Berlin Heidelberg, 2006 [23] [Phạm 2009] D Phạm, Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn từ loại, Khóa luận tốt nghiệp, Coltech, VNU, 2009 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt Phụ lục A Annotation Guideline Khái niệm thực thể tên thực thể Thực thể (entity): đối tượng tập hợp đối tượng giới tự nhiên Thực thể thể dạng : o Tên riêng (name entity) o Danh từ cụm danh từ chung (common noun, noun phrase) o Đại từ (pronoun) Trong toán nhận dạng thực thể, sử dụng từ “thực thể” để thực thể có tên Các loại thực thể Person: Thực thể người Organization: Thực thể tổ chức, nhóm người thành lập theo cấu trúc phân cấp Facility: Thực thể thực thể người tạo thường thực thể xây dựng kiến trúc, sân vận động, bảo tàng, nhà ga v.v… Location: Thực thể thực thể địa lý vùng lãnh thổ, địa danh, sông, suối v.v… Nationality: Thực thể quốc tịch người, thuộc quốc gia Religion: Thực thể tổ chức tôn giáo Quy tắc nhận dạng thực thể Khi nhận dạng thực thể văn ta phải đảm bảo số quy tắc sau: khơng có tên lồng Một tên nhận tên cũ kết thúc (không 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt có hai tên có phần chung) Trong trường hợp có lồng tên, tên dài nhận (longest matching – dài thắng) Ví dụ câu: “Phòng Giáo dục huyện Mỹ Đức.” ta nhận “Phòng Giáo dục huyện Mỹ Đức” thực thể tổ chức (Organization) bỏ qua thực thể địa điểm “Mỹ Đức” Phân loại loại thực thể 4.1 Thực thể người Là từ tên riêng người, bao gồm tên đầy đủ (cả họ tên) tên viết tắt (tên) Ví dụ : Chủ tịch Hồ Chí Minh Ơng Nguyễn Bá Đạt Cầu thủ Hồng Sơn Cựu tổng thống Saddam Hussein bị quân đội Mỹ bắt giam giữ Các trường hợp lưu ý (các trường hợp tên người) Các từ(cụm từ) gián tiếp người Ví dụ: o Tổng thống Hoa Kỳ o Quả bóng vàng Việt Nam 2008 Các dấu hiệu nhận biết từ loại : o Các tiền tố:  Các tiền tố cách xưng hơ :  Ơng “Nguyễn Minh Triết”  Bà Lý 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt  Bác Sơn Tuy nhiên vài trường hợp đặc biệt ví dụ: Bà Trưng, Bà Triệu v.v… ta nhận cụm Bà Trưng, Bà Triệu Person  Các tiền tố cách gọi theo quan hệ họ hàng :  Dì Ninh  Chú Duy  Anh Giang  Các tiền tố cách gọi theo quan hệ trị - địa vị xã hội:  Chủ tịch nước Lê Khả Phiêu  Giám đốc Đăng o Các hậu tố : từ sau thực thể người thường động từ dạng chủ động như: chơi, cười, khóc v.v…  Đại cười duyên 4.2 Thực thể tổ chức Thực thể tổ chức, nhóm người thành lập theo cấu trúc phân cấp (khơng bao gồm tổ chức tôn giáo) Một số loại tổ chức: Tổ chức trị - nhà nước o Văn Phịng Chính Phủ o Cơng an Thành phố Hà Nội Tổ chức kinh tế o Cơng ty TNHH Tân Hồng Phát o Tập đoàn FPT Tổ chức giáo dục o Trường Đại học Công Nghệ o Học viện Ngân Hàng 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt Tổ chức y tế o Bệnh viện Y Tuệ Tĩnh Các tổ chức khác o Hội Chữ Thập Đỏ o G20 Dấu hiệu nhận biết: thực thể tổ chức thường đứng sau tiền tố như: Cơng ty, tập đồn, trường học, bệnh viện v.v… 4.3 Thực thể địa điểm Thực thể chỉ thực thể địa lý vùng lãnh thổ, địa danh, sông, suối v.v… Với tên thành phố, quận, huyện, đường v.v… (mang tính chất hành người đặt ra) o Thành Phố Hồ Chí Minh o Quận Tây Hồ Tuy nhiên với trường hợp Quận 5, Tiểu khu v.v… nhận cụm Quận 5, Tiểu khu Location Với tên đảo, đại dương, sơng v.v… (mang tính tự nhiên) o Đảo Bạch Long Vỹ o Sông Hồng o Châu Á Dấu hiệu nhận biết: đứng sau tiền tố nơi trốn: ở, trong, ngồi, v.v… Tơi sinh Hà Tây Chiến Tranh nổ Đại Tây Dương 4.4 Thực thể thực thể người tạo Thực thể thực thể người tạo thường thực thể xây dựng kiến trúc, sân vận động, bảo tàng, nhà ga v.v… 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt Ví dụ Tòa nhà HITC xây Cầu Trắng 4.5 Thực thể thực thể thuộc quốc gia Thực thể quốc tịch người, thuộc quốc gia Ví dụ Cơ hướng dẫn viên du lịch người Hoa Chính phủ Việt Nam Quần đảo Nam Hoàng Sa Việt 4.6 Thực thể tổ chức tôn giáo Thực thể tổ chức tôn giáo Phật Giáo, Thiên chúa giáo v.v… Ví dụ Tơi người theo đạo Phật Hội Phật Giáo Việt Nam 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt Phụ lục B Bảng nhãn từ loại tiếng Việt Np danh từ riêng proper noun Nc danh từ đơn thể countable noun Ng danh từ tổng thể collective noun Nt danh từ loại thể classifier noun Nu danh từ đơn vị concrete noun Na danh từ trừu tượng abstract noun Nn danh từ số lượng numeral Nl danh từ vị trí locative noun Vt động từ ngoại động transitive verb Vit động từ nội động intransitive verb Vim động từ cảm nghĩ impression verb Vo động từ hướng orientation verb Vs động từ tồn state verb Vb động từ biến hố transformation verb Vv động từ ý chí volotive verb Va động từ tiếp thụ acceptation verb Vc động từ so sánh comparative verb Vm động từ chuyển động move verb Vla động từ "là" “là” verb Vtim động từ ngoại động cảm nghĩ transitive-impression verb 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt Vta động từ ngoại động tiếp thụ transitive-acceptation verb Vtc động từ ngoại động so sánh transitive-comparative verb Vtb động từ ngoại động biến hoá transitive-transformation verb Vto động từ ngoại động hướng transitive-orientation verb Vts động từ ngoại động tồn transitive-state verb Vtm động từ ngoại động chuyển động transitive-move verb Vtv động từ ngoại động ý chí transitive-volotive verb Vitim động từ nội động cảm nghĩ intransitive-impression verb Vitb động từ nội động biến hoá intransitive-transformation verb Vits động từ nội động tồn intransitive-state verb Vitc động từ nội động so sánh intransitive-comparative verb Vitm động từ nội động chuyển động intransitive-move verb Aa tính từ hàm chất quality adjective An tính từ hàm lượng quantity adjective Pp đại từ xưng hô personal pronoun Pd đại từ không gian, thời gian demonstrative pronoun Pn đại từ số lượng quantity pronoun Pa đại từ hoạt động, tính chất quality pronoun Pi đại từ nghi vấn interrogative pronoun Jt phụ từ thời gian time adjunct Jd phụ từ mức độ degree adjunct Jr phụ từ so sánh rapport adjunct Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation Ji phụ từ mệnh lệnh imperative adjunct 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục Nguyễn Bá Đạt Cm giới từ major/minor conjunction Cc liên từ combination conjunction E cảm từ emotion word I trợ từ introductory word X không xác định 65 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Chương Nhận dạng thực thể văn tiếng Việt Nguyễn Bá Đạt Chương Nhận dạng thực thể văn tiếng Việt Cùng với phát triển lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt, toán nhận dạng thực thể văn tiếng. .. luanvanchat@agmail.com Chương Nhận dạng thực thể văn tiếng Việt Nguyễn Bá Đạt 4.1 Định nghĩa thực thể, loại thực thể cách phân biệt loại thực thể Trước hết, cần có định nghĩa thực thể, loại thực thể nhận dạng cách... nhận dạng thực thể Các bước tiến hành hệ thống nhận dạng thực thể đạt hiệu mong muốn 4.3 Xây dựng hệ thống nhận dạng thực thể văn tiếng Việt Tính hiệu khung làm việc GATE cho toán nhận dạng thực

Ngày đăng: 01/11/2022, 19:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w