Mục tiêu chính của luận văn là xây dựng mô hình nhận dạng thực thể định danh cho văn bản ngắn Tiếng Việt. Kết hợp với việc áp dụng học suốt đời nhằm khắc phục những khó khăn gặp phải do đặc điểm của văn bản Tiếng Việt nói chung và văn bản ngắn nói riêng. Sau đó tiến hành thực nghiệm nhằm đánh giá hiệu quả của phương pháp áp dụng mới
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thơng tin Mã số: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 2018 PHẦN MỞ ĐẦU Tính cấp thiết luận văn Nhận dạng thực thể định danh cầu nối quan trọng việc kết nối liệu có cấu trúc liệu phi cấu trúc Nó có nhiều ứng dụng như: xây dựng máy tìm kiếm thực thể, tóm tắt văn bản, tự động đánh số cho sách, bước tiền xử lí làm đơn giản hóa tốn dịch máy,… Bên cạnh đó, việc bùng nổ mạng xã hội Facebook, Twitter, hệ thống hỏi đáp mang lại lượng thông tin khổng lồ Đặc điểm liệu thường văn ngắn, từ ngữ sử dụng thường văn nói liên quan đến nhiều miền liệu khác Chính đặc điểm mang lại nhiều khó khăn áp dụng toán nhận dạng thực thể định danh Khi gặp phải vấn đề mới, thường giải dựa vào tri thức, kinh nghiệm có trước Ví dụ như: giải tốn ta thường liên hệ để đưa chúng dạng trước làm tìm tương đồng chúng Việc áp dụng tri thức thường làm tăng tốc độ chất lượng việc học Nhận xét không liên quan đến việc học người mà liên quan đến học máy Việc học nhiệm vụ cải thiện việc sử tri thức lưu lại từ nhiệm vụ học trước Nói cách khác ta sử dụng tri thức có nhằm nâng cao hiệu việc học cho nhiệm vụ Ý thức tầm quan trọng toán nhận dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng thực thể văn ngắn Tiếng Việt với mơ hình CRFs áp dụng học suốt đời Mục tiêu luận văn Mục tiêu luận văn xây dựng mơ hình nhận dạng thực thể định danh cho văn ngắn Tiếng Việt Kết hợp với việc áp dụng học suốt đời nhằm khắc phục khó khăn găp phải đặc điểm văn Tiếng Việt nói chung văn ngắn nói riêng Sau tiến hành thực nghiệm nhằm đánh giá hiệu phương pháp áp dụng Phạm vi nghiên cứu đề tài tập trung vào vấn đề sau: Nhận dạng thực thể định danh văn ngắn Tiếng Việt, cụ thể ba loại thực thể: tên người, tên địa danh tên tổ chức Lưu lại thực thể học miền trước để sử dụng cho việc cải thiện hiệu suất việc nhận dạng thực thể áp dụng cho miền Những đóng góp luận văn Xây dựng mơ hình CRFs để nhận dạng thực thể văn Tiếng Việt áp dụng học chuyển đổi Tiến hành đánh giá thực nghiệm để so sánh nhiều trường hợp, từ chứng minh áp dụng học suốt đời làm tăng hiệu suất việc học vai trò quan trọng cảu liệu có thơng qua nhiệm vụ học khứ cho việc nhận dạng thực thể định danh nhiệm vụ học Bố cục luận văn Luận văn tổ chức thành chương sau: Chương giới thiệu tổng quan toán nhận dạng thực thể văn Tiếng Việt, khó khăn gặp phải thực toán cho văn ngắn Tiếng Việt nghiên cứu có liên quan áp dụng cho Tiếng Anh, Tiếng Việt Chương trình bày định nghĩa học suốt đời nhận xét nhằm sáng tỏ định nghĩa Mô tả kiến trúc hệ thống học suốt đời giải thích chi tiết thành phần kiến trúc Chương trình bày phương pháp đánh giá thực nghiệm áp dụng học suốt đời Chương trình bày phương pháp nhận dạng thực thể văn ngắn Tiếng Việt sử dụng mơ hình CRFs phương pháp ước lượng tham số cho mơ hình Giới thiệu thuật tốn L-CRFs áp dụng học suốt đời cho mơ hình CRFs nhằm sử dụng kiến thức học khứ nhằm tăng hiệu mơ hình thực nhiệm vụ học Chương trình bày đánh giá thực nghiệm hai trường hợp: miền liệu, đánh giá chéo miền không áp dụng học suốt đời áp dụng học suốt đời Chương Bài toán nhận dạng thực thể cho văn ngắn Tiếng Việt 1.1 Bài toán Khác với việc đọc tồn văn bản, hệ thống trích chọn thông tin nhận biết thông tin đáng quan tâm Có nhiều mức độ trích chọn thơng tin từ văn bản: trích chọn thực thể, trích chọn mối quan hệ thực thể, xác định đồng tham chiếu… Vậy để trích chọn thực thể hay mối quan hệ chúng, ta phải nhận dạng thực thể Nói cách khác, tốn nhận dạng thực thể toán đơn giản tốn trích chọn thơng tin, lại bước để giải toán phức tạp lĩnh vực Bài toán nhận dạng thực thể thường chia thành hai quy trình liên tiếp: Nhận dạng đối tượng phân loại thực thể[1] “Nhận dạng đối tượng” trình tìm kiếm đối tượng đề cập tới văn “Phân loại thực thể việc gán nhãn cho đối tượng Một kiến trúc tiêu biểu mơ tả cho quy trình nhận dạng thực thể trình bày Hình 1.1: Hình 1.1 Quy trình nhận dạng thực thể định danh[21]: Với mục tiêu tốn nhận diện thực thể trích chọn thực thể văn bản, ta xem xét toán nhận dạng thực thể trường hợp cụ thể toán gán nhãn cho liệu dạng chuỗi Ta trình bày toán sau[2]: Đầu vào: O( , ,…, ) : chuỗi liệu quan sát, với từ S ( , ,…, cho liệu ) : chuỗi trạng thái tương đương với chuỗi nhãn cần gán Đầu ra: Các câu gán nhãn (chuỗi nhãn cho câu) Trong phạm vi tìm hiểu luận văn, em thực nhận dạng loại thực thể: tên người, tên tổ chức, tên địa danh 1.2 Khó khăn tốn nhận dạng thực thể văn ngắn Tiếng Việt Tách từ : bước tiền xử lý quan trọng trước hệ thống xác định thực thể Hệ thống nhận diện thực thể với điều kiện cần bước tách từ xác Đơn vị cấu tạo Tiếng Việt “tiếng” nhiên khơng phải “tiếng” có nghĩa mà có nghĩa ghép với “tiếng” khác để tạo nên từ có nghĩa Từ mượn: Hơn 50% Tiếng Việt bắt nguồn từ tiếng Trung Quốc gọi từ Hán Việt Tuy nhiên từ mượn mà từ từ kế thừa từ mượn Hầu hết từ mượn có nguồn gốc từ Pháp Định dạng từ Tiếng Việt khác biệt so với Tiếng Anh Từ đồng âm khác nghĩa ( Ví dụ: “cuốc” “quốc”) có từ khác âm nghĩa( Ví dụ: “tía”, “ba”, “cha”… có nghĩa bố) Chương Mơ hình học suốt đời 2.1 Định nghĩa học suốt đời Định nghĩa [14] Học máy suốt đời (Lifelong Machine Learning: LML) trình học liên tục Tại thời điểm bất kỳ, học thực chuỗi N toán học, Các tốn này, cịn gọi tốn trước (previous tasks) có tập liệu tương ứng Các tốn kiểu thuộc kiểu khác từ miền ứng dụng miền ứng dụng khác Khi gặp toán thứ N+1, (được gọi toán toán tại) với liệu học tận dụng tri thức khứ sở tri thức (KB) để giúp học tốn Lưu ý nhiệm vụ cung cấp phát hệ thống Mục tiêu LML thường tối ưu hóa hiệu tốn song tối ưu hóa tốn cách xử lý tốn cịn lại tốn trước KB trì tri thức học tích lũy từ việc học tốn trước Sau hồn thành tốn học tri thức cập nhật vào KB (chẳng hạn, kết trung gian kết cuối cùng) thu từ toán học Việc cập nhật tri thức bao gồm liên quan đến kiểm tra tính quán, lập luận biến đổi tri thức mức cao bổ sung vào KB 2.2 Kiến trúc hệ thống học suốt đời Từ định nghĩa nhận xét trên, phác thảo trình tổng quát kiến trúc hệ thống LML Hình 2.1: Hình 2.2 Kiến trúc hệ thống học suốt đời[14] 2.3 Phương pháp đánh giá Đánh giá thực nghiệm thuật toán LML nghiên cứu thường thực cách sử dụng bước sau đây: Chạy liệu toán trước Chạy liệu toán Chạy thuật tốn sở Phân tích kết Chương Mơ hình học suốt đời áp dụng vào tốn nhận dạng thực thể 3.1 Mơ hình trường ngẫu nhiên có điều kiện áp dụng cho tốn nhận dạng thực thể Mơ hình trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRFs) mơ hình dựa xác suất điều kiện đề xuất J.Laffety cộng (năm 2001)[15] chúng tích hợp thuộc tính đa dạng chuỗi liệu quan sát nhằm hỗ trợ cho trình phân lớp Tuy nhiên CRFs mơ hình đồ thị vơ hướng Điều cho cho phép CRFs định nghĩa phân phối xác suất cho toàn chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước Ta có số qui ước kí hiệu sau[15]: X, Y, Z, kí hiệu biến ngẫu nhiên x,y,f,g, kí hiệu vector vector biểu diễn chuỗi liệu quan sát, vector biểu diễn chuỗi nhãn xi, yi kí hiệu thành phần vector x,y, kí hiệu giá trị đơn liệu quan sát hay trạng thái S: Tập hữu hạn trạng thái mơ hình CRFs Với X = (X1,X2 Xn): biến ngẫu nhiên nhận giá trị chuỗi cần phải gán nhãn, Y=(Y1,Y2, ,Yn) biến ngẫu nhiên nhận giá trị chuỗi nhãn tương ứng Ta có đồ thị sau[19]: Hình 3.3 Đồ thị biểu diễn mơ hình CRFs Đồ thị vơ hướng khơng có chu trình G=(V,E) Các đỉnh V biểu diễn thành phần biến ngẫu nhiên Y cho tồn ánh xạ một-một đỉnh thành phần Yv Y Ta có (Y|X) trường ngẫu nhiên điều kiện( CRFs) với điều kiện X, biến ngẫu nhiên Yv tuân theo tính chất Markov đồ thị G[2]: px (x | y) T exp k f k (yt 1 , yt , x, t ) Z (x) t 1 Trong ta có: Z(o) thừa số chuẩn hóa, đảm bảo tổng xác suất λk trọng số mức độ biểu đạt thơng tin thuộc tính fk, lựa chọn liệu có ý nghĩa văn fk thuộc tính chuỗi liệu quan sát 3.2 Thuộc tính phụ thuộc tổng quát (G) Thuộc tính G sử dụng mối quan hệ phụ thuộc tổng quát, tìm hiểu thuộc tính cho phép L-CRF sử dụng kiến thức khứ thời điểm kiểm tra để làm tăng độ xác Giá trị thuộc tính thể thơng qua mẫu phụ thuộc (dependency pattern), khởi tạo từ mối quan hệ phụ thuộc Thuộc tính phụ thuộc tổng quát (G) tính tập giá trị mẫu phụ thuộc Label-G định nghĩa sau[18]: ( ) { } { } Hàm trả lại giá trị thuộc tính phụ thuộc biến mẫu Mỗi thuộc có nhãn i 3.3 Thuật toán L-CRF Pha học suốt đời thể qua thuật toán đây[18]: Loop ( ( { ) ) } ( ) với if break else 10 11 12 { 13 end if 14 end loop then } Pha học suốt đời: thuật toán thực lặp lặp lại Thực khởi tạo thuộc tính (F) liệu (dịng 3) áp dụng mơ hình CRF M (dịng 4) F để trích xuất tập thực thể thêm vào S (lưu thực thể khai thác khứ) Từ S, khai thác loạt khía cạnh thường xuyên Ngưỡng tần số λ Nếu giống với lần lặp trước, thuật toán dừng khơng tìm thấy thực thể Chúng ta lặp lặp lại quy trình lần trích xuất mang lại kết mới, làm tăng kích thước K, khía cạnh đáng tin cậy khứ kiến thức khứ K tăng tạo mẫu phụ thuộc nhiều hơn, cho phép nhiều thực thể Ngược lại: số khía cạnh đáng tin cậy bổ sung tìm thấy M trích xuất khía cạnh bổ sung lần lặp Các dòng 10 11 cập nhật hai tập cho lần lặp Chương Thực nghiệm kết Kết thực nghiệm kết trung bình loại thực thể: tên người, tên địa danh tên tổ chức Kết đánh giá nội miền trình bày bảng sau: CRF Miền Độ xác L-CRF Độ hồi tưởng Độ đo f1 Độ xác Độ hồi tưởng Độ đo f1 Pháp luật 0.812 0.702 0.753 0.811 0.788 0.799 Kinh tế 0.771 0.694 0.731 0.775 0.752 0.763 CNTT 0.806 0.696 0.747 0.794 0.770 0.782 Giáo dục 0.743 0.679 0.709 0.736 0.721 0.728 Xã hội 0.823 0.712 0.763 0.812 0.768 0.789 Thể thao 0.766 0.693 0.728 0.751 0.735 0.743 Trung bình 0.787 0.696 0.739 0.779 0.756 0.768 Bảng 4.1 Kết thực nghiệm đánh giá nội miền Để so sánh đánh giá kết xác dễ dàng hơn, em thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 10 0.82 0.8 0.78 0.76 CRF 0.74 L-CRF 0.72 0.7 0.68 0.66 Độ xác Độ hồi tưởng Độ đo f1 Hình 4.4 Kết thực nghiệm đánh giá nội miền 4.5.2 Kết đánh giá chéo miền CRF Miền L-CRF Pháp luật Độ Độ hồi xác tưởng 0.832 0.507 0.63 Độ Độ hồi xác tưởng 0.816 0.557 0.662 Kinh tế 0.783 0.499 0.609 0.785 0.556 0.651 CNTT 0.827 0.521 0.639 0.813 0.589 0.683 Giáo dục 0.761 0.468 0.579 0.751 0.528 0.621 Xã hội 0.846 0.528 0.651 0.824 0.597 0.692 Thể thao 0.781 0.498 0.608 0.765 0.552 0.613 Trung bình 0.805 0.504 0.619 0.792 0.563 0.658 Độ đo f1 Bảng 4.2 Kết thực nghiệm đánh giá chéo miền 11 Độ đo f1 Để so sánh đánh giá kết xác dễ dàng hơn, em thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 0.9 0.8 0.7 0.6 0.5 CRF 0.4 L-CRF 0.3 0.2 0.1 Độ xác Độ hồi tưởng Độ đo f1 Hình 4.5 Kết thực nghiệm đánh giá chéo miền Nhận xét: Kết thực nghiệm chứng minh tính khả thi ưu điểm áp dụng phương pháp học suốt đời cho toán nhận dạng thực thể định danh văn Tiếng Việt Khi áp dụng học suốt đời cho kết tốt không áp dụng độ hồi tưởng độ đo f1 Cụ thể sau: Khi ta thực thực nghiệm miền, không gian đặc trưng phân bố liệu huấn luyện kiểm tra Tuy nhiên liệu huấn luyện thực với văn ngắn nên đạt f1 = 0.739 với CRFs f1 = 0.768 với L-CRFs Trong thực nghiệm đánh giá chéo miền, không gian đặc trưng phân bố liệu miền khác nhau, kết CRF trường hợp đạt f1 = 0.619, kết khả quan tập liệu huấn luyện kết hợp miền lại nên liệu phong phú, phần khắc phục 12 nhược điểm trình bày phần L-CRFs cho kết f1 = 0.658 nhờ tận dụng liệu học khứ Qua thực nghiệm ta nhận thấy tiến hành NER cho văn ngắn Tiếng Việt cho kết thấp thực với văn dài thách thức trình bày phần Kết luận Luận văn đạt được: Tìm hiểu tốn nhận dạng thực thể văn Tiếng Việt cách tiếp cận phương pháp học máy sử dụng mơ hình trường ngẫu nhiên( Conditional Random Fields) Tìm hiểu kiến thức học suốt đời (định nghĩa, phân loại, cách đánh giá… ) áp dụng học suốt đời Tìm hiểu việc áp dụng học suốt đời cho mơ hình CRFs nhằm cải tiến phương pháp nhận dạng thực thể văn ngắn để khắc phục khó khăn gặp phải đặc điểm văn ngắn Những đóng góp luận văn: Xây dựng mơ hình CRFs để nhận dạng thực thể văn Tiếng Việt áp dụng học chuyển đổi Tiến hành đánh giá thực nghiệm để so sánh nhiều trường hợp, từ chứng minh áp dụng học suốt đời làm tăng hiệu suất việc học vai trò quan trọng cảu liệu có thơng qua nhiệm vụ học khứ cho việc nhận dạng thực thể định danh nhiệm vụ học 13 Tài liệu tham khảo Tiếng Việt [1] Thụy, H Q., Hiếu, P X., & Sơn, Đ Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình Khai phá liệu Web Tiếng Anh [2] Tu, N C., Oanh, T T., Hieu, P X., & Thuy, H Q (2005) Named entity recognition in vietnamese free-text and web documents using conditional random fields In The 8th Conference on Some selection problems of Information Technology and Telecommunication [3] Tran, Q T., Pham, T T., Ngo, Q H., Dinh, D., & Collier, N (2007) Named entity recognition in Vietnamese documents Progress in Informatics Journal,5, 14-17 [4] Chen, M., Jin, X., & Shen, D (2011, July) Short text classification improved by learning multi-granularity topics In IJCAI (pp 1776-1781) [6] Farmakiotou, D., Karkaletsis, V., Koutsias, J., Sigletos, G., Spyropoulos, C D., & Stamatopoulos, P (2000, September) Rule-based named entity recognition for Greek financial texts In Proceedings of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000) (pp 75-78) [7] Ferreira, E., Balsa, J., & Branco, A (2007) Combining rule-based and statistical methods for named entity recognition in Portuguese In Actas da 5a Workshop em Tecnologias da Informaỗao e da Linguagem Humana [8] Asahara, M., & Matsumoto, Y (2003, May) Japanese named entity extraction with redundant morphological analysis In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume (pp 8-15) Association for Computational Linguistics [9] McCallum, A., Freitag, D., & Pereira, F C (2000, June) Maximum Entropy Markov Models for Information Extraction and Segmentation In ICML (Vol 17, pp 591-598) [10] McCallum, A., & Li, W (2003, May) Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume (pp 188- 191) Association for Computational Linguistics 14 [11] Zhou, G., & Su, J (2002, July) Named entity recognition using an HMM-based chunk tagger In proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp 473-480) Association for Computational Linguistics [12] Thrun, S., Mitchell, T.M.: Lifelong robot learning Robot Auton Syst 15(1–2), 25– 46(1995) [13] Thrun, S.: Explanation-Based Neural Network Learning: A Lifelong Learning Approach.Springer, US (1996) [14] "Zhiyuan Chen and Bing Liu Lifelong Machine Learning Morgan & Claypool Publishers, November 2016" [15] Lafferty, J., McCallum, A., & Pereira, F C (2001) Conditional random fields: Probabilistic models for segmenting and labeling sequence data [16] McCallum, A., Freitag, D., & Pereira, F C (2000, June) Maximum Entropy Markov Models for Information Extraction and Segmentation In ICML (Vol 17, pp 591-598) [17] McCallum, A., Freitag, D., & Pereira, F C (2000, June) Maximum Entropy Markov Models for Information Extraction and Segmentation In Icml (Vol 17, No 2000, pp 591-598) [18] Shu, L., Xu, H., & Liu, B (2017) Lifelong learning crf for supervised aspect extraction arXiv preprint arXiv:1705.00251 [19] Jakob, N., & Gurevych, I (2010, October) Extracting opinion targets in a single-and cross-domain setting with conditional random fields In Proceedings of the 2010 conference on empirical methods in natural language processing (pp 1035-1045) Association for Computational Linguistics [20] De Marneffe, M C., & Manning, C D (2008) Stanford typed dependencies manual (pp 338-345) Technical report, Stanford University [21] Abdallah, Z S., Carman, M., & Haffari, G (2017) Multi-domain evaluation framework for named entity recognition tools Computer Speech & Language, 43, 34-55 Trang web [5] http://cs.nyu.edu/cs/projects/proteus 15 ... toán nhận dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng. .. trình nhận dạng thực thể trình bày Hình 1.1: Hình 1.1 Quy trình nhận dạng thực thể định danh[ 21]: Với mục tiêu tốn nhận diện thực thể trích chọn thực thể văn bản, ta xem xét toán nhận dạng thực thể. .. nghiệm nhận dạng thực thể văn ngắn Tiếng Việt với mơ hình CRFs áp dụng học suốt đời Mục tiêu luận văn Mục tiêu luận văn xây dựng mơ hình nhận dạng thực thể định danh cho văn ngắn Tiếng Việt Kết hợp