Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
504,64 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội – 2018 LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc tới thầy giáo PGS.TS Hà Quang Thụy tận tình giúp đỡ, bảo hướng dẫn em suốt trình thực luận văn Em xin bày tỏ lời cảm ơn trân thành đến thầy nhiệt tình tâm huyết giảng dạy em suốt hai năm qua, giúp em trang bị kiến thức để vững bước tương lai Em muốn gửi lời cảm ơn tới anh chị bạn phịng thí nghiệm Khoa học liệu Công nghệ Tri thức chia sẻ cho em nhiều kiến thức bổ ích giúp đỡ em lúc khó khăn thực khóa luận Lời cuối cùng, em muốn gửi lời cảm ơn đến cha mẹ chị người tin tưởng ủng hộ em đường em chọn, che chở giúp đỡ em để em vượt qua khó khăn sống Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang LỜI CAM ĐOAN Em xin cam đoan nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm trình bày luận văn em thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang MỤC LỤC Mở đầu Chương Bài toán nhận dạng thực thể cho văn ngắn Tiếng Việt 1.1Bài toán nhận dạng thực thể 1.1.1Bài tốn 1.1.2Khó khăn tốn nhận dạng 1.2Các nghiên cứu có liên quan 1.2.1Các nghiên cứu nhận dạng thực 1.2.2Các nghiên cứu nhận dạng thực Chương Học suốt đời mơ hình trường ngẫu nhiên có điều kiện 2.1Mơ hình trường ngẫu nhiên có điều kiện áp dụng cho to 2.1.1Khái niệm mơ hình trường ngẫu n 2.1.2Ước lượng tham số cho mơ hình 2.1.3Tìm chuỗi nhãn phù hợp 2.2Thuộc tính phụ thuộc tổng quát (G) 2.3Định nghĩa học suốt đời 2.4Kiến trúc hệ thống học suốt đời 2.5Phương pháp đánh giá 2.6Học giám sát suốt đời 2.7Áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có đ Chương Mơ hình học suốt đời áp dụng vào tốn nhận dạng thực thể 3.1Mẫu phụ thuộc 3.2Thuật toán L-CRF Chương Thực nghiệm kết 4.1Môi trường công cụ sử dụng 4.1.1Cấu hình phần cứng 4.1.2Các phần mềm thư viện 4.2Dữ liệu thực nghiệm 4.3 Mô tả thực nghiệm 4.4 Đánh giá 4.5 Kết thực nghiệm 4.5.1 Kết đánh giá nội miền 4.5.2 Kết đánh giá chéo miề 4.5.3 Kết đánh giá chéo miề 4.5.4 Kết đánh giá chéo miề Nhận xét: Kết luận Tài liệu tham khảo Tiếng Việt Tiếng Anh Trang web DANH SÁCH HÌNH VẼ Hình 1.1 Quy trình nhận dạng thực thể định danh[2] .3 Hình 1.2 Ví dụ hệ thống nhận dạng thực thể Tiếng Anh Hình 1.3 Ví dụ hệ thống nhận dạng thực thể Tiếng Việt Hình 2.1 Đồ thị biểu diễn mơ hình CRFs 10 Hình 2.2 Kiến trúc hệ thống học suốt đời 16 Hình 3.1 Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời 25 Hình 4.1 Kết thực nghiệm đánh giá nội miền 31 Hình 4.2 Kết thực nghiệm đánh giá chéo miền 32 DANH SÁCH BẢNG BIỂU Bảng 1.1 Danh sách loại thực thể .5 Bảng 4.1 Môi trường thực nghiệm 27 Bảng 4.2 Các phần mềm sử dụng 27 Bảng 4.3 Các thư viện sử dụng 28 Bảng 4.4 Dữ liệu thực nghiệm 28 Bảng 4.5 Ma trận nhầm lẫn 29 Bảng 4.6 Kết thực nghiệm đánh giá nội miền 30 Bảng 4.7 Kết thực nghiệm đánh giá chéo miền 32 Bảng 4.8 Kết thực nghiệm đánh giá chéo miền có liệu miền đích 33 Bảng 4.9 Kết đo độ “gần” miền mức từ vựng 34 Bảng 4.10 Kết thực nghiệm sử dụng liệu từ miền "gần" 34 Mở đầu Nhận dạng thực thể định danh cầu nối quan trọng việc kết nối liệu có cấu trúc liệu phi cấu trúc Nó có nhiều ứng dụng như: xây dựng máy tìm kiếm thực thể, tóm tắt văn bản, tự động đánh số cho sách, bước tiền xử lí làm đơn giản hóa tốn dịch máy,… Bên cạnh đó, việc bùng nổ mạng xã hội Facebook, Twitter, hệ thống hỏi đáp mang lại lượng thông tin khổng lồ Đặc điểm liệu thường văn ngắn, từ ngữ sử dụng thường văn nói liên quan đến nhiều miền liệu khác Chính đặc điểm mang lại nhiều khó khăn thực tốn nhận dạng thực thể định danh Khi gặp phải vấn đề mới, thường giải dựa vào tri thức, kinh nghiệm có trước Ví dụ như: giải toán ta thường liên hệ để đưa chúng dạng trước làm tìm tương đồng chúng Việc áp dụng tri thức thường làm tăng tốc độ chất lượng việc học Nhận xét không liên quan đến việc học người mà liên quan đến học máy Việc học nhiệm vụ cải thiện việc sử tri thức lưu lại từ nhiệm vụ học trước Nói cách khác ta sử dụng tri thức có nhằm nâng cao hiệu việc học cho nhiệm vụ Ý thức tầm quan trọng toán nhận dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng thực thể văn ngắn Tiếng Việt với mơ hình CRFs áp dụng học suốt đời Cụ thể, em tiến hành nghiên cứu áp dụng tri thức lưu lại từ việc học miền khứ nhằm nâng cao hiệu suất toán nhận dạng thực thể định danh nhiệm vụ học Luận văn tổ chức thành chương sau: Chương giới thiệu tổng quan toán nhận dạng thực thể văn Tiếng Việt, khó khăn gặp phải thực toán cho văn ngắn Tiếng Việt nghiên cứu có liên quan áp dụng cho Tiếng Anh, Tiếng Việt Chương định nghĩa học suốt đời, kiến trúc mơ hình học suốt đời, đặc điểm học suốt đời phương pháp áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có điều kiện Chương trình bày thuật tốn L-CRFs nhằm tăng hiệu mơ hình trường ngẫu nhiên có điều kiện áp dụng cho toán nhận dạng thực thể định danh văn ngắn Tiếng Việt Chương trình bày đánh giá thực nghiệm hai trường hợp: miền liệu, đánh giá chéo miền không áp dụng học suốt đời áp dụng học suốt đời với kịch liệu huấn luyện khác Đánh giá nội miền: Thực thực nghiệm miền chia liệu miền thành phần: 50% liệu huấn luyện 50% liệu kiểm tra Đánh giá chéo miền: Thực đánh giá chéo miền với kịch sau đây: Dữ liệu kiểm tra liệu huấn luyện liệu miền lại (khác ) Dữ liệu kiểm tra 1/2 , tập liệu huấn luyện gồm hai thành phần: Thành phần liệu từ miền khác Dữ liệu từ với số lượng tăng dần: 1/6 , 1/4 1/2 Dữ liệu kiểm tra 1/2, liệu huấn luyện liệu từ miền gần với dựa theo độ đo trình bày 4.4 Đánh giá Như trình bày luận văn sử dụng ba độ đo để đánh giá thực nghiệm Mục đích việc sử dụng ba độ đo giúp ước lượng tính đáng tin cậy mơ hình nhận dạng thực thể văn ngắn Tiếng Việt áp dụng mô hình học suốt đời Sau luận văn trình bày chi tiết ba độ đo Ta có ma trận nhầm lẫn trình bày bảng đây[1]: Lớp thực Bảng 4.5 Ma trận nhầm lẫn Bảng thể ma trận nhầm lẫn cho phân lớp nhị phân Tuy toán nhận dạng thực thể phân lớp đa nhãn, ta áp dụng cách coi việc phân lớp cho nhãn phân lớp nhị phân để đánh giá hay nói cách khác ta giải thích giá trị cách sau: TP số ví dụ có nhãn l gán nhãn l (T) 29 TN số ví dụ có nhãn khác l gán nhãn khác l (T) FP số ví dụ có nhãn khác l lại gán nhãn l (F) FN số ví dụ có nhãn l lại gán nhãn khác l (F) Ba độ đo tính theo cơng thức sau[2]: Độ đo hồi tưởng: Độ đo xác: 4.5 Kết thực nghiệm 4.5.1 Kết đánh giá nội miền Kết thực nghiệm kết trung bình loại thực thể: tên người, tên địa danh tên tổ chức Kết đánh giá nội miền trình bày bảng sau: Miền CNTT KT PL XH TT GD TB 30 Để so sánh đánh giá kết xác dễ dàng hơn, luận văn thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 0.8 0.7 0.6 0.5 0.4 L-CRFs 0.3 0.2 0.1 Độ xác Độ hồi tưởng Độ đo f1 Hình 4.1 Kết thực nghiệm đánh giá nội miền L-CRFs cho kết tốt với phương pháp CRFs truyền thống, cụ thể độ đo f1 cao 0.131 Như nhận rằng, tri thức học từ miền khứ có ảnh hưởng đáng kể tới kết học miền 4.5.2 Kết đánh giá chéo miền Miền CNTT KT PL XH TT GD TB Bảng 4.7 Kết thực nghiệm đánh giá chéo miền Để so sánh đánh giá kết xác dễ dàng hơn, luận văn thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 0.8 0.7 0.6 0.5 0.4 L-CRFs 0.3 0.2 0.1 Độ hồi tưởng Độ xác Độ đo f1 Hình 4.2 Kết thực nghiệm đánh giá chéo miền Trong kịch thực nghiệm này, kết L-CRFs cao CRFs truyền thống, nhiêu cao không đáng kể (f1 tăng 0.044) Chúng ta dễ dàng lí giải cho tượng Với việc liệu huấn luyện kết hợp tất miền, tập liệu huấn luyện đa dạng, dẫn đến kết nhận khả quan so với trường hợp đánh giá nội miền Bên cạnh đó, liệu miền khác sử dụng trình huấn luyện nên tác dụng L-CRFs khơng đáng kể 32 4.5.3 Kết đánh giá chéo miền có liệu miền đích Bảng thể kết thực nghiệm với liệu miền đích tập huấn luyện tăng dần sử dụng độ đo F1 thực với CRFs L-CRFs: Miền CNTT KT PL XH TT GD Bảng 4.8 Kết thực nghiệm đánh giá chéo miền có liệu miền đích Trong q trình học, vai trị liệu miền đích tập huấn luyện vơ quan trọng Qua kịch thực nghiệm này, ta dễ dàng nhận thấy liệu miền đích tập huấn luyện nhiều kết nhận có độ xác cao Việc áp dụng hóc suốt đời thơng qua thuật tốn L-CRFs cho kết tốt không đáng kể 4.5.4 Kết đánh giá chéo miền lấy liệu miền gần Để kiểm tra miền có “gần” hay không, luận văn thực đánh giá mức độ tương đồng hai miền mức độ từ vựng, với cơng thức sau[8]: Trong đó:là tập từ vựng thuộc miền | | | | Ta có bảng kết sau: CNTT KT XH PL TT GD Bảng 4.9 Kết đo độ “gần” miền mức từ vựng Từ kết trên, luận văn thực thực nghiệm đánh giá với phương pháp LCRFs có kết sau: Miền CNTT KT PL XH TT GD Bảng 4.10 Kết thực nghiệm sử dụng liệu từ miền "gần" 34 Nhận xét: Kết thực nghiệm chứng minh tính khả thi ưu điểm áp dụng phương pháp học suốt đời cho toán nhận dạng thực thể định danh văn Tiếng Việt Bên cạnh kết thực nghiệm làm bật lên khó khăn việc nhận dạng thực thể định danh văn ngắn tiếng Việt Cụ thể sau: Khi ta thực thực nghiệm miền, không gian đặc trưng phân bố liệu huấn luyện kiểm tra Tuy nhiên đặc điểm văn ngắn nên kết nhận không khả quan, đạt độ đo f1 0.387 Khi áp dụng học suốt đời, ta nhận kết f1 0.518 tăng 0.131 so với phương pháp truyền thống Trong thực nghiệm đánh giá chéo miền, không gian đặc trưng phân bố liệu miền khác nhau, kết CRFs trường hợp đạt f1 = 0.597 L-CRFs cho kết f1 = 0.641 nhờ tận dụng liệu học khứ Tuy nhiên trường hợp kết tăng 0.044 so với phương pháp truyền thống, tập liệu huấn luyện kết hợp với liệu miền khác nên việc tận dụng tri thức miền đem lại hiệu khơng đáng kể Một câu hỏi đặt có mặt liệu miền đích tập liệu huấn luyện ảnh hưởng nhiều hay tới kết thực nghiệm? Để trả lời cho câu hỏi trên, luận văn tiến hành thực nghiệm trường hợp thứ ba Như kết thực nghiệm ta dễ dàng nhận thấy nhiều liệu miền đích tập huấn luyện cho kết cao Trong thực nghiệm thứ 4, ta sử dụng tri thức có từ miền “gần” với miền xét, kết nhận tốt so với việc sử dụng tri thức từ tất miền Tuy nhiên thời gian chạy trường hợp thấp nhiều ta cần xem xét liệu nhỏ nhiều 35 Kết luận Luận văn đạt được: Tìm hiểu tốn nhận dạng thực thể văn Tiếng Việt cách tiếp cận phương pháp học máy sử dụng mơ hình trường ngẫu nhiên( Conditional Random Fields) Tìm hiểu kiến thức học suốt đời (định nghĩa, phân loại, cách đánh giá… ) áp dụng học suốt đời Tìm hiểu việc áp dụng học suốt đời cho mơ hình CRFs nhằm cải tiến phương pháp nhận dạng thực thể văn ngắn để khắc phục khó khăn gặp phải đặc điểm văn ngắn Những đóng góp luận văn: Xây dựng mơ hình CRFs để nhận dạng thực thể văn Tiếng Việt áp dụng học suốt đời Tiến hành đánh giá thực nghiệm để so sánh nhiều trường hợp, từ chứng minh áp dụng học suốt đời làm tăng hiệu suất việc học vai trò quan trọng cảu liệu có thơng qua toán học khứ cho việc nhận dạng thực thể định danh toán học 36 Tài liệu tham khảo Tiếng Việt Thụy, H Q., Hiếu, P X., & Sơn, Đ Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình Khai phá liệu Web Tiếng Anh Abdallah, Z S., Carman, M., & Haffari, G (2017) Multi-domain evaluation framework for named entity recognition tools Computer Speech & Language, 43, 34-55 Chen, M., Jin, X., & Shen, D (2011, July) Short text classification improved by learning multi-granularity topics In IJCAI (pp 1776-1781) De Marneffe, M C., & Manning, C D (2008) Stanford typed dependencies manual (pp 338-345) Technical report, Stanford University Farmakiotou, D., Karkaletsis, V., Koutsias, J., Sigletos, G., Spyropoulos, C D., & Stamatopoulos, P (2000, September) Rule-based named entity recognition for Greek financial texts In Proceedings of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000) (pp 75-78) Ferreira, E., Balsa, J., & Branco, A (2007) Combining rule-based and statistical methods for named entity recognition in Portuguese In Actas da 5a Workshop em Tecnologias da Informaỗao e da Linguagem Humana Fei, G., Wang, S., & Liu, B (2016, August) Learning cumulatively to become more knowledgeable In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp 1565-1574) ACM Ha, Q T., Pham, T N., Nguyen, V Q., Nguyen, T C., Vuong, T H., Tran, M T., & Nguyen, T T (2018, March) A New Lifelong Topic Modeling Method and Its Application to Vietnamese Text Multi-label Classification In Asian Conference on Intelligent Information and Database Systems (pp 200-210) Springer, Cham Jakob, N., & Gurevych, I (2010, October) Extracting opinion targets in a single-and cross-domain setting with conditional random fields In Proceedings of the 2010 conference on empirical methods in natural language processing (pp 1035-1045) Association for Computational Linguistics 37 10 Kumar, A., & Daume III, H (2012) Learning task grouping and overlap in multitask learning arXiv preprint arXiv:1206.6417 11 Lafferty, J., McCallum, A., & Pereira, F C (2001) Conditional random fields: Probabilistic models for segmenting and labeling sequence data 12 McCallum, A., Freitag, D., & Pereira, F C (2000, June) Maximum Entropy Markov Models for Information Extraction and Segmentation In ICML (Vol 17, pp 591-598) 13 McCallum, A., & Li, W (2003, May) Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume (pp 188- 191) Association for Computational Linguistics 14 Mitchell, T., Cohen, W., Hruschka, E., Talukdar, P., Yang, B., Betteridge, J., & Krishnamurthy, J (2018) Never-ending learning Communications of the ACM, 61(5), 103-115 15 Silver, D L., Mason, G., & Eljabu, L (2015, June) Consolidation Using Sweep Task Rehearsal: Overcoming the Stability-Plasticity Problem In Canadian Conference on Artificial Intelligence (pp 307-322) Springer, Cham 16 Shu, L., Xu, H., & Liu, B (2017) Lifelong learning crf for supervised aspect extraction arXiv preprint arXiv:1705.00251 17 Thrun, S., Mitchell, T.M.: Lifelong robot learning Robot Auton Syst 15(1–2), 25– 46(1995) 18 Thrun, S.: Explanation-Based Neural Network Learning: A Lifelong Learning Approach.Springer, US (1996) 19 Tran, Q T., Pham, T T., Ngo, Q H., Dinh, D., & Collier, N (2007) Named entity recognition in Vietnamese documents Progress in Informatics Journal,5, 14-17 20 Tu, N C., Oanh, T T., Hieu, P X., & Thuy, H Q (2005) Named entity recognition in vietnamese free-text and web documents using conditional random fields In The 8th Conference on Some selection problems of Information Technology and Telecommunication 38 21 Zhiyuan Chen and Bing Liu Lifelong Machine Learning Morgan & Claypool Publishers, November 2016 22 Zhou, G., & Su, J (2002, July) Named entity recognition using an HMMbased chunk tagger In proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp 473-480) Association for Computational Linguistics Trang web 22 http://cs.nyu.edu/cs/projects/proteus 39 ... toán nhận dạng thực thể cho văn ngắn Tiếng Việt Đề tài luận văn nhận dạng thực thể định danh văn ngắn Tiếng Việt Chương giới thiệu toán nhận dạng thực thể văn Tiếng Việt khó khăn gặp phải thực. .. dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng thực thể. .. hệ thống nhận dạng thực thể Tiếng Việt Tổng kết chương Chương giới thiệu toán nhận dạng thực thể áp dụng văn Tiếng Việt nghiên cứu thực cho toán nhận dạng thực thể cho Tiếng Anh, Tiếng Việt nghiên