Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 97 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
97
Dung lượng
3,1 MB
Nội dung
ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ BÌNH DƯƠNG – 2021 ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGÔ THANH HÙNG BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tơi Lưu Tuấn Thành, học viên lớp CH17HT, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một Tôi cam đoan, luận văn “Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại di động” công trình nghiên cứu riêng cá nhân tơi, hướng dẫn TS Ngô Thanh Hùng Luận văn tơi tự nghiên cứu, tìm hiểu, đọc, dịch tài liệu, tổng hợp thực Nội dung sở lý thuyết đúc kết từ cơng trình nghiên cứu trước biên mục phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa cơng bố cơng trình khác Tôi xin chịu trách nhiệm lời cam đoan Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn Lưu Tuấn Thành LỜI CẢM ƠN Trong trình thực luận văn “Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại di động” tơi hướng dẫn nhiệt tình TS Ngô Thanh Hùng Thầy dành nhiều thời gian hướng dẫn, góp ý để tơi hồn thiện đề tài Trong q trình nghiên cứu thầy ln động viên tinh thần, định hướng cho tơi lúc khó khăn nghiên cứu Tôi chân thành cảm ơn Tôi bày tỏ lòng biết ơn sâu sắc đến thầy giảng dạy tơi tận tình, thầy Bùi Thanh Hùng truyền đạt kiến thức bổ ích cho suốt thời gian học trường Đại học Thủ Dầu Một tạo điều kiện tốt để tơi hồn thành luận văn Sau cùng, tơi xin gửi lời cảm ơn đến gia đình, đồng nghiệp, anh chị học chung lớp đoàn kết, sát cánh giúp đỡ, động viên suốt thời gian học vừa qua Một lần nữa, xin Trân trọng cảm ơn Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn LƯU TUẤN THÀNH II TÓM TẮT LUẬN VĂN Trong thời đại khoa học - kỹ thuật nay, thời đại cách mạng khoa học 4.0, với phát triển mặt đời sống từ văn hóa, giáo dục cơng nghệ lĩnh vực cơng nghệ thơng tin tạo sản phẩm trí tuệ nhân tạo, robot cơng nghệ máy móc dần thay người Nhu cầu giao tiếp, thương mại điện tử tìm kiếm thơng tin lớn, số ứng dụng xử lý ngơn ngữ tự nhiên tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thơng tin trả lời câu hỏi tự động ngày phát triển Những ứng dụng phát triển dựa tảng số tác vụ xử lý ngơn ngữ tự nhiên Trích chọn tên điện thoại di động văn nghiên cứu nhiều ngôn ngữ tiếng Anh, tiếng Nhật, tiếng Trung,… nhiều phương pháp khác đạt nhiều kết khả quan Các phương pháp học máy trước SVM, định, … cho kết phân loại tốt Luận văn với đề tài “Phương pháp học bán giám sát cho toán trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại di động” dựa nghiên cứu trước để đề xuất nghiên cứu phát triển hệ thống nhận diện tên riêng tiếng Việt (ViNER) cách kết hợp đặc trưng cú pháp tự động với từ nhúng huấn luyện sẵn làm đầu vào cho nhớ ngắn dài hai chiều (BiLSTM) Phương pháp huấn luyện hệ thống tập liệu mà thu thập từ hàng trăm báo khác Bộ liệu gồm tập liệu huấn luyện, phê chuẩn kiểm tra Mỗi tập liệu gồm cột: Từ từ ghép, POS, CHUNK TAG Sau huấn luyện đánh giá thực nghiệm hệ thống nhiều khía cạnh khác độ đo xác (Accuracy), tơi nhận thấy hệ thống kết hợp đặc trưng cú pháp tự động với từ nhúng huấn luận sẵn làm đầu vào cho nhớ ngắn dài hai chiều (BiLSTM) cho kết cao đạt 74,04% Luận văn xây dựng ứng dụng web trích xuất trực quan, nhận diện tên điện thoại di động cho đoạn văn người dùng nhập vào I MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II TÓM TẮT LUẬN VĂN DANH MỤC VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ, ĐỒ THỊ CHƯƠNG I GIỚI THIỆU CHUNG 1.1 Lí thực đề tài 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng, phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Ý nghĩa khoa học ý nghĩa thực tiễn đề tài 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn 1.6 Bố cục luận văn CHƯƠNG II CƠ SỞ LÝ THUYẾT 2.1 Xử lý ngôn ngữ tự nhiên 2.1.1 Tách từ (ViTokenizer) 2.1.2 Xác định loại từ câu (Part-of-Speech tagging - POS tagging) 2.1.3 Xác định cụm từ (Chunking) 2.1.4 Phân tích cú pháp (Parsing) 12 2.2 Các phương pháp biểu diễn từ dạng vector 13 2.2.1 Biểu diễn túi từ - Bag of words 13 2.2.2 Biểu diễn One-hot-vector 14 2.2.3 Túi từ liên tục - CBOW 18 II 2.2.4 Skip gram 21 2.3 Học sâu - Deep Learning 25 2.3.1 Mạng nơ ron nhân tạo (ANN) 26 2.3.2 Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) 32 2.3.3 Bộ nhớ dài-ngắn LSTM (Long-short term memory) 34 2.3.4 Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory) 39 2.4 Phương pháp học bán giám sát 40 2.5 Học có giám sát 41 Ví dụ học giám sát 42 2.6 Học không giám sát 43 2.7 Xác định thực thể tên điện thoại di động 44 2.7.1 Tổng quan tốn Trích chọn thực thể tên điện thoại di động 44 2.7.2 Hướng tiếp cận nghiên cứu 45 2.7.3 Các nghiên cứu gần 45 2.7.4 Đề xuất hướng nghiên cứu 46 CHƯƠNG III MÔ HÌNH ĐỀ XUẤT 48 3.1 Tổng quan mơ hình đề xuất 48 3.2 Các đặc trưng mơ hình đề xuất 49 3.2.1 Từ nhúng – Word embeddings 49 3.2.2 Các đặc trưng cú pháp 51 3.3 Trích chọn tên thực thể điện thoại di động 51 3.3.1 Mơ hình học sâu tốn trích chọn tên điện thoại di động 53 3.3.2 Trích chọn tên điện thoại di động 56 3.4 Cách đánh giá: 56 CHƯƠNG IV 58 THỰC NGHIỆM 58 4.1 Môi trường thực nghiệm 58 III 4.2 Dữ liệu thực nghiệm 59 4.2.1 Thu thập liệu 59 4.2.2 Xử lý liệu 60 4.3 Kết Thực nghiệm 63 4.3.1 Trích xuất đặc trưng 63 4.3.2 Thực nghiệm phương pháp LSTM BiLSTM với đặc trưng từ 64 4.3.3 Thực nghiệm BiLSTM với đặc trưng từ số vòng huấn luyện khác 65 4.3.4 Thực nghiệm phương pháp sử dụng lớp BiLSTM với đặc trưng từ 65 4.3.5 Thực nghiệm phương pháp BiLSTM với đặc trưng từ tỉ lệ Dropout khác 65 4.4 Xây dựng ứng dụng Web trực quan hóa kết 66 4.4.1 Thiết kế Xây dựng Web: 66 CHƯƠNG V 71 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 71 5.1 Kết đạt 71 5.2 Hướng phát triển 71 TÀI LIỆU THAM KHẢO 73 IV DANH MỤC VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải BiLSTM Bidirectional long short- Mạng nơ ron nhớ ngắn – dài song term memory song CBOW Continuous Bag of Words Túi từ liên tục CHUNK Chunking Tách câu thành cụm từ (Cụm danh từ, cụm động từ, …) LSTM Long short-term memory Mạng nơ ron nhớ ngắn – dài MISC Miscellaneous Tên riêng khác không thuộc Org ML Machine learning Học máy NER Named Entity Recognition NLP Natural Languague Processing Nhận diện thực thể đặt tên hay nhận diện tên riêng Xử lý ngôn ngữ tự nhiên ORG Organization Tên điện thoại di động tổ chức POS Part-of-Speech Từ loại (N, A, R, …) RNN Recurrent Neural Network Mạng nơ ron hồi quy ViNER ANN Vietnamese Named Entity Recognition Nhận diện tên riêng tiếng Việt Mạng nơ ron nhân tạo Artificial Neural Network V DANH MỤC CÁC BẢNG Bảng Minh họa ví dụ tách từ Bảng 2 Nhãn cụm từ cho hệ phân cụm từ Việt 11 Bảng Biểu diễn từ thành ma trận vector 50 chiều 13 Bảng Các đặc trưng sinh tự động 51 Bảng Một đặc trưng vector đầu vào cho mơ hình 55 Bảng 1: cấu hình máy PC dùng thực nghiệm 58 Bảng 2: Các công cụ sử dụng thực nghiệm 58 Bảng Thống kê chi tiết liệu 62 Bảng 4 Tham số mơ hình huấn luyện 64 Bảng Độ xác hệ thống sử dụng phương pháp học sâu 64 Bảng Độ xác hệ thống huấn luyện với Epoch khác 65 Bảng Kết so sánh lớp 65 Bảng Kết Dropout khác 65 Bảng Kết so sánh đặc trưng 66 Bảng 10 Các tham số đặc trưng tối ưu cho mô hình huấn luyện_đánh giá 66 VI CHƯƠNG V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong chương nói lên kết đạt luận văn hướng phát triển sau luận văn 5.1 Kết đạt Luận văn trích chọn tên điện thoại di động tơi cung cấp thơng tin hữu ích cho ứng dụng xử lý ngơn ngữ tự nhiên khác trích xuất thơng tin trả lời câu hỏi tự động, tóm tắt văn bản, máy tìm kiếm, dịch máy, …Để hồn thành luận văn này, kế thừa, tổng hợp phát triển dựa nghiên cứu trước Kết đạt luận văn gồm: Tơi thử nghiệm mơ hình học sâu nhiều khía cạnh khác để từ so sánh, đánh giá, tìm mơ hình tối ưu cho toán nhận diện tên điện thoại di động Mơ hình Trích chọn thực thể tên điện thoại di động dùng phương pháp học sâu BiLSTM có quy mơ đơn giản mơ hình trước (như mơ hình kết hợp LSTM, CNN, CRF; Mơ hình SVM, …) kết hợp thêm đặc trưng cú pháp tự động phù hợp POS, Chunk cộng thêm hỗ trợ Word2vector huấn luyện sẵn cho thấy hiệu nhận diện tên điện thoại di động, tỉ lệ xác đạt 74.04% liệu Xây dựng ứng dụng dựa tảng Web-based: Luận văn xây dựng giao diện dựa tảng Web-based nhằm trực quan hóa phân tích liệu, phân tích kết trích chọn tên điện thoại di động cho văn thực tế nhập vào 5.2 Hướng phát triển Luận văn tiếp tục kế thừa nghiên cứu trước phát triển mơ hình trích chọn thơng tin trích chọn tên thực thể điện thoại di động xác hơn, hệ thống có khả học để trích chọn thêm loại tên khác Thu thập liệu lĩnh vực giáo dục nghề nghiệp mà công tác, thu thập liệu tối ưu nhằm gia tăng tốc độ huấn luyện cho hệ thống 71 Tôi thử nghiệm mô hình học bán giám sát, học sâu khác để từ so sánh, đánh giá, tìm mơ hình tối ưu cho tốn trích chọn tên thực thể điện thoại di động 72 TÀI LIỆU THAM KHẢO [1] [Cowie 1996] Cowie and W.Lehnert, Information Extraction, In Communications of the ACM [2] Ellen Riloff (1996), Automatically Generating Extraction Patterns from Untagged text, In Proceedings of the Thirteenth National Conference on Artificial Intelligence [3] S Hochreiter and J Schmidhuber, “Long Short-Term Memory”, Neural Computation, vol [4] Ralph Grishman (1997), Information extraction: Techniques and challenges, In Information Extraction (International Summer School SCIE-97) [5] Sergey Brin (1998), Extraction Patterns and Relation from the World Wide Web, Proceedings of the 6th International Conference on Extending Database Technology [6] Mary E Calif and Raymond J Mooney (1998), Relational learning of Pattern – Match Rules for Information Extraction, Proceedings of AAAI Spring Symposium on Applying Machine Learning [7] Christiane Fellbaum (1998), WordNet: An Electronic Lexical Database and Some of Its Applications, MIT Press [8] Douglas E.Appelt, David J.Israel (1999), Introduction to Information Extraction, A Tutorial Prepared for IJCAI-99 [9] Eugene Agichtein and Luis Gravano (2000), Snowball: Extracting Relations from Large Plain text Collections, Proceedings of the 5th ACM International Conference on Digital Libraries [10] https://nguyenvanhieu.vn/hoc-co-giam-sat-la-gi [11] https://machinelearningcoban.com/2016/12/27/categories [12] http://www.cnts.ua.ac.be/conll2003/ner [13] Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July 2000) "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application" (PDF) Proceedings of the IEEE International Joint Conference on Neural Networks 73 [14] [Florian et al.2003] R Florian, A Ittycheriah, H Jing, and T Zhang 2003 Named entity recognition through classifier combination Proceedings of NAACL-HLT [15] Giridhar Kumaran and James Allan (2004), Text Classification and Named Entities for New Event Detection, Proceedings of the 27PthP Annual International ACM SIGIR Conference [16] M Hassel (2003), Exploitation of Named Entities in Automatic Text Summarization for Swedish, In Proceedings of NODALIDA 03 - 14 th Nordic Conference on Computational Linguistics [17] Marius Pasca (2004), Acquisition of Categorized Named Entities for Web Search, ACM Press [18] [Nguyễn 2005] T Nguyễn, T Oanh, P Hieu, H Thuy, Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Ramdom Fields, The 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Viet Nam 2005 [19] [Krishnan 2005], Named Entity Recognition, cs.Standford.edu [20] Diego Molla, Mennovan Zaanen and Daniel Smith (2006), Named Entity Recognition for Question Answering, Proceedings ALTW [21] Claudio Giuliano, Albert Olavelli and Lorenza Romano (2007), Relation Extraction and the Influence of Automatic Named-Entity Recognition, ACM Trans Speech Lang Process [22] [Phạm 2007] T Pham, A Kawazoe; D Dinh; N Collier, Construction of Vietnamese corpora for named entity recognition, In Conference RIAO2007, Pittsburgh PA, U.S.A May 30-June 1, 2007 – Copyright C.I.D Paris, France, 2007 [23] [Cao 2007] T Cao, Automatic Extraction of Vietnamese Named-Entities on the Web, New Generation Computing, Ohmsha, Ltd And Springer 74 [24] Nozomi Kobayashi, Kentaro Inui and Yuji Matsumoto (2007), Opinion Mining from Web documents: Extraction and Structurization, Journal of Japanese Society for Artificial Intelligence [25] https://medium.com/longvietthang/nhận diện tên riêng văn với Bi-bidirectional-long-short-term-memory-và-conditional-random [26] [Mansouri 2008] A Mansouri, L Affendey, A Mamat, Named Entity Recognition Using a New Fuzzy Support Vector Machine [27] U Hermjakob, K Knight, and H Daume (2008), Name Translation in Statistical Machine Translation: Learning When to Transliterate, Proc ACL [28] GuXu, Shuang-HongYang and HangLi (2009), Named Entity Mining from Click-Through Data Using Weakly Supervised Latent Dirichlet Allocation, Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 1365-1374 [29] [Lin and Wu2009] Dekang Lin and Xiaoyun Wu 2009 Phrase clustering for discriminative learning In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, volume 2, pages 1030– 1038 Association for Computational Linguistics [30] [truong thi Phuong Thao 2011],Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên máy ảnh kỹ thuật số, đại học quốc gia hà nội, trường đại học công nghệ [31] Google (2013), https://code.google.com/archive/p/word2vec/ [32] Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S.; Dean, Jeff (2013) Distributed representations of words and phrases and their compositionality Advances in Neural Information Processing Systems arXiv:1310.4546 [33] Tomas Mikolov; et al (2013) "Efficient Estimation of Word Representations in Vector Space" arXiv:1301.3781 75 [34] [Durrett and Klein2014] Greg Durrett and Dan Klein 2014 A joint model for entity analysis: Coreference, typing, and linking Transactions of the Association for Computational Linguistics, 2:477–490 [35] Le, Quoc, Tomas Mikolov et al (2014) "Distributed Representations of Sentences and Documents" arXiv:1405.4053 [36] [Luo and Xiaojiang Huang2015] Gang Luo and Zaiqing Nie Xiaojiang Huang, Chin-Yew Lin 2015 Joint entity recognition and disambiguation In Proceedings of the 2015 Conference on Empirical Methods on Natural Language Processing, pages 879–888 Association for Computational Linguistics [37] Schmidhuber, Jürgen (2015) "Deep learning in neural networks: An overview" Neural Networks 61: 85–117 arXiv:1404.7828 [38] Zhiheng Huang, Wei Xu, and Kai Yu 2015 Bidirectional LSTM-CRF models for sequence tagging arXiv preprint arXiv:1508.01991 [39] Wang P, Qian Y, Soong F K, He L, Zhao H, “Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network”, Cornell University, 2015 [40] Sundermeyer M, Ney H and Schluter R, “From Feedforward to Recurrent LSTM Neural Networks for Language Modelling”, J IEEE/ACM Trans, Audio Speech Lang Process, Issue 3, pp 517–29, 2015 [41] McCormick, C (2016) Word2vec Tutorial - The Skip-Gram Model [42] Ma, Xuezhe, and Eduard Hovy “End-to-end sequence labeling via bidirectional lstm-cnns-crf.” arXiv preprint arXiv:1603.01354 (2016) [43] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy, “Hierarchical attention networks for document classification”, In Proc ACL, 2016 [44] Sumit Chopra, Michael Auli, Alexander M Rush, and SEAS Harvard, “Abstractive sentence summarization with attentive recurrent neural networks”, Proceedings of NAACL-HLT16 pages 93–98, 2016 76 [45] Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria, “Recent Trends in Deep Learning Based Natural Language Processing, IEEE Computational Intelligence Magazine, 2018 [46] Truong Son Nguyen, Le Minh Nguyen, and Xuan Chien Tran 2016 Vietnamese named entity recognition at VLSP 2016 evaluation campaign In Proceedings of The Fourth International Workshop on Vietnamese Language and Speech Processing, Hanoi, Vietnam [47] Thai-Hoang Pham and Phuong Le-Hong 2017 End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs character-level arXiv preprint arXiv:1705.04044 [48] https://mc.ai/nhan-dien-ten-rieng-trong-van-ban-voi-bidirectional-longshort-term-memory-va-conditional-random/ [49] [Nguyễn Anh Dũng 2019], nhận dạng tên riêng tiếng việt phương pháp học sâu, trường đại học Thủ Dầu Một [50] [Nguyễn Trung Tín – 2019]: Xây dựng hệ thống hỏi đáp tự động hỗ trợ công tác tư vấn dịch vụ hành cơng Sở Thơng tin Truyền thơng tỉnh Bình Dương, trường đại học Thủ Dầu Một [51] [Nguyễn Thanh Tùng – 2019]: Ứng dụng phương pháp học sâu để nhận diện khuôn mặt qua camera giám sát, trường đại học Thủ Dầu Một [52] https://github.com/undertheseanlp/ner [53] [Mai Huy Hồng – 2020]: Nhận dạng tiếng nói tiếng Việt phương pháp học sâu, trường đại học Thủ Dầu Một [54] [Đào Xuân Thắng- 2021]: Xác định tên riêng tiếng Việt phương pháp học máy, trường đại học Thủ Dầu Một [55] [Phan Anh Tuấn – 2021]: Phân tích, dự báo kết doanh thu thuê bao di dộng Vina Tân Biên học máy trường đại học Thủ Dầu Một [56] https://machinelearningmastery.com/how-to-one-hot-encode-sequencedata-in-python/ [57] https://ichi.pro/vi/xu-ly-ngon-ngu-tu-nhien-bang-python-nltk101258229749293 77 [58] http://www.jaist.ac.jp/~bao/VLSP-text/ICTrda08/ICT08-VLSP-SP842.pdf 78 UBND TỈNH BÌNH DƯƠNG CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT Độc lập – Tự – Hạnh phúc Bình Dương, ngày 23 tháng 12 năm 2021 BIÊN BẢN HỌP HỘI ĐỒNG ĐÁNH GIÁ LUẬN VĂN THẠC SĨ Của học viên: Lưu Tuấn Thành Về đề tài: Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại di động Tại Hội đồng trực tuyến – Trường Đại học Thủ Dầu Một, ngày 23 tháng 12 năm 2021 Hội đồng đánh giá luận văn thành lập theo Quyết định số, ngày cấp: 1616/QĐ-ĐHTDM, ngày 19/10/2021 trình bày tóm tắt luận văn thạc sĩ Nhận xét, đặt câu hỏi thành viên Hội đồng đánh giá luận văn: - Trích chọn thực thể có tên giúp cho hệ thống hỗ trợ định hỗ trợ tốt cho người dung, đặc biệt hệ thống thương mại điện tử - Công việc thực luận văn có ý nghĩa khoa học giá trị thực tiễn Câu hỏi: - Nguồn thu thập liệu nào? Google nhiều tên điện thoại, kể điện thoại cũ - Việc chia liệu để huấn luyện, thẩm định kiểm tra chia theo tỷ lệ nào? Việc chia có ảnh hưởng đến độ đo? - Làm rõ mặt khoa học luận văn Luận văn liên kết công cụ có để tạo nên mơ hình cho phép nhận diện tên điện thoại di động, model sản xuất Tuy nhiên, cần làm rõ đóng góp mặt khoa học? - r cơng thức (2.2) gì? - Thế toán tử Pointwise? 79 Sau nghe tác giả trả lời người hướng dẫn khoa học nhận xét luận văn Hội đồng họp riêng thông qua kết luận Khi thông qua kết luận, Hội đồng bầu Ban kiểm phiếu gồm: 1) TS.Hoàng Mạnh Hà Trưởng ban 2) TS.Giang Minh Đức Ủy viên 3) TS.Huỳnh Hữu Nghĩa Ủy viên Căn vào kết bỏ phiếu Hội đồng đánh giá luận văn là: - Số thành viên Hội đồng tham gia bỏ phiếu: - Tổng số điểm đánh giá luận văn Hội đồng: 39.5 điểm - Điểm bình quân: 7.9 điểm Hội đồng kết luận: 1) Bản luận văn học viên Lưu Tuấn Thành đáp ứng yêu cầu luận văn thạc sĩ Cụ thể là: - Luận văn có ý nghĩa khoa học thực tiễn - Nội dung luận văn phù hợp với chuyên ngành đào tạo hệ thống thơng tin - Luận văn có cấu trúc phù hợp với u cầu - Sử dụng mơ hình học sâu cho toán nhận diện tên điện thoại di động - Tiến hành thực nghiệm trê liệu thu thập 2) Các nội dung đề nghị chỉnh sửa: - Nên dịch số từ thông dụng sang tiếng Việt “crawl”, training huấn luyện, … - Mục 2.4.1 trình bày học có giám sát mục mục 2.4 trình bày học bán giám sát? - Nhiều tài liệu tham khảo không trích dẫn dạng thơng thường mà để dạng footnote, chưa rõ sao? - Luận văn có nhiều lỗi tả: xem lại phần tóm tắt, kết luận có lỗi tả… Mỗi chương cần them phần kết chương - Hình 2.12 Lược sử học sâu? - Viết hoa tùy tiện: 80 Nghiên cứu Nguyen Anh Dung, nhận diện tên riêng tiếng việt phương pháp học sâu, năm 2019 sử dụng mơ hình NER, dung phương pháp học - Các hình vẽ nên ghi nguồn (như hình 2.6, hình 2.8 …) 3) Đề nghị cơng nhận học vị Thạc sĩ cho học viên Lưu Tuấn Thành THƯ KÝ HỘI ĐỒNG CHỦ TỊCH HỘI ĐỒNG TS Giang Minh Đức TS Hồng Mạnh Hà 81 CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc NHẬN XÉT LUẬN VĂN THẠC SĨ Tên đề tài: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG Họ tên học viên: LƯU TUẤN THÀNH Người viết nhận xét: Võ Đình Bảy Cơ quan cơng tác: Đại học Cơng nghệ Tp.HCM NỘI DUNG NHẬN XÉT Tính cấp thiết, ý nghĩa khoa học thực tiễn luận văn Trích chọn thực thể có tên giúp cho hệ thống hỗ trợ định hỗ trợ tốt cho người dùng, đặc biệt hệ thống thương mại điện tử Luận văn tìm hiểu tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại Sự phù hợp đề tài với chuyên ngành đào tạo Đề tài phù hợp với chuyên ngành Về phương pháp nghiên cứu sử dụng Nghiên cứu lý thuyết, tổng hợp tài liệu đề xuất mơ hình Thu thập xử lý liệu Dùng thực nghiệm để đánh giá kết Về cấu trúc, hình thức luận văn Luận văn chia thành chương với 80 trang (Bao gồm tài liệu tham khảo) Luận văn có cấu trúc hợp lý Phần trình bày nên xem xét giảm bớt phần nội dung liên quan đến luận văn chương Về kết nghiên cứu, đóng góp luận văn Sử dụng mơ hình học sâu cho toán nhận diện tên thực thể (Ở tên điện thoại di động) 82 Sử dụng biLSTM kết hợp với đặc trưng cú pháp tự động Word2vec để nhận diện Tiến hành thực nghiệm liệu thu thập Góp ý thiếu sót cần chỉnh sửa, bổ sung a) Lý do, mục tiêu chưa thể tên đề tài, cần nêu phải sử dụng bán giám sát? b) Nên dịch số từ thông dụng sang tiếng Việt “crawl”, training huấn luyện, … c) Mục 2.4.1 trình bày học có giám sát mục mục 2.4 trình bày học bán giám sát? d) Nhiều tài liệu tham khảo khơng trích dẫn dạng thơng thường mà để footnote, chưa rõ sao? e) Rà soát, chỉnh sửa lỗi trình bày f) Cần giảm mức độ trùng với tài liệu khác (Hiện trùng 60%) Kết luận chung Luận văn đáp ứng yêu cầu luận văn thạc sỹ Câu hỏi: Nguồn thu thập liệu nào? Google nhiều tên điện thoại, kể điện thoại cũ Phần mơ hình chương chưa cho thấy khác học có giám sát bán giám sát? Dữ liệu chưa cho thấy phần có nhãn khơng có nhãn? Việc chia liệu để huấn luyện, thẩm định kiểm tra chia theo tỷ lệ nào? Việc chia có ảnh hưởng đến độ đo? Tp.HCM, ngày 23 tháng 12 năm 2021 Người nhận xét Võ Đình Bảy 83 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc NHẬN XÉT LUẬN VĂN THẠC SĨ Tên đề tài: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG Họ tên học viên: LƯU TUẤN THÀNH Người viết nhận xét: PGS.TS Lê Hồng Thái Cơ quan cơng tác: Trường Đại học Khoa học tự nhiên - ĐH Quốc gia Hồ Chí Minh NỘI DUNG NHẬN XÉT Tính cấp thiết, ý nghĩa khoa học thực tiễn luận văn Luận văn dựa nghiên cứu trước để phát triển hệ thống nhận diện tên điện thoại di động văn tiếng Việt (ViNER) cách kết hợp đặc trưng cú pháp tự động với từ nhúng huấn luyện sẵn làm đầu vào cho BiLSTM Nhận xét: công việc thực luận văn có ý nghĩa khoa học giá trị thực tiễn Sự phù hợp đề tài với chuyên ngành đào tạo Đề tài thực phù hợp với chuyên ngành Hệ thống thông tin Về phương pháp nghiên cứu sử dụng Khảo sát liệu thông tin điện thoại di động có nhiều tham số khác dựa tảng học sâu Deep Neural Networks để tìm mơ hình học sâu với tham số tối ưu cho hệ thống trích chọn tên điện thoại di động Xây dựng mơ hình trích chọn tên điện thoại di động từ văn tiếng Việt nhập vào từ giao diện Web Về cấu trúc, hình thức luận văn Luận văn bố cục thành chương tài liệu tham khảo Nhìn chung, luận văn trình bày rõ ràng, phản ánh đầy đủ nghiên cứu học viên 84 Về kết nghiên cứu, đóng góp luận văn - Tiến hành thu thập liệu cho thử nghiệm: Dữ liệu dùng thực nghiệm lấy từ địa thu thập từ ngày 20/7/2020 đến ngày 21/6/2021 có ngàn sản phẩm hãng sản xuất khác như: Apple, Samsung, Nokia, Oppo, Sony, Huawei, v.v - Tiến hành thử nghiệm để định chọn lựa mơ hình Trích chọn thực thể tên điện thoại di động dùng phương pháp học sâu BiLSTM, kết hợp thêm đặc trưng cú pháp tự động phù hợp với ngôn ngữ Tiếng Việt POS, Chunk cộng thêm hỗ trợ Word2vector huấn luyện sẵn cho Tiếng Việt Mơ hình cho thấy hiệu nhận diện tên điện thoại di động, tỉ lệ xác đạt 74.04% liệu tự thu thập - Luận văn xây dựng giao diện dựa tảng Web-based nhằm trực quan hóa phân tích liệu, phân tích kết trích chọn tên điện thoại di động cho văn thực tế nhập vào Góp ý thiếu sót cần chỉnh sửa, bổ sung Luận văn có nhiều lỗi tả: xem lại phần tóm tắt, kết luận có lỗi tả… Mỗi chương cần thêm phần kết chương Kết luận chung Luận văn đáp ứng yêu cầu luận văn Thạc sĩ chuyên ngành Hệ thống thông tin Tôi đồng ý đưa luận văn bảo vệ trước hội đồng Câu hỏi: Làm rõ mặt khoa học luận văn Luận văn liên kết cơng cụ có để tạo nên mơ hình cho phép nhận diện tên điện thoại di động, model sản xuất Tuy nhiên, cần làm rõ đóng góp mặt khoa học? Bình Dương, ngày 23 tháng 12 năm 2021 Người nhận xét Lê Hoàng Thái 85