Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt

173 37 0
Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê Phân tích ý định từ văn ngắn, trực tuyến tiếng Việt LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN Hà Nội - 2021 LỜI CAM ĐOAN Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định từ văn ngắn, trực tuyến tiếng Việt cơng trình nghiên cứu riêng NCS Các số liệu, kết trình bày luận án hoàn toàn trung thực chưa cơng bố cơng trình khác NCS trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan ngồi nước Ngoại trừ tài liệu tham khảo này, luận án hồn tồn cơng việc riêng NCS Trong cơng trình khoa học cơng bố liên quan đến luận án, NCS thể rõ xác đóng góp đồng tác giả NCS thực Tác giả: Hà Nội: i LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ biết ơn sâu sắc đến PGS.TS Phan Xuân Hiếu, cán hướng dẫn khoa học, người trực tiếp định hướng giúp đỡ suốt trình nghiên cứu thực luận án Thầy không truyền đạt cho kiến thức quan trọng học thuật mà cịn chia sẻ cho tơi nhiều kinh nghiệm quý giá đường nghiên cứu khoa học Một vinh dự lớn cho học tập, nghiên cứu hướng dẫn Thầy Tôi xin bày tỏ biết ơn chân thành đến Thầy, Cô Bộ môn Hệ thống thông tin, đặc biệt PGS.TS Hà Quang Thụy thành viên Phịng thí nghiệm Khoa học Dữ liệu Cơng nghệ Tri thức giúp đỡ đóng góp chun mơn hữu ích Thầy Cơ cho luận án Tôi xin trân trọng cảm ơn Khoa Cơng nghệ Thơng tin, Phịng Đào tạo Ban Giám hiệu Trường Đại học Công nghệ tạo điều kiện thuận lợi cho tơi suốt q trình học tập thực luận án Tôi bày tỏ biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa, đồng nghiệp Khoa Công nghệ Thông tin - Trường Đại học Giao thông Vận tải tạo điều kiện thời gian, tài cổ vũ, hỗ trợ suốt q trình nghiên cứu Bên cạnh đó, tơi xin gửi lời cảm ơn đến PGS.TS Trần Văn Long, cán đồng hướng dẫn luận án tôi, giúp đỡ hữu ích cho luận án Tơi khơng thể qn cảm ơn cộng tơi nhóm nghiên cứu MDN–Team, người đồng hành, sát cánh tơi suốt q trình nghiên cứu, hồn thành luận án, tơi ln ghi nhớ điều Ngồi ra, tơi muốn cảm ơn tất người bạn tơi động viên chia sẻ cần Cuối cùng, xin bày tỏ lịng biết ơn vơ hạn bố mẹ, chồng, gia đình, người ln ủng hộ yêu thương cách vô điều kiện Nếu khơng có ủng hộ gia đình chồng con, tơi khơng thể hồn thành luận án ii Mục lục Lời cam đoan i Lời cảm ơn ii Mục lục ii Danh mục từ viết tắt vi Danh mục bảng viii Danh mục hình vẽ x Mở đầu Chương Tổng quan ý định phân tích ý định 1.1 Ý định thể ý định ngôn ngữ 1.2 Ý định văn trực tuyến 1.3 Phân tích ý định: bối cảnh khoa học 1.3.1 Phân tích xác định ý định từ truy vấn tìm kiếm 1.3.2 Phân tích ý định đăng 1.4 Một số kỹ thuật khai phá liệu mơ hình học máy 1.4.1 Cơ kỹ thuật phân lớp 1.4.2 Cơ kỹ thuật trích xuất thơng tin 1.4.3 Cơ mạng nơ ron 1.5 Kết luận chương Chương Phân tích ý định từ văn trực tuyến 2.1 Phân tích ý định từ văn trực tuyến tiếng Việt 2.1.1 Xây dựng liệu thực nghiệm 2.1.2 Khó khăn - Thách thức 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học 2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển 2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc iii 10 10 12 14 16 20 21 21 23 25 30 31 31 33 36 38 38 39 2.3 Định nghĩa ý định hướng miền quan tâm 2.3.1 Định nghĩa quan điểm Bing Liu 2.3.2 Định nghĩa ý định Bing Liu 2.3.3 Định nghĩa ý định hướng miền quan tâm luận án 2.4 Tiến trình ba pha phân tích xác định ý định 2.5 Kết luận chương 39 40 41 42 46 50 Chương Phát ý định xác định miền quan tâm ý định 51 3.1 Nghiên cứu giới phát ý định xác định miền quan tâm ý định 52 3.1.1 Phát đăng trực tuyến mang ý định 52 3.1.2 Xác định miền quan tâm ý định 53 3.2 Phát ý định 55 3.2.1 Phát biểu toán 55 3.2.2 Mơ hình giải tốn 56 3.2.3 Dữ liệu thực nghiệm 60 3.2.4 Thiết kế thực nghiệm 61 3.2.5 Kết thực nghiệm 62 3.3 Xác định miền quan tâm ý định 65 3.3.1 Phát biểu toán 65 3.3.2 Mơ hình giải toán 67 3.3.3 Xây dựng tập miền quan tâm 70 3.3.4 Dữ liệu thực nghiệm 71 3.3.5 Thiết kế thực nghiệm 73 3.3.6 Kết thực nghiệm 73 3.4 Kết luận chương 77 Chương Phân tích trích chọn nội dung ý định 79 4.1 Giới thiệu 79 4.2 Nghiên cứu giới trích chọn nội dung ý định 81 4.3 Phát biểu toán 83 4.4 Trích chọn ý định theo tiếp cận học máy thống kê học sâu 84 4.4.1 Xây dựng nhãn thực nghiệm 84 4.4.2 Trích chọn ý định với phương pháp CRFs 84 4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM– CRFs 88 4.4.4 Độ đo đánh giá mơ hình thực nghiệm 92 4.4.5 Thời gian thực nghiệm với mơ hình 93 iv 4.4.6 Dữ liệu thực nghiệm 4.4.7 Thiết kế thực nghiệm 4.4.8 Kết thực nghiệm 4.5 Trích chọn ý định dựa kết hợp mơ hình học sâu 4.5.1 Kỹ thuật học kết hợp (ensemble learning) 4.5.2 Xây dựng nhãn thực nghiệm 4.5.3 Mơ hình giải tốn 4.5.4 Dữ liệu thực nghiệm 4.5.5 Thiết kế thực nghiệm 4.5.6 Kết thực nghiệm 4.6 Kết luận chương 93 95 96 99 100 101 101 109 110 113 118 Chương Phân tích trích chọn ý định đa miền quan tâm 5.1 Giới thiệu 5.2 Nghiên cứu giới thích nghi miền xác định ý định 5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm 5.3.1 Phát biểu toán 5.3.2 Xây dựng nhãn không phụ thuộc miền 5.3.3 Mơ hình trích xuất ý định đa miền quan tâm 5.3.4 Dữ liệu thực nghiệm 5.3.5 Thiết kế thực nghiệm 5.3.6 Kết thực nghiệm 5.3.7 Mơ mơ hình trích xuất ý định đa miền quan tâm 5.4 Kết luận chương 121 121 Kết luận 148 Danh mục cơng trình khoa học 150 Tài liệu tham khảo 151 Phụ lục 159 v 122 125 125 126 131 135 136 138 144 146 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch Bi-LSTM Bidirectional Long Short Term Memory Mạng nhớ dài ngắn hai chiều Bi-LSTM-CRFs Bidirectional Long Short Term Memory Conditional Random Field Mạng nhớ dài ngắn hai chiều trường ngẫu nhiên có điều kiện CNN Convolutional Neural Network Mạng nơ ron tích chập CRFs Conditional Random Fields Trường ngẫu nhiên có điều kiện EI Explicit Intent Ý định rõ EMD Entity Mentioned Detection Xác định thực thể nhắc đến IE Information Extraction Trích xuất thơng tin IH Intent Head Đầu ý định II Implicit Intent Ý định ẩn IM Intent Modifiers Bổ nghĩa ý định L-BFGS Limited-memory Broyden-Fletcher Goldfarb Shanno Giới hạn nhớ BFGS LSTM Long Short Term Memory Mạng nhớ ngắn dài vi ME Maximum Entropy Cực đại entropy NI Non Intent Khơng có ý định NER Named Entity Ricognition Nhận diện thực thể có tên POS Part Of Speech Thành phần câu RNN Recurrent Neural Network Mạng nơ ron hồi quy SVMs Support Vector Machines Máy véc tơ hỗ trợ vii DANH MỤC CÁC BẢNG 1.1 Ví dụ văn trực tuyến chứa không chứa ý định 3.1 Đặc trưng dùng để huấn luyện mơ hình lọc đăng mang ý định người dùng 3.2 Ý định người dùng thuộc miền quan tâm khác 3.3 Ví dụ vài đặc trưng từ điển có trọng số cao cho miền quan tâm 3.4 Mười ba lớp miền quan tâm ý định ví dụ 3.5 Precision, recall F1 -score fold tốt dùng SVMs ME 3.6 Độ xác lớp miền quan tâm sử dụng phương pháp CNN 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 Bộ 13 nhãn cho miền quan tâm Bất động sản Bộ nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp Ví dụ minh họa cho đặc trưng dạng biểu thức quy Đặc trưng từ điển Gán nhãn liệu với nhãn tương ứng Trung bình F1-score với mơ hình thực nghiệm thuộc miền quan tâm Mỹ phẩm & Làm đẹp Trung bình F1-score với mơ hình thực nghiệm thuộc miền quan tâm Bất động sản Bộ 18 nhãn miền Bất động sản (BĐS) Bộ 15 nhãn miền Du lịch Bộ gồm 17 nhãn miền Xe cộ Độ xác nhãn thu miền Du lịch sử dụng phương pháp học kết hợp mà luận án đề xuất Độ xác nhãn thu miền Xe cộ sử dụng phương pháp kết hợp mà luận án đề xuất viii 13 61 66 69 72 74 77 85 85 87 88 93 98 98 110 111 112 116 118 4.13 Độ xác nhãn thu miền Bất động sản sử dụng phương pháp kết hợp mà luận án đề xuất 119 4.14 Một số ví dụ nhãn mơ tả 120 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 Bộ 18 nhãn miền Bất động sản (BĐS) Bộ 15 nhãn miền Du lịch Bộ gồm 17 nhãn miền Xe cộ Bộ 10 nhãn không phụ thuộc miền Sử dụng nhãn không phụ thuộc miền số miền quan tâm khác Gán nhãn liệu với nhãn riêng nhãn không phụ thuộc miền Kết F1 trung bình miền quan tâm cụ thể sử dụng nhãn riêng nhãn không phụ thuộc miền tương ứng Kết tốt trích xuất nhãn miền Du lịch với nhãn không phụ thuộc miền Kết tốt trích xuất nhãn miền Du lịch với nhãn riêng Kết tốt trích xuất nhãn miền Xe cộ Bất động sản với nhãn riêng Kết tốt trích xuất tập 32 nhãn riêng tổ hợp miền quan tâm Kết tốt trích xuất tập 10 nhãn khơng phụ thuộc miền tổ hợp miền quan tâm Ví dụ gán nhãn cho miền Bất động sản (BĐS) Ví dụ gán nhãn cho miền Du lịch Ví dụ gán nhãn cho miền Xe cộ ix 127 128 129 130 131 136 138 139 140 141 145 146 159 160 161 Chương Phân tích trích chọn ý định đa miền quan tâm 147 phương tiện truyền thông xã hội Việt Nam, từ đề xuất nhãn chung (khơng phụ thuộc miền) để trích xuất nội dung thơng tin ý định, nhãn sau kiểm nghiệm miền quan tâm khác ý định người dùng cho kết phù hợp Các thực nghiệm cho thấy phương pháp đa miền quan tâm thực hiệu cần xác định ý định người dùng trường hợp xuất thêm miền quan tâm Trong chương này, luận án giới thiệu phần mềm xây dựng để mô cho mơ hình xác định ý định đa miền quan tâm mà luận án đề xuất Kết luận Như đề cập xuyên suốt luận án, phân tích xác định ý định từ văn tốn khó lĩnh vực khai phá văn xử lý ngơn ngữ tự nhiên Đã có nghiên cứu tiếp cận tốn góc độ khác phạm vi khác Luận án trình bày đề xuất việc mơ hình hố giải vấn đề xoay quanh tốn phát phân tích, xác định nội dung ý định từ văn truyền thông xã hội trực tuyến tiếng Việt Tựu trung lại, luận án đạt kết đóng góp sau: Thứ nhất, luận án đề xuất định nghĩa ý định rõ hướng miền quan tâm phù hợp cho văn truyền thông xã hội trực tuyến, đồng thời đề xuất tiến trình ba pha gồm ba tốn nhằm phân tích xác định thơng tin ý định [LTLe1] Thứ hai, luận án đề xuất mơ hình hóa toán (phát ý định) toán hai (xác định miền quan tâm ý định) thành toán phân lớp nhị phân phân lớp đa lớp Kết thực nghiệm cho thấy, hai phương pháp phân lớp đơn giản hiệu quả, ME SVMs, phù hợp với hai toán Đặc biệt, việc sử dụng đặc trưng từ điển hiệu với hai toán Các nội dung kết nghiên cứu trình bày cơng trình [LTLe1], [LTLe2] Ngồi luận án thử nghiệm phương pháp học sâu CNN với toán này, kết nghiên cứu trình bày cơng trình [LTLe6] Thứ ba, luận án đề xuất mơ hình hóa tốn ba (trích chọn thơng tin ý định) dạng trích chọn thơng tin liệu chuỗi Các mơ hình học máy thống kê cho liệu chuỗi CRFs, mơ hình học sâu Bi-LSTM-CRFs đề xuất để giải toán Luận án đề xuất tập nhãn đặc trưng tương ứng nội dung ý định cần trích xuất miền 148 Kết luận 149 liệu Các nội dung kết trình bày cơng trình [LTLe3] Hơn nữa, luận án đề xuất phương pháp hiệu để nâng cao độ xác tốn trích chọn thơng tin ý định dựa mơ hình học kết hợp (ensemble learning) mơ hình học sâu Nội dung kết nghiên cứu trình bày cơng trình [LTLe4] Thứ tư, luận án đề xuất tiếp cận việc phân tích xác định ý định đa miền quan tâm dựa ý tưởng xây dựng tập nhãn chung cho miền liệu Luận án tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu hai cách tiếp cận phụ thuộc miền không phụ thuộc miền thảo luận ưu nhược điểm cách tiếp cận Nội dung kết trình bày cơng trình [LTLe5] Bên cạnh đó, luận án cung cấp khảo sát tổng quan hướng nghiên cứu phân tích xác định ý định từ văn Có thể nói đóng góp luận án có ý nghĩa việc bổ sung hồn thiện kết nghiên cứu phân tích ý định giới đặc biệt cho tiếng Việt Các kết luận án công bố cơng trình khoa học đăng tải tạp chí, hội nghị chuyên ngành nước quốc tế có phản biện Mặc dù luận án đạt số kết nghiên cứu tích cực, tồn hạn chế chưa giải như: (i) luận án sử dụng hai loại đặc trưng với toán phân lớp pha thứ pha thứ hai có nhiều loại đặc trưng hiệu khác chưa khai thác; (ii) luận án chưa xử lý trường hợp đăng mang ý định nhập nhằng; (iii) chưa giải vấn đề đăng mang nhiều ý định rõ lúc; (iv) luận án cần giải triệt để vấn đề thích nghi miền phân tích ý định , cụ thể nghiên cứu vấn đề học chuyển đổi miền quan tâm; (v) liệu khiêm tốn thực nghiệm theo phương pháp học sâu Trong tương lai gần, NCS tiếp tục tập trung giải vấn đề vừa nêu DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC [LTLe1] Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, ThiMinh-Ngoc Truong, Thi-Thu Phi and Xuan-Hieu Phan; Learning to Filter User Explicit Intents in Online Vietnamese Social Media Texts The Eighth Asian Conference on Intelligent Information and Database Systems (ACIIDS), pp.13-24, Springer, 2016 [SCOPUS, DBLP] [LTLe2] Thai-Le Luong, Quoc-Tuan Truong, Hai-Trieu Dang and XuanHieu Phan; Domain Identification for Intention Posts on Online Social Media In Proceedings of the Seventh Symposium on Information and Communication Technology (SoICT), pp 52-57, ACM, 2016 [SCOPUS, DBLP] [LTLe3] Thai-Le Luong, Minh-Son Cao, Duc-Thang Le and XuanHieu Phan; Intent Extraction from Social Media Texts Using Sequential Segmentation and Deep Learning Models In Proceedings of the 9th International Conference on Knowledge and Systems Engineering (KSE), pp 215-220, Springer LNCS, IEEE, 2017 [SCOPUS, DBLP] [LTLe4] Thai-Le Luong, Nhu-Thuat Tran and Xuan-Hieu Phan; Improving Intent Extraction Using Ensemble Neural Network In Proceedings of the 19th International Symposium on Communications and Information Technologies (ISCIT), pp 58-63, IEEE, 2019 [SCOPUS, DBLP] [LTLe5] Thai-Le Luong, Nhu-Thuat Tran, Tien-Son Dang, Quoc-Long Tran and Xuan-Hieu Phan; Domain-independent Intent Extraction from Online Texts Computacion y Systemas, Vol 24, No 1, pp.331-347, 2020 [SCOPUS,DBLP] [LTLe6] Luong Thai Le; Intent domain identification using deep learning model The 2020 International Conference on Applications of Artificial Intelligence in Transportation, pp 246-254, 2020 150 TÀI LIỆU THAM KHẢO [1] M Araki, Y Kimura, T Nishimoto and Y Niimi, Development of a machine learnable discourse tagging tool In Proceedings of the Second SIGdial Workshop on Discourse and Dialogue-Volume 16, pp.1–6 Association for Computational Linguistics, 2001 [2] A Ashkan, C.L Clarke, E Agichtein and Q Guo, Classifying and characterizing query intent In: The 31th ECIR, pp.578–586, 2008 [3] A Ashkan and C L Clarke, Term-based commercial intent analysis In Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, pp.800–801 ACM, 2009 [4] R Baeza-Yates, L Calderón-Benavides and C González-Caro, The intention behind web queries In International Symposium on String Processing and Information Retrieval, pp 98–109, Springer, Berlin, Heidelberg, 2006 [5] R Baeza-Yates, Semantic query understanding In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 1357–1357) ACM, 2017 [6] A Basu, C Watters and M Shepherd, Support vector machines for text catego-rization In International Conference on System Sciences, Washington, DC, USA, IEEE Computer Society, 2003 [7] L.C Benavides, C.G Caro and R.B Yates, Towards a Deeper Understanding of the User’s Query Intent In The SIGIR Proceeding, 2010 [8] A Berger, S.A.D Pietra, V.J.D Pietra, A maximum entropy approach to natural language processing Computational Linguistics, 22(1):39–71, 1996 [9] A Bhargava, A Celikyilmaz, D Hakkani-Tur and R Sarikaya, Easy contextual intent prediction and slot detection In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pp 8337–8341 IEEE,2013 [10] B Liu, Sentiment Analysis: mining sentiments, opinions, and emotions Textbook, 2015 [11] P Bojanowski, E Grave, A Joulin, and T Mikolov, Enriching word vectors with subword information, arXiv:1607.04606, 2016 151 Tài liệu tham khảo 152 [12] A Broder, A taxonomy of web search ACM Sigir forum Vol 36 No ACM, 2002 [13] M Bratman, Intention, plans, and practical reason Harvard University Press, 1987 [14] C.G Caro, Supervised Identification of the User Intent of Web Search Queries The PhD Dissertation, Pompeu Farbra University, Spain, 2011 [15] R Caruana, A Niculescu-Mizil, G Crew and A Ksikes, Ensemble selection from libraries of models, In Proc of the 21st ICML, pp.18, 2004 [16] M Castellanos, et al Intention insider: discovering people’s intentions in the social channel, Proceedings of the 15th International Conference on Extending Database Technology ACM, 2012 [17] M.G Castellanos, R Ghosh, M.E Dekhil, U Dayal, and M.Hsu, Capturing intentions within online text U.S Patent No 9,411,860 Aug 2016 [18] Y.S Chang, K.Y He, S Yu and W.H Lu, Identifying user goals from Web search results In Web Intelligence, IEEE/WIC/ACM International Conference on, pp.1038–1041 IEEE, 2006 [19] L Chen, Understanding and exploiting user intent in community question answering PhD Dissertation, Birkbeck University of London, 2014 [20] Z Chen, F Lin, H Liu, Y Liu, W.Y Ma, L Wenyin, User intention modeling in web applications using data mining Journal of WWW, 5(3), pp 181–191, 2002 [21] Z Chen, B Liu, M Hsu, M Castellanos, and R Ghosh, Identifying intention posts in discussion forums, HLT-NAACL, 2013 [22] R Collobert, J Weston, L Bottou, M Karlen, K Kavukcuoglu and P Kuksa, Natural language processing (almost) from scratch, JMLR, Vol12, pp.2493–2537, 2011 [23] C Cui, W Mao, X Zheng, and D Zeng, (2017, June) Mining User Intents in Online Interactions: Applying to Discussions About Medical Event on SinaWeibo Platform In International Conference on Smart Health, pp 177–183, Springer, 2017 [24] H Dai, Z Nie, L Wang, J.R Wen, L Zhao, Y Li, Detecting online commercial intention In: The WWW, 2006 [25] K Diederik and B Jimmy, Adam: A method for stochastic optimization arXiv preprint arXiv:1412.6980, 2014 [26] X Ding, T Liu, J Duan, and J.Y Nie, Mining user consumption intention from social media using domain adaptive convolutional neural network In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, pp.2389–2395, 2015 Tài liệu tham khảo 153 [27] R Glater, R L Santos and N Ziviani, Intent-aware semantic query annotation In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.485-494, ACM, 2017 [28] C Gonzalez-Caro Supervised identification of the user intent of web search queries Ph.D thesis in Computer Science, Univ Pompeu Fabra, Barcelona, Spain, 2011 [29] C Gonzalez-Caro and R Baeza-Yates, A multi-faceted approach to query intent classification In International Symposium on String Processing and Information Retrieval, pp.368–379 Springer, Berlin, Heidelberg, 2011 [30] I Goodfellow, Y Bengio and A Courville, Deep Learning MIT Press, 2016 [31] A Graves and S Jă urgen Framewise phoneme classification with bidirectional LSTM networks In Proc of IJCNN’05, Vol IEEE, 2005 [32] A Graves, Supervised Sequence Labelling with Recurrent Neural Networks Studies in Computational Intelligence Springer, 2012 [33] A Graves and N Jaitly, Towards end-to-end speech recognition with recurrent neural networks In ICML, 2014 [34] Q Guo, E Agichtein, C.L Clarke, and A Ashkan, Understanding “abandoned” ads: towards personalized commercial intent inference via mouse movement analysis Information Retrieval in Advertising, 2008 [35] V Gupta, D Varshney, H Jhamtani, D Kedia and S Karw, Identifying purchase intent from social posts In Proc of ICWSM, 2014 [36] M Hamroun, M.S Gouider, and L.B Said, Customer intentions analysis of twitter based on semantic patterns The 11th International Conference on Semantics, Knowledge and Grids, 2015 [37] H.B Hashemi, A A.siaee and R Kraft, Query intent detection using convolutional neural networks, In Proc of WSDM QRUMS Workshop, 2016 [38] G.E Hinton, N Srivastava, A Krizhevsky, I Sutskever and R.R Salakhutdinov, Improving neural networks by preventing co–adaptation of feature detectors, arXiv:1207.0580, 2012 [39] S Hochreiter, and S Jrgen, Long short-term memory, Neural computation pp.1735–1780, 1997 [40] B Hollerit, M Kroll and M Strohmaier, Towards linking buyers and sellers: detecting commercial intent on twitter, In Proc of WWW, 2013 Tài liệu tham khảo 154 [41] D.H Hu, Q Yang and Y Li,An algorithm for analyzing personalized online commercial intention In Proceedings of the 2nd International Workshop on Data Mining and Audience Intelligence for Advertising, pp.27–36, ACM, 2008 [42] D.H Hu, D Shen, J.T Sun, Q Yang and Z Chen, Context–aware online commercial intention detection In: The ACML Proceeding, 2009 [43] J Hu, G Wang, F Lochovsky, J.T Sun and Z Chen, Undertanding user’s query intent with wikipedia In: The WWW Proceeding, 2009 [44] Z Huang, X Wei, and Y Kai, Bidirectional LSTM-CRF models for sequence tagging, arXiv:1508.01991, 2015 [45] C.K.C Jackie and X Li, Sequence clustering and labeling for unsupervised query intent discovery, In Proc of WSDM, 2012 [46] D Janardhanan and E Barrett CPU workload forecasting of machines in data centers using LSTM recurrent neural networks and ARIMA models In 2017 12th International Conference for Internet Technology and Secured Transactions (ICITST), pp 55-60 IEEE, 2017 [47] B.J Jansen, A Spink, and T Saracevic, Real life, real users, and real needs: A study and analysis of user queries on the Web Information Processing and Management, 36(2), pp.207-227, 2000 [48] B J Jansen, D L Booth, and A Spink Determining the User Intent of Web Search Engine Queries In:The WWW Proceeding, 2007 [49] J Jansen Understanding sponsored search: Core elements of keyword advertising Cambridge University Press, 2011 [50] V Jethava, C.B Liliana and B.Y Ricardo, Scalable multi–dimensional user intent identification using tree structured distributions In: The ACM SIGIR, 2011 [51] J Jiang, Information extraction from text Mining text data Springer, Boston, MA, pp 11–41, 2012 [52] I Kang and G Kim, Query type classiflcation for web document retrieval In Proceedings of ACM SIGIR’03, 2003 [53] A Kathuria, B J Jansen, C Hafernik, and A Spink Classifying the user intent of web queries using k-means clustering The Emeral Group Journal 20(5):563–581, 2010 [54] G Khodabandelou Mining Intentional Process Models Ph.D Thesis, 2014 [55] J.K Kim, G Tur, A Celikyilmaz, B Cao and Y.Y Wang, Intent detection using semantically enriched word embeddings, In Proc of SLT Workshop, IEEE, 2016 Tài liệu tham khảo 155 [56] Y Kim, Convolutional neural networks for sentence classification In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp 1746–1751, 2014 [57] H Kimura, M Tokuhisa, K Mera, K Kai and N Okada, Comprehension of Intentions and Planning for Response in Dialogue Technical Report of IEICE, TL98-15, pp.25–32, 1998 [58] J Kiseleva, H.T Lam, M Pechenizkiy and T Calders, Predicting current user intent with contextual markov models In 2013 IEEE 13th International Conference on Data Mining Workshops, pp.391–398 IEEE, 2013 [59] Z Kozareva, Q Li, K Zhai and W Guo, Recognizing Salient Entities in Shopping Queries In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Volume 2: Short Papers, pp.107– 111, 2016 [60] M Kroll and M Strohmaier Analyzing human intentions in natural language text In: The K–CAP, 2009 [61] J Lafferty, M Andrew, and P Fernando Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc of ICML, 2001 [62] G Lample, M Ballesteros, S Subramanian, K Kawakami and C Dyer, Neural architectures for named entity recognition arXiv:1603.01360, 2016 [63] U Lee, Z Liu and J Cho, Automatic identification of user goals in web search In: The WWW, 2005 [64] N Labidi, T Chaari and R Bouaziz, An NLP-Based Ontology Population for Intentional Structure In International Conference on Intelligent Systems Design and Applications, pp 900–910 Springer, Cham, 2016 [65] N Labidi, T Chaari and R Bouaziz, Linguistic Rules for Ontology Population from Customer Request In Transactions on Computational Collective Intelligence XXX, pp 72–92 Springer, Cham, 2018 [66] X Li, W Ye-Yi, and A Alex, Learning query intent from regularized click graphs, in Proc of SIGIR, 2008 [67] X Li, Understanding the semantic structure of noun phrase queries In: ACL 2010 [68] W Ling, T Luis, L Marujo, R.F Astudillo, S Amir, C Dyer, A.W Black, and I Trancoso, Finding function in form: compositional character models for open vocabulary word representation, arXiv:1508.02096, 2015 [69] D Liu and J Nocedal On the limited memory BFGS method for largescale optimization Mathematical Programming, 45:503–528, 1989 Tài liệu tham khảo 156 [70] T Mikolov, K Chen, G Corrado, and J Dean, Efficient estimation of word representations in vector space arXiv preprint arXiv:1301.3781, 2013 [71] X.B Ngo, C.L Le and M.Ph Tu, Cross-Domain Intention Detection in Discussion Forums In Proceedings of the Eighth International Symposium on Information and Communication Technology (SoICT), pp 173– 180, 2017 [72] T.H Nguyen, Deep learning for Information Extraction Phd Thesis, New York University, 2017 [73] N Nguyen and Y Guo, Comparisons of sequence labeling algorithms and extensions, In Proceedings of the 24th ICML, pp 681–688, 2007 [74] H.N Nguyen, Tr.Th Nguyen and Qu.Th Ha, Giáo trình Khai phá liệu NXB Đại học Quốc gia Hà nội, 2013 [75] K Nigam, J Lafferty and A McCallum, Using maximum entropy for text classification In: IJCAI Workshop on Machine Learn for Info Filtering, pp.61–69, 1999 [76] G.H Nobari and T.S Chua, User intent identification from online discussions using a joint aspect-action topic model, In Proc.of AAAI, 2014 [77] L Pearl and M Steyvers, Identifying emotions, intentions, and attitudes in text using a game with a purpose In Proceedings of the naacl hlt 2010 workshop on computational approaches to analysis and generation of emotion in text, pp 71–79 Association for Computational Linguistics, 2010 [78] J Pennington, R Socher and C Manning, Glove: Global vectors for word representation In Proceedings of the EMNLP, pp 1532–1543, 2014 [79] N Peng and M Dredze, Named entity recognition for chinese social media with jointly trained embeddings In Proceedings of EMNLP, pp.548– 554, 2015 [80] X.H Phan, L.M Nguyen and C.T Nguyen, Flexible conditional random fields, http://flexcrfs.sourceforge.net, 2004 [81] H Purohit, G Dong, V Shalin, K Thirunarayan and A Shethet, Intent classification of short-text on social media IEEE International Conference on IEEE, 2015 [82] F Radlinski, M Szummer and N Craswell, Inferring query intent from reformulations and clicks In Proceedings of the 19th international conference on World wide web, pp 1171–1172 ACM, 2010 [83] X Ren, Y Wang, X Yu, J Yan, Z Chen and J Han, Heterogeneous graph-based intent learning with queries, web pages and wikipedia concepts, In Proc of ICWSDM, 2014 Tài liệu tham khảo 157 [84] B.Y Ricardo, C.B Liliana and G.C Cristina, The intention behind web queries In: The 13th Conference on String Processing and Information Retrieval (SPIRE), 2006 [85] R Scheer, The ‘Mental State’ Theory of Intentions Philosophy, null, pp 121–131, 2004 [86] D E Rose, and D Levinson, Understanding user goals in web search In: The WWW Proceeding, 2004 [87] S Ruder and B Plank, Strong baselines for neural semi-supervised learning under domain shift arXiv preprint arXiv:1804.09530, 2018 [88] S Ruder, Neural Transfer Learning for Natural Language Processing Phd Thesis, National University of Ireland, 2019 [89] D.E Rumelhart, G.E Hinton and R.J Williams, Learning representations by back-propagating errors Nature, 323(6088):533, 1986 [90] C.F Schmidt, N.S Sridharan and J.L Goodson, The plan recognition problem: an intersection of psychology and artificial intelligence Artif Intell; 11:45–83, 1978 [91] Y Shen, J Yan, S Yan, L Ji, N Liu and Z Chen, Sparse hidden– dynamic conditional random fields for user intent understanding In: The WWW, 2011 [92] Y Shang, Studies on User Intent Analysis and Mining, Phd thesis, 2017 [93] H J Song and S B Park, Identifying intention posts in discussion forums using multi-instance learning and multiple sources transfer learning Soft Computing, 22(24), pp 8107–8118, 2018 [94] M Speretta and S Gauch, Personalizing search based on user search history, 2004 [95] G Sukthankar, R.P Goldman, C Geib, D.V Pynadath and H.H Bui, Plan, Activity, and Intent Recognition Theory and Practice Elsevier Inc, 2014 [96] G Vinodhini and R.M Chandrasekaran, Sentiment analysis and opinion mining: a survey International Journal, 2(6):282–292, 2012 [97] J Wang, G Cong, W.X Zhao and X Li, Mining user intents in Twitter: a semi-supervised approach to inferring intent categories for tweets In Proc of AAAI, 2015 [98] C.Y Wu, A Ahmed, G.R Kumar, and R Datta, Predicting Latent Structured Intents from Shopping Queries In Proceedings of the 26th International Conference on World Wide Web, pp.1133–1141 International World Wide Web Conferences Steering Committee, 2017 Tài liệu tham khảo 158 [99] J Xu, Q Zhang and X Huang, Understanding the semantic intent of domain-specific natural language query In Proc of IJCNLP, 2013 [100] K Yao, G Zweig and B Peng, Attention with intention for a neural network conversation model arXiv preprint arXiv:1510.08565, 2015 [101] H Yang and Y Li, Identifying user needs from social media IBM Research Division, San Jose, 11, 2013 [102] K Zhai, Z Kozareva, Y Hu, Q Li and W Guo, Query to Knowledge: Unsupervised Entity Extraction from Shopping Queries using Adaptor Grammars In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval, pp.255–264, 2016 [103] C Zhang, W Fan, N Du and P.S Yu, Mining user intentions from medical queries: A neural network based heterogeneous jointly modeling approach In Proceedings of the 25th International Conference on World Wide Web, pp 1373–1384, 2016 [104] C Zhang, N Du, W Fan, Y Li, C.T Lu, and S.Y Philip, Bringing semantic structures to user intent detection in online medical queries In 2017 IEEE International Conference on Big Data (Big Data), pp.1019– 1026 IEEE, 2017 [105] Z.H Zhou and M Li, Tri-training: Exploiting unlabeled data using three classifiers, IEEE Transactions on Knowledge & Data Engineering vol.11, pp.1529–1541, 2005 PHỤ LỤC Bảng 5.13: Ví dụ gán nhãn cho miền Bất động sản (BĐS) Nhãn BĐS Viết tắt Mơ tả ví dụ liệu intent int mua, bán, cho thuê acreage acr 100 m2, 30 × 12 m, 100 mét vng brand brd VinGroup, Ciputra, Novaland contact ctt 0911856500, 0902.792.752, nguyenvana 79@yahoo.com.vn context ctx nước định cư, kẹt tiền, (bán) gấp, description of object obj-des (đất) thổ cư, (đất) nông nghiệp, (nhà) tái định cư, ) equipment eqm tủ lạnh, điều hòa, máy giặt, facade direction face-dir Đông Nam, Bắc, Đông, facade size face-size (mặt tiền rộng) 4.2m, (mặt tiền đường nhựa) 8m location loc (ở) Hà Nội, (tại) Đà Nẵng, ngõ 106 Hoàng Quốc Việt, number of bedrooms bed-num (phỏng ngủ), (PN), (p.ngủ), number of bathrooms bath-num (wc), (phòng tắm), (toilet) number of facades face-num (mặt tiền), (mặt tiền), (mặt tiền) number of floors fnum (tầng), (tầng), (tầng), number of objects obj-num ba (mảnh đất), (căn hộ), object obj nhà, mảnh đất, hộ, owner own Chính chủ price prc triệu, 22 triệu, 10 triệu/tháng, 159 Phụ lục 160 Bảng 5.14: Ví dụ gán nhãn cho miền Du lịch Nhãn Du lịch Viết tắt Mơ tả ví dụ liệu intent int du lịch, đặt (phòng), brand brd Vietnam Airlines, VietTran, FLC contact ctt 0911856500, 0902.792.752, nguyenvana 79@yahoo.com.vn context ctx nghỉ tuần trăng mật, có bầu, có em nhỏ description of object obj-des có bể bơi, tầm nhìn hướng biển, destination dest (về) Mũi Né, (đi) Nha Trang, name of accommodation accom-name Sealink, Sunwah, Ana Mandara, number of Objects obj-num (phòng), (vé), number of People ppl-num vợ chồng, người lớn trẻ em, nhóm mình, cơng ty, object obj phòng (khách sạn), vé (máy bay), tour point of departure dpt (từ) Hà Nội, (từ) SG, point of time time-pnt ngày 14-3, tháng sau, thứ tư tuần sau, từ 10/5, đến 13/5, price prc 50tr/ng, triệu đêm, time period time-prd ngày, tuần, ngày đêm, transport trp đường bộ, xe máy, máy bay, tàu hỏa, Phụ lục 161 Bảng 5.15: Ví dụ gán nhãn cho miền Xe cộ Nhãn Xe cộ Viết tắt Mơ tả ví dụ liệu intent int mua, thuê, bán, lý, brand brd Yamaha, Honda, Suzuki, color clr đỏ đen, trắng, xanh ngọc, contact ctt 0167 bốn 361 hai chín chín, 0976.543.167, context ctx cần tiền, khơng có nhu cầu sử dụng, muốn thay xe description of object obj-des bô 2543, số khung, ) location loc (tại) Hà Nội, Quảng Ninh, (ở) Sài Gòn license plate lpe (biển) tứ quý, (biển) 29E1-40671, 30F1 40646, model mdl corola 1.6, wave rsx, number of objects obj-num (xe máy), hai (ô tô), một, object obj xe, xe máy, xe đạp, ô tô, xe ô tô, origin orig Nhật, Thái, Việt Nam, liên doanh, nhập owner own chủ, chủ, cc (chính chủ), chủ price prc đ10, 000, 000; 15tr; 20 triệu; (đến) triệu, registration reg Giấy tờ đầy đủ, không giấy tờ, kgt, k giấy registration Year reg-year (đk) 2016, (đăng kí) 2014, (dk) đầu 2013, (đăng kí) 95, state stt hoàn toàn, 90% ... dụng để phân tích hiểu ý định Chương 2, Phân tích ý định từ văn trực tuyến, trình bày tốn phân tích hiểu ý định từ văn trực tuyến tiếng Việt Theo đó, luận án trình bày định nghĩa cấu trúc ý định. .. tốn phân tích ý định từ văn trực tuyến nói chung văn trực tuyến tiếng Việt nói riêng trình bày chương 2.1 Phân tích ý định từ văn trực tuyến tiếng Việt Như giới thiệu phần Mở đầu, việc hiểu ý định. .. ý định Bảng 1.1 đưa ví dụ văn trực tuyến mang ý định rõ, văn trực tuyến mang ý định ẩn văn trực tuyến không mang ý định người dùng Trong đó, với văn trực tuyến mang ý định rõ, người đọc xác định

Ngày đăng: 04/04/2021, 15:30

Mục lục

  • Danh mục các từ viết tắt

  • Danh mục các bảng

  • Danh mục các hình vẽ

  • 1 Tổng quan về ý định và phân tích ý định

    • 1.1 Ý định và thể hiện ý định trong ngôn ngữ

    • 1.2 Ý định trong văn bản trực tuyến

    • 1.3 Phân tích ý định: bối cảnh khoa học

      • 1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm

      • 1.3.2 Phân tích ý định trong các bài đăng

      • 1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy

        • 1.4.1 Cơ bản về kỹ thuật phân lớp

        • 1.4.2 Cơ bản về kỹ thuật trích xuất thông tin

        • 1.4.3 Cơ bản về mạng nơ ron

        • 2 Phân tích ý định từ văn bản trực tuyến

          • 2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt

            • 2.1.1 Xây dựng dữ liệu thực nghiệm

            • 2.1.2 Khó khăn - Thách thức

            • 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học

              • 2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển

              • 2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc

              • 2.3 Định nghĩa ý định hướng miền quan tâm

                • 2.3.1 Định nghĩa quan điểm của Bing Liu

                • 2.3.2 Định nghĩa ý định của Bing Liu

                • 2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án

                • 2.4 Tiến trình ba pha phân tích và xác định ý định

                • 3 Phát hiện ý định và xác định miền quan tâm của ý định

                  • 3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền quan tâm của ý định

                    • 3.1.1 Phát hiện bài đăng trực tuyến mang ý định

                    • 3.1.2 Xác định miền quan tâm của ý định

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan