Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt

159 6 0
Phân tích ý định từ văn bản ngắn, trực tuyến tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê Phân tích ý định từ văn ngắn, trực tuyến tiếng Việt LUẬN ÁN TIẾN SỸ HỆ THốNG THƠNG TIN Hà Nơi - 2021 LỜI CAM ĐOAN Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định từ văn ngắn, trực tuyến tiếng Việt cơng trình nghiên cứu riêng NCS Các số liệu, kết trình bày luận án hoàn toàn trung thực chưa cơng bố cơng trình khác ■ NCS trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước Ngoại trừ tài liệu tham khảo này, luận án hồn tồn cơng việc riêng NCS ■ Trong cơng trình khoa học cơng bố liên quan đến luận án, NCS thể rõ xác đóng góp đồng tác giả NCS thực lác giả: Hà Nội: LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ biết ơn sâu sắc đến PGS.TS Phan Xuân Hiếu, cán hướng dẫn khoa học, người trực tiếp định hướng giúp đỡ suốt trình nghiên cứu thực luận án Thầy không truyền đạt cho kiến thức quan trọng học thuật mà chia sẻ cho nhiều kinh nghiệm quý giá đường nghiên cứu khoa học Một vinh dự lớn cho học tập, nghiên cứu hướng dẫn Thầy Tôi xin bày tỏ biết ơn chân thành đến Thầy, Cô Bộ môn Hệ thống thông tin, đặc biệt PGS.TS Hà Quang Thụy thành viên Phịng thí nghiệm Khoa học Dữ liệu Cơng nghệ Tri thức giúp đỡ đóng góp chun mơn hữu ích Thầy Cô cho luận án Tôi xin trân trọng cảm ơn Khoa Cơng nghệ Thơng tin, Phịng Đào tạo Ban Giám hiệu Trường Đại học Công nghệ tạo điều kiện thuận lợi cho tơi suốt q trình học tập thực luận án Tôi bày tỏ biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa, đồng nghiệp Khoa Công nghệ Thông tin - Trường Đại học Giao thông Vận tải tạo điều kiện thời gian, tài ln cổ vũ, hỗ trợ tơi suốt q trình nghiên cứu Bên cạnh đó, tơi xin gửi lời cảm ơn đến PGS.TS Trần Văn Long, cán đồng hướng dẫn luận án tôi, giúp đỡ hữu ích cho luận án Tơi quên cảm ơn cộng nhóm nghiên cứu MDN-Team, người đồng hành, sát cánh tơi suốt q trình nghiên cứu, hồn thành luận án, tơi ln ghi nhớ điều Ngồi ra, tơi muốn cảm ơn tất người bạn tơi động viên chia sẻ cần Cuối cùng, xin bày tỏ lịng biết ơn vơ hạn bố mẹ, chồng, gia đình, người ủng hộ yêu thương cách vô điều kiện Nếu khơng có ủng hộ gia đình chồng con, tơi khơng thể hồn thành luận án Muc luc Lời cam đoan i Lời cảm ơn ii Muc lục ii Danh mục từ viết tắt vi Danh mục bảng viii Danh mục hình vẽ x Mở đầu Chương Tổng quan ý định phân tích ý định 10 1.1 Ý định thể ý định ngôn ngữ 10 1.2 Ý định văn trực tuyến 12 1.3 Phân tích ý định: bối cảnh khoa học 14 1.3.1 Phân tích xác định ý định từ truy vấn tìm kiếm 16 1.3.2 Phân tích ý định đăng 20 1.4 Một số kỹ thuật khai phá liệu mơhìnhhọc máy 21 1.4.1 Cơ kỹ thuật phân lớp 21 1.4.2 Cơ kỹ thuật trích xuấtthơng tin 23 1.4.3 Cơ mạng nơ ron 25 1.5 Kết luận chương 30 Chương Phân tích ý định từ văn trực tuyến 31 2.1 Phân tích ý định từ văn trực tuyến tiếng Việt 31 2.1.1 Xây dựng liệu thực nghiệm 33 2.1.2 Khó khăn - Thách thức 36 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học 38 2.2.1 Định nghĩa ý định người dùng theo tiếpcậntừ điển 38 2.2.2 Định nghĩa ý định người dùng theo hướngcấu trúc 39 2.3 Định nghĩa ý định hướng miền quan tâm 39 2.3.1 Định nghĩa quan điểm Bing Liu 40 2.3.2 Định nghĩa ý định Bing Liu 41 2.3.3 Định nghĩa ý định hướng miền quan tâm luận án 42 2.4 Tiến trình ba pha phân tích xác định ý định 46 2.5 Kết luận chương 50 Chương Phát ý định xác định miền quan tâm ý định 3.1 Nghiên cứu giới phát ý định xác định miền quan tâm ý định 52 3.1.1 Phát đăng trực tuyến mang ý định 52 51 3.1.2 Xác định miền quan tâm ý định 53 3.2 Phát ý định 55 3.2.1 Phát biểu toán 55 3.2.2 Mơ hình giải toán 56 3.2.3 Dữ liệu thực nghiệm 60 3.2.4 Thiết kế thực nghiệm 61 3.2.5 Kết thực nghiệm 62 3.3 Xác định miền quan tâm ý định 65 3.3.1 Phát biểu toán 65 3.3.2 Mơ hình giải tốn 67 3.3.3 Xây dựng tập miềnquan tâm 70 3.3.4 Dữ liệu thực nghiệm 71 3.3.5 Thiết kế thực nghiệm 73 3.3.6 Kết thực nghiệm 73 3.4 Kết luận chương 77 Chương Phân tích trích chọn nội dung ý định 79 4.1 4.2 4.3 4.4 Giới thiệu 79 Nghiên cứu giới trích chọn nội dung ý định 81 Phát biểu toán 83 Trích chọn ý định theo tiếp cận học máy thống kê học sâu 84 4.4.1 Xây dựng nhãn thực nghiệm 84 4.4.2 Trích chọn ý định với phương pháp CRFs 84 4.4.3 Trích chọn ý định với phương pháp học sâu Bi-LSTMCRFs 88 4.4.4 Độ đo đánh giá mơ hình thực nghiệm 92 4.4.5 Thời gian thực nghiệm với mơ hình 93 4.4.6 Dữ liệu thực nghiệm 93 4.4.7 Thiết kế thực nghiệm 95 4.4.8 Kết thực nghiệm 96 4.5 Trích chọn ý định dựa kết hợp mơ hình học sâu 99 4.5.1 Kỹ thuật học kết hợp (ensemble learning) 100 4.5.2 Xây dựng nhãn thực nghiệm .101 4.5.3 Mơ hình giải toán 101 4.5.4 Dữ liệu thực nghiệm 109 4.5.5 Thiết kế thực nghiệm .110 4.5.6 Kết thực nghiệm .113 4.6 Kết luận chương 118 Chương Phân tích trích chọn ý định đa miền quan tâm 121 5.1 Giới thiệu 121 5.2 Nghiên cứu giới thích nghi miền xác định ý định 122 5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm 125 5.3.1 Phát biểu toán 125 5.3.2 Xây dựng nhãn không phụ thuộc miền 126 5.3.3 Mô hình trích xuất ý định đa miền quan tâm 131 5.3.4 Dữ liệu thực nghiệm 135 5.3.5 Thiết kế thực nghiệm .136 5.3.6 Kết thực nghiệm 138 5.3.7 Mơ mơ hình trích xuất ý định đa miền quan tâm 144 5.4 Kết luận chương 146 Kết luận 148 Danh mục cơng trình khoa học 150 Tài liệu tham khảo 151 Phụ lục 159 DANH MỤC CÁC TỪ VIET TAT Bi-LSTM Bi-LSTMCRFs Bidirectional Long Short Term Memory Mạng nhớ dài ngắn hai chiều Bidirectional Long Short Term Mạng nhớ dài ngắn hai chiều trường ngẫu nhiên có điều kiện Memory - Conditional Random Field CNN CRFs Convolutional Neural Network Conditional Random Fields Mạng nơ ron tích chập EI Explicit Intent Ý định rõ EMD Entity Mentioned Detection Xác định thực thể nhắc đến IE Information Extraction Trích xuất thơng tin IH Intent Head Đầu ý định II Implicit Intent Ý định ẩn IM L-BFGS Intent Modifiers Bổ nghĩa ý định Limited-memory Broyden-Fletcher Goldfarb Shanno Giới hạn nhớ BFGS LSTM Từ viết tắt Long Short Term Memory Dạng đầy đủ Trường ngẫu nhiên có điều kiện Diễn giải/Tạm dịch Mạng nhớ ngắn dài ME Maximum Entropy Cực đại entropy NI Non Intent Khơng có ý định NER Named Entity Ricognition Nhận diện thực thể có tên POS Part Of Speech Thành phần câu RNN Recurrent Neural Network Mạng nơ ron hồi quy SVMs Support Vector Machines Máy véc tơ hỗ trợ DANH MỤC CÁC BANG 1.1 Ví dụ văn trực tuyến chứa khơng chứa ý định 13 3.1 Đặc trưng dùng để huấn luyện mơ hình lọc đăng mang ý định người dùng 61 3.2 Ý định người dùng thuộc miền quan tâm khác 66 3.3 Ví dụ vài đặc trưng từ điển có trọng số cao cho miền quan tâm 69 3.4 Mười ba lớp miền quan tâm ý định ví dụ 72 3.5 Precision, recall F -score fold tốt dùng SVMs ME 74 3.6 Độ xác lớp miền quan tâm sử dụng phương pháp CNN 77 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 Bộ 13 nhãn cho miền quan tâm Bất động sản 85 Bộ nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp 85 Ví dụ minh họa cho đặc trưng dạng biểu thức quy 87 Đặc trưng từ điển 88 Gán nhãn liệu với nhãn tương ứng 93 Trung bình F1-score với mơ hình thực nghiệm thuộc miền quan tâm Mỹ phẩm & Làm đẹp 98 Trung bình F1-score với mơ hình thực nghiệm thuộc miền quan tâm Bất động sản 98 Bộ 18 nhãn miền Bất động sản (BĐS) 110 Bộ 15 nhãn miền Du lịch 111 Bộ gồm 17 nhãn miền Xe cộ 112 Độ xác nhãn thuđược miền Du lịch sử dụng phương pháp học kết hợp mà luận án đề xuất 116 Độ xác nhãn thu miền Xe cộ sử dụng phương pháp kết hợp mà luận án đề xuất .118 Độ xác nhãn thu miền Bất động sản sử dụng phương pháp kết hợp mà luận án đề xuất 119 4.14 Một số ví dụ nhãn 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 mô tả 120 Bộ 18 nhãn miền Bất độngsản (BĐS) 127 Bộ 15 nhãn miền Du lịch .128 Bộ gồm 17 nhãn miền Xe cộ 129 Bộ 10 nhãn không phụ thuộc miền 130 Sử dụng nhãn không phụ thuộc miền số miền quan tâm khác 131 Gán nhãn liệu với nhãn riêng nhãn không phụ thuộc miền 136 Kết F1 trung bình miền quan tâm cụ thể sử dụng nhãn riêng nhãn không phụ thuộc miền tương ứng 138 Kết tốt trích xuất nhãn miền Du lịch với nhãn không phụ thuộc miền .139 Kết tốt trích xuất nhãn miền Du lịch với nhãn riêng 140 Kết tốt trích xuất nhãn miền Xe cộ Bất động sản với nhãn riêng 141 Kết tốt trích xuất tập 32 nhãn riêng tổ hợp miền quan tâm 145 Kết tốt trích xuất tập 10 nhãn không phụ thuộc miền tổ hợp miền quan tâm 146 Ví dụ gán nhãncho miền Bất độngsản (BĐS) 159 Ví dụ gán nhãncho miền Du lịch 160 Ví dụ gán nhãncho miền Xe cộ 161 DANH MỤC CÁC HÌNH VẼ 1.1 Quy tắc gán nhãn BIO 24 1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát 25 1.3 Mơ hình mạng nơ ron feed — forward nhiều tầng 27 1.4 Đồ thị tính toán kiến trúc RNNs 28 1.5 Kiến trúc tế bào mơ hình LSTM [46] 29 2.1 Một đăng mang ý định rõ phương tiện truyền thông xã hội Việt Nam 32 Chương Phân tích trích chọn ý định đa miền quan tâm 133 chẳng hạn số lượng phòng tắm (number of bathrooms), số lượng phòng ngủ (number of bedrooms), số lượng tầng (number of floors), gán chung thành nhãn mô tả (description) tập nhãn khơng phụ thuộc miền Vì khả ví dụ liệu nhãn số lượng đối tượng bị đốn nhận nhầm sang nhãn mơ tả cao Mặc dù vậy, nhìn vào phân tích trên, nhãn không phụ thuộc miền cho thấy kết tốt nhãn riêng trường hợp liệu thuộc nhiều miền quan tâm ý định Vậy cuối luận án khẳng định lại mơ hình Bi-LSTM-CRFs nhãn khơng phụ thuộc miền hồn tồn thích hợp giải tốn xác định ý định người dùng xét ngữ cảnh liệu tổ hợp nhiều miền quan tâm khác 5.3.7 Mơ mơ hình trích xuất ý định đa miền quan tâm Để mơ mơ hình trích xuất ý định đa miền quan tâm, luận án xây dựng website địa www.ydinhviet.tk Giao diện mô hình giới thiệu hình 5.5 đó, cửa sổ “Sentence” nơi để người dùng viết đăng cần trích xuất ý định, cịn cửa sổ “Sample Sentence” thể số ví dụ đăng mang ý định người dùng Sau nhập đăng nhấn nút “Submit”, kết q trình trích chọn ý định thể cửa sổ “Named Entities” Trong đó, thẻ màu thể thơng tin khác ý định người dùng tương ứng với nhãn không phụ thuộc miền mà luận án đề xuất Có thể thấy, với đăng thuộc miền Bất động sản: “Tôi cần thuê nhà tầm 70 m2 khu Văn Phú, giá khoảng triệu/tháng lh nganhn2004@gmail.com’”, mơ hình xác định xác hồn tồn thơng tin ý định, cịn đăng thuộc miền Đồ điện tử: “mình cần mua iphone4 giá 5tr HN” bị trích xuất nhầm thơng tin, “iphone4” Điều Chương Phân tích trích chọn ý định đa miền quan tâm 134 Bảng 5.11: Kết tốt trích xuất tập 32 nhãn riêng tổ hợp miền quan tâm Bộ nhãn riêng (32) Precision Recall F1-score Support intent 90,94 89,69 90,31 1.891 object 75,80 79,86 77,78 1.122 acreage 83,64 80,00 81,78 575 brand color 74,66 81,00 76,39 74,31 75,51 77,51 216 109 contact 94,14 94,72 94,43 966 context 58,22 44,04 50,15 193 description 67,13 40,00 50,13 480 destination 83,70 84,92 84,31 756 equipment 77,97 54,12 63,89 facade direction facade size 58,82 61,11 62,50 56,20 60,61 58,56 license plate location 75,00 75,00 61,82 75,00 62,54 62,18 124 1.455 model 71,30 74,21 72,73 663 name of accommodation 45,95 59,30 51,78 68 number of bathrooms 95,45 90,00 92,65 70 number of bedrooms 92,08 89,42 90,73 number of facades 50,00 50,00 50,00 number of floors 69,23 64,75 66,91 139 number of objects 75,30 71,84 73,53 174 number of people 82,04 86,93 84,41 352 time period 91,01 84,73 87,76 203 price 86,10 83,71 84,88 origin 76,32 78,38 77,33 111 owner 72,58 68,45 70,45 317 point of departure 72,00 66,67 69,23 point of time 86,08 88,04 87,05 794 registration 83,15 69,81 75,90 106 registration year 94,67 78,89 86,06 state 60,87 47,30 53,23 transport 58,93 60,00 59,46 55 77,57 78,21 12.847 avg/total 79,26 85 96 137 104 32 1.117 81 90 148 Chương Phân tích trích chọn ý định đa miền quan tâm 135 Bảng 5.12: Kết tốt trích xuất tập 10 nhãn không phụ thuộc miền tổ hợp miền quan tâm Bộ nhãn chung (10) Precision Recall F1-score Support intent 90,35 91,06 90,70 1.819 object 80,78 77,18 78,94 1.122 brand 85,96 70,83 77,66 216 contact 94,17 95,34 94,75 966 context 56,05 45,60 50,29 193 description 76,58 70,10 73,20 3.960 location 69,69 71,12 70,40 2.292 number of objects 72,84 67,82 70,24 174 other 75,45 72,82 74,11 916 price 87,38 86,12 86,74 1.117 avg/total 79,72 77,08 78,33 12.847 Sample Sentence Sentence T0i dang can thug nhà tarn 70 m2 tai khy Van Phu, giá k ho ả ng triêu/thánq lh nqahn2004@qmaiL.com minh can mya iphone4 gia str H N ■ Tôi muốn mua xe honda dream giá tám 10 triệu Hà Nội sdt 01656674828 • Tơi định du (ịch Đà Lạt từ 22/5 đến 30/5 Submit Named Entities Ý định Đối tượng ý định số lượng đối tượng Thương hiệu Mò tã (ngày tháng, tình trạng cũ/mới, diện tích _) Tình trạng Giá Đ|® điểm SĐT/Email Thực thể khác (số người, phưang tiện, chủ ) Tơi cần nhả tám[7om2| khu Vãn Phú , giá khoảng triệu/tháng Ih ngahn2OO4@gmaiL.com mìnhcán^^B iphone4 gìá str ỚHN Hình 5.5: Giao diện mơ hình trích xuất ý định người dùng liệu dùng để huấn luyện mơ hình có chứa liệu miền Bất động sản, cịn khơng chứa liệu miền Đồ điện tử 5.4 Kết luận chương Trong chương này, luận án đề xuất phương pháp trích chọn ý định người dùng khơng phụ thuộc vào miền quan tâm Để thực mục tiêu này, luận án khảo sát liệu số miền quan tâm có nhiều tương tác phương tiện truyền thơng xã hội Việt Nam, từ đề xuất nhãn chung (khơng phụ thuộc miền) để trích xuất nội dung thơng tin ý định, nhãn sau kiểm nghiệm miền quan tâm khác ý định người dùng cho kết phù hợp Các thực nghiệm cho thấy phương Chương Phân tích trích chọn ý định đa miền quan tâm 136 pháp đa miền quan tâm thực hiệu cần xác định ý định người dùng trường hợp xuất thêm miền quan tâm Trong chương này, luận án giới thiệu phần mềm xây dựng để mơ cho mơ hình xác định ý định đa miền quan tâm mà luận án đề xuất Kết luận Như đề cập xuyên suốt luận án, phân tích xác định ý định từ văn tốn khó lĩnh vực khai phá văn xử lý ngôn ngữ tự nhiên Đã có nghiên cứu tiếp cận tốn góc độ khác phạm vi khác Luận án trình bày đề xuất việc mơ hình hố giải vấn đề xoay quanh toán phát phân tích, xác định nội dung ý định từ văn truyền thông xã hội trực tuyến tiếng Việt Tựu trung lại, luận án đạt kết đóng góp sau: Thứ nhất, luận án đề xuất định nghĩa ý định rõ hướng miền quan tâm phù hợp cho văn truyền thông xã hội trực tuyến, đồng thời đề xuất tiến trình ba pha gồm ba tốn nhằm phân tích xác định thông tin ý định [LTLel] Thứ hai, luận án đề xuất mơ hình hóa tốn (phát ý định) toán hai (xác định miền quan tâm ý định) thành toán phân lớp nhị phân phân lớp đa lớp Kết thực nghiệm cho thấy, hai phương pháp phân lớp đơn giản hiệu quả, ME SVMs, phù hợp với hai toán Đặc biệt, việc sử dụng đặc trưng từ điển hiệu với hai toán Các nội dung kết nghiên cứu trình bày cơng trình [LTLel], [LTLe2] Ngồi luận án thử nghiệm phương pháp học sâu CNN với toán này, kết nghiên cứu trình bày cơng trình [LTLe6] Thứ ba, luận án đề xuất mơ hình hóa tốn ba (trích chọn thơng tin ý định) dạng trích chọn thơng tin liệu chuỗi Các mơ hình học máy thống kê cho liệu chuỗi CRFs, mơ hình học sâu Bi-LSTM-CRFs đề xuất để giải toán Luận án đề xuất tập nhãn đặc trưng tương ứng nội dung ý định cần trích xuất miền l48 Kết luận 149 liệu Các nội dung kết trình bày cơng trình [LTLe3] Hơn nữa, luận án đề xuất phương pháp hiệu để nâng cao độ xác tốn trích chọn thơng tin ý định dựa mơ hình học kết hợp (ensemble learning) mơ hình học sâu Nội dung kết nghiên cứu trình bày cơng trình [LTLe4] Thứ tư, luận án đề xuất tiếp cận việc phân tích xác định ý định đa miền quan tâm dựa ý tưởng xây dựng tập nhãn chung cho miền liệu Luận án tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu hai cách tiếp cận phụ thuộc miền không phụ thuộc miền thảo luận ưu nhược điểm cách tiếp cận Nội dung kết trình bày cơng trình [LTLe5] Bên cạnh đó, luận án cung cấp khảo sát tổng quan hướng nghiên cứu phân tích xác định ý định từ văn Có thể nói đóng góp luận án có ý nghĩa việc bổ sung hoàn thiện kết nghiên cứu phân tích ý định giới đặc biệt cho tiếng Việt Các kết luận án cơng bố cơng trình khoa học đăng tải tạp chí, hội nghị chuyên ngành nước quốc tế có phản biện Mặc dù luận án đạt số kết nghiên cứu tích cực, cịn tồn hạn chế chưa giải như: (i) luận án sử dụng hai loại đặc trưng với toán phân lớp pha thứ pha thứ hai có nhiều loại đặc trưng hiệu khác chưa khai thác; (ii) luận án chưa xử lý trường hợp đăng mang ý định nhập nhằng; (iii) chưa giải vấn đề đăng mang nhiều ý định rõ lúc; (iv) luận án cần giải triệt để vấn đề thích nghi miền phân tích ý định , cụ thể nghiên cứu vấn đề học chuyển đổi miền quan tâm; (v) liệu khiêm tốn thực nghiệm theo phương pháp học sâu Trong tương lai gần, NCS tiếp tục tập trung giải vấn đề vừa nêu DANH MUC CÁC CƠNG TRÌNH KHOA HOC [LTLel] Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, Thi- Minh-Ngoc Truong, Thi-Thu Phi and Xuan-Hieu Phan; Learning to Filter User Explicit Intents in Online Vietnamese Social Media Texts The Eighth Asian Conference on Intelligent Information and Database Systems (ACIIDS), pp.13-24, Springer, 2016 [SCOPUS, DBLP] [LTLe2] Thai-Le Luong, Quoc-Tuan Truong, Hai-Trieu Dang and Xuan- Hieu Phan; Domain Identification for Intention Posts on Online Social Media In Proceedings of the Seventh Symposium on Information and Communication Technology (SoICT), pp 52-57, ACM, 2016 [SCOPUS, DBLP] [LTLe3] Thai-Le Luong, Minh-Son Cao, Duc-Thang Le and Xuan- Hieu Phan; Intent Extraction from Social Media Texts Using Sequential Segmentation and Deep Learning Models In Proceedings of the 9th International Conference on Knowledge and Systems Engineering (KSE), pp 215-220, Springer LNCS, IEEE, 2017 [SCOPUS, DBLP] [LTLe4] Thai-Le Luong, Nhu-Thuat Tran and Xuan-Hieu Phan; Improving Intent Extraction Using Ensemble Neural Network In Proceedings of the 19th International Symposium on Communications and Information Technologies (ISCIT), pp 58-63, IEEE, 2019 [SCOPUS, DBLP] [LTLe5] Thai-Le Luong, Nhu-Thuat Tran, Tien-Son Dang, Quoc-Long Tran and Xuan-Hieu Phan; Domain-independent Intent Extraction from Online Texts Computacion y Systemas, Vol 24, No 1, pp.331-347, 2020 [SCOPUS,DBLP] [LTLe6] Luong Thai Le; Intent domain identification using deep learning model The 2020 International Conference on Applications of Artificial Intelligence in Transportation, pp 246-254, 2020 15 TÀI LIÊU THAM KHẢO [1] M Araki, Y Kimura, T Nishimoto and Y Niimi, Development of a machine learnable discourse tagging tool In Proceedings of the Second SIGdial Workshop on Discourse and Dialogue-Volume 16, pp.1-6 Association for Computational Linguistics, 2001 [2] A Ashkan, C.L Clarke, E Agichtein and Q Guo, Classifying and characterizing query intent In: The 31th ECIR, pp.578-586, 2008 [3] A Ashkan and C L Clarke, Term-based commercial intent analysis In Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, pp.800-801 ACM, 2009 [4] R Baeza-Yates, L Calderón-Benavides and C González-Caro, The intention behind web queries In International Symposium on String Processing and Information Retrieval, pp 98-109, Springer, Berlin, Heidelberg, 2006 [5] R Baeza-Yates, Semantic query understanding In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 1357-1357) ACM, 2017 [6] A Basu, C Watters and M Shepherd, Support vector machines for text categorization In International Conference on System Sciences, Washington, DC, USA, IEEE Computer Society, 2003 [7] L.C Benavides, C.G Caro and R.B Yates, Towards a Deeper Understanding of the User's Query Intent In The SIGIR Proceeding, 2010 [8] A Berger, S.A.D Pietra, V.J.D Pietra, A maximum entropy approach to natural language processing Computational Linguistics, 22(1):39-71, 1996 [9] A Bhargava, A Celikyilmaz, D Hakkani-Tur and R Sarikaya, Easy contextual intent prediction and slot detection In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pp 8337-8341 IEEE,2013 [10] B Liu, Sentiment Analysis: mining sentiments, opinions, and emotions Textbook, 2015 [11] P Bojanowski, E Grave, A Joulin, and T Mikolov, Enriching word vectors with subword information, arXiv:1607.04606, 2016 15 Tài liệu tham khảo 152 [45] C.K.C Jackie and X Li, Sequence clustering and labeling for unsupervised query intent discovery, In Proc of WSDM, 2012 [46] D Janardhanan and E Barrett CPU workload forecasting of machines in data centers using LSTM recurrent neural networks and ARIMA models In 2017 12th International Conference for Internet Technology and Secured Transactions (ICITST), pp 55-60 IEEE, 2017 [47] B.J Jansen, A Spink, and T Saracevic, Real life, real users, and real needs: A study and analysis of user queries on the Web Information Processing and Management, 36(2), pp.207-227, 2000 [48] B J Jansen, D L Booth, and A Spink Determining the User Intent of Web Search Engine Queries In:The WWW Proceeding, 2007 [49] J Jansen Understanding sponsored search: Core elements of keyword advertising Cambridge University Press, 2011 [50] V Jethava, C.B Liliana and B.Y Ricardo, Scalable multi-dimensional user intent identification using tree structured distributions In: The ACM SIGIR, 2011 [51] J Jiang, Information extraction from text Mining text data Springer, Boston, MA, pp 11-41, 2012 [52] I Kang and G Kim, Query type classiflcation for web document retrieval In Proceedings of ACM SIGIR'03, 2003 [53] A Kathuria, B J Jansen, C Hafernik, and A Spink Classifying the user intent of web queries using k-means clustering The Emeral Group Journal 20(5):563-581, 2010 [54] G Khodabandelou Mining Intentional Process Models Ph.D Thesis, 2014 [55] J.K Kim, G Tur, A Celikyilmaz, B Cao and Y.Y Wang, Intent detection using semantically enriched word embeddings, In Proc of SLT Workshop, IEEE, 2016 [56] Y Kim, Convolutional neural networks for sentence classification In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp 1746-1751, 2014 [57] H Kimura, M Tokuhisa, K Mera, K Kai and N Okada, Comprehension of Intentions and Planning for Response in Dialogue Technical Report of IEICE, TL98-15, pp.25-32, 1998 [58] J Kiseleva, H.T Lam, M PechenizkiyandT Calders, Predicting current user intent with contextual markov models In 2013 IEEE 13th International Conference on Data Mining Workshops, pp.391-398 IEEE, 2013 [59] Z Kozareva, Q Li, K Zhai and W Guo, Recognizing Salient Entities in Shopping Queries In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Volume 2: Short Papers, pp.107111, 2016 [60] M Kroll and M Strohmaier Analyzing human intentions in natural language text Tài liệu tham khảo 153 In: The K-CAP, 2009 [61] J Lafferty, M Andrew, and P Fernando Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc of ICML, 2001 [62] G Lample, M Ballesteros, S Subramanian, K Kawakami and C Dyer, Neural architectures for named entity recognition arXiv:1603.01360, 2016 [63] U Lee, Z Liu and J Cho, Automatic identification of user goals in web search In: The WWW, 2005 [64] N Labidi, T Chaari and R Bouaziz, An NLP-Based Ontology Population for Intentional Structure In International Conference on Intelligent Systems Design and Applications, pp 900-910 Springer, Cham, 2016 [65] N Labidi, T Chaari and R Bouaziz, Linguistic Rules for Ontology Population from Customer Request In Transactions on Computational Collective Intelligence XXX, pp 72-92 Springer, Cham, 2018 [66] X Li, W Ye-Yi, and A Alex, Learning query intent from regularized click graphs, in Proc of SIGIR, 2008 [67] X Li, Understanding the semantic structure of noun phrase queries In: ACL 2010 [68] W Ling, T Luis, L Marujo, R.F Astudillo, S Amir, C Dyer, A.W Black, and I Trancoso, Finding function in form: compositional character models for open vocabulary word representation, arXiv:1508.02096, 2015 [69] D Liu and J Nocedal On the limited memory BFGS method for large- scale optimization Mathematical Programming, 45:503-528, 1989 [70] T Mikolov, K Chen, G Corrado, and J Dean, Efficient estimation of word representations in vector space arXiv preprint arXiv:1301.3781, 2013 [71] X.B Ngo, C.L Le and M.Ph Tu, Cross-Domain Intention Detection in Discussion Forums In Proceedings of the Eighth International Symposium on Information and Communication Technology (SoICT), pp 173180, 2017 [72] T.H Nguyen, Deep learning for Information Extraction Phd Thesis, New York University, 2017 [73] N Nguyen and Y Guo, Comparisons of sequence labeling algorithms and extensions, In Proceedings of the 24th ICML, pp 681-688, 2007 [74] H.N Nguyen, Tr.Th Nguyen and Qu.Th Ha, Giáo trình Khai phá liệu NXB Đại học Quốc gia Hà nội, 2013 [75] K Nigam, J Lafferty and A McCallum, Using maximum entropy for text classification In: IJCAI Workshop on Machine Learn for Info Filtering, pp.61-69, 1999 [76] G.H Nobari and T.S Chua, User intent identification from online discussions using a joint aspect-action topic model, In Proc.of AAAI, 2014 Tài liệu tham khảo 154 [77] L Pearl and M Steyvers, Identifying emotions, intentions, and attitudes in text using a game with a purpose In Proceedings of the naacl hlt 2010 workshop on computational approaches to analysis and generation of emotion in text, pp 71-79 Association for Computational Linguistics, 2010 [78] J Pennington, R Socher and C Manning, Glove: Global vectors for word representation In Proceedings of the EMNLP, pp 1532-1543, 2014 [79] N Peng and M Dredze, Named entity recognition for chinese social media with jointly trained embeddings In Proceedings of EMNLP, pp.548554, 2015 [80] X.H Phan, L.M Nguyen and C.T Nguyen, Flexible conditional random fields, http://flexcrfs.sourceforge.net, 2004 [81] H Purohit, G Dong, V Shalin, K Thirunarayan and A Shethet, Intent classification of short-text on social media IEEE International Conference on IEEE, 2015 [82] F Radlinski, M Szummer and N Craswell, Inferring query intent from reformulations and clicks In Proceedings of the 19th international conference on World wide web, pp 1171-1172 ACM, 2010 [83] X Ren, Y Wang, X Yu, J Yan, Z Chen and J Han, Heterogeneous graph-based intent learning with queries, web pages and wikipedia concepts, In Proc of ICWSDM, 2014 [84] B.Y Ricardo, C.B Liliana and G.C Cristina, The intention behind web queries In: The 13th Conference on String Processing and Information Retrieval (SPIRE), 2006 [85] R Scheer, The ‘Mental State' Theory of Intentions Philosophy, null, pp 121-131, 2004 [86] D E Rose, and D Levinson, Understanding user goals in web search In: The WWW Proceeding, 2004 [87] S Ruder and B Plank, Strong baselines for neural semi-supervised learning under domain shift arXiv preprint arXiv:1804.09530, 2018 [88] S Ruder, Neural Transfer Learning for Natural Language Processing Phd Thesis, National University of Ireland, 2019 [89] D.E Rumelhart, G.E Hinton and R.J Williams, Learning representations by backpropagating errors Nature, 323(6088):533, 1986 [90] C.F Schmidt, N.S Sridharan and J.L Goodson, The plan recognition problem: an intersection of psychology and artificial intelligence Artif Intell; 11:45-83, 1978 [91] Y Shen, J Yan, S Yan, L Ji, N Liu and Z Chen, Sparse hidden- dynamic conditional random fields for user intent understanding In: The WWW, 2011 [92] Y Shang, Studies on User Intent Analysis and Mining, Phd thesis, 2017 [93] H J Song and S B Park, Identifying intention posts in discussion forums using multi-instance learning and multiple sources transfer learning Soft Computing, Tài liệu tham khảo 155 22(24), pp 8107-8118, 2018 [94] M Speretta and S Gauch, Personalizing search based on user search history, 2004 [95] G Sukthankar, R.P Goldman, C Geib, D.V Pynadath and H.H Bui, Plan, Activity, and Intent Recognition Theory and Practice Elsevier Inc, 2014 [96] G Vinodhini and R.M Chandrasekaran, Sentiment analysis and opinion mining: a survey International Journal, 2(6):282-292, 2012 [97] J.Wang,G.Cong,W.X.ZhaoandX.Li,MininguserintentsinTwitter: a semi-supervised approach to inferring intent categories for tweets In Proc of AAAI, 2015 [98] C.Y Wu, A Ahmed, G.R Kumar, and R Datta, Predicting Latent Structured Intents from Shopping Queries In Proceedings of the 26th International Conference on World Wide Web, pp.1133-1141 International World Wide Web Conferences Steering Committee, 2017 [99] J Xu, Q Zhang and X Huang, Understanding the semantic intent of domainspecific natural language query In Proc of IJCNLP, 2013 [100] K Yao, G Zweig and B Peng, Attention with intention for a neural network conversation model arXiv preprint arXiv:1510.08565, 2015 [101] H Yang and Y Li, Identifying user needs from social media IBM Research Division, San Jose, 11, 2013 [102] K Zhai, Z Kozareva, Y Hu, Q Li and W Guo, Query to Kn ow ledge: Unsupervised Entity Extraction from Shopping Queries using Adaptor Grammars In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval, pp.255-264, 2016 [103] C Zhang, W Fan, N Du and P.S Yu, Mining user intentions from medical queries: A neural network based heterogeneous jointly modeling approach In Proceedings of the 25th International Conference on World Wide Web, pp 13731384, 2016 [104] C Zhang, N Du, W Fan, Y Li, C.T Lu, and S.Y Philip, Bringing semantic structures to user intent detection in online medical queries In 2017 IEEE International Conference on Big Data (Big Data), pp.10191026 IEEE, 2017 [105] Z.H.ZhouandM Li, Tri-training:Exploitingunlabeleddatausingthree classifiers, IEEE Transactions on Knowledge & Data Engineering vol.11, pp.1529-1541, 2005 PHU LUC Bảng 5.13: Ví dụ gán nhãn cho miền Bất động sản (BĐS) Nhãn BĐS Viết tắt Mô tả ví dụ liệu intent int mua, bán, cho thuê acreage brand contact acr brd 100 m2, 30 X 12 m, 100 mét vuông VinGroup, Ciputra, Novaland context ctx description of object obj-des equipment facade direction facade size eqm face-dir location loc (ở) Hà Nội, (tại) Đà Nẵng, ngõ 106 Hoàng Quốc Việt, number of bedrooms number of bathrooms bed-num (phỏng ngủ), (PN), (p.ngủ), (wc), (phòng tắm), (toilet) number of facades number of floors face-num number of objects object obj-num obj ba (mảnh đất), (căn hộ), nhà, mảnh đất, hộ, owner own Chính chủ price prc triệu, 22 triệu, 10 triệu/tháng, ctt face-size bath-num fnum 0911856500, 0902.792.752, nguyenvana_79@yahoo.com.vn nước định cư, kẹt tiền, (bán) gấp, (đất) thổ cư, (đất) nông nghiệp, (nhà) tái định cư, ) tủ lạnh, điều hòa, máy giặt, Đông Nam, Bắc, Đông, (mặt tiền rộng) 4.2m, (mặt tiền đường nhựa) 8m (mặt tiền), (mặt tiền), (mặt tiền) (tầng), (tầng), (tầng), 15 Phụ lục 157 Bảng 5.14: Ví dụ gán nhãn cho miền Du lịch Phụ lục Nhãn Xe cộ 158 Bảng 5.15: Ví dụ gán nhãn cho miền Xe cộ Viết tắt Mơ tả ví dụ liệu intent brand int brd mua, thuê, bán, lý, Yamaha, Honda, Suzuki, color clr đỏ đen, trắng, xanh ngọc, contact context ctt ctx 0167 bốn 361 hai chín chín, 0976.543.167, description of object obj-des cần tiền, khơng có nhu cầu sử dụng, muốn thay xe bô 2543, số khung, ) location loc (tại) Hà Nội, Quảng Ninh, (ở) Sài Gòn license plate lpe (biển) tứ quý, (biển) 29E1-40671, 30F1 40646, model mdl corola 1.6, wave rsx, number of objects object origin obj-num (xe máy), hai (ô tô), một, xe, xe máy, xe đạp, ô tô, xe ô tô, Nhật, Thái, Việt Nam, liên doanh, nhập owner price own prc obj orig chủ, chủ, cc (chính chủ), chủ đ10, 000, 000; 15tr; 20 triệu; (đến) triệu, registration registration Year reg reg-year state stt Giấy tờ đầy đủ, không giấy tờ, kgt, k giấy (đk) 2016, (đăng kí) 2014, (dk) đầu 2013, (đăng kí) 95, hồn tồn, 90% ... dụng để phân tích hiểu ý định Chương 2, Phân tích ý định từ văn trực tuyến, trình bày tốn phân tích hiểu ý định từ văn trực tuyến tiếng Việt Theo đó, luận án trình bày định nghĩa cấu trúc ý định. .. tốn phân tích ý định từ văn trực tuyến nói chung văn trực tuyến tiếng Việt nói riêng trình bày chương 2.1 Phân tích ý định từ văn trực tuyến tiếng Việt Như giới thiệu phần Mở đầu, việc hiểu ý định. .. ý định Bảng 1.1 đưa ví dụ văn trực tuyến mang ý định rõ, văn trực tuyến mang ý định ẩn văn trực tuyến không mang ý định người dùng Trong đó, với văn trực tuyến mang ý định rõ, người đọc xác định

Ngày đăng: 23/06/2021, 15:01

Mục lục

  • DANH MỤC CÁC TỪ VIET TAT

  • DANH MỤC CÁC BANG

  • DANH MỤC CÁC HÌNH VẼ

  • Tổng quan về ý định và phân tích ý định

    • 1.1 Ý định và thể hiên ý định trong ngôn ngữ

    • 1.2 Ý định trong văn bản trực tuyến

    • 1.3 Phân tích ý định: bối cảnh khoa học

      • 1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm

      • 1.3.2 Phân tích ý định trong các bài đăng

      • 1.4 Một số kỹ thuật khai phá dữ liêu và mô hình học máy

        • 1.4.1 Cơ bản về kỹ thuật phân lớp

        • 1.4.2 Cơ bản về kỹ thuật trích xuất thông tin

        • 1.4.3 Cơ bản về mạng nơ ron

        • Phân tích ý định từ văn bản trực tuyến

          • 2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt

            • 2.1.2 Khó khăn - Thách thức

            • 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học

              • 2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển

              • 2.3 Định nghĩa ý định hướng miền quan tâm

                • 2.3.2 Định nghĩa ý định của Bing Liu

                • 2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án

                • 2.4 Tiến trình ba pha phân tích và xác định ý định

                • Phát hiện ý định và xác định miền quan tâm của ý định

                  • 3.1.1 Phát hiên bài đăng trực tuyến mang ý định

                  • 3.1.2 Xác định miền quan tâm của ý định

                  • 3.2.1 Phát biểu bài toán

                  • 3.2.3 Dữ liệu thực nghiệm

                  • 3.2.4 Thiết kế thực nghiệm

Tài liệu cùng người dùng

Tài liệu liên quan