Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 173 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
173
Dung lượng
2,61 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê Phân tích ý định từ văn ngắn, trực tuyến tiếng Việt LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN Hà Nội - 2021 LỜI CAM ĐOAN Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định từ văn ngắn, trực tuyến tiếng Việt cơng trình nghiên cứu riêng NCS Các số liệu, kết trình bày luận án hoàn toàn trung thực chưa cơng bố cơng trình khác NCS trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan ngồi nước Ngoại trừ tài liệu tham khảo này, luận án hồn tồn cơng việc riêng NCS Trong cơng trình khoa học cơng bố liên quan đến luận án, NCS thể rõ xác đóng góp đồng tác giả NCS thực Tác giả: Hà Nội: i LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ biết ơn sâu sắc đến PGS.TS Phan Xuân Hiếu, cán hướng dẫn khoa học, người trực tiếp định hướng giúp đỡ suốt trình nghiên cứu thực luận án Thầy không truyền đạt cho kiến thức quan trọng học thuật mà cịn chia sẻ cho tơi nhiều kinh nghiệm quý giá đường nghiên cứu khoa học Một vinh dự lớn cho học tập, nghiên cứu hướng dẫn Thầy Tôi xin bày tỏ biết ơn chân thành đến Thầy, Cô Bộ môn Hệ thống thông tin, đặc biệt PGS.TS Hà Quang Thụy thành viên Phịng thí nghiệm Khoa học Dữ liệu Cơng nghệ Tri thức giúp đỡ đóng góp chun mơn hữu ích Thầy Cơ cho luận án Tôi xin trân trọng cảm ơn Khoa Cơng nghệ Thơng tin, Phịng Đào tạo Ban Giám hiệu Trường Đại học Công nghệ tạo điều kiện thuận lợi cho tơi suốt q trình học tập thực luận án Tôi bày tỏ biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa, đồng nghiệp Khoa Công nghệ Thông tin - Trường Đại học Giao thông Vận tải tạo điều kiện thời gian, tài cổ vũ, hỗ trợ suốt q trình nghiên cứu Bên cạnh đó, tơi xin gửi lời cảm ơn đến PGS.TS Trần Văn Long, cán đồng hướng dẫn luận án tôi, giúp đỡ hữu ích cho luận án Tơi khơng thể qn cảm ơn cộng tơi nhóm nghiên cứu MDN–Team, người đồng hành, sát cánh tơi suốt q trình nghiên cứu, hồn thành luận án, tơi ln ghi nhớ điều Ngồi ra, tơi muốn cảm ơn tất người bạn tơi động viên chia sẻ cần Cuối cùng, xin bày tỏ lịng biết ơn vơ hạn bố mẹ, chồng, gia đình, người ln ủng hộ yêu thương cách vô điều kiện Nếu khơng có ủng hộ gia đình chồng con, tơi khơng thể hồn thành luận án ii Mục lục Lời cam đoan i Lời cảm ơn ii Mục lục ii Danh mục từ viết tắt vi Danh mục bảng viii Danh mục hình vẽ x Mở đầu Chương Tổng quan ý định phân tích ý định 1.1 Ý định thể ý định ngôn ngữ 1.2 Ý định văn trực tuyến 1.3 Phân tích ý định: bối cảnh khoa học 1.3.1 Phân tích xác định ý định từ truy vấn tìm kiếm 1.3.2 Phân tích ý định đăng 1.4 Một số kỹ thuật khai phá liệu mơ hình học máy 1.4.1 Cơ kỹ thuật phân lớp 1.4.2 Cơ kỹ thuật trích xuất thơng tin 1.4.3 Cơ mạng nơ ron 1.5 Kết luận chương Chương Phân tích ý định từ văn trực tuyến 2.1 Phân tích ý định từ văn trực tuyến tiếng Việt 2.1.1 Xây dựng liệu thực nghiệm 2.1.2 Khó khăn - Thách thức 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học 2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển 2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc iii 10 10 12 14 16 20 21 21 23 25 30 31 31 33 36 38 38 39 2.3 Định nghĩa ý định hướng miền quan tâm 2.3.1 Định nghĩa quan điểm Bing Liu 2.3.2 Định nghĩa ý định Bing Liu 2.3.3 Định nghĩa ý định hướng miền quan tâm luận án 2.4 Tiến trình ba pha phân tích xác định ý định 2.5 Kết luận chương 39 40 41 42 46 50 Chương Phát ý định xác định miền quan tâm ý định 51 3.1 Nghiên cứu giới phát ý định xác định miền quan tâm ý định 52 3.1.1 Phát đăng trực tuyến mang ý định 52 3.1.2 Xác định miền quan tâm ý định 53 3.2 Phát ý định 55 3.2.1 Phát biểu toán 55 3.2.2 Mơ hình giải tốn 56 3.2.3 Dữ liệu thực nghiệm 60 3.2.4 Thiết kế thực nghiệm 61 3.2.5 Kết thực nghiệm 62 3.3 Xác định miền quan tâm ý định 65 3.3.1 Phát biểu toán 65 3.3.2 Mơ hình giải toán 67 3.3.3 Xây dựng tập miền quan tâm 70 3.3.4 Dữ liệu thực nghiệm 71 3.3.5 Thiết kế thực nghiệm 73 3.3.6 Kết thực nghiệm 73 3.4 Kết luận chương 77 Chương Phân tích trích chọn nội dung ý định 79 4.1 Giới thiệu 79 4.2 Nghiên cứu giới trích chọn nội dung ý định 81 4.3 Phát biểu toán 83 4.4 Trích chọn ý định theo tiếp cận học máy thống kê học sâu 84 4.4.1 Xây dựng nhãn thực nghiệm 84 4.4.2 Trích chọn ý định với phương pháp CRFs 84 4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM– CRFs 88 4.4.4 Độ đo đánh giá mơ hình thực nghiệm 92 4.4.5 Thời gian thực nghiệm với mơ hình 93 iv 4.4.6 Dữ liệu thực nghiệm 4.4.7 Thiết kế thực nghiệm 4.4.8 Kết thực nghiệm 4.5 Trích chọn ý định dựa kết hợp mơ hình học sâu 4.5.1 Kỹ thuật học kết hợp (ensemble learning) 4.5.2 Xây dựng nhãn thực nghiệm 4.5.3 Mơ hình giải tốn 4.5.4 Dữ liệu thực nghiệm 4.5.5 Thiết kế thực nghiệm 4.5.6 Kết thực nghiệm 4.6 Kết luận chương 93 95 96 99 100 101 101 109 110 113 118 Chương Phân tích trích chọn ý định đa miền quan tâm 5.1 Giới thiệu 5.2 Nghiên cứu giới thích nghi miền xác định ý định 5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm 5.3.1 Phát biểu toán 5.3.2 Xây dựng nhãn không phụ thuộc miền 5.3.3 Mơ hình trích xuất ý định đa miền quan tâm 5.3.4 Dữ liệu thực nghiệm 5.3.5 Thiết kế thực nghiệm 5.3.6 Kết thực nghiệm 5.3.7 Mơ mơ hình trích xuất ý định đa miền quan tâm 5.4 Kết luận chương 121 121 Kết luận 148 Danh mục cơng trình khoa học 150 Tài liệu tham khảo 151 Phụ lục 159 v 122 125 125 126 131 135 136 138 144 146 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch Bi-LSTM Bidirectional Long Short Term Memory Mạng nhớ dài ngắn hai chiều Bi-LSTM-CRFs Bidirectional Long Short Term Memory Conditional Random Field Mạng nhớ dài ngắn hai chiều trường ngẫu nhiên có điều kiện CNN Convolutional Neural Network Mạng nơ ron tích chập CRFs Conditional Random Fields Trường ngẫu nhiên có điều kiện EI Explicit Intent Ý định rõ EMD Entity Mentioned Detection Xác định thực thể nhắc đến IE Information Extraction Trích xuất thơng tin IH Intent Head Đầu ý định II Implicit Intent Ý định ẩn IM Intent Modifiers Bổ nghĩa ý định L-BFGS Limited-memory Broyden-Fletcher Goldfarb Shanno Giới hạn nhớ BFGS LSTM Long Short Term Memory Mạng nhớ ngắn dài vi ME Maximum Entropy Cực đại entropy NI Non Intent Khơng có ý định NER Named Entity Ricognition Nhận diện thực thể có tên POS Part Of Speech Thành phần câu RNN Recurrent Neural Network Mạng nơ ron hồi quy SVMs Support Vector Machines Máy véc tơ hỗ trợ vii DANH MỤC CÁC BẢNG 1.1 Ví dụ văn trực tuyến chứa không chứa ý định 3.1 Đặc trưng dùng để huấn luyện mơ hình lọc đăng mang ý định người dùng 3.2 Ý định người dùng thuộc miền quan tâm khác 3.3 Ví dụ vài đặc trưng từ điển có trọng số cao cho miền quan tâm 3.4 Mười ba lớp miền quan tâm ý định ví dụ 3.5 Precision, recall F1 -score fold tốt dùng SVMs ME 3.6 Độ xác lớp miền quan tâm sử dụng phương pháp CNN 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 Bộ 13 nhãn cho miền quan tâm Bất động sản Bộ nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp Ví dụ minh họa cho đặc trưng dạng biểu thức quy Đặc trưng từ điển Gán nhãn liệu với nhãn tương ứng Trung bình F1-score với mơ hình thực nghiệm thuộc miền quan tâm Mỹ phẩm & Làm đẹp Trung bình F1-score với mơ hình thực nghiệm thuộc miền quan tâm Bất động sản Bộ 18 nhãn miền Bất động sản (BĐS) Bộ 15 nhãn miền Du lịch Bộ gồm 17 nhãn miền Xe cộ Độ xác nhãn thu miền Du lịch sử dụng phương pháp học kết hợp mà luận án đề xuất Độ xác nhãn thu miền Xe cộ sử dụng phương pháp kết hợp mà luận án đề xuất viii 13 61 66 69 72 74 77 85 85 87 88 93 98 98 110 111 112 116 118 4.13 Độ xác nhãn thu miền Bất động sản sử dụng phương pháp kết hợp mà luận án đề xuất 119 4.14 Một số ví dụ nhãn mơ tả 120 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 Bộ 18 nhãn miền Bất động sản (BĐS) Bộ 15 nhãn miền Du lịch Bộ gồm 17 nhãn miền Xe cộ Bộ 10 nhãn không phụ thuộc miền Sử dụng nhãn không phụ thuộc miền số miền quan tâm khác Gán nhãn liệu với nhãn riêng nhãn không phụ thuộc miền Kết F1 trung bình miền quan tâm cụ thể sử dụng nhãn riêng nhãn không phụ thuộc miền tương ứng Kết tốt trích xuất nhãn miền Du lịch với nhãn không phụ thuộc miền Kết tốt trích xuất nhãn miền Du lịch với nhãn riêng Kết tốt trích xuất nhãn miền Xe cộ Bất động sản với nhãn riêng Kết tốt trích xuất tập 32 nhãn riêng tổ hợp miền quan tâm Kết tốt trích xuất tập 10 nhãn khơng phụ thuộc miền tổ hợp miền quan tâm Ví dụ gán nhãn cho miền Bất động sản (BĐS) Ví dụ gán nhãn cho miền Du lịch Ví dụ gán nhãn cho miền Xe cộ ix 127 128 129 130 131 136 138 139 140 141 145 146 159 160 161 ... dụng để phân tích hiểu ý định Chương 2, Phân tích ý định từ văn trực tuyến, trình bày tốn phân tích hiểu ý định từ văn trực tuyến tiếng Việt Theo đó, luận án trình bày định nghĩa cấu trúc ý định. .. ý định Bảng 1.1 đưa ví dụ văn trực tuyến mang ý định rõ, văn trực tuyến mang ý định ẩn văn trực tuyến không mang ý định người dùng Trong đó, với văn trực tuyến mang ý định rõ, người đọc xác định. .. luận đoán ý định người viết; — Văn không mang ý định (Non-Intent): văn cịn lại, tức văn khơng mang ý định 1.2 Ý định văn trực tuyến Để tiếp cận mục tiêu hiểu ý định từ văn trực tuyến tiếng Việt,