Luận án trình bày các nội dung chính sau: Tổng quan về ý định và phân tích ý định; Phân tích ý định từ văn bản trực tuyến; Phát hiện ý định và xác định miền quan tâm của ý định; Trích chọn ý định từ văn bản trực tuyến theo tiếp cận học máy.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê BIỂU DIỄN VÀ PHÂN TÍCH DỮ LIỆU TRÊN ĐỒ THỊ LỚN CHO MƠ HÌNH HĨA NGƯỜI DÙNG VÀ HỆ TƯ VẤN Chuyên ngành: Hệ thống Thông tin Mã số: 9480104.01 TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê BIỂU DIỄN VÀ PHÂN TÍCH DỮ LIỆU TRÊN ĐỒ THỊ LỚN CHO MƠ HÌNH HĨA NGƯỜI DÙNG VÀ HỆ TƯ VẤN Chuyên ngành: Hệ thống Thông tin Mã số: 9480104.01 Cán hướng dẫn chính: PGS.TS Phan Xuân Hiếu Cán hướng dẫn phụ: PGS.TS Trần Văn Long TĨM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TIN Hà Nội - 2019 Mục lục Mở đầu Các vấn đề nội dung nghiên cứu Phạm vi phương pháp nghiên cứu Kết đóng góp luận án Cấu trúc luận án Chương Tổng quan ý định phân tích ý định 1.1 Ý định thể ý định ngôn ngữ 1.2 Phân tích hiểu ý định: bối cảnh khoa học 1.2.1 Phân tích xác định ý định từ truy vấn tìm kiếm 1.2.2 Phân tích ý định ngơn ngữ nói 1.2.3 Phân tích ý định đăng 1.3 Một số kỹ thuật khai phá liệu mơ hình học máy 1.4 Kết luận chương Chương Phân tích ý định từ văn trực tuyến 2.1 Phân tích ý định từ văn xã hội trực tuyến tiếng Việt 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học 2.3 Định nghĩa ý định hướng miền quan tâm 2.3.1 Định nghĩa quan điểm BingLiu 2.3.2 Định nghĩa ý định BingLiu 2.3.3 Định nghĩa ý định hướng miền quan tâm luận án 2.4 Tiến trình ba pha phân tích xác định ý định 10 2.5 Tiền xử lý liệu 10 2.6 Kết luận chương 10 Chương 11 Phát ý định xác định miền quan tâm ý định 11 3.1 Giới thiệu 11 3.2 Nghiên cứu liên quan 11 3.3 Phát ý định 11 3.3.2 Mơ hình thực nghiệm: 11 3.3.3 Dữ liệu thực nghiệm: 12 3.3.4 Thiết kế thực nghiệm: 12 3.3.5 Kết thực nghiệm 12 3.4 Xác định miền quan tâm ý định 12 3.4.1 Phát biểu toán: 12 3.4.2 Mơ hình thực nghiệm 12 3.4.3 Dữ liệu thực nghiệm 13 3.4.4 Thiết kế thực nghiệm 13 3.4.5 Kết thực nghiệm 13 3.5 Kết luận chương 13 Chương 15 Phân tích trích chọn nội dung ý định 15 4.1 Giới thiệu 15 4.2 Nghiên cứu liên quan 15 4.3 Phát biểu toán 15 4.4 Trích chọn ý định theo tiếp cận học máy thống kê học sâu 15 4.4.1 Xây dựng nhãn thực nghiệm 15 4.4.2 Trích chọn ý định với phương pháp CRFs 16 4.4.3 Trích chọn ý định với phương pháp học sâu Bi-LSTM 16 4.4.4 Độ đo đánh giá mơ hình thực nghiệm 16 4.4.5 Dữ liệu thực nghiệm 16 4.4.6 Thiết kế thực nghiệm 17 4.4.7 Kết thực nghiệm 17 4.5 Trích chọn ý định dựa kết hợp mơ hình học sâu 18 4.5.1 Xây dựng nhãn thực nghiệm 18 4.5.2 Mơ hình thực nghiệm 18 4.5.3 Dữ liệu thực nghiệm 19 4.5.4 Thiết kế thực nghiệm 19 4.5.5 Kết thực nghiệm 20 4.6 Kết luận chương 20 Chương 21 Phân tích trích chọn ý định độc lập miền 21 5.1 Giới thiệu 21 5.2 Nghiên cứu liên quan 21 5.3 Trích xuất ý định theo tiếp cận độc lập miền 21 5.3.1 Phát biểu toán 21 5.3.2 Xây dựng nhãn độc lập miền 21 5.3.3 Mơ hình trích xuất ý định độc lập miền 21 5.3.4 Dữ liệu thực nghiệm 22 5.3.5 Thiết kế thực nghiệm 22 5.3.6 Kết thực nghiệm 22 5.3.7 Mơ mơ hình trích xuất ý định độc lập miền 22 5.4 Kết luận chương 23 Kết luận 24 Mở đầu Phân tích ý định từ văn trực tuyến tốn có nhiều ý nghĩa khoa học thực tiễn Một phân tích đầy đủ ý định người dùng dạng đăng/bình luận phương tiện truyền thơng trực tuyến chìa khóa quan trọng để doanh nghiệp, dịch vụ kinh doanh kịp thời nắm bắt thị hiếu nhu cầu khách hàng, dự báo tiêu dùng, tìm kiếm khách hàng tiềm định hướng tiếp thị, cung ứng Về mặt khoa học, phân tích ý định từ văn xếp vào lớp tốn hiểu ngơn ngữ tự nhiên (natural language understanding - NLU) vốn địi hỏi phân tích sâu ngơn ngữ phân tích cú pháp, phân tích ngữ nghĩa Chính vậy, từ đầu năm 2000, cộng đông nghiên cứu khoa học giới có nhiều cơng bố tốn Hầu hết nghiên cứu ban đầu chủ yếu tập trung theo hướng tiếp cận phân lớp ý định vào lớp ngữ nghĩa đó, điển hình nghiên cứu nhóm tác giả Broder (2002)[12], Chen (2013)[21], Gupta (2014)[40], Wang (2015)[113] Bên cạnh đó, số nghiên cứu đề xuất cách tiếp cận hiểu sâu ngữ nghĩa, nội dung ý định, điển hình nghiên cứu vác tác giả cộng sự: Li (2010)[73], Castellanos (2012)[16], Zhang (2017)[120] Tuy vấn đề phân tích hiểu ý định từ văn trực tuyến cịn nhiều khía cạnh chưa khai thác triệt để như: định nghĩa đặc tả cấu trúc ý định cách tổng quát, quy trình xuyên suốt để hiểu ý định… Đây thách thức mà luận án cần tiếp cận giải Các vấn đề nội dung nghiên cứu Phân tích xác định cách xác, đầy đủ, trọn vẹn ý định người viết từ văn vấn đề khó nhiều thử thách lĩnh vực xử lý ngơn ngữ tự nhiên (những khó khăn trình bày chi tiết Chương luận án) Luận án xem thử thách nhiệm vụ cần giải vượt qua, từ luận án đặt trọng tâm vào việc tiếp cận giải năm vấn đề quan trọng sau: 1, Định nghĩa, biểu diễn ý định tiến trình phân tích ý định: Việc tìm cách định nghĩa ý định cho phù hợp với mục tiêu phạm vi nghiên cứu quan trọng 2, Phát diện ý định: Việc xác định tồn ý định văn khâu quan trọng cần thực trước tiến hành phân tích cụ thể Về mặt khoa học, việc phân tích trực tiếp tập văn mang ý định tránh phần lớn vấn đề liệu thưa không cân 3, Xác định miền quan tâm ý định: Việc xác định trước miền ý định giúp giới hạn thông tin ý định làm giảm phong phú từ vựng, từ giúp cho việc phân tích đạt độ xác cao 4, Xác định thông tin ý định theo tiếp cận phân tích nơng: Các kỹ thuật phân tích sâu phân tích cú pháp, ngữ nghĩa tiếng Việt cịn vấn đề khó chưa đạt độ xác mong muốn Vì thế, luận án đặt vấn đề theo hướng tiếp cận khác: xác định ý định dựa phân tích ngơn ngữ mức nơng, hay gọi tắt phân tích nơng 5, Phân tích xác định ý định độc lập miền: Một khía cạnh quan trọng xử lý ngơn ngữ tự nhiên nói chung tốn nói riêng vấn đề miền liệu Liệu phân tích ý định mức độc lập miền? Liệu sử dụng liệu tri thức từ miền có để phân tích miền mới? Một phần quan trọng luận án tìm kiếm câu trả lời cho câu hỏi Phạm vi phương pháp nghiên cứu Trong khuôn khổ luận án này, hạn chế phạm vi nội dung nghiên cứu số điểm sau: - Dạng ý định: Luận án quan tâm ý định tường minh hay gọi ý định rõ (explicit intent) Luận án chưa xem xét phân tích ý định ẩn (implicit intent) Luận án xử lý vấn đề đa ý định văn không xử lý trường hợp đa ý định câu ý định có tính lồng Luận án khơng xem xét khía cạnh tính hiệu lực ý định Nghĩa ý định đề cập khứ hết hiệu lực xem ý định hợp lệ - Dạng liệu: Luận án tập trung phân tích ý định từ đăng, bình luận người dùng phương tiện truyền thông xã hội trực tuyến Trong luận án sử dụng thuật ngữ văn cho ngắn gọn Độ dài văn cần từ hai từ trở lên không dài 800 từ Nghiên cứu lý thuyết đề xuất mơ hình, phương pháp giải toán xác định ý định người dùng từ văn nghiên cứu thực nghiệm để kiểm chứng đánh giá đề xuất luận án Kết đóng góp luận án - Thứ nhất, luận án đề xuất định nghĩa ý định hướng miền quan tâm phù hợp cho văn truyền thông xã hội trực tuyến, đồng thời đề xuất tiến trình ba pha gồm ba tốn phân tích xác định thơng tin ý định Trong đó, tốn (lọc ý định) toán hai (xác định miền quan tâm) mơ hình hóa thành tốn phân lớp nhị phân phân lớp đa lớp Các nội dung kết nghiên cứu trình bày cơng trình [LTLe1], [LTLe2] - Thứ hai, luận án đề xuất mơ hình hóa tốn ba (trích chọn nội dung ý định) dạng trích chọn thơng tin liệu chuỗi Các mơ hình học máy thống kê cho liệu chuỗi CRFs, mơ hình học sâu Bi-LSTM-CRFs đề xuất để giải toán Luận án đề xuất tập nhãn đặc trưng tương ứng nội dung ý định cần trích xuất miền liệu Các nội dung kết trình bày cơng trình [LTLe3] Hơn nữa, luận án đề xuất phương pháp hiệu để nâng cao độ xác tốn trích chọn nội dung ý định dựa mơ hình học kết hợp (ensemble learning) mà cụ thể kỹ thuật học ba (tri-training) Nội dung kết nghiên cứu trình bày [LTLe4] - Thứ ba, luận án đề xuất mơ hình phân tích xác định ý định độc lập miền (domain-independent) dựa ý tưởng xây dựng tập nhãn chung cho miền liệu Luận án tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu hai cách tiếp cận phụ thuộc miền độc lập miền thảo luận ưu nhược điểm cách tiếp cận Nội dung kết trình bày cơng trình [LTLe5] Cấu trúc luận án Toàn thể nội dung luận án bao gồm: - Phần Mở đầu, phần đề cập ý nghĩa tính cấp thiết luận án, tổng quan bối cảnh nghiên cứu, động lực, mục tiêu, phạm vi, nội dung nghiên cứu, đóng góp luận án - Chương 1, Tổng quan ý định phân tích ý định Chương giới thiệu khái niệm ý định, thể ý định văn bản, đồng thời giới thiệu tốn phân tích ý định từ văn trực tuyến khảo sát nghiên cứu liên quan Phần cuối chương nhắc lại sơ lược kiến thức sở sử dụng luận án - Chương 2, Phân tích ý định từ văn trực tuyến Chương đưa khái niệm miền quan tâm ý định hướng miền quan tâm luận án Từ phân tích đề xuất tiến trình ba pha giải tốn phân tích ý định - Chương 3, Phát ý định xác định miền quan tâm ý định Chương đề xuất phương pháp học máy hiệu để giải pha (tức toán phát ý định), pha hai (tức toán xác định miền quan tâm ý định) - Chương 4, Trích chọn ý định từ văn trực tuyến theo tiếp cận học máy Chương đề xuất việc mơ hình hóa pha ba tiến trình ba pha tốn trích chọn thơng tin liệu chuỗi Sau đó, tiếp cận giải toán nhờ phương pháp CRFs Bi-LSTMCRFs Chương đề xuất phương pháp hiệu dựa vào kỹ thuật học kết hợp để nâng cao độ xác tốn trích chọn ý định - Chương 5, Thích nghi miền xác định ý định người dùng Chương trình bày phương pháp trích chọn ý định độc lập miền dựa vào nhãn tổng quát luận án đề xuất Phần cuối chương đưa nhận định ưu nhược điểm nhãn chung nhãn riêng - Phần Kết luận, phần tổng hợp kết mà luận án đóng góp 3.3.3 Dữ liệu thực nghiệm: Dữ liệu gồm 1315 văn trực tuyến lấy từ nguồn như: webtretho.com, lamchame.com, facebook.com…, sau gán nhãn đồng thuận nhóm sinh viên thu 588 văn có nhãn EI 727 văn có nhãn NI 3.3.4 Thiết kế thực nghiệm Thực nghiệm theo phương pháp đánh giá chéo 4-fold với loại đặc trưng 3.3.5 Kết thực nghiệm Kết thực nghiệm cho thấy độ xác F1 cao ổn định tất fold (đều 88%) Điều chứng tỏ mơ hình đặc trưng mà đề xuất phù hợp để giải tốn đặt Fold đạt độ xác cao với độ xác trung bình mịn F1 92.07%, lớp NI lớp EI đạt độ xác F1 92.9% 91.03% 3.4 Xác định miền quan tâm ý định 3.4.1 Phát biểu toán Cho văn trực tuyến tiếng Việt (bài đăng/bình luận tiếng Việt phương tiện truyền thông xã hội) chứa ý định rõ người dùng Hãy xây dựng mơ hình xác định miền quan tâm ý định 3.4.2 Mơ hình thực nghiệm - Luận án đề xuất mơ hình hóa tốn xác định miền ý định toán phân lớp đa lớp (13 lớp bên dưới) đề xuất sử dụng hai mơ hình phân lớp cực đại hóa entropy (ME) máy hỗ trợ véc tơ (SVMs) để tiến hành thực nghiệm - Sử dụng loại đặc trưng n-grams từ điển mục Từ điển mục tạo tự động cách lựa chọn 10-30 n-grams có đặc trưng cao cho miền ý định 12 3.4.3 Dữ liệu thực nghiệm Dữ liệu gồm 7009 văn mang ý định rõ thu từ diễn đàn tiếng trang facebook công khai Luận án đề xuất xây dựng phân hoạch gồm 13 lớp miền quan tâm Sau thực gán nhãn thu số lượng đăng tương đương với miền sau: Thiết bị điện tử (546), Thời trang & Phụ kiện (586), Tài (314), Dịch vụ ăn uống (424), Nội thất & Tạp hóa (699), Sức khỏe & Làm đẹp (322), Cơng việc & Giáo dục (1296), Vật nuôi & Cây trồng (385), Bất động sản (750), Thể thao & Giải trí (456), Giao thông Vận tải (649), Du lịch & Khách sạn (354), Khác (228) 3.4.4 Thiết kế thực nghiệm Dữ liệu chia thành phần với tỉ lệ train :1 test Sau chúng tơi tiến hành thực nghiệm đánh giá chéo 5-fold với mơ hình 3.4.5 Kết thực nghiệm Hình 3.3 thể kết trung bình F1 fold thực nghiệm với mơ hình ME mơ hình SVMs Có thể thấy kết thực nghiệm ổn định fold đạt độ xác F1 85% Đặc biệt, mơ hình SVMs ln đạt độ xác cao mơ hình ME thực nghiệm Kết độ xác F1 lớp miền ý định tương ứng với fold tốt trình bày hình 3.4 Độ xác F1 lớp hầu hết cao 80%, trừ lớp Khác Một số lý lý giải cho kết là: (i) lớp Khác có số lượng đăng nhất; (ii) đăng thuộc lớp Khác đa dạng nên khó tìm đặc trưng riêng phân biệt tốt 3.5 Kết luận chương Chương đề xuất mơ hình hóa tốn Phát ý định toán phân lớp nhị phân, toán Xác định miền quan tâm ý định toán phân lớp đa lớp Hai phương pháp phân lớp đơn giản 13 hiệu đề xuất để tiến hành thực nghiệm cho hai toán chương ME SVM Kết thực nghiệm chứng tỏ phương pháp đề xuất luận án phù hợp hiệu Nội dung kết nghiên cứu chương công bố [LTLe1] [LTLe2] Hình 3.3 Độ xác F1 đánh giá chéo 5-fold với ME SVMs Hình 3.4 Độ xác trung bình F1 miền quan tâm ý định 14 Chương Phân tích trích chọn nội dung ý định 4.1 Giới thiệu Chương tập trung giải pha (trích chọn nội dung ý định) tiến trình ba pha theo tiếp cận học máy học sâu Luận án lựa chọn hai miền ý định Bất động sản Mỹ phẩm & Làm đẹp để thực nghiệm Đặc biệt chương đề xuất phương pháp hiệu để nâng cao độ xác tốn trích chọn ý định nhờ sử dụng kỹ thuật học kết hợp mơ hình học sâu 4.2 Nghiên cứu liên quan 4.2.1 Trích chọn ý định Một số nghiên cứu điển hình liên quan đến tốn phân tích trích chọn nội dung ý định Li (2010) [73], Castellanos (2012) [16], Hamroun (2015) [42] 4.2.2 Kỹ thuật huấn luyện ba (tri-training) 4.2.3 Phương pháp học kết hợp (ensemble learning) 4.3 Phát biểu toán Cho văn trực tuyến tiếng Việt mang ý định rõ thuộc miền quan tâm “d” xác định trước Hãy xây dựng mơ hình trích chọn thơng tin quan trọng ý định 4.4 Trích chọn ý định theo tiếp cận học máy thống kê học sâu 4.4.1 Xây dựng nhãn thực nghiệm Luận án đề xuất mô hình hóa tốn trích chọn ý định toán xác định thực thể nhắc đến (EMD – entity mentioned detection) Vì vậy, chúng tơi cần xây dựng nhãn tương ứng với thực thể cần trích chọn Luận án đề xuất nhãn gồm 13 nhãn 15 cho miền Bất động sản (bảng 4.1) nhãn gồm nhãn cho miền Mỹ phẩm & Làm đẹp (bảng 4.2) 4.4.2 Trích chọn ý định với phương pháp CRFs Với tốn trích chọn ý định liệu thu được, luận án đề xuất sử dụng loại đặc trưng cho mơ hình CRFs: n-gram; biểu thức quy; từ điển mục 4.4.3 Trích chọn ý định với phương pháp học sâu Bi-LSTM Luận án kế thừa mơ hình Bi-LSTM-CRFs đề xuất Lample cộng (2016) [68] Chúng sử dụng kỹ thuật FastText để tạo véc tơ mã hóa từ cho đầu vào mơ hình, véc tơ có kích thước 100 Để thực nghiệm cho tốn trích chọn ý, chúng tơi sử dụng số kỹ thuật kết hợp với mơ hình Bi-LSTM-CRFs Thứ kỹ thuật biểu diễn từ dựa vào mã hóa ký tự (Character-based Embedding), ký hiệu “Char” Với kỹ thuật tạo véc tơ biểu diễn từ dựa vào ký tự với kích thước 25 Thứ hai kỹ thuật Tiền huấn luyện (Pre-trained), ký hiệu “Pre” Với kỹ thuật này, sử dụng phương pháp Skip-gram để tạo véc tơ biểu diễn từ cho bảng tham chiếu (look-up table) Thứ ba kỹ thuật Cắt tỉa (Dropout), ký hiệu “Drop” Kỹ thuật sử dụng để làm giảm tượng q khớp mơ hình với liệu huấn luyện cách bỏ ngẫu nhiên số đơn vị (unit) theo tỉ lệ cho trước Trong thực nghiệm mình, chúng tơi sử dụng tỉ lệ cắt tỉa p = 0.3 4.4.4 Độ đo đánh giá mơ hình thực nghiệm Sử dụng độ xác (precision), độ hồi tưởng (recall), độ đo F tính theo mức chunk-based (cụm từ phân đoạn) 4.4.5 Dữ liệu thực nghiệm Dữ liệu thực nghiệm thu thập chủ yếu từ diễn đàn facebook Chúng thu 712 văn cho lĩnh vực Bất động sản 16 1500 văn cho lĩnh vực Mỹ phẩm & Làm đẹp Sau liệu gán nhãn theo hướng dẫn bảng 3.1 bảng 3.2 luận án Cuối liệu chuyển sang chuẩn BIO để làm đầu vào cho mơ hình học máy Với mơ hình Bi-LSTM-CRFs, liệu chia theo tỷ lệ 3:1:1 (train:validation:test); cịn với mơ hình CRFs, liệu chia theo tỷ lệ 3:1 (train:test) 4.4.6 Thiết kế thực nghiệm Với miền ý định, luận án thực nghiệm mơ hình sau: (i) LSTM-CRF(Char): huấn luyện mơ hình Bi-LSTM-CRFs kết hợp với kỹ thuật CHAR; (ii) LSTM-CRF(Char + Drop): huấn luyện mơ hình Bi-LSTM-CRFs kết hợp với kỹ thuật Char Drop; (iii) LSTM-CRF(Char + Pre): huấn luyện mơ hình Bi-LSTM-CRFs kết hợp với kỹ thuật Char Pre; (iv) LSTM-CRF(Char + Pre + Drop): huấn luyện mơ hình Bi-LSTM-CRFs kết hợp với kỹ thuật Char, Pre Drop; (v) CRFs: huấn luyện mơ hình CRFs với đặc trưng xây dựng 4.4.7 Kết thực nghiệm Bảng 4.6 4.7 thể kết thực nghiệm mơ hình miền Mỹ phẩm & Làm đẹp miền Bất động sản Mỗi miền ý định đạt độ xác cao với mơ hình khác Điều lý giải khác đặc trưng liệu miền, nữa, miền Bất động sản có ví dụ thực nghiệm nên việc sử dụng kỹ thuật Pre khơng hiệu Bảng 4.6 Trung bình F1-score với mơ hình thực nghiệm thuộc lĩnh vực Mỹ phẩm & Làm đẹp 17 Bảng 4.7 Trung bình F1-score với mơ hình thực nghiệm thuộc lĩnh vực Bất động sản 4.5 Trích chọn ý định dựa kết hợp mơ hình học sâu 4.5.1 Xây dựng nhãn thực nghiệm Để tiến hành thực nghiệm mơ hình này, chúng tơi lựa chọn miền ý định Bất động sản, Du lịch Xe cộ để thu thập liệu trích chọn ý định Chúng đề xuất nhãn tương ứng với thơng tin ý định cần trích chọn, nhãn Bất động sản gồm 18 nhãn, nhãn Du lịch gồm 15 nhãn, nhãn Xe cộ gồm 17 nhãn Các nhãn trình bày bảng 5.1, 5.2, 5.3 luận án 4.5.2 Mơ hình thực nghiệm 4.5.2.1 Mơ hình học kết hợp khơng chia sẻ tài ngun Luận án đề xuất mơ hình học kết hợp ba thành phần học sâu để nâng cao hiệu tốn trích chọn thơng tin ý định Trong mơ hình này, thành phần học sâu mơ hình Bi-LSTM-CRFs khởi tạo với kỹ thuật biểu diễn từ khác nhau: GloVe, FastText, Word2Vec Biểu diễn đầu vào khác đảm bảo đa dạng cần thiết mơ hình học kết hợp theo kỹ thuật tri-training Kết đốn nhận cuối mơ hình học kết hợp nhận thủ tục bình chọn theo đa số (majority voting) dựa kết thành phần Trường hợp hệ cân bằng, tức giá trị nhãn thu từ thành phần khác đơi nhãn có kết Viterbi cao huấn luyện mơ hình CRFs chọn làm kết đốn nhận mơ hình cuối Mơ hình trình bày hình 4.14 18 Hình 4.14 Mơ hình trích chọn ý định dựa kết hợp mơ hình học sâu (Mơ hình luận án đề xuất) 4.5.2.2 Mơ hình chia sẻ tài nguyên Để làm giảm thời gian huấn luyện mơ hình, luận án đề xuất mơ hình học kết hợp chia sẻ tầng Biểu diễn từ dựa vào ký tự Mơ hình trình bày hình 4.16 luận án 4.5.3 Dữ liệu thực nghiệm Dữ liệu lấy chủ yếu từ diễn đàn facebook tiếng Việt Nam Chúng thu khoảng 9000 văn bản, miền ý định có khoảng 3000 văn Dữ liệu sau chia theo tỉ lệ 3:1:1 (train:validation:test) để tiến hành thực nghiệm 4.5.4 Thiết kế thực nghiệm Chúng thực nghiệm mơ hình miền ý định: (i) Mơ hình đề xt khơng chia sẻ tài ngun (OUR PROPOSED ENSEMBLE MODEL); (ii) Mơ hình đề xuất có chia sẻ tài nguyên (SHARING CHAR LAYER MODEL); (iii) Mơ hình Bi-LSTM-CRFs đơn có biểu diễn từ kết nối từ véc tơ biểu diễ từ tạo kỹ thuật Glove, FastText, Word2Vec (3-EMBEDDING); (iv),(v),(vi) mơ hình Bi-LSTM-CRFs đơn có đầu vào 19 véc tơ biểu diễn kỹ thuật Glove, FastText, Word2Vec 4.5.5 Kết thực nghiệm Mơ hình đề xuất chúng tơi nâng kết trích chọn ý định lên cao so với mơ hình đơn Điển hình, miền Xe cộ, mơ hình đề xuất có độ xác cao mơ hình đơn WORD2VEC gần 3%, hình 4.19 Mơ hình chia sẻ tài ngun mà chúng tơi đề xuất có độ xác thấp mơ hình khơng chia sẻ tài ngun cao tất mơ hình đơn Hình 4.20 Trung bình F1 qua lần chạy khác mô hình miền xe cộ (transportation) 4.6 Kết luận chương Chương đề xuất mơ hình hóa tốn trích chọn thơng tin ý định tốn xác định thực thể nhắc đến, đồng thời đề xuất sử dụng phương pháp học máy CRFs mơ hình học sâu Bi-LSTM-CRFs để giải toán Đặc biệt, chương đề xuất mơ hình hiệu để nâng cao độ xác tốn trích chọn thơng tin, mơ hình học kết hợp ba thành phần học sâu Các kết nghiên cứu trình bày [LTLe3] [LTLe4] 20 Chương Phân tích trích chọn ý định độc lập miền 5.1 Giới thiệu Chương đề xuất cách tiếp cận không phụ thuộc vào miền ý định cho tốn phân tích ý định 5.2 Nghiên cứu liên quan Một số nghiên cứu phân tích ý định dựa kỹ thuật học thích nghi miền điển hình nghiên cứu Chen (2013) [21], Ding (2015) [30] Ngo (2017) [84] 5.3 Trích xuất ý định theo tiếp cận độc lập miền 5.3.1 Phát biểu toán Cho văn trực tuyến tiếng Việt mang ý định rõ thuộc miền quan tâm chưa xác định trước Hãy xây dựng mơ hình trích chọn thơng tin quan trọng ý định 5.3.2 Xây dựng nhãn độc lập miền Dựa vào nhãn miền ý định Bất độn sản, Du lịch, Xe cộ, luận án đề xuất nhãn chung gồm 10 nhãn : intent, brand, contact, context, description, location, number of object, object, other, price Sự tương quan nhãn chung nhãn riêng trình bày bảng 5.4 luận án Ngồi ra, thử sử dụng nhãn để trích chọn thơng tin với số miền ý định khác nữa, kết cho thấy nhãn chung phù hợp 5.3.3 Mơ hình trích xuất ý định độc lập miền Chúng xây dựng mơ hình CRFs, Bi-LSTM, BiLSTM-CRFs để thực nghiệm trích xuất ý định độc lập miền Trong đó, mơ hình CRFs sử dụng đặc trưng: n-grams, biểu thức quy, từ điển mục, gán nhãn từ loại, cấu tạo từ (chứa chữ số, chữ 21 đầu viết hoa) Hai mơ hình cịn lại dùng tham số chung với: kích thước véc tơ biểu diễn từ 100, phương pháp tối ưu Adam, tỉ lệ cắt tỉa p = 0.5 5.3.4 Dữ liệu thực nghiệm Dùng liệu huấn luyện mơ hình học kết hợp đề xuất chương Dữ liệu gán nhãn nhãn chung nhãn riêng 5.3.5 Thiết kế thực nghiệm Luận án tiến hành 42 thực nghiệm với mơ hình CRFs, BiLSTM, Bi-LSTM-CRFs bao gồm: - Thực nghiệm với nhãn độc lập miền nhãn riêng miền ý định cụ thể riêng biệt - Thực nghiệm với nhãn độc lập miền nhãn riêng tổ hợp số miền ý định - Thực nghiệm với nhãn độc lập miền nhãn riêng tổ hợp miền ý định 5.3.6 Kết thực nghiệm Kết thực nghiệm cho thấy số miền quan tâm tăng lên nhãn độc lập miền thể tốt nhãn riêng việc trích chọn ý định người dùng mơ hình Điều thể hình 5.3 Kết thực nghiệm cho thấy rằng, cần trích chọn ý định miền ý định cụ thể việc dùng nhãn riêng lại tốt nhãn chung Lý độ xác đạt nhãn riêng thấp nhãn độc lập miền chút hiệu xuất thơng tin lại đầy đủ chi tiết 5.3.7 Mơ mơ hình trích xuất ý định độc lập miền Luận án xây dựng trang web địa www.ydinhviet.com để mô mô hình trích chọn ý định độc lập miền 22 Hình 5.3 Kết F1 trung bình áp dụng mơ hình CRFs, Bi-LSTM, Bi-LSTM-CRFs 1, miền quan tâm với nhãn độc lập miền (General) nhãn riêng (Specific) tương ứng 5.4 Kết luận chương Trong chương 5, luận án đề xuất mơ hình trích chọn ý định độc lập miền dựa ý tưởng xây dựng nhãn độc lập miền Nội dung kết nghiên cứu chương trình bày cơng trình [LTLe5] 23 Kết luận Như đề cập xuyên suốt luận án, phân tích xác định ý định từ văn tốn khó lĩnh vực khai phá văn xử lý ngơn ngữ tự nhiên Đã có nghiên cứu tiếp cận toán góc độ khác phạm vi khác Luận án trình bày đề xuất việc mơ hình hố giải vấn đề xoay quanh tốn phát phân tích, xác định nội dung ý định từ văn truyền thông xã hội trực tuyến tiếng Việt Tựu trung lại, luận án đạt kết đóng góp sau: Thứ nhất, luận án đề xuất định nghĩa ý định rõ hướng miền quan tâm phù hợp cho văn truyền thông xã hội trực tuyến đồng thời đề xuất tiến trình ba pha gồm ba tốn phân tích xác định thơng tin ý định Trong đó, tốn (lọc ý định) toán hai (xác định miền ý định) mơ hình hóa thành tốn phân lớp nhị phân phân lớp đa lớp Các nội dung kết nghiên cứu trình bày cơng trình [LTLe1], [LTLe2] Thứ hai, luận án đề xuất mơ hình hóa tốn ba (trích chọn thơng tin cụ thể ý định) dạng trích chọn thơng tin liệu chuỗi Các mơ hình học máy thống kê cho liệu chuỗi CRFs, mơ hình học sâu Bi-LSTM-CRFs đề xuất để giải toán Luận án đề xuất tập nhãn đặc trưng tương ứng nội dung ý định cần trích xuất miền liệu Các nội dung kết trình bày cơng trình [LTLe3] Hơn nữa, luận án đề xuất phương pháp hiệu để nâng cao độ xác tốn trích chọn thơng tin ý định dựa mơ hình học kết hợp (ensemble learning) kỹ thuật huấn luyện ba (tri-training) Nội dung kết nghiên cứu trình bày cơng trình [LTLe4] 24 Thứ ba, luận án đề xuất tiếp cận việc phân tích xác định ý định độc lập miền (domain-independent) dựa ý tưởng xây dựng tập nhãn chung cho miền liệu Luận án tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu hai cách tiếp cận phụ thuộc miền độc lập miền thảo luận ưu nhược điểm cách tiếp cận Nội dung kết trình bày cơng trình [LTLe5] Bên cạnh đó, luận án cung cấp khảo sát tổng quan hướng nghiên cứu phân tích xác định ý định từ văn Có thể nói đóng góp luận án có ý nghĩa việc bổ sung hồn thiện kết nghên cứu phân tích ý định giới đặc biệt cho tiếng Việt Các kết luận án công bố cơng trình khoa học đăng tải tạp chí, hội nghị chuyên ngành nước quốc tế có phản biện Mặc dù luận án đạt số kết nghiên cứu tích cực, tồn hạn chế chưa giải như: (i) luận án sử dụng hai loại đặc trưng với toán phân lớp pha thứ pha thứ hai có nhiều loại đặc trưng hiệu khác chưa khai thác; (ii) luận án chưa xử lý trường hợp đăng mang ý định ẩn; (iii) chưa giải vấn đề đăng mang nhiều ý định rõ lúc; (iv) liệu khiêm tốn thực nghiệm theo phương pháp học sâu Trong tương lai gần, NCS tiếp tục tập trung giải vấn đề vừa nêu 25 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [1.] [LTLe1] Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, ThiMinh-Ngoc Truong, Thi-Thu Phi and Xuan-Hieu Phan (2016) Learning to Filter User Explicit Intents in Online Vietnamese Social Media Texts The Eighth Asian Conference on Intelligent Information and Database Systems (ACIIDS), pp.13-24, Springer, 2016 [SCOPUS, DBLP] [2.] [LTle2] Thai-Le Luong, Quoc-Tuan Truong, Hai-Trieu Dang and Xuan-Hieu Phan (2016) Domain Identification for Intention Posts on Online Social Media In Proceedings of the Seventh Symposium on Information and Communication Technology (SoICT), pp 52-57, ACM, 2016 [SCOPUS, DBLP] [3.] [LTLe3] Thai-Le Luong, Minh-Son Cao, Duc-Thang Le and XuanHieu Phan (2017) Intent Extraction from Social Media Texts Using Sequential Segmentation and Deep Learning Models In Proceedings of the 9th International Conference on Knowledge and Systems Engineering (KSE), pp 215-220, Springer LNCS, IEEE, 2017 [SCOPUS, DBLP] [4.] [LTLe4] Thai-Le Luong, Nhu-Thuat Tran and Xuan-Hieu Phan (2019) Improving Intent Extraction Using Ensemble Neural Network In Proceedings of the 19th International Symposium on Communications and Information Technologies (ISCIT), pp 58-63, IEEE, 2019 [DBLP] [5.] [LTLe5] Thai-Le Luong, Nhu-Thuat Tran, Tien-Son Dang, Quoc-Long Tran and Xuan-Hieu Phan (2019) Domain-independent Intent Extraction from Online Texts Computación y Sistemas, Accepted, 2019 [SCOPUS Journal] 26 ... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê BIỂU DIỄN VÀ PHÂN TÍCH DỮ LIỆU TRÊN ĐỒ THỊ LỚN CHO MƠ HÌNH HĨA NGƯỜI DÙNG VÀ HỆ TƯ VẤN Chuyên ngành: Hệ thống Thông tin Mã số: 9480104.01 Cán hướng dẫn chính:... mơ hình, luận án đề xuất mơ hình học kết hợp chia sẻ tầng Biểu diễn từ dựa vào ký tự Mơ hình trình bày hình 4.16 luận án 4.5.3 Dữ liệu thực nghiệm Dữ liệu lấy chủ yếu từ diễn đàn facebook tiếng... ba, luận án đề xuất mơ hình phân tích xác định ý định độc lập miền (domain-independent) dựa ý tư? ??ng xây dựng tập nhãn chung cho miền liệu Luận án tiến hành phân tích thực nghiệm, so sánh, đánh