Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 102 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
102
Dung lượng
4,47 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA - NÔNG VĂN TÙNG NGHIÊN CỨU XÂY DỰNG CHATBOT HỖ TRỢ TƢ VẤN DU LỊCH QUẢNG BÌNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 8480101 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: TS TRẦN VĂN CƢỜNG Đà Nẵng - Năm 2019 ii LỜI CAM ĐOAN Tôi xin cam đoan : Những nội dung luận văn thực hướng dẫn trực tiếp thầy giáo TS Trần Văn Cường Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả luận văn NƠNG VĂN TÙNG iii Lời cảm ơn Tơi xin chân thành cám ơn quý Thầy, Cô khoa Công nghệ thông tin Trường ĐH Bách khoa, Đại học Đà Nẵng giảng viên trường ĐH Quảng Bình trang bị cho tơi kiến thức tảng để hồn thành tốt luận văn Cám ơn bạn lớp chia sẻ kinh nghiệm hỗ trợ lúc làm luận văn Đặc biệt em xin chân thành cảm ơn thầy giáo hướng dẫn TS Trần Văn Cƣờng hỗ trợ em lúc thực luận văn Mặc dù đă cố gắng hết khả khơng thể tránh khỏi thiếu sót Rất mong nhận góp quý báu quý thầy để đề tài hồn chỉnh Học viên NÔNG VĂN TÙNG iv MỤC LỤC LỜI CAM ĐOAN ii MỤC LỤC iv TÓM TẮT LUẬN VĂN vii DANH SÁCH CÁC HÌNH viii DANH SÁCH CÁC BẢNG BIỂU x PHẦN I MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Bố cục luận văn: PHẦN II NỘI DUNG CHƢƠNG TỔNG QUAN VỀ HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1 PHƢƠNG PHÁP HỌC MÁY 1.1.1 Trí tuệ nhân tạo 1.1.2 Học máy 1.2 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 11 1.2.1 Tổng quan xử lý ngôn ngữ tự nhiên 11 1.2.2 Các tốn xử lý ngơn ngữ tự nhiên 11 1.2.3 Ứng dụng xử lý ngôn ngữ tự nhiên 12 1.3 CÁC PHƢƠNG PHÁP BIỂU DIỄN VĂN BẢN 14 1.3.1 Mơ hình biểu diễn văn truyền thống 14 1.3.2 Mơ hình đồ thị biểu diễn văn 17 1.3.3 Mơ hình Word2vec văn (vector hóa từ) 20 1.3.4 Mơ hình Doc2vec (vector hóa văn bản) 21 v 1.4 TÍNH ĐỘ TƢƠNG ĐỒNG VĂN 23 1.4.1 Khái niệm độ tƣơng đồng 23 1.4.2 Độ tƣơng đồng văn dựa tập từ chung 23 1.4.3 Độ tƣơng đồng văn dựa vector biểu diễn 24 1.4.4 Độ tƣơng đồng văn tiếng Việt 26 1.5 CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN 30 1.5.1 Phƣơng pháp Naive Bayes 30 1.5.2 Phƣơng pháp k–Nearest Neighbor(KNN) 31 1.5.3 Phƣơng pháp định 32 1.5.4 Phƣơng pháp mạng Nơron nhân tạo 33 1.5.5 Phƣơng pháp Support Vector Machines (SVM) 35 1.6 CHATBOT 37 1.6.1 Khái niệm 37 1.6.2 Hoạt động chatbot 38 1.6.3 Sự phát triển chatbot 38 1.6.4 Các lĩnh vực ứng dụng chatbot 39 CHƢƠNG PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG CHATBOT 40 2.1 CÁC MƠ HÌNH CHATBOT 40 2.2 PHÂN LOẠI CHATBOT 41 2.2.1 Flow-oriented chatbot 41 2.2.2 Chatbot thông minh nhân tạo (Artificially intelligent chatbot) 41 2.2.3 Chatbot lai (Hybrid chatbot) 42 2.2.4 Chatbot đƣợc hỗ trợ ngƣời 43 2.3 CÁC PHƢƠNG PHÁP XÂY DỰNG CHATBOT 43 2.3.1 So sánh trùng khớp mẫu câu (Pattern matchers) 43 2.3.2 Sử dụng thuật toán phân lớp (Classification algorithms) 44 2.3.3 Mạng nơron nhân tạo (Artificial Neural Network - ANN) 44 vi 2.3.4 Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) 44 2.3.5 Hiểu ngôn ngữ tự nhiên (Natural Language Understanding - NLU) 45 2.4 CÁC VẤN ĐỀ CƠ BẢN KHI PHÁT TRIỂN HỆ THỐNG CHATBOT 46 2.4.1 Xác định ý định ngƣời dùng 47 2.4.2 Trích xuất thơng tin 49 2.4.3 Quản lý hội thoại 50 2.5 CÔNG CỤ TẠO CHATBOT 52 2.5.1 Nền tảng tạo chatbot 52 2.5.2 Xây dựng chatbot dựa tảng mã nguồn mở RaSa 52 CHƢƠNG CÀI ĐẶT THỰC NGHIỆM HỆ THỐNG CHATBOT HỖ TRỢ TƢ VẤN DU LỊCH QUẢNG BÌNH 57 3.1 BÀI TOÁN TƢ VẤN DU LỊCH 57 3.2 PHÂN TÍCH NHU CẦU TƢ VẤN DU LỊCH 59 3.3 DỮ LIỆU THỰC NGHIỆM 61 3.4 MƠ HÌNH HỆ THỐNG 63 3.5 CÀI ĐẶT THỰC NGHIỆM 64 3.5.1 Một số yêu cầu hệ thống 64 3.5.2 Ngôn ngữ sử dụng 65 3.5.3 Xây dựng tập liệu huấn luyện kịch hội thoại 66 3.5.4 Xây dựng Action: 69 3.6 KẾT QUẢ THỰC NGHIỆM 71 3.7 PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ 74 PHẦN III KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 77 Kết luận 77 Hƣớng phát triển 77 TÀI LIỆU THAM KHẢO 79 vii TÓM TẮT LUẬN VĂN NGHIÊN CỨU XÂY DỰNG CHATBOT HỖ TRỢ TƢ VẤN DU LỊCH QUẢNG BÌNH Học viên: Nơng Văn Tùng Chun ngành: Khoa học máy tính Mã số: 8480101 Khóa: K35 Trƣờng Đại học Bách khoa – ĐHĐN Tóm tắt: Ngày chatbot đƣợc ứng dụng nhiều lĩnh vực đời sống xã hội Nghiên cứu xây dựng chatbot dựa mã nguồn mở hƣớng nghiên cứu nhận đƣợc nhiều quan tâm Trong luận văn này, trình bày sở lý thuyết học máy, xử lý ngôn ngữ tự nhiên, phƣơng pháp tạo chatbot Từ đề xuất mơ hình hệ thống chatbot hỗ trợ tƣ vấn du lịch Quá trình xây dựng hệ thống chatbot bao gồm bƣớc sau: (1) Thu thập liệu; (2) Xác định ngôn ngữ sử dụng; (3) Xây dựng tập liệu huấn luyện; (4) Kịch hộp thoại; (5) Xây dựng Action Kết thực nghiệm liệu đƣợc xây dựng cho thấy giải pháp đề xuất xây dựng chatbot mang lại hiệu việc tƣ vấn cho khách du lịch Từ khóa: Xử lý ngôn ngữ tự nhiên, biểu diễn văn bản, độ tƣơng đồng văn bản, công nghệ chatbot, chatbot RESEARCH CONSTRUCTION OF CHATBOT QUANG BINH TOURIST CONSULTANT SUPPORT Student: Nong Van Tung Major: Computer Science Code: 8480101 Course: K35 Polytechnic University – Da Nang University Abstract: Today chatbot can be applied a lot in the areas of social life Researching to build chatbot based on open source is a research direction that has received much attention now In this dissertation, I present the theory of machine learning theory, natural language processing, methods and chatbot technology Since then propose a model of chatbot system to support tourism consultancy The process of building chatbot system includes the following steps: (1) Data collection; (2) Determine the language used; (3) Develop training data set; (4) Script dialog; (5) Building Action Experimental results on the data set have been developed, showing that the proposed solution for building chatbot is effective in advising tourists Keywords: Natural language processing, Text representation, Text similarity, Chatbot technology, chatbot viii DANH SÁCH CÁC HÌNH Hình 1.1 Bộ liệu chữ viết tay [22] Hình 1.2 Mơ hình vector biểu diễn văn [3] 15 Hình 1.3 Ví dụ mơ hình đồ thị khái niệm 18 Hình 1.4 Ví dụ mơ hình đồ thị hình [3] 19 Hình 1.5 Ví dụ mơ hình đồ thị có hƣớng, khơng gán nhãn 20 Hình 1.6 Ví dụ mơ hình đồ thị n khoảng cách đơn giản [3] 20 Hình 1.7 Mơ hình Cbow Skip-gram [31] 21 Hình 1.8 Mơ hình túi từ phân tán vectơ đoạn [4] 22 Hình 1.9 Mơ hình nhớ phân tán [4] 22 Hình 1.10 Mơ hình nhớ phân tán cho việc học vector đoạn[35] 23 Hình 1.11 Ví dụ định [15] 33 Hình 1.12 Sơ đồ đơn giản mạng Nơron nhân tạo [2] 34 Hình 1.13 Sơ đồ đồ thị có hƣớng đơn giản [2] 35 Hình 1.14 Siêu mặt phẳng h phân chia liệu huấn huyện thành lớp + - với khoảng cách biên lớn [10] 36 Hình 1.15 Xử lý hội thoại chatbot ngƣời 38 Hình 1.16 Hoạt động chatbot 38 Hình 2.1 Đoạn hội thoại chatbot trí tuệ nhân tạo [8] 42 Hình 2.2 Chatbot tự động trả lời câu hỏi khách hàng [28] 43 Hình 2.3 Cấu trúc chatbot sử dụng NLP công nghệ Machine learning [19] 45 Hình 2.4 Hệ thống chatbot sử sử dụng phƣơng pháp NLU [17] 46 Hình 2.5 Kiến trúc hệ thống phân lớp ý định [23] 48 Hình 2.6 Minh hoạ quản lý hội thoại theo mơ hình máy trạng thái hữu hạn FSA [24]51 Hình 2.7 Xây dựng tập liệu huấn luyện 55 Hình 3.1 Phần mềm chatbot 59 ix Hình 3.2 Chatbot hỗ trợ tƣ vấn thông tin du lịch 60 Hình 3.3 Mơ hình hệ thống chatbot 63 Hình 3.4 Máy ảo Vultr.com dùng để cài đặt chatbot 64 Hình 3.5 Các bƣớc thực giải thuật 66 Hình 3.6 Đặt phịng thơng qua chatbot 72 Hình 3.7 Hỏi tìm thông tin nhà hàng 73 Hình 3.8 Hỏi tìm thơng tin nhà hàng có chỉnh sửa 73 Hình 3.9 Chatbot trích xuất thơng tin số ngƣời phụ thuộc nhiều vào liệu huấn luyện NLU 74 Hình 3.10 Dữ liệu Tiếng Việt khơng dấu chƣa có kết nhƣ mong muốn 76 x DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 Biểu diễn văn mô hình logic 14 77 PHẦN III KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận Kết đạt đƣợc Quá trình phân tích tốn cụ thể, chi tiết Vận dụng học máy vào trình huấn luyện chatbot Đặc biệt, chƣơng tác giả phân tích giải pháp sử dụng mã nguồn mở Rasa để giải vấn đề xây dựng chatbot, phân tích vấn đề xử lý ngơn ngữ tiếng Việt mã nguồn Rasa khơng có sẵn Hệ thống chatbot đáp ứng đƣợc yêu cầu đặt ban đầu với chức hỗ trợ tƣ vấn Ưu điểm Trong trình nghiên cứu xây dựng chatbot hỗ trợ tƣ vấn du lịch Quảng Bình, luận văn đạt đƣợc số nội dung sau: - Luận văn tìm hiểu phƣơng pháp học máy, tính độ tƣơng đồng văn bản, phƣơng pháp biểu diễn, phân loại văn - Tìm hiểu tảng phát triển chatbot, thật toán xây dựng chatbot - Đề xuất mơ hình hệ thống chatbot ứng với tốn - Giới thiệu mã nguồn mở chatbot, cài đặt chạy thực nghiệm thành công liệu cụ thể du lịch - Có thể thay đổi bổ sung chủ đề hội thoại, mẫu hội thoại kết phù họp nhất, nhƣ thể đƣợc thông minh gần gũi với ngƣời Nhược điểm - Do kết hợp nhiều mã nguồn mở phƣơng pháp nên ứng dụng hạn chế mặt xử lý lúc nhiều yêu cầu - Về liệu huấn luyện cịn Các kịch chatbot chƣa đủ lớn - Dữ liệu thu thập tập trung khách sạn nhà hàng, chƣa thu thập hết liệu du lịch Quảng Bình Cài đặt thực nghiệm chƣa phong phú Phạm vi ứng dụng Hệ thống chatbot hỗ trợ tƣ vấn đƣợc xây dựng để ứng dụng việc hỗ trợ tƣ vấn du lịch Quảng Bình Hƣớng phát triển 78 Mở rộng khả hỗ trợ tƣ vấn du lịch phạm vi Việt Nam Nâng cấp hệ trợ giúp không tƣ vấn trợ giúp văn mà cịn giọng nói với mơ hình tƣợng trƣng sinh động Mở rộng ứng dụng hệ thống điện thoại di động Xây dựng cộng đồng mã nguồn mở Rasa chủ đề trợ giúp hỗ trợ tƣ vấn, từ có sở tri thức phong phú cho chatbot 79 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Dƣơng Thăng Long, “Nghiên cứu độ tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử”, Viện Đại học Mở Hà Nội, 2014 [2] Nguyễn hạnh Phúc, Lê Thế Anh, “Nghiên cứu xây dựng mạng Neural cho kỹ thuật nhận dạng văn Tiếng Việt”, Đề tài nghiên cứu khoa học cứu cấp trường; Hải phòng, tháng 5/2015 [3] Nguyễn Kim Anh, Trịnh Thị Ngọc Hƣơng, “Nghiên cứu kĩ thuật đánh giá độ tƣơng đồng văn ứng dụng so sánh văn tiếng Việt”, Thuyết minh đề tài nghiên cứu khoa học cấp trường; Hải phòng, tháng 5/2016 [4] Nguyễn Văn Quý, “Nghiên cứu phƣơng pháp chuẩn hóa chữ viết tắt văn tiếng Việt”, Tóm tắt luận văn thạc sĩ; Đà Nẵng, 2017 Tài liệu tiếng Anh [5] Andrew J Frei, Integrating a chatbot with a GIS-MCDM system, Master Thesis, University of Salzburg, June 30th 2018 [6] Edmondo Candela, Consumers’ perception and attitude towards chatbots’ adoption A focus on the Italian market Master Thesis, Aalborg University, Denmark, 2018 [7] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [8] Hill, J., Randolph Ford, W & Farreras, I G., 2015 Real conversations with artificial intelligence: A comparison between human–human online conversations and human–chatbot conversations Computers in human behavior, Volume 49, p 245–250 [9] Paul Jaccard, “Etude comparative de la distribution orale dans une portion des Alpes et des Jura” In Bulletin del la Socit Vaudoise des Sciences Naturelles, volume 37, pages 547-579 [10] T Joachims, Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp 137-142 [11] Winkler, W E., “String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage”, 1990 80 Website [13] http://startup.vitv.vn/tin-chu/21-09-2016/tri-tue-nhan-tao-la-gi-nguon-goc-vamot-so-ung-dung-cua-tri-tue-nhan-tao-trong-t/1321 [Truy cập: 04/4/2019] [14] http://tiasang.com.vn/-doi-moi-sang-tao/Buc-tranh-khai-quat-ve Mang-tu-vaMang-tu-tieng-Viet-10738 [Truy cập:12/5/2019] [15] https://1upnote.me/post/2018/10/ds-ml-decision-tree-id3/ [Truy cập: 20/5/2019] [16] https://1upnote.me/post/2018/11/ds-ml-naive-bayes/ [Truy cập: 20/5/2019] [17] https://bigdata-madesimple.com/ [Truy cập:30/5/2019] [18] https://chatbotslife.com/ultimate-guide-to-leveraging-nlp-machine-learning-foryou-chatbot-531ff2dd870c#.rabx346bq [Truy cập:29/5/2019] [19] https://chatbotsmagazine.com/ [Truy cập: 28/5/2019] [20] https://hocvien.haravan.com/blogs/chia-se-thong-tin/7-linh-vuc-ap-dung-chatbotthanh-cong-nhat [Truy cập: 28/5/2019] [21] https://hocvien.haravan.com/blogs/chia-se-thong-tin/7-linh-vuc-ap-dung-chatbotthanh-cong-du-lich-tai-chinh [Truy cập: 28/5/2019] [22] https://machinelearningcoban.com/2016/12/27/categories/ [Truy cập: 26/4/2019] [23] https://techinsight.com.vn [Truy cập: 02/6/2019] [24] https://techinsight.com.vn/3-van-de-nlp-co-ban-khi-phat-trien-mot-thong-chatbotva-mot-phuong-phap-giai-quyet-dien-hinh/ [Truy cập: 02/6/2019] [25] https://vi.wikipedia.org/wiki/Học_máy [Truy cập: 4/4/2019] [26] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên [Truy cập: 2/4/2019] [27] https://viblo.asia/p/tat-ca-nhung-gi-ban-can-biet-ve-chatbot-Az45bnNg5xY [Truy cập: 25/5/2019] [28] https://www.drift.com/chatbots/ [truy cập 4/6/2018] [29] https://www.thegioimaychu.vn/blog/ai-deep-learning/hoc-may-co-giam-sat-vahoc-may-khong-giam-sat-p470/ [Truy cập: 20/4/2019] [30] https://vi.wikipedia.org/wiki/Deep_Blue [Truy cập: 05/4/2019] [31] https://rohanvarma.me/Word2Vec/ [Truy cập: 28/4/2019] [32] http://startup.vitv.vn/tin-chu/21 -09-2016/tri-tue-nhan-tao-la-gi-nguon- goc-vamot-so-ung-dung-cua-tri-tue-nhan-tao-trong-t/1321 [Truy cập: 20/4/2019] 81 [33] https://123doc.org/document/2761191-tri-tue-nhan-tao-mot-phuong-dien-cuavan-hoa-ung-dung.htm [Truy cập: 22/4/2019] [34] https://techinsight.com.vn/xu-li-ngon-ngu-tu-nhien-nhung-dieu-can-biet/ [Truy cập: 22/4/2019] [35] https://blog.duyet.net/2017/10/doc2vec-trong-sentimentanalysis.html#.XSn6ph83vIU [Truy cập: 18/5/2019] [36] https://rasahq.github.io/rasa-nlu-trainer/ [Truy cập: 24/6/2019] [37] https://github.com/trungtv/vi_spacy [Truy cập: 26/6/2019] ... dùng chatbot - Thu thập, thống kê số liệu từ nguồn liệu du lịch Quảng Bình - Xây dựng kịch cho chatbot du lịch Quảng Bình b Nghiên cứu thực nghiệm Cài đặt thực nghiệm chatbot tập liệu du lịch Quảng. .. áp dụng xây dựng chatbot nhằm nâng cao hiệu quả, độ xác chatbot - Xây dựng ngữ cảnh chatbot du lịch Quảng Bình dựa đặc trƣng liệu du lịch Quảng Bình - Ứng dụng mã nguồn mở Rasa để xây dựng thử... nâng cao chất lƣợng du lịch Quảng Bình, tơi đề xuất đề tài ? ?Nghiên cứu xây dựng chatbot hỗ trợ tư vấn du lịch Quảng Bình? ?? làm đề tài luận văn Mục tiêu nhiệm vụ nghiên cứu a Mục tiêu - Tìm hiểu