Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
2,61 MB
Nội dung
UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT HỒNG TRỌNG NGHĨA PHÁT TRIỂN ỨNG DỤNG HỘI THOẠI THƠNG MINH TƯ VẤN TRONG LĨNH VỰC XUẤT NHẬP KHẨU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 BÌNH DƯƠNG – 2019 UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT HOÀNG TRỌNG NGHĨA PHÁT TRIỂN ỨNG DỤNG HỘI THOẠI THÔNG MINH TƯ VẤN TRONG LĨNH VỰC XUẤT NHẬP KHẨU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS QUẢN THÀNH THƠ BÌNH DƯƠNG – 2018 Lời cam đoan Tôi xin cam đoan rằng, luận văn "Phát triển ứng dụng hội thoại thông minh tư vấn lĩnh vực xuât nhập khẩu" công trình nghiên cứu tơi hướng dẫn thầy PGS.TS Quản Thành Thơ, xuất phát từ nhu cầu thực tiễn nguyện vọng tìm hiểu thân Ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, nội dung trình bày luận văn kết nghiên cứu Tơi thực kết luận văn chưa công bố trước hình thức Bình Dương, tháng 02 năm 2019 Tác giả Hoàng Trọng Nghĩa Lời cảm ơn Qua thời gian học tập rèn luyện trường Đại học Thủ Dầu Một, bảo giảng dạy nhiệt tình q thầy cơ, đặc biệt q thầy cô khoa Khoa Kỹ thuật - Công nghệ truyền đạt cho kiến thức lý thuyết thực hành suốt thời gian học trường Cùng với nỗ lực thân, hồn thành luận văn Từ kết đạt này, xin chân thành cám ơn quý thầy cô trường Đại học Thủ Dầu Một, truyền đạt cho tơi kiến thức bổ ích thời gian qua Đặc biệt xin chân thành cảm ơn thầy giáo, PGS.TS Quản Thành Thơ, người định hướng, giúp đỡ, trực tiếp hướng dẫn tận tình bảo tơi suốt q trình nghiên cứu, xây dựng hồn thiện luận văn Tơi mong nhận đóng góp ý kiến q thầy để báo cáo luận văn đạt kết tốt Tơi xin kính chúc q thầy bạn thật nhiều sức khỏe, niềm vui thành công công việc sống MỤC LỤC DANH SÁCH HÌNH VẼ DANH SÁCH CÁC TỪ VIẾT TẮT GIỚI THIỆU CHUNG Động lực nghiên cứu Mục tiêu luận văn 3 Cấu trúc luận văn CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Hệ thống hội thoại thông minh 1.2 Tình hình nghiên cứu 1.3 Phân loại mơ hình chatbot 1.4 Các vấn đề cần giải CHƯƠNG 2: CÁC LÝ THUYẾT LIÊN QUAN Kiến trúc mạng Neural nhân tạo (Artificial Neural Network - ANN) 1 Kiến trúc mạng Neural nhân tạo 2 Cơ sở toán học 10 Các hàm kích hoạt thường dùng 12 Hàm chi phí mát 14 Các kĩ thuật xử lý với mạng nơ-ron 15 2 Recurrent Neural Network - RNN 17 Long Short Term Memory (LSTM) 19 Bidirectional LSTM (BiLSTM) 23 Word Embedding (hay Word Vector) 23 Term Frequency-Inverse Document Frequency TFIDF 27 CHƯƠNG 3: MƠ HÌNH HỘI THOẠI ĐỀ XUẤT 29 Kiến trúc tổng quát hệ thống hội thoại thông minh 29 Giải thích mơ hình 30 Mơ hình xác định ý định người dùng 30 2 Mơ hình Dialog action 32 3 Mơ hình xác định thực thể (Named Entity Recognition) 33 Mơ hình trích xuất chọn thơng tin theo ngữ nghĩa 36 Quản lý hội thoại 38 CHƯƠNG 4: XÂY DỰNG VÀ ĐÁNH GIÁ MƠ HÌNH 40 Xây dựng liệu huấn luyện cho mơ hình word2vec 40 Dữ liệu huấn luyện cho mơ hình Intents model 40 Dữ liệu huấn luyện cho mơ hình Dialogue model 41 4 Dữ liệu huấn luyện cho mơ hình Named Entity Regcognition 42 Thử nghiệm ứng dụng hội thoại thông minh 43 KẾT LUẬN 47 CÔNG NGHỆ SỬ DỤNG 48 DANH SÁCH HÌNH VẼ Hình 1: Mạng nơ-ron nhân tạo với lớp ẩn Hình 2: Xử lý thơng tin mạng neuron 12 Hình 3: Xử lý thơng tin ANN 14 Hình 4: Hình mơ tả kỹ thuật Early Stopping 16 Hình 5: Minh họa kỹ thuật dropout Nửa bên trái mạng nơ-ron đầy đủ bên phải sau áp dụng dropout 17 Hình 6: Mạng Recurrent Neural Network 18 Hình 7: Quá trình xử lý mạng Recurrent Neural Network 18 Hình 8: Mơ hình cel RNN chuẩn (nguồn từ https://medium.com) 19 Hình 9: Mơ hình LSTM có lớp tương tác với bước thời gian 20 Hình 10: Trạng thái nhớ LSTM chạy xuyên suốt 20 Hình 11: Cổng trạng thái LSTM 21 Hình 12: Cổng forget mạng LSTM 21 Hình 13: Cổng input mạng LSTM 22 Hình 14: Cổng candidate mạng LSTM 22 Hình 15: Cổng output mạng LSTM 23 Hình 16: BiLSTM kết hợp forward LSTM backward LSTM 23 Hình 17: Ví dụ dạng biểu diễn vector từ 24 Hình 18: Ví dụ biểu diễn word2vec 24 Hình 19: Visualize từ huấn luyện mơ hình word2vec 25 Hình 20: Từ trọng tâm ngữ cảnh 26 Hình 21: Quá trình huấn luyện CBOW Skip-gram 27 Hình 22: Mơ hình hội thoại đề xuất 29 Hình 23: Huấn luyện, dự đốn intents model 31 Hình 24: Dữ liệu huấn luyện cho mơ hình “intents model” 32 Hình 25: Mơ hình dialogue action 33 Hình 26: Mơ hình “ner model” Bi-LSTM 36 Hình 27: Dữ liệu tính TF-IDF 37 Hình 28: Tính tf-idf sentence 37 Hình 29: Tính độ tương tự câu không gian 38 Hình 30: Kết tìm theo độ tương tự tf-idf cosin 38 Hình 31: Thiết kế liệu huấn luyện mơ hình Intents models 41 Hình 32: Thiết kế liệu huấn luyện mơ hình Dialogue models 42 Hình 33: Thiết kế liệu huấn luyện mơ hình Ner models 43 Hình 34: Kết chạy chương trình 44 Hình 35: Kết chạy chương trình 45 Hình 36: Kết chạy chương trình 45 Hình 37: Kết chạy chương trình 46 DANH SÁCH CÁC TỪ VIẾT TẮT Từ viết tắt Từ chuẩn Tiếng việt AI Artificial Intelligence Trí tuệ nhân tạo ANN Artificial Neural Network Mạng nơ ron nhân tạo BiLSTM Bidirectional Long Short Term Memory CBOW Continuous Bag of Words CNN Convolutional Neural Network Mạng neuron tích chập FC Fully-connected Kết nối đầy đủ MLP Multilayer Perceptron Đa lớp perceptron NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên LSTM Long Short Term Memory Mạng nhớ dài ngắn ReLU Rectified Linear Unit Đơn vị tuyến tính điều chỉnh RNN Recurrent Neural Network Mạng hồi quy Mạng nhớ dài ngắn đôi GIỚI THIỆU CHUNG Động lực nghiên cứu Hiện việc tiếp nhận, giải trả lời câu hỏi thắc mắc yêu cầu người dùng (Hệ thống hỏi đáp Q&A giải thắc mắc): khách hàng hoạt động thương mại, người dân thủ tục hành chính, học sinh sinh viên hoạt động đào tạo lớn Các hoạt động tiếp nhận câu hỏi trả lời câu hỏi hoạt động mang tính thủ cơng mà chưa có cơng cụ trợ giúp Việc tiếp nhận xử lý chậm, thiếu xác chưa cơng khai minh bạch Các câu hỏi yêu cầu người dùng vào nhiều lĩnh vực thuộc nhiều đối tượng trả lời khác nhau, việc lựa chọn đối tượng trả lời gây khó khăn hiểu nhầm cho người dùng dẫn đến câu hỏi yêu cầu thường không trả lời thỏa đáng Trong năm ngần đây, mơ hình học sâu (Deep Learning) lên phương pháp hiệu để giải tốn thuộc lĩnh vực nhận diện hình ảnh, nhận diện giọng nói, xử lý ngơn ngữ tự nhiên Với đời ngày nhiều thiết bị có khả tính tốn mạnh mẽ, cộng với lượng liệu dồi dào, mơ hình Deep Learning hứa hẹn ngày phát triển, trở thành nhân tố cho cách mạng 4.0 ngày Con người kết nối với người thông qua mạng xã hội, thời gian nơi đâu Sẽ thật tốt có hệ thống tự động thông minh hỗ trợ người cách trị chuyện, có khả nhắc nhở, làm trợ lý cơng việc theo dõi tình trạng sức khỏe cá nhân lúc, nơi Như vậy, hệ thống trả lời tự động có nhiệm vụ vai trị quan trọng, trợ giúp người nhiều nhiều lĩnh vực: y tế, giáo dục, thương mại điện tử, …, hiệu để nghiên cứu đưa sản phẩm phù hợp với thực tế Mục tiêu luận văn Với sở thực tiễn trênvà kiến thức machine learning tham khảo từ cơng trình liên quan giới, đề tài nghiên cứu xây dựng mơ hình hội thoại cho tiếng Việt tư vấn lĩnh vực xuất nhập Mơ hình hội thoại mà Tôi đề xuất kết hợp mạng nơ-ron LSTM phương pháp tìm câu trả lời tài liệu dựa kỹ thuật term frequency – inverse document frequency (TF-IDF) Mơ hình cho kết tính cực, giải vấn đề ngữ nghĩa, ngữ cảnh tính cách riêng hệ thống đối thoại Cấu trúc luận văn Để mô tả kết nghiên cứu, luận văn chia thành chương với nội dụng sau: CHƯƠNG 1: Tổng quan hệ thống trả lời tự động; Giới thiệu tổng quan hệ thống đối thoại người máy, nghiên cứu tổng quan tình hình nghiên cứu ngồi nước, phân loại mơ hình trả lời tự động CHƯƠNG 2: Cơ sở lý thuyết liên quan; Giới thiệu sở mạng nơ-ron nhân tạo, mơ hình mạng nơ-ron cải tiến sở mạng học sâu; thuật tốn tf.idf CHƯƠNG 3: Mơ hình hội thoại đề xuất; Xây dựng mơ hình hội tư vấn lĩnh vực xuất nhập khẩu, giải thích cách xây dựng cách hoạt động mơ hình nơ-ron để tích hợp thành ứng dụng hội thoại thông minh CHƯƠNG 4: Thực nghiệm đánh giá mơ hình; Thực nghiệm mơ hình xây dựng Trình bày cơng cụ, thư viện mã nguồn mở hỗ trợ việc tiền xử lý liệu, trình huấn luyện mơ hình đối thoại tiếng Việt KẾT LUẬN: Phần đưa kết luận đánh giá hạn chế tồn đưa hướng khắc phục TÀI LIỆU THAM KHẢO: Liệt kê danh sách báo sử dụng làm tham khảo, tham chiếu cho luận văn Hình 26: Mơ hình “ner model” Bi-LSTM Mơ hình trích xuất chọn thơng tin theo ngữ nghĩa Do mơ hình phận loại ý định người dùng hữu hạn trình trị truyện, khơng phải lúc xác định ý định để trả lời tất yêu cầu người dùng Trường hợp người dùng hỏi câu hỏi mà khơng có mơ hình xác định intents (có độ tin cậy thấp) hệ thống tìm thơng tin liên quan tài liệu văn cho để trả lời cho người dùng Việc trích chọn tài liệu phải đảm bảo mặt ngữ nghĩa nội dung (intents) mà người dùng quan tâm Việc trích chọn tài liệu dựa vào thuật toán TFIDF kết (Juan Ramos, Using TF-IDF to Determine Word Relevance in Document Queries, 2003) kiểm tra Độ tương đồng đại lượng dùng để so sánh hai hay nhiều đối tượng với nhau, phản ánh cường độ mối quan hệ đối tượng với Ví dụ: xét câu “Tơi nam” “Tơi nữ”, ta nhận thấy hai câu có tương đồng cao Phát biểu tốn tính độ tương đồng sau: Xét văn di dj Mục tiêu tìm giá trị S(di,dj), S (0,1), thể độ tương đồng văn di dj Giá trị cao giống nghĩa hai văn nhiều Ví dụ mơ hình khơng gian vector, ta sử dụng độ đo Cosine để tính độ tương đồng hai văn bản, văn biểu diễn vector Độ tương tự ngữ nghĩa khái niệm thể tỷ lệ dựa giống nội dung ý nghĩa tập tài liệu thuật ngữ danh sách thuật ngữ Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa câu, tài liệu văn 36 Độ tương đồng ngữ nghĩa câu đóng vai trò quan trọng nghiên cứu xử lý văn Nó sử dụng tiêu chuẩn để tìm kiếm tài liệu văn Cách tiếp cận TF.IDF ước lượng độ quan trọng từ văn danh sách tập tài liệu văn cho trước Nguyên lý TF.IDF là: độ quan trọng từ tăng lên với số lần xuất văn giảm xuống từ xuất nhiều văn khác Ly đơn giản từ xuất nhiều văn khác có nghĩa từ thơng dụng khả từ khóa giảm xuống (ví dụ từ “vì thế”, “tuy nhiên”, “nhưng”, “và”, …) Do độ đo quan trọng từ t tài liệu f tính bằng: tf * idf, với tf độ phổ biến từ t tài liệu f idf nghịch đảo độ phổ biến từ t tài liệu lại tập tài liệu (như trình phần lý thuyết) Cách tính độ tương đồng ngữ nghĩa câu Tài liệu đầu vào văn pháp luật gồm thông tư 38/2015/TT-BTC, 39/2018/TT-BTC, 45/2016/ND-CP, 134/2016/NĐ-CP Các văn lưu với thể thức theo dạng điều luật, điểm, mục Ở điều luậtcó tiêu đề nêu tóm tắt nội dung mà điều luật điều quy định, điều chỉnh (như hình dưới) Khi xử lý liệu để tính độ tương tự, tìm nội dung liêu quan với yêu cầu người dùng, phạm vi đề tài lấy tiêu đề điều luật để làm liệu lập từ điển IF-IDF Hình 27: Dữ liệu tính TF-IDF Ví dụ tính tf-idf câu: Kiểm tra tên hàng, mã số hàng hóa, mức thuế Có giá trị sau: Hình 28: Tính tf-idf sentence Sau phân tách câu thành từvà tính giá trị tf-idf Việc so sánh độ tương tự hai văn Di Dj, kí hiêu Similarity (Di, Dj), tính tốn theo cơng thức tính tốn khoảng cách khơng gian Nếu khoảng cách đạt đến ngưỡng đủ lớn người ta nói chúng có liên quan mặt ngữ nghĩa 37 Hình 29: Tính độ tương tự câu khơng gian Cơng thức để tính khoảng cách vector không gian sau: ⃗ 𝑎⃗ 𝑏 ⃗⃗⃗⃗ ∥𝑎∥ ∥𝑏∥ Similarity (a, b) = cos 𝜃 = ⃗⃗⃗⃗⃗⃗⃗ Ý tưởng toán việc biến văn cần so sánh thành vector từ tính tốn khoảng cách vector Hình 30: Kết tìm theo độ tương tự tf-idf cosin Quản lý hội thoại Để hệ thống trị chuyện với người cách tự tự nhiên (nhận đầu vào ngơn ngữ tự nhiên), hiểu người ta hỏi trả lời xác người ta muốn thống phải có thành phần khác để phân tích ngơn ngữ tự nhiên, quản lý trạng thái hội thoại (dialogue state), ngữ cảnh hội thoại (dialogue context) Để nói chuyện diễn tự nhiên, Ta cần quản lý tất thông tin hội thoại Người dùng vừa hỏi gì, thông tin liên quan đến người dùng, 38 loại câu hỏi vừa hỏi người dùng, Ta trả lời phải hỏi thêm thông tin từ người dùng Về chức DM tìm câu trả lời cho người dùng họ nhập vào mộtthơng tin Đây câu trả lời trực tiếp, câu trả lời cung cấp thơng tin Do để trả lời tốt yêu cầu người dùng, hệ thống phải nhớ thông tin người dùng cung cấp trước xác định ý định mà người muốn hỏi Ví dụ: Khi người dùng nhập message: Tơi Thủ Dầu Một, xin tư vấn cho mở tờ khai đâu thuận lợi với câu hỏi này, hệ thống chưa thể trả lời cho người dùng được, để trả lời câu hỏi trên, hệ thống phải biết hai thơng tin người hỏi loại hình doanh nghiệp vị trí cơng ty (Location) Cách giải đơn giản hỏi lại người dùng để biết thêm thơng tin, thay xử lý câu hỏi Tuy nhiên, thực tế trò chuyện, người ta không cung cấp tất thông tin liên quan câu nói mà thơng tin tích lũy dần qua câu nói trước DM nhận biết có thơng tin người dùng, cần thêmthơng tin đối tượng liên quan đến intent người dùng vừa nhập yêu cầu người dùng cung cấp thông tin có đủ đối tượng Trong câu hỏi trên, câu nói trước người dùng giới thiệu vị trí cơng ty Thủ Dầu Một hệ thống phải lưu, sử dụng lại không hỏi lại thông tin Khi hai người giao tiếp, ln có người người bắt đầu Người đóng vai đò định hướng dẫn dắt hội thoại lúc hội thoại diễn Thông thường người A hỏi người B câu hỏi người A người bắt đầu Nếu người B hỏi người A câu hỏi sau vai trò đổi lại Sẽ dễ người dùng tương tác với hệ thống mộtngữ cảnh hồn tốn đốn Khơng may trường hợp xảy Nó hồn tồn bình thường luồng hội thoại chuyển sang luồng hội thoại khác mà luồng chưa hoàn toàn hoàn thành Con người xử lý hội thoại hàng ngày ta mong muốn hệ thống làm chuyện Ví dụ người dùng hỏi “xin tư vấn cho mở tờ khai”, hệ thống hỏi lại thơng tin để trả lời người dùng hỏi câu khác: “hôm trước đăng ký tờ khai muốn xin sửa lại loại hình có khơng?” Khi thay đổi ngữ cảnh xảy ra, ngữ cảnh cũ nên xóa (hoặc lưu trữ lại trường hợp người dùng muốn quay lại với ngữ cảnh trước) Khi phát thay đổi ngữ cảnh trình trò chuyện, hệ thống phải hỏi lại người dùng xem có muốn quay lại với câu hỏi “tìm nơi mở tờ khai” trước hay tiếp tục với câu hỏi “sửa thông tin tờ khai” 39 CHƯƠNG 4: XÂY DỰNG VÀ ĐÁNH GIÁ MƠ HÌNH Xây dựng liệu huấn luyện cho mơ hình word2vec Như trình bày trước, mơ hình neural network làm việc với số học, từ, câu tiếng Việt, Tôi sử dụng công cụ mã nguồn mở Underthesea tác giả Vu Anh để tách câu tiếng Việt sang từ đơn, từ ghép, nhãn từ (POS), cú pháp từ (Chunk tag) Sau chuyển đoạn văn thành từ đơn, từ ghép, Tôi sử dụng cơng cụ Gensim để tạo mơ hình word2vec với kích thước 100, window Dữ liệu huấn luyện mơ hình word2vec lấy từ corpus Lưu Tuấn Anh tài liệu văn pháp luật craler website: - https://dncustoms.gov.vn/ - https://vnexpress.net/ - https://thuvienphapluat.vn/ - http://viet.jnlp.org Sau tiền xử lý liệu, thu thập liệu bao gồm 2,546,198 câu văn tiếng Việt Các công đoạn làm xử lý liệu, thực qua bước tiền sử lý sau: - Loại bỏ ký tự đặc biệt chữ chữ số (bắt đầu, kết thúc bên câu tiếng Việt), ex: - Xin chào, bạn, - Xóa bỏ ký tự phân tách khơng có ý nghĩa, ký tự phân tách câu dấu chấm, dấu hỏi dấu chấm than, ex: @#$%^&*, Dữ liệu huấn luyện cho mơ hình Intents model Để có liệu huấn luyện cho mơ hình Intents model, Tơi thu thập 469 câu hỏi doanh nghiệp thường hỏi từ website hải quan Bình Dương, câu hỏi chia làm 49 loại câu phụ thuộc Sau lấy liệu về, để phù hợp với mơ hình huấn luyện, câu hỏi tiền xử lý ký tự đặc biệt, dấu câu, ký tự phân tách, lọc câu hỏi thành loại (label) để huấn luyện - Huấn luyện với mơ hình bidirectional LSTM với tầng ẩn, tầng ẩn gồm 128 neural - Thông số Dropout = 0.5 - Dữ liệu huấn luyện đánh giá chia theo tỉ lệ 9:1 - Sử dụng đô đo Accuracy với tỷ lệ xác 0.95% 40 Hình 31: Thiết kế liệu huấn luyện mơ hình Intents models Dữ liệu huấn luyện cho mơ hình Dialogue model - Được thu thập từ 636 câu hỏi chia làm loại: question, information, complain để phân biệt câu hỏi, câu câu hỏi cung cấp thông tin câu phàn nàn, khẳng định - Huấn luyện với mơ hình bidirectional LSTM với tầng ẩn, tầng ẩn gồm 128 neural - Thông số Dropout = 0.5 - Dữ liệu huấn luyện đánh giá chia theo tỉ lệ 9:1 - Sử dụng đo Accuracy với tỷ lệ xác: 0.93 41 Hình 32: Thiết kế liệu huấn luyện mơ hình Dialogue models 4 Dữ liệu huấn luyện cho mơ hình Named Entity Regcognition - Thu thập 548 câu hỏi, xác định 10 thực thể gồm tên người, tên cơng ty, vị trí, loại hình doanh nghiệp, loại hình tờ khai, … - Mơ hình bidirectional LSTM với tầng ẩn/128 node - Thông số Dropout = 0.5 - Dữ liệu huấn luyện đánh giá chia theo tỉ lệ 9:1 - Sử dụng đô đo Accuracy với tỷ lệ xác: 0.91 42 Hình 33: Thiết kế liệu huấn luyện mơ hình Ner models Thử nghiệm ứng dụng hội thoại thông minh Sau cài đặt kiến trúc trên, Tôi thử nghiệm ứng dụng hội thoại máy tính cá nhân với trường hợp sau: - Thử nghiệm với câu hỏi đơn giản, huấn luyện hệ thống trả lời tốt, với ý định người hỏi Ví dụ: User: tơi đăng ký làm ngồi cách nào? Bot: bạn thơng báo đến hải quan phần mềm Trường hợp cần thêm thông tin để trả lời, ứng dụng hỏi lại người dùng: User: tư vấn giúp nơi làm mở tờ khai thuận lợi không? Bot: Doanh nghiệp bạn làm loại hình nào? User: cơng ty tơi làm gia công Bot: Theo quy định doanh nghiệp gia cơng phải làm thủ tục hải quan nơi có trụ sở nhà máy, công ty Như bạn làm thủ tục Chi cục Hải quan KCN Sóng Thần 43 Hình 34: Kết chạy chương trình 44 Hình 35: Kết chạy chương trình - Thử nghiệm với câu hỏi chưa huấn luyện o User: đăng ký làm cách nào? o Bot: Câu hỏi bạn quy định đây, bạn có muốn xem không? Nếu người dùng muốn xem, mở thơng tin điều luật quy định Hình 36: Kết chạy chương trình 45 Hình 37: Kết chạy chương trình 46 KẾT LUẬN Những kết luận văn - Luận văn tập trung tìm hiểu thực trạng mơ hình hội thoại thơng minh để đưa mơ hình ứng dụng phù hợp với lĩnh vực xuất nhập - Ứng dụng thuật toán trí tuệ nhân tạo, luận văn đưa ý tưởng mơ hình hội thoại thơng minh để ứng dụng lĩnh vực xuất nhập - Xây dựng mơ hình ứng dụng hội thoại hiểu ngôn ngữ tiếng Việt trả lời số câu hỏi đơn giản lĩnh vực xuất nhập Đối với câu trả lời có điều kiện, chương trình thấy chưa đủ thơng tin để trả lời chương trình hỏi lại người dùng để cung cấp thơng tin cho phù hợp sau đưa câu trả lời hợp lý Đối với câu hỏi mới, chương trình chưa học có quy định tài liệu, chương trình cho người dùng biết vấn đề người dùng quan tâm quy định đâu dựa thuật toán tf-idf Và chương trình áp dụng vào thực tế Hạn chế ứng dụng hội thoại Mặc dù chương trình hội thoại trả lời câu hỏi đơn giản, đạt kết tích cực, giải vấn đề ngữ nghĩa, ngữ cảnh hệ thống đối thoại nhiều việc phải làm, cần phải tối ưu như: - Dữ liệu để huấn luyện chương trình cịn ít, cần phải thu thập thêm để huấn luyện để chương trình ngày thơng minh - Các câu trả lời ứng dụng hội thoại cịn ngơ nghê, chưa lịch cần phải chỉnh lại câu trả lời để chương trình trả lời mượt mà - Hội thoại tìm quy định dựa ý định (intents) để đưa cho người dùng - Thuật tốn để huấn lun mơ hình neural network chưa tối ưu, cần thêm trình thử nghiệm chỉnh sửa để đạt thông số cho hiệu tốt - Phần mềm cho người dùng nhập vào cịn thơ sơ, chưa chỉnh chu, chưa hỗ trợ cho thiết bị smart phone Định hướng cải tiến ứng dụng hội thoại Để ứng dụng hội thoại trị chuyện gần giống với người, để trả lời hầu hết vấn đề lĩnh vực xuất nhập cịn nhiều việc phải cải tiến như: - Tiếp tục nghiên cứu đào sâu vào deep learning để phát triển mơ hình đạt hiệu ngày tốt để cải tiến mơ hình neural network, nhằm tăng tốc thời gian tính tốn cho kết xác - Tìm kiếm thu thập nhiều liệu thực tế để điều chỉnh mơ hình cho thích hợp với trường hợp phát sinh thực tế - Tìm hiểu nhu cầu thực tế, tham khảo ý kiến chuyên gia để điều chỉnh lại câu trả lời tập liệu cho người dùng cho phù hợp - Phát triển giao diện phía người dùng dễ nhìn hơn, hiểu thuật ngữ viết tắt, sai tả Phát triển ứng dụng cho phép người dùng sử dụng smart phone để trò chuyện 47 CƠNG NGHỆ SỬ DỤNG Python: ngơn ngữ lập trình thơng dịch, thiết kế trọng vào tính dễ đọc đoạn mã cho phép lập trình viên diễn tả khái niệm với vài dòng lệnh Python sử dụng hệ thống kiểu động (dynamic type system), chế cấp phát nhớ tự động hỗ trợ nhiều mơ hình lập trình lâp trình hướng đối tượng, lập trình hàm lập trình thủ tục Chúng tối sử dụng Python phiên 3.6 làm ngơn ngữ lập trình ngồi ưu điểm trên, Python cịn ngơn ngữ nhiều framework học sâu hỗ trợ (Tensorflow, Keras, ) Javascript: ngơn ngữ lập trình cấp cao, có hệ thống kiểu động ngôn ngữ thông dịch Javascript ngôn ngữ phổ biến công nghệ để xây dựng nội dung web Hầu hết trang web dùng Javascript, tất trình duyệt đại hỗ trợ Javascript Javascript hỗ trợ nhiều mơ hình lập trình lập trình hướng đối tượng, lập trình hàm lập trình thủ tục Cùng với HTML CSS, Javascript phần thiếu lập trình web nội dung internet Javascript ngôn ngữ mà chọn để xây dựng trang web với HTML CSS Tất trang web mà tơi viết có sử dụng Javascript thư viện viết Javascript jQuery, Ajax, eChart, TensorFlow: thư viện mã nguồn mở dùng cho việc tính tốn số học sử dụng mơ hình đồ thị luồng liệu (data flow graphs) Các node đồ thị biểu thị cho phép tính toán, cạnh đồ thị biểu diễn mảng đa chiều chứa liệu (còn gọi tensor) truyền qua cạnh Kiến trúc đặc biệt giúp cho việc triển khai tác vụ tính tốn cách linh hoạt hay nhiều CPU GPU máy tính cá nhân, hệ thống máy chủ hay thiết bị di động mà không cần viết lại mã nguồn TensorFlow hỗ trợ mạnh việc xây dựng sử dụng mô hình học máy học sâu Tơi sử dụng TensorFlow phiên 1.12 (thông qua API cấp cao Keras) để xây dựng mơ hình thực huấn luyện liệu Keras: thư viện mã nguồn mở dùng cho Deep Learning, chạy Theano Tensorflow Keras thiết kế để hỗ trợ thực mơ hình Deep Learning nhanh phục vụ cho nghiên cứu phát triển ứng dụng Keras trọng vào ý tưởng mơ hình Kiểu mơ hình gọi Sequence - ngăn xếp (stack) tầng (layer) 48 TÀI LIỆU THAM KHẢO [1] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov "Dropout: A Simple Way to Prevent Neural Networks from Overfitting Journal of Machine Learning", 2014 [2] Wojciech Zaremba, “Recurrent Neural Networks Regularization”, 2015 [3] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean "Efficient estimation of word representations in vector space" ICLR Workshop, 2013 [4] A Conneau, H Schwenk, L Barrault, and Y LeCun, “Very deep convolutional networks for natural language processing”, 2016 [5] Sergey Ioffe and Christian Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate", 2015 [6] S Hochreiter and J Schmidhuber "Long short-term memory Neural Comput", 1997 [7] Juan Ramos, “Using tf-idf to determine word relevance in document queries”, 2003 [8] Andreas Stolcke, “Dialogue Act Modeling for Automatic Tagging and Recognition of Conversational Speech”, 2000 [9] Minghui Qiu, “AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine”, 2017 [10] C Du, “Text Classification Research with Attention-based Recurrent Neural Networks", 2018 [11] Thai-Hoang Pham, “The Importance of Automatic Syntactic Features in Vietnamese Named Entity Recognition”, 2017 [12] website: https://radimrehurek.com/gensim/models/word2vec.html [13] website: https://pypi.org/project/underthesea/ [14] website: http://viet.jnlp.org [15] Alan M Turing “Computing machinery and intelligence”,1950 [16] Jurgen Schmidhuber “Deep learning in neural networks: An overview Neural Networks”, 2015 49 [17] Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau, “Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models”, 2016 [18] Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Margaret Mitchell, Jian-Yun Nie, Jianfeng Gao, Bill Dolan, “A Neural Network Approach to Context-SensitiveGeneration of Conversational Responses”, 2015 50 ... tốn xây dựng hội thoại thơng minh tư vấn lĩnh vực xuất nhập 1.1 Hệ thống hội thoại thông minh Các hệ thống hội thoại thơng minh (Dialogue systems), cịn gọi trợ lý tư? ?ng tác hội thoại, trợ lý... cam đoan rằng, luận văn "Phát triển ứng dụng hội thoại thông minh tư vấn lĩnh vực xuât nhập khẩu" cơng trình nghiên cứu tơi hướng dẫn thầy PGS.TS Quản Thành Thơ, xuất phát từ nhu cầu thực tiễn... 3: Mơ hình hội thoại đề xuất; Xây dựng mơ hình hội tư vấn lĩnh vực xuất nhập khẩu, giải thích cách xây dựng cách hoạt động mơ hình nơ-ron để tích hợp thành ứng dụng hội thoại thơng minh CHƯƠNG