1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng thuật toán học có giám sát multi-class svm trong xây dựng hệ thống chatbot hỏi đáp tiếng việt

8 19 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Bài viết này trình bày phương pháp phân loại câu hỏi tiếng Việt trong miền dữ liệu đóng, dựa trên thuật toán học có giám sát Multi-Class SVM và ứng dụng mô hình học máy này để xây dựng ứng dụng chatbot hỏi-đáp.

Nguyễn Thành Thủy 177 Ứng dụng thuật tốn học có giám sát multi-class svm xây dựng hệ thống chatbot hỏi đáp tiếng việt Nguyễn Thành Thủy Trường Đại học Kinh tế, Đại học Đà Nẵng thuynt@due.edu.vn Tóm tắt Việc xác định ý định người dùng đóng vai trị quan trọng thiết kế hệ thống chatbot, định đến câu trả lời hay hành vi bot Trong nghiên cứu này, đề xuất giải pháp ứng dụng thuật tốn học có giám sát Multi-Class SVM (Support Vector Machine) để xây dựng hệ thống chatbot hỏi – đáp tiếng Việt, mơ hình học máy giúp bot hiểu giao tiếp với người thông qua đàm thoại văn Trong đó, chúng tơi sử dụng kỹ thuật túi từ BoW (Bag of Words) kết hợp với phương pháp túi từ TF-IDF (Term Frequency – Inverse Document Frequency) để xây dựng vector đặc trưng ngữ nghĩa câu văn tiếng Việt, sử dụng thuật toán Multi-Class SVM để huấn luyện tiến hành phân lớp, so sánh độ xác với thuật toán khác Bot hiểu ý định người dùng thông qua độ tương đồng ngữ nghĩa câu hỏi đầu vào với tập không gian câu hỏi – câu trả lời sử dụng bước huấn luyện Cuối cùng, ứng dụng giải pháp để cài đặt mô hệ thống chatbot, hỗ trợ trả lời tự động câu hỏi thường gặp khách hàng sử dụng dịch vụ Vietnam Airlines Từ khóa: Chatbot, Multi-class SVM, BoW, TF-IDF Giới thiệu Chatbot (Trợ lý ảo) chương trình máy tính tương tác với người dùng ngơn ngữ tự nhiên giao diện đơn giản, thông qua âm (giọng nói) văn Chatbot hình thức thơ sơ phần mềm trí tuệ nhân tạo, hoạt động độc lập, tự động trả lời câu hỏi xử lý tình thật tốt [1] Độ phức tạp toán tập trung vào câu hỏi Bot hiểu ý định (Intents) người thông qua câu hỏi đầu vào Sau hiểu ý định người hệ thống dễ dàng tương tác đề xuất câu trả lời phù hợp Có hai mơ hình Chatbot chính, (1) Mơ hình ứng dụng miền đóng (closed domain), trả lời theo mơ hình truy xuất thơng tin (retrieval-based model) Trong đó, Bot đưa câu trả lời chuẩn bị trước tuân theo mô thức định, thường sử dụng hoạt động hỗ trợ chăm sóc khách hàng trợ lý mua sắm trực tuyến (2) Mơ hình ứng dụng miền mở (open domain), người dùng thực trị chuyện với bot nơi, khơng có mục tiêu hay ý định rõ ràng, không giới hạn chủ đề [4] 178 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Hình Cơ chế hoạt động chung ChatBot Nghiên cứu hệ thống hỏi đáp tự động (Question Answering - QA) thu hút quan tâm nhà nghiên cứu, có ý nghĩa khoa học lẫn ý nghĩa thực tế Nhiều hội nghị thường niên khai phá liệu, trích chọn thơng tin dành chủ đề riêng cho nghiên cứu hệ thống hỏi đáp TREC [9], CLEF [10],… Ngồi cịn có phần mềm thương mại liên quan đến QA phát triển Yahoo Answers, Google QnA, Live QnA, Answers.com Answer Corp, Ask InterActive Corp, M Facebook,… Hiện có số nghiên cứu toán phân lớp câu hỏi, đặc biệt tiếng Anh nghiên cứu Zhiheng Huang cộng [16] Nghiên cứu Dell Zhang Wee Sun Lee [2],… Hầu hết thực nghiệm cho thấy kết phân lớp sử dụng thuật toán SVM đạt độ xác cao Trong nghiên cứu này, chúng tơi đề xuất ứng dụng phương pháp học có giám sát Multi-Class SVM phân lớp câu hỏi miền đóng, hỗ trợ xây dựng mô chatbot hỏi-đáp Chúng sử dụng mơ hình túi từ BoW kết hợp với phương pháp xác định trọng số từ TF-IDF để xây dựng vector đặc trưng ngữ nghĩa câu hỏi, sử dụng thuật toán Multi-Class SVM để huấn luyện tiến hành phân lớp Sau đó, ứng dụng phương pháp để xây dựng thực nghiệm hệ thống chatbot hỗ trợ trả lời tự động câu hỏi thường gặp khách hàng sử dụng dịch vụ hãng Hàng khơng Vietnam Airlines Bài tốn phân lớp ý định người dùng (Intents) 2.1 Phát biểu tốn Đối với miền ứng dụng đóng, giới hạn số lượng Intent nằm tập hữu hạn Intent định nghĩa sẵn Với giới hạn này, toán xác định ý định người dùng quy tốn phân lớp văn Với đầu vào câu giao tiếp người dùng, hệ thống phân lớp xác định Intent tương ứng tập Intent định nghĩa [4] Håkan Sundblad [5] đưa định nghĩa phân lớp câu hỏi sau: “Phân lớp câu hỏi nhiệm vụ gán giá trị kiểu boolean cho cặp (qj,ci) ∈ QxC, Q miền chứa câu hỏi C={c1, c2, …, c|c|} tập phân lớp cho trước.” Cặp (qj,ci) gán cho giá trị T câu hỏi qj thuộc phân lớp ci gán cho giá trị F qi không thuộc phân lớp ci Nguyễn Thành Thủy 179 Bài toán phân lớp câu hỏi phát biểu sau: Input: ─ ─ Cho trước tập câu hỏi: Q = {q1, q2,…, qn} Tập lớp định nghĩa: C = {c1, c2,…, cn} Output: ─ 2.2 Nhãn ci câu hỏi qj Giải toán theo phương pháp học máy Các kỹ thuật học máy (Machine Learning) thay kiến thức chuyên môn tập lớn câu hỏi gán nhãn (tập liệu huấn luyện), sử dụng tập này, mơ hình phân lớp huấn luyện có giám sát Một số thuật tốn thường sử dụng như: Mạng nơ-ron, Naïve Bayes, Maximum Entropy, Decision Tree, Nearest-Neighbors, SNoW, SVM, Cách tiếp cận học máy giải hạn chế cách tiếp cận dựa luật, cách tiếp cận sử dụng phổ biến để giải toán phân lớp câu hỏi GIAI ĐOẠN HUẤN LUYỆN Huấn luyện mơ hình Tập liệu Huấn luyện Tiền xử lý Trích xuất đặc trưng Mơ hình phân lớp Câu đầu vào Câu phân lớp GIAI ĐOẠN PHÂN LỚP INTENT Hình Kiến trúc hệ thống phân lớp Intent [13] Phân lớp câu hỏi theo kỹ thuật học có giám sát bao gồm giai đoạn chính: giai đoạn huấn luyện giai đoạn phân lớp (Hình 2) Bài toán phân lớp câu hỏi cho hệ thống chatbot mà hướng đến, xây dựng miền liệu đóng Dữ liệu đầu vào tập cặp (Câu hỏi, Câu trả lời) độc lập gán nhãn Intent (ý định), Intent mục tiêu người hỏi gắn với câu trả lời cụ thể Thiết kế mơ hình huấn luyện học máy 3.1 Xây dựng tập liệu huấn luyện Để xây dựng mơ hình phân lớp Intent, cần tập liệu huấn luyện bao gồm cách diễn đạt khác cho Intent Ví dụ, người dùng diễn đạt theo nhiều cách khác với mục đích hỏi, sau: ─ Giống chó khơng vận chuyển chuyến bay dạng hàng hóa? ─ Giống chó tơi khơng gửi theo đường hàng hóa chuyến bay? ─ Hàng hóa tơi có chứa động vật chó có khơng? ─ Tơi muốn gửi chó qua đường hàng hóa máy bay có không? 180 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC ─ Tơi đưa chó lên máy bay theo đường hàng hóa hay khơng? ─… Nguồn liệu thực nghiệm, thu thập từ 35 (Câu hỏi, Câu trả lời), câu hỏi thường gặp khách hàng sử dụng dịch vụ Vietnam Airlines [14], liệu tổ chức tập D={(q1,a1), (q2,a2), … (q35,a35)} Tập D tách thành hai tập tập: Câu_hỏi Câu_trả_lời, lưu hai file: Questions.csv Answers.csv, theo cú pháp: | Để làm giàu cho tập liệu huấn luyện, tiến hành bổ sung thêm 19 câu hỏi Intent, câu hỏi cách diễn đạt khác có mục đích với câu hỏi (ban đầu) tập D (để cho khách quan, người tham gia xây dựng câu hỏi đến từ nhiều vùng miền, độ tuổi khác nhau) Trong đó, câu hỏi tập D Intent tập liệu huấn liệu, tập nhãn: Intent={1, 2, , 35} Tập liệu huấn luyện thu gồm 700 cặp (Question, Intent), T={(q1.k,k), (q2.k,k),…, (q20.k,k)} (k=[1 35]) Được tổ chức file Questions_Extend.scv, theo cú pháp: | 3.2 Tiền xử lý văn tiếng Việt Làm liệu văn bản: chuẩn hóa chữ tiếng Việt khơng dấu sang có dấu, chuẩn hóa “i” “y”, lỗi sai tả, chuẩn hóa font, dấu câu, xóa từ dừng (stopwords), Tách câu thành danh sách từ tố (token): Mỗi câu tách thành danh sách từ có nghĩa Chuẩn hóa từ đồng nghĩa: đồng từ đồng nghĩa, từ địa phương, tiếng lóng từ chuẩn hóa Xác định từ loại (part of speech: từ loại): Sau câu tách thành danh sách từ Bước xác định từ loại (POS - noun, verb, pronoun, adverb ) từ câu Ví dụ, xâu: “Hàng hóa tơi có chứa động vật chó có khơng?” Sau tiền xử lý: “Hàng_hóa chứa động_vật chó” Sau tiền xử lý, văn xem tập hợp đặc trưng, tập hợp từ quan trọng lại để biểu diễn văn Việc phân loại văn dựa đặc trưng Trong khâu tiền xử lý, sử dụng thư viện mở để cài đặt: từ điển stopwords Van-Duyet Le [12]; thư viện ViTokenizer, ViPosTagger Viet-Trung Tran [15] Ngoài ra, để rút ngắn số chiều không gian đặc trưng, mô hình BoW kết hợp với thuật tốn TF.IDF (được trình bày mục 3.3) giúp loại bỏ từ lặp lại nhiều lần (những từ không quan trọng) văn Sau tiền xử lý, tập T gồm 700 cặp (Question, Intent), lưu vào tập tin Questions_Extend700.scv để đưa vào xây dựng vector đặc trưng bước 3.3 Trích xuất đặc trưng vector hóa văn Để số hóa văn bản, chúng tơi sử dụng mơ hình Bag-of-Words (BoW) để xây dựng vector đặc trưng, kết hợp thuật toán TF-IDF để xác định giá trị phần tử vector Mơ hình BoW mơ hình sử dụng phổ biến lĩnh vực phân loại văn Trong đó, văn di tập ngữ liệu xét, tập có n câu văn m từ xuất Nguyễn Thành Thủy 181 không lặp lại (theo cặp), mơ hình hóa vector trọng số đặc trưng: 𝑑⃗i = {wi1, wi2, …,wim}, wij trọng số đặc trưng thứ j (1

Ngày đăng: 17/12/2021, 08:58

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 1. Cơ chế hoạt động chung của một ChatBot. - Ứng dụng thuật toán học có giám sát multi-class svm trong xây dựng hệ thống chatbot hỏi đáp tiếng việt
Hình 1. Cơ chế hoạt động chung của một ChatBot (Trang 2)
Hình 2. Kiến trúc của hệ thống phân lớp Intent [13] - Ứng dụng thuật toán học có giám sát multi-class svm trong xây dựng hệ thống chatbot hỏi đáp tiếng việt
Hình 2. Kiến trúc của hệ thống phân lớp Intent [13] (Trang 3)
hiện khơng lặp lại (theo từng cặp), sẽ được mơ hình hĩa như là một vector trọng số của các đặc trưng:   - Ứng dụng thuật toán học có giám sát multi-class svm trong xây dựng hệ thống chatbot hỏi đáp tiếng việt
hi ện khơng lặp lại (theo từng cặp), sẽ được mơ hình hĩa như là một vector trọng số của các đặc trưng: (Trang 5)
Thực hiện vector hĩa văn bản bằng mơ hình BoW, kết hợp với thuật tốn TF-IDF để xác định trọng số, cho kết quả như sau:   - Ứng dụng thuật toán học có giám sát multi-class svm trong xây dựng hệ thống chatbot hỏi đáp tiếng việt
h ực hiện vector hĩa văn bản bằng mơ hình BoW, kết hợp với thuật tốn TF-IDF để xác định trọng số, cho kết quả như sau: (Trang 5)
Hình 6. Thực nghiệm chatbot VIETNAM-AIRLINES-Assistant trên facebook messenger - Ứng dụng thuật toán học có giám sát multi-class svm trong xây dựng hệ thống chatbot hỏi đáp tiếng việt
Hình 6. Thực nghiệm chatbot VIETNAM-AIRLINES-Assistant trên facebook messenger (Trang 7)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w