Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
476,22 KB
Nội dung
TẠP CHÍ KHOA HỌC TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH HO CHI MINH CITY UNIVERSITY OF EDUCATION JOURNAL OF SCIENCE Tập 18, Số (2021): 1146-1160 ISSN: 2734-9918 Vol 18, No (2021): 1146-1160 Website: http://journal.hcmue.edu.vn Bài báo nghiên cứu* NGHIÊN CỨU MƠ HÌNH HỆ THỐNG HỖ TRỢ TƯ VẤN CÔNG TÁC HỌC VỤ TRONG CƠ SỞ GIÁO DỤC ĐẠI HỌC Phạm Nguyễn Huy Phương*, Vũ Thanh Nguyên, Nguyễn Thị Diệu Hiền, Bùi Công Danh Trường Đại học Cơng nghiệp Thực phẩm Thành phố Hồ Chí Minh, Việt Nam * Tác giả liên hệ: Bùi Công Danh – Email: danhbc@hufi.edu.vn Ngày nhận bài: 15-3-2021; ngày nhận sửa: 17-5-2021; ngày duyệt đăng: 14-6-2021 TÓM TẮT Chatbot hệ thống giao tiếp tương tác với người phương pháp học máy, thực trò chuyện thông qua giao diện dạng tin nhắn âm Trong thời kì chuyển đổi số ngày tạo điều kiện để chatbot tăng tốc nhanh chóng tạo hệ thống nhiều loại bot tương tự hệ sinh thái ứng dụng việc chăm sóc khách hàng cung cấp thơng tin sản phẩm, đưa thơng tin gợi ý; quản lí hàng tồn, xếp lịch, tra cứu liệu y tế, chăm sóc sức khỏe Trong báo này, chúng tơi nghiên cứu xây dựng hệ thống chatbot có khả hỗ trợ tư vấn thông tin học vụ cho sinh viên cách tiếp cận kết hợp kĩ thuật gom cụm KNN, mạng nơron, mơ hình túi từ phương pháp thống kê TF-IDF Bằng cách kết hợp kĩ thuật máy học gom cụm, chúng tơi xây dựng mơ hình tính toán với hệ thống tương tự chatbot để hiểu trả lời câu hỏi thông tin học vụ Từ khóa: Chatbot; thuật tốn KNN, ngơn ngữ tự nhiên; mạng nơron Giới thiệu 1.1 Khái niệm Chatbot hệ thống trao đổi thông tin người máy theo quy chuẩn định, thông tin trao đổi chatbot ngơn ngữ nói, ngơn ngữ viết kí hiệu Chatbot giúp cho người sử dụng tiết kiệm thời gian, tiết kiệm chi phí việc ứng dụng vào hệ thống chăm sóc khách hàng, hay nâng cao suất lao động hay chí chăm sóc đời sống người Hệ thống chatbot phân chia thành loại sau: • Chatbot người với người; • Chatbot máy tính với máy tính; • Chatbot người máy tính Cite this article as: Pham Nguyen Huy Phuong, Vu Thanh Nguyen, Nguyen Thi Dieu Hien, & Bui Cong Danh (2021) A model of a consulting assistance system for academic service in higher education Ho Chi Minh City University of Education Journal of Science, 18(6), 1146-1160 1146 Phạm Nguyễn Huy Phương tgk Tạp chí Khoa học Trường ĐHSP TPHCM Như biết, mạng xã hội lớn giới Facebook giới thiệu tảng trao đổi tin nhắn vào năm 2016, với nhiều ưu điểm vượt trội tảng thân thiện hơn, liên kết nhiều hệ thống cho phép tạo riêng cho hệ thống chatbot Theo nghiên cứu gần đây, Trung Quốc, WeChat đơn vị tiên phong lĩnh vực giới thiệu hệ thống chatbot Xiaoice – Chatbot hoàn thiện từ năm 2013 ứng dụng hiệu nhiều lĩnh vực đời sống Có thể nói, Chatbot thời kì chuyển đổi số ngày không dựa kịch xếp trước mà phát triển dựa tảng trí thơng minh nhân tạo máy học, chúng có khả tự học tự phát triển cho phù hợp với thực tế Nhiều nhà phân tích dự báo công ti công nghệ hàng đầu Alphabet, Microsoft, IBM… đưa dự đoán Chatbot thống trị lĩnh vực dịch vụ khách hàng thời đại ngày đặc biệt thời kì khủng hoảng dịch bệnh Covid-19 Ví như, theo (Pham, 2012) cho biết hệ thống chatbot hình thành đời từ cách lâu Cụ thể, vào năm 1950, ý tưởng Turing đưa thiết bị thông minh thay người thực nhu cầu trao đổi thông tin, từ giúp hình thành tảng cho cách mạng hệ thống chatbot Tiếp theo đó, Eliza chương trình chatbot phát triển năm 1966 với mong muốn tạo để trở thành nhà trị liệu tự động trả lời câu hỏi đơn giản với cấu trúc câu xác định Hơn nữa, cơng trình nhóm tác giả (Nguyen, & Truong, 2015) giới thiệu phương pháp hỗ trợ công tác tư vấn tuyển sinh cách sử dụng kĩ thuật học máy SVM kết hợp với hệ thống tin nhắn văn Ứng dụng nhóm tác giả mang lại hiệu công tác tư vấn tiết kiệm nhân lực, thời gian hệ thống trả lời tự động, nhiên, cơng trình cịn nhiều hạn chế chưa thu thập nguồn câu hỏi hệ thống khác Gần đây, nhóm tác giả (Do, & Hoang, 2019) giới thiệu cơng trình xây dựng hệ thống chatbot hỗ trợ sinh viên ngành công nghệ thông tin việc tiếp cận xu hướng công nghệ lĩnh vực chuyên ngành, kĩ nghề nghiệp phương pháp học tập bậc đại học Trong cơng trình này, nhóm tác giả sử dụng kết hợp nhiều phương pháp k-láng giềng, mạng nơ ron, rừng ngẫu nhiên máy véc tơ hỗ trợ để huấn luyện, phân lớp văn bản, tách từ, tìm câu trả lời phù hợp từ việc đặt câu hỏi giọng nói sinh viên thơng qua hệ thống chatbot, kết thực nghiệm cơng trình cho kết độ xác cao 1.2 Hệ thống chatbot Kiến trúc hệ thống chatbot bao gồm thành phần sau: • Cơ sở liệu, • Lớp ứng dụng, • Quyền truy cập vào API giao diện đồ họa người dùng 1147 Tập 18, Số (2021): 1146-1160 Tạp chí Khoa học Trường ĐHSP TPHCM Cơ sở liệu: Là nơi lưu trữ loại thông tin, liệu nội dung Tầng ứng dụng: Các giao thức tầng dùng để trao đổi thông tin chương trình chạy máy nguồn máy đích Tầng có vai trị nơi xử lí yêu cẩu loại ứng dụng khác Giao diện lập trình ứng dụng: giao diện mà hệ thống máy tính cho phép dịch vụ tạo từ chương trình khác Hình Mơ hình Chatbot (Trương, & Ngo, 2014) 1.3 Phân loại Chatbot kịch (Scripted chatbot): chatbot có hành vi xác định tiêu chuẩn, quy luật, trình tự Tại bước trị chuyện, người dùng thiết kế trình tự định theo nhu cầu sử dụng ngữ cảnh khác Chatbot thông minh (Intelligent Chatbot): chatbot xây dựng dựa tảng kĩ thuật máy học Chúng cho phép người dùng cải thiện linh hoạt đầu vào thu nhận đầu vào tự hình thức sau: văn bản, giọng nói khơng giới hạn dạng đầu vào khác có ý nghĩa Một số ứng dụng triển khai chatbot Subot: Subot hay gọi trợ lí ảo Subiz, ứng dụng Subiz giúp tự động hóa kết nối Trả lời Hỏi thơng tin khách hàng Từ đó, doanh nghiệp tăng tương tác với khách hàng 24/7 mà không bị phụ thuộc vào người, chuyển đổi khách hàng tiềm việc xin thông tin xác định yêu cầu cụ thể Bạn (Agents) xây dựng kịch có sẵn cho Subot hoạt động như: Tự động trả lời khách hàng; Hiển thị nhắn tin; Hỏi thơng tin liên hệ khách hàng Ngồi hỗ trợ Android Wear, cịn có ứng dụng Assistant cho iOS dịng loa thơng minh Google Home sở hữu Google Assistant Simsimi: Simsimi ứng dụng chat tự động thú vị di động Được vào năm 2002, ISMaker – phát triển phần mềm Hàn Quốc đưa ý tưởng đơn giản mạnh mẽ Họ muốn tạo ứng dụng có khả đưa tin theo dạng chatbot đóng góp cộng đồng Vì vậy, Simsimi đời với giao diện gà màu vàng thân thiện Người dùng trị chuyện hỏi ứng dụng Simsimi câu hỏi thơng qua sở liệu để đáp lại cách ngẫu nhiên Ý tưởng ban đầu 1148 Phạm Nguyễn Huy Phương tgk Tạp chí Khoa học Trường ĐHSP TPHCM nhà phát triển mang đến tiếng cười niềm vui có người sử dụng Simsimi, điều nêu viết blog tác giả, thời gian sau ứng dụng phát triển nhanh chóng trở nên phổ biến rộng rãi với hàng triệu người dùng quốc gia Hàn Quốc, Thái Lan Ấn Độ Miki: loại chatbot tảng Facebook Chatbot hỗ trợ nhiều tính chủ yếu loại lĩnh vực giải trí, tra cứu học tập Ứng dụng Miki có ưu điểm giúp người sử dụng khơng cần phải cài đặt thêm ứng dụng nào, cần bật Messenger trao đổi thơng tin với chatbot sử dụng việc tra từ điển Anh Việt, tra câu song ngữ Anh Việt dịch đoạn văn ngắn 1.4 Đề xuất giải pháp chatbot trả lời tư vấn học vụ Có thể nói, chatbot trở thành tượng việc đẩy mạnh chuyển đổi số tất ngành nghề, doanh nghiệp xã hội Việc sử dụng chatbot lĩnh vực tiếp thị, quảng cáo doanh nghiệp dễ dàng tiết kiệm chi phí Bên cạnh đó, người dùng cảm thấy hứng thú khơng cịn cảm giác phải bắt buộc tương tác với quảng cáo Phù hợp với đa số người dùng nhiều lĩnh vực, trước đây, chatbot chủ yếu ngành nghề bán lẻ, nhà hàng, bất động sản lĩnh vực cung cấp dịch vụ, hạ tầng, giáo dục, du lịch, chăm sóc sức khỏe sử dụng chatbot Không dừng lại việc đáp ứng cho doanh nghiệp lớn với lượng liệu ngày tăng, chatbot cịn phù hợp cho mơ hình doanh nghiệp linh hoạt, dễ điều chỉnh theo nhu cầu Sử dụng chatbot nhằm tiếp cận người dùng 24/7, đưa phương án nhanh chóng, độ xác cao, giảm thiểu nhân công lĩnh vực tư vấn, hỗ trợ khách hàng Từ đó, chatbot cơng cụ hỗ trợ thúc đẩy doanh số, nâng cao hoạt động chăm sóc khách hàng, phát triển thương hiệu tốt cho doanh nghiệp kỉ nguyên Trong bài báo này, chúng tơi trình bày hệ thống chatbot hỗ trợ công tác tư vấn học vụ sở giáo dục đại học cách kết hợp xử lí ngơn ngữ tự nhiên số thuật tốn BOW, TF-IDF, ANN, KNN vào hệ thống để phục vụ nhu cầu tìm kiếm thơng tin cách trực quan cho sinh viên, giảng viên phận có liên quan Kết thực nghiệm triển khai thực tế cho sinh viên Trường Đại học Công nghiệp Thực phẩm Thành phố Hồ Chí Minh cho kết tốt so với phương pháp tiếp cận trước Vật liệu phương pháp nghiên cứu 2.1 Mơ hình túi từ Trong thực tế ứng dụng, với văn vector đặc trưng có dạng nào, đưa loại văn khác dạng vector cho phù hợp theo nhiều phương pháp nghiên cứu trước sử dụng mơ hình túi từ phù hợp với vấn đề nêu Mơ hình túi từ biểu diễn đơn giản sử dụng xử lí ngơn ngữ tự nhiên tìm kiếm thơng tin Trong mơ hình này, văn biểu diễn túi từ nó, khơng quan tâm đến ngữ pháp chí thứ tự Ví dụ, cho hai đoạn văn “ngành học A có điểm chuẩn cao ngành học B” “ngành học B có điểm chuẩn cao 1149 Tập 18, Số (2021): 1146-1160 Tạp chí Khoa học Trường ĐHSP TPHCM ngành học A” biểu diễn giống ngữ cảnh mơ hình túi từ Theo nhóm tác giả (Do, & Tran, 2014) cho biết mơ hình túi từ mơ hình phổ biến cho biểu diễn liệu hình thức văn Q trình trích xuất đặc trưng văn bao gồm tách từ đếm số lần xuất từ văn Như vậy, mơ hình túi từ mơ hình biểu diễn văn vector tần số xuất từ văn bản, sử dụng phổ biến vấn đề phân lớp văn thuộc lĩnh vực khoa học máy tính Trong đó, từ điển tạo thành từ tập tất từ tập liệu Mỗi tài liệu (có thể câu, đoạn văn bản) tập liệu biểu diễn dạng vector đặc trưng, vector có số chiều với số từ có từ điển Ví dụ, tập liệu có n từ vector tài liệu tập liệu có n chiều, từ khác văn đặc trưng tần số xuất văn giá trị đặc trưng tương ứng trí thành phần vector tần số xuất từ tài liệu Cũng theo nghiên cứu nhóm tác giả (Do, & Pham, 2013) cơng bố mơ hình túi từ, liệu văn khơng có cấu trúcđược biểu diễn dạng véc tơ tần số xuất từ văn bản, tập từ vựng tập liệu lên đến hàng chục ngàn, tập liệu văn chuyển dạng bảng có số cột (chiều, từ vựng) lớn Bên cạnh đó, cơng trình nghiên cứu (Do, & Tran, 2014) cho biết nhược điểm mơ hình túi từ nằm chỗ khơng xác định đến đồng nghĩa từ, điều dẫn đến làm giảm hiệu dự đoán lớp dương hay lớp quan tâm giải thuật k láng giềng phân lớp văn cho kết với độ xác khơng cao Nghiên cứu hai tác giả (Do, & Pham, 2013) đề xuất phân loại văn mơ hình túi từ mơ hình máy học tự động dựa kết hợp phương pháp biểu diễn văn mơ hình túi từ giải thuật xây dựng tập hợp mơ hình học tự động Bayes thơ ngây ngẫu nhiên (random multinomial naive Bayes (rMNB)), xiên phân ngẫu nhiên đơn giản (random oblique decision stump (rODS) Các giải thuật boosting đề xuất dựa mơ ngẫu nhiên xiên phân đơn giản, Bayes thơ ngây ngẫu nhiên, cho phép phân lớp hiệu tập liệu Kết thực nghiệm với tập liệu thực cho thấy phương pháp đề xuất phân lớp hiệu so sánh với giải thuật có, đạt xác 94,8%” Hơn nữa, theo nghiên cứu tác giả (Do, & Tran, 2014) công bố phương pháp kết hợp ngữ nghĩa với mơ hình túi từ để cải tiến giải thuật k láng giềng phân lớp văn ngắn Trong báo này, nhóm tác giả giới thiệu tiếp cận tích hợp ngữ nghĩa với mơ hình túi từ nhằm cải tiến hiệu dự đoán lớp dương giải thuật k láng giềng phân lớp văn ngắn Kết thực nghiệm với tập liệu thực cho thấy phương pháp nhóm tác giả đề xuất cải thiện dự đoán lớp dương 8% giảm chưa đến 1% dự đoán lớp âm giải thuật k-láng giềng phân lớp văn có độ dài ngắn Ví dụ sau minh hoạ cách hoạt động mơ hình túi từ với tập liệu văn sau: 1150 Phạm Nguyễn Huy Phương tgk Tạp chí Khoa học Trường ĐHSP TPHCM Bảng Ví dụ tập liệu văn STT Nội dung Điểm chuẩn ngành dược Chỉ tiêu ngành dược Điểm trúng tuyển ngành Xét tuyển theo học bạ Tài liệu Tài liệu Tài liệu Tài liệu Từ tập liệu Bảng 1, thu từ điển gồm {điểm, chuẩn, ngành, dược, chỉ, tiêu, trúng, tuyển, các, xét, theo, học, bạ} Từ điển gồm có 13 từ, nên tài liệu sau véc tơ hóa có 13 chiều Tần số xuất từ thể Bảng Bảng Biểu diễn tập liệu mơ hình túi từ STT điểm Tài liệu 1 1 0 0 0 0 Tài liệu 0 1 1 0 0 0 Tài liệu Tài liệu 1 0 1 0 0 0 0 0 1 1 chuẩn dược ngành tiêu trúng tuyển xét theo học bạ Ta có vector từ tài liệu bảng sau: • Vector tài liệu 1: (1,1,1,1,0,0,0,0,0,0,0,0,0) • Vector tài liệu 2: (0,0,1,1,1,1,0,0,0,0,0,0,0) • Vector tài liệu 3: (1,0,1,0,0,0,1,1,1,0,0,0,0) • Vector tài liệu 4: (0,0,0,0,0,0,0,1,0,1,1,1,1) 2.2 Kĩ thuật TF-IDF Khái niệm Term Frequency-Inverse Document Frequency, viết tắt TF-IDF, thu thông qua thống kê mức độ quan trọng từ văn bản, mà văn xét nằm tập hợp nhiều văn xem xét Giá trị TF-IDF tăng tương ứng với số lần từ xuất tài liệu, thường bù đắp tần số từ kho văn bản, giúp điều chỉnh thực tế số từ xuất thường xuyên nói chung Giá trị TF-IDF từ t văn d tập văn D là: Tfidf(t, d, D) = tf(t,d) * idf(t, D) với: - df(d, t): số lượng văn tập D có chứa từ t Các từ có giá trị TF-IDF cao từ xuất nhiều lần văn xuất văn khác, việc giúp lọc từ phổ biến giữ lại từ có giá trị cao, nghĩa từ khóa văn 1151 Tập 18, Số (2021): 1146-1160 Tạp chí Khoa học Trường ĐHSP TPHCM 2.3 Neural network Neural mơ hình tốn học mơ nơron hệ thống thần kinh người Mơ hình biểu cho số chức nơron thần kinh người mơ tả Hình Hình Mơ hình dây thần kinh nơron Tính chất truyền thơng tin neuron, neuron nhận tín hiệu đầu vào từ dendrite, tín hiệu vượt qua ngưỡng tín hiệu truyền sang neuron khác theo sợi trục Neural model toán học mô tương tự Công thức tính output Y sau: y=a (w1x1 + w2x2 + w3x3 − θ) (1) với: y: tín hiệu output x1, x2, x3: tín hiệu input w1, w2, w3: weight θ: ngưỡng threshold a: activation function Thực tế threshold phạm vi tốn học mang dấu (+) (-), dựa công thức (1) đưa vào công thức bias: bias = b = - θ Suy công thức sau: y=a (w1x1 + w2x2 + w3x3+ b) (2) với: b: bias Một mạng nơ-ron tập hợp nút nối với nhau, mô mạng nơ-ron thần kinh não người Mạng nơ-ron nhân tạo thể thông qua ba thành phần bản: mô hình nơ ron, cấu trúc liên kết nơ ron Trong nhiều trường hợp, mạng nơ-ron nhân tạo hệ thống thích ứng, tự thay đổi cấu trúc dựa thơng tin bên hay bên chạy qua mạng trình học Hình Mạng nơron thần kinh 1152 Phạm Nguyễn Huy Phương tgk Tạp chí Khoa học Trường ĐHSP TPHCM Kiến trúc chung ANN gồm thành phần Input Layer, Hidden Layer Output Layer Một số cách thức thực thuật toán học: Học tham số, học cấu trúc Hai vấn đề thực đồng thời tách biệt Nếu mơ hình, hàm chi phí thuật tốn học lựa chọn cách thích hợp mạng ANN cho kết vơ mạnh mẽ hiệu Hình Các thành phần ANN Inputs (Đầu vào): Mỗi Input tương ứng với đặc trưng liệu Ví dụ ứng dụng ngân hàng xem xét có chấp nhận cho khách hàng vay tiền hay khơng input thuộc tính khách hàng thu nhập, nghề nghiệp, tuổi, số Output (Đầu ra): Kết ANN giải pháp cho vấn đề, ví dụ với tốn xem xét chấp nhận cho khách hàng vay tiền hay khơng output yes/đồng ý no/không đồng ý Connection Weights (Trọng số liên kết): Đây thành phần quan trọng ANN, thể mức độ quan trọng, độ mạnh liệu đầu vào trình xử lí thơng tin chuyển đổi liệu từ layer sang layer khác Quá trình học ANN thực trình điều chỉnh trọng số Weight liệu đầu vào để có kết mong muốn Summation Function (Hàm tổng): Tính tổng trọng số tất input đưa vào nơ-ron Hàm tổng nơ-ron n input tính theo cơng thức sau: 𝑛 𝑌 = ∑ 𝑋𝑖 𝑊𝑖 𝑖=1 Transfer Function (Hàm chuyển đổi): Hàm tổng nơ-ron cho biết khả kích hoạt nơ-ron cịn gọi kích hoạt bên Các nơ-ron sinh output khơng mạng ANN, nói cách khác output nơ-ron chuyển đến layer mạng nơ-ron không Mối quan hệ hàm tổng kết output thể hàm chuyển đổi 2.4 Thuật toán KNN cho chatbot Một phương pháp máy học thường sử dụng để phân lớp tìm kiếm văn k láng giềng 1153 Tập 18, Số (2021): 1146-1160 Tạp chí Khoa học Trường ĐHSP TPHCM Giải thuật k-láng giềng (KNN – K Nearest Neighbors) Fix Hodges đề xuất từ năm 1952 Đây phương pháp đơn giản cho hiệu cao khai mỏ liệu Giải thuật k láng giềng phương pháp đánh giá hiệu phân lớp mô tả chi tiết tài liệu Phương pháp k-láng giềng (tên khác instance-based, lazy) đơn giản, dễ hiểu thường cho kết tốt so với phương pháp học khác Giải thuật k láng giềng khơng có q trình học, dự đốn lớp (nhãn) phần tử liệu đến, giải thuật tìm k láng giềng từ tập liệu học, sau thực việc phân lớp phần tử đến Quá trình phân lớp k láng giềng nhiều thời gian Giải thuật ứng dụng thành công hầu hết lĩnh vực tìm kiếm thơng tin, nhận dạng, phân tích liệu, hồi quy (Do, 2017) KNN phương pháp để phân lớp đối tượng dựa vào khoảng cách gần đối tượng cần lớp tất đối tượng tập liệu Do trình tìm kiếm k phần tử lân cận cho phần tử mới, sau phân loại dựa luật bình chọn số đơng (hồi quy dựa giá trị trung bình), độ phức tạp trình phân loại lớn kết phụ thuộc vào việc lựa chọn khoảng cách sử dụng Mục tiêu máy – hệ thống tìm kiếm thơng tin trả cho người dùng k tài liệu có độ tương đồng cao so với nhu cầu thông tin họ Thực tế người dùng thực truy vấn họ đâu k tài liệu phù hợp với nhu cầu tìm kiếm Trong trường hợp này, hệ thống tìm kiếm cố gắng trả k tài liệu có độ tương đồng cao so với truy vấn từ người dùng Trong báo áp dụng phương pháp KNN để rút trích k tài liệu có độ tương đồng cao với truy vấn người dùng Ví dụ sau minh họa cách thức hoạt động phương pháp KNN Hình Minh họa tập liệu gồm lớp Thuật toán KNN áp dụng vào báo mơ tả sau: • Bước Để thực thuật tốn nào, cần tập liệu Vì vậy, bước KNN, phải tải liệu huấn luyện kiểm tra • Bước Tiếp theo, cần chọn giá trị k tức điểm liệu gần k số ngun 1154 Phạm Nguyễn Huy Phương tgk Tạp chí Khoa học Trường ĐHSP TPHCM • Bước Đối với điểm liệu kiểm tra, làm sau: - Tính tốn khoảng cách liệu thử nghiệm hàng liệu huấn luyện với trợ giúp phương pháp cụ thể là: Khoảng cách Euclidean, Manhattan Hamming Phương pháp phổ biến sử dụng để tính khoảng cách Euclidean - Sắp xếp khoảng cách theo thứ tự tăng dần - Chọn K hàng từ mảng xếp - Chỉ định lớp cho điểm kiểm tra dựa lớp thường xuyên hàng • Bước Kết thúc Việc tính tốn khoảng cách đối tượng cần phân lớp với tất đối tượng tập liệu huấn luyện thường sử dụng với cơng thức tính khoảng cách Euclidean Cho điểm P1(x1, y1) P2(x2, y2) khoảng cách Euclidean distance tính theo cơng thức: 2.5 Đề xuất mơ hình tư vấn học vụ Hệ thống chatbot xây dựng với mục đích ban đầu đáp ứng nhu yêu cầu hệ thống tư vấn học vụ cho sinh viên Trường Đại học Công nghiệp Thực phẩm Thành phố Hồ Chí Minh sở giáo dục đại học Dựa mơ hình mạng neuron nhân tạo, mơ hình túi từ ứng dụng mơ hình học máy để xây dựng ứng dụng Chatbot hỏi-đáp Kết thực nghiệm mơ hình với tập liệu thực cho thấy phương pháp báo đề xuất hiệu Hệ thống chatbot thực nghiệm hoạt động có hiệu suất kì vọng Hệ thống chatbot với líệu huấn luyện kịch hội thoại có sẵn, xây dựng giúp chatbot lấy thông tin/câu hỏi từ phía người dùng Chatbot xác định câu trả lời giúp người dùng tiếp cận trực quan với câu hỏi muốn tìm kiếm Cơ chế hoạt động Chatbot hình Hình Sơ đồ chế hoạt động ChatBot 1155 Tập 18, Số (2021): 1146-1160 Tạp chí Khoa học Trường ĐHSP TPHCM Chú thích: (1) Người dùng có câu hỏi dạng văn cần trả lời (2) Người dùng nhập đoạn câu hỏi Chat Client (3) Chatbot gửi đoạn câu hỏi máy học (4) Sử dụng NLP trích xuất thơng tin cần thiết người dùng gửi cho Chatbot (5) Yêu cầu liệu câu trả lời từ thơng tin cần thiết xử lí (6) Dữ liệu câu trả lời trả cho Chatbot (7) Chatbot gửi liệu câu trả lời đến Chat Client (8) Chat Client hiển thị câu trả lời cho người dùng Kết thảo luận 3.1 Kết thực nghiệm 3.1.1 Dữ liệu thực nghiệm Giới thiệu liệu: Bộ liệu thu thập biên soạn tập liệu từ website sinhvien.hufi.edu.vn trường đại học công nghiệp thực phẩm bao gồm 286 câu hỏi 293 câu trả lời liên quan đến vấn đề tư vấn học vụ, tham vấn học đường, kĩ mềm, chương trình đào tạo, sức khỏe, giáo dục… 3.1.2 Môi trường thực nghiệm Để đánh giá hiệu hệ thống chatbot đề xuất, nhóm tác giả cài đặt chương trình ngơn ngữ lập trình Python Để đảm bảo tính xác chương trình, chương trình chạy thực nghiệm IDE Spyder3, Pycharm, Visual Studio Code có mơi trường anaconda3 Chương trình có sử dụng thư viện NLTK để thực bước tách từ biểu diễn câu hỏi theo mơ hình túi từ Thư viện Scikit-learn sử dụng để tạo phận lớp KNN Chương trình huấn luyện mạng nơron nhiều tầng Thí nghiệm chạy máy tính Acer Aspire với CPU Intel core i5-7200 2.5Ghz 64bit, RAM 8GB, cài đặt hệ điều hành Windows 10 - Cài đặt pycharm, spyder3, visual studio code - Môi trường Anaconda 3.1.3 Quá trình thực nghiệm Bước Xử lí liệu văn đầu vào Input: Thế học phần bắt buộc, tự chọn - Tách từ câu thành từ đơn sử dụng thuật toán BoW - Sử dụng thư viện nltk để giúp đỡ việc xử lí - Bằng thư viện nltk.wordtokennize, nltk.stem - Loại bỏ kí tự khơng cần thiết - Chuẩn hóa vector Bước Xử lí phần thuật tốn NeuralNet - Sử dụng thư viện NN để trainning xác định liệu đầu cho toán 1156 Phạm Nguyễn Huy Phương tgk Tạp chí Khoa học Trường ĐHSP TPHCM Bước Xuất output 3.1.4 Kết so sánh số liệu BoW TF-IDF Để đánh giá mơ hình BoW với KNN TF-IDF với KNN, nhóm tác giả có sử dụng số: k, Model, Distance Metric, Word Root, Accuracy để so sánh Bảng Bảng so sánh số liệu thuật toán bow tfidf [6] K Model Distance Metric Word Root Accuracy 1 1 5 5 10 10 10 10 BoW TF-IDF BoW TF-IDF BoW TF-IDF BoW TF-IDF BoW TF-IDF BoW TF-IDF Jaccard Cosine Jaccard Cosine Jaccard Cosine Jaccard Cosine Jaccard Cosine Jaccard Cosine Lem Lem Stem Stem Lem Lem Stem Stem Lem Lem Stem Stem 64,50% 69,50% 70,50% 72,00% 71,00% 76,00% 70,50% 75,00% 68,00% 77,50% 69,50% 77,00% Có thể dễ dàng nhận thấy độ xác giải thuật TF-IDF ln cao so với giải thuật BoW có số k Trong k 10 giải thuật TF-IDF có độ xác cao 77,50% có word root Lem 3.1.5 Kết so sánh số liệu ANN KNN 1157 Tập 18, Số (2021): 1146-1160 Tạp chí Khoa học Trường ĐHSP TPHCM Hình Sơ đồ mơ hình hệ thống so sánh văn tiếng Việt Hình Sơ đồ mơ hình huấn luyện phân lớp Để đánh giá mơ hình cho tốn, chúng tơi sử dụng số: Accuracy, k với k=10, hidden layer Bảng So sánh ANN KNN Các số ANN KNN Accuracy 83,22% 76,58% Bảng cho thấy thuật toán ANN hoạt động hiệu tốt hơn, có độ xác cao thuật toán KNN 3.2 Thảo luận Kết thực nghiệm cho thấy độ xác ANN hiệu so với KNN có tình mà hệ thống dùng ANN khơng thể trả lời câu hỏi có độ xác chưa cao hệ thống thơng báo lưu hệ thống chờ quản trị viên cập nhật câu trả lời cho câu hỏi Khi so sánh với thuật tốn phân loại văn khác KNN, thấy thuật tốn ANN có độ xác cao hơn, kết thực nghiệm cho kết tốt Kết vừa trình bày chưa phải kết tối ưu, hi vọng 1158 Phạm Nguyễn Huy Phương tgk Tạp chí Khoa học Trường ĐHSP TPHCM bước khởi đầu thuận lợi làm tiền đề nghiên cứu để thực chương trình trả lời tự động văn tiếng Việt tốt tương lai Kết luận Trong báo này, nhóm tác giả trình bày nội dung tư vấn công tác học vụ sở giáo dục đại học phương pháp xây dựng Chatbot website trả lời tự động cho sinh viên câu hỏi liên quan đến học vụ, vấn đề kĩ sống, môi trường, phương pháp học tập… Chatbot tư vấn học vụ tạo dựa tiếp cận sử dụng máy học kết hợp với mơ hình BOW TF-IDF tạo hệ thống hiệu giải kịp thời nhu cầu sinh viên giảng viên Hơn nữa, nhóm tác giả thu thập biên soạn tập liệu từ website Trường Đại học Công nghiệp Thực phẩm Thành phố Hồ Chí Minh bao gồm 40 liệu 286 câu hỏi 293 câu trả lời khác Kết thực nghiệm cho thấy hệ thống trả lời câu hỏi mà người dùng hỏi với độ xác cao 83,45% ❖ Tuyên bố quyền lợi: Các tác giả xác nhận hồn tồn khơng có xung đột quyền lợi ❖ Lời cảm ơn: Nhóm tác giả cảm ơn Trường Đại học Công nghiệp Thực phẩm Thành phố Hồ Chí Minh hỗ trợ thực cơng trình TÀI LIỆU THAM KHẢO Do, T N (2017) Giao trình Khai mo du lieu – minh hoa bang ngon ngu R [Data Mining - Illustrated in R language (Textbook)] Can Tho University Publishing House Do, T N., & Pham, N K (2013) Phan loai van ban: Mo hinh tui tu va tap hop mo hinh may hoc tu dong [Text classification: a bag of word model and set of automatic machine learning models] Can Tho Univerisy Journal of Science, 28(2), 9-15 Do, T N., & Tran, C D (2014) Ket hop ngu nghia voi mo hinh tui tu de cai tien thuat giai K lang gieng phan lop du lieu ngan [Combining semantic method with bag of word model to improve the K-neighbor algorithm in classifying short data] Can Tho Univerisy Journal of Science, 32(1), 66-73 Do, T N., & Hoang, T (2019) Chatbot cho sinh vien cong nghe thong tin [Chatbot for information technology students] Proceedings of conference on Fundamental and Applied IT research, Publishing House for Science and Technology doi: 10.15625/vap.2019.00012 Nguyen, T N., & Truong, Q D (2015) He thong ho tro tuyen sinh dai hoc [A consultancy support system for university entrance test] Can Tho Univerisy Journal of Science, CNTT (2015), 152-159 Pham, C V (2012) Ung dung khai pha du lieu de tu van hoc tap tai truong cao dang kinh te – ki thuat quang nam [Apply data mining to support academic consulting at Quang Nam College Economics and Technology] Master’s Thesis in Computer Science of The University of Danang, 1-25 1159 Tập 18, Số (2021): 1146-1160 Tạp chí Khoa học Trường ĐHSP TPHCM A MODEL OF A CONSULTING ASSISTANCE SYSTEM FOR ACADEMIC SERVICE IN HIGHER EDUCATION Pham Nguyen Huy Phuong*, Vu Thanh Nguyen, Nguyen Thi Dieu Hien, Bui Cong Danh Ho Chi Minh City University of Food Industry, Vietnam Corresponding author: Bui Cong Danh – Email: danhbc@hufi.edu.vn Received: March 15, 2021; Revised: May 17, 2021; Accepted: June 14, 2021 * ABSTRACT A chatbot is a computer program or an artificial intelligence software that can interact with users in natural language, automatically simulate a conversation via an interface in the form of a message or sound In the era of digital transformation, it has created conditions for chatbots to accelerate quickly and create a system of many types of bots similar to the ecosystem in customer care such as providing product information, offering suggestions, inventory management, scheduling, and medical data lookup and healthcare In this article, we built a chatbot system capable of supporting academic counsulting for students by combining clustering method KNN, neural networks, bag-of-words model, and statistical measure TF-IDF By combining machine learning and clustering techniques, we built a computational model with a chatbot system to understand and respond to questions related to academic affairs Keywords: chatbot; KNN; Natural Language; Neural Networks 1160 ... hình tư vấn học vụ Hệ thống chatbot xây dựng với mục đích ban đầu đáp ứng nhu yêu cầu hệ thống tư vấn học vụ cho sinh viên Trường Đại học Cơng nghiệp Thực phẩm Thành phố Hồ Chí Minh sở giáo dục. .. dung tư vấn cơng tác học vụ sở giáo dục đại học phương pháp xây dựng Chatbot website trả lời tự động cho sinh viên câu hỏi liên quan đến học vụ, vấn đề kĩ sống, môi trường, phương pháp học tập…... thiệu cơng trình xây dựng hệ thống chatbot hỗ trợ sinh viên ngành công nghệ thông tin việc tiếp cận xu hướng công nghệ lĩnh vực chuyên ngành, kĩ nghề nghiệp phương pháp học tập bậc đại học Trong cơng