Xây dựng hệ thống trả lời tự động về tư vấn tuyển sinh sau đại học tại trường đại học công nghiệp thực phẩm thành phố hồ chí minh

ỦY BAN NHÂN DÂN THÀNH ĐỒN TP HỒ CHÍ MINH THÀNH PHỐ HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN SỞ KHOA HỌC VÀ CÔNG NGHỆ KHOA HỌC VÀ CÔNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CƠNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG VỀ TƯ VẤN TUYỂN SINH SAU ĐẠI HỌC TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TPHCM Cơ quan chủ trì nhiệm vụ: Trung tâm Phát triển Khoa học Công nghệ Trẻ Chủ nhiệm nhiệm vụ: Trần Thanh Trâm Thành phố Hồ Chí Minh - 2020 ỦY BAN NHÂN DÂN THÀNH ĐỒN TP HỒ CHÍ MINH THÀNH PHỐ HỒ CHÍ MINH SỞ KHOA HỌC VÀ CÔNG NGHỆ TRUNG TÂM PHÁT TRIỂN KHOA HỌC VÀ CÔNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CƠNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG VỀ TƯ VẤN TUYỂN SINH SAU ĐẠI HỌC TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TPHCM (Đã chỉnh sửa theo kết luận Hội đồng nghiệm thu ngày ) Chủ nhiệm nhiệm vụ: (ký tên) Chủ tịch Hội đồng nghiệm thu (Ký ghi rõ họ tên) Trần Thanh Trâm Cơ quan chủ trì nhiệm vụ Đồn Kim Thành Thành phố Hồ Chí Minh- 2020 MỤC LỤC DANH MỤC CÁC KÝ HIỆU – CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ - ĐỒ THỊ MỞ ĐẦU Chương Kiến thức tảng 1.1 Phân loại ý định người dùng 1.2 Trả lời tự động 1.3 Máy đọc hiểu văn 10 1.4 Học chuyển đổi 10 1.5 Neural network 12 1.6 Word embedding 13 Chương Xây dựng hệ thống trả lời tự động tuyển sinh Sau đại học 15 Mơ hình hoạt động hệ thống QA 15 2.1 2.1.1 Các mơ hình cho IC 16 2.1.2 Các mơ hình cho MRC 16 b Mơ hình BERT 18 Mơ hình XLM 21 c 2.2 Kiến trúc ứng dụng hệ thống trả lời tự động tuyển sinh Sau đại học 22 Chương Thử nghiệm 24 3.1 Dữ liệu thử nghiệm 24 3.1.1 Kho liệu SQuAD: 24 3.1.2 Kho liệu vi_SQuAD 1.1 25 3.1.3 Kho liệu tư vấn tuyển sinh Sau đại học HUFI-PostGrad 26 3.2 Đặc điểm kho liệu 28 3.3 Các độ đo để đánh giá kết thử nghiệm 32 3.3.1 Độ đo đánh giá cho IC 32 3.3.2 Độ đo đánh giá cho MRC 33 3.4 Kết thử nghiệm 33 3.5 Thảo luận 34 Chương Kết đạt 36 4.1 Kết khoa học đạt 36 4.2 Phương án triển khai 38 KẾT LUẬN VÀ KIẾN NGHỊ 39 TÀI LIỆU THAM KHẢO 41 DANH MỤC CÁC KÝ HIỆU – CÁC CHỮ VIẾT TẮT STT CHỮ VIẾT TẮT TỪ TIẾNG ANH Ý NGHĨA 01 intent classification Phân IC loại ý định người dùng 02 QA Question Answering 03 MRC machine Hỏi đáp tự động reading Máy đọc hiểu văn comprehension 04 CNN Convolutional neural Mạng RNN tích chập network 05 nơ-ron neural Mạng nơ-ron hồi quy Recurrent network 06 LSTM Long Short Term Mạng nhớ dài ngắn Memory networks 07 BERT Bidirectional Encoder Đại diện mã hoá Representations from chiều từ Transformers Transformers 08 SQuAD Question Bộ ngữ liệu QA Stanford Answering Dataset 09 HUFI đại học Stanford Ho Chi Minh city Đại học Công nghiệp University of Food Thực Phẩm TPHCM Industry 10 HUFI-POSTGRAD HUFI-Postgraduate Bộ ngữ liệu QA nghiệp vụ Sau đại học HUFI DANH MỤC CÁC BẢNG Bảng 3.1 Cấu trúc tập liệu dạng JSON 25 Bảng 3.3 Mô tả tập liệu cho toán IC 28 Bảng 3.4 Mô tả tập liệu cho toán MRC 31 Bảng 3.5 Thống kê tập liệu HUFI-POSTGRAD 31 Bảng 3.6 Thống kê tập vi_SquAD 1.1 32 Bảng 3.7 Kết thử nghiệm cho toán IC 33 Bảng 3.8 Kết thử nghiệm cho toán MRC với độ đo EM / F1-Score 33 Bảng 3.9 Một số ví dụ liệu Kiểm tra 34 DANH MỤC CÁC HÌNH VẼ - ĐỒ THỊ Hình 1.1 Mạng nơ-ron (Nguồn: https://cs231n.github.io/) 12 Hình 2.1 Mơ hình hoạt động hệ thống 15 Hình 2.2 Kiến trúc mơ hình BiDAF [17] 17 Hình 2.3 Mơ hình BERT sử dụng cho toán phân loại [19] 20 Hình 2.4 Mơ hình BERT sử dụng cho toán MRC [19] 21 Hình 2.5 Kiến trúc ứng dụng 22 Hình 2.6 Ví dụ đoạn hội thoại người dùng với hệ thống 23 Hình 3.1 Ví dụ cặp câu hỏi - câu trả lời đoạn văn thuộc SQuAD v1.1 theo định dạng JSON 24 Hình 3.2 Ví dụ cặp câu hỏi - câu trả lời tiếng Việt đoạn văn thuộc vi_SQuAD v1.1 theo định dạng JSON 26 Hình 3.3 Ví dụ mẫu liệu HUFI_PostGrad 27 Hình 4.1 Điểm hội nghị FAIR Danh mục Giáo sư Nhà nước ngành CNTT năm 2020 37 MỞ ĐẦU Trong thời đại thông tin nay, nhu cầu tra cứu thông tin vô cần thiết Nhằm nâng cao khả cạnh tranh, tổ chức/doanh nghiệp mong muốn thông tin cung cấp đến người dùng nhanh chóng xác Thơng tin đến người dùng nhanh, xác tổ chức/doanh nghiệp có lợi cạnh tranh Trong lĩnh vực giáo dục, đặc biệt đào tạo bậc đại học Sau đại học, hai bậc đào tạo dần trở thành dịch vụ, dịch vụ hướng tới khách hàng sinh viên/học viên trường đại học nơi cung cấp dịch vụ Trường cung cấp dịch vụ giáo dục tốt học viên học nhiều xã hội đánh giá cao Gần đây, nhu cầu học tập người có xu hướng lên việc học Sau đại học mong muốn nhiều sinh viên vừa tốt nghiệp Đại học, nhiều người làm có đại học muốn có thêm nhiều hội tiến xa cơng việc, có hội phát triển kiến thức sâu rộng cho thân, Qua thấy việc tư vấn tuyển sinh Sau đại học chọn ngành học phù hợp nhu cầu mà xã hội quan tâm Mặc dù năm, phần lớn Trường (đơn vị) tổ chức đợt tư vấn tuyển sinh Sau đại học cho thí sinh bạn sinh viên năm cuối, cử nhân, học viên chương trình đào tạo Sau đại học, nhiên việc phụ thuộc vào nhiều yếu tố địa điểm, thời gian, nhân sự, … hỗ trợ phận thí sinh thành phố thí sinh có điều kiện tham dự, đa phần thí sinh vùng sâu, vùng xa lại khơng có điều kiện tham gia Bên cạnh đó, số Trường có thiết lập trang web để nhận trả lời câu hỏi thí sinh, trang đa phần nhận câu hỏi từ thí sinh trả lời khoảng thời gian định vài vài ngày, chí vài tuần… dẫn tới tình trạng thí sinh phải chờ đợi, gây chán nản tìm tới tư vấn từ nơi khác Từ thực trạng chúng tơi nhận thấy việc cần có hệ thống trả lời tự động tư vấn tuyển sinh Sau đại học để hỗ trợ thí sinh người có nhu cầu học Sau đại học việc cần thiết Với mong muốn cung cấp thông tin tuyển sinh Sau đại học cách nhanh chóng xác, hoạt động cách liên tục tự động 24/7, đáp ứng hầu hết thắc mắc thí sinh, chúng tơi đề xuất xây dựng hệ thống trả lời tự động tư vấn tuyển sinh Sau đại học trường Đại học Công nghiệp Thực phẩm TP HCM (ĐH CNTP TPHCM), hệ thống giúp cho học viên tương tác/tiếp cận nhanh chóng với thơng tin Sau đại học Trường Thay học viên phải trực tiếp đến trường, gửi email gọi điện cho nhân viên tư vấn tuyển sinh hành chánh đây, thơng qua hệ thống phần mềm này, học viên hỏi lúc nơi đâu, hệ thống tư vấn trả lời gợi ý trả lời xác, nhanh chóng, từ đem lại hài lịng cho học viên Qua giúp nâng cao lực tuyển sinh Sau đại học Trường, góp phần nâng cao vị trí đào tạo Sau đại học trường ĐH CNTP TPHCM Hệ thống trả lời tự động ứng dụng nhiều lĩnh vực, đặc biệt lĩnh vực tiếp thị (marketing), bán hàng tự động, chăm sóc khách hàng, … Hiện có nhiều cơng cụ tạo Chatbot [1] phổ biến như: ChatFuel, Messnow, ManyChat, Chatty People, Harafunnel, Shoplus, Hana, … Các công cụ giúp người dùng dễ dàng khởi tạo Chatbot miễn phí ứng dụng Facebook Messenger số mạng xã hội khác Ở khía cạnh hẹp xét lĩnh vực giáo dục Hiện chưa có hệ thống phần mềm trả lời tự động tư vấn tuyển sinh Sau đại học Trường Đại học, hiển nhiên chưa có hệ thống Trường ĐH CNTP TPHCM Trong phần này, tơi xin mơ tả vắn tắt cơng trình liên quan đến hệ thống trả lời tự động cho lĩnh vực giáo dục Việt Nam Hệ thống xem gần với hệ thống “Hệ thống hỗ trợ tư vấn tuyển sinh đại học” Nguyễn Thái Nghe đồng [2] Hệ thống cho phép người dùng tra cứu, hỏi đáp thông tin tuyển sinh đại học thông qua tin nhắn điện thoại Nhóm tác giả xử lý số tốn lĩnh vực Xử lý ngơn ngữ tự nhiên (NLP: Natural language processing) như: phân đoạn từ, loại bỏ stop word, tìm keyword, sử dụng SVM để phân lớp câu hỏi, sử dụng TFIDF độ đo cosine cho tốn tìm độ tương đồng văn Hệ thống tư vấn có khả tiếp nhận câu hỏi thí sinh từ trang Web/Email qua tin nhắn SMS phản hồi tức lại cho thí sinh thơng qua hệ thống chun gia Như phần đề cập, tất công trình chưa đề cập đến nghiệp vụ tuyển sinh Sau đại học, dù xem nhiệm vụ quan trọng trường đại học Các kết bước đầu tương đối khả quan, nhiên, hệ thống số điểm cần cải tiến Ví dụ cơng trình [2], hệ thống sử dụng thuật toán SVM để thực phân lớp câu hỏi Dữ liệu sử dụng để huấn luyện cơng trình hạn chế dù tác giả có đề cập đến vấn đề “xây dựng tập liệu tốt cho sau này” Cơng trình chưa sử dụng hướng tiếp cận học sâu áp dụng rộng rãi Trong đề tài này, bước đầu nghiên cứu xây dựng hệ thống trả lời tự động cho nghiệp vụ tuyển sinh Sau đại học theo hướng học sâu Với hệ thống này, học viên hồn tồn tiếp cận thơng tin nghiệp vụ tuyển sinh Sau đại học mà không cần phải tốn cơng đến trường tìm hiểu, khơng cần phải trực tiếp hỏi gọi điện cho nhân viên phòng đào tạo Sau đại học hành 30 Hỏi Đăng ký đề tài, bảo vệ đề cương luận văn 28 31 Hỏi Điều chỉnh, thay đổi đề tài nghiên cứu 33 32 Hỏi Hướng dẫn luận văn 34 33 Hỏi Yêu cầu luận văn thạc sĩ 23 34 Hỏi Điều kiện bảo vệ luận văn 49 35 Hỏi Đánh giá luận văn 32 36 Hỏi Quy trình đánh giá luận văn 27 37 Hỏi Nộp luận văn hoàn chỉnh 30 38 Hỏi Thẩm định luận văn 63 39 Hỏi Thay đổi trình đào tạo 27 40 Hỏi Tốt nghiệp, cấp bảng điểm cấp 25 41 Hỏi Chế độ bảo lưu lưu trữ 35 42 Hỏi Nhiệm vụ quyền hạn trường 31 43 Hỏi Giảng viên đào tạo trình độ thạc sĩ 37 44 45 Hỏi Nhiệm vụ quyền giảng viên đào tạo trình độ thạc sĩ Hỏi Nhiệm vụ quyền học viên 30 27 26 Bảng 3.3 Mô tả tập liệu cho toán MRC Tập liệu train Mô tả data Là tập liệu huấn luyện lấy từ HUIF-POSTGRAD (transfer learning) với 1077 cặp câu hỏi - câu trả lời 45 đoạn context Được chia với tỉ lệ 80% làm tập huấn luyện (train) 20% tập xác thực (valid) train data Là tập liệu huấn luyện dịch từ tập vi_SQuAD 1.1 (Pretrain model) thông qua hệ thống Google Translate Sau loại bỏ tất đoạn văn câu trả lời dịch sai dịch thiếu, kết thu 60,000 cặp câu hỏi - câu trả lời Được chia với tỉ lệ 80% làm tập huấn luyện (train) 20% tập xác thực (valid) test data (HUFI- Tập liệu kiểm tra miền đóng (Nghiệp vụ Sau đại POSTGRAD) học) với 494 cặp câu hỏi - câu trả lời 45 đoạn context Bảng 3.4 Thống kê tập liệu HUFI-POSTGRAD 45 Tổng số context Độ dài context dài 2.434 Độ dài context ngắn 309 Độ dài trung bình context 1.141 Tổng số câu hỏi 1.571 Tổng số câu trả lời 1.571 Độ dài câu hỏi dài 116 Độ dài câu hỏi ngắn 15 Độ dài câu hỏi trung bình 52 31 Độ dài câu trả lời dài 1.250 Độ dài câu trả lời ngắn Độ dài câu trả lời trung bình 136 Bảng 3.5 Thống kê tập vi_SquAD 1.1 Độ dài context dài 1674 Độ dài context ngắn 120 Độ dài trung bình context 722 Tổng số câu hỏi 60000 Tổng số câu trả lời 60000 Độ dài câu hỏi dài 3.3 257 Độ dài câu hỏi ngắn Độ dài câu hỏi trung bình 57 Độ dài câu trả lời dài 215 Độ dài câu trả lời ngắn Độ dài câu trả lời trung bình 19 Các độ đo để đánh giá kết thử nghiệm 3.3.1 Độ đo đánh giá cho IC Đối với toán phân loại nhiều lớp, độ xác (accuracy) khơng phải độ đo đánh giá phù hợp lớp cân Chúng sử dụng độ đo khác F1-score trung bình Precise (P) Recall (R) với True Positives (TP) số lượng mà phân loại dự đoán lớp, False Positives (FP) số lượng mà phân loại dự đoán sai so với lớp thực tế False Negatives (FN) số lượng số lượng mà phân loại dự đoán sai qua lớp khác 𝐹1 = 2𝑃𝑅 2𝑇𝑃 = (3.1) 𝑃 + 𝑅 2𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 32 Macro-average F1 score (F1-Score) tính độc lập lớp tính trung bình lại theo cơng thức sau: 𝑛 𝐹1𝑀 = ∑ 𝜔𝑖 𝐹1𝑖 (3.2) 𝑖=1 3.3.2 Độ đo đánh giá cho MRC Chúng sử dụng hai độ đo tương tự [24] gồm Exact Match (EM) Macro-averaged F1 score  Exact Match (EM): tính % số dự đốn khớp hồn tồn với câu trả lời xác  Macro-averaged F1 score: tính trung bình phần dự đốn nằm câu trả lời xác Phần dự đốn câu trả lời xác thành túi từ, tính F1 chúng tính trung bình tất câu hỏi 3.4 Kết thử nghiệm Kết thử nghiệm mơ hình cho toán IC toán MRC thể Bảng 3.6 Bảng 3.7 Bảng 3.6 Kết thử nghiệm cho tốn IC STT Mơ hình F1-Score 01 BERT 0.944 02 XLM-Rbase 0.952 03 XLM-Rlarge 0.967 Bảng 3.7 Kết thử nghiệm cho toán MRC với độ đo EM / F1-Score STT Mơ hình EM/F1-Score 01 BERT 56.680 / 76.460 02 XLM-Rbase 56.073 / 78.016 03 XLM-Rlarge 62.437 / 81.202 33 3.5 Thảo luận Từ kết thực nghiệm, nhận thấy hệ thống XLM-Rlarge cho kết tốt Dựa vào liệu Kiểm tra, chúng tơi phát có nhiều trường hợp Hệ thống XLM-Rlarge cho kết tốt so với hai hệ thống cịn lại Đó minh chứng giải thích cho vượt trội Hệ thống XLM-Rlarge Vì vậy, chúng tơi sử dụng mơ hình XLM-Rlarge cho Hệ thống trả lời tự động tư vấn tuyển sinh Sau đại học Trường ĐH CNTP TPHCM Bảng 3.8 trình bày ví dụ liệu Kiểm tra, ví dụ cho kết gần cho hệ thống, ví dụ mà hệ thống XLMR_Large cho kết tốt hệ thống lại Ngữ cảnh: “Đào tạo trình độ thạc sĩ thực theo hình thức đào tạo quy Ngơn ngữ thức dùng đào tạo trình độ thạc sĩ tiếng Việt Phương thức tuyển sinh đào tạo trình độ thạc sĩ gồm: thi tuyển người Việt Nam xét tuyển người nước ngồi có nguyện vọng học thạc sĩ Việt Nam Việc tuyển sinh đào tạo trình độ thạc sĩ tổ chức tối đa lần năm Thời gian đào tạo trình độ thạc sĩ tối thiểu 01 năm tối đa 04 năm (tùy theo chương trình theo hướng ứng dụng hướng nghiên cứu) Thời gian đào tạo trình độ thạc sĩ hướng ứng dụng tối thiểu 01 năm tối đa 03 năm Thời gian đào tạo trình độ thạc sĩ hướng nghiên cứu tối thiểu 1.5 năm tối đa 04 năm.” Bảng 3.8 Một số ví dụ liệu Kiểm tra STT Câu hỏi BERT XLM-Rbase XLM-Rlarge tiếng Việt tiếng Việt tiếng Việt Đào tạo thạc sĩ theo đào tạo đào tạo đào tạo hình thức nào? quy quy Đào tạo thạc sĩ ngơn ngữ gì? quy Tuyển sinh thạc sĩ lần tối đa lần tối đa lần lần? năm năm 34 năm Thời gian học thạc sĩ tối thiểu tối thiểu 01 tối thiểu 01 năm bao lâu? 01 năm năm tối đa tối đa 04 04 năm năm Thời gian học thạc sĩ tối thiểu tối thiểu 01 tối thiểu 01 năm theo hướng ứng dụng 01 năm năm tối đa 03 bao lâu? Thời gian học thạc sĩ năm 01 năm theo hướng nghiên cứu bao lâu? tối thiểu 1.5 tối thiểu 1.5 năm năm tối đa 04 năm Trong ví dụ hệ thống XLM-Rlarge cho kết trường hợp Hệ thống BERT cho kết trường hợp đầu sai trường hợp sau Hệ thống XLM-Rbase cho kết trường hợp đầu sai trường hợp cuối 35 Chương 4.Kết đạt 4.1 Kết khoa học đạt Cơng trình đăng ký kết khoa học đạt “Các sản phẩm Dạng III” (Bài báo; Sách chuyên khảo; sản phẩm khác) Bài báo đạt có tiêu đề “Xây dựng hệ thống trả lời tự động cho nghiệp vụ Sau đại học” đăng kỷ yếu Hội nghị khoa học quốc gia “Nghiên cứu ứng dụng Công nghệ thông tin” (FAIR2020) Hiện tại, kỷ yếu hội nghị trình in ấn, dự kiến xuất tháng 12 năm 2020 Cùng với hội nghị @ FAIR hai hội nghị quốc gia Công nghệ thông tin tốt Hội nghị nằm danh mục hội đồng giáo sư nhà nước với thang điểm 0.75 (Hình 4.1) Chất lượng báo phù hợp với sản phẩm đầu phần Thuyết minh đăng ký Ngoài ra, so với cơng trình gần với cơng trình “Hệ thống hỗ trợ tư vấn tuyển sinh đại học” nhóm tác giả cơng trình [2] cơng trình tài liệu tham khảo khác cơng trình chúng tơi có số đặc tính sau:  Cơng trình [2] xuất từ năm 2015 nên nhóm tác giả cơng trình sử dụng kỹ thuật, hướng tiếp cận từ năm 2015 trở trước, cụ thể hướng tiếp cận học máy SVM cho tốn QA Đến năm 2018 Google cơng bố tảng BERT năm 2019 Facebook phát triển BERT thành phiên tốt (XMLRoBERTA base large) Nền tảng sử dụng học sâu để huấn luyện kiểm thử cho kết tốt nhiều so với kỹ thuật học máy trước Đề tài chúng tơi sử dụng mơ hình BERT để huấn luyện cho bước pretrain (vi_SQuAD v1.1) transfer (HUFI-POSTGRAD)  Cơng trình chúng tơi xây dựng kho ngữ liệu tương đối tốt phục vụ cho công động nghiên cứu khoa học mảng QA, là: kho ngữ liệu 36 vi_SQuAD v1.1 (được dịch từ kho ngữ liệu SQuAD đại học Stanford) HUFI_POSTGRAD Trước chưa cơng trình thực việc  Đã xây dựng hệ thống trả lời tự động cho nghiệp vụ tuyển sinh Sau đại học Trường Đại học Công Nghiệp Thực Phẩm TPHCM Hệ thống trở lời câu hỏi nghiệp vụ tuyển sinh Sau đại học Hình 4.1 Điểm hội nghị FAIR Danh mục Giáo sư Nhà nước ngành CNTT năm 2020 37 4.2 Phương án triển khai Sau dự án kết thúc, hệ thống trả lời tự động triển khai sau:  Bổ sung thêm liệu cho liệu HUFI_POSTGRAD Mục tiêu kho liệu đạt 5.000 cặp câu QA Sau đó, hệ thống train lại cho mơ hình transfer  Đăng ký domain sub-domain thuộc domain HUFI.vn, thuê host triển khai hệ thống web trả lời tự động cho Phòng Sau đại học HUFI  Có thể áp dụng mơ hình trả lời tự động Phòng Sau đại học cho phòng ban khác HUFI Một phòng ban hướng tới phòng Đào tạo Trung tâm Tư vấn tuyển sinh 38 KẾT LUẬN VÀ KIẾN NGHỊ Trong đề tài này, bước đầu xây dựng hệ thống trả lời tự động cho nghiệp vụ tư vấn tuyển sinh Sau đại học Trường ĐH CNTP TPHCM Chúng sử dụng hai mơ hình chủ đạo phân loại ý định (Intent classification) máy đọc hiểu văn (machine reading comprehension) để xây dựng hệ thống trả lời tự động Ngồi ra, chúng tơi xây dựng kho liệu tương đối lớn cách dịch từ Anh sang Việt kho ngữ liệu SQuAD v1.1 dựa Google Translate Kho liệu sử dụng để huấn luyện mơ hình học chuyển đổi Bên cạnh đó, kho liệu HUFI_PostGrad khởi tạo thủ công từ tài liệu “Quy chế tuyển sinh Sau đại học Trường Đại học Công Nghiệp Thực Phẩm” Kho liệu sư dụng cho trình huấn luyện kiểm tra kết hệ thống Để tăng chất lượng hệ thống trả lời tự động nói chung nghiệp vụ tuyển sinh Sau đại học nói riêng, chúng tơi cho cần phải có kho liệu QA tiếng Việt thật lớn chất lượng để huấn luyện cho mơ hình học chuyển đổi Hiện tại, hệ thống sử dụng kho liệu dịch từ kho liệu tiếng Anh thông qua Google Translate Việc sai sót q trình dịch tự động điều tránh khỏi hiển nhiên ảnh hưởng đến chất lượng mơ hình huấn luyện sử dụng kho liệu dịch Kho liệu HUFI_PostGrad cần cải tiến số lượng chất lượng Hiện tại, kho ngữ liệu hồn tồn khởi tạo thủ cơng từ tài liệu sẵn có Phịng Sau đại học ĐH CNTP TPHCM Trong tương lai, chúng tơi tiếp tục tìm hiểu kỹ thuật tự động khác nhằm tăng số lượng chất lượng cho kho ngữ liệu Phần mềm trả lời tự động tư vấn tuyển sinh Sau đại học ứng dụng cho phịng Sau đại học Trường Đại học CNTP TPHCM Phần mềm trả lời tương đối tốt câu hỏi nghiệp vụ Sau đại học Một 39 liệu thu thập tăng lên (bao gồm liệu cho pretrain transfer) chất lượng phần mềm trả lời tự động tăng lên Ngồi ra, chúng tơi cho ngồi nghiệp vụ Sau đại học, hệ thống phần mềm trả lời tự động áp dụng cho nghiệp vụ khác trường Đại học CNTP nói riêng trường đại học khác nói chung Trong tương lai gần tiếp tục phát triển hệ thống trả lời tự động cho nghiệp vụ khác 40 TÀI LIỆU THAM KHẢO [1] Mohammad Nuruzzaman and Omar Khadeer Hussain, “A Survey on Chatbot Implementation in Customer Service Industry through Deep Neural Networks”, A Survey on Chatbot Implementation in Customer Service Industry through Deep Neural Networks, 2018 [2] Nguyễn Thái Nghe Trương Quốc Định, “Hệ thống hỗ trợ tư vấn tuyển sinh đại học”, Tạp chí Khoa học Trường Đại học Cần Thơ, pp.152-159, 2015 [3] Daniel Jurafsky and James H Martin, “Speech and Language Processing: An Introduction to Natural Language Processing”, Computational Linguistics and Speech Recognition, 2008 [4] Silvia Quarteroni, “A Chatbot-based Interactive Question Answering System”, 11th Workshop on the Semantics and Pragmatics of Dialogue: 8390, 2007 [5] D Hewlett, L Jones, and A Lacoste, “Accurate supervised and semisupervised machine reading for long documents”, in Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp 20112020, 2017 [6] Siva Reddy, Danqi Chen, and Christopher D Manning, “CoQA: A conversational question answering challenge”, Transactions of the Association for Computational Linguistics, Volume 7, pp 249-266, 2019 [7] L Cui, S Huang, F Wei, C Tan, C Duan, and M Zhou, “Superagent: a customer service chatbot for e-commerce websites”, in Proceedings of ACL , System Demonstrations, pp 97-102, 2017 [8] P Clark and O Etzioni, “My Computer Is an Honor Student — but How Intelligent Is It? Standardized Tests as a Measure of AI”, AIMag, vol 37, no 1, pp 5-12, 2016 41 [9] Pan, S J and Yang, Q, “A Survey on Transfer Learning”, IEEE Transactions on Knowledge and Data Engineering, volume 22, no 10, pp 1345–1359, 2010 [10] Sewon Min, Minjoon Seo, and Hannaneh Hajishirzi, “Domain Adaptation in Question Answering”, ArXiv, abs/1702.02171, 2017 [11] K Sparck Jones, “A statistical interpretation of term specificity and its application in retrieval”, Journal of documentation, vol 28, no 1, pp 11–21, 1972 [12] T Mikolov, I Sutskever, K Chen, G S Corrado, and J Dean, “Distributed representations of words and phrases and their compositionality”, in Advances in neural information processing systems, pp 3111–3119, 2013 [13] Sepp Hochreiter, Jürgen Schmidhuber, “Long Short-Term Memory Neural Computation”, volume 9, no 8, Nov 1997 [14] Hashemi HB., AsiaeeA, KraftR, “Query intent detection using convolutional neural networks”, International Conference on Web Search and Data Mining, Workshop on Query Understanding, 2016 [15] Ravuri S V, Stolcke A, “Recurrent neural network and LSTM models for lexical utterance classification”, 16th Annual Conference of the International Speech Communication Association 2015:135-139 [16] Zhouhan Lin, Minwei Feng, Santos CN D, “A structured self-attentive sentence embedding”, arXiv preprint arXiv:1703.03130, 2017 [17] SEO, Min Joon KEMBHAVI, Aniruddha FARHADI, Ali HAJISHIRZI, Hannaneh, “Bidirectional Attention Flow for Machine Comprehension”, CoRR Vol abs/1611.01603, 2016 [18] Rupesh Kumar Srivastava, Klaus Greff, and Jurgen Schmidhuber, “Highway networks”, arXiv preprint arXiv:1505.00387, 2015 42 [19] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, In Proceedings of NAACL-HLT 2019, pp 4171-4186, 2019 [20] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, “Attention is all you need”, in Advances in Neural Information Processing Systems, pp 5998– 6008, 2017 [21] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov, “Unsupervised Cross-lingual Representation Learning at Scale”, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp 8440–8451, 2020 [22] Patrick Lewis, Barlas Oguz, Ruty Rinott, Sebastian Riedel, and Holger Schwenk, “MLQA: Evaluating cross-lingual extractive question answering”, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp 7315–7330, 2020 [23] Kim Y, “Convolutional Neural Networks for Sentence Classification”, Proc of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014:1746–1751 [24] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang, “SQuAD: 100,000+ Questions for Machine Comprehension of Text”, in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pp 2383–2392, 2016 [25] Pranav Rajpurkar, Robin Jia, and Percy Liang, “Know What You Don’t Know: Unanswerable Questions for SQuAD”, in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, pp 784– 789, 2018 43 [26] Kyungjae Lee, Kyoungho Yoon, Sunghyun Park, and Seung-won Hwang, “Semi-supervised Training Data Generation for Multilingual Question Answering”, in Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018 44

Định dạng
Số trang	46
Dung lượng	1,93 MB