Xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường đại học xây dựng

81 15 0
Xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường đại học xây dựng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Đình Q XÂY DỰNG MƠ HÌNH HỎI ĐÁP HỖ TRỢ SINH VIÊN TRƯỜNG ĐẠI HỌC XÂY DỰNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - NĂM 2021 BỘ THÔNG TIN VÀ TRUYỀN THƠNG HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Nguyễn Đình Q XÂY DỰNG MƠ HÌNH HỎI ĐÁP HỖ TRỢ SINH VIÊN TRƯỜNG ĐẠI HỌC XÂY DỰNG Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) Người hướng dẫn: GS.TS Từ Minh Phương HÀ NỘI - NĂM 2021 i MỤC LỤC ỜI C ỜI CẢ Đ N iii N iv DANH MỤC HÌNH VẼ v DANH MỤC BẢNG BIỂU vi DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ vii Ở Đ U CHƯ NG TỔNG QUAN VỀ BÀI TOÁN HỎI ĐÁP TỰ ĐỘNG 1.1 Bài toán trả lời tự động cho sinh viên trường Đại học Xây dựng 1.2 Khái quát hệ thống hỏi đáp tự động 1.3 Truy xuất tìm kiếm thơng tin (IR) 1.3.1 Mơ hình dựa lý thuyết tập hợp: 1.3.2 Mơ hình đại số 1.3.3 Mơ hình xác suất 11 1.3.4 Mơ hình ngơn ngữ 13 1.4 Kết luận chương 14 CHƯ NG PHƯ NG PHÁP TRẢ LỜI TỰ ĐỘNG .15 2.1 Kiến trúc mơ hình 15 2.2 Phân loại ý định 17 2.2.1 Luồng xử lý phương pháp xác định ý định câu hỏi 18 2.2.2 Tiền xử lý liệu 20 2.2.3 Trích xuất đặc trưng .22 2.2.4 Mơ hình phân lớp 31 2.2.5 Tăng cường liệu để huấn luyện mơ hình phân lớp ý định 34 2.3 Tìm kiếm truy xuất thông tin .43 2.3.1 Một số khái niệm 44 ii 2.3.2 Cơng thức tính BM25 .45 2.3.3 Đánh giá mơ hình IR 46 2.4 Kết hợp xác định ý định truy xuất thông tin 50 2.4.1 Tổ chức liệu để tìm kiếm thơng tin theo ý định 51 2.4.2 Tìm kiếm theo ý định câu hỏi 52 CHƯ NG THỰC NGHIỆM VÀ KẾT QUẢ 55 3.1 Các bước cài đặt 55 3.1.1 Dữ liệu huấn luyện 55 3.2 Cài đặt module truy xuất thông tin 55 3.2.1 Tiền xử lý văn 56 3.2.2 Đánh mục tài liệu .57 3.2.3 Xếp hạng văn 58 3.2.4 Kết thực nghiệm 58 3.3 Cài đặt mơ hình phân lớp ý định 62 3.3.1 Xây dựng mô hình phân lớp ý định 62 3.3.2 Tăng cường liệu cho toán phân lớp ý định 64 3.3.3 Kết huấn luyện sau tăng cường liệu .65 3.4 Kết thực sau kết hợp IR phân lớp ý định 65 3.5 So sánh với hệ thống hỏi đáp tương tự 66 KẾT LUẬN VÀ KIẾN NGHỊ .67 TÀI LIỆU THAM KHẢO 69 iii ỜI C Đ N Tôi cam đoan cơng trình nghiên cứu riêng tơi GS.TS Từ Minh Phương - giảng viên khoa Công nghệ thông tin trường Học viện Công nghệ Bưu ch nh Vi n thông hướng dẫn khoa học Nguồn tài liệu tác giả quan tổ chức sử dụng ghi r ph n tài liệu tham khảo Tơi xin hồn tồn chịu trách nhiệm nội dung luận văn Hà nội ngày tháng năm Họ v n C o họ N u ễn Đình Qúy iv ỜI CẢ N Lời đ u tiên xin bày tỏ biết ơn chân thành sâu s c tới GS TS Từ Minh Phương - Giáo viên hướng dẫn khoa học người đ tận tình hướng dẫn h trợ gi p đ tơi q trình nghiên cứu hồn thiện luận văn Tơi xin gửi lời cảm ơn chân thành tới th y cô giảng viên khoa Công nghệ thông tin trường Học viện công nghệ bưu ch nh vi n thông đ tận tình truyền đạt kiến thức hướng dẫn cho tơi suốt q trình học tập trường Tơi xin gửi lời cảm ơn tới người thân gia đình tơi đ chăm lo cho tơi động viên tơi cảm ơn quan nơi công tác trường Đại học Xây dựng đ tạo điều kiện để tơi hồn thành kh a học Cám ơn bạn sinh viên khoa Công nghệ Thông tin trường Đại học Xây dựng đ gi p đ việc thu thập liệu để thực luận văn Trong q trình hồn thành luận văn thời gian khả kiến thức c n hạn chế nên kh tránh khỏi sai s t K nh mong nhận cảm thông g p ý th y cô Hà nội ngày tháng N năm v t N u ễn Đình Quý v DANH MỤC HÌNH VẼ Hình 1.1: Số lượng công bố hệ hỏi đáp (QA) t nh từ năm Hình 1.2: Cách tiếp cận hệ hỏi đáp Hình 1.3: Phân loại mơ hình IR Hình 2.1: Từ câu hỏi đến câu trả lời: Mơ hình xây dựng hệ thống hỏi đáp 16 Hình 2.2: Thuật tốn phân lớp ý định câu hỏi 18 Hình 2.3: Mơ hình phân lớp ý định câu hỏi 19 Hình 2.4: Ma trận đồng xuất 26 Hình 2.5: Mơ hình skip-gram 27 Hình 2.6: Ảnh minh họa cho mơ hình Skip-gram dạng tổng quát .28 Hình 2.7: Biểu di n mơ hình LSTM RNN 33 Hình 8: Sơ đồ kiến trúc transformer kết hợp với attention 39 Hình 9: Sơ đồ vị trí áp dụng self-attention kiến trúc transformer .40 Hình 2.10: Kiến trúc mơ hình truy xuất thơng tin .43 Hình 2.11: Sự ảnh hưởng TF tới Score 45 Hình 2.12: Biểu đồ tu n tự kết hợp xác định ý định truy xuất thông tin 50 Hình 3.1: Số lượng câu hỏi intent 63 vi DANH MỤC BẢNG BIỂU Bảng 2.1: Ví dụ liệu lưu IR 51 Bảng 3.1: Kết tìm kiếm câu hỏi theo câu hỏi 59 Bảng 3.2: Kết tìm kiếm câu hỏi theo câu trả lời 60 Bảng 3.3: Kết áp dụng IR tìm câu hỏi theo câu hỏi câu trả lời 61 Bảng 3.4: Kết toán phân lớp ý định mơ hình SVM 63 Bảng 3.5: Kết huấn luyện mơ hình phân loại ý định 64 Bảng 3.6: Kết huấn luyện mơ hình phân lớp ý định sau fine-tune 65 Bảng 3.7: Kết toán sau kết hợp IR phân lớp ý định 65 vii DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ STT Ký hiệu, Từ Ti ng Anh Chú giải vi t tắt AI Artificial Intelligent Trí tuệ nhân tạo QA Question Answering systems Hệ thống hỏi đáp IR Information retrieval Truy xuất thông tin RNN Recurrent Neural Network Mạng nơ-ron hồi quy LSTM Long short-term memory Mạng nhớ dài ng n NLP Natural language processing Xử lý ngôn ngữ tự nhiên POS Part – Of - Speech NER Named-entity recognition Nhận diện thực thể có tên SVM Support Vector Machine Máy vector h trợ 10 TF Term frequency T n suất thuật ngữ 11 IDF Inverse Document Frequency Nghịch đảo t n suất văn 12 Precision Độ xác (độ phủ) 13 Recall Độ ch nh xác (độ hồi tưởng) ỞĐ U Hiện trường đại học Xây dựng c khoảng sinh viên học viên theo học Hàng ngày ph ng ban trường nhận nhiều vấn đề th c m c sinh viên học viên chương trình đào tạo thông tin lịch học lịch thi hay quy định nhà trường Kênh thông tin chủ yếu nhà trường thông qua website ch nh thức trang quản lý đào tạo sinh viên Các quy định hay thông báo tới sinh viên chủ yếu dạng văn nên gây kh khăn cho sinh viên việc tiếp cận tra cứu thơng tin Ch nh c th c m c sinh viên thường bỏ qua không đọc văn hay thông báo mà sử dụng kênh h trợ trực tiếp từ nhà trường thông qua kênh email Theo khảo sát trường Đại học Xây dựng, sinh viên c n hỏi vấn đề liên quan đến học tập quy định trường:  45% số sinh viên c n thông tin đáp ứng thông qua việc hỏi bạn bè lớp trường Trong số đ % hỏi trực tiếp bạn bè, 35% lại hỏi thơng qua trang fanpage, hội nhóm mạng xã hội facebook  15% số sinh viên tự tìm hiểu thông báo quy định đăng tải website thức, website đào tạo kênh truyền thông Nhà trường  10% số sinh viên hỏi trực tiếp phòng ban cách lên trực tiếp nơi làm việc  30% số sinh viên cịn lại hỏi phịng ban hình thức email Một vấn đề đặt số lượng email câu hỏi sinh viên gửi tới ph ng ban nhiều ngày c thể lên tới vài chục đến vài trăm câu hỏi Vì việc h trợ sinh viên mà đặc biệt vào dịp cao điểm đăng ký môn học thi hết học ph n thường bị tải ph ng ban Đồng thời sinh viên phải chờ đợi việc xử lý câu hỏi câu trả lời nên nhiều thông tin phản hồi không kịp thời gây ảnh hưởng đến trình học tập sinh viên Trong trình học tập sinh viên nội dung liên quan đến quy định thông báo dạng văn 58 "cau_tra_loi": "Trường ĐHXD hình thức thi lại, em trượt mơn phải học lại để trả nợ môn" } Tài liệu đánh mục để đưa vào thuật toán xếp hạng Okapi BM25 Cụ thể tài liệu đánh mục theo phương pháp tf-idf vector mô tả ph n [2.3.2] 3.2.3 X p hạn văn Để xếp hạng văn bản, tơi sử dụng thuật tốn Okapi BM đ trình bày ph n [2.3.2] 3.2.4 K t thực nghiệm Để thực nghiệm mô hình IR tơi tiến hành chia tập liệu sau: Về câu hỏi test tơi chọn ngẫu nhiên 50 câu hỏi cặp câu hỏi - câu trả lời lưu elasticsearch - Đ u tiên c n lưu hết tất 400 cặp câu hỏi - câu trả lời tập liệu vào elasticsearch - Sau đ cặp câu hỏi - câu trả lời đ lấy 50 câu hỏi để test Trong trình test, truy vấn với nội dung câu hỏi thêm điều kiện để loại bỏ id câu hỏi vừa lấy để đảm bảo câu hỏi đ không c kết trả - Ví dụ với cặp câu hỏi-câu trả lời sau: { "cau_hoi": [ "Em muốn xin thi lại phải ạ", "Nhà trường có tổ chức thi lại hay khơng ạ?", "Khi trượt mơn c thi lại hay khơng th y cô?", "E muốn đăng k thi lại mơn c n điều kiện ạ" ], 59 "cau_tra_loi": "Trường ĐHXD khơng c hình thức thi lại em trượt mơn phải học lại để trả nợ môn" } Tôi lưu thành document elasticsearch Sau đ lấy câu hỏi để test: Ví dụ câu "Em muốn xin thi lại phải ạ" relevant đến câu hỏi cịn lại: - "Nhà trường có tổ chức thi lại hay khơng ạ?", - "Khi trượt mơn c thi lại hay không th y cô?", - "E muốn đăng k thi lại mơn c n điều kiện ạ? Nếu xét điểm trình " Để lấy câu trả lời đ ng với câu hỏi đưa vào module xếp hạng văn tìm cách so sánh câu hỏi người dùng với câu hỏi câu trả lời tập liệu xây dựng từ trước Lý cho việc lựa chọn phương pháp thử nghiệm: so sánh câu hỏi với câu hỏi, câu hỏi với câu trả lời so sánh câu hỏi với câu hỏi câu trả lời Trong thử nghiệm tiến hành đánh giá với thuật toán tách từ (tokenizer) khác với tham số k-top phương pháp đo khác Kết thể theo bảng bên Cách 1: Tìm câu hỏi theo câu hỏi: Bảng 3.1: Kết tìm kiếm câu hỏi theo câu hỏi 60 Trong kết đo giá trị phép đo thực tìm câu hỏi theo câu trả lời cho kết thấp, với số MAP@K với k = {1, 3} đạt khoảng [0.180, 0.271] Sau đ tiến hành thử nghiệm với việc thực tìm câu hỏi theo câu hỏi, kết thử nghiệm c ng cho bảng đây: Cách 2: Tìm câu hỏi theo câu trả lời Việc tìm câu hỏi theo câu hỏi cho kết tốt với phương pháp đo MAP@K, K = {1, 3, 10} kết việc tìm kiếm nằm khoảng [0.45; 0.53] Bảng 3.2: Kết tìm kiếm câu hỏi theo câu trả lời Sau thử nghiệm tìm kiếm cách so sánh câu hỏi với câu hỏi, câu hỏi với câu trả lời tiến hành kết hợp phương pháp lại tiến hành đo cách tìm kiếm câu hỏi với câu hỏi câu trả lời Kết cho bảng đây: Cách 3: Tìm câu hỏi theo câu hỏi câu trả lời 61 Bảng 3.3: Kết áp dụng IR tìm câu hỏi theo câu hỏi câu trả lời Kết nhìn chung không thay đổi so với cách số Như thông qua thử nghiệm với tham số khác nhận thấy việc thực truy xuất câu trả lời cách so sánh câu hỏi với câu hỏi so sánh câu hỏi với câu trả lời cho kết thấp, xây dựng hệ hỏi đáp dựa câu hỏi câu trả lời không khả thi Sau thực tìm kiếm nhận thấy kết thấp, tơi tiến hành phân tích lại tập liệu hỏi đáp Tôi tiến hành đưa phương pháp thự sử dụng việc phân t ch ý định câu hỏi M i câu hỏi thực intent detection intent classification Intent ý định người hỏi, Ví dụ câu "E thưa chả hạn e trả hết mơn mà tích lu chưa đủ 2.0 e có dc nhận để làm đồ án tốt nghiệp khơng ạ" ý định người dùng hỏi điều kiện làm đồ án tốt nghiệp Trong câu "vì điều kiện dịch bệnh nên e chưa thể lên trường đ ng học ph e sinh viên năm cuối c n đồ án tốt nghiệp kính mong th y mở tài khoản cho e đăng kí nốt đồ án tốt nghiệp" intent đăng ký đồ án Nếu dùng từ khoá phương pháp đề cập trước đ (BM giống TF-IDF) nội dung hai câu 62 Cà đặt mơ hình phân lớp ý định 3.3 Phân lớp ý định (intent detection) thực phương pháp text classification, tức với m i câu hỏi người ta tiến hành phân loại vào số loại intent định nghĩa trước 3.3.1 Xây dựng mơ hình phân lớp ý định Để thực phương pháp tiến hành sau: a Đánh nhãn l ệu Để xây dựng mơ hình xác định ý định câu hỏi, sử dụng ontology cặp “câu hỏi - ý định” thu thập từ sinh viên trường Đại học Xây dựng Tôi đưa tốn việc xây dựng mơ hình phân lớp với class ý định người hỏi Ví dụ sau câu hỏi tập liệu: [ { "content": " em bị quên gmail trường 18145015 student hcmute edu vnmong phòng đào tạo giúp em reset mật khẩu", "intent": "TAI_KHOAN" }, { "content": "Tổng số tín chương trình đào tạo tối thiểu tối đa bao nhiêu?", "intent": "KHAC", "answer": "tối thiểu 120 tối đa 140" }, { "content": "Thầy cô cho e hỏi, e gọi nghĩa vụ quân quê, e muốn xin giấy xác nhận sinh viên trường xin đâu ?", "intent": "THU_TUC_SV" } ] Toàn nh n intent đánh cách thủ công Các câu hỏi chia thành nh m ý định: ['DIEM', 'HOC_BONG', 'DKMH', 'HOC_PHI', 'KHAC', 'LICH_HOC' 'TAI_KHOAN' 'THU_TUC_SV' 'TN' 'TOEIC'] Trong đ : - „DIEM‟ bao gồm câu hỏi th c m c Điểm - „HOC_BONG‟ bao gồm câu hỏi th c m c Học bổng - „DKMH‟ bao gồm câu hỏi th c m c việc đăng ký môn học - „HOC_PHI‟ bao gồm câu hỏi th c m c học phí 63 - … - „KHAC‟ bao gồm câu hỏi không thuộc vào nhóm Hình 3.1: Số lượng câu hỏi intent b Phân lớp ý định bằn mơ hình SV : Để thực phân lớp ý định câu hỏi tơi tiến hành thử nghiệm với mơ hình SVM Câu hỏi biểu di n cách cộng vector biểu di n từ (Rn) lại thành vector (Rn) Với cách biểu di n tiến hành thử nghiệm với phương pháp biểu di n từ: word2vec one-hot encoding Sau biểu di n câu hỏi thành vector tơi đưa vào mơ hình SVM để tiến hành huấn luyện cho mơ hình phân lớp Kết sau thực với phương pháp trên: Precision One-hot encoding 0.56 word2vec 0.38 Recall 0.56 0.38 F1-score 0.56 0.38 Bảng 3.4: Kết tốn phân lớp ý định mơ hình SVM 64 Nhận xét: Việc xác định ý định thuật toán SVM toán cho kết tương đối thấp c Phân lớp ý định bằn deep le rn n Vì kết SVM thấp nên tơi tiến hành sử dụng mơ hình LSTM đ đề cập ph n [2.4] để tiến hành phân lớp Trong ph n thử nghiệm số mơ hình mạng nơ ron khác để tiến hành so sánh Các tham số áp dụng cho mơ hình phân lớp sau:  Đối với mơ hình Word2Vec Tiếng việt sử dụng tham số huấn luyện dựa ngữ liệu Tiếng Việt tổng hợp từ Wikipedia với kích thước vector min_count =  window size = k ch thước tập từ vựng 10.000 để loại bỏ biểu di n từ có số l n xuất < Sau sử dụng pretrain word2vec, tiến hành huấn luyện dựa tập liệu hỏi đáp mà xây dựng trước nhằm mục đích giúp mơ hình học thêm cách biểu diễn từ khơng có tập từ vựng  Đối với mơ hình LSTM tơi tiến hành training từ đ u, cịn với BERT tơi sử dụng pretrained phoBERT sau đ thay đổi layer cuối (activation layer) để đưa BERT toán phân lớp với k lớp Kết sau trình huấn luyện trình bày bảng đây: Model Word Embedding F1-score LSTM Word2Vec LSTM Fastext CNN + LSTM Word2Vec CNN + LSTM Fastext BiGRU Fastext baseBERT Fastext Bảng 3.5: Kết huấn luyện mơ hình phân loại ý định 3.3.2 Tăn 0.906 0.912 0.866 0.879 0.903 0.933 ờng liệu cho toán phân lớp ý định Sau tăng cường liệu đ đề cập ph n [2.2.5] ta có tập liệu 65 3.3.3 K t huấn luyện s u kh tăn Sử dụng tập liệu ờng liệu để huấn luyện mơ hình mục tăng cường liệu kết dựa tập kiểm tra sau: Model Word Embedding F1-score LSTM Word2Vec 0.917 LSTM Fastext 0.923 CNN + LSTM Word2Vec 0.871 CNN + LSTM Fastext 0.882 BiGRU Fastext 0.913 baseBERT Fastext 0.953 Bảng 3.6: Kết huấn luyện mô hình phân lớp ý định sau fine-tune Như với việc áp dụng k thuật tăng cường liệu cho mơ hình phân lớp ý định độ xác mơ hình đ tăng đáng kể K t thự h ện s u kh k t hợp IR phân lớp ý định 3.4 Sau áp dụng k thuật để cải tiến mơ hình phân lớp ý định, tơi tiến hành đưa mơ hình phân lớp ý định để lọc câu trả lời không liên quan đến ý định câu hỏi Kết trình bày bảng đây: Indexing K NDCG@K Kết hợp ý định TF-IDF MAP@K Không kết hợp ý định 0.821 0.44 0.837 0.841 0.852 0.44 0.83 0.44 0.51 0.84 0.44 0.44 9 Không kết hợp ý định 0.82 BM25 Kết hợp ý định 0.44 0.86 0.51 Bảng 3.7: Kết toán sau kết hợp IR phân lớp ý định Như mơ hình đ cho kết tốt, với tham số indexing BM25 sử dụng ViTokenizer cho kết MAP@K [3.2.4] đạt 0.866 66 3.5 So sánh vớ hệ thốn hỏ đáp t ơn tự Phân loại theo lĩnh vực mà hệ thống hỏi đáp phục vụ chia hệ thống hỏi đáp thành hai loại sau: (1) Hệ thống hỏi đáp lĩnh vực hẹp: Hệ thống liên quan đến câu hỏi lĩnh vực cụ thể y học, giáo dục… (2) Hệ thống hỏi đáp lĩnh vực rộng: Hệ thống liên quan đến câu hỏi g n tất thứ Luận văn mục tiêu xây dựng hệ thống hỏi đáp lĩnh vực hẹp cụ thể việc h trợ sinh viên trả lời th c m c câu hỏi phạm vi trường Đại học Xây dựng Hệ thống hỏi đáp sử dụng câu trả lời có sẵn chuẩn bị trước tập liệu để trả lời câu hỏi tương tự ý định hỏi nội dung câu hỏi, coi hệ thống hỏi đáp dựa tri thức Trong báo khảo sát [24], tơi tiến hành tóm t t kết hệ thống hỏi đáp tương tự thể biểu đồ sau trục tung thể tỉ lệ câu trả lời xác, trục hồnh thể mơ hình hỏi đáp: Hình 3.2: Kết hệ thống hỏi đáp dựa tri thức Có thể thấy tỉ lệ câu trả lời xác tổng số câu hỏi hệ hỏi đáp nằm khảng 49% 89% Kết phụ thuộc vào hai điều kiện: (1) Thuật toán phương pháp xử lý ngôn ngữ tự nhiên dùng hệ thống (2) miền câu hỏi toán phục vụ 67 KẾT LUẬN VÀ KIẾN NGHỊ K t đạt đ ợ Về mặt lý thuyết: Luận văn đ tổng hợp kiến thức xây dựng hệ thống hỏi đáp tự động sử dụng k thuật học máy Về thực nghiệm: Tác giả đ hoàn thành việc cài đặt thử nghiệm hệ thống hỏi đáp h trợ sinh viên Trường Đại học Xây dựng Áp dụng hệ thống hỏi đáp tự động giải nhu c u hỏi đáp, h trợ sinh viên trường Đại học Xây dựng mang lại hiệu cao, giúp sinh viên d dàng tiếp cận thông tin từ ph a nhà trường đồng thời làm giảm khối lượng công việc tiếp nhận giải th c m c, nhu c u thông tin từ ph a sinh viên cho ph ng ban trường Các tiếp cận xây dựng hệ thống trả lời tự động dựa truy xuất thơng tin sử dụng liệu câu hỏi – câu trả lời cung cấp ph ng ban Trường phục vụ cho việc trả lời tự động Để câu trả lời tự động dựa truy xuất thông tin xác, việc xác định ý định câu hỏi sử dụng ý định câu hỏi để loại bỏ câu trả lời sai không phù hợp với câu hỏi mang lại kết tốt Ngoài kết đạt mang tính ứng dụng, luận văn đưa kết việc áp dụng k thuật xử lý ngôn ngữ tự nhiên cho Tiếng Việt Các kết làm tài liệu tham khảo cho người quan tâm đến việc nghiên cứu hệ thống hỏi đáp tự động Nhữn đ ểm òn hạn h Với việc tiếp cận dựa truy xuất thông tin nhiều hạn chế, hệ thống trả lời tự động hoạt động tốt với câu hỏi giống thường lặp lặp lại hữu ích với câu hỏi có nội dung sinh viên câu hỏi mang tính chất tư vấn h trợ cho cá nhân Ngồi thơng tin hệ thống hỏi đáp phục vụ h trợ cho sinh viên c n phải cập nhật theo thay đổi nhà trường sách, quy chế quy định Nếu không thông tin không cập nhật thường xuyên dẫn đến l i thời, sai thông tin làm ảnh hưởng đến kết 68 c ng độ tin cậy hệ thống hỏi đáp Vì c n phải bổ sung cập nhật liệu thường xuyên cho hệ thống K n n hị nhữn vấn đề t p theo Để kết luận văn c thể áp dụng vào thực tế, c n phải hoàn thiện liệu câu hỏi – câu trả lời cách đ y đủ Ngồi thơng tin liên quan đến câu trả lời c n chức c thể quản lý thay đổi giúp cập nhật câu trả lời, bổ sung thêm câu trả lời có thay đổi mặt thông tin Nhà trường cung cấp Ngoài luận văn c n đ ng g i lại thành sản phẩm để triển khai thực tế từ đ thu thập phản hồi người dùng giúp cải tiến nâng cao chất lượng độ tin cậy hệ thống hỏi đáp Hệ thống c ng c n phải cập nhật liên tục để đảm bảo thơng tin ln xác cung cấp cho người dùng 69 TÀI LIỆU THAM KHẢO [1] M A C Soares and F S Parreiras “A literature review on question answering tech- niques paradigms and systems ” Journal of King Saud UniversityComputer and Infor- mation Sciences, 2018 [2] X Yao “Feature-driven question answering with natural language alignment ” Ph D dissertation Johns Hopkins University [3] D A Ferrucci “Introduction to “this is watson” ” IBM Journal of Research and Devel- opment, vol 56, no 3.4, pp 1:1–1:15, May 2012 [4] B F Green Jr, A K Wolf, C Chomsky and K Laughery “Baseball: an automatic question-answerer ” in Papers presented at the May 9-11, 1961, western joint IRE- AIEE-ACM computer conference ACM, 1961, pp 219–224 [5] W A Woods and R Kaplan “Lunar rocks in natural english: Explorations in natural language question answering ” Linguistic structures processing, vol 5, pp 521–569, 1977 [6] A MishraandS K Jain “Asurveyonquestionansweringsystemswithclassifi cation ” Journal of King Saud University-Computer and Information Sciences, vol 28, no 3, pp 345–361, 2016 [7] M Sanderson and W B Croft “The history of information retrieval research ” Pro- ceedings of the IEEE, vol 100, no Special Centennial Issue, pp 1444–1451, 2012 [8] M Fridah Nyamisa “A survey of information retrieval techniques ” Advances in Net- works, vol 5, p 40, 01 2017 [9] H P Luhn “A statistical approach to mechanized encoding and searching of literary information ” IBM Journal of research and development, vol 1, no 4, pp 309–317, 1957 [10] G Salton E A Fox and H Wu “Extended boolean information retrieval ” Cornell University Tech Rep 98 70 [11] E A Fox and S Sharan “A comparison of two methods for soft boolean operator interpretation in information retrieval ” 986 [12] C D Paice “Soft evaluation of boolean search queries in information retrieval sys- tems ” Information Technology Research Development Applications, vol 3, no 1, pp 33–41, 1984 [13] G Salton, A Wong, and C.-S Yang “A vector space model for automatic indexing ” Communications of the ACM, vol 18, no 11, pp 613–620, 1975 [14] S M Wong W Ziarko and P C Wong “Generalized vector spaces model in informa- tion retrieval ” in Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval ACM, 1985, pp 18–25 [15] J BeckerandD Kuropka “Topic-based vector space model ”in Proceedings of the 6th international conference on business information systems, 2003, pp 7–12 [16] A Polyvyanyy and D Kuropka “A quantitative evaluation of the enhanced topic-based vector space model ” [17] S Deerwester, S T Dumais, G W Furnas, T K Landauer, and R Harshman “In- dexing by latent semantic analysis ” Journal of the American society for information science, vol 41, no 6, pp 391–407, 1990 [18] S E Robertson and K S Jones “Relevance weighting of search terms ” Journal of the American Society for Information science, vol 27, no 3, pp 129–146, 1976 [19] S Robertson, H Zaragoza et al “The probabilistic relevance framework: Bm and beyond ” Foundations and Trends⃝R in Information Retrieval, vol 3, no 4, pp 333– 389, 2009 [20] C J Van Rijsbergen “A non-classical logic for information retrieval ” The computer journal, vol 29, no 6, pp 481–485, 1986 71 [21] G.Amatiand C.J.Van Rijsbergen, “Probabilistic models of information retrieval based on measuring the divergence from randomness ” ACM Transactions on Information Systems (TOIS), vol 20, no 4, pp 357–389, 2002 [22] Dat Quoc Nguyen and Anh Tuan Nguyen; “PhoBERT: Pre-trained language models for Vietnamese” [23] Ateret Anaby-Tavor,1 Boaz Carmeli,1, Kantor,1 George Kour,1,2, Segev Shlomov,1,3, Esther Goldbraich,1 Amir Naama Tepper,1 Naama Zwerdling “Do Not Have Enough Data? Deep Learning to the Rescue!” in The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20) [24] Lopez V Uren V Sabou M and Motta E Answering fit for the Semantic Web?: a Survey” Germany, (2011) “Is Question Universität Bielefeld 72 Tôi cam đoan đ thực việc kiểm tra mức độ tương đồng nội dung luận văn thông qua ph n mềm DoIT cách trung thực đạt mức độ kết tương đồng 12% toàn nội dung luận văn Bản luận văn kiểm tra qua ph n mềm cứng luận văn đ nộp để bảo vệ trước hội đồng Nếu sai xin chịu hình thức kỷ luật theo quy định hành Học viện Hà Nội, ngày 18 tháng 05 năm 2021 HỌC VIÊN CAO HỌC ... VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Đình Q XÂY DỰNG MƠ HÌNH HỎI ĐÁP HỖ TRỢ SINH VIÊN TRƯỜNG ĐẠI HỌC XÂY DỰNG Chuyên ngành: Khoa học máy tính Mã... trạng trường Đại học Xây dựng, hàng ngày sinh viên hỏi th c m c nhiều vấn đề liên quan đến sách, quy định quy chế Nhà trường phải bố trí phận h trợ sinh viên để giải đáp th c m c gi p đ sinh viên. .. cận hệ hỏi đáp Hình 1.3: Phân loại mơ hình IR Hình 2.1: Từ câu hỏi đến câu trả lời: Mơ hình xây dựng hệ thống hỏi đáp 16 Hình 2.2: Thuật tốn phân lớp ý định câu hỏi 18 Hình

Ngày đăng: 16/10/2021, 10:41

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan