(Luận văn) xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường đại học xây dựng

81 3 0
(Luận văn) xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường đại học xây dựng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an va n Nguyễn Đình Quý p ie gh tn to w oa nl XÂY DỰNG MƠ HÌNH HỎI ĐÁP d HỖ TRỢ SINH VIÊN TRƯỜNG ĐẠI HỌC XÂY DỰNG ll u nf va an lu m oi LUẬN VĂN THẠC SĨ KỸ THUẬT z at nh (Theo định hướng ứng dụng) z m co l gm @ an Lu HÀ NỘI - NĂM 2021 n va ac th si BỘ THÔNG TIN VÀ TRUYỀN THƠNG HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - lu Nguyễn Đình Quý an n va gh tn to XÂY DỰNG MƠ HÌNH HỎI ĐÁP p ie oa nl w HỖ TRỢ SINH VIÊN TRƯỜNG ĐẠI HỌC XÂY DỰNG d Chuyên ngành: Khoa học máy tính an lu ll u nf va Mã số: 8.48.01.01 m oi LUẬN VĂN THẠC SĨ KỸ THUẬT z at nh (Theo định hướng ứng dụng) z gm @ Người hướng dẫn: GS.TS Từ Minh Phương m co l an Lu HÀ NỘI - NĂM 2021 n va ac th si i MỤC LỤC ỜI C Đ ỜI CẢ N iii N iv DANH MỤC HÌNH VẼ v DANH MỤC BẢNG BIỂU vi DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ vii lu Ở Đ U an n va CHƯ NG TỔNG QUAN VỀ BÀI TOÁN HỎI ĐÁP TỰ ĐỘNG Bài toán trả lời tự động cho sinh viên trường Đại học Xây dựng 1.2 Khái quát hệ thống hỏi đáp tự động 1.3 Truy xuất tìm kiếm thơng tin (IR) ie gh tn to 1.1 p 1.3.1 Mơ hình dựa lý thuyết tập hợp: nl w 1.3.2 Mơ hình đại số d oa 1.3.3 Mơ hình xác suất 11 lu 1.3.4 Mơ hình ngơn ngữ 13 Kết luận chương 14 va an 1.4 ll u nf CHƯ NG PHƯ NG PHÁP TRẢ LỜI TỰ ĐỘNG .15 Kiến trúc mơ hình 15 2.2 Phân loại ý định 17 oi m 2.1 z at nh 2.2.1 Luồng xử lý phương pháp xác định ý định câu hỏi 18 z 2.2.2 Tiền xử lý liệu 20 gm @ 2.2.3 Trích xuất đặc trưng .22 l 2.2.4 Mơ hình phân lớp 31 2.3 m co 2.2.5 Tăng cường liệu để huấn luyện mơ hình phân lớp ý định 34 Tìm kiếm truy xuất thông tin .43 an Lu 2.3.1 Một số khái niệm 44 n va ac th si ii 2.3.2 Cơng thức tính BM25 .45 2.3.3 Đánh giá mơ hình IR 46 2.4 Kết hợp xác định ý định truy xuất thông tin 50 2.4.1 Tổ chức liệu để tìm kiếm thơng tin theo ý định 51 2.4.2 Tìm kiếm theo ý định câu hỏi 52 CHƯ NG THỰC NGHIỆM VÀ KẾT QUẢ 55 3.1 Các bước cài đặt 55 3.1.1 Dữ liệu huấn luyện 55 3.2 Cài đặt module truy xuất thông tin 55 lu an 3.2.1 Tiền xử lý văn 56 n va 3.2.2 Đánh mục tài liệu .57 tn to 3.2.3 Xếp hạng văn 58 gh 3.2.4 Kết thực nghiệm 58 p ie 3.3 Cài đặt mô hình phân lớp ý định 62 3.3.2 Tăng cường liệu cho toán phân lớp ý định 64 oa nl w 3.3.1 Xây dựng mơ hình phân lớp ý định 62 d 3.3.3 Kết huấn luyện sau tăng cường liệu .65 Kết thực sau kết hợp IR phân lớp ý định 65 3.5 So sánh với hệ thống hỏi đáp tương tự 66 u nf va an lu 3.4 ll KẾT LUẬN VÀ KIẾN NGHỊ .67 m oi TÀI LIỆU THAM KHẢO 69 z at nh z m co l gm @ an Lu n va ac th si iii ỜI C Đ N Tơi cam đoan cơng trình nghiên cứu riêng GS.TS Từ Minh Phương - giảng viên khoa Công nghệ thông tin trường Học viện Công nghệ Bưu ch nh Vi n thông hướng dẫn khoa học Nguồn tài liệu tác giả quan tổ chức sử dụng tơi ghi r ph n tài liệu tham khảo Tơi xin hồn toàn chịu trách nhiệm nội dung luận văn Hà nội ngày tháng năm lu Họ v n C o họ an n va to p ie gh tn N u ễn Đình Qúy d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si iv ỜI CẢ N Lời đ u tiên xin bày tỏ biết ơn chân thành sâu s c tới GS TS Từ Minh Phương - Giáo viên hướng dẫn khoa học người đ tận tình hướng dẫn h trợ gi p đ tơi q trình nghiên cứu hồn thiện luận văn Tơi xin gửi lời cảm ơn chân thành tới th y cô giảng viên khoa Công nghệ thông tin trường Học viện công nghệ bưu ch nh vi n thơng đ tận tình truyền đạt kiến thức hướng dẫn cho tơi suốt q trình học tập trường lu Tôi xin gửi lời cảm ơn tới người thân gia đình tơi đ chăm lo an cho động viên cảm ơn quan nơi công tác trường Đại học Xây va n dựng đ tạo điều kiện để hoàn thành kh a học Cám ơn bạn sinh tn to viên khoa Công nghệ Thông tin trường Đại học Xây dựng đ gi p đ việc Trong q trình hồn thành luận văn thời gian khả kiến thức c n p ie gh thu thập liệu để thực luận văn nl w hạn chế nên kh tránh khỏi sai s t K nh mong nhận cảm thông g p d oa ý th y cô tháng va an lu Hà nội ngày năm v t ll u nf N oi m z at nh N u ễn Đình Quý z m co l gm @ an Lu n va ac th si v DANH MỤC HÌNH VẼ Hình 1.1: Số lượng công bố hệ hỏi đáp (QA) t nh từ năm Hình 1.2: Cách tiếp cận hệ hỏi đáp Hình 1.3: Phân loại mơ hình IR Hình 2.1: Từ câu hỏi đến câu trả lời: Mơ hình xây dựng hệ thống hỏi đáp 16 Hình 2.2: Thuật toán phân lớp ý định câu hỏi 18 Hình 2.3: Mơ hình phân lớp ý định câu hỏi 19 Hình 2.4: Ma trận đồng xuất 26 lu Hình 2.5: Mơ hình skip-gram 27 an Hình 2.6: Ảnh minh họa cho mơ hình Skip-gram dạng tổng qt .28 va n Hình 2.7: Biểu di n mơ hình LSTM RNN 33 8: Sơ đồ kiến trúc transformer kết hợp với attention 39 Hình 9: Sơ đồ vị trí áp dụng self-attention kiến trúc transformer .40 Hình 2.10: Kiến trúc mơ hình truy xuất thơng tin .43 p ie gh tn to Hình nl w Hình 2.11: Sự ảnh hưởng TF tới Score 45 oa Hình 2.12: Biểu đồ tu n tự kết hợp xác định ý định truy xuất thơng tin 50 d Hình 3.1: Số lượng câu hỏi intent 63 ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC BẢNG BIỂU Bảng 2.1: Ví dụ liệu lưu IR 51 Bảng 3.1: Kết tìm kiếm câu hỏi theo câu hỏi 59 Bảng 3.2: Kết tìm kiếm câu hỏi theo câu trả lời 60 Bảng 3.3: Kết áp dụng IR tìm câu hỏi theo câu hỏi câu trả lời 61 Bảng 3.4: Kết toán phân lớp ý định mơ hình SVM 63 Bảng 3.5: Kết huấn luyện mơ hình phân loại ý định 64 Bảng 3.6: Kết huấn luyện mơ hình phân lớp ý định sau fine-tune 65 lu Bảng 3.7: Kết toán sau kết hợp IR phân lớp ý định 65 an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vii DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ STT Ký hiệu, Từ Ti ng Anh Chú giải vi t tắt lu an n va AI Artificial Intelligent Trí tuệ nhân tạo QA Question Answering systems Hệ thống hỏi đáp IR Information retrieval Truy xuất thông tin RNN Recurrent Neural Network Mạng nơ-ron hồi quy LSTM Long short-term memory Mạng nhớ dài ng n NLP Natural language processing Xử lý ngôn ngữ tự nhiên POS Part – Of - Speech NER Named-entity recognition Nhận diện thực thể có tên SVM Support Vector Machine Máy vector h trợ TF Term frequency T n suất thuật ngữ Inverse Document Frequency Nghịch đảo t n suất gh tn to IDF 11 p ie 10 nl w văn Precision 13 Recall Độ xác (độ phủ) d oa 12 an lu Độ ch nh xác (độ hồi ll u nf va tưởng) oi m z at nh z m co l gm @ an Lu n va ac th si ỞĐ U Hiện trường đại học Xây dựng c khoảng sinh viên học viên theo học Hàng ngày ph ng ban trường nhận nhiều vấn đề th c m c sinh viên học viên chương trình đào tạo thông tin lịch học lịch thi hay quy định nhà trường Kênh thông tin chủ yếu nhà trường thông qua website ch nh thức trang quản lý đào tạo sinh viên Các quy định hay thông báo tới sinh viên chủ yếu dạng văn nên gây kh khăn cho sinh viên việc tiếp cận tra cứu thơng tin Ch nh lu an c th c m c sinh viên thường bỏ qua không đọc văn hay thông báo mà sử n va dụng kênh h trợ trực tiếp từ nhà trường thông qua kênh email tn to Theo khảo sát trường Đại học Xây dựng, sinh viên c n hỏi vấn gh đề liên quan đến học tập quy định trường: p ie  45% số sinh viên c n thông tin đáp ứng thông qua việc hỏi bạn w bè lớp trường Trong số đ % hỏi trực tiếp bạn bè, 35% oa nl lại hỏi thơng qua trang fanpage, hội nhóm mạng xã hội facebook d  15% số sinh viên tự tìm hiểu thơng báo quy định đăng tải u nf va trường an lu website thức, website đào tạo kênh truyền thông Nhà  10% số sinh viên hỏi trực tiếp phòng ban cách lên trực tiếp ll oi m nơi làm việc z at nh  30% số sinh viên lại hỏi phịng ban hình thức email Một vấn đề đặt số lượng email câu hỏi sinh viên gửi tới ph ng z ban nhiều ngày c thể lên tới vài chục đến vài trăm câu hỏi Vì việc h @ gm trợ sinh viên mà đặc biệt vào dịp cao điểm đăng ký môn học thi hết học l ph n thường bị tải ph ng ban Đồng thời sinh viên phải chờ đợi việc xử lý m co câu hỏi câu trả lời nên nhiều thông tin phản hồi không kịp thời gây an Lu ảnh hưởng đến trình học tập sinh viên Trong trình học tập sinh viên nội dung liên quan đến quy định thông báo dạng văn n va ac th si 58 "cau_tra_loi": "Trường ĐHXD khơng có hình thức thi lại, em trượt mơn phải học lại để trả nợ môn" } Tài liệu đánh mục để đưa vào thuật toán xếp hạng Okapi BM25 Cụ thể tài liệu đánh mục theo phương pháp tf-idf vector mô tả ph n [2.3.2] 3.2.3 X p hạn văn Để xếp hạng văn bản, tơi sử dụng thuật tốn Okapi BM đ trình bày lu an ph n [2.3.2] va n 3.2.4 K t thực nghiệm gh tn to Để thực nghiệm mơ hình IR tơi tiến hành chia tập liệu sau: ie Về câu hỏi test tơi chọn ngẫu nhiên 50 câu hỏi cặp câu hỏi - câu p trả lời lưu elasticsearch Đ u tiên c n lưu hết tất 400 cặp câu hỏi - câu trả lời tập liệu vào nl w - Sau đ cặp câu hỏi - câu trả lời đ lấy 50 câu hỏi để test Trong an lu - d oa elasticsearch trình test, truy vấn với nội dung câu hỏi thêm điều kiện để loại bỏ va u nf id câu hỏi vừa lấy để đảm bảo câu hỏi đ không c kết trả Ví dụ với cặp câu hỏi-câu trả lời sau: ll - m oi { z at nh "cau_hoi": [ "Em muốn xin thi lại phải ạ", z gm @ "Nhà trường có tổ chức thi lại hay khơng ạ?", "Khi trượt mơn c thi lại hay không th y cô?", l m co "E muốn đăng k thi lại mơn c n điều kiện ạ" an Lu ], n va ac th si 59 "cau_tra_loi": "Trường ĐHXD khơng c hình thức thi lại em trượt mơn phải học lại để trả nợ mơn" } Tôi lưu thành document elasticsearch Sau đ lấy câu hỏi để test: Ví dụ câu "Em muốn xin thi lại phải ạ" relevant đến câu hỏi lại: lu an - "Nhà trường có tổ chức thi lại hay khơng ạ?", - "Khi trượt mơn c thi lại hay không th y cô?", - "E muốn đăng k thi lại mơn c n điều kiện ạ? Nếu xét điểm va trình " n Để lấy câu trả lời đ ng với câu hỏi đưa vào module xếp hạng gh tn to văn tìm cách so sánh câu hỏi người dùng với câu hỏi câu trả lời p ie tập liệu xây dựng từ trước Lý cho việc lựa chọn phương pháp thử nghiệm: so sánh câu hỏi với câu hỏi, câu hỏi với câu trả lời so sánh câu hỏi nl w với câu hỏi câu trả lời Trong thử nghiệm tiến hành đánh giá với d oa thuật toán tách từ (tokenizer) khác với tham số k-top phương pháp an lu đo khác Kết thể theo bảng bên ll u nf va Cách 1: Tìm câu hỏi theo câu hỏi: oi m z at nh z m co l gm @ an Lu Bảng 3.1: Kết tìm kiếm câu hỏi theo câu hỏi n va ac th si 60 Trong kết đo giá trị phép đo thực tìm câu hỏi theo câu trả lời cho kết thấp, với số MAP@K với k = {1, 3} đạt khoảng [0.180, 0.271] Sau đ tiến hành thử nghiệm với việc thực tìm câu hỏi theo câu hỏi, kết thử nghiệm c ng cho bảng đây: Cách 2: Tìm câu hỏi theo câu trả lời Việc tìm câu hỏi theo câu hỏi cho kết tốt với phương pháp đo MAP@K, K = {1, 3, 10} kết việc tìm kiếm nằm khoảng [0.45; 0.53] lu an n va p ie gh tn to d oa nl w Bảng 3.2: Kết tìm kiếm câu hỏi theo câu trả lời an lu Sau thử nghiệm tìm kiếm cách so sánh câu hỏi với câu hỏi, câu hỏi phương pháp lại tiến hành đo với câu trả lời tiến hành kết hợp va ll đây: u nf cách tìm kiếm câu hỏi với câu hỏi câu trả lời Kết cho bảng m oi Cách 3: Tìm câu hỏi theo câu hỏi câu trả lời z at nh z m co l gm @ an Lu n va ac th si 61 Bảng 3.3: Kết áp dụng IR tìm câu hỏi theo câu hỏi câu trả lời lu an Kết nhìn chung khơng thay đổi so với cách số Như thông qua n va thử nghiệm với tham số khác nhận thấy việc thực truy xuất tn to câu trả lời cách so sánh câu hỏi với câu hỏi so sánh câu hỏi với câu trả lời gh cho kết thấp, xây dựng hệ hỏi đáp dựa câu hỏi câu trả p ie lời không khả thi w Sau thực tìm kiếm nhận thấy kết thấp, tiến hành phân oa nl tích lại tập liệu hỏi đáp Tôi tiến hành đưa phương pháp thự sử dụng d việc phân t ch ý định câu hỏi M i câu hỏi thực intent detection an lu intent classification Intent ý định người hỏi, Ví dụ câu "E thưa chả va hạn e trả hết mơn mà tích lu chưa đủ 2.0 e có dc nhận để làm đồ án tốt nghiệp ll u nf khơng ạ" ý định người dùng hỏi điều kiện làm đồ án tốt nghiệp Trong oi m câu "vì điều kiện dịch bệnh nên e chưa thể lên trường đ ng học ph e sinh z at nh viên năm cuối c n đồ án tốt nghiệp kính mong th y mở tài khoản cho e đăng kí nốt đồ án tốt nghiệp" intent đăng ký đồ án Nếu dùng từ khoá m co l gm @ giống TF-IDF) nội dung hai câu z phương pháp đề cập trước đ (BM an Lu n va ac th si 62 Cà đặt mơ hình phân lớp ý định 3.3 Phân lớp ý định (intent detection) thực phương pháp text classification, tức với m i câu hỏi người ta tiến hành phân loại vào số loại intent định nghĩa trước 3.3.1 Xây dựng mơ hình phân lớp ý định Để thực phương pháp tiến hành sau: a Đánh nhãn l ệu Để xây dựng mơ hình xác định ý định câu hỏi, tơi sử dụng ontology lu an cặp “câu hỏi - ý định” thu thập từ sinh viên trường Đại học Xây dựng Tôi n va đưa tốn việc xây dựng mơ hình phân lớp với class ý định tn to người hỏi Ví dụ sau câu hỏi tập liệu: [ gh { p ie "content": " em bị quên gmail trường 18145015 student hcmute edu vnmong phòng đào tạo giúp em reset mật khẩu", "intent": "TAI_KHOAN" }, { "content": "Tổng số tín chương trình đào tạo tối thiểu tối đa bao nhiêu?", "intent": "KHAC", "answer": "tối thiểu 120 tối đa 140" }, { "content": "Thầy cô cho e hỏi, e gọi nghĩa vụ quân quê, e muốn xin giấy xác nhận sinh viên trường xin đâu ?", "intent": "THU_TUC_SV" } ] d oa nl w ll u nf va an lu oi m z at nh Toàn nh n intent đánh cách thủ công Các câu hỏi nh m ý định: ['DIEM', 'HOC_BONG', 'DKMH', 'HOC_PHI', 'KHAC', z @ chia thành gm 'LICH_HOC' 'TAI_KHOAN' 'THU_TUC_SV' 'TN' 'TOEIC'] Trong đ : „DIEM‟ bao gồm câu hỏi th c m c Điểm - „HOC_BONG‟ bao gồm câu hỏi th c m c Học bổng - „DKMH‟ bao gồm câu hỏi th c m c việc đăng ký môn học - „HOC_PHI‟ bao gồm câu hỏi th c m c học phí m co l - an Lu n va ac th si 63 - … - „KHAC‟ bao gồm câu hỏi không thuộc vào nhóm lu an n va ie gh tn to p Hình 3.1: Số lượng câu hỏi intent nl w b Phân lớp ý định bằn mơ hình SV : oa Để thực phân lớp ý định câu hỏi tiến hành thử nghiệm với mơ hình d SVM Câu hỏi biểu di n cách cộng vector biểu di n từ (Rn) lại lu va an thành vector (Rn) Với cách biểu di n tiến hành thử nghiệm với u nf phương pháp biểu di n từ: word2vec one-hot encoding ll Sau biểu di n câu hỏi thành vector đưa vào mơ hình SVM để tiến m oi hành huấn luyện cho mơ hình phân lớp Kết sau thực với z at nh phương pháp trên: z 0.38 0.38 an Lu 0.56 0.38 m co F1-score l 0.56 gm Recall word2vec @ Precision One-hot encoding 0.56 Bảng 3.4: Kết toán phân lớp ý định mơ hình SVM n va ac th si 64 Nhận xét: Việc xác định ý định thuật toán SVM toán cho kết tương đối thấp c Phân lớp ý định bằn deep le rn n Vì kết SVM thấp nên tơi tiến hành sử dụng mơ hình LSTM đ đề cập ph n [2.4] để tiến hành phân lớp Trong ph n thử nghiệm số mơ hình mạng nơ ron khác để tiến hành so sánh Các tham số áp dụng cho mơ hình phân lớp sau: Đối với mơ hình Word2Vec Tiếng việt tơi sử dụng tham số huấn  luyện dựa ngữ liệu Tiếng Việt tổng hợp từ Wikipedia với kích lu an thước vector n va min_count = window size = k ch thước tập từ vựng 10.000 để loại bỏ biểu di n từ có số l n xuất < Sau sử dụng pretrain word2vec, tiến hành huấn luyện dựa tập liệu hỏi đáp mà tơi xây dựng trước nhằm mục đích giúp mơ hình học thêm cách biểu diễn từ khơng có tập từ vựng p ie gh tn to  Đối với mơ hình LSTM tơi tiến hành training từ đ u, cịn với BERT sử  nl w dụng pretrained phoBERT sau đ thay đổi layer cuối (activation layer) d oa để đưa BERT toán phân lớp với k lớp Word Embedding F1-score ll u nf Model va an lu Kết sau trình huấn luyện trình bày bảng đây: oi m LSTM Word2Vec LSTM Fastext CNN + LSTM Word2Vec CNN + LSTM Fastext BiGRU Fastext baseBERT Fastext Bảng 3.5: Kết huấn luyện mô hình phân loại ý định z at nh z ờng liệu cho toán phân lớp ý định m co 3.3.2 Tăn l gm @ 0.906 0.912 0.866 0.879 0.903 0.933 Sau tăng cường liệu đ đề cập ph n [2.2.5] ta có tập liệu an Lu n va ac th si 65 3.3.3 K t huấn luyện s u kh tăn ờng liệu để huấn luyện mơ hình mục tăng cường Sử dụng tập liệu liệu kết dựa tập kiểm tra sau: Model Word Embedding F1-score lu LSTM Word2Vec 0.917 LSTM Fastext 0.923 CNN + LSTM Word2Vec 0.871 CNN + LSTM Fastext 0.882 BiGRU Fastext 0.913 baseBERT Fastext 0.953 Bảng 3.6: Kết huấn luyện mơ hình phân lớp ý định sau fine-tune an va n Như với việc áp dụng k thuật tăng cường liệu cho mơ hình phân lớp gh tn to ý định độ xác mơ hình đ tăng đáng kể K t thự h ện s u kh k t hợp IR phân lớp ý định p ie 3.4 w Sau áp dụng k thuật để cải tiến mô hình phân lớp ý định, tơi tiến hành oa nl đưa mơ hình phân lớp ý định để lọc câu trả lời không liên quan đến ý định d câu hỏi Kết trình bày bảng đây: NDCG@K Kết hợp ý định u nf TF-IDF MAP@K Không kết hợp ý định va an K lu Indexing 0.821 0.44 ll z at nh 0.852 0.51 0.44 0.84 0.44 0.44 0.86 @ 0.841 0.83 z 0.44 0.44 oi BM25 0.837 Không kết hợp ý định 0.82 m Kết hợp ý định 0.51 l gm Bảng 3.7: Kết toán sau kết hợp IR phân lớp ý định m co Như mơ hình đ cho kết tốt, với tham số indexing BM25 sử dụng ViTokenizer cho kết MAP@K [3.2.4] đạt 0.866 an Lu n va ac th si 66 So sánh vớ hệ thốn hỏ đáp t ơn tự 3.5 Phân loại theo lĩnh vực mà hệ thống hỏi đáp phục vụ chia hệ thống hỏi đáp thành hai loại sau: (1) Hệ thống hỏi đáp lĩnh vực hẹp: Hệ thống liên quan đến câu hỏi lĩnh vực cụ thể y học, giáo dục… (2) Hệ thống hỏi đáp lĩnh vực rộng: Hệ thống liên quan đến câu hỏi g n tất thứ Luận văn mục tiêu xây dựng hệ thống hỏi đáp lĩnh vực hẹp cụ thể việc h trợ sinh viên trả lời th c m c câu hỏi phạm vi trường Đại lu an học Xây dựng Hệ thống hỏi đáp sử dụng câu trả lời có sẵn chuẩn bị n va trước tập liệu để trả lời câu hỏi tương tự ý định hỏi nội dung câu tn to hỏi, coi hệ thống hỏi đáp dựa tri thức gh Trong báo khảo sát [24], tơi tiến hành tóm t t kết hệ thống p ie hỏi đáp tương tự thể biểu đồ sau trục tung thể tỉ lệ câu trả d oa nl w lời xác, trục hồnh thể mơ hình hỏi đáp: ll u nf va an lu oi m z at nh Hình 3.2: Kết hệ thống hỏi đáp dựa tri thức z Có thể thấy tỉ lệ câu trả lời xác tổng số câu hỏi hệ hỏi @ gm đáp nằm khảng 49% 89% Kết phụ thuộc vào hai điều kiện: m co (2) miền câu hỏi toán phục vụ l (1) Thuật toán phương pháp xử lý ngôn ngữ tự nhiên dùng hệ thống an Lu n va ac th si 67 KẾT LUẬN VÀ KIẾN NGHỊ K t đạt đ ợ Về mặt lý thuyết: Luận văn đ tổng hợp kiến thức xây dựng hệ thống hỏi đáp tự động sử dụng k thuật học máy Về thực nghiệm: Tác giả đ hoàn thành việc cài đặt thử nghiệm hệ thống hỏi đáp h trợ sinh viên Trường Đại học Xây dựng Áp dụng hệ thống hỏi đáp tự động giải nhu c u hỏi đáp, h trợ sinh viên trường Đại học Xây dựng mang lại hiệu cao, giúp sinh viên d dàng tiếp cận thông tin từ ph a nhà trường đồng thời làm lu an giảm khối lượng công việc tiếp nhận giải th c m c, nhu c u thông tin từ n va ph a sinh viên cho ph ng ban trường Các tiếp cận xây dựng hệ thống trả câu trả lời cung cấp ph ng ban Trường phục vụ cho việc trả lời gh tn to lời tự động dựa truy xuất thơng tin sử dụng liệu câu hỏi – p ie tự động Để câu trả lời tự động dựa truy xuất thơng tin xác, việc xác định ý định câu hỏi sử dụng ý định câu hỏi để loại bỏ câu trả lời sai không nl w phù hợp với câu hỏi mang lại kết tốt d oa Ngoài kết đạt mang tính ứng dụng, luận văn đưa an lu kết việc áp dụng k thuật xử lý ngôn ngữ tự nhiên cho Tiếng Việt Các va kết làm tài liệu tham khảo cho người quan tâm đến việc nghiên oi m Nhữn đ ểm òn hạn h ll u nf cứu hệ thống hỏi đáp tự động z at nh Với việc tiếp cận dựa truy xuất thơng tin cịn nhiều hạn chế, hệ thống trả lời tự động hoạt động tốt với câu hỏi giống thường lặp lặp z @ lại hữu ích với câu hỏi có nội dung sinh viên câu hỏi l gm mang tính chất tư vấn h trợ cho cá nhân Ngồi thơng tin hệ thống hỏi đáp phục vụ h trợ cho sinh viên c n phải cập nhật theo thay đổi m co nhà trường sách, quy chế quy định Nếu không thông tin không an Lu cập nhật thường xuyên dẫn đến l i thời, sai thông tin làm ảnh hưởng đến kết n va ac th si 68 c ng độ tin cậy hệ thống hỏi đáp Vì c n phải bổ sung cập nhật liệu thường xuyên cho hệ thống K n n hị nhữn vấn đề t p theo Để kết luận văn c thể áp dụng vào thực tế, c n phải hoàn thiện liệu câu hỏi – câu trả lời cách đ y đủ Ngoài thông tin liên quan đến câu trả lời c n chức c thể quản lý thay đổi giúp cập nhật câu trả lời, bổ sung thêm câu trả lời có thay đổi mặt thơng tin Nhà trường cung cấp Ngồi luận văn c n đ ng g i lại thành sản phẩm để triển lu khai thực tế từ đ thu thập phản hồi người dùng giúp cải tiến nâng an cao chất lượng độ tin cậy hệ thống hỏi đáp Hệ thống c ng c n phải cập nhật va n liên tục để đảm bảo thơng tin ln xác cung cấp cho người dùng p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 69 TÀI LIỆU THAM KHẢO [1] M A C Soares and F S Parreiras “A literature review on question answering tech- niques paradigms and systems ” Journal of King Saud UniversityComputer and Infor- mation Sciences, 2018 [2] X Yao “Feature-driven question answering with natural language alignment ” Ph D dissertation Johns Hopkins University [3] D A Ferrucci “Introduction to “this is watson” ” IBM Journal of lu Research and Devel- opment, vol 56, no 3.4, pp 1:1–1:15, May 2012 an [4] B F Green Jr, A K Wolf, C Chomsky and K Laughery “Baseball: an va n automatic question-answerer ” in Papers presented at the May 9-11, 1961, western tn to joint IRE- AIEE-ACM computer conference ACM, 1961, pp 219–224 gh [5] W A Woods and R Kaplan “Lunar rocks in natural english: p ie Explorations in natural language question answering ” Linguistic structures processing, vol 5, pp 521–569, 1977 w oa nl [6] A MishraandS K Jain “Asurveyonquestionansweringsystemswithclassifi d cation ” Journal of King Saud University-Computer and Information Sciences, vol lu an 28, no 3, pp 345–361, 2016 u nf va [7] M Sanderson and W B Croft “The history of information retrieval research ” Pro- ceedings of the IEEE, vol 100, no Special Centennial Issue, pp ll oi m 1444–1451, 2012 z at nh [8] M Fridah Nyamisa “A survey of information retrieval techniques ” Advances in Net- works, vol 5, p 40, 01 2017 z [9] H P Luhn “A statistical approach to mechanized encoding and @ gm searching of literary information ” IBM Journal of research and development, vol l 1, no 4, pp 309–317, 1957 98 an Lu retrieval ” Cornell University Tech Rep m co [10] G Salton E A Fox and H Wu “Extended boolean information n va ac th si 70 [11] E A Fox and S Sharan “A comparison of two methods for soft boolean operator interpretation in information retrieval ” 986 [12] C D Paice “Soft evaluation of boolean search queries in information retrieval sys- tems ” Information Technology Research Development Applications, vol 3, no 1, pp 33–41, 1984 [13] G Salton, A Wong, and C.-S Yang “A vector space model for automatic indexing ” Communications of the ACM, vol 18, no 11, pp 613–620, 1975 [14] S M Wong W Ziarko and P C Wong “Generalized vector spaces lu model in informa- tion retrieval ” in Proceedings of the 8th annual international an n va ACM SIGIR conference on Research and development in information retrieval [15] J BeckerandD Kuropka “Topic-based vector model ”in space gh tn to ACM, 1985, pp 18–25 p ie Proceedings of the 6th international conference on business information systems, 2003, pp 7–12 nl w [16] A Polyvyanyy and D Kuropka “A quantitative evaluation of the d oa enhanced topic-based vector space model ” an lu [17] S Deerwester, S T Dumais, G W Furnas, T K Landauer, and R va Harshman “In- dexing by latent semantic analysis ” Journal of the American u nf society for information science, vol 41, no 6, pp 391–407, 1990 ll [18] S E Robertson and K S Jones “Relevance weighting of search m oi terms ” Journal of the American Society for Information science, vol 27, no 3, pp z at nh 129–146, 1976 [19] S Robertson, H Zaragoza et al “The probabilistic relevance z and beyond ” Foundations and Trends⃝R in Information Retrieval, l gm vol 3, no 4, pp 333– 389, 2009 @ framework: Bm The computer journal, vol 29, no 6, pp 481–485, 1986 m co [20] C J Van Rijsbergen “A non-classical logic for information retrieval ” an Lu n va ac th si 71 [21] G.Amatiand C.J.Van Rijsbergen, “Probabilistic models of information retrieval based on measuring the divergence from randomness ” ACM Transactions on Information Systems (TOIS), vol 20, no 4, pp 357–389, 2002 [22] Dat Quoc Nguyen and Anh Tuan Nguyen; “PhoBERT: Pre-trained language models for Vietnamese” [23] Ateret Anaby-Tavor,1 Boaz Carmeli,1, Kantor,1 George Kour,1,2, Esther Goldbraich,1 Amir Segev Shlomov,1,3, Naama Tepper,1 Naama Zwerdling “Do Not Have Enough Data? Deep Learning to the Rescue!” in The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20) lu [24] Lopez V an Uren V Sabou M and Motta E n va Answering fit for the Semantic Web?: a Survey” “Is Question Universität Bielefeld p ie gh tn to Germany, (2011) d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 72 Tôi cam đoan đ thực việc kiểm tra mức độ tương đồng nội dung luận văn thông qua ph n mềm DoIT cách trung thực đạt mức độ kết tương đồng 12% toàn nội dung luận văn Bản luận văn kiểm tra qua ph n mềm cứng luận văn đ nộp để bảo vệ trước hội đồng Nếu sai xin chịu hình thức kỷ luật theo quy định hành Học viện Hà Nội, ngày 18 tháng 05 năm 2021 HỌC VIÊN CAO HỌC lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si

Ngày đăng: 12/07/2023, 17:31

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan