HỌC SÂU SUỐT ĐỜI TƯƠNG TÁC VÀ ỨNG DỤNG VÀO CHATBOT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin

65 5 0
HỌC SÂU SUỐT ĐỜI TƯƠNG TÁC VÀ ỨNG DỤNG VÀO CHATBOT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Hợp HỌC SÂU SUỐT ĐỜI TƯƠNG TÁC VÀ ỨNG DỤNG VÀO CHATBOT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thơng tin HÀ NỘI – 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Hợp HỌC SÂU SUỐT ĐỜI TƯƠNG TÁC VÀ ỨNG DỤNG VÀO CHATBOT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS-TS Hà Quang Thụy Cán đồng hướng dẫn: ThS.NCS Lê Hoàng Quỳnh HÀ NỘI - 2020 TĨM TẮT Tóm tắt: Trong năm gần đây, với tính tiện dụng, thơng minh độ sẵn có, hệ thống chatbot có mặt lĩnh vực, thực việc tư vấn, giải đáp thắc mắc trị chuyện giải trí với người Hạn chế lớn chatbot “độ thơng minh” cịn thấp “thế giới đóng” (closed world) sở tri thức cố định từ khởi tạo phạm vi trả lời hạn chế Tiếp cận “thế giới mở” (open world), mở rộng sở tri thức chatbot hoạt động hay “học làm việc” (on-the-job learning) nhờ tương tác chatbot người dùng, thu hút quan tâm đặc biệt nhiều nhóm nghiên cứu, có nhóm nghiên cứu Bing Liu cộng Đại học Iilinois Chicago (University of Illinois at Chicago) từ năm 2018 tới Cách thức chatbot đưa câu tương tác để nhận tri thức người dùng, hỗ trợ trực tiếp câu trả lời với người dùng bổ sung tri thức vào sở tri thức thành phần cốt lõi học làm việc Thông qua việc khảo sát công phu hai mơ hình học làm việc chatbot LILI CILK S Mazumder cộng đề xuất, khóa luận phát biểu tốn học làm việc qua tương tác chatbot đề xuất mơ hình giải tốn khóa luận, tập trung vào thành phần đưa câu tương tác để nhận tri thức (các kiện hỗ trợ: support facts) từ người dùng Cài đặt phần mềm nhóm tác giả cung cấp, tiến hành thực nghiệm hai kho ngữ liệu Wordnet (18 quan hệ với 300 ba kiện cho quan hệ) phần ngữ liệu Freebase (60 quan hệ với số lượng kiện cho quan hệ), khóa luận thu kết phù hợp với Wordnet Từ khóa: chatbots, lifelong meachine learning, học suốt đời, học thông qua tương tác i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu không chép Những nội dung trình bày khóa luận tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu hướng dẫn PGS.TS Hà Quang Thụy ThS Lê Hoàng Quỳnh Tất kiến thức tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng danh mục tài liệu tham khảo khóa luận Hà Nội, ngày … tháng … năm 2020 SINH VIÊN Nguyễn Thị Hợp ii LỜI CẢM ƠN Lời đầu tiên, xin gửi lời biết ơn sâu sắc đến thầy giáo PGS-TS Hà Quang Thụy ThS Lê Hồng Quỳnh tận tình bảo, hướng dẫn, giúp đỡ tơi suốt q trình tơi thực khóa luận Tơi xin gửi lời cảm ơn chân thành đến thầy, cô khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt cho tơi kiến thức bổ ích để tơi có đủ hành trang, kiến thức phục vụ cơng việc sau Tôi xin cảm ơn tập thể sinh viên K61T - Trường Đại học Công Nghệ ủng hộ khuyến khích tơi q trình nghiên cứu thực khóa luận Tơi xin gửi lời cảm ơn tới thầy cô, anh chị bạn phịng thí nghiệm Cơng nghệ tri thức khoa học liệu KT-Lab trao đổi, thảo luận để tơi hồn thành đề tài cách tốt Tôi chân thành cám ơn tác giả Sahisnu Mazumder (University of Illinois at Chicago) cung cấp tài ngun hỗ trợ để tơi hồn thành khóa luận Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình bạn bè, người thân bên cạnh, tin tưởng động viên suốt trình thực đề tài Hà Nội, ngày … tháng … năm 2020 SINH VIÊN Nguyễn Thị Hợp iii MỤC LỤC TÓM TẮT .i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC HÌNH VẼ vii DANH MỤC CÁC BẢNG viii DANH MỤC TỪ VIẾT TẮT ix MỞ ĐẦU CHƯƠNG GIỚI THIỆU HỌC SUỐT ĐỜI TRONG CHATBOT 1.1 Học suốt đời 1.1.1 Định nghĩa 1.1.2 So sánh mơ hình học suốt đời với mơ hình học máy 1.1.3 Quy trình học máy suốt đời .7 1.2 Học suốt đời ứng dụng chatbot .7 1.2.1 Các vấn đề chatbot 1.2.2 Học máy suốt đời thông qua tương tác ứng dụng chatbot 10 1.3 Bài toán phạm vi khóa luận .11 1.3.1 Bài tốn khóa luận 11 1.3.2 Phạm vi khóa luận .11 Kết luận Chương 12 CHƯƠNG MỘT SỐ KỸ THUẬT HỌC SÂU SUỐT ĐỜI THÔNG QUA TƯƠNG TÁC TRONG CHATBOT 13 2.1 Học làm việc 14 2.1.1 Các bước “học làm việc” .14 2.1.2 Học làm việc trò chuyện 14 2.2 Học tri thức giới mở 15 iv 2.2.1 Cách tiếp cận học tri thức tương tác với người dùng 15 2.2.2 Xử lý thông tin học giới mở thông qua tương tác .16 2.3 Giới thiệu Học suốt đời thông qua tương tác suy luận 17 2.3.1 Hướng tiếp cận toán LiLi .17 2.3.2 Mô tả hệ thống LiLi .18 2.3.3 Cách thức hoạt động LiLi 22 2.3.4 Ưu nhược điểm phương pháp LiLi 23 2.4 Giới thiệu học liên tục thông qua tương tác suy luận 24 2.4.1 Hướng tiếp cận phương pháp CILK 24 2.4.2 Thành phần hệ thống 26 2.4.3 Ưu nhược điểm phương pháp 27 2.4.4 So sánh kỹ thuật CILK với LiLi 27 2.5 Kỹ thuật áp dụng khóa luận .28 Kết luận Chương 28 CHƯƠNG ĐỀ XUẤT MƠ HÌNH 29 3.1 Mô hình học suốt đời thơng qua tương tác chatbot 29 3.2 Cơ sở tri thức 29 3.3 Xử lý truy vấn người dùng .29 3.4 Mơ hình suy luận .30 3.4.1 Phương pháp học nhúng sở tri thức thần kinh .31 3.4.2 Từ chối suy luận KB .34 3.5 Tương tác với người dùng .35 3.5.1 Xếp hạng đối ứng trung bình .37 3.3 Quy trình hoạt động mơ hình 38 Kết luận Chương 40 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ .41 4.1 Môi trường thực nghiệm 41 4.1.1 Phần cứng 41 v 4.1.2 Phần mềm 41 4.2 Dữ liệu thực nghiệm 43 4.2.1 Mô tả kịch thực nghiệm 43 4.2.2 Mô tả liệu toán 43 4.3 Cấu hình hệ thống .47 4.4 Kết thực nghiệm thảo luận 49 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 53 TÀI LIỆU THAM KHẢO 54 vi DANH MỤC HÌNH VẼ Hình 1.1 Mơ hình học máy truyền thống Hình 1.2 Mơ hình học suốt đời Hình 1.3 Mơ hình xây dựng chatbot phổ biến Hình 2.1 Kiến trúc học suốt đời kết hợp "học làm việc"Error! Bookmark not defined Hình 3.1 Mơ hình học suốt đời thơng qua tương tác chatbot 29 Hình 3.2 Ma trận thực thể E quan hệ R 33 vii DANH MỤC CÁC BẢNG Bảng 2.1 Các bit trạng thái ý nghĩa chúng 21 Bảng 2.2 Hành động mô tả chúng 22 Bảng 3.1 Kết mơ hình chuyển đổi 38 Bảng 4.1 Cấu hình hệ thống thi hành thực nghiệm 41 Bảng 4.2 Danh sách phần mềm tiến hành thực nghiệm 43 Bảng 4.3 Mô tả liệu 46 Bảng 4.4 Mơ tả cấu hình tham số mơ hình 48 Bảng 4.5 MRR mơ hình 50 Bảng 4.6 Giải thích kí hiệu đánh giá MRR 50 Bảng 4.7 Đánh giá thực thể trả lời 51 Bảng 4.8 Giải thích kí hiệu đánh giá thực thể trả lời 51 viii  Nếu người dùng cung cấp với ba từ r r ℱ e cập nhật sở tri thức ℱ e sở tri thức mở rộng thành Trong trình, % ba r j+1 j (dòng 7-12) ℱ e đánh dấu ngẫu nhiên ba đào tạo (1- )% đánh dấu validation triples lưu trữ chúng j r  Tiếp theo, tập ba train e vd e tr tr, lấy mẫu ngẫu nhiên từ j+1 tập ba xác nhận r vd, liên quan tới r e tương ứng (dòng 13- 14) đào tạo đánh giá ℳ j Trong tập mẫu, đặt tỉ lệ mà train ba validation alpha để trì phân phối tập huấn xác thực xác thực Kích thước cho ( rtr, etr) thiết lập tối đa Ntr (điều chỉnh dựa yêu cầu đào tạo theo thời gian thực)  Tiếp theo, ℳ j đào tạo với ( r e tr) tr, ℳ j+1[dòng 15] Chú ý, đào tạo ℳ j với ( r tr, cập nhật thành e tr) r e trước suy qj Sau đánh giá ℳ j+1với ( đệm hiệu xuất j thành j+1 khuyến khích ℳ j hợp r vd, e vd) để cập nhập (dòng 16)  Cuối cùng, ℳ j+1 chatbot gọi đến để thực suy luận qj cho dự đoán câu trả lời thực thể e’ từ j+1 (dòng 17) từ chối qj câu trả lời không tồn j+1 Chú ý chatbot đào tạo ℳ j suy luận q (dòng 13-17) e’, q thuộc j+1 Kết luận Chương Trong chương khóa luận trình bày hệ thống học suốt đời thơng qua tương tác chatbot Chi tiết thành phần quy trình giải tốn khóa luận Quy trình giải toán gồm bước: (i) Bước - Tương tác với người dùng hệ thống phát tri thức chưa biết câu truy vấn người dùng tất tri thức tồn bỏ qua bước (ii) Bước 2: Thực suy luận tri thức vừa cập nhật để đưa câu trả lời từ chối trả lời câu hỏi người dùng Nội dung chương trình bày kết thực nghiệm đánh giá phương pháp đề xuất 40 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm Trong khóa luận chạy thực nghiệm cho Học sâu suốt đời thông qua tương tác ứng dụng chatbot với hai liệu Wordnet Freebase 4.1.1 Phần cứng Cấu hình phần cứng sử dụng khóa luận thực nghiệm thể Bảng 4.1 đây: Thành phần Chỉ số CPU Intel Core i5 2.50 GHz RAM 8.00 GB Hệ điều hành Ubuntu18-64 bit Bảng 4.1 Cấu hình hệ thống thi hành thực nghiệm 4.1.2 Phần mềm Danh sách phần mềm sử dụng thực thi thực nghiệm mô tả Bảng 4.2 đây: STT Tên phần mềm Pycharm Tên tác giả Chức Tên nguồn Môi trường để viết chương trình chạy ngơn ngữ python https://ww w.jetbrains com/pych arm/ 41 Tensorflow Thư viện mã nguồn mở https://ww cung cấp khả xử lí tính tốn số học dựa w.tensorflo w.org/ biểu đồ mô tả thay đổi liệu, node phép tính tốn học cịn cạnh biểu thị luồng liệu Wordnet Bộ sở tri thức https://ww giới thực trích xuất từ web w.cs.cornel l.edu/~crist ian/Echoes _of_power html Bộ sở tri thức giới thực xây dựng dựa công đồng https://dev elopers.go ogle.com/f reebase Freebase Module chuẩn hóa liệu Nguyễn Thị Hợp Chuyển đổi định sang sở tri thức sang dạng ba Module tương tác Sahisnu Mazumder , Nguyễn Thị Hợp Phát tri thức chưa biết câu truy vấn người dùng, tìm kiếm câu trả lời tri thức người dùng, cập nhật sở tri thức 42 Mơ hình dự Sahisnu Nhúng thực thể, đốn câu trả lời Mazumder quan hệ; tính điểm hợp lệ ba; thực dự đoán câu trả lời Bảng 4.2 Danh sách phần mềm tiến hành thực nghiệm 4.2 Dữ liệu thực nghiệm 4.2.1 Mô tả kịch thực nghiệm Sử dụng người dùng mô (một chương trình) để thực đánh giá mơ hình Mỗi người dùng mơ có sở tri thức Ku để trả lời câu hỏi chatbot có tập câu truy vấn ( q) dùng để đưa câu truy vấn cho chatbot Trong q chứa tập câu truy vấn q có cấu trúc dạng (e, r, ?) (?, r, e) đọc chatbot Trong thực tế, người dùng đưa câu truy vấn cho chatbot, đánh giá hiệu hệ thống trừ người dùng biết câu trả lời Để đánh giá hiệu chatbot trả lời cho truy vấn q ∈ q cài đặt mô phỏng, thu thập câu q Ban đầu, chatbot triển khai với sở tri thức ban đầu (Kb) mơ hình suy luận M đào tạo với tất ba Kb Trong giai đoạn huấn luyện ban đầu, chia ngẫu nhiên ba Kb thành hai phần, tập ba huấn luyện tập ba xác nhận vd vd với tỷ lệ 9: 1; đào tạo mơ hình M với tr, tr tập ba sử dụng để điều chỉnh tham số siêu mô hình đệm ngưỡng tương ứng tr, vd, cập nhật liên tục sau (với ba thu thập được) trình tương tác với người dùng mơ Khóa luận tạo tri thức người dùng mô Ku, Kb tập truy vấn sở tri thức KB (1) Wordnet, (2) Freebase 4.2.2 Mơ tả liệu tốn Cơ sở tri thức Wordnet: 43 q từ WordNet sở liệu từ vựng mối quan hệ ngữ nghĩa từ 200 ngôn ngữ WordNet liên kết từ thành quan hệ ngữ nghĩa từ đồng nghĩa, trái nghĩa, … Các từ đồng nghĩa nhóm thành từ đồng nghĩa với định nghĩa ngắn ví dụ sử dụng WordNet coi kết hợp mở rộng từ điển từ điển đồng nghĩa Mục đích Wordnet sử dụng ứng dụng phân tích văn tự động trí tuệ nhân tạo Vì Wordnet sở tri thức thể quan hệ từ nên số lượng quan hệ sở tri thức giới hạn 18 quan hệ với quan hệ có nhiều cặp thực thể thể có quan hệ Các thực thể sở tri thức thể rõ ràng nhờ quan hệ với thực thể từ vựng khác Nên việc hiểu thực thể, quan hệ Wordnet dễ dàng Cơ sở tri thức Freebase Freebase sở tri thức lớn xây dựng dựa cộng tác bao gồm liệu cấu thành chủ yếu thành viên cộng đồng Đây sưu tập trực tuyến liệu có cấu trúc thu thập từ nhiều nguồn, bao gồm cá nhân, nguồn wiki Freebase nhằm tạo nguồn tài nguyên toàn cầu cho phép người (và máy móc) truy cập thơng tin chung hiệu Cơ sở tri thức wordnet xây dựng dựa nhiều nguồn với nhiều miền tri thức khác nên số lượng quan hệ, đặc biệt thực thể lớn Rất khó để có đầy đủ thông tin giúp cho việc học tốt thực thể Dữ liệu sử dụng thực nghiệm Với tập sở tri thức Wordnet, Freebase, xây dựng kho lưu trữ ba lớn sử dụng làm KB gốc (Korg) sau đó, tạo sở tri thức Ku người dùng, KB sở (Kb) chatbot q từ Korg, Trong Wordnet, có 18 loại quan hệ r (với quan hệ r có ≥ 300 ba) lưu chúng Korg lấy 18 mối quan hệ để tạo q, Kb Sau xáo trộn danh sách 18 mối quan hệ để chọn khoảng 35% quan hệ làm quan hệ chưa biết coi phần lại (65%) quan hệ biết Đối với mối quan hệ r biết , danh sách ba riêng biệt cho r Korg, chọn (tối đa) 250 ba vào Kb chọn ngẫu nhiên 20% làm truy vấn 44 đưa q thêm tập hợp chọn ngẫu nhiên ba lại với phần cịn lại (khơng có danh sách 250) thêm vào Ku (để cung cấp kiện hỗ trợ liên quan đến mối quan hệ / thực thể biết kém, hỏi Đối với mối quan hệ r không xác định (khơng biết Kq), tơi xóa tất ba r khỏi Korg, chọn ngẫu nhiên 20% ba số chúng làm ba truy vấn cho quan hệ r chưa biết đưa vào q Phần cịn lại 80% r khơng xác định thêm vào Ku (để cung cấp kiện hỗ trợ cho chatbot) Lưu ý, người dùng cung cấp kiện hỗ trợ cho quan hệ truy vấn không xác định thực thể truy vấn khơng xác định, chatbot khơng thể trả lời xác truy vấn Tại thời điểm này, q bao gồm ba truy vấn liên quan đến quan hệ biết chưa biết, tất thực thể biết Để tạo truy vấn q có thực thể khơng xác định, chúng tơi chọn ngẫu nhiên 20% thực thể ba D , xóa tất ba liên quan đến thực thể khỏi Korg thêm chúng vào Ku Bây giờ, Korg q giảm xuống Kb (KB sở) Tiếp theo, với ba truy vấn (h, r, t) q, chuyển đổi ba thành truy vấn đầu q = (?, r, t) [hoặc truy vấn đuôi q = (h, r ,?)] cách xóa ngẫu nhiên đầu đuôi thực thể Chúng thu thập câu trả lời cho q ∈ q dựa ba quan sát Korg để đánh giá chatbot Lưu ý, ba truy vấn tạo (có thực thể trả lời) q khơng trực tiếp Kb Ku Tương tự với liệu Freebase với kích thước lớn nên khóa luận trích xuất phần thu được 60 quan hệ, chọn tất 60 quan hệ đưa vào tạo Tuy nhiên Freebase có lượng ba quan hệ r q Như đề cập trước đó, ba Kb chia ngẫu nhiên thành 90% liệu xác thực 10% để mô giai đoạn đào tạo ban đầu chatbot Chi tiết liệu mô tả bảng đây: Cơ sở tri thức WordNet Freebase Quan hệ (Korg / Kb) 18/12 388/328 Thực thể (Korg / Kb) 13 595 / 13 150 45 Bộ ba (Korg / Kb) 53 573 / 33 159 20059/15605 Quan hệ kiểm tra (knw/unk) 18 (12 / 6) 60(42/18) 29846 / 3323 / 1180 15555/50/280 Khởi tạo Train/Valid/test Các mẫu câu truy vấn ( q ) [(e, r, ?) (?, r, e)] % ba chứa e chưa biết 8.05 0.71 % ba chứa r chưa biết 30.25 9.6 % ba chứa e r chưa biết 5.25 27.1 Bảng 4.3 Mô tả liệu Cơ sở tri thức KB chatbot giúp chatbot trả lời truy vấn lưu file Wordnet_edgelist_pra0.tsv, Freebase_edgelist_pra0.tsv lưu trữ với cấu trúc sau: shoestring shoe _has_part-inv splintering splinter _derivationally_related_form stop barricade _derivationally_related_form hold pushcart trainer manager _has_part-inv _hypernym-inv 46 trim trimming _derivationally_related_form-inv compound nitrate _hypernym-inv motor motorist _derivationally_related_form-inv fellow society _derivationally_related_form-inv Với hàng biểu thị ba tri thức có dạng "s t r" s thực thể đầu, t thực thể cuối liên kết với quan hệ r Cơ sở tri thức Ku người dùng u lưu file user_freebase.txt, user_wordnet.txt tập câu truy vấn dùng để sinh truy vấn liệu đánh giá q hiệu suất mô hình lưu file test_wordnet.txt, test_freebase.txt có chung định dạng sau: _hyponym ->front-;-storefront##neaten-;-set##drive-;ambitiousness##organ-;-tongue##terra_firma-;-isthmus##request-;excuse##hydroxy_acid-;-salicylic_acid##cleanup-;-sweeping##device-;instrument##sound-;-chime##END _derivationally_related_form ->reject-;-rejection##taste-;-tasty##parcel-;tract##presentation-;-present##existence-;-existent##rising-;meeting##shrivel-;-shrinking##philosopher-;-philosophical##tip-;leaner##END _hypernym ->pour-;-run##shop-;-obtain##judge-;-settle##yardmaster-;trainman##rationing-;-parcelling##untrustworthiness-;-trait##perquisite-;benefit##END Có cấu trúc chung : _r ->s -;-t ##s -;-t ## ##END 1 2 Trong r quan hệ, s thực thể đầu, t thực thể cuối liên kết với quan hệ r i i 4.3 Cấu hình hệ thống Các tham số mơ hình cấu bảng đây: 47 Tham số Ý nghĩa α = 0.9 Tỷ lệ tập liệu đào tạo liệu xác nhận (Dvd:Dtr) ρ = 20% Số % để đánh giá thực thể, quan hệ vào tập tri thức phổ biến dùng vào phiên hội thoại lr = 0,001 Tỷ lệ học mơ hình mơ hình embd_dim = 250 Số chiều nhúng thực thể quan hệ init_train_epoch = 100/140 Khởi tạo đào tạo 100 epoch với Wordnet 140 với Freebase training_epoch = Số lượng epoch đưa đào tạo training_batch = 128 Kích thước lơ liệu num_facts = Số lượng câu hỏi tối đa cho thực thể chưa biết num_clues = Số lượng câu hỏi tối đa cho quan hệ chưa biết num_facts = num_clues = Bảng 4.4 Mơ tả cấu hình tham số mơ hình 48 4.4 Kết thực nghiệm thảo luận 4.4.1 Kết thực nghiệm Kết thực nghiệm mô hình mơ tả bảng 4.5 bảng 4.7 đây: Bảng 4.5 mơ tả hiệu xuất dự đốn phiên khác mơ hình với giới hạn tương tác với người dùng 1-3 (hỏi người dùng tối đa câu hỏi liên quan tới quan hệ chưa biết tối đa câu hỏi liên quan tới thực thể chưa biết) 2-5 (hỏi người dùng tối đa câu hỏi liên quan tới quan hệ chưa biết tối đa câu hỏi liên quan tới thực thể chưa biết) Ta thấy hiệu xuất dự đốn chung mơ hình hai phiên gần tương đương Khi thực thể quan hệ truy vấn người dùng tồn sở thức chatbot hiệu xuất dự đốn đạt mức cao ~0.45 hai phiên kho ngữ liệu Thêm điều đáng ý hiệu xuất dự đốn khơng biết quan hệ cao khơng biết thực thể, lý số lượng quan hệ so với thực thể nên việc đoán học quan hệ dễ dàng so với dự đoán thực thể Rel-K/Ent-K Rel-K/Ent-U Rel-U/Ent-K Rel-U/Ent-U Wordnet Số ba 666 95 357 62 MRR (1-3) 0.4553 0.031 0.163 0.0222 MRR (2-5) 0.4573 0.0312 0.1077 0.02 27 76 Freebase Số ba 175 49 MRR (1-3) 0.463 0.001 0.012 0.2327 Bảng 4.5 MRR mơ hình Trong Kí hiệu Ý nghĩa Rel-K Quan hệ truy vấn tồn sở tri thức chatbot Ent-K Thực thể truy vấn tồn sở tri thức chatbot Rel-U Quan hệ truy vấn sở tri thức chatbot Ent-U Thực thể truy vấn sở tri thức chatbot MRR (1-3) Đánh giá mơ hình với num_facts = num_clues = MRR (2-5) Đánh giá mơ hình với num_facts = num_clues = Bảng 4.6 Giải thích kí hiệu đánh giá MRR Bảng 4.7 mô tả số lượng câu trả lời đốn mơ hình có tồn sở tri thức ban đầu hay khơng Ta thấy số lượng câu trả lời chatbot dự đoán thực thể trả lời tồn sở tri thức cao chiếm tới (917/1180) với Wordnet(2-5) Và từ bảng ta thấy chatbot dự doán câu trả lời thực thể trả lời không tồn sở tri thức với tỷ lệ (66/1180) với Wordnet(2-5) Kết tiết thể bảng 50 1-1 1-0 0-0 0-1 Wordnet (2-5) 917 178 19 66 Wordnet (1-3) 892 194 22 72 Freebase(1-3) 239 35 3 Bảng 4.7 Đánh giá thực thể trả lời Trong đó: Kí hiệu Ý nghĩa 1-1 Thực thể trả lời tồn KB chatbot suy luận câu trả lời 1-0 Thực thể trả lời tồn KB chatbot suy luận câu trả lời 0-0 Thực thể trả lời không tồn KB chatbot suy luận câu trả lời 0-1 Thực thể trả lời không tồn KB chatbot suy luận câu trả lời Bảng 4.8 Giải thích kí hiệu đánh giá thực thể trả lời Lưu ý: Khóa luận sử dụng liệu tệp test_.txt nơi lưu trữ ba hoàn chỉnh, cách đưa ba vào xóa ngẫu nhiên thu câu truy vấn khuyết thực thể lưu trữ thực thể vừa xóa để đánh giá câu trả lời chatbot, nên tập câu trả lời khơng đầy đủ 4.4.2 Thảo luận kết 51 Như trình bày phần trước, hệ thống chatbot đề xuất sử dụng tốt môi trường triển khai thực thế, nhận nhiều ba truy vấn nhiều phiên (do đó, tích lũy nhiều kiện hơn) từ người dùng khác theo thời gian Hiện khóa luận thực đàm thoại phiên truy vấn với người dùng mô Và chatbot đáp ứng yêu cầu học tập kiến thức cách thêm kiện hỗ trợ nhận từ người dùng vào sở tri thức KB Bộ ba truy vấn dự đốn tri thức có sẵn sở tri thức không thêm vào chúng kiến thức chưa xác minh tính đắn Tuy nhiên, thực tế, chatbot lưu trữ ba dự đoán sở tri thức KB sau kiểm tra tính xác chúng thơng qua xác minh chéo trò chuyện với người dùng khác số trò chuyện liên quan tương lai cách hỏi họ cách thông minh Lưu ý chatbot khơng xác minh dự đốn với người dùng hỏi câu hỏi / truy vấn q người dùng (các) câu trả lời cho q Tuy nhiên, khơng có vấn đề có (các) câu trả lời q hỏi q cho số người dùng khác u trò chuyện liên quan tương lai u câu trả lời q Tại thời điểm này, chatbot kết hợp q vào KB đồng thời, tự đào tạo cách sử dụng ba q 52 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Kết luận Khóa luận tập trung nghiên cứu hai kỹ thuật giúp chatbot học suốt đời thơng qua tương tác với người dùng LiLi CILK tác giả Sahisnu Mazumder cộng (2018, 2019) áp dụng vào tốn học tri thức thơng qua tương tác với liệu Freebase, Wordnet với kết sau: Đề xuất mơ hình học thơng qua tương tác chatbot với bước tương tác với người dùng suy luận câu trả lời từ sở tri thức Hai bước trình bày chi tiết phần khóa luận Tiến hành thực nghiệm với liệu Freebase, Wordnet Do thời gian có hạn nên khóa luận giải câu truy vấn người dùng có dạng (s, r, ?) (?, r, t) với liệu tiếng Anh Hạn chế khóa luận Các cơng việc tương lai Hiện khóa luận thực thực nghiệm sở tri thức có sẵn Wordnet Freebase; công việc tương lai xây dựng liệu Tiếng Việt thực việc triển khai thực tế chatbot để chatbot hoạt động môi trường thực tế với nhiều người dùng (mỗi người dùng có tri thức khác nhau) nhiều phiên đối thoại 53 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Marjan Ghazvininejad, Chris Brockett, Ming-Wei Chang, Bill Dolan, Jianfeng Gao, Wen-tau Yih, and Michel Galley A knowledge-grounded neural conversation model arXiv preprint arXiv:1702.01932, 2017 [2] Z Chen, B Liu Lifelong Machine Learning (2nd edition) Morgan & Claypool Publishers, 2018 [3] Bing Liu Learning on the Job: Online Lifelong and Continual Learning AAAI 2020: 13544-13549 [4] Sahisnu Mazumder, Nianzu Ma, Bing Liu Towards a Continuous Knowledge Learning Engine for Chatbots arXiv:1802.06024, 2018 [5] Sahisnu Mazumder, Bing Liu, Shuai Wang, Nianzu Ma Lifelong and Interactive Learning of Factual Knowledge in Dialogues arXiv:1907.13295, 2019 [6] Ni Lao, Tom M Mitchell, William W Cohen Random Walk Inference and Learning in A Large Scale Knowledge Base EMNLP 2011: 529-539 [7] Antoine Bordes, Nicolas Usunier, Alberto García-Durán, Jason Weston, Oksana Yakhnenko Translating Embeddings for Modeling Multi-relational Data NIPS 2013: 2787-2795 [8] Ni Lao, William W Cohen Relational retrieval using a combination of pathconstrained random walks Mach Learn 81(1): 53-67, 2010 [9] Jason Weston, Antoine Bordes, Oksana Yakhnenko, Nicolas Usunier Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction EMNLP 2013: 1366-1371 [10] Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, Li Deng Embedding Entities and Relations for Learning and Inference in Knowledge Bases arXiv:1412.6575, 2014 54

Ngày đăng: 10/05/2021, 01:12

Tài liệu cùng người dùng

Tài liệu liên quan