KPDL Giữa kỳ Nhóm 13 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐHQGHN KHOA CÔNG NGHỆ THÔNG TIN Addressing Inquiries about History An Efficient and Practical Framework for Evaluating Open domain Chatbot Consistency BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU Ngành Công nghệ thông tin Giảng viên hướng dẫn PGS TS Hà Quang Thụy Nhóm thực hiện Nhóm 13 19020427 Đỗ Đức Tâm 19020232 Nguyễn Văn Chính 19020400 Nguyễn Khánh Quân Hà Nội – 2022 Lời cam đoan Chúng tôi xin cam đoan bài tập lớn này là do nhóm chúng tôi tự nghiên cứu và thực h.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN KHOA CÔNG NGHỆ THÔNG TIN Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU Ngành: Công nghệ thông tin Giảng viên hướng dẫn: PGS.TS Hà Quang Thụy Nhóm thực hiện: Nhóm 13 19020427 Đỗ Đức Tâm 19020232 Nguyễn Văn Chính 19020400 Nguyễn Khánh Quân Hà Nội – 2022 Lời cam đoan Chúng xin cam đoan tập lớn nhóm chúng tơi tự nghiên cứu thực hiện, khơng có chép sản phẩm người khác Tất tài liệu tham khảo liệt kê rõ phần cuối báo cáo nằm giới hạn cho phép theo quy định Nếu sai thật, nhóm chúng tơi xin chịu hồn tồn trách nhiệm Nhóm sinh viên thực Đỗ Đức Tâm Nguyễn Văn Chính Nguyễn Khánh Quân Bảng Mục Lục Bảng Mục Lục Giới thiệu báo tác giả 1.1 Giới thiệu chung báo 1.2 Giới thiệu tác giả 1.2.1 Zekang Li 1.2.1 Jinchao Zhang 1.2.1 Zhengcong Fei 1.2.1 Yang Feng 1.2.1 Jie Zhou 4 4 5 Phân tích nội dung 2.1 Chủ đề 2.2 Đóng góp báo 2.3 Cấu trúc báo 2.4 Phương pháp đề xuất 2.4.1 Giai đoạn đặt câu hỏi 2.4.2 Giai đoạn nhận biết mâu thuẫn Đánh giá từ người 2.4.3 Chỉ số quán xếp hạng bot 6 7 10 11 11 Quá trình thực nghiệm 3.1 Chatbots 3.2 Cài đặt thử nghiệm 12 12 13 Kết thực nghiệm 4.1 Đánh giá tính hiệu 4.2 Hiệu thời gian 4.3 Tính ổn định xếp hạng 14 15 17 18 Mở rộng 19 Giới thiệu báo tác giả 1.1 Giới thiệu chung báo Bài báo nhóm em giao phân tích có tên “Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency” , công bố Hội nghị Quản lý thông tin tri thức 2013 1.2 Giới thiệu tác giả Theo công bố báo“Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency”, nghiên cứu liên quan thực tác giả, làm việc Phòng nghiên cứu thông tin tri thức(ICT/CAS), Đại học viện khoa học Trung Quốc (UCAS), Trung tâm nhận dạng mẫu Wechat AI, công ty Tencent 1.2.1 Zekang Li Thông tin chung tác giả: DBLP: https://dblp.org/pid/243/2436.html Google Scholar: https://scholar.google.com/citations?hl=vi&user=ZmfOwN8AAAAJ Số lượng cơng bố: 20 (Theo DBLP) Tổng số trích dẫn: 311 h-index:5 | h-index (2017 - nay): i10-index:5 | i10-index (2017 - nay): Tóm tắt lý lịch khoa học: Hiện Học viên Cao học Phòng nghiên cứu trọng điểm Xử lý Thông tin Thông minh, ICT, CAS, Giáo sư Yang Feng cố vấn Trước B.E tốt nghiệp Đại học Khoa học Công nghệ Huazhong vào tháng năm 2019 Mối quan tâm nghiên cứu nằm Xử lý ngôn ngữ tự nhiên, đặc biệt nhiệm vụ Hệ thống đối thoại Thị giác-Ngôn ngữ Đồng thời tham gia vào Khoa học Nhận thức ứng dụng Hệ thống Đối thoại 1.2.1 Jinchao Zhang Thông tin chung tác giả: DBLP: https://dblp.org/pid/127/3143.html Google Scholar:https://scholar.google.com/citations?user=vH9YLsAAAAAJ&hl=en Số lượng công bố: 82 (Theo DBLP) Tổng số trích dẫn: 566 h-index: 13 | h-index (2017 - nay): 12 i10-index: 15 | i10-index (2017 - nay): 14 Tóm tắt lý lịch khoa học: Bằng Tiến sĩ lý thuyết phần mềm máy tính Học viện Khoa học Trung Quốc, Trung Quốc, năm 2018 Hiện làm việc với Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Ltd với tư cách Nhà khoa học Nghiên cứu Cấp cao Các mối quan tâm nghiên cứu anh bao gồm học sâu để xử lý ngôn ngữ tự nhiên, đặc biệt hệ thống đối thoại phiên dịch máy 1.2.1 Zhengcong Fei Thông tin chung tác giả: DBLP: https://dblp.org/pid/267/2616.html Google Scholar: https://scholar.google.com/citations?hl=en&user=_43YnBcAAAAJ Số lượng cơng bố: 16 (Theo DBLP) Tổng số trích dẫn: 69 h-index: | h-index (2017 - nay): i10-index: | i10-index (2017 - nay): Tóm tắt lý lịch khoa học: Tốt nghiệp thủ khoa Đại học Khoa học Công nghệ Nam Kinh, Học viên Cao học Phòng nghiên cứu trọng điểm Xử lý Thông tin Thông minh, ICT, CAS thực tập sinh Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Ltd 1.2.1 Yang Feng Thông tin chung tác giả: DBLP: https://dblp.org/pid/07/6095-4.html Google Scholar: https://scholar.google.com/citations?user=UYIw2qAAAAAJ&hl=en&oi=ao Số lượng công bố: 77 (Theo DBLP) Tổng số trích dẫn: 1157 h-index: 19 | h-index (2017 - nay): 15 i10-index: 27 | i10-index (2017 - nay): 24 Tóm tắt lý lịch khoa học: Yang Feng giáo sư Viện Công nghệ Máy tính, Học viện Khoa học Trung Quốc, nơi nhận phD vào năm 2011 Cô làm việc Đại học Sheffield Viện Khoa học Thông tin, Đại học Nam California từ năm 2011 đến năm 2014 Hiện dẫn đầu ngơn ngữ tự nhiên nhóm quy trình ICT / CAS mối quan tâm nghiên cứu cô xử lý ngôn ngữ tự nhiên, chủ yếu tập trung vào dịch máy đối thoại Cô nhận Giải thưởng Best Longest Paper ACL 2019 1.2.1 Jie Zhou Thông tin chung tác giả: DBLP: https://dblp.org/pid/00/5012-16.html Semantic Scholar: https://www.semanticscholar.org/author/Jie-Zhou/49178343 Số lượng công bố: 214 (Theo DBLP) Tổng số trích dẫn: 4442 (Theo Semantic Scholar) h-index: | h-index (2017 - nay): (Theo Google Scholar) i10-index: | i10-index (2017 - nay): Tóm tắt lý lịch khoa học: Jie Zhou nhận cử nhân USTC vào năm 2004 Tiến sĩ cấp Học viện Khoa học Trung Quốc năm 2009, Giám đốc cấp cao Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Inc Sở thích nghiên cứu anh bao gồm xử lý ngơn ngữ tự nhiên học máy Phân tích nội dung 2.1 Chủ đề Trong năm gần đây, chatbot thông minh miền mở đạt tiến vượt bậc phát triển phương pháp tiếp cận đào tạo large-scale (Devlin cộng sự, 2019; Radford cộng sự, 2019; Brown cộng sự, 2020) lượng lớn liệu đàm thoại chất lượng cao (Dinan cộng sự, 2019; Baumgartner cộng sự, 2020; Smith cộng sự, 2020) Mặc dù thành công đạt chối cãi có kết thú vị, cịn chặng đường dài để xây dựng chatbot miền mở thực giống người Trong báo này, nhóm tác giả đề xuất Giải thắc mắc lịch sử (AIH), framework hiệu thiết thực để đánh giá tính qn Ở giai đoạn trị chuyện, AIH cố gắng giải câu hỏi thích hợp lịch sử đối thoại để khiến chatbot khai báo lại kiện ý kiến lịch sử Nhóm nghiên cứu thực trò chuyện chatbot, điều hiệu tương tác người với bot làm giảm bớt thiên vị chủ quan Bằng cách nhanh chóng có phiên đối thoại chứa câu trả lời có khả mâu thuẫn cao Ở giai đoạn nhận dạng mâu thuẫn sử dụng thẩm phán người mơ hình suy luận ngơn ngữ tự nhiên (NLI) để nhận biết liệu câu trả lời cho câu hỏi có mâu thuẫn với lịch sử hay khơng Cuối cùng, xếp hạng chatbot theo thống kê mâu thuẫn 2.2 Đóng góp báo Addressing Inquiries about History (AIH), framework hiệu thiết thực để đánh giá tính quán chatbot miền mở Framework sử dụng để xếp hạng chatbot khác liên quan đến khả qn với họ trị chuyện Những đóng góp tác giả tóm tắt sau: • Đề xuất Giải thắc mắc lịch sử (AIH), framework hiệu thiết thực để đánh giá tính qn chatbot miền mở • Các thử nghiệm cho thấy AIH tạo đánh giá tính quán hiệu quả, hiệu đáng tin cậy Framework phát hành công cụ sẵn sàng sử dụng để đánh giá tính quán chatbot AIH tạo điều kiện cung cấp đánh giá tiêu chuẩn cho công việc phát triển chatbot miền mở tự quán tương lai 2.3 Cấu trúc báo Bài báo “Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency” chia làm tổng cộng mục chính, trình bày theo thứ tự sau: Mở đầu: Tóm tắt chung bối cảnh toán vấn đề đặt Giới thiệu: Nói lên nhược điểm phương pháp đời trước đó, hướng giải giới thiệu Framework AIH Công việc liên quan: Nói phương pháp đánh giá tĩnh đánh giá tương tác Cách tiếp cận: Cung cấp nhìn tổng quan framework AIH, sau mơ tả giai đoạn tiến hành framework: Yêu cầu, nhận biết mâu thuẫn xếp hạng chatbots Thiết lập thử nghiệm: Liệt kê hệ thống đối thoại sử dụng thử nghiệm, sau mơ tả chi tiết cài đặt thử nghiệm Kết thực nghiệm: Tiến hành thí nghiệm để minh họa tính hiệu lực, hiệu tính ổn định AIH framework đề xuất 7 Nghiên cứu thêm: Thảo luận thêm hiệu ba phần framework bao gồm tạo câu hỏi, phát mâu thuẫn đánh giá thích người Kết luận công việc tương lai Tài liệu tham khảo 2.4 Phương pháp đề xuất Để ước tính khả quán, câu hỏi ý kiến và kiện lịch sử đối thoại chèn vào trò chuyện bot-bot Sau đó, phản hồi tương ứng thu thập đánh giá công cụ tự động đánh giá người Quy trình làm việc AIH Framework thể Hình Cụ thể, có năm “tác nhân” framework: Chatbot1, Chatbot2, Người hỏi, Bộ đánh giá tự động đánh giá từ người Chatbot1 Chatbot2 thực thể tham gia vào trị chuyện bot-bot Inquirer trích xuất thực thể liên quan đến quan điểm kiện tạo câu hỏi dựa thực thể Trình đánh giá tự động nói chung mơ hình phát mâu thuẫn để tự động đánh giá xem phản hồi từ Chatbot2 có quán hay không Đánh giá từ người sử dụng để đánh giá xác Về mặt hình thức, giả sử nhóm N chatbot {B1, , BN} sẵn sàng đánh giá khả quán Đối với cặp chatbot (được gọi Chatbot1 Chatbot2), chúng tơi để Chatbot1 nói chuyện với Chatbot2 K lượt Lưu ý Chatbot2 cần đánh giá (i) Trong giai đoạn tìm hiểu, trị chuyện Chatbot1 Chatbot2, u2k phát ngôn Chatbot2 tạo ra, Inquirer trích xuất thực thể ý kiến và kiện, sau hỏi Chatbot2 câu hỏi qk thực thể này, k số lượt Chatbot trả lời câu hỏi qk tạo câu trả lời tương ứng Lưu ý bỏ qua thao tác tạo câu hỏi thực thể trích xuất (ii) Trong giai đoạn nhận dạng mâu thuẫn, sử dụng mơ hình nơ ron (ví dụ: Mơ hình suy luận ngôn ngữ tự nhiên) sử dụng thẩm phán người để định xem cặp phát ngơn {u2k, rk} có tồn vấn đề khơng qn hay khơng Chúng tơi thu thập M hội thoại từ cặp chatbot, sau tính tốn thứ tự xếp hạng tính quán Bằng cách này, phân biệt khả quán chatbots cách hiệu nhanh chóng Sau đây, giới thiệu giai đoạn điều tra giai đoạn nhận biết mâu thuẫn 2.4.1 Giai đoạn đặt câu hỏi Dựa quan sát công việc trước (Nie cộng sự, 2020), trò chuyện người với bot bot tự nhiên, mâu thuẫn dễ xảy trò chuyện kiện ý kiến lặp lặp lại, đặc biệt sau câu hỏi tương tự Do đó, để bắt chước q trình xảy mâu thuẫn vậy, chúng tơi tạo chatbots để tạo câu trả lời cách đặt câu hỏi liên quan đến chatbots kiện ý kiến trước Trong điều kiện này, việc tạo câu hỏi thích hợp quan trọng Do đó, trước tiên, chúng tơi trích xuất thực thể kiện ý kiến từ phát ngôn lịch sử, sau sử dụng mơ hình thần kinh để tạo câu hỏi thực thể trích xuất Trích xuất thực thể Xét chatbot thường tạo mâu thuẫn trò chuyện kiện ý kiến, áp dụng công cụ Nhận dạng đối tượng đặt tên Stanza (Qi cộng sự, 2020), gói phân tích ngơn ngữ tự nhiên phổ biến, để trích xuất thực thể đặt tên từ u2k có chứa người, tổ chức , vị trí, v.v Ví dụ: câu nói “i would love to visit New York next year.”, trích xuất hai thực thể: “New York” “Next year” Mơ hình khởi tạo câu hỏi Để khởi tạo câu hỏi, sử dụng mơ hình UniLM (Dong et al., 2019) tinh chỉnh tập liệu SQuAD (Rajpurkar et al., 2016) với nhiệm vụ tạo câu hỏi (Wangperawong, 2020) Chúng tận dụng việc triển khai công khai checkpoint Trong framework chúng tôi, với thực thể trích xuất trước phát biểu, UniLM tạo câu hỏi phù hợp cho thực thể Ví dụ: với “New York” “Tôi muốn đến thăm New York vào năm tới.”, Mơ hình tạo “Where will you visit next year?” Sau đó, chúng tơi chọn ngẫu nhiên câu hỏi chèn vào trò chuyện bot-bot 2.4.2 Giai đoạn nhận biết mâu thuẫn Trong framework, câu hỏi qk dựa câu trả lời u2k Chatbot2 trước đó, nên câu trả lời từ Chatbot2 phải quán với câu trả lời u2k Do đó, đánh giá tự động đánh giá từ người xem xét câu trả lời rk câu nói u2k Trình đánh giá tự động Để đánh giá tự động, Trình đánh giá tự động thường mơ hình phát mâu thuẫn Trình đánh giá tự động lấy câu trả lời rk trả lời Chatbot2 câu nói trước u2k làm đầu vào xuất điểm số mâu thuẫn yk Nó xây dựng dạng: yk = fθ (rk, u2k), (1) fθ hàm phát θ tham số So với phương pháp phát mâu thuẫn khác xem xét tồn đối thoại, Trình đánh giá tự động hạn chế tiếng ồn có tồn đối thoại Trên thực tế, chọn mơ hình Roberta-large (Liu cộng sự, 2019) tinh chỉnh liệu Suy luận ngôn ngữ tự nhiên đa thể loại (Williams cộng sự, 2018) để triển khai Trình đánh giá tự động Đánh giá từ người Trong truyền thống phương pháp đánh giá tính quán đối thoại, thẩm phán người yêu cầu đọc toàn đối thoại đưa điểm số quán tổng thể, thường Theo chúng tôi, phương pháp có chi phí cao thống bên thấp khơng có hướng dẫn cụ thể, khó để thẩm phán người đưa điểm tổng thể cho toàn đối thoại (Mehri Eskenazi ´, 2020) Trong framework chúng tôi, đánh giá từ người yêu cầu đưa định câu trả lời rk Chatbot2 trả lời có quán với câu trả lời trước u2k hay khơng, điều cụ thể dễ dàng so với phương pháp truyền thống Kết là, chi phí giảm, chất lượng đánh giá tăng lên Bên cạnh đó, thích người framework chi tiết nhiều so với phương pháp truyền thống, cung cấp thêm thơng tin cho chu trình phát triển hệ thống đối thoại 2.4.3 Chỉ số quán xếp hạng bot Dựa kết trước đó,chúng ta có danh sách xếp hạng chatbots khác khả quán Về mặt hình thức, cặp chatbot {Bi, Bj}, thu thập M hội thoại Đối với cặp câu hỏi, việc phát mâu thuẫn thực cách so sánh yk với ngưỡng τ: (2) Tỷ lệ mâu thuẫn chatbot Bj cặp chatbot Bij tính sau: (3) m số câu hỏi cặp đối thoại M tổng số cặp câu hỏi Đối với tỷ lệ mâu thuẫn tổng thể chatbot Bj tính sau: (4) Cuối cùng, xếp hạng chatbot cách sử dụng tỷ lệ mâu thuẫn tổng thể Quá trình thực nghiệm Trong phần này, trước tiên liệt kê hệ thống đối thoại sử dụng thử nghiệm, sau mơ tả chi tiết cài đặt thử nghiệm 3.1 Chatbots Một số chatbot miền mở phổ biến lựa chọn thí nghiệm Blender (BL) (Adiwardana cộng sự, 2020a) đào tạo trước tập liệu Reddit (Baumgartner cộng sự, 2020) sau tinh chỉnh tập liệu hội thoại chất lượng cao có thích người (BST), bao gồm bốn tập liệu: Blended Skill Talk (Smith et al., 2020), Wizard of Wikipedia (Dinan et al., 2019), ConvAI2 (Dinan et al., 2020) Empathetic Dialogues (Rashkin et al., 2019) Bằng cách tinh chỉnh, Blender học kỹ đàm thoại kết hợp tương tác, kiến thức, đồng cảm tính cách Blender có ba kích thước mơ hình: 90M, 2.7B 9.4B Vì mơ hình tham số 2.7B đạt hiệu suất tốt (Adiwardana cộng sự, 2020a) nên phiên 2.7B sử dụng thử nghiệm Plato (PL) (Bao et al., 2020) chatbot miền mở, đào tạo trước với tập liệu Reddit tinh chỉnh với tập liệu BST, cho vượt trội Blender Theo đánh giá (Bao cộng sự, 2020), phiên tham số 1.6B lựa chọn thí nghiệm DialoGPT (DG) (Zhang cộng sự, 2020) đào tạo sở GPT-2 (Radford cộng sự, 2019) cách sử dụng nhận xét Reddit Có ba kích thước mơ hình: 117M, 345M 762M Nhóm tác giả tinh chỉnh phiên 762M liệu BST DialoFlow (DF) (Li cộng sự, 2021a, b) phương pháp hàng đầu nghiên cứu Đánh giá Đối thoại Tương tác DSTC9 (Gunasekara cộng sự, 2021) Nhóm tác giả tái tạo mơ hình DialoFlow dựa GPT2-large (Radford cộng sự, 2019) tinh chỉnh tập liệu BST 3.2 Cài đặt thử nghiệm Áp dụng bốn mơ hình thử nghiệm để đánh giá hiệu AIH Tương tác Bot-Bot Đối với tương tác bot-bot, lượt tương tác tối đa đặt thành 15 Tất chatbot khai thác Lấy mẫu hạt nhân (Holtzman cộng sự, 2020) với p = 0,9 tạo phản hồi Đối với cặp chatbot thu thập 200 đối thoại Chú thích người Để xác minh tính hiệu framework, nhóm tác giả tiến hành đánh giá người Đối với trò chuyện bot-bot theo framework, sử dụng ba chuyên gia thích nhân tạo từ cơng ty thích liệu thương mại để thích riêng ba trường: liệu chatbot sử dụng cho việc đặt câu hỏi có tạo câu hỏi thích hợp hay khơng, Chatbot2 có trả lời câu hỏi cách phù hợp hay không câu trả lời từ chatbot2 có mâu thuẫn không với lịch sử đối thoại Công ty cung cấp điều kiện làm việc thoải mái mức lương công cho thích viên Đối với cặp chatbot lấy mẫu ngẫu nhiên 50 đoạn hội thoại cần thích Quyết định cuối tính tốn thơng qua biểu Trong Tương tác tự nhiên người với bot Đánh giá chuyên gia, triển khai bốn chatbot máy chủ từ xa thiết kế giao diện web Con người trị chuyện với chatbot ngẫu nhiên thông qua giao diện web đưa điểm quán mà không cần biết họ trò chuyện với chatbot Tương tác Tự nhiên Con người-Bot Đối với chatbot thu thập đối thoại cách mời sinh viên tình nguyện từ trường đại học thông qua giao diện web Những người tham gia hướng dẫn để trò chuyện với chatbot cách tự nhiên Họ yêu cầu ký vào thỏa thuận trước trò chuyện: (i) Họ từ 18 tuổi trở lên vào giao diện web để trò chuyện với chatbots (ii) Họ cho biết tương tác họ tạo liệu văn ẩn danh sử dụng cho nghiên cứu hệ thống đối thoại Nhóm tác giả lọc đoạn hội thoại có 20 lần trước thức đánh giá Lấy trung bình điểm từ ba chuyên gia làm điểm quán tổng thể Lưu ý Đánh giá chuyên gia Chú thích người thực trước đánh giá tự động Tương tác tự nhiên người bot thực sau đánh giá tự động Tất đánh giá người độc lập với đánh giá tự động Kết thực nghiệm Trong phần này, tiến hành thí nghiệm để minh họa tính hiệu lực, hiệu tính ổn định AIH framework đề xuất 4.1 Đánh giá tính hiệu Báo cáo kết xếp hạng chuyên gia đánh giá chuyên gia, đánh giá tự động đánh giá người theo framework AIH tương ứng Xếp hạng Chuyên gia Bảng cho thấy điểm quán mà chuyên gia chấm điểm cho chatbot khác Chúng ta thấy Plato đạt điểm quán chuyên gia tốt nhất, lên đến 0,85 Và xếp hạng tính quán cho bốn chatbot là: Plato> DialoGPT> DialoFlow> Blender, coi tham chiếu vàng Bảng Điểm quán chuyên gia chấm cho bot Điểm cao tức hoạt động tốt Kết Đánh giá Tự động Bảng cho thấy tỷ lệ mâu thuẫn cặp chatbot đánh giá tự động Tỷ lệ mâu thuẫn thấp có nghĩa tính qn tốt Tên cột tên hàng đại diện cho Chatbot1 Chatbot2 Giá trị "Trung bình" tên cột thể tỷ lệ mâu thuẫn tổng thể chatbot Giá trị "Trung bình" hàng tên coi khả khiến chatbot khác khai báo lại kiện ý kiến có khả mâu thuẫn Trong đánh giá tự động, xếp hạng tính quán cho chatbot Plato> DialoGPT> DialoFlow> Blender, giống với đánh giá chuyên gia Blender đạt tỷ lệ mâu thuẫn cao Bảng 3: Tỷ lệ mâu thuẫn cặp chatbot Tên cột tên hàng đại diện cho Chatbot Chatbot Kết Đánh giá Con người Nhóm nghiên cứu liệt kê kết đánh giá cuối Bảng Như dự đốn, BL có tỷ lệ mâu thuẫn cao Trong đó, đánh giá người cung cấp xếp hạng quán tương tự: Plato> DialoGPT> DialoFlow> Blender trước Tóm lược Cả đánh giá tự động đánh giá người framework đưa xếp hạng hiệu suất với chuyên gia, điều chứng tỏ framework phổ biến đánh giá hiệu tính quán chatbots 4.2 Hiệu thời gian Các phương pháp đánh giá tính quán trước với tương tác người tốn nhiều thời gian, điều làm chậm nghiêm trọng chu kỳ phát triển đối thoại Trong phần này, nhóm tác giả cố gắng minh họa framework Giải thắc mắc Lịch sử đề xuất tiết kiệm thời gian chi phí giúp q trình phát triển hệ thống đối thoại so với phương pháp khác Bảng 4: Hiệu thời gian Framework AIH so với phương pháp đánh giá truyền thống với tương tác người bot “Time” đại diện cho thời gian để tạo trò chuyện thời gian để thích mâu thuẫn trị chuyện “Contradiction” biểu thị số lượng mâu thuẫn trung bình trị chuyện (trung bình 15 lượt) Đường gạch ngang biểu thị thời gian bỏ qua Như Bảng 4, so sánh chi phí thời gian hai khía cạnh: (i) thời gian để tạo câu hỏi, (ii) thời gian để phát mâu thuẫn trò chuyện Framework giải thắc mắc Lịch sử dựa trò chuyện bot-bot nên thời gian tạo trị chuyện bỏ qua, trò chuyện người với bot khoảng phút cho trò chuyện Đối với thời gian phát mâu thuẫn, phương pháp trước khoảng phút để xem xét toàn đối thoại, framework đề xuất, khoảng 24 giây thích người bị bỏ qua để đánh giá tự động Bên cạnh đó,cũng so sánh số lượng mâu thuẫn trị chuyện Như trình bày Bảng 4, framework, chatbot tạo nhiều mâu thuẫn so với phương pháp trước Những mâu thuẫn phát hữu ích cho nhà phát triển chatbot để cải thiện tính qn chatbot Tóm lược Framework phát nhiều mâu thuẫn với thời gian nhiều so với phương pháp trước Tương ứng, framework giải thắc mắc thúc đẩy trình phát triển tính qn chatbot 4.3 Tính ổn định xếp hạng Một yêu cầu quan trọng framework đánh giá việc thực lặp lặp lại quy trình dẫn đến kết giống Nhóm nghiên cứu đo lường số lượng trò chuyện cặp chatbot yêu cầu để đảm bảo xếp hạng ổn định Nhóm tác giả lấy mẫu ngẫu nhiên gồm S hội thoại cho cặp chatbot tính tốn xếp hạng qn cách sử dụng đánh giá tự động, Sˆ ∈ {1, · · ·, 200} Lặp lại quy trình lấy mẫu phụ 1000 lần tính tốn độ xác việc đạt xếp hạng với xếp hạng trước chuyên gia Như Hình 2, S> ˆ 100, kết xếp hạng bốn chatbot giống với chuyên gia 95% trường hợp đảm bảo xếp hạng ổn định Sự ổn định thứ hạng phụ thuộc vào tầm quan trọng thứ hạng Bảng cho thấy điểm số quán DialoGPT DialoFlow gần Nhóm nghiên cứu áp dụng phân tích độ ổn định cịn sót lại, chúng tơi loại bỏ chatbot Hình cho thấy loại bỏ chatbot DialoGPT DialoFlow ngồi, ổn định đạt với Sˆ = 50 hội thoại Hình 2: Các thí nghiệm độ ổn định việc xếp hạng Trục x biểu thị số lượng hội thoại cho cặp chatbot Trục y biểu thị tỷ lệ đạt xếp hạng với kết chun gia Tóm lược Số lượng trị chuyện cần thiết để đánh giá ổn định AIH Framework phụ thuộc vào chatbot kiểm tra nhiều trò chuyện thường dẫn đến đánh giá ổn định Trong trường hợp chung, 75 hội thoại đủ để phát mâu thuẫn hợp lệ Mở rộng Do vấn đề tương đối lạ nên bọn em chưa kiếm báo phù hợp để liên kết đến phần mở rộng Bọn em tiếp tục tìm hồn thiện báo cáo cuối kỳ ... tác giả Theo công bố báo? ?Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency? ??, nghiên cứu liên quan thực tác giả, làm việc... báo Bài báo nhóm em giao phân tích có tên ? ?Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency? ?? , công bố Hội nghị Quản lý thông... quán tương lai 2.3 Cấu trúc báo Bài báo ? ?Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency? ?? chia làm tổng cộng mục chính,