Nghiên cứu một số bài toán trong hỏi đáp cộng đồng TT

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HÀ THỊ THANH NGHIÊN CỨU MỘT SỐ BÀI TOÁN TRONG HỎI ĐÁP CỘNG ĐỒNG Ngành: Hệ thống thơng tin Mã số: 9480104 TĨM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TIN HÀ NỘI−2021 Cơng trình hoàn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: HD1: PGS.TS Nguyễn Thị Kim Anh HD2: TS Nguyễn Kiêm Hiếu Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội Vào hồi , ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Bối cảnh nghiên cứu Nhu cầu đặt câu hỏi tìm kiếm câu trả lời người dùng hàng ngày lớn Nguồn thông tin lớn thơng tin tìm kiếm mạng thơng qua trang web Trong hệ thống hỏi đáp cộng đồng (Community Question Answering - CQA) hệ thống hiệu phổ biến việc tìm kiếm thống tin web Một người dùng muốn có câu trả lời họ phải đăng câu hỏi lên hệ thống chờ thành viên khác tham gia trả lời Qua thời gian, hệ thống hỏi đáp cộng đồng chứa lượng thơng tin lớn hữu ích Từ hệ thống phát sinh toán cần giải giúp cho người dùng truy cập thông tin cách thuận tiện hơn, rút ngắn thời gian truy cập tìm kiếm thông tin Thứ nhất, hệ thống hỏi đáp cộng đồng, câu hỏi đưa lên hệ thống, câu hỏi thú vị nhiều người quan tâm câu hỏi nhận nhiều câu trả lời Thậm chí có câu hỏi có đến hàng trăm câu trả lời Bên cạnh thuận lợi người hỏi nhận nhiều phản hồi câu hỏi điều có bất lợi người hỏi người dùng khác quan tâm tới câu hỏi phải nhiều thời gian để đọc qua tất câu trả lời chọn cho câu trả lời tốt Do hệ thống CQA cần có cơng cụ hỗ trợ người dùng giúp người dùng lựa chọn câu trả lời với thời gian nhanh Do tốn lựa chọn câu trả lời đặt để giải vấn đề Thứ hai, theo thống kê có 78% câu trả lời tốt câu hỏi sử dụng lại câu hỏi tương tự hỏi lại Trong số có 48% câu hỏi có câu trả lời tốt nhất, cịn lại số có chứa nhiều câu trả lời liên quan câu trả lời không đầy đủ Nguyên nhân việc câu trả lời không đầy đủ câu hỏi chứa nhiều ý hỏi Hơn người dùng có tri thức lĩnh vực khác nhau, cách tiếp cận quan điểm khác dẫn tới câu trả lời khác Người hỏi phải thời gian đọc tổng hợp ý kiến để thu câu trả lời chứa đầy đủ chứa thơng tin cần Do đó, cách tiếp cận hiệu kết hợp nhiều câu trả lời để sinh đoạn tóm tắt giúp tạo câu trả lời hoàn chỉnh Thứ ba, câu hỏi đăng lên hệ thống hỏi đáp cộng đồng khơng phải câu hỏi nhận câu trả lời từ cộng đồng Có câu hỏi đăng lên hệ thống sau vài nhận câu trả lời có câu hỏi phải vài ngày Để khắc phục tình trạng chậm trễ này, tốn tìm câu hỏi tương đồng kho liệu đặt giải vấn đề Người dùng hi vọng câu trả lời câu hỏi tương đồng câu trả lời câu hỏi Hơn nữa, hệ thống mà liệu tích lũy qua nhiều năm trở lên lớn khả người dùng hỏi lại câu hỏi trước cao Do tốn tìm câu hỏi tương đồng trở lên có ý nghĩa Để giải vấn đề trên, nhiều nghiên cứu đề xuất Khi giải toán này, nhà nghiên cứu phần lớn giải thách thức lớn khoảng cách từ vựng (lexical gap) câu hỏi với câu hỏi, câu hỏi với câu trả lời Các nghiên cứu tập trung vào hướng: khai thác đặc trưng từ vựng, đặc trưng kĩ thuật cú pháp ngữ nghĩa câu Thời gian gần nghiên cứu tập trung vào đề xuất mô hình mạng nơ ron học sâu với kiến trúc Siamese, mơ hình dựa so sánh tổng hợp (compare-aggregate) đến mơ hình dựa chế ý (attention) Bên cạnh mơ hình dựa vào mơ hình ngơn ngữ mơ hình riêng biệt cho hệ thống hỏi đáp đề xuất Tất nghiên cứu với mục đích học ngữ nghĩa mối quan hệ câu hỏi với câu hỏi câu hỏi với câu trả lời để đưa dự đoán tốt Động lực thúc đẩy Từ bối cảnh trên, vai trò ba tốn: Bài tốn tìm câu trả lời tốt nhất, tốn tóm tắt câu trả lời tốn tìm câu hỏi tương đồng hệ thống hỏi đáp cộng đồng quan trọng Việc cải thiện chất lượng dự đoán ba toán tương ứng với việc phát triển chức hỗ trợ người dùng, giúp người dùng cảm thấy tiện lợi sử dụng hệ thống hỏi đáp cộng đồng Nhận thức điều này, toán hệ thống hỏi đáp cộng đồng mục tiêu nghiên cứu luận án Mặc dù có nhiều nghiên cứu tốn NLP toán hệ thống hỏi đáp cộng đồng đề xuất nhiều giải pháp cải tiến để nâng cao hiệu suất độ xác mơ hình cịn khoảng cách lớn hiệu thực tế mơ hình đạt với mong muốn người dùng Dữ liệu hệ thống hỏi đáp cộng đồng có nhiều thách thức Một thách thức liệu văn mạng xã hội Dữ liệu thường nhiều nhiễu, câu dạng văn nói, nhiều từ viết sai tả, viết tắt Hơn nữa, có câu trả lời câu hỏi chứa nhiều nội dung không liên quan Lý làm cho thách thức khoảng cách từ vựng câu hỏi với câu hỏi câu hỏi với câu trả lời khó phức tạp Một lý khác, nghiên cứu toán hỏi đáp cộng đồng phần lớn thực tập liệu tiếng Anh Nghiên cứu hệ thống hỏi đáp cộng đồng liệu tiếng Việt hạn chế Đặc biệt miền liệu cụ thể Các nghiên cứu khác làm việc miền liệu cụ thể giúp cho mô hình học tốt mơ hình liệu mang nhiều chủ đề chung chung Cuối nghiên cứu phần lớn tập trung vào cải thiện hiệu độ xác mơ hình mà chưa ý nhiều thời gian Cụ thể yêu cầu thời gian phản hồi câu hỏi đăng lên Đây yêu cầu cần thiết hệ thống phần mềm để thỏa mãn yêu cầu người dùng cách tốt thuận tiện Mục tiêu phạm vi nghiên cứu Mục tiêu luận án giải thách thức qua việc đề xuất mô hình học sâu kết hợp với chế ý đề xuất cho số toán hệ thống CQA giúp nâng cao hiệu mơ hình dự đốn Các mơ hình học sâu mơ hình end-to-end mà từ liệu thô đầu vào các lớp ẩn mạng nơ ron đưa kết đầu Trong mơ hình này, việc học đặc trưng ngữ nghĩa văn lớp đốn tích hợp học cách đồng thời thay thực cách Các mơ hình chứng minh phù hợp với liệu cộng đồng toán hỏi hệ thống hỏi đáp CQA Trong phạm vi nghiên cứu luận án, thông tin từ người dùng chuyên gia không khai thác sử dụng Kết đạt luận án góp phần giải vào việc phân tích tổng thể mơ hình học sâu ứng dụng vào toán hệ thống CQA Các mục tiêu thể cụ thể qua đóng góp Các đóng góp luận án Để thực mục tiêu đề tài, luận án tập trung vào đề xuất sau đây: • Thứ nhất, luận án đề xuất mơ hình match-LSTM kết hợp với chế ý có giám sát (supervised attention) để giúp mơ hình học trọng số ý tốt từ giúp cho mơ hình dự đốn tốt Thực nghiệm chứng minh mơ hình đề xuất giúp xác định nội dung quan trọng câu hỏi câu trả lời Qua đó, phần khơng liên quan tới nội dung (phần dư thừa) mơ hình phát Từ đó, mơ hình đề xuất giúp cho q trình dự đốn câu trả lời tốt so với mơ hình gốc ban đầu • Đề xuất thứ hai phương pháp tóm tắt câu trả lời Cụ thể, mơ hình học khơng giám sát LSTM-AE để học biểu diễn câu mà khơng cần liệu có nhãn đề xuất Mơ hình khai thác ngữ nghĩa cú pháp câu thông qua trật tự từ câu Mô hình đề xuất cho chất lượng tóm tắt tốt tương đương với phương pháp học biểu diễn có giám sát chí cho chất lượng tốt số độ đo mà không công gán nhãn liệu Thuật tốn MMR sử dụng để trích rút câu tóm tắt giải thách thức đa dạng trùng lặp liệu tóm tắt • Thứ ba, mơ hình BERT sử dụng cho tốn tìm kiếm câu hỏi tương đồng tập liệu tiếng Việt giúp cải thiện hiệu độ xác mơ hình Đồng thời, mơ hình SBERT đề xuất sử dụng vào tốn tìm câu hỏi tương đồng giúp giảm thời gian phản hồi lại người dùng câu hỏi tương đồng câu hỏi đăng lên hệ thống Mơ hình SBERT giải mục tiêu mặt thời gian phản hồi hệ thống mà đảm bảo độ xác cao Các mơ hình đề xuất luận án có ưu điểm so với mơ hình có xét số độ đo độ đo MAP, MRR (đối với tốn tìm kiếm câu trả lời tốn tìm kiếm câu hỏi tương đồng), Rouge-N tốn tóm tắt câu trả lời Hơn nữa, mơ hình kết hợp chương mơ hình đề xuất chương cịn có tính giải thích tốt thơng qua việc trực quan hóa trọng số ý từ câu Trên đóng góp luận án Luận án tập trung giải số thách thức toán hệ thống hỏi đáp cộng đồng qua việc đề xuất mô hình học sâu kết hợp với chế ý Các mơ hình trình bày cụ thể chương luận án Bố cục luận án Với đóng góp luận án trình bày mục trên, luận án bao gồm chương với bố cục sau: • Chương 1: Chương trình bày cách khái quát số hệ thống tìm kiếm thông tin bao gồm: hệ thống hỏi đáp tự động hệ thống hỏi đáp cộng đồng với thách thức hệ thống Nội dung giới thiệu số toán hệ thống hỏi đáp cộng đồng đề cập luận án mơ hình học sâu Những mơ hình tảng để đề xuất số mơ hình cải tiến áp dụng vào tốn • Chương 2: Mơ hình match-LSTM đề xuất sử dụng vào toán lựa chọn câu trả lời Thực nghiệm cho thấy chế ý (attention) theo hướng từ (word-by-word) làm việc khơng hiệu mơ hình gốc cặp liệu câu hỏi câu trả lời mạng xã hội Vì vậy, ngữ nghĩa từ vựng từ tri thức bên tận dụng để hướng dẫn mơ hình học trọng số ý cặp từ câu hỏi câu trả lời Thực nghiệm cho thấy mơ hình đề xuất học trọng số ý có ý nghĩa hơn, đồng thời qua giúp cho mơ hình làm việc tốt so với mơ hình gốc Mơ hình cho kết tương đương tốt so với kết đội đứng đầu tập liệu thi Semeval 2017 Tính hiệu mơ hình giải thích thơng qua việc trực quan hóa trọng số ý học từ câu hỏi với từ câu trả lời • Chương 3: Tiếp theo chủ đề vấn đề xác định chất lượng câu trả lời, tốn tóm tắt câu trả lời đề xuất giải luận án Chương trình bày phương pháp tóm tắt câu trả lời câu hỏi non-factoid hệ thống CQA Trong đó, hai mơ hình học khơng giám sát Auto-Encoder mơ hình LSTM-AutoEcoder đề xuất để học biểu diễn câu sử dụng phương pháp tóm tắt câu trả lời Các biểu diễn câu sử dụng thuật toán MMR (Maximal Marginal Relevance) để tóm tắt câu trả lời theo kiểu trích rút hướng truy vấn Kết cho thấy phương pháp biểu diễn câu không giám sát cho kết tương đương chí cịn cao với phương pháp biểu diễn có giám sát • Chương 4: Chương trình bày cách xây dựng tập liệu tiếng Việt cho tốn tìm kiếm câu hỏi tương đồng miền liệu thương mại điện tử Sau mơ hình BERT (là mơ hình mang lại hiệu vượt trội cho toán NLP thời gian gần đây) sử dụng để đánh giá hiệu mơ hình với tiền huấn luyện tập liệu tiếng Việt khác Chương mô tả chi tiết cách thực mơ hình BERT cho tốn tìm kiếm câu hỏi tập liệu thương mại điện tử Cụ thể mơ hình BERT huấn luyện miền liệu thương mại điện tử cho kết tốt dùng BERT huấn luyện tập có miền liệu chung chung Tiếp theo, mơ hình SBERT đề xuất để học biểu diễn ngữ nghĩa câu sang không gian với số chiều cố định với mục đích giảm thời gian tìm kiếm, giúp cho ứng dụng chạy nhanh đáp ứng yêu cầu người dùng mà trì độ xác mơ hình BERT Mơ hình SBERT với kiến trúc ba (triplet) học biểu diễn câu, giúp giảm thời gian tìm kiếm câu hỏi tương đồng Do đó, hệ thống phản hồi lại người dùng nhanh mà đảm bảo kết tốt Nội dung luận án trình bày giải số toán quan trọng hệ thống hỏi đáp cộng đồng tìm kiếm câu hỏi tương đồng, tìm câu trả lời tốt tóm tắt câu trả lời Các nội dung luận án giải mục tiêu đề Chương TỔNG QUAN VỀ ĐỀ TÀI Chương trình bày cách khái quát hệ thống hỏi đáp tự động hệ thống hỏi đáp cộng đồng, giống khác hai hệ thống Một số toán hệ thống hỏi đáp cộng đồng mơ hình học sâu trình bày sở đề xuất số mơ hình cải tiến áp dụng vào toán 1.1 Hệ thống hỏi đáp 1.1.1 Định nghĩa hệ thống hỏi đáp 1.1.2 Kiến trúc hệ thống QA 1.1.3 Các cách tiếp cận tới hệ thống hỏi đáp QA 1.1.4 Thách thức hệ thống QA 1.2 Hỏi đáp cộng đồng Hỏi đáp cộng đồng (Community Question Answering - CQA) hệ thống hỏi đáp tìm kiếm thơng tin tiếp cận theo hướng khác Trong câu trả lời hệ thống hỏi đáp tự động lấy từ văn câu trả lời hệ thống CQA nhận từ cộng đồng người dùng Những forum cung cấp giao diện cho phép người dùng đăng câu hỏi chủ đề mong muốn nhận câu trả lời từ người dùng khác Những câu trả lời cung cấp từ người dùng thường rõ ràng có độ xác cao Những ứng dụng thường gọi hỏi đáp dựa vào cộng đồng Yahoo!Answer1 ví dụ Đây trang hỏi đáp cho phép người dùng đặt câu hỏi tất lĩnh vực để mong nhận câu trả lời từ cộng đồng người dùng trả lời câu hỏi người dùng 1.2.1 Kiến trúc hệ thống hỏi đáp cộng đồng Hình 1.2.1 mơ tả kiến trúc trình tương tác thành phần hệ thống CQA Hệ thống bao gồm trình xử lý câu hỏi, trình xử lý câu trả lời thành viên tham gia 1.2.2 So sánh QA CQA 1.3 Các toán hệ thống hỏi đáp cộng đồng 1.3.1 Xác định chất lượng câu trả lời Hệ thống hỏi đáp cộng đồng hệ thống cho phép người dùng trả lời câu hỏi mà họ quan tâm muốn chia sẻ kiến thức Do đó, câu hỏi đăng lên có nhiều câu trả lời ứng viên Đây hệ thống mở, dễ dàng chia sẻ trao đổi thông tin dẫn tới tăng trưởng mạnh mẽ loại hệ thống Tuy nhiên hệ thống có điểm hạn chế Hạn chế thứ nội dung đa dạng chủ đề lại thiếu cấu trúc phù hợp với loại Điểm thứ hai liên quan tới câu trả lời chất lượng tạo số lý nhận thức người dùng số lĩnh vực cịn hạn chế, thiếu tập trung khơng chuẩn bị kĩ trả lời Do người dùng khác nên câu trả lời có khác biệt lớn chất lượng, cấu trúc phạm vi câu trả lời Do đó, hệ thống CQA cần có phương pháp toàn diện khai thác câu trả lời để đưa câu trả lời tốt câu hỏi gợi ý câu trả lời tốt cho câu hỏi Hệ thống CQA có hai tốn giúp người dùng tổng hợp câu trả lời tốt cách tự động tốn xếp hạng câu trả lời ứng viên theo mức độ liên quan tới câu hỏi tốn tóm tắt câu trả lời giúp người dùng có câu trả lời đầy đủ Hai tốn góp phần đáp ứng tiêu chí giảm thời gian cho người dùng phải tìm tổng hợp câu trả lời https://answers.yahoo.com/ Hình 1.3: Kiến trúc hệ thống CQA Bài tốn tìm câu trả lời tốt hệ thống hỏi đáp Forum hỏi đáp cộng đồng ngày phổ biến nhiên website không kiểm sốt Do đó, hệ thống có điểm hạn chế lý đăng câu hỏi trả lời câu hỏi Ưu điểm việc làm người tự hỏi câu hỏi mà muốn mong đợi nhận câu trả lời tốt trung thực Như câu hỏi đăng lên có nhiều người dùng vào trả lời cho câu hỏi Người hỏi phải nỗ lực thời gian để đọc tất câu trả lời (có câu hỏi có đến hàng trăm câu trả lời người dùng khác tham gia trả lời) hiểu chúng Vì việc đề xuất tốn tự động tìm câu trả lời tốt số câu trả lời người dùng trả lời cho câu hỏi hỗ trợ cho người dùng đánh giá tìm câu trả lời mong muốn cách nhanh Bài tốn tóm tắt câu trả lời Bài toán thứ hai nằm nội dung đánh giá chất lượng câu trả lời tốn tóm tắt câu trả lời Các forum hỏi đáp nguồn liệu giàu tri thức Nó thường chứa thơng tin chủ đề mà khó tìm qua máy tìm kiếm Các câu trả lời khơng chuẩn bị kĩ lưỡng, chứa spam chí câu đùa cợt quảng cáo Đặc biệt, số câu hỏi dạng giải thích, quan điểm liệt kê (câu hỏi non-factoid) câu trả lời nhận thường không đầy đủ kể câu trả lời tốt Đây khó khăn cho người đọc phải đọc qua tất câu trả lời để tổng hợp câu trả lời tốt Vì lý mà tốn tóm tắt câu trả lời đặt hỗ trợ người dùng tổng hợp câu trả lời cách tự động 1.3.2 Bài tốn tìm câu hỏi tương đồng Cùng với phát triển web-forum, ngày có nhiều người sử dụng hệ thống để tìm kiếm câu trả lời cho câu hỏi mà họ cần Để hệ thống hoạt động tốt đáp ứng yêu cầu người dùng, hệ thống hướng tới giải thách thức độ trễ chờ câu trả lời từ người dùng Thực tế cho thấy có câu hỏi đăng lên vài ngày sau nhận câu trả lời, chí khơng có trả lời Vấn đề giải dựa vào ý tưởng sử dụng câu trả lời có câu hỏi trước hệ thống thơng qua câu hỏi tương đồng với câu hỏi Cụ thể thơng qua việc tìm câu hỏi tương đồng câu hỏi tận dụng câu trả lời có sẵn câu hỏi tương đồng để tìm câu trả lời cho câu hỏi Điều giúp cho hệ thống giảm thời gian chờ đề cập phần 1.4 Thách thức hệ thống hỏi đáp CQA Với phân tích phần trên, thách thức lớn hệ thống hỏi đáp cộng đồng vấn đề khoảng cách từ vựng (lexical gap) bao gồm: • Khoảng cách từ vựng câu hỏi: thách thức quan trọng hệ thống hỏi đáp nói chung Nó liên quan tới sai khác cách dùng ngôn ngữ tự nhiên diễn tả câu hỏi khác Trong hệ thống cộng đồng có nhiều người dùng cách diễn đạt câu hỏi khác (dùng từ vựng khác nhau) diễn đạt ý Hơn nữa, lại liệu cộng đồng Các câu hỏi đặt hệ thống hỏi đáp cộng đồng sử dụng ngôn ngữ tự Bảng 1.1: Thống kê số tập liệu CQA nhà khoa học dùng để đánh giá mơ hình Train Dev Test Tổng Yahoo!answer 87.390 câu hỏi 414.446 câu trả lời Trec-QA 1229 80 100 1409 cặp câu hỏi-câu trả lời Quora 404.289 cặp câu hỏi SemEval 2017 267 50 88 405 câu hỏi gốc 4050 câu trả lời nhiên, chứa nhiều ý hỏi phức tạp Do vậy, việc xác định tính tương đồng hai câu hỏi khó khăn • Khoảng cách từ vựng câu hỏi câu trả lời: Trong câu hỏi câu trả lời chứa đặc trưng ngôn ngữ giống thách thức cặp câu hỏi câu hỏi-câu trả lời cịn có sai khác lớn thông tin câu hỏi câu trả lời không đối xứng Ngồi tiêu chí độ xác hệ thống dự đốn cịn có tiêu chí quan trọng khơng tiêu chí thời gian phản hồi thông tin người dùng Khi tập liệu CQA ngày lớn việc xác định độ tương đồng ngữ nghĩa câu hỏi với tất câu hỏi kho liệu CQA ngày trở lên thách thức mặt thời gian Vì việc nghiên cứu tốn tìm câu hỏi tương đồng có ý nghĩa Tốm lại, luận án giải hai thách thức lớn thách thức khoảng cách từ vựng giứa câu hỏi với câu hỏi câu hỏi với câu trả lời Đồng thời luận án đề cập tới giải thách thức thời gian tìm kiếm tốn tìm câu hỏi tương đồng Qua với việc giải tốn tìm câu hỏi tương đồng khắc phục độ trễ hệ thống hỏi đáp cộng đồng đề cập 1.5 Tập liệu CQA Sau tập liệu mà nhà nghiên cứu sử dụng để so sánh đánh giá phương pháp mà họ đề xuất Bảng 1.1 mô tả chung số tập liệu Khác biệt lớn nhât tập Trec-QA tập liệu lại đặt trưng ngơn ngữ: tập liệu TREC-QA tập liệu với ngôn ngữ tiếng Anh chuẩn Các câu hỏi chủ yếu câu hỏi factoid câu hỏi thường ngắn gọn không mô tả hết thách thức hệ thống hỏi đáp cộng đồng Trong tập liệu khác Yahoo!answer, Quora, SemEval ngôn ngữ dùng ngôn ngữ nói Đặc biệt hơn, tập SemEval đơi người dùng cịn dùng ngơn ngữ khác khơng phải tiếng Anh Ngồi tập liệu Yahoo!answer Quora lại không chia thành tập huấn luyện, tập phát triển kiểm thử chuẩn Mỗi công bố tập liệu lại chia tập liệu thử nghiệm khác nên phương pháp đề xuất khó so sánh với Khác biệt thứ hai câu hỏi tập CQA chứa nhiều câu hỏi mở với nhiều lĩnh vực khác nhau, tập TREC-QA chứa nhiều câu hỏi factoid có nội dung ngắn gọn rõ ràng Khác biệt thứ tập liệu CQA QA tập CQA thường có lượng liệu lớn nhiều so với TREC-QA Khác biệt cuối tập liệu CQA, tập liệu SemEval có sẵn cơng cụ đánh giá chuẩn công khai Tập liệu chứa nhiều miền liệu Vì vậy, tập liệu dễ dàng cho việc điều chỉnh chuyển đổi miền sử dụng Đây lý luận án sử dụng tập liệu để thử nghiệm toán tìm câu hỏi tương đồng tốn tìm câu trả lời hệ thống hỏi đáp CQA 1.6 kiến thức tảng học sâu Chương BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI ĐÚNG TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG 2.1 Giới thiệu Bài tốn tìm câu trả lời (cịn gọi tốn lựa chọn câu trả lời hay tìm câu trả lời tốt nhất) toán phần đánh giá chất lượng câu trả lời hệ thống hỏi đáp cộng đồng Trong chương này, mơ hình match-LSTM đề xuất sử dụng vào toán lựa chọn câu trả lời Thực nghiệm cho thấy trọng số ý mô hình gốc làm việc khơng hiệu cặp liệu câu hỏi câu trả lời mạng xã hội Vì vậy, ngữ nghĩa cặp từ vựng lấy từ tri thức bên đề xuất sử dụng để hướng dẫn mơ hình học trọng số ý từ câu hỏi với từ câu trả lời Mơ hình match-LSTM kết hợp với chế ý có giám sát học ma trận trọng số ý tốt so với mơ hình gốc tập liệu cộng đồng Đồng thời, việc học trọng số ý tốt giúp cho mơ hình dự đốn tốt so với mơ hình gốc Mơ hình đề xuất cho kết tương đương tốt so với kết đứng đầu tập liệu thi SemEval 2017 2.2 Các cơng trình liên quan 2.3 Mơ hình đề xuất Question Intuitive attetntion weights gkj … … Attention weights αkj Attention-weighted Question … Loss Supervised … Answer … Loss … mLSTM Prediction Supervised Attention Max pooling Loss model Average pooling Model Loss function Hình 2.4: Mơ hình mở rộng từ mơ hình match-LSTM kết hợp với chế ý Đầu tiên, mô hình match-LSTM áp dụng vào tốn lựa chọn câu trả lời Sau đó, mơ hình mở rộng sau ( hình 2.3): • Đầu tiên, mơ hình biLSTM (Bidirectional LSTM) sử dụng để học biểu diễn từ mức độ kí tự Sau đó, véc tơ nối với véc tơ từ nhúng Glove làm đầu vào mơ hình Từ nhúng học mức độ kí tự chứng minh học biểu diễn từ nhúng có ý nghĩa cho ngơn ngữ hình thức khơng hình thức Trong CQA, ngôn ngữ sử dụng thông thường ngơn ngữ theo kiểu văn nói, khơng hình thức Trong đó, câu chứa từ viết tắt, lỗi tả, biểu tượng cảm xúc, lỗi pháp Sử dụng thêm từ nhúng mức kí tự giúp làm giảm ảnh hưởng tượng OOV (Out of Vocabulary, tập test có từ khơng có từ vựng tập huấn luyện) Biểu diễn mang lại hiệu với tập liệu nhỏ mà số lượng từ khơng có tập từ điển lớn tập SemEval Để đạt ngữ cảnh theo trình tự xi ngược từ, mơ hình biLSTM sử dụng để học biểu diễn từ Các nghiên cứu sử dụng từ nhúng mức độ kí tự làm tăng hiệu mơ hình • Thứ hai, thay sử dụng véc tơ ẩn cuối đường mLSTM để dự đoán, hai phép toán lấy Max-pooling Average-pooling tất véc tơ ẩn mLSTM sử dụng để tổng hợp thông tin mơ hình Tiếp theo, véc tơ Max-pooling Average-pooling nối với để đưa vào dự đoán Hàm loss − f unction mơ hình gốc mơ hình nâng cao sử dụng hàm cross-entropy sau: Lmodel = − S S (y log y + (1 − y)log(1 − y)) + γ ||W||22 , 2S (2.6) S số lượng cặp câu hỏi câu trả lời tập huấn luyện, γ tham số điều chỉnh, W ma trận tham số mơ hình match-LSTM • Cuối cùng, chế ý có giám sát tích hợp vào mơ hình mở rộng với mục đích học gióng từ câu trả lời với từ câu hỏi mang nhiều ý nghĩa Mơ tả chi tiết trình bày mục 2.3.1 2.3.1 Cơ chế ý có giám sát gkj kí hiệu trọng số ý đích để hướng dẫn mơ hình học theo gkj tri thức từ bên Giá trị trọng số ý từ thứ k câu trả lời với từ thứ j câu hỏi mà mơ hình mong muốn đạt tới, j gkj = Sự sai khác trọng số ý mà mơ hình mở rộng hướng tới gkj với trọng số αkj mô hình học theo cơng thức sau: Lsupervised = S N S M (gkj − αkj )2 ) ( (2.7) k=1 j=1 Sau đó, hàm mát (2.6) (2.7) kết hợp vào mơ hình mở rộng sau: L = Lmodel + λLsupervised , (2.8) S số cặp câu hỏi câu trả lời, λ hệ số điều chỉnh để điều khiển ảnh hưởng mơ hình khác khau Một cách trực giác, mong muốn từ gần mặt ngữ nghĩa gióng phù hợp với mơ hình đề xuất Để tính trọng số gkj , hàm tính độ tương tự cosin sử dụng Véc tơ biểu diễn từ học từ mơ hình fastText tập liệu hỏi đáp cộng đồng SemEval 2016 SemEval 2017 ngôn ngữ tiếng Anh khơng gán nhãn fastText mơ hình học biểu diễn từ qua việc tổng hợp từ véc tơ n-gram kí tự, từ biểu diễn qua túi n-gram kí tự (ví dụ từ ’where’ biểu diễn qua 3-gram ’’) Phương pháp biểu diễn biểu diễn hiệu với tập liệu có nhiều từ khơng có tập từ vựng Sau đó, trọng số tf.idf thêm vào cơng thức tính gkj để nhấn mạnh từ chứa nội dung câu Công thức cụ thể sau: gkj = tf.idf (wqj )cosine(wtk , wqj ), (2.9) wtk wqj véc tơ từ học từ mơ hình fastText Để tính trọng số tf.idf , văn câu hỏi câu trả lời tập liệu không gán nhãn Từ đặc biệt < eos > thêm vào cuối câu hỏi câu trả lời với mục đích để từ không chứa nội dung quan trọng câu ánh xạ vào từ đặc biệt Cuối trọng số gkj chuẩn hóa sử dụng hàm softmax: exp(gkj ) , (2.10) gkj = M exp(g ) i=1 ki k = N , j = M , M số từ câu hỏi, N số từ câu trả lời 2.4 Các thử nghiệm kết 2.4.1 Tập liệu Tập liệu SemEval có nhãn sử dụng để đánh giá mơ hình Dữ liệu tập lấy từ forum Qatar Living chủ đề dành cho người nước tới Qatar Tập liệu chia thành tập: tập huấn luyện, tập phát triển tập kiểm thử Bảng 2.1 liệu thống kê tập liệu 11 (a) Cơ chế ý có giám sát với độ tương tự từ (b) Cơ chế ý có giám sát với độ tương tự từ tfidf Hình 2.5: Một ví dụ minh họa trọng số ý học mơ hình match-LSTM kết hợp với chế ý có giám sát với cặp câu hỏi câu trả lời tốt (c) Cơ chế ý có giám sát với độ tương tự từ (d) Cơ chế ý có giám sát với độ tương tự từ tfidf Hình 2.6: Một ví dụ trọng số ý học mơ hình match-LSTM kết hợp với chế ý có giám sát với cặp câu hỏi câu trả lời không tốt hình đề xuất dự đốn từ tương đồng ngữ nghĩa ‘Pakistanis’ ‘nationalities’, từ ’get’ ’apply’ Như vậy, mơ hình đề xuất học phần quan trọng mang nội dung câu trả lời ánh xạ với nội dung liên quan câu hỏi tốt so với mơ hình gốc 2.5 Kết luận chương Tóm lại, chương đề xuất mơ hình match-LSTM kết hợp với chế ý có giám sát cho tốn lựa chọn câu trả lời Thực nghiệm cho thấy mơ hình học trọng số ý tốt với mơ hình gốc qua việc trực quan hóa ma trận trọng số ý mơ hình Các kết trình bày chương công bố báo "Supervised Attention for Answer Selection in Community Question Answering" tạp chí IAES International Journal of Artificial Intelligence (IJ-AI)3 Indonesia danh mục Scopus http://ijai.iaescore.com/index.php/IJAI/article/view/20375 Chương TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 3.1 Giới thiệu Tiếp theo chủ đề đảm bảo chất lượng câu trả lời, để giúp người hỏi tổng hợp câu trả lời tốt từ câu trả lời người dùng khác, giải pháp đặt tiến hành tóm tắt câu trả lời có Chương trình bày phương pháp tóm tắt câu trả lời câu hỏi non-factoid hệ thống CQA Cụ thể, hai mơ hình học biểu diễn câu khơng giám sát Auto-Encoder mơ hình LSTMAutoEcoder đề xuất sử dụng vào q trình tóm tắt câu trả lời Kết cho thấy phương pháp biểu diễn câu không giám sát cho kết tương đương chí cịn cao với phương pháp biểu diễn có giám sát số độ đo 3.2 Các cơng trình liên quan 3.3 Biểu diễn câu tóm tắt câu trả lời Mơ hình tóm tắt câu trả lời đề xuất mơ tả hình: q’ S1 A1 q A2 Am Sentence Extraction x1 Sentence Representation S2 x2 Sn Sentence similarity measurement xn Yahoo webscope MMR Algorithm Answer Summary Hình 3.2: Mơ hình tóm tắt câu trả lời cho câu hỏi non-factoid hệ thống CQA 3.3.1 Biểu diễn câu Mạng nơ ron học sâu kỹ thuật hiệu việc sinh biểu diễn câu mà chứa thông tin ngữ nghĩa cú pháp câu khơng gian có số chiều thấp Trong phần này, hai mơ hình học sâu không giám sát Auto-Encoder (AE) LSTM-AE đề xuất để học biểu diễn câu: Mơ hình Auto-Encoder Mơ hình chúng tơi sử dụng bao gồm lớp (hình 3.3.1) sau: Hàm mát mơ hình AE có cơng thức sau: S J(x, x ) = x − x n (xi − xi )2 , = (3.12) i=1 S số câu tập liệu, n số chiều véc tơ x Mơ hình LSTM-AE Cơng thức hàm mát mơ sau: J(X, X ) = S 12 S ( 1 T T Jt ), t=1 (3.17) 13 Hình 3.3: Mơ hình Auto-Encoder, h (khối màu đỏ) dùng làm véc tơ biểu diễn câu good always are smoothies yogurt fruit Softmax Decoder Encoder Fruit yogurt smoothies are always good ht ct-1 x ft it σ σ ht-1 + x ct lt ot σ x ht et Hình 3.4: Mơ hình Long-short-term-memory Auto-Encoder: Lớp mã hóa LSTM cuối (nút màu đỏ) dùng làm véc tơ biểu diễn câu Jt hàm Cross − entropy từ thứ t câu, T số từ câu, S số câu tập huấn luyện 3.3.2 Trích rút tóm tắt Thuật tốn MMR sử dụng để trích rút câu đoạn tóm tắt (thuật tốn 3.) đề xuất Carbonell cộng 3.4 Đánh giá mơ hình 3.4.1 Tập liệu Tập liệu L6 - Yahoo! Answers Comprehensive Questions and Answers từ Yahoo-Webscope sử dụng để học biểu diễn câu phương pháp học không giám sát (tập liệu thống kê bảng 3.1) Bảng 3.1: Tập liệu Yahoo Webscope Thống kê Số lượng câu hỏi Số lượng câu trả lời Số lượng câu tách từ câu trả lời Số lượng 87.390 314.446 1.662.497 Để đánh giá mơ hình tóm tắt, tập liệu kiểm thử nghiên cứu Song et al sử dụng Tác giả không công bố tập huấn luyện tập phát triển Tập kiểm thử thực tóm tắt tay người thực với độ dài tối đa 250 từ (chi tiết thống kê bảng 3.2) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l 14 Thuật toán Maximal marginal relevance (MMR) Đầu vào: q biểu diễn câu hỏi, S tập câu tách từ câu trả lời, L độ dài tối đa đoạn tóm tắt Đầu ra: tập tóm tắt R ⊂ S Khởi tạo: R=∅; Danh sách câu xếp; 1: repeat 2: Tìm câu s thuật toán MMR với siêu tham số ≤ κ ≤ 1, cho thỏa mãn công thức: 3: s = arg maxs∈S/R (κ.sim(s, q) − (1 − κ) maxs ∈R sim(s, s ) 4: R=R ∪ s; 5: until | R | > L; 6: return R; Bảng 3.2: Tập test đánh giá thuật tốn tóm tắt câu trả lời Thống kê Số lượng câu hỏi Non-factoid Số lượng câu trả lời Số lượng câu tách từ câu trả lời Số lượng từ Số lượng tóm tắt tay Số lượng trung bình đoạn tóm tắt câu hỏi Số lượng 100 361 2.793 59.321 275 2,75 3.4.2 Thiết lập thử nghiệm Đối với mơ hình Auto-Encoder, đầu vào véc tơ có số chiều kích thước tập từ vựng sử dụng trọng số tf.idf Tập từ vựng tạo cách chuyển từ sang viết thường, loại bỏ từ dừng từ (có số lần xuất 10 lần), đưa từ dạng gốc chuẩn hóa số Mơ hình AE có lớp mã hóa lớp giải mã (hình 3.3.1) Véc tơ h với số chiều 100 dùng làm biểu diễn câu Các tham số thuật toán tối ưu Adam chọn sau: tốc độ học η = 0, 001, kích thước lơ (batch size) 128 câu, số epoch 20 Mơ hình huấn luyện tập Yahoo-webscope với thời gian máy tính với CPU 20 core Từ biểu diễn Word2vec2 có kích thước 300 đưa vào LSTM-AE Khi từ khơng có từ điển huấn luyện trước, lấy mẫu qua phân phối chuẩn Các dấu câu dấu phẩy, dấu hai chấm chuyển thành < dot > Dấu hiệu kết thúc câu chuyển thành < eos > Các siêu tham số mơ hình LSTM-AE chọn sau: tốc độ học η = 0.001, kích thước lơ 128, số epoch 20 Thời gian huấn luyện mô hình tập Yahoo-webscope tuần với máy tính CPU 20 core Cả mơ hình AE LSTM-AE thực Tensorflow 3.4.3 Kết Độ đo ROUGE dùng để đánh giá mơ hình tóm tắt Trước tiên, mơ hình tóm tắt sử dụng hai mơ hình biểu diễn câu: biểu diễn câu qua trọng số tf.idf lấy trung bình véc tơ từ dùng Word2vec (bảng 3.3) Để lựa chọn kiến trúc mô hình AE mơ tả trên, kịch kiểm thử với lớp mã hóa - giải mã với số chiều giảm 1000 chiều, AE hai lớp mã hóa - giải mã với số chiều giảm 400 chiều, mơ hình AE ba lớp mã hóa - giải mã với số chiều giảm 300 chiều AE lớp mã hóa - giải mã với số chiều giảm 100 chiều tiến hành Kết thực với tham số κ = 0.3 bảng 3.4 Sau đó, mơ hình AE, LSTM-AE mơ hình kết hợp hai biểu diễn từ hai mơ hình cách nối hai biểu diễn từ mơ hình AE LSTM-AE câu (tạm gọi CONCATE) đánh giá qua hình 3.4.3 Kết đánh giá qua tham số κ khác thuật toán MMR κ = 0.3 chọn đại diện cho mơ hình để so sánh với mơ hình khác (bảng 3.5) Độ tương đồng ngữ nghĩa hai câu thử nghiệm qua việc việc kết hợp tuyến tính độ tương tự cosin hai biểu diễn hai mơ hình AE LSTM-AE với công thức sau: sim(s1 , s2 ) = α.simAE (s1 , s2 ) + (1 − α).simLST M −AE (s1 , s2 ), (3.23) https://github.com/mmihaltz/word2vec 15 Bảng 3.3: Kết tóm tắt hai mơ hình κ 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Rouge-1 0,621 0,619 0,618 0,615 0,622 0,614 0,610 0,609 0,611 0,608 Word2Vec Rouge-2 0,529 0,524 0,523 0,518 0,525 0,513 0,507 0,504 0,505 0,501 Rouge-L 0,607 0,606 0,605 0,600 0,604 0,605 0,607 0,610 0,603 0,601 Rouge-1 0,532 0,531 0,532 0,530 0,529 0,528 0,529 0,530 0,532 0,532 Tfidf Rouge-2 0,282 0,282 0,281 0,279 0,279 0,278 0,280 0,285 0,288 0,289 Rouge-L 0,464 0,463 0,464 0,467 0,464 0,467 0,489 0,488 0,488 0,489 Bảng 3.4: Kết tóm tắt sử dụng mơ hình AE biểu diễn câu với trường hợp số lớp mã hóa-giải mã khác với số chiều khác AE-1000 chiều AE-400 chiều AE-300 chiều AE-100 chiều Rouge-1 0,670 0,682 0,669 0,762 Rouge-2 0,561 0,597 0,601 0,622 Rouge-L 0,711 0,715 0,714 0,730 α siêu tham số mức độ ảnh hưởng hai độ độ đo Kết trình bày bảng 3.6 Hình 3.5: Độ đo ROUGE tham số κ khác thuật toán MMR Như mong đợi, kết bảng 3.3 cho thấy rằng, mơ hình Word2vec cho kết cao hẳn mơ hình tf.idf nhờ vào thông tin ngữ nghĩa từ với số chiều thấp (bảng 3.3) Nhưng kết tóm tắt ba độ đo Rouge-1, Rouge-2 Rouge-L mô hình Word2vec bảng 3.3 thấp mơ hình AE, LSTM-AE mơ hình CONCATE (hình 3.4.3) Lý mơ hình Word2vec thực qua việc lấy trung bình trọng số véc tơ biểu diễn từ Cách làm không khai thác trật tự từ câu tương tác từ ngữ cảnh cụ thể Trong mơ hình 16 Bảng 3.5: Bảng so sánh hiệu mơ hình LSTM-AE với mơ hình khác Method BestAns DOC2VEC + sparse coding CNN + document expansion + sparse coding + MMR LSTM-AE Rouge-1 0,473 0,753 0,766 0,766 Rouge-2 0,390 0,678 0,646 0,653 Rouge-L 0,463 0,750 0,753 0,759 AE LSTM-AE học véc tơ biểu diễn câu từ liệu CQA Với κ < 0, mơ hình LSTM-AE có hiệu lớn mơ hình AE tất độ đo ROUGE-1, ROUGE-2 ROUGE-L Nhưng κ > 0, mơ hình AE lại tốt LSTM-AE độ đo ROUGE-1 ROUGE-2 Điều κ lớn mơ hình thiên độ đa dạng độ liên quan Nhìn chung, kết mơ hình LSTM-AE cho thấy mơ hình lựa chọn tốt sử dụng để học biểu diễn câu với tốn tóm tắt Mơ hình CONCATE mang lại hiệu không đáng kể Do vậy, mô hình LSTM-AE chọn để tiến hành so sánh hiệu tóm tắt câu trả lời với mơ hình đại khác Bảng 3.5 so sánh hiệu mơ hình LSTM-AE với mơ hình khác đề xuất nghiên cứu trước nghiên cứu Song với κ = 0, Mơ hình biểu diễn DOC2VEC sử dụng véc tơ biểu diễn đoạn để sinh biểu diễn câu kết hợp với mã thưa để tìm câu bật Tuy nhiên, phương pháp không rõ ràng trường hợp véc tơ biểu diễn đoạn véc tơ biểu diễn câu lấy Trong mơ hình CNN học biểu diễn câu từ liệu có nhãn Nhãn câu có thuộc đoạn tóm tắt hay khơng Hơn mơ hình đề xuất Song cịn sử dụng tri thức từ bên ngồi (sử dụng nguồn Wikipedia) để làm giàu ngữ nghĩa cho văn ngắn Các câu biểu diễn không gian số chiều thấp đầu vào mã thưa cuối dùng thuật tốn MMR để trích rút câu tóm tắt Câu trả lời tốt lựa chọn để đem so sánh với mơ hình tóm tắt để thấy tầm quan trọng việc tóm tắt câu trả lời Kết cho thấy biểu diễn câu sử dụng mơ hình khơng giám sát cho kết ngang chí cịn tốt mơ hình có giám sát mà khơng cần phải sử dụng đến liệu có nhãn khơng sử dụng tri thức bên ngồi (bảng 3.5) Mơ hình LSTM-AE tốt mơ hình DOC2VEC sử dụng mơ hình DOC2VEC ngữ cảnh đoạn văn đặc trưng đoạn đưa vào số đoạn cửa sổ mẫu câu Nguyên nhân mơ hình LSTM-AE học thơng tin cú pháp ngữ nghĩa câu qua lớp ẩn cuối mơ hình LSTM sử dụng biểu diễn lớp làm biểu diễn câu Hơn nữa, mơ hình LSTM-AE huấn luyện tập liệu lớn Yahoo-webscope không gán nhãn từ cộng đồng tận dụng tri thức câu miền liệu với tập kiểm thử Bảng 3.6: Kết tóm tắt thực tổng hợp ngữ nghĩa hai câu qua việc kết hợp tuyến tính hai độ đo tương đồng hai biểu diến AE LSTM-AE theo công thức 3.4.3 α 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Rouge-1 0,771 0,771 0,771 0,770 0,770 0,771 0,772 0,772 0,771 Rouge-2 0,661 0,661 0,661 0,660 0,659 0,658 0,662 0,662 0,660 Rouge-L 0,761 0,760 0,760 0,759 0,759 0,759 0,763 0,763 0,759 Cuối cùng, hai phương pháp kết hợp đánh giá: Thứ nhất, hai véc tơ biểu diễn câu từ hai mô hình AE LSTM-AE nối lại với thành véc tơ (kết hình 3.4.3); Thứ hai, kết hợp tuyến tính độ tương đồng ngữ nghĩa hai câu từ hai biểu diễn véc tơ công thức 3.4.3 (kết trình bày bảng 3.6) Kết cho thấy cách kết hợp tuyến tính thứ hai cho kết tốt so với nối hai biểu diễn câu thông thường 17 3.5 Kết luận chương Tóm lại, chương trình bày hướng tiếp cận tốn tóm tắt câu trả lời cho câu hỏi nonfactoid hệ thống hỏi đáp cộng đồng Trong phương pháp này, mơ hình học biểu diễn câu không giám sát AE LSTM-AE sử dụng để biểu diễn câu Kết chương trình bày báo "Unsupervised Sentence Embeddings for Answer Summarization in Non-factoid CQA"3 đăng tạp chí Cys danh mục Scopus Mexico http://www.scielo.org.mx/pdf/cys/v22n3/1405-5546-cys-22-03-835.pdf Chương BÀI TỐN TÌM CÂU HỎI TƯƠNG ĐỒNG TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG 4.1 Giới thiệu Chương trình bày phương pháp giải tốn tìm câu hỏi tương đồng Đây toán trung gian hỗ trợ cho hệ thống tự động tìm kiếm câu trả lời cho câu hỏi Gần đây, mơ hình BERT đời bước đột phá lĩnh vực xử lý ngôn ngữ tự nhiên Mặc dù có nhiều nghiên cứu tốn tìm kiếm câu hỏi tương đồng tập liệu tiếng Anh, lại chưa nghiên cứu nhiều tập liệu tiếng Việt Chương trình bày nội dung sau: (i) Xây dựng tập liệu tiếng Việt cho tốn tìm kiếm câu hỏi tương đồng miền liệu thương mại điện tử (ii) Đề xuất sử dụng mơ hình BERTBase tập liệu tiếng Việt (iii) Đề xuất sử dụng mô hình SBERT với mục đích giảm thời gian tìm kiếm câu hỏi tương đồng qua việc học biểu diễn câu hỏi có sang khơng gian véc tơ số thực có số chiều cố định Kết cho thấy mơ hình BERT huấn luyện miền liệu thương mại điện tử cho kết tốt dùng BERT huấn luyện tập có miền liệu chung chung Đồng thời, mơ hình SBERT cho kết tìm kiếm nhanh nhiều lần so với mơ hình BERT trước 4.2 Các nghiên cứu liên quan 4.3 Tập liệu Để thử nghiệm mơ hình tập liệu tiếng Việt, tập liệu tiếng Việt xây dựng sử dụng liệu website Thế giới di động1 mục hỏi đáp người dùng nội dung liên quan tới mua bán thiết bị điện tử điện thoại, máy tính Sau thu thập câu hỏi, máy tìm kiếm Elasticsearch2 sử dụng để tạo tập liệu thử nghiệm sau: • Đầu tiên, tập câu hỏi chọn dùng làm câu hỏi gốc Mỗi câu hỏi đưa vào máy tìm kiếm coi câu truy vấn • Sau đó, câu hỏi từ tập câu hỏi gốc đưa vào máy tìm kiếm Kết trả danh sách câu hỏi liên quan tới câu truy vấn 10 câu hỏi danh sách kết chọn để tiến hành gán nhãn • Tiếp theo bước gán nhãn, câu hỏi gốc có 10 cặp câu hỏi tương ứng với nhãn gán người Một cặp câu hỏi chọn nhãn phần trả lời câu hỏi thứ dùng để trả lời phần toàn cho câu hỏi thứ ngược lại Công việc gán nhãn thực bốn thành viên nhóm nghiên cứu Sau đó, thành viên nhóm tiến hành kiểm tra chéo kết gán nhãn Kết thúc giai đoạn gán nhãn chéo, tiến hành thống kê kết gán nhãn Kết gán nhãn trùng khoảng 80-85% Những câu gán nhãn khơng giống tiến hành rà sốt lại thống kết gán nhãn cuối • Cuối cùng, câu hỏi gốc mà khơng có câu hỏi tương đồng bị loại khỏi tập liệu Để làm tăng độ khó tập liệu, cặp câu hỏi dễ (là câu dễ dàng tìm qua máy tìm kiếm, thường có thách thức khoảng cách từ vựng) rà sốt lại đưa định có bị loại khỏi tập liệu hay khơng Sau có tập liệu cặp câu gán nhãn, tập liệu chia tập liệu thành tập: tập huấn luyện, tập phát triển tập kiểm thử (cụ thể bảng 4.1) Tập liệu thu có 30% liệu có nhãn có liên quan tới câu hỏi gốc Đồng thời trình thu thập liệu, liệu không gán nhãn (bảng 4.2) giữ lại để huấn luyện mơ hình ngôn ngữ Tập dùng để học biểu diễn từ giai đoạn huấn luyện BERT https://www.thegioididong.com/hoi-dap https://www.elastic.co/elasticsearch/ 18 19 Bảng 4.1: Bảng thống kê tập liệu có nhãn miền thương mại điện tử tiếng Việt Số lượng cặp câu hỏi số lượng câu hỏi gốc Train 5.996 615 Dev 847 86 Test 1.068 110 Số lượng cặp câu negative 5.177 Số lượng cặp câu positive 2.734 Độ dài trung bình (syllable) 27 Số câu hỏi có câu 5.294 Số câu hỏi có từ hai câu trở lên 2.539 Số từ từ điển (syllable) 5.821 Số từ từ điển (tách từ tiếng Việt) 6.337 Bảng 4.2: Bảng thống kê tập liệu không gán nhãn thu thập website Thế giới di động Kích thước tập liệu khơng gán nhãn 1.1M Kích thước từ điển (syllable) 151.735 Độ dài trung bình (syllable) 31 4.4 Mơ hình BERT cho tốn tìm kiếm câu hỏi tương đồng 4.4.1 Mơ hình BERT 4.4.2 BERT cho tốn tìm kiếm câu hỏi tương đồng Predict C T1 … TN T[SEP] T’ … T’ M BERTBASE E[CLS] E1 … EN E[SEP] E’ … E’ M [CLS] X1 … XN [SEP] X’ … X’ M Question Question Hình 4.2: Mơ hình BERT cho tốn tìm câu hỏi tương đồng Mơ hình BERT điều chỉnh cho tốn tìm câu hỏi tập liệu thương mại điện tử tiếng Việt gán nhãn Các tham số tất lớp điều chỉnh lần Các từ thêm vào mơ hình Cụ thể đầu vào mơ sau: BERT − Input(q1 , q2 ) = [CLS]q1 [SEP ]q2 [SEP ], q1 , q2 cặp câu hỏi Trạng thái ẩn lớp cuối từ xem biễu diễn cuối tổng hợp mối quan hệ ngữ nghĩa hai câu Hàm kích hoạt Sof tmax thêm vào lớp cuối để dự đoán nhãn hai câu hỏi Hàm Sof tmax hàm xác suất dự đoán xác suất lớp đầu (đầu trả hai câu hỏi không tương đồng, hai câu hỏi tương đồng) 4.4.3 Các kết thử nghiệm thảo luận Trước đánh giá mơ hình tập liệu tiếng Việt, mơ hình BERT, RoBERTa, XLnet thử nghiệm cho tốn tìm câu hỏi tương đồng (task A) toán lựa chọn câu trả lời (task B) tập liệu tiếng Anh - Semeval 2017 Kết bảng 4.3 cho thấy mơ hình BERT, RoBERTa XLnet tốt hẳn so với đội cao Semeval 2017 Các mơ hình chứng minh tính hiệu vượt trội so với mơ hình học sâu trước toán NLP dựa vào chế tự ý mơ hình Transformer Trong BERT cho kết MAP cao 56.03%, 20 Bảng 4.3: Độ đo MAP số mơ hình tập liệu tiếng Anh - Semeval 2017 với hai toán tìm câu hỏi tương đồng (task B) lựa chọn câu trả lời (task A) Mơ hình task B task A KELP 49,00 88,43 SimBow 47,87 BERT 56.03 90.65 RoBERTa 54,16 90,30 XLnet 50,03 89,97 Bảng 4.4: Độ đo MAP mơ hình tập liệu tiếng Việt Mơ hình MAP LSTM 52,60 CNN 53,10 ABCNN 51,52 LSTM attention 55,50 BERT-multilingual 61,06 BERT4Vn 63,75 PhOBERT 65,50 BERT4ecommerce 70,50 ElasticSearch 52,00 SVM 49,75 cao so với XLnet RoBERTa Đây lý mơ hình BERT chọn sử dụng tập liệu tiếng Việt Bảng 4.4 trình bày kết mơ hình tập liệu tiếng Việt Bảng bao gồm ba phần: Các kết mơ hình LSTM/CNN; Mơ hình BERT với tiền huấn luyện tập liệu khác mơ hình BOW sở Hình 4.4.3 mơ tả đường cong ROC (Receiver Operating Characteristic) với độ độ đo AUC (Area Under the Curve) mơ hình Diện tích AUC vùng đường cong ROC lớn mơ hình hiệu Kết bảng 4.4 hình 4.4.3 cho thấy mơ hình học sâu LSTM/CNN cho kết MAP cao mơ hình sở BOW ElasticSearch SVM Nguyên nhân hai câu hỏi có chứa từ trùng làm cho phương pháp so sánh từ ElasticSearch hoạt động không hiệu mơ hình học sâu Trong câu hỏi tương tự thường chứa từ cụm từ khác có nghĩa giống Trong mơ hình BERT với tiền huấn luyện tập liệu khác tăng mạnh, đặc biệt mơ hình BERT4ECOMMERCE (là mơ hình sử dụng tiền huấn luyện BERT tập liệu thương mại điện tử) đạt kết cao 70, 50% Mơ hình BERT-multilingual, BERT4Vn BERT4Ecommerce thực liệu tách tiếng (syllabus), có PhOBERT thực liệu tách từ tiếng Việt Để thử nghiệm liệu tách từ, mơ hình PHOBERT sử dụng điều chỉnh tốn tìm câu hỏi tương đồng Mơ hình dựa vào mơ hình RoBERTa huấn luyện 20GB liệu từ nguồn Wikipedia tiếng Việt liệu báo điện tử tiếng Việt với tách từ tiếng Việt Mơ hình PHOBERT sử dụng thuật toán RDRsegmenter cho tách từ tiếng Việt từ thư viện VncoreNLP thu từ vựng có kích thước 145M Mơ hình PhOBERT điều chỉnh tốn tìm kiếm câu hỏi với liệu gán nhãn tiếng Việt xây dựng miền thương mại điện tử Kết cho thấy mơ hình PHOBERT cho kết MAP AUC tốt so với BERT-multilingual BERT4Vn Điều tách từ tiếng Việt mang lại hiệu tốt tốn tìm câu hỏi liệu mạng xã hội Tuy nhiên, không sử dụng tách từ tiếng Việt, BERT4ECOMMERCE đạt kết cao kết lớn PHOBERT 5% Trực quan hóa trọng số ý Hình 4.4.3 thể trọng số ý từ câu hỏi truy vấn (trục tung) với từ câu hỏi ứng viên (trục hồnh), vng màu đậm tương ứng với trọng số ý lớn Hình 4.4.3 mơ hình BERT có phân phối trọng số ý thưa mơ hình ABCNN Điều dẫn tới mơ hình BERT có tương tác mạnh từ quan trọng, ví dụ từ "slide" 21 Hình 4.3: Đường cong ROC mơ hình dự đốn (a) ABCNN (b) BERT-multilingual (c) BERT4Vn (d) BERT4ecommerce Hình 4.5: Trực quan hóa ma trận trọng số ý mơ hình BERT với mơ hình ABCNN với từ "màn hình", từ "lock" "tắt phím" với "khóa máy" Một nghiên cứu Cui cộng chứng minh ma trận ý BERT mà thưa biểu diễn văn đầu vào tốt dễ giải thích 4.5 Mơ hình SBERT Mơ hình SBERT với kiến trúc mạng ba (triplet) đề xuất sử dụng để học biểu diễn câu có ý nghĩa mặt ngữ nghĩa Thay học m lần biểu diễn câu có tập huấn luyện mơ hình BERT (trình bày trên) với mơ hình SBERT cần học biểu diễn lần với m câu truy vấn Vì vậy, mơ hình SBERT rút ngắn thời gian tìm kiếm câu hỏi tương đồng 4.5.1 Mơ hình SBERT cho tốn tìm câu hỏi tương đồng Hình 4.5.1 mơ tả kiến trúc mơ hình SBERT cho tốn tìm câu hỏi tương đồng tập liệu thương mại điện tử tiếng Việt có nhãn SBERT tạo dựa vào mạng ba (triplet) để cập nhật trọng số tạo biểu diễn câu có ý nghĩa Sau đó, độ tương tự cosin sử dụng để tính tốn độ đương đồng câu hỏi 22 Bảng 4.5: Bảng so sánh độ đo MAP thời gian mơ hình BERT SBERT tập liệu tiếng Việt Mơ hình MAP Thời gian (giây) BERT4ECOMMERCE 70,50 46,113(GPU)/795,0(CPU) BERT(CLS) 56,60 SBERT(CLS pooling) 64,70 0,153(GPU)/0,828(CPU) SBERT(MEAN pooling) 60,83 SBERT(MAX pooling) 60,16 SBERT(MLP) 256 chiều 52,00 – Hàm mục tiêu Triplet mơ hình SBERT sau: S max(||sa − sq || − ||sa − sn || + , 0), L= (4.3) đó: câu hỏi gốc a, câu hỏi tốt (positive question, câu hỏi tương đồng với câu hỏi gốc, có nhãn 1) kí hiệu p câu hỏi khơng tương đồng (negative question, câu hỏi không tương đồng với câu hỏi gốc, có nhãn 0) kí hiệu n Hàm mát triplet điều chỉnh trình học mạng cho khoảng cách a q nhỏ khoảng cách a n sa , sp , sn véc tơ biểu diễn câu a, p, n S số cặp ba (a, q, n) Khoảng cách Euclidean biên sử dụng để đảm bảo sp gần sa sn (chúng ta muốn khoảng cách ||sa − sq ||, ||sa − sn || lớn ) Hình 4.6: Mơ hình SBERT với kiến trúc ba để học biểu diễn câu khơng gian có số chiều thấp cố định 4.5.2 Các thử nghiệm kết Các tham số mô hình SBERT chọn sau: Giá trị biên chọn = hàm mục tiêu công thức 4.5.1 Số chiều véc tơ biểu diễn câu 768 chiều Trên tập liệu huấn luyện có nhãn, số cặp câu 72.711 cặp tập huấn luyện (cặp câu: gồm câu hỏi gốc, câu hỏi có nhãn positive câu hỏi nhãn negative với câu hỏi gốc) Tập liệu huấn luyện tạo sau: với câu hỏi gốc liệu ban đầu có 10 câu hỏi liên quan gán nhãn Sau với câu hỏi gốc bổ sung thêm 30 câu có nhãn câu hỏi gốc khác Mơ hình SBERT chia sẻ chung trọng số Do câu hỏi đưa vào cần suy diễn để tính biểu diễn câu hỏi Thuật toán tối ưu Adam sử dụng với tốc độ học 2.e−5 , kích thước lơ 64, thời gian huấn luyện ngày GPU Tesla V100 Bảng 4.5.2 so sánh kết MAP thời gian suy diễn mơ hình BERT (cụ thể BERT4ECOMMERCE) SBERT Các chiến lược dùng véc tơ , tổng hợp lấy Max, Mean MLP sử dụng để đánh giá việc lựa chọn cách lấy biểu diễn câu Để đánh giá mặt thời gian, thời gian suy diễn câu hỏi mơ hình BERT4ECOMMERCE mơ hình SBERT tồn liệu kiểm thử tính tốn Thời gian tính giây CPU với câu hình: Xeon(R) CPU X5647 @ 2.93GHz 16 luồng GPU với cấu hình: GTX 1070 Ti 8GB 23 4.6 Kết luận chương Tóm lại, chương trình bày cách xây dựng tập liệu tiếng Việt miền thương mại điện tử cho tốn tìm câu hỏi tương đồng Đồng thời BERT4ecommerce đề xuất sử dụng cho toán Cuối cùng, mơ hình SBERT đề xuất để học biểu diễn câu giúp giảm thời gian tìm kiếm câu hỏi Mơ hình SBERT đáp ứng yêu cầu người dùng tốt với thời gian nhanh nhiêu lần so với mơ hình BERT mà đạt độ xác cao Kết chương trình bày báo: "Utilizing BERT for Question Retrieval in Vietnamese E-commerce sites" báo cáo online hội thảo tính tốn ngơn ngữ thơng tin Châu Á Thái Bình Dương PACLIC2020 lần thứ 34 "Utilizing for finding similar question in Community Question Answering" chấp nhận trình bày hội nghị KSE 2021 lần thứ 13 https://aclanthology.org/2020.paclic-1.11.pdf KẾT LUẬN Trong luận án, số toán quan trọng hệ thống hỏi đáp cộng đồng: Bài toán lựa chọn câu trả lời tốt nhất, toán tóm tắt câu trả lời tốn tìm câu hỏi tương đồng nghiên cứu Luận án đề xuất số mơ hình phù hợp để giải tốn Tính hiệu mơ hình đề xuất xem xét khía cạnh thực nghiệm giải thích thực nghiệm A Kết đạt luận án Các kết đạt luận án trình bày tóm tắt sau: (1) Luận án đề xuất cách kết hợp mơ hình học sâu match-LSTM với chế ý có giám sát để giải tốn lựa chọn câu trả lời Mơ hình đề xuất học trọng số ý tốt so với mơ hình gốc tập liệu mạng xã hội Đồng thời mơ hình đề xuất giúp cho tốn dự đốn tốt mơ hình gốc cho kết tương đương với đội tốt thi Semeval 2017 tốn tìm câu trả lời hệ thống CQA (2) Tiếp theo chủ đề đảm bảo chất lượng câu trả lời tốn tóm tắt câu trả lời đề xuất phương pháp tóm tắt sử dụng mơ hình học khơng giám sát biểu diễn câu thuật toán MMR trích rút tập tóm tắt Phương pháp biểu diễn câu mơ hình khơng giám sát cho kết tương tương với phương pháp biểu diễn câu có giám sát (3) Để tiếp cận tốn tìm câu hỏi tương đồng, mơ hình BERT thử nghiệm tập liệu tiếng Việt với miền thương mại điện tử Mơ hình BERT thực với pha tiền huấn luyện nguồn liệu tiếng Việt khác Đồng thời chương này, mơ hình SBERT đề xuất sử dụng vào tốn tìm câu hỏi tương đồng để rút ngắn thời gian suy diễn từ O(m.n) xuống cịn O(m) Mơ hình giúp cho hệ thống đáp ứng yêu cầu thời gian phản hồi lại người dùng tốt Các mơ hình đề xuất đáp ứng tốt yêu cầu tốn hệ thống CQA Các mơ hình triển khai áp dụng trực tiếp vào hệ thống CQA B Định hướng phát triển Trong tương lai, số định hướng sau tiếp tục triển khai: • Tiếp tục đánh giá giải thích mơ hình tập liệu tiếng Việt đề xuất giải thách thức cho ngôn ngữ tiếng Việt tập liệu cộng đồng tách từ tiếng Việt • Tiến tới việc thiết kế xây dựng hệ thống hỏi đáp tiếng Việt cho miền liệu cụ thể sử dụng phương pháp nghiên cứu vào giải toán hệ thống 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN Van-Chung Vu, Thi-Thanh Ha, and Kiem-Hieu Nguyen (2018) Towards Event Timeline Generation from Vietnamese News, CICLING 2018 - 19th International Conference on Computational Linguistics and Intelligent Text Processing Thi-Thanh Ha, Thanh-Chinh Nguyen, Kiem-Hieu Nguyen, Van-Chung Vu, KimAnh Nguyen (2018) Unsupervised Sentence Embeddings for Answer Summarization in Non-factoid CQA, Computación y Sistemas journal, 22(3), 2018 (Scopus, ESCI) Thi-Thanh Ha, Atsuhiro Takasu, Thanh Chinh Nguyen, Kiem Hieu Nguyen, Van Nha Nguyen, Kim Anh Nguyen, Son Giang Tran (2020) Supervised attention for answer selection in community question answering, IAES International Journal of Artificial Intelligence (IJ-AI), Vol 09, No.02, 2020 (Scopus) Thi-Thanh Ha, Van-Nha Nguyen, Kiem-Hieu Nguyen, Tien-Thanh Nguyen and Kim-Anh Nguyen (2020) Utilizing Bert for Question Retrieval on Vietnameses Ecommerce Sites, PACLIC 2020 - The 34th Pacific Asia Conference on Language, Information and Computation Thi-Thanh Ha, Van-Nha Nguyen, Kiem-Hieu Nguyen, Kim-Anh Nguyen, QuangKhoat Than (2021) Utilizing SBERT for finding similar question in Community Question Answering, KSE 2021 -The 13th International Conference on Knowledge and Systems Engineering ... sử dụng hệ thống hỏi đáp cộng đồng Nhận thức điều này, toán hệ thống hỏi đáp cộng đồng mục tiêu nghiên cứu luận án Mặc dù có nhiều nghiên cứu toán NLP toán hệ thống hỏi đáp cộng đồng đề xuất nhiều... từ vựng câu hỏi với câu hỏi câu hỏi với câu trả lời khó phức tạp Một lý khác, nghiên cứu toán hỏi đáp cộng đồng phần lớn thực tập liệu tiếng Anh Nghiên cứu hệ thống hỏi đáp cộng đồng liệu tiếng... hệ thống hỏi đáp tự động hệ thống hỏi đáp cộng đồng, giống khác hai hệ thống Một số toán hệ thống hỏi đáp cộng đồng mơ hình học sâu trình bày sở đề xuất số mơ hình cải tiến áp dụng vào toán 1.1

Định dạng
Số trang	27
Dung lượng	1,84 MB