Tóm lại, chương 3 trình bày một hướng tiếp cận bài toán tóm tắt câu trả lời cho các câu hỏi non-factoid trong hệ thống hỏi đáp cộng đồng. Trong phương pháp này, mô hình học biểu diễn câu không giám sát AE và LSTM-AE được sử dụng để biểu diễn câu. Trong phần thực nghiệm, các phương pháp khai thác ngữ nghĩa của câu như nối hai véc tơ biểu diễn qua hai mô hình AE và LSTM-AE và kết hợp tuyến tính độ tương đồng ngữ nghĩa của hai biểu diễn này được sử dụng để khẳng định hiệu quả của mô hình biểu diễn câu LSTM-AE. Thuật toán MMR được sử dụng để tóm tắt câu trả lời. Phương pháp học biểu diễn không giám sát đề xuất ở trên cho kết quả tương đương với phương pháp học biểu diễn có giám sát mà không cần sử dụng tri thức bên ngoài.
Kết quả chương 3 được trình bày trong bài báo "Unsupervised Sentence Embeddings for Answer Summarization in Non-factoid CQA"6 đăng trên tạp chí Cys trong danh mục Scopus của Mexico.
Chương 4
BÀI TOÁN TÌM CÂU HỎI TƯƠNG ĐỒNG TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG
Hệ thống hỏi đáp CQA cũng hướng tới việc tìm câu trả lời một cách tự động khi câu hỏi mới được đăng lên hệ thống. Trong chương này, bài toán tìm câu hỏi tương đồng được nghiên cứu. Đây là bài toán trung gian hỗ trợ cho hệ thống tự động tìm kiếm câu trả lời cho câu hỏi mới. Bài toán tìm kiếm câu hỏi tương đồng tuy không phải là lĩnh vực nghiên cứu mới nhưng nó vẫn được sử dụng nhiều trong các hệ thống hỏi đáp. Bài toán này còn có tên gọi là bài toán tìm kiếm câu hỏi hay phát hiện câu hỏi trùng lặp. Thách thức lớn nhất và cơ bản nhất của bài toán này vẫn là vấn đề về khoảng cách từ vựng. Nguyên nhân của thách thức này vẫn là do các câu hỏi tương tự nhau nhưng được diễn đạt bằng các từ và cụm từ khác nhau. Gần đây mô hình BERT [5] ra đời là một bước đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sự ra đời của mô hình này làm tăng đáng kể hiệu năng của các bài toán trong NLP như hỏi đáp, dịch máy và phân tích cảm xúc. Mặc dù có rất nhiều nghiên cứu trên bài toán tìm kiếm câu hỏi tương đồng trên tập dữ liệu tiếng Anh, nhưng lại chưa được nghiên cứu nhiều trên tập dữ liệu tiếng Việt. Chương 4 trình bày các nội dung sau: (i) Xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng trên miền dữ liệu thương mại điện tử. (ii) Đề xuất sử dụng mô hình BERTBase trên tập dữ liệu tiếng Việt. (iii) Đề xuất sử dụng mô hình SBERT [104] với mục đích giảm thời gian tìm kiếm câu hỏi tương đồng qua việc học biểu diễn các câu hỏi đã có sang không gian véc tơ số thực có số chiều cố định. Khi có câu hỏi mới, chỉ cần đưa vào mô hình để tính biểu diễn của câu hỏi mới mà không cần tính lại các biểu diễn của câu hỏi đã có. Với cách thực hiện như vậy sẽ làm giảm thời gian tìm kiếm câu hỏi, giúp cho ứng dụng chạy nhanh hơn, đáp ứng yêu cầu của người dùng mà vẫn duy trì được độ chính xác của mô hình BERT. Kết quả cho thấy rằng khi mô hình BERT được huấn luyện trên cùng miền dữ liệu thương mại điện tử cho kết quả tốt hơn khi dùng BERT huấn luyện trên tập có miền dữ liệu chung chung. Đồng thời, mô hình SBERT cho kết quả tìm kiếm nhanh hơn rất nhiều lần so với mô hình BERT trước đó.
4.1. Giới thiệu
Hệ thống hỏi đáp CQA là nơi thu thập dữ liệu và đồng thời qua hệ thống này người dùng có thể chia sẻ tri thức và kinh nghiệm của mình về nhiều lĩnh vực khác nhau. Đây là nền tảng cho mọi người đóng góp câu trả lời có chất lượng. Hệ thống hỏi đáp cho phép người dùng có thể đăng câu hỏi của mình lên hệ thống hoặc là trả lời câu hỏi của người dùng khác. Trong hệ thống hỏi đáp tự động (QA,) khi một câu hỏi được đăng lên thì hệ thống sẽ tự động đưa ra câu trả lời ngay lập tức. Còn hệ thống hỏi đáp CQA khi người dùng đăng một câu hỏi mới lên hệ thống thì phải mất một thời gian để chờ người dùng khác trả lời. Hơn nữa, hệ thống này ngày càng phổ biến thì lượng người sử dụng hệ thống ngày càng tăng làm cho kho dữ liệu lưu trữ cặp câu hỏi và câu trả lời ngày càng lớn. Do đó, khả năng nhiều người hỏi các câu hỏi trùng nhau là rất lớn. Theo thống kê1, có hơn 100 triệu người truy cập vào Quora mỗi tháng. Vì vậy, không có gì ngạc nhiên khi nhiều người đặt những câu hỏi tương tự nhau. Người hỏi cũng sẽ mất rất nhiều thời gian để tìm kiếm cho mình câu trả lời tốt nhất, và người trả lời phải viết rất nhiều phiên bản câu trả lời của cùng câu hỏi. Vì thế, để giảm độ trễ và giúp người dùng tìm kiếm nhanh hơn, hệ thống CQA cung cấp cho người dùng một chức năng tìm kiếm câu hỏi một cách tự động cho phép người dùng tìm ra những câu hỏi trong kho dữ liệu CQA mà tương tự với câu hỏi người dùng muốn hỏi. Qua chức năng này, người dùng hi vọng rằng những câu trả lời của các câu hỏi tương tự với câu hỏi mới có thể hữu ích và có khả năng là câu trả lời cho câu hỏi mới.
Bài toán tìm câu hỏi tương đồng được định nghĩa như sau: Cho một câu hỏi truy vấn (câu hỏi mới) q và các câu hỏi q1, q2, ..., qn trong kho dữ liệu CQA. Đầu ra trả về danh sách xếp hạng các câu hỏi sao cho những câu tương đồng nhất với câu hỏi truy vấn ở trên và câu không tương đồng nhất ở cuối của danh sách. Bài toán tìm câu hỏi tương đồng về bản chất như là một bước trung gian trong hệ thống hỏi đáp. Trong Semeval 2017 task 3 [21], để giải quyết bài toán tìm câu trả lời tốt nhất cho câu hỏi mới, đầu tiên hệ thống thực hiện tìm các câu hỏi tương đồng với câu hỏi mới. Sau đó, một câu trả lời tốt nhất được chọn trong số các câu trả lời của các câu hỏi tương đồng. Trong các nghiên cứu của Zhou [105, 106] sử dụng bài toán tìm kiếm câu hỏi tương đồng với mục đích tìm câu trả lời cho câu hỏi mới từ các câu trả lời có trong cơ sở dữ liệu. Hình 4.1 là một ví dụ về cặp câu hỏi tương đồng trong tập dữ liệu thương mại điện tử tiếng Việt.
Ví dụ 1:
Câu hỏi 1: Làm ơn chỉ giùm tôi cách tắt phím slide to unclock trên samsung s9 plus
Câu hỏi 2: Cách tắt màn hình slide to unclock chỉ để màn hình kiểu vuốt để mở khóa máy ss j7 pro Ví dụ 2:
Câu hỏi 1: làm sao để zing mp3 có thể phát nhạc trong thẻ nhớ được ạ? máy em không còn bộ nhớ nên em chuyển nhạc sang thẻ nhớ nhưng zing mp3 lại không phát được nhạc trên thẻ nhớ. em phải làm sao mới phát được nhạc đây ạ? em dùng máy ss j5 2015
Câu hỏi 2: máy của em là samsung galaxy fe. mới đây em có đổi thẻ nhớ, thì khi chuyển nhạc vào và ứng dụng thì dùng bị lỗi, trong khi thẻ nhớ cũ lại không bị, em tháo ra lắp thẻ nhớ cũ vào và không sao, dùng thẻ mới thì những ứng dụng chuyển vào thẻ nhớ bị dừng, thi thoảng tắt nguồn sẽ bị tắt hết nhạc, do thẻ nhớ ạ? Ví dụ 3:
Câu hỏi 1: sao lãi xuất 0 mà sao xem cái điện thoại sony sáu 7 tháng chênh lệnh với giá trả thẳng tới gần 4 triệu thế ad
Câu hỏi 2: mua đt trả góp lãi xuất 0, đt khoảng 5 triệu thì các chi phí khác bao nhiêu.
Hình 4.1: Ví dụ về các cặp câu hỏi tương đồng với cùng ý hỏi nhưng cách diễn đạt khác nhau trên tập dữ liệu tiếng Việt
Thách thức thứ nhất của bài toán là: khi hệ thống này ngày càng phổ biến thì lượng người sử dụng hệ thống ngày càng tăng làm cho kho dữ liệu lưu trữ cặp câu hỏi và câu trả lời ngày càng lớn. Đây là thách thức của hệ thống CQA vì rất mất thời gian khi thực hiện tìm kiếm các cặp câu hỏi và câu trả lời trên kho dữ liệu lớn.
Thách thức thứ hai là vẫn là thách thức về khoảng cách từ vựng. Các câu hỏi tương tự nhau thường diễn đạt bằng các cách khác nhau. Câu hỏi chứa các từ viết tắt, ví dụ điển hình như ss (sam sung), đt (điện thoại), ad (admin). Đây là các là đặc điểm chung của dữ liệu cộng đồng. Hai câu hỏi tương đồng nhau nhưng khi được đăng trên forum lại chứa những từ ngữ, độ dài, thể loại và chất lượng nội dung khác nhau. Điều này làm cho bài toán tìm câu hỏi tương đồng trở lên khó hơn bởi thách thức về "khoảng cách từ vựng".
Để giải quyết thác thức về "khoảng cách từ vựng" cho bài toán tìm câu hỏi tương đồng, các nghiên cứu trước đã sử dụng phương pháp gióng mềm trong dịch máy và mô hình chủ đề để học ngữ nghĩa ẩn của từ [18]. Gần đây một lượng lớn nghiên cứu các phương pháp tiếp cận end-to-end dựa vào học sâu. Cách tiếp cận này có nghĩa là bộ trích chọn đặc trưng và bộ phân lớp kết hợp trong một mô hình duy nhất. Cả hai được lớp này được huấn luyện một cách đồng thời và nó hỗ trợ nhau trong quá trình huấn luyện. Bộ phân lớp giúp điều chỉnh hệ số của mô hình để trích xuất ra đặc trưng phù hợp. Đồng thời bộ trích chọn đặc trưng cũng điều chỉnh lại các hệ số sao cho các đặc trưng thu được phù hợp với bộ phân lớp cuối cùng. Các mô hình này tận dụng sử dụng các đặc trưng kĩ thuật và tri thức từ bên ngoài [40, 107]. Các phương pháp tiếp cận này cũng sử dụng từ nhúng được huấn luyện trước và đề xuất cấu trúc mạng đặc biệt với
mục đích biểu diễn ngữ nghĩa và cú pháp của các câu hỏi. Gần đây, mô hình BERT được đề xuất và đạt hiệu năng cao trên nhiều bài toán của NLP [5] như hỏi đáp, phân lớp văn bản, đọc hiểu. Mô hình đã học ra biểu diễn ngữ nghĩa tốt cho cả mức từ và mức câu.
Phần lớn các nghiên cứu trên mô hình BERT cho các bài toán của CQA và cụ thể về bài toán tìm câu hỏi tương đồng đều được thực hiện trên tập dữ liệu tiếng Anh [108, 109, 110, 88]. Các nghiên cứu trên dữ liệu tiếng Việt với dữ liệu cộng đồng còn hạn chế, đặc biệt trong lĩnh vực thương mại điện tử. Đây là miền dữ liệu được nhiều doanh nghiệp quan tâm. Vì vậy, trong chương này, cách xây dựng tập dữ liệu tiếng Việt trên miền dữ liệu thương mại điện tử cho bài toán tìm câu hỏi tương đồng được trình bày. Đồng thời, qua tập dữ liệu này, các mô hình cơ bản được đề xuất áp dụng để đánh giá trên tập dữ liệu.
Do đó, trong chương này, mô hình BERT và SBERT được đề xuất sử dụng cho bài toán tìm kiếm câu hỏi, đặc biệt là trên dữ liệu hỏi đáp tiếng Việt. Cụ thể những đóng góp trong chương này như sau: (1) Xây dựng bộ dữ liệu CQA tiếng Việt cho bài toán tìm câu hỏi tương đồng trên miền thương mại điện tử. (2) Thực thi một số mô hình học sâu cơ bản trên tập dữ liệu này. (3) Điều chỉnh (fine tuning) mô hình BERT trên bài toán tìm câu hỏi tương đồng và trực quan hóa các trọng số chú ý với các tiền xử lý trên tập dữ liệu tiếng Việt với miền dữ liệu khác nhau. (4) Đề xuất sử dụng mô hình SBERT với kiến trúc Triplet để học biểu diễn câu giúp giảm thời gian tìm kiếm câu hỏi tương đồng. Kết quả cho thấy mô hình BERT4ECOMMERCE (là mô hình BERT sử dụng tiền xử lý trên cùng tập thương mại điện tử) cho kết quả MAP cao nhất so với các mô hình BERT với các tiền xử lý trên miền dữ liệu khác. Đồng thời mô hình SBERT có tốc độ tìm kiếm nhanh hơn nhiều (960 lần chạy trên CPU) so với mô hình BERT4ECOMMERCE mà vẫn cho kết quả dự đoán tương đương với mô hình BERT thông thường.
4.2. Các công trình nghiên cứu liên quan
Để giải quyết bài toán tìm kiếm câu hỏi, các phương pháp truyền thống thường bắt đầu với việc biểu diễn các câu hỏi qua biểu diễn sử dụng túi từ [111]. Biểu diễn dùng túi từ được thực hiện như sau: từ tập dữ liệu, các từ được trích rút ra lưu vào tập từ điển V = [w1, w2, ..., wN]. Sau đó một câu hỏi q giả sử gồm các từ [w1, w3, w3, w4, w2] được chuyển sang véc tơ one-hot [1,1,1,1,0, ...,0] có số chiều bằng số từ trong từ điển V. Giá trị 0 tức là từ đó không có trong câu hỏi
q, 1 là từ đó có xuất hiện trong q. Do các từ trong câu có độ quan trọng khác nhau nên biểu diễn BOW sử dụng trọng số tf −idf là biểu diễn thông thường nhất được dùng để biểu diễn câu trong một số mô hình, ví dụ như mô hình BM25 [112]. Ngoài ra, mô hình rất phổ biến khác là mô hình chủ đề LDA [113] cũng được sử dụng để biểu diễn câu hỏi qua tập các chủ đề ẩn. Mô hình chủ đề QATM [114] được đề xuất để học ra các chủ đề ẩn của câu hỏi và câu trả lời với giả thiết câu hỏi và câu trả lời có cùng phân phối về chủ đề. Mô hình này rất tốt cho việc mô hình hóa độ tương tự của các câu hỏi. Một hướng tiếp cận khác nữa là sử dụng mô hình dịch máy để tính xác suất dịch và dùng nó để đo độ tương tự của hai câu hỏi [105]. Hầu hết các phương pháp sử dụng trong cuộc thi Semeval 2017 [21] về một số bài toán trên CQA đều khai thác sử dụng rất nhiều các đặc trưng kỹ thuật, các đặc trưng kernel kiểu cây phân tích cú pháp cũng như sử dụng các đặc trưng về độ tương đồngcosin. Các đặc trưng này được đưa vào mô hình để khai thác đặc trưng ngữ nghĩa, cú pháp và từ vựng [83].
Gần đây các phương pháp dùng mạng nơ ron [54, 115] cũng mang lại hiệu quả cho bài toán tìm kiếm câu hỏi và lựa chọn câu trả lời. Các phương pháp này với mục đích học ra véc tơ biểu diễn của câu và sau đó đo độ tương đồng của cặp câu hỏi với bài toán tìm kiếm câu hỏi và câu hỏi với câu trả lời trong bài toán lựa chọn câu trả lời [54, 37]
Mô hình BERT được đề xuất bởi Devlin và cộng sự [5] từ mô hình Transformer [2]. Mô hình này học biểu diễn từ nhúng sau đó được sử dụng vào các bài toán của NLP như phân lớp văn bản, hỏi đáp và mang lại hiệu năng vượt qua tất cả các mô hình trước đó. Một số nghiên cứu đã chỉ ra rằng BERT có thể làm việc tốt trong nhiều bài toán [116, 117]. Đặc biệt, Liu và cộng sự [116] đã chỉ ra rằng, hiệu năng về độ chính xác của mô hình BERT được cải thiện nhiều chỉ qua một số điều chỉnh trong quá trình huấn luyện. Bên cạnh đó Hao và cộng sự [117] cũng chỉ ra rằng, cơ chế tự chú ý là thành phần quan trọng của BERT.
Biểu diễn câu cũng là lĩnh vực nghiên cứu có nhiều công bố. Mô hình Skip- Thought [118] sử dụng phương pháp học không giám sát với kiến trúc encoder- decoder để học biểu diễn câu. Mô hình Infersent [119] sử dụng dữ liệu có nhãn của tập SNLI để huấn luyện mạng với kiến trúc Siamese và sử dụng phép toán max pooling để lấy biểu diễn đầu ra của câu. Conneau [119] cũng chỉ ra rằng phương pháp Infersent cho kết quả ổn định và tốt hơn phương pháp không giám sát Skip-Thought. Cer và cộng sự [120] học biểu diễn câu bằng cách huấn luyện mạng Transformer và tăng cường học không giám sát với việc huấn luyện trên
tập SLNI. Hill và cộng sự [121] cũng chỉ ra rằng biểu diễn câu cũng ảnh hưởng đáng kể tới kết quả của bài toán. Một nghiên cứu khác của Yang [122] cũng trình bày một phương pháp học biểu diễn câu trên tập dữ liệu hội thoại được
lấy từ trang Reddit.com sử dụng mạng DAN Siamese và mạng Transformer
Siamese. Mô hình cho kết quả tốt trên tập dữ liệu chuẩn STS (Semantic Textual