Kết quả và các thảo luận

Một phần của tài liệu Luận văn thạc sĩ nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 65)

Phần này diễn tả chi tiết các kết quả thử nghiệm trên tập dữ liệu SemEval (bảng 2.3). Bảng kết quả bao gồm ba phần: từ dịng (A-D) mơ tả kết quả thực hiện trên một số mơ hình LSTM và CNN đã được đề xuất cho bài toán lựa chọn câu trả lời, từ dòng (E) đến dòng (F) là kết quả mơ tả q trình phát triển từ mơ hình match-LSTM đến mơ hình đề xuất. Dịng (H-J) là kết quả mới nhất cơng bố trên tập SemEval tính tới thời điểm mơ hình mà mơ hình match-LSTM

tích hợp cơ chế chú ý có giám sát được đề xuất.

Mơ hình đề xuất được so sánh so sánh với các mơ hình sau:

• Mơ hìnhQCN [40]: xem xét phần chủ đề (subject) của câu hỏi như là phần chính của câu hỏi đồng thời tổng hợp với phần nội dung (body) của câu hỏi kết hợp với cơ chế chú ý để khai thác sự tương tác giữa câu hỏi và câu trả lời. Cuối cùng mơ hình đi qua lớp mạng CNN để biểu diễn câu hỏi và câu trả lời.

• Mơ hìnhKELP[83]: Mơ hình này sử dụng nhân cú pháp (Syntactic Kernel)

kết hợp với độ tương tự ngữ nghĩa, độ tương đồng từ vựng, độ tương đồng về ngữ pháp và một số đặc trưng đặc biệt khác đưa vào mơ hình SVM để dự đốn. Đây là mơ hình có kết quả đứng đầu trong cuộc thi SemEval 2017 với bài tốn lựa chọn câu trả lời.

• Mơ hình ECNU[84]: Mơ hình này kết hợp hai mơ hình bao gồm mơ hình

có giám sát với các đặc trưng cơ bản và mơ hình CNN để biểu diễn câu hỏi và câu trả lời.

• Các mơ hình QA-LSTM, QA-LSTM-CNN, QA-LSTM attention [7]:

Các mơ hình này thực hiện so khớp câu trả lời với câu hỏi liên quan về mặt ngữ nghĩa phức tạp trong câu. Trong đó mơ hình QA-LSTM-CNN là mơ hình lai giữa LSTM và CNN dùng cho bài tốn QA. Sau đó cơ chế chú ý được kết hợp sử dụng vào mơ hình QA-LSTM để học biểu diễn câu trả lời tốt hơn khi đưa câu hỏi đầu vào. Mỗi đầu ra của mơ hình LSTM trên câu trả lời tại bước thứ t được cập nhật qua các tham số của biểu diễn của câu hỏi và các trọng số chú ý.

• Mơ hìnhEnhance-LSTM [85]: Mơ hình này lúc đầu được đề xuất cho bài

tốn suy diễn ngơn ngữ bằng cách xem xét các kiến trúc đệ quy kết hợp với mơ hình suy diễn cục bộ và suy diễn kết hợp.

Các mơ hình trong bảng 2.3 từ dịng (A) đến dịng (G) được cài đặt và thực thi trực tiếp trên Tensorflow. Kết quả của các mơ hình trong các dịng (H-J) được thống kê lại trong bài báo gốc trên tập dữ liệu SemEval.

Bảng 2.3 cho thấy mơ hình match-LSTM gốc lúc đầu cho hiệu năng tương đương với các mơ hình LSTM và CNN khác ở dòng (A-D). Khi thêm một số mở rộng vào mơ hình này như trình bày ở phần 2.3.2, độ đo MAP và MRR của mơ hình này đều tăng một cách ổn định trên cả hai tập SemEval 2016 và SemEval

Bảng 2.4: Bảng kết quả so sánh mơ hình math-LSTM và các mơ hình mở rộng từ mơ hình này khithực hiện nối subject+body của câu hỏi thực hiện nối subject+body của câu hỏi

Models SemEval CQA 2017MAP MRR SemEval CQA 2016MAP MRR

match-LSTM (body) 86,51 92,12 77,70 83,76

math-LSTM (subject+body) 86,59 91,68 77,71 83,45

Enhanced match-LSTM (body) 87,87 92,28 78,10 84,21

Enhance match-LSTM (subject+body) 87,81 91,21 78,00 84,20

Enhanced match-LSTM + sup. att.(body) 88,38 93,13 78,62 84,56

Enhanced match-LSTM + sup. att.(sub.+body) 87,89 92,20 78,55 84,45

2017. Đặc biệt mơ hình Enhanced match-LSTM tại dịng (F) cao hơn các mơ hình LSTM ở dịng (A) tới (D) ở cả hai tập SemEval CQA 2016 và SemEval CQA 2017.

Khi thêm cơ chế chú ý có giám sát (trình bày tại phần 2.3.3) hiệu năng của mơ hình tăng đáng kể trên cả hai tập dữ liệu này. Mơ hình đề xuất đạt MRR cao nhất trên tập SemEval CQA 2017 là 93,13% ở dịng (G) so với tất cả các mơ hình cịn lại. Cịn MAP và MRR trên tập SemEval CQA 2016 thấp hơn so với mơ hình đứng đầu KELP. Điều này chứng tỏ rằng cơ chế chú ý có giám sát có khả năng học được ngữ nghĩa câu hỏi và câu trả lời tốt hơn so với các mơ hình LSTM trước đó. Đặc biệt là cơ chế chú ý có giám sát không những học được nhiều ngữ nghĩa hơn trong việc gióng từ (thảo luận phần 2.4.4 bên dưới) mà cịn giúp cho mơ hình dự đốn câu trả lời tốt hơn. Cụ thể là mơ hình tích hợp đã vượt qua đội KELP với độ đo MRR trên tập SemEval CQA 2017, còn lại độ đo MAP ngang bằng với các kết quả đứng đầu trong hai tập dữ liệu này. Để thăm dò sự ảnh hưởng của phần chủ đề (subject) trong câu hỏi, phần chủ đề được nối với thân của câu hỏi (subject+body) tạo thành nội dung của câu hỏi. Kết quả tại bảng 2.4 cho thấy rằng chủ đề của câu hỏi khơng ảnh hưởng đến kết quả của mơ hình đề xuất mà thậm chí kết quả cịn thấp hơn trên cả hai mơ hình Enhanced match-LSTM và mơ hình tích hợp cơ chế chú ý có giám sát [40]. Điều đó chứng tỏ rằng mơ hình có khả năng tổng hợp ngữ nghĩa của câu hỏi và câu trả lời tốt hơn các mơ hình LSTM trước đó mà khơng cần phải tích hợp thêm chủ đề của câu hỏi.

Cuối cùng, các phương pháp biểu diễn từ bằng mơ hình fastText, Word2vec và Glove được sử dụng để tính trọng số chú ý gkj để hướng dẫn mơ hình học. Độ tương tự cosin được sử dụng để tínhgkj từ hai véc tơ biểu diễn từ. Véc tơ từ được học từ các mơ hình khác nhau như fastText, Glove và Word2vec được thử nghiệm. Các mơ hình này được huấn luyện trên tập dữ liệu cộng đồng không

gán nhãn SemEval 2017 CQA. Bảng 2.5 chỉ ra kết quả khi thực hiện trên các biểu diễn này. Kết quả cho thấy rằng, với cách biểu diễn sử dụng fastText cho kết quả tốt nhất, cao hơn hẳn với mơ hình Word2Vec và Glove. Nguyên nhân của việc dùng Word2vec và Glove cho kết quả thấp là do bộ từ điển của tập dữ liệu SemEval không nhãn lớn chứa nhiều từ hiếm trong khi fastText hoạt động tốt trên tập dữ liệu CQA do biểu diễn từ được tổng hợp từ các n-gram từ mơ hình Word2vec [35]. fastText phù hợp với tập dữ liệu có bộ từ điển lớn (dữ liệu trình bày tại mục 2.4.1), học được ngữ nghĩa tốt hơn do đưa vào hình thái của từ qua n-gram.

Bảng 2.5: Bảng so sánh độ đo MAP với trọng số chú ýgkj được tính từ các biểu diễn từ khác nhauđể hướng dẫn mơ hình Enhanced match-LSTM + supervised attention học trọng số chú ý trên tập để hướng dẫn mơ hình Enhanced match-LSTM + supervised attention học trọng số chú ý trên tập SemEval 2017. Mơ hình MAP fastText 88,38 Word2vec 85,51 Glove 85,00 2.4.4. Trực quan hóa các trọng số chú ý

(a) Cơ chế chú ý có giám sát với độ tương tự từ (b) Cơ chế chú ý có giám sát với độ tương tự từ vàtfidf

Hình 2.5: Một ví dụ minh họa trọng số chú ý được học bởi mơ hình match-LSTM kết hợp với cơ chếchú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó. chú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó.

Hình 2.5 và hình 2.6 được sử dụng để trực quan hóa trọng số chú ý giữa từ với từ của câu trả lời (tương ứng với trục tung) và câu hỏi (tương ứng với trục hồnh). Qua việc trực quan hóa trọng số chú ý cũng giải thích về tính hiệu quả của mơ hình đề xuất. Mỗi hình vng nhỏ là mơ tả trọng số chú ýαkj giữa một từ của câu trả lời với một từ trong câu hỏi. Hình vng có màu đậm hơn mơ tả

(a) Cơ chế chú ý có giám sát với độ tương tự từ (b) Cơ chế chú ý có giám sát với độ tương tự từ vàtfidf

Hình 2.6: Một ví dụ về trọng số chú ý được học bởi mơ hình match-LSTM kết hợp với cơ chế chú ýcó giám sát với cặp câu hỏi và câu trả lời khơng tốt của nó. có giám sát với cặp câu hỏi và câu trả lời khơng tốt của nó.

chú ý có giám sát học ra trọng số chú ý của từ trong câu trả lời với các từ trong câu hỏi tốt hơn so với mơ hình match-LSTM gốc ban đầu (so với hình 2.2 của mơ hình gốc).

Xem xét chi tiết hơn, ở hình 2.5 các từ chứa nội dung của trả lời như ‘Pak-

istanis’, ‘ban’, và ‘get’ và các từ chứa nội dung của câu hỏi như ‘nationalities’,

‘banned’, và‘apply’ được ánh xạ rất chính xác. Từ’ban’ và’banned’ về bản chất

có cùng từ gốc giống nhau. Mơ hình đề xuất cũng dự đoán được các từ tương đồng ngữ nghĩa như‘Pakistanis’ và‘nationalities’, từ’get’ và’apply’. Cuối cùng khi quan sát kĩ hơn trong hình 2.5(a), các từ dừng và dấu ngắt câu vẫn được ánh xạ tới các từ khác. Trong khi đó ở hình 2.5(b) nhờ vào trọng số tf.idf trong cơng thức 2.9 mà các từ dừng và dấu ngắt câu học được ánh xạ vào các từ đặc

biệt <eos> được thêm vào cuối câu hỏi. Điều này thể hiện qua cột ô vuông ở

cuối của hình 2.5(b) chứa nhiều các ô vng màu xanh đậm. Hơn nữa, trong hình vẽ này cho thấy rằng các từ dừng và dấu ngắt câu trong câu hỏi không chú ý tới các từ trong câu trả lời nữa. Do đó, đoạn văn bản dư thừa khơng mang nội dung như lời chào hỏi hay những đoạn không mang ý nghĩa đều có trọng số chú ý thấp với các từ trong câu cịn lại.

Tương tự với hình 2.6 đối với cặp câu hỏi và câu trả lời có nhãn là 0. Từ mang nội dung như ’your nationality’ được ánh xạ tới từ ’nationalities’ ở hình 2.6(b). Cũng do câu hỏi và câu trả lời về cơ bản không liên quan về ngữ nghĩa tới nhau cho nên phần ánh xạ giữa các từ trong hai câu này không rõ ràng.

Tất cả những lý giải trên chứng tỏ rằng mơ hình đề xuất học được những phần quan trọng mang nội dung của câu trả lời và ánh xạ với nội dung liên quan của câu hỏi tốt hơn so với mơ hình gốc.

2.5. Kết luận chương 2

• Các mơ hình LSTM cơ bản như QA-LSTM, QA-LSTM-CNN, QA-LSTM- attention và Enhance-LSTM được cài đặt thử nghiệm lại trên bài tốn lựa chọn câu trả lời.

• Mơ hình match-LSTM được đề xuất sử dụng trên bài tốn lựa chọn câu trả lời. Sau đó, mơ hình này được mở rộng để phù hợp hơn với dữ liệu mạng xã hội. Cụ thể như kết hợp biểu diễn từ ở mức kí tự. Mơ hình biLSTM được kết hợp với biểu diễn từ sử dụng mơ hình Glove làm đầu vào của mơ hình. Cách kết hợp này giúp khắc phục tình trạng OOV trong dữ liệu mạng xã hội.

• Đặc biệt, cơ chế chú ý có giám sát được tích hợp vào mơ hình mở rộng để hướng dẫn mơ hình học theo chú ý xác định trước. Thực nghiệm cho thấy mơ hình học ra trọng số chú ý tốt hơn với mơ hình gốc.

• Để giải thích hiệu quả của mơ hình đề xuất, các trọng số chú ý của từng từ trong câu trả lời với các từ trong câu hỏi được trực quan hóa đối với cặp câu hỏi và câu trả lời tốt, câu hỏi với câu trả lời không tốt.

Các kết quả được trình bày trong chương 2 được công bố trong bài báo "Supervised Attention for Answer Selection in Community Question Answering" tại tạp chí IAES International Journal of Artificial Intelligence (IJ-AI)3 của Indonesia trong danh mục Scopus.

3

Chương 3

BÀI TỐN TĨM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG

Trong hệ thống hỏi đáp cộng đồng, ngoài những câu hỏi factoid (câu hỏi về ai, ở đâu, cái gì, khi nào) người dùng còn đặt nhiều câu hỏi non-factoid. Câu hỏi non-factoid thường là các câu hỏi mở như câu hỏi dạng liệt kê, mô tả, quan điểm. Câu trả lời của những dạng câu hỏi này phần lớn phức tạp, cả đoạn văn và không đầy đủ. Tiếp theo chủ đề đảm bảo chất lượng câu trả lời, để giúp người hỏi tổng hợp câu trả lời tốt nhất từ các câu trả lời của người dùng khác, một giải pháp đặt ra là tiến hành tóm tắt các câu trả lời đã có. Chương này trình bày một phương pháp tóm tắt các câu trả lời của câu hỏi non-factoid trong hệ thống CQA. Cụ thể, hai mơ hình học biểu diễn câu khơng giám sát Auto-Encoder và mơ hình LSTM-AutoEcoder được đề xuất sử dụng vào q trình tóm tắt câu trả lời. Các biểu diễn câu được sử dụng để tính độ nổi bật của câu so với câu hỏi, sau đó đưa vào thuật tốn MMR (Maximal Marginal Relevance) để tóm tắt câu trả lời theo kiểu trích rút và hướng truy vấn. Kết quả cho thấy rằng phương pháp biểu diễn câu không giám sát cho kết quả tương đương và thậm chí cịn cao hơn với phương pháp biểu diễn có giám sát ở một số độ đo.

3.1. Giới thiệu

Trong hệ thống hỏi đáp cộng đồng (ví dụ như Yahoo Answers1, StackOver- flow2) có các bài tốn chính: (1) Đánh giá chất lượng câu trả lời đã có trong hệ thống, (2) Tìm các câu hỏi tương đồng với câu hỏi truy vấn mới, (3) Tìm kiếm chuyên gia trong hệ thống hỏi đáp. Trong đó, bài tốn tóm tắt các câu trả lời thuộc bài toán thứ nhất trong số các bài toán này [8].

Trong hệ thống CQA, một câu hỏi khi được đăng lên có thể có rất nhiều người trả lời (có những câu hỏi lên đến hàng trăm câu trả lời, ví dụ như hệ thống hỏi đáp Yahoo!answer 3). Trong số các câu trả lời đó người dùng phải đọc và lựa chọn những câu trả lời tốt nhất. Theo Liu và cộng sự [8] thống kê có 78% các câu trả lời tốt nhất được dùng lại để trả lời cho các câu hỏi tương đồng được hỏi

1

https://answers.yahoo.com/

2https://stackoverflow.com/

3

Câu hỏi: How do you help your family with dealing with your cancer? I have a 15 year old who has little contact with her father I know that she’s going to be especially afraid of something happening to me. Even though they are pretty sure it’s 1st stage breast cancer and the prognosis is good how do I help her deal with her fear? I also have to deal with what I’m going through are there support groups for the families or children of cancer patients?

Câu trả lời 1: There are support groups for families and children of cancer patients. You should start with your oncologist and ask for a medical social worker. Usually the social workers known all the local support groups or may even be involved with them. That is the first place to start. There are also online groups that can be of assistance. However, you may be surprised by your daughter . .she may be stronger than you imagine. To begin with the best way to deal with her fear is to tell her the truth always. The imagination is far worse . tell her exactly what is happening. If you go to the doctor, tell her why. Tell her if you are having treatment. Explain the treatment. Include your daughter as much as she wants to be included. Obviously if she does not want to be involved or hear this . than back away a bit. But always make sure she hears the truth from you. There is no substitute for honesty. share the good news and the bad. Your daughter will feel included and not left out. She will appreciate your honesty and learn about courage and strength from you..To help guide you through any of this, you can use the following online resources: Cancer Care - free online counseling for cancer patients and families http://www.cancercare.org/CancerCare that helps get you started.Best of luck. . Câu trả lời 2: YOU should give the family some common sense information about the type of cancer that is being experienced. They should be informed as to what they should expect as your reaction to it, and what cures are available. Then you should ask them to pray for you and have their church family also pray for you. I am talking about continuous praying. What shall we then say to these things? If GOD be for us, WHO can

Một phần của tài liệu Luận văn thạc sĩ nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 65)

Tải bản đầy đủ (PDF)

(128 trang)