Bảng so sánh độ đo MAP với trọng số chú ý gkj được tính từ

Một phần của tài liệu Nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 68 - 79)

SemEval 2017. Mô hình MAP fastText 88,38 Word2vec 85,51 Glove 85,00 2.4.4. Trực quan hóa các trọng số chú ý

Hình 2.5 và hình 2.6 được sử dụng để trực quan hóa trọng số chú ý giữa từ với từ của câu trả lời (tương ứng với trục tung) và câu hỏi (tương ứng với trục hoành). Qua việc trực quan hóa trọng số chú ý cũng giải thích về tính hiệu quả của mô hình đề xuất. Mỗi hình vuông nhỏ là mô tả trọng số chú ýαkj giữa một từ của câu trả lời với một từ trong câu hỏi. Hình vuông có màu đậm hơn mô tả

(a) Cơ chế chú ý có giám sát với độ tương tự từ (b) Cơ chế chú ý có giám sát với độ tương tự từ vàtfidf

Hình 2.5: Một ví dụ minh họa trọng số chú ý được học bởi mô hình match-LSTM kết hợp với cơ chếchú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó. chú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó.

(a) Cơ chế chú ý có giám sát với độ tương tự từ (b) Cơ chế chú ý có giám sát với độ tương tự từ vàtfidf

Hình 2.6: Một ví dụ về trọng số chú ý được học bởi mô hình match-LSTM kết hợp với cơ chế chú ýcó giám sát với cặp câu hỏi và câu trả lời không tốt của nó. có giám sát với cặp câu hỏi và câu trả lời không tốt của nó.

trọng số chú ý αkj lớn hơn. Nhìn chung, mô hình match-LSTM kết hợp cơ chế chú ý có giám sát học ra trọng số chú ý của từ trong câu trả lời với các từ trong câu hỏi tốt hơn so với mô hình match-LSTM gốc ban đầu (so với hình 2.2 của mô hình gốc).

Xem xét chi tiết hơn, ở hình 2.5 các từ chứa nội dung của trả lời như ‘Pak-

istanis’, ‘ban’, và ‘get’ và các từ chứa nội dung của câu hỏi như ‘nationalities’,

‘banned’, và‘apply’ được ánh xạ rất chính xác. Từ’ban’ và ’banned’ về bản chất

có cùng từ gốc giống nhau. Mô hình đề xuất cũng dự đoán được các từ tương đồng ngữ nghĩa như‘Pakistanis’ và‘nationalities’, từ’get’ và ’apply’. Cuối cùng khi quan sát kĩ hơn trong hình 2.5(a), các từ dừng và dấu ngắt câu vẫn được ánh xạ tới các từ khác. Trong khi đó ở hình 2.5(b) nhờ vào trọng số tf.idf trong công thức 2.9 mà các từ dừng và dấu ngắt câu học được ánh xạ vào các từ đặc

biệt <eos> được thêm vào cuối câu hỏi. Điều này thể hiện qua cột ô vuông ở

hình vẽ này cho thấy rằng các từ dừng và dấu ngắt câu trong câu hỏi không chú ý tới các từ trong câu trả lời nữa. Do đó, đoạn văn bản dư thừa không mang nội dung như lời chào hỏi hay những đoạn không mang ý nghĩa đều có trọng số chú ý thấp với các từ trong câu còn lại.

Tương tự với hình 2.6 đối với cặp câu hỏi và câu trả lời có nhãn là 0. Từ mang nội dung như ’your nationality’ được ánh xạ tới từ ’nationalities’ ở hình 2.6(b). Cũng do câu hỏi và câu trả lời về cơ bản không liên quan về ngữ nghĩa tới nhau cho nên phần ánh xạ giữa các từ trong hai câu này không rõ ràng.

Tất cả những lý giải trên chứng tỏ rằng mô hình đề xuất học được những phần quan trọng mang nội dung của câu trả lời và ánh xạ với nội dung liên quan của câu hỏi tốt hơn so với mô hình gốc.

2.5. Kết luận chương 2

Tóm lại, chương 2 của luận án thực hiện các công việc như sau:

• Các mô hình LSTM cơ bản như QA-LSTM, QA-LSTM-CNN, QA-LSTM-

attention và Enhance-LSTM được cài đặt thử nghiệm lại trên bài toán lựa chọn câu trả lời.

• Mô hình match-LSTM được đề xuất sử dụng trên bài toán lựa chọn câu trả lời. Sau đó, mô hình này được mở rộng để phù hợp hơn với dữ liệu mạng xã hội. Cụ thể như kết hợp biểu diễn từ ở mức kí tự. Mô hình biLSTM được kết hợp với biểu diễn từ sử dụng mô hình Glove làm đầu vào của mô hình. Cách kết hợp này giúp khắc phục tình trạng OOV trong dữ liệu mạng xã hội.

• Đặc biệt, cơ chế chú ý có giám sát được tích hợp vào mô hình mở rộng để hướng dẫn mô hình học theo chú ý xác định trước. Thực nghiệm cho thấy mô hình học ra trọng số chú ý tốt hơn với mô hình gốc.

• Để giải thích hiệu quả của mô hình đề xuất, các trọng số chú ý của từng từ trong câu trả lời với các từ trong câu hỏi được trực quan hóa đối với cặp câu hỏi và câu trả lời tốt, câu hỏi với câu trả lời không tốt.

Các kết quả được trình bày trong chương 2 được công bố trong bài báo "Supervised Attention for Answer Selection in Community Question Answering" tại tạp chí IAES International Journal of Artificial Intelligence (IJ-AI)3 của Indonesia trong danh mục Scopus.

Chương 3

BÀI TOÁN TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG

Trong hệ thống hỏi đáp cộng đồng, ngoài những câu hỏi factoid (câu hỏi về ai, ở đâu, cái gì, khi nào) người dùng còn đặt nhiều câu hỏi non-factoid. Câu hỏi non-factoid thường là các câu hỏi mở như câu hỏi dạng liệt kê, mô tả, quan điểm. Câu trả lời của những dạng câu hỏi này phần lớn phức tạp, cả đoạn văn và không đầy đủ. Tiếp theo chủ đề đảm bảo chất lượng câu trả lời, để giúp người hỏi tổng hợp câu trả lời tốt nhất từ các câu trả lời của người dùng khác, một giải pháp đặt ra là tiến hành tóm tắt các câu trả lời đã có. Chương này trình bày một phương pháp tóm tắt các câu trả lời của câu hỏi non-factoid trong hệ thống CQA. Cụ thể, hai mô hình học biểu diễn câu không giám sát Auto-Encoder và mô hình LSTM-AutoEcoder được đề xuất sử dụng vào quá trình tóm tắt câu trả lời. Các biểu diễn câu được sử dụng để tính độ nổi bật của câu so với câu hỏi, sau đó đưa vào thuật toán MMR (Maximal Marginal Relevance) để tóm tắt câu trả lời theo kiểu trích rút và hướng truy vấn. Kết quả cho thấy rằng phương pháp biểu diễn câu không giám sát cho kết quả tương đương và thậm chí còn cao hơn với phương pháp biểu diễn có giám sát ở một số độ đo.

3.1. Giới thiệu

Trong hệ thống hỏi đáp cộng đồng (ví dụ như Yahoo Answers1, StackOver- flow2) có các bài toán chính: (1) Đánh giá chất lượng câu trả lời đã có trong hệ thống, (2) Tìm các câu hỏi tương đồng với câu hỏi truy vấn mới, (3) Tìm kiếm chuyên gia trong hệ thống hỏi đáp. Trong đó, bài toán tóm tắt các câu trả lời thuộc bài toán thứ nhất trong số các bài toán này [8].

Trong hệ thống CQA, một câu hỏi khi được đăng lên có thể có rất nhiều người trả lời (có những câu hỏi lên đến hàng trăm câu trả lời, ví dụ như hệ thống hỏi đáp Yahoo!answer 3). Trong số các câu trả lời đó người dùng phải đọc và lựa chọn những câu trả lời tốt nhất. Theo Liu và cộng sự [8] thống kê có 78% các câu trả lời tốt nhất được dùng lại để trả lời cho các câu hỏi tương đồng được hỏi

1https://answers.yahoo.com/ 2https://stackoverflow.com/

Câu hỏi: How do you help your family with dealing with your cancer? I have a 15 year old who has little contact with her father I know that she’s going to be especially afraid of something happening to me. Even though they are pretty sure it’s 1st stage breast cancer and the prognosis is good how do I help her deal with her fear? I also have to deal with what I’m going through are there support groups for the families or children of cancer patients?

Câu trả lời 1: There are support groups for families and children of cancer patients. You should start with your oncologist and ask for a medical social worker. Usually the social workers known all the local support groups or may even be involved with them. That is the first place to start. There are also online groups that can be of assistance. However, you may be surprised by your daughter . .she may be stronger than you imagine. To begin with the best way to deal with her fear is to tell her the truth always. The imagination is far worse . tell her exactly what is happening. If you go to the doctor, tell her why. Tell her if you are having treatment. Explain the treatment. Include your daughter as much as she wants to be included. Obviously if she does not want to be involved or hear this . than back away a bit. But always make sure she hears the truth from you. There is no substitute for honesty. share the good news and the bad. Your daughter will feel included and not left out. She will appreciate your honesty and learn about courage and strength from you..To help guide you through any of this, you can use the following online resources: Cancer Care - free online counseling for cancer patients and families http://www.cancercare.org/CancerCare that helps get you started.Best of luck. .

Câu trả lời 2: YOU should give the family some common sense information about the type of cancer that is being experienced. They should be informed as to what they should expect as your reaction to it, and what cures are available. Then you should ask them to pray for you and have their church family also pray for you. I am talking about continuous praying. What shall we then say to these things? If GOD be for us, WHO can be against us? - Romans 8:31. The Lord daily loadeth us with BENEFITS, even the God of our salvation. Selah. - Psalm 68:19. BEFORE you enter a room or a building, quietly say Peace Be To This House. - Luke 10:5. Those who are within those premises will have a more peaceful demeanor. This will be very helpful to you. On a daily basis, read Psalm 35 to (Plead My Cause) - It is a long-winded and very powerful psalm. Your only requirement is to be sincere when asking God for His help. I wish you well. Peace, Love and God Bless. Đoạn tóm tắt các câu trả lời:

- There are support groups for families and children of cancer patients. You should start with your oncologist and ask for a medical social worker. Usually the social workers known all the local support groups or may even be involved with them. That is the first place to start. There are also online groups that can be of assistance. - She will appreciate your honesty and learn about courage and strength from you.

- To help guide you through any of this, you can use the following online resources:Cancer Care - free online counseling for cancer patients and families http://www.

- YOU should give the family some common sense information about the type of cancer that is being experi- enced.

- They should be informed as to what they should expect as your reaction to it, and what cures are available. - I am talking about continuous praying.

- Those who are within those premises will have a more peaceful demeanor.

Hình 3.1: Ví dụ về câu hỏi, các câu trả lời và đoạn tóm tắt câu trả lời theo kiểu trích rút trên tập dữliệu Yahoo!Answer. liệu Yahoo!Answer.

lặp lại. Trong số đó có 48% câu hỏi có duy nhất một câu trả lời tốt nhất. Điều đó có nghĩa là một lượng lớn còn lại là câu hỏi có nhiều câu trả lời tốt và những câu trả lời đó thường không đầy đủ. Nguyên nhân là do câu hỏi thường phức tạp, chứa nhiều ý hỏi hoặc là những câu hỏi dạng non-factoid (câu hỏi factoid là những câu hỏi thương ở dạng ngắn ngọn chứa các từ hỏi what, where, when, who). Những lý do này dẫn tới bài toán tóm tắt câu trả lời ngày càng trở nên cần thiết và có ích giúp cho người hỏi không mất thời gian đọc hết tất cả câu trả lời để lựa chọn và tổng hợp câu trả lời mà họ cần. Ví dụ trong hình 3.1 mô tả câu hỏi và các câu trả lời với đoạn tóm tắt câu trả lời.

Bài toán tóm tắt câu trả lời với đầu vào là câu hỏiq và các câu trả lời lần lượt là{A1, A2, ..., An}. Các câu trả lời sau đó được tách thành tập các câu (sentences)

S = (S1, S2, ..., Sn). Đầu ra của bài toán tóm tắt là đi ra một tập con R ⊂S sao cho tổng số từ trong tập R không lớn hơn L ( L là độ dài cho trước); các câu trong tập R chứa các nội dung liên quan nhất với câu hỏiq và các câu này phải không trùng lặp về nội dung với nhau.

Một số nghiên cứu đã thực hiện tóm tắt câu trả lời cho các câu hỏi factoid, non-factoid và trên những câu hỏi phức tạp và nhiều câu [86, 87, 17, 88]. Trong đó các nghiên cứu này đều sử dụng phương pháp học biểu diễn có giám sát cho bài toán tóm tắt câu trả lời. Trong khi đó dữ liệu phục vụ cho bài toán tóm tắt văn bản nói chung và cho bài toán tóm tắt câu trả lời chủ yếu là dữ liệu không có nhãn. Vì vậy, các phương pháp biểu diễn câu không giám sát được đề xuất để giải quyết bài toán tóm tắt câu trả lời cho các câu hỏi non-factoid trong hệ thống CQA. Hai mô hình mạng nơ ron học sâu là Auto-Encoder (AE) và LSTM-AutoEncoder (LSTM-AE) được sử dụng để sinh ra biểu diễn của câu sang không gian số thực có số chiều nhỏ để biểu diễn ngữ nghĩa của câu [89, 90]. Sau đó các biểu diễn câu được dùng để đo độ tương tự về ngữ nghĩa của câu và làm đầu vào của thuật toán tóm tắt MMR.

Phương pháp tóm tắt câu trả lời giải quyết ba thách thức: Tính thưa, tính trùng lặp về nội dung và khả năng thích ứng. Việc sinh ra biểu diễn câu dùng mạng nơ ron với số chiều nhỏ giải quyết thách thức với trường hợp câu hỏi và câu trả lời ngắn so với kích thước của bộ từ vựng. Thuật toán MMR [91] được sử dụng để tóm tắt câu trả lời. Thuật toán này đảm bảo loại bỏ các câu trùng lặp nội dung, làm cân bằng sự liên quan của câu hỏi với tính đa dạng về nội dung của đoạn tóm tắt. Cuối cùng tập dữ liệu yahoo-Answer được sử dụng để huấn luyện và đánh giá mô hình tóm tắt câu trả lời.

3.2. Các công trình nghiên cứu liên quan

Để thực hiện tóm tắt câu trả lời trong hệ thống hỏi đáp cộng đồng, các nghiên cứu đã sử dụng các kĩ thuật trong tóm tắt văn bản [86]. Liu và cộng sự [8] sử dụng kỹ thuật phân cụm trên các câu hỏi về quan điểm và câu hỏi mở. Tomasoni [92] đã sử dụng các đặc trưng siêu dữ liệu (metadata) và đề xuất ra hàm tính sự trùng lặp ngữ nghĩa. Còn một số nghiên cứu khác tập trung vào giải quyết bài toán tối ưu để lựa chọn tập tóm tắt bằng cách tối đa hóa hàm mục tiêu với độ dài cho trước.

Thuật toán ILP (Interger Linear Programming) cũng được áp dụng thành công vào bài toán tóm tắt câu trả lời [92]. Chan và cộng sự [17] đã đề xuất sử

dụng mô hình CRF (Conditional Random Fields) vào bài toán tóm tắt câu trả lời cho những câu hỏi phức tạp nhiều ý hỏi mà có những câu trả lời không đầy đủ. Tác giả cũng chỉ ra một cách hệ thống để mô hình hóa sự tương tác của ngữ cảnh ngữ nghĩa giữa các câu trả lời dựa vào phân đoạn câu hỏi. Cả ngữ cảnh ngữ nghĩa và không ngữ nghĩa đều được khai thác sử dụng trong nghiên cứu này.

Hướng nghiên cứu về học biểu diễn văn bản cũng thu hút nhiều nghiên cứu [90, 93, 94, 95, 96]. Mô hình Auto-Encoder (AE) cũng được sử dụng vào bài toán tóm tắt đơn văn bản hướng truy vấn [97]. Nghiên cứu khác cũng sử dụng mô hình Sequence to Sequence vào bài toán tóm tắt theo kiểu tóm lược [98, 99, 100]. Các nghiên cứu liên quan gần nhất tới mô hình đề xuất cũng được thực hiện trên các câu hỏi non-factoid và suwer dụng mô hình CNN để sinh ra biểu diễn câu trên tập dữ liệu có giám sát [101, 87]. Sau đó, sử dụng véc tơ biểu diễn câu đưa vào thuật toán tóm tắt MMR chọn ra đoạn tóm tắt [93].

3.3. Mô hình tóm tắt câu trả lời cho các câu hỏi non-factoid

Mô hình tóm tắt câu trả lời được đề xuất như mô tả trong hình 3.2.

Một phần của tài liệu Nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 68 - 79)

Tải bản đầy đủ (PDF)

(128 trang)