Tìm kiếm câu hỏi có ý nghĩa từ các trang web hỏi đáp cộng đồng

Hỗ trợ ơn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] TẠP CHÍ KHOA HỌC Khoa học Tự nhiên Cơng nghệ, Số 10 (9/2017) tr 104 - 113 TÌM KIẾM CÂU HỎI CÓ Ý NGHĨA TỪ CÁC TRANG WEB HỎI ĐÁP CỘNG ĐỒNG Nguyễn Văn Tú, Hoàng Thị Lam, Nguyễn Thị Thanh Hà13 Trường Đại học Tây Bắc Tóm tắt: Các trang web hỏi đáp cộng đồng có chứa lượng lớn thơng tin hỏi - đáp có giá trị sinh người sử dụng Trong trang web hỏi đáp cộng đồng, người dùng gửi câu hỏi, trả lời câu hỏi người khác cung cấp thông tin phản hồi cho câu hỏi/câu trả lời Trong nghiên cứu sử dụng tiếp cận học máy nhằm tìm kiếm câu hỏi có ý nghĩa từ trang web hỏi đáp cộng đồng Những câu hỏi với câu trả lời tốt chúng nguồn liệu quan trọng cho xây dựng sở tri thức, truy hồi thông tin hỏi đáp non - factiod Nghiên cứu thực trích rút đặc trưng quan trọng từ luồng hỏi - đáp thông tin người sử dụng xây dựng mô hình phân loại để xác định câu hỏi có ý nghĩa Các thực nghiệm xây dựng tập liệu trích rút từ trang web hỏi đáp cộng đồng Yahoo! Answer tính hiệu phương pháp đề xuất chúng tơi Từ khóa: Hỏi đáp cộng đồng, hỏi đáp tự động, phân loại, support vector machine Tổng quan Trong lĩnh vực xử lý ngôn ngữ tự nhiên truy xuất thông tin, vấn đề hỏi - đáp thu hút nhiều ý năm qua Tuy nhiên, nghiên cứu hỏi - đáp chủ yếu tập trung vào việc tìm câu trả lời xác cho câu hỏi factoid trích rút từ tài liệu liên quan Đánh giá tiếng nhiệm vụ hỏi - đáp factoid hội nghị truy hồi văn (Text REtrieval Conference-TREC(1)) Các câu hỏi câu trả lời phát hành TREC trở thành nguồn liệu quan trọng cho nhà nghiên cứu việc nghiên cứu xây dựng hệ thống hỏi đáp tự động [10] Tuy nhiên, phải đối mặt với câu hỏi non - factoid câu hỏi lý sao, nào,… khơng có hệ thống hỏi đáp tự động làm việc hiệu Đồng thời chi phí việc xây dựng liệu huấn luyện với câu hỏi non - factoid cao Trong hệ thống này, chi phí việc xây dựng liệu lớn sau làm việc miền cụ thể Do việc trích rút tri thức từ nguồn tài nguyên mở (thường từ Internet) hướng tiếp cận thích hợp cho xây dựng hệ thống hỏi đáp tự động miền mở Các trang web hỏi đáp cộng đồng (community Question Answering - cQA) có chứa lượng lớn nguồn tài nguyên phong phú thông tin hỏi - đáp sinh người sử dụng Trích rút cặp câu hỏi-câu trả lời có ý nghĩa nhiệm vụ quan trọng cho xây dựng sở tri thức, truy hồi thông tin hỏi đáp non-factiod Tuy nhiên cặp câu hỏi-câu trả lời cQA thường nhiễu, câu hỏi câu trả lời Do trước sử dụng, cặp câu hỏi - câu trả lời cần phải phân loại Việc phân loại giúp người dùng xây dựng kho liệu cặp câu hỏi - câu trả lời có ý nghĩa Nhóm tác giả tìm hiểu nghiên cứu liên quan thấy nghiên cứu 13 Ngày nhận bài: 22/01/2017 Ngày nhận kết phản biện: 10/03/2017 Ngày nhận đăng: 20/9/2017 Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] Liên lạc: Nguyễn Văn Tú, e - mail: tuspttb@gmail.com (1) http://trec.nist.gov/ 104 Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] trước thường tập trung vào việc tìm kiếm câu trả lời tốt cho câu hỏi [2, 6, 9] Tuy nhiện, nghiên cứu sử dụng tiếp cận học máy nhằm tìm kiếm câu hỏi có ý nghĩa từ liệu hỏi đáp thu thập từ cQA Để tìm kiếm câu hỏi có ý nghĩa từ cQA, báo đề xuất sử dụng kết hợp nhiều loại đặc trưng quan trọng trích rút từ luồng hỏi đáp thông tin người gửi câu hỏi/câu trả lời xây dựng mơ hình phân loại để xác định câu hỏi có ý nghĩa Bài báo tổ chức sau: Phần trình bày tiếp cận nhóm tác giả việc giải tốn; Phần trình bày đặc trưng sử dụng; Phần thực nghiệm kết nghiên cứu; Kết luận hướng phát triển trình bày Phần Cách tiếp cận chúng tơi tìm kiếm câu hỏi có ý nghĩa 2.1 Bài tốn tìm kiếm câu hỏi có ý nghĩa Việc tìm kiếm câu hỏi có ý nghĩa từ cQA nhằm xây dựng câu hỏi có ý nghĩa tập lớn luồng hỏi - đáp Vì vậy, nghiên cứu coi vấn đề tìm kiếm câu hỏi có ý nghĩa từ cQA vấn đề phân loại nhị phân phát biểu sau: Cho tập Q = {q1, q2, …, qn} câu hỏi trích rút từ luồng hỏi - đáp cQA Việc phân loại câu hỏi Q gán nhãn cho câu hỏi {q 1, q2, …, qn} nhãn tương ứng {l1, l2, …, ln} li = “Good” qi câu hỏi có ý nghĩa, li = “Bad” qi câu hỏi có ý nghĩa 2.2 Thuật tốn phân loại câu hỏi Có nhiều phân loại khác sử dụng để phân loại liệu văn như: Support Vector Machine, Naive Bayes, Maximum Entropy Models, Sparse Network of Winnows,… Tuy nhiên phân loại Support Vector Machine xem hiệu [1, 3, 4] Trong vấn đề phân loại câu hỏi, câu hỏi coi văn ngắn biểu diễn mơ hình khơng gian vecto có số chiều lớn, điều phân loại tốt Support Vector Machine Tuy nhiên, liệu nghiên cứu liệu thu thập từ cQA, liệu chưa gán nhãn Vì vậy, thuật tốn phân loại bán giám sát SVM (semi-supervised Support Vector Machines) sử dụng, thuật toán phân loại bán giám sát xây dựng từ thuật toán phân loại có giám sát Support Vector Machine Trong semi-supervised Support Vector Machines, tập liệu huấn luyện gồm hai phần, x phần liệu huấn luyện gồm n liệu gán nhãn yi  yi   1, 1  x* phần * * liệu huấn luyện gồm k liệu chưa gán nhãn y j y j  1, 1  Mục đích thuật tốn semi-supervised Support Vector Machines gán nhãn cho k liệu chưa gán nhãn Mỗi liệu xem điểm không gian vecto Mỗi điểm i thuộc phần liệu gán nhãn có sai số i điểm j thuộc phần liệu chưa gán nhãn có sai số Hỗ trợ ơn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] 105 Hỗ trợ ơn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] *  j Thuật toán semi-supervised Support Vector Machines giải toán tối ưu sau thay cho toán tối ưu thuật toán SVM argmin n n k * (1) * * w, ,  w  i C  C  j * , y ,b j n1 i1 Thỏa mãn điều kiện: i  i  i * j i   y w.x  b 1  y w.x  b    i i   0,  i 1, , n *  0, j  n   1, ,n  k  j Trong C C* tham số phạt liệu gán nhãn liệu chưa gán nhãn Nghiên cứu sử dụng thuật toán semi-supervised Support Vector Machines cài đặt Vikas Sindhwani tác giả trình bày [7, 8].(2) 2.3 Hiệu suất phân loại câu hỏi Để đánh giá hiệu suất việc phân loại câu hỏi, sử dụng độ đo precision, recall, F1-measure, accuracy định nghĩa Để ước lượng độ đo dựa vào Bảng Bảng Các kết dự đoán phân loại Label y* = +1 Label y* = -1 Prediction f(x*) = +1 TP FP Prediction f(x*) = -1 FN TN Mỗi ô bảng đại diện cho bốn kết đầu dự đốn f(x*) Trong đó: TP (True Positive): Số lượng câu hỏi positive phân loại TN (True Negative): Số lượng câu hỏi negative phân loại FP (False Positive): Số lượng câu hỏi positive bị phân loại sai FN (False Negative): Số lượng câu hỏi negative bị phân loại sai Precision định nghĩa xác suất mà liệu phân loại f(x*) = +1 phân loại Nó ước lượng sau: (2) http://vikas.sindhwani.org/svmlin.html 106 Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] TP Precision p  Tp  FP (2) Recall định nghĩa xác suất mà liệu với nhãn y* = +1 phân loại đúng, ước lượng sau: TP Recall r  TP  FN   2* p*r F measure 1p (3) (4) r TP TN Accuracy  TP  FP  Tn  FN (5) Các đặc trƣng phân loại câu hỏi Trong phân loại câu hỏi trích rút từ cQA, tập đặc trưng khác sử dụng Các đặc trưng phân loại câu hỏi phân thành loại khác nhau: Các đặc trưng từ vựng, đặc trưng cú pháp đặc trưng dựa thông tin người dùng (người gửi câu hỏi/câu trả lời, người đánh giá câu trả lời) Mỗi câu hỏi cQA gồm phần: Chủ đề hỏi (QSubject) phần mô tả ngắn nội dung câu hỏi (QContent) Phần chủ đề hỏi phần mô tả nội dung câu hỏi coi câu hỏi gồm nhiều câu [5] Bảng ví dụ câu hỏi cQA Yahoo!Answer Bảng Ví dụ câu hỏi trang web cQA Yahoo!Answer Chủ đề hỏi hỏi Body massage Nội dung câu hỏi Hi there, i can see a lot of massage center here, but i dont know which one is better can someone help me which massage center is good and how much will it cost me? thanks 3.1 Các đặc trưng từ vựng Đặc trưng n-gram: Các đặc trưng n-gram câu hỏi thường trích rút dựa ngữ cảnh từ câu hỏi, nghĩa là, từ xuất câu hỏi Trong phân loại câu hỏi, câu hỏi biểu diễn giống biểu diễn tài liệu mô hình khơng gian vecto Một câu hỏi x biểu diễn sau: x = x1, x2, , xN (6) xi tần số xuất từ i câu hỏi x N tổng số từ x Do tính thưa thớt đặc trưng, đặc trưng có giá trị khác không giữ lại véc tơ đặc trưng Bởi câu hỏi biểu diễn hình thức sau: x = {(t1, f1), , (tp, fp)} (7) ti từ thứ i câu hỏi x fi tần số xuất ti câu hỏi x Không gian đặc trưng gọi đặc trưng bag-of-words unigrams Unigrams trường hợp đặc biệt cách gọi đặc trưng n-gram Để trích rút đặc trưng n-gram, bất Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] 107 Hỗ trợ ơn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] kì n từ liên tiếp câu hỏi coi đặc trưng Bảng danh sách đặc trưng n-gram câu hỏi “How many Grammys did Michael Jackson win in 1983?” Bảng Ví dụ đặc trƣng từ vựng Tên đặc trưng Đặc trưng Unigram {(How, 1) (many, 1) (Grammys, 1) (did, 1) (Michael, 1) (Jackson, 1) (win, 1) (in, 1) (1983, 1) (?, 1)} Bigram {(How-many, 1) (many-Grammys, 1) (Grammys-did, 1) (did-Michael, 1) (MichaelJackson, 1) …(1983-?, 1)} Trigram {(How-many-Grammys, 1) (many-Grammys-did, 1) …(in-1983-?, 1)} Số từ câu hỏi: Trong phân loại câu hỏi, nghiên cứu sử dụng số từ câu hỏi đặc trưng để phân loại Dữ liệu thực tế cQA cho thấy câu hỏi chứa từ thường câu hỏi nhiễu, không mang ý nghĩa Số câu (sentence) câu hỏi: Mỗi câu hỏi cQA thường đoạn văn ngắn gồm nhiều câu trình bày thông tin mà người gửi câu hỏi muốn hỏi Nghiên cứu sử dụng số câu câu hỏi đặc trưng dùng để phân loại Những câu hỏi gồm nhiều câu thường mang thông tin đầy đủ câu hỏi, nhiên lại chứa nhiều thơng tin nhiễu khó phân loại Số lượng stop word câu hỏi: Stop word từ phổ biến, chung chung (ví dụ số stop word tiếng Anh: The, a, and, …) Mỗi câu hỏi người dùng thường chứa từ stop word Số lượng từ stop word câu hỏi sử dụng đặc trưng dùng để phân loại câu hỏi Từ để hỏi: Nghiên cứu sử dụng từ để hỏi (từ để hỏi từ: What, Who, When, Why, Where, How) đặc trưng dùng để phân loại câu hỏi 3.2 Các đặc trưng cú pháp Các đặc trưng cú pháp trích rút dựa vào việc phân tích cấu trúc cú pháp câu hỏi Tagged Unigrams: Tagged Unigrams cho biết thẻ từ loại từ câu hỏi NN (Noun - danh từ), NP (Noun Phrase - cụm danh từ), VP (Verb Phrase - cụm động từ), JJ (adjective - tính từ), … Ví dụ câu hỏi sau “How many Grammys did Michael Jackson win in 1983?” với Tagged Unigrams nó: How_WRB many_JJ Grammys_NNPS did_VBD Michael_NNP Jackson_NNP win_VBP in_IN 1983_CD?_ Số thực thể câu hỏi: Số lượng thực thể câu hỏi sử dụng đặc trưng cú pháp để phân loại câu hỏi Số danh từ câu hỏi: Nghiên cứu sử dụng số lượng danh từ câu hỏi đặc trưng cú pháp dùng để phân loại câu hỏi 108 Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] 3.3 Các đặc trưng dựa thông tin người dùng Số câu hỏi người hỏi: Trên cQA, người gửi nhiều câu hỏi mà họ cần giải đáp cộng đồng người sử dụng cQA Những người thường xuyên gửi câu hỏi câu hỏi họ thường mang nhiều ý nghĩa cho cộng đồng Do đó, nghiên cứu sử dụng số lượng câu hỏi người hỏi đặc trưng việc giải toán phân loại câu hỏi Số câu trả lời người hỏi: Những người thường xuyên tham gia hỏi đáp cQA thường câu hỏi câu trả lời họ mang nhiều ý nghĩa Vì vậy, nghiên cứu đề xuất sử dụng số lượng câu trả lời người hỏi đặc trưng dùng để phân loại câu hỏi Số câu trả lời câu hỏi: Mỗi câu hỏi đăng lên cQA nhận nhiều câu trả lời người quan tâm Số lượng câu trả lời cho câu hỏi thể quan tâm người dùng vấn đề mà câu hỏi đề cập tới Vì vậy, nghiên cứu sử dụng số lượng câu trả lời câu hỏi đặc trưng nhằm đánh giá tầm quan trọng câu hỏi Số lượng đánh giá cho câu trả lời tốt câu hỏi: Khi câu hỏi đăng lên nhận nhiều câu trả lời người dùng Người dùng có quyền đánh giá câu trả lời câu trả lời tốt Một câu hỏi mà câu trả lời nhận nhiều đánh giá thường câu hỏi có nhiều ý nghĩa Vì vậy, nghiên cứu sử dụng số lượng đánh giá câu trả lời đặc trưng để phân loại câu hỏi Các thực nghiệm kết 4.1 Tập liệu Để thực thực nghiệm mình, nghiên cứu thu thập liệu từ trang web hỏi đáp cộng đồng Yahoo!Answer(3) Tập liệu chứa 3.000 câu hỏi với 9.895 câu trả lời thông tin liên quan đến câu hỏi/câu trả lời thông tin người gửi câu hỏi - câu trả lời Tất cặp câu hỏi-câu trả lời trình bày ngơn ngữ tiếng Anh 4.2 Các thực nghiệm kết Để cài đặt thực nghiệm mình, nghiên cứu chia tập liệu thành hai tập test training Tập test gồm 300 câu hỏi sử dụng làm tập liệu kiểm tra, tập training gồm 2700 câu hỏi sử dụng làm tập liệu huấn luyện 4.2.1 Thực nghiệm Thực nghiệm sử dụng đặc trưng từ vựng trích rút từ câu hỏi tập liệu Các đặc trưng gồm: Đặc trưng Unigram, Bigram, số từ câu hỏi, số sentence câu hỏi, số lượng stop word câu hỏi, từ để hỏi Các kết thực nghiệm trình bày Bảng Hỗ trợ ôn tập (3) [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] https://answers.yahoo.com/ 109 Hỗ trợ ơn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] Bảng Kết phân loại sử dụng đặc trƣng từ vựng Tên đặc trưng Accuracy (%) Precision (%) Recall (%) F1-measure (%) Unigram 54,67 57,05 56,33 56,69 Bigram 46,00 48,75 49,37 49,06 Số từ câu hỏi 50,00 52,25 58,86 55,36 Số câu câu hỏi 46,57 49,45 56,96 52,94 Số lượng stop word 49,67 52,02 56,96 54,38 Từ để hỏi 47,33 22,95 50,00 34,17 Tất đặc trưng 55,33 61,39 57,06 59,14 4.2.2 Thực nghiệm Thực nghiệm sử dụng đặc trưng cú pháp trích rút từ câu hỏi tập liệu Các đặc trưng gồm: Đặc trưng Tagged Unigrams, số thực thể câu hỏi, số danh từ câu hỏi Các kết thực nghiệm trình bày Bảng Bảng Kết phân loại sử dụng đặc trƣng cú pháp Tên đặc trưng Accuracy (%) Precision (%) Recall (%) F1-measure (%) Tagged Unigrams 53,00 55,63 53,16 54,37 Số thực thể câu hỏi 50,33 52,26 65,82 58,26 Số danh từ câu hỏi 50,00 52,33 56,96 54,55 Tất đặc trưng 55,67 58,74 53,16 55,81 4.2.3 Thực nghiệm Thực nghiệm chúng tơi muốn kiểm tra tính hiệu đặc trưng tính tốn dựa vào thông tin người dùng Các đặc trưng gồm: số câu hỏi người hỏi, số câu trả lời người hỏi, số câu trả lời câu hỏi, số lượng đánh giá cho câu trả lời tốt câu hỏi Các kết thực nghiệm cho Bảng Bảng Kết phân loại sử dụng đặc trƣng dựa thông tin ngƣời dùng Tên đặc trưng Accuracy Precision (%) (%) Recall (%) F1-measure (%) Số câu hỏi người hỏi 71,00 72,33 72,78 72,55 Số câu trả lời người hỏi 49,67 68,42 8,23 14,69 Số câu trả lời câu hỏi 79,00 96,12 62,66 75,86 Số lượng đánh giá cho câu trả lời tốt câu hỏi 89,67 91,13 89,44 90,28 Tất đặc trưng 90,67 92,41 90,12 91,25 110 Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] 4.2.4 Thực nghiệm Thực nghiệm kiểm tra đóng góp tất loại đặc trưng: Đặc trưng từ vựng, đặc trưng cú pháp đặc trưng dựa thơng tin người dùng Chính nghiên cứu kết hợp tất loại đặc trưng việc phân loại câu hỏi Các kết thực nghiệm trình bày Bảng Bảng Kết phân loại sử dụng kết hợp nhiều loại đặc trƣng Accuracy (%) Precision (%) Recall (%) F1-measure (%) Các đặc trưng từ vựng 55,33 61,39 57,06 59,14 Các đặc trưng cú pháp 55,67 58,74 53,16 55,81 Các đặc trưng dựa thông tin người dùng 90,67 92,41 90,12 91,25 Tất đặc trưng 91,67 93,67 90,79 92,21 Tên đặc trưng Từ kết thực nghiệm cho thấy vai trò việc sử dụng loại đặc trưng khác phân loại câu hỏi Kết thực nghiệm 1, 2, cho thấy việc phân loại câu hỏi cần kết hợp nhiều loại đặc trưng khác Đồng thời thực nghiệm cho thấy đặc trưng trích rút từ thông tin người sử dụng cho kết phân loại cao Thực nghiệm tổng hợp thực nghiệm 1, 2, sử dụng kết hợp tất đặc trưng từ vựng, cú pháp đặc trưng trích rút từ thơng tin người dùng Kết thực nghiệm cho thấy kết hợp loại đặc trưng khác mà nghiên cứu sử dụng cho kết phân loại cao Biểu đồ so sánh tầm quan trọng loại đặc trưng khác phân loại câu hỏi cQA Biểu đồ So sánh vai trò loại đặc trƣng phân loại câu hỏi 111 Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] Kết luận hƣớng phát triển Nghiên cứu trình bày tiếp cận dựa học máy để phân loại câu hỏi cQA Để huấn luyện thuật tốn học, nhóm tác giả trích rút tập đặc trưng tốt từ từ vựng, cú pháp đặc trưng dựa thông tin người dùng Các kết thực nghiệm chứng minh đề xuất mạng lại hiệu cao vấn đề tìm kiếm câu hỏi có ý nghĩa cQA Việc kết hợp tất loại đặc trưng từ vựng, cú pháp đặc trưng dựa thông tin người dùng cho hiệu suất phân loại cao Nghiên cứu tìm phương pháp để kết hợp đặc trưng tốt nhằm đạt phân loại có độ xác cao TÀI LIỆU THAM KHẢO [1] Zhiheng Huang, Marcus Thint, and Zengchang Qin (2008) Question classification using head words and their hypernyms, In Proceedings of the Conference on Empirical Methods in Natural Language Processing, (EMNLP '08), pp 927-936 [2] H Hu, B Liu, B Wang, M Liu, X Wang (2013) Multimodal DBN for predicting high-quality answers in cQA portals, In Proceedings of ACL, pp 843-847 [3] Vijay Krishnan, Sujatha Das, and Soumen Chakrabarti (2005) Enhanced answer type inference from questions using sequential models, In Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, HLT '05, pp 315-322 [4] Babak Loni, Gijs van Tulder, Pascal Wiggers, David M J Tax, and Marco Loog (2011) Question classification with weighted combination of lexical, syntactical and semantic features, In Proceedings of the 15th international conference of Text, Dialog and Speech, pp 243-250 [5] Vinay Pande, Tanmoy Mukherjee, Vasudeva Varma (2013) Summarizing Answers For Community Question Answer Services, The International Conference of the German Society for Computational Linguistics and Language Technology, pp 151-161 [6] C Shah, J Pomerantz (2010) Evaluating and predicting answer quality in community QA, In Proceedings of SIGIR [7] Vikas Sindhwani, S Sathiya Keerthi (2007) Newton Methods for FastSolution of Semisupervised Linear SVMs, Large Scale Kernel Machines, MIT Press, pp 155-174 [8] Vikas Sindhwani, S Sathiya Keerthi (2006) Large Scale Semi-supervised Linear SVMs, SIGIR'06, pp 477-484 [9] H Toba, Z Y Ming, M Adriani, T Chua (2014) Discovering high quality answers in community question answering archives using a hierarchy of classifiers, Information Sciences, 261: 101-115 [10] Zeyi Wen, Rui Zhang, Kotagiri Ramamohanarao (2014) Enabling Precision/Recall Preferences for Semi-supervised SVM Training, CIKM’14, pp 421-430 112 Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] FINDING MEANINGFUL QUESTIONS FROM COMMUNITY QUESTION ANSWERING WEBSITES Nguyen Van Tu, Hoang Thi Lam, Nguyen Thi Thanh Ha Tay Bac University Abstract: The community question answering websites contains a large amount of question - answer information valuable generated by the users In the community question answering websites, users can post questions, answer other people's questions, and provide feedbacks to the questions / answers In this study, we use machine learning approach in order to find meaningful questions from the community question answering websites These questions, along with their best answers will be an important data source for building the knowledge base, information retrieval and non-factiod question answering The extracted important features from each question research - answer thread as well as information of the user and built a classification model to identify meaningful questions The experiments are established on dataset extracted from the community question answering websites Yahoo! The answers have shown the effectiveness of the method proposed by us Keywords: Automated question answering, community question answering, classification, support vector machine 113 ... Phần Cách tiếp cận chúng tơi tìm kiếm câu hỏi có ý nghĩa 2.1 Bài tốn tìm kiếm câu hỏi có ý nghĩa Việc tìm kiếm câu hỏi có ý nghĩa từ cQA nhằm xây dựng câu hỏi có ý nghĩa tập lớn luồng hỏi - đáp. .. tìm kiếm câu trả lời tốt cho câu hỏi [2, 6, 9] Tuy nhiện, nghiên cứu sử dụng tiếp cận học máy nhằm tìm kiếm câu hỏi có ý nghĩa từ liệu hỏi đáp thu thập từ cQA Để tìm kiếm câu hỏi có ý nghĩa từ. .. đề tìm kiếm câu hỏi có ý nghĩa từ cQA vấn đề phân loại nhị phân phát biểu sau: Cho tập Q = {q1, q2, …, qn} câu hỏi trích rút từ luồng hỏi - đáp cQA Việc phân loại câu hỏi Q gán nhãn cho câu hỏi

Định dạng
Số trang	14
Dung lượng	1,36 MB