Trong nghiên cứu này tập trung giải quyết bài toán xếp hạng lại các câu trả lời của người dùng trong các trang web hỏi đáp cộng đồng.Chúng tôi thực hiện trích rút nhiều loại đặc trưng quan trọng từ mỗi cặp câu hỏi – câu trả lời nhằm đánh giá chính xác sự liên quan giữa chúng, sau đó chúng tôi xây dựng mô hình để phân loại và xếp hạng các câu trả lời theo độ liên quan của chúng với câu hỏi. Các kết quả thực nghiệm trên bộ dữ liệu cung cấp bởi SemEval 2016 cho thấy những đề xuất của chúng tôi cho kết quả cao hơn so với các nghiên cứu trước đó.
Journal of Science of Lac Hong University Special issue (11/2017), pp 45-49 Tạp chí Khoa học Lạc Hồng Số đặc biệt ( 11/2017), tr 45-49 XẾP HẠNG CÂU TRẢ LỜI TRONG CÁC TRANG WEB HỎI ĐÁP CỘNG ĐỒNG Ranking related answers in communityquestion answer sites Nguyễn Văn Tú1, Trần Thị Quyên2 1tuspttb@gmail.com, 2quyencdsl@gmail.com Trường Đại học Tây Bắc, Sơn La, Việt Nam Cao đẳng Sơn La, Sơn La, Việt Nam 2Trường Đến tòa soạn: 23/05/2017; Chấp nhận đăng: 17/08/2017 Tóm tắt Các trang web hỏi đáp cộng đồng có chứa lượng lớn thơng tin hỏi-đáp có giá trị sinh người sử dụng Trong trang web hỏi đáp cộng đồng, người dùng có thểgửi câu hỏi, trả lời câu hỏi người khác cung cấp thông tin phản hồi cho câu hỏi/câu trả lời Trong nghiên cứu tập trunggiải toánxếp hạng lại câu trả lời người dùngtrong trang web hỏi đáp cộng đồng.Chúng tơi thực trích rút nhiều loại đặc trưng quan trọng từ cặp câu hỏi – câu trả lờinhằm đánh giá xác liên quan chúng, sau chúng tơi xây dựng mơ hình để phân loại xếp hạng câu trả lời theo độ liên quan chúng với câu hỏi Các kết thực nghiệm liệu cung cấp SemEval 2016 cho thấy đề xuất cho kết cao so với nghiên cứu trước Từ khóa: Hỏi đáp cộng đồng; Hệ thống hỏi đáp tự động; Xếp hạng câu trả lời; Trích rút đặc trưng Abstract Community question - answer sites contain large amounts of valuable question - answer information generated by users In community question answer sites, users can submit questions, answer other people's questions, and provide feedback on their questions/answers In this study, we focused on solving the problem of ranking answers in community question answer sites We extracted a variety of important features from each question - answer pair to accurately assess the relevance of them, then we built the model to classify and ranking answers according to their relevance to the question The experimental results on the dataset provided by SemEval 2016 shows that our proposed give higher results than previous studies Keywords: Community question answer; Automatic question answer system; Ranking answer; Feature extraction TỔNG QUAN Trong lĩnh vực xử lý ngôn ngữ tự nhiên truy xuất thông tin, vấn đề hỏi-đáp thu hút nhiều ý năm qua Tuy nhiên, nghiên cứu hỏi-đáp chủ yếu tập trung vào việc tìm câu trả lời xác cho câu hỏi factoid trích rúttừ tài liệu liên quan Các đánh giá tiếng nhiệm vụ hỏi-đáp factoid hội nghị truy hồi văn (Text REtrieval Conference-TREC1) Các câu hỏi câu trả lời phát hành TREC trở thành nguồn liệu quan trọng cho nhà nghiên cứu việc nghiên cứu xây dựng hệ thống hỏi đáp tự động [9] Tuy nhiên, phải đối mặt với câu hỏi non-factoid câu hỏi lý sao, nào, về, … khơng có hệ thống hỏi đáp tự động làm việc tốt Các cặp câu hỏi-câu trả lời người dùng tạo chắn quan trọng để giải vấn đề trả lời câu hỏi nonfactoid Rõ ràng, cặp câu hỏi-câu trả lời tự nhiên thường tạo trongq trình giao tiếp người thơng qua phương tiện truyền thơng xã hội Internet, chúng tơi đặc biệt quan tâm tới trang web hỏi đáp dựa vào cộng đồng Các trang web hỏi đáp dựa vào cộng đồng cung cấp tảng mà người dùng tự đặt câu hỏi, cung cấp câu trả lời thông tin phản hồi (ví dụ, cách biểu cho ý kiến) cho câu hỏi/câu trả lời câu trả lời tốt lựa chọn xếp hạng để hiển thị cho người dùng Tuy nhiên người dùng tự gửi câu trả lời cho câu hỏi nên câu hỏi nhận nhiều câu trả lời, chất lượng câu trả lời có nhiều khác Vì trước hiển thị câu trả lời cho người dùng trang web hỏi đáp cộng đồng cần phải xếp lại câu trả lời theo mức độ từ câu trả lời tốt cho câu hỏi Đã có số cơng trình nghiên cứu vấn đề xếp hạng lại câu trả lời trang web hỏi đáp cộng đồng Trong nghiên cứu Daniel Balchev tác giả khác [1], tác giả sử dụng nhiều loại đặc trưng từ thông tin cung cấp người dùng (số lượng bình chọn cho câu trả lời) đến đặc trưng từ vựng trích rút từ cặp câu hỏi – câu trả lời; sau sử dụng phân loại SVM để sinh điểm số tương tự câu hỏi câu trả lời dụng điểm số tương tự để xếp hạng lại câu trả lời theo độ tương tự chúng với câu hỏi Trong nghiên cứu Marc Franco Salvador tác giả khác [4], tác giả sử dụng mạng ngữ nghĩa đa ngôn ngữ lớn BabelNet để sinh đồ thị tri thức cho câu hỏi câu trả lời, sau tính toán độ tương tự câu hỏi câu trả lời dựa đồ thị tri thức chúng Trong đó, nghiên cứu Chang’e Jia tác giả khác [5], tác giả lại sử dụng mơ hình Latent Semantic Analysis để xác định chủ đề cho câu hỏi, câu trả lời tính tốn độ tương tự chủ đề Nghiên cứu Xiaoqiang Zhou tác giả khác [10], tác giả sử dụng mơ hình mạng nơ ron để mơ hình hóa mối quan hệ câu hỏi câu trả lời Trong báo này, sử dụng tiếp cận học máy nhằm xếp hạng lại câu trả lời cho câu hỏitrích rút từ trang web hỏi đáp cộng đồng Chúng đề xuất sử dụng kết hợp nhiều loạiđặc trưng quan trọng trích rút từ http://trec.nist.gov/ Tạp chí Khoa học Lạc Hồng Số Đặc Biệt 45 Nguyễn Văn Tú, Trần Thị Quyên Bảng Ví dụ số đặc trưng n-gram cặp câu hỏi - câu trả lời xây dựng mơ hình để phân loại vàxếphạng câu trả lời để đạt kết tốt Để thực đề xuất mình, chúng tơi sử dụng tập liệucung cấp SemEval 201 thực nghiệm Chúng tiến hành đánh giá thử nghiệm rộng rãi để chứng minh tính hiệu phương pháp tiếp cận Các kết thực nghiệm cho thấy phương pháp tiếp cận mà đề xuất cho kết phân loại xếp hạng cao so với nghiên cứu trước tập liệu độ đo đánh giá BÀI TOÁN Bài toán xếp hạng câu trả lời trang web hỏi đáp cộng đồng định nghĩa sau: Cho tập Q câu hỏi, câu hỏi ∈ gắn với tập câu trả Yêu cầu xếp hạng lại câu trả lời� ,…, 1, lời , , … , theo độ liên quan chúng với câu hỏi Việc xếp hạng câu trả lời mơ hình hóa hàm : × � → , Q tập câu hỏi, A tập câu trả lời r mơ hình hóa hàm tuyến tính ( , ) ⃗⃗ ∅( , ), ⃗⃗ mơ hình ∅( , ) cung cấp biểu diễn véc tơ cặp ( , ) Sự biểu diễn véc tơ cặp ( , ) tính tốn dựa độ đo tương tự câu hỏi câu trả lời trình bày phần Trong nghiên cứu này, sử dụng phân loại Support Vector Machine2 (SVMs) để học r sinh điểm số phân loại câu hỏi câu trả lời, việc xếp hạng lại câu trả lời dựa điểm số phân loại TRÍCH RÚT CÁC ĐẶC TRƯNG Để đánh giá liên quan câu hỏi câu trả lời thực trích rút loại đặc trưng quan trọng trình bày 3.1 Các đặc trưng từ vựng Đặc trưng n-gram Các đặc trưng n-gram cặp câu hỏi-câu trả lời trích rút dựa ngữ cảnh từ câu, nghĩa là, từ xuất cặp câu hỏi-câu trả lời Mỗi cặp câu hỏi-câu trả lờix biểu diễn giống biểu diễn tài liệu mơ hình khơng gian véc tơ sau: ,…, (1) 1, Trong đóxilà tần số xuất từ i x N tổng số từ x Do tính thưa thớt đặc trưng, đặc trưng có giá trị khác khơng giữ lại véc tơ đặc trưng Bởi cặp câu hỏi-câu trả lời biểu diễn hình thức sau: (2) { , , … , ( , )} ti từ thứ i x fi tần số xuất ti x Để trích rút đặc trưng n -gram, n từ liên tiếp cặp câu hỏi - câu trả lời coi đặc trưng Bảng danh sách số đặc trưng n-gram câu hỏi “How many Grammys did Michael Jackson win in 1983 ?” Tỉ lệ số lượng từ câu hỏi câu trả lời Để đánh giá liên quan câu hỏi câu trả lời, nghiên cứu sử dụng đặc trưng tỉ lệ số lượng từ câu hỏi vàsố lượng từ câu trả lời https://www.csie.ntu.edu.tw/~cjlin/libsvm/ 46 Tạp chí Khoa học Lạc Hồng Số Đặc Biệt Tên đặc trưng Unigram Bigram Trigram Đặc trưng {(How, 1) (many, 1) (Grammys, 1) (did, 1) (Michael, 1) (Jackson, 1) (win, 1) (in, 1) (1983, 1) (?, 1)} {(How-many, 1) (many-Grammys, 1) (Grammys-did, 1) (did-Michael, 1) (MichaelJackson, 1) …(1983-?, 1)} {(How-many-Grammys, 1) (many-Grammysdid, 1) …(in-1983-?, 1)} Tỉ lệ số lượng câu (sentence) câu câu hỏi trả lời Để đánh giá liên quan câu hỏi câu trả lời, nghiên cứu sử dụng đặc trưng tỉ lệ số lượng câu (sentence) câu hỏi số lượng câu câu trả lời Chồng chéo n-gram từ câu hỏi câu trả lời Khi trả lời câu hỏi trang web hỏi đáp cộng đồng, người sử dụng thường có xu hướng sử dụng lại số từ câu hỏi câu trả lời họ Vì câu trả lời có chứa từ cụm từ câu hỏi câu trả lời có khả câu trả lời tốt, liên quan nhiều đến câu hỏi Để tính tốn chồng chéo từ câu hỏi câu trả lời, thực loại bỏ stopword câu hỏi, câu trả lời sau tính tốn chồng chéo từ sử dụng n gram từ (n=1, 2, 3) Bag-of-word Để xây dựng đặc trưng này, thực loại bỏ từ stopword câu hỏi câu trả lời Các câu hỏi câu trả lời sau biểu diễn dạng véc tơ (bag-of-word) Để tính toán giống câu hỏi vàcâu trả lời chúng tơi tính tốn độ tương tự hai véc tơ Các độ đo sử dụng tính tốn độ tương tựbao gồm: euclidean, manhattan, minkowski, cosine, jaccard Bảng ví dụ việc tính tốn đặc trưng đo giống Bảng Ví dụ đặc trưng Bag-of-word Câu hỏi Câu trả lời Các độ đo Các giá trị độ đo euclidean 5.196152 Massage oil Where I can buy good oil for massage? You might be able to find Body Massage Oil in Body Shop at Landmark or City Centre, and if they have it there, manhattan 25 minkowski 3.141 cosine 0.405062 jaccard 1.0 3.2 Các đặc trưng dựa biểu diễn véc tơ từ Chúng sử dụng biểu diễn véc tơ từ để mơ hình hóa mối quan hệ ngữ nghĩa câu hỏi câu trả lời chúng Chúng tơi chọn mơ hình word2vec3 đề xuất Mikolov [6, 7] để tính tốn độ tương tự ngữ nghĩa câu hỏi câu trả lời Word2vec biểu diễn từ dạng phân bố quan hệ với từ cịn lại Giả sử ta có véc tơ có số chiều 100 Khi đó, từ biểu diễn véc tơ có phần tử mang giá trị phân bố quan hệ từ từ khác từ điển Trong báo sử dụng tập https://code.google.com/p/word2vec Xếp hạng câu trả lời trang web hỏi đápcộng đồng liệu từ Qatar Living (English) để huấn luyện lại mơ hình word2vec với véc tơ có số chiều 200, window = Độ tương tự ngữ nghĩa câu hỏi câu trả lời Để tính tốn độ tương tự ngữ nghĩa câu hỏi câu trả lời thực sau: Bước 1: Tất câu câu hỏi câu trả lời phân tích thành từ tố từ biểu diễn dạng véc tơ từ sử dụng mơ hình huấn luyện word2vec Bước 2: Đối với câu hỏi (câu trả lời), chúng tơi lấy giá trị trung bình của tất véc tơ từ từ câu hỏi (câu trả lời) để có biểu diễn véc tơ cho câu hỏi (câu trả lời) Việc lấy giá trị trung bình tất véc tơ từ chứng minh tính hiệu nghiên cứu [2, 3] Bước 3: Độ tương tự hai véc tơ tính cơng thức dây: ∑ =1 × , × √∑ =1 √∑ =1 Trong dó u v hai véc tơ n chiều, ui thành phần thứ i véc tơ u Đối với việc tính tốn độ tương tự chúng tơi sử dụng tính tốn độ tương tự thành phần câu hỏi với câu trả lời: tiêu đề câu hỏi (QSubject) với câu trả lời, phần mô tả câu hỏi (QBody) với câu trả lời, câu hỏi (Qsubject+ QBody) với câu trả lời Bảng ví dụ việc tính tốn độ tương tự ngữ nghĩa giữacâu hỏi câu trả lời Bảng Ví dụ tính toán độ tương tự ngữ nghĩa câu hỏi câu trả lời Câu hỏi Qsubject QBody Qsubject +QBody Massage oil Where I can buy good oil for massage? Massage oil Where I can buy good oil for massage? Câu trả lời You might be able to find Body Massage Oil in Body Shop at Landmark or City Centre, and if they have it there, Độ tương tự 0.2692716 0.7076797 Chúng sử dụng độ tương tự ngữ nghĩa câu trả lời với loại câu hỏi (question category) tương ứng Trong tập liệu làm thực nghiệm phần IV, câu hỏi tập liệu SemEval 2016 phân vào 27 loại khác Bảng ví dụ việc tính tốn độ tương tự ngữ nghĩa câu trả lời loại câu hỏi Bảng Ví dụ tính tốn độ tương tự ngữ nghĩa loại câu hỏi câu trả lời You might be able to find Body Massage Oil in Body Shop at Landmark or City Centre, and if they have it there, Độ tương tự ngữ nghĩa Beauty and Style 0.1182937 Electronics 0.2048591 Doha Shopping 0.3174826 Cars 0.0705854 CÁC THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Tập liệu độ đo Trong trang web hỏi đáp cộng đồng, câu hỏi thường chứa tiêu đề hỏi đoạn văn ngắn mô tả nội dung hỏi đưa người hỏi Phần tiêu đề hỏi phần mô tả coi câu hỏi gồm nhiều câu [8] Để thực thực nghiệm mình, chúng tơi sử dụng tậpdữ liệu từ SemEval 20165 Tập liệu trích rút từ trang web hỏi đáp cộng đồng 6, bao gồm câu hỏi câu hỏi gồm tập câu trả lời tương ứng Tất cặp câu hỏi -câu trả lời trình bày ngôn ngữ tiếng Anh Tập liệu bao gồm 2tập con: train – tập liệu dùng để huấn luyện mơ hình phân loại, test – tập liệu dùng để kiểm tra tính hiệu mơ hình phân loại Bảng trình bày số thống kê tập liệu 0.6686702 Gióng từ câu hỏi câu trả lời Các câu hỏi câu trả lời phân tích thành từ tố biểu diễn dạng véc tơ từ sử dụng mơ hình huấn luyện word2vec Mỗi từ tk câu hỏi sau gióng với tất từ câu trả lời lựa chọn từ có độ tương tự lớn cơng thức đây: c_sim , ℎ 1≤ℎ≤ Trong đó: m: số từ câu hỏi tk: biểu diễn véc tơcủa từ thứ k câu hỏi bh: biểu diễn véc tơ từ thứ h câu trả lời _ , ℎ : độ tương tự cosin hai biểu diễn véc tơ từ tk bh Điểm số tương tự câu hỏi câu trả lời tính tốn sau: ∑ =1 ( ) Loại câu hỏi (QCategory) Câu trả lời Bảng 5.Thống kê tập liệu sử dụng Tập liệu Train Test Số câu hỏi 2669 327 Số câu trả lời 17900 3270 Để đánh giá hiệu suất mơ hình, chúng tơi sử dụng độ đo phân loại xếp hạng Các độ đo phân loại bao gồm: Accuracy (Acc), Precision (P), Recall (R), vàF1-measure (F1) Các độ đo xếp hạng bao gồm: Mean Average Precision (MAP), Average Recall (AvgRec) Mean Reciprocal Rank (MRR) 4.2 Các thực nghiệm Trong n số lượng từ câu hỏi Độ tương tự ngữ nghĩa câu trả lời loại câu hỏi (QCategory) Thực nghiệm 1: Trong thực nghiệm muốn kiểm tra tính hiệu việc sử dụng đặc trưng từ vựng trình bày mục 3.1 Các đặc trưng từ vựng bao gồm: đặc trưng Unigram, tỉ lệ số từ câu trả lời câu hỏi, tỉ lệ số câu câu trả lời câu hỏi, chồng chéo n -gram từ câu hỏi câu trả lời, bag-of-word Bảng trình bày kết thực nghiệm Thực nghiệm 2: Thực nghiệm thứ sử dụng đặc trưng dựa biểu diễn véc tơ từ Để tính tốn giống http://alt.qcri.org/semeval2016/task3/index.php?id=data-and-tools http://alt.qcri.org/semeval2016/task3/ http://www.qatarliving.com/ Tạp chí Khoa học Lạc Hồng Số Đặc Biệt 47 Nguyễn Văn Tú, Trần Thị Quyên câu hỏi câu trả lời, thực hiện: (1) loại bỏ từ stopword câu hỏi câu trả lời, (2) biểu diễn câu hỏi câu trả lời sử dụng mơ hình word2vec, (3) sử dụng độ đo cosine để tính tốn độ tương tự hai véc tơ Kết thực nghiệm trình bày Bảng Thực nghiệm 3: Trong thực nghiệm thực phân loại xếp hạng cặp câu hỏi - câu trả lời cách kết hợp tất loại đặc trưng thực thực nghiệm Các kết thực nghiệm trình bày Bảng Từ kết thực nghiệm nhận thấy việc phân loại xếp hạng cặp câu hỏi - câu trả lời hệ thống hỏi đáp cộng đồng cần kết hợp nhiều loại đặc trưng khác kết tốt Các đặc trưng từ vựng đóng vai trị quan trọng nhiệm vụ Điều câu trả lời người dùng thường viết cách tự do, không theo cấu trúc định, có nhiều câu trả lời trình bày sai cấu trúc cú pháp chứa từ không liên quan đến câu hỏi Các kết từ thực nghiệm cho thấy việc trích rút đặc trưng dựa biểu diễn véc tơ từ (ở word2vec) có ý nghĩa quan trọng việc phân loại xếp hạng cặp câu hỏi - câu trả lời Việc huấn luyện lại mơ hình word2vec sử dụng việc tính tốn độ tương tự ngữ nghĩa thành phần câu hỏi với câu trả lời, câu trả lời với loại câu hỏi cho kết phân loại cao Trong thực nghiệm thực việc kết hợp nhiều loại đặc trưng khác đạt kết phân loại xếp hạng cao tất độ đo mà sử dụng Điều chứng minh vấn đề phân loại xếp hạng cặp câu hỏi - câu trả lời trang web hỏi đáp cộng đồng cần kết hợp nhiều loại đặc trưng khác Bảng Kết phân loại xếp hạngsử dụng đặc trưng từ vựng Các đặc trưng sử dụng Unigram Tỉ lệ số từ câu trả lời câu hỏi Tỉ lệ số câu câu trả lời câu hỏi Chồng chéo n-gram từ câu hỏi câu trả lời Bag-of-word Tất đặc trưng Acc 49.48 61.04 61.07 62.78 Các độ đo phân loại P R 23.04 10.38 56.69 17.53 56.86 17.46 64.74 18.51 63.67 67.00 70.09 82.55 18.51 23.85 F1 14.32 26.78 26.71 28.79 Các độ đo xếp hạng MAP AvgRec MRR 57.24 68.19 61.22 61.69 74.40 69.05 61.83 74.52 69.25 63.85 76.14 71.68 29.29 37.01 65.58 67.90 77.70 79.30 74.03 76.18 Bảng Kết phân loại xếp hạng sử dụng đặc trưngdựa biểu diễn véc tơ từ Các đặc trưng sử dụng Độ tương tự ngữ nghĩa câu hỏi câu trả lời Gióng từ câu hỏi câu trả lời Độ tương tự ngữ nghĩa câu trả lời loại câu hỏi Tất đặc trưng Acc 69.08 Các độ đo phân loại P R 85.18 28.97 F1 43.23 Các độ đo xếp hạng MAP AvgRec MRR 69.42 80.48 77.49 67.83 63.21 78.09 60.68 28.97 26.94 42.26 37.31 68.40 65.32 79.37 75.37 76.14 70.91 72.35 86.96 37.62 52.52 71.82 81.93 78.52 Bảng Kết phân loại xếp hạng sử dụng kết hợp nhiều loại đặc trưng Các đặc trưng sử dụng Các đặc trưng từ vựng Các đặc trưng dựa biểu diễn véc tơ từ Cả hai loại đặc trưng Acc 67.00 72.35 72.75 Các độ đo phân loại P R 82.55 23.85 86.96 37.62 88.97 37.62 F1 37.01 52.52 52.88 Các độ đo xếp hạng MAP AvgRec MRR 67.90 79.30 76.18 71.82 81.93 78.52 72.38 82.36 79.19 SO SÁNH VỚI CÁC NGHIÊN CỨU KHÁC Bảng So sánh với kết nghiên cứu khác Nghiên cứu tác giả Chang’e Jia tác giả [5] Xiaoqiang Zhou tác giả [10] Daniel Balchev tác giả [1] Marc Franco-Salvador tác giả [4] Nghiên cứu Acc 64.43 69.51 56.73 63.21 72.75 Các độ đo phân loại P R 73.18 19.71 62.48 62.53 47.81 70.58 55.64 46.80 88.97 37.62 Chúng thực so sánh kết nghiên cứu với kết nghiên cứu tác giả khác Các nghiên cứu mà sử dụng để so sánh sử dụng tập liệu từ SemEval 2016 sử dụng độ đo đánh giá 48 Tạp chí Khoa học Lạc Hồng Số Đặc Biệt F1 31.06 62.50 57.00 50.84 52.88 Các độ đo xếp hạng MAP AvgRec MRR 82.67 80.26 71.52 70.90 83.36 77.38 68.79 79.94 80.00 67.42 79.38 76.97 82.36 79.19 72.38 Bảng trình bày số kết nghiên cứu tác giả khác để so sánh với kết vấn đề xếp hạng câu trả lời trang web hỏi đáp cộng đồng Từ bảng so sánh cho thấy nghiên cứu cho kết cao độ đo phân loại Accuracy độ đo xếp hạng MAP Xếp hạng câu trả lời trang web hỏi đápcộng đồng KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày đề xuất việc xếp hạng câu trả lờitrong trang web hỏi đáp cộng đồng Chúng tơi thực trích rút nhiều loại đặc trưng khác từ đặc trưng từ vựng, đặc trưng dựa biểu diễn véc tơ từ (ở word2vec) sử dụng phân loại Support Vector Machine để phân loại cặp câu hỏi- câu trả lời, sinhra điểm số phân loại dùng để xếp hạng câu trả lời Các kết thực nghiệm cho thấy đề xuất đạt kết phân loạivới độ đo Accuracylà72.75% kết xếp hạng MAP 72.38% sử dụng kết hợp nhiều loại đặc trưng Các nghiên cứu nghiên cứu bổ sung thêm loạiđặc trưng thông tin người sử dụng nghiên cứu cách kết hợp loại đặc trưng khác nhằm đạt kết cao TÀI LIỆU THAM KHẢO [1] Daniel Balchev, Yasen Kiprov, Ivan Koychev, Preslav Nakov,“PMI-cool at SemEval-2016 Task 3: Experiments with PMI and Goodness Polarity Lexicons for Community Question Answering,” Proceedings of SemEval-2016, pp 844–850, 2016 [2] Marc Franco-Salvador, Francisco Rangel, Paolo Rosso, Mariona Taule, and M Antonia Mart,“Language variety identification using distributed representations of words and documents”, Proceeding of the 6th International Conference of CLEF on Experimental IR meets Multilinguality, Multimodality, and Interaction (CLEF 2015), pp 28-40, 2015 [3] Marc Franco-Salvador, Paolo Rosso, and Francisco Rangel, “Distributed representations of words and documents for discriminating similar languages”, Proceeding of the Joint Workshop on Language Technology for Closely Related Languages, Varieties and Dialects (LT4VarDial), RANLP, pp.11-16, 2015 [4] Marc Franco-Salvador, Sudipta Kar, Thamar Solorio, and Paolo Rosso,“UH-PRHLT at SemEval-2016 Task 3: Combining lexical and semantic-based features for community question answering.”, Proceedings of SemEval-2016, pp 814–821, 2016 [5] Chang’e Jia, Xinkai Du, Chengjie Sun and Lei Lin, “ITNLPAiKF at SemEval-2016 Task 3: a question answering system using community QA repository”, Proceedings of SemEval2016, pp 904–909, 2016 [6] T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean, “Distributed representations of words and phrases and their compositionality”, CoRR, abs/1310.4546, 2013 [7] T Mikolov, K Chen, G Corrado, and J Dean, “Efficient estimation of word representations in vector space”, CoRR, abs/1301.3781, 2013 [8]Vinay Pande, Tanmoy Mukherjee, Vasudeva Varma,“Summarizing answers for community question answer services”, The International Conference of the German Society for Computational Linguistics and Language Technology, pp 151-161, 2013 [9] Zeyi Wen, Rui Zhang, Kotagiri Ramamohanarao, “Enabling precision/recall preferences for semi-supervised SVM training”, CIKM’14, pp 421-430, 2014 [10] Xiaoqiang Zhou, Baotian Hu, Jiaxin Lin, Yang Xiang, Xiaolong Wang,“ICRC-hit: A deep learning based comment sequence labeling system for answer selection challenge”, Proceedings of semeval-2016, pp 210–214, 2016 TIỂU SỬ TÁC GIẢ Nguyễn Văn Tú Năm sinh 1982, Thái Bình Tốt nghiệp cử nhân Trường Đại học Sư phạm Thái Nguyên ngành Sư phạm Tin năm 2005, tốt nghiệp Thạc sĩ Trường Đại học Sư phạm Hà Nội năm 2009 Hiện làm nghiên cứu sinh Trường Đại học Công nghệ làm việc khoa ToánLý-Tin Trường Đại học Tây Bắc Hướng nghiên cứu bao gồm: Các kỹ thuật học máy, xử lý ngôn ngữ tự nhiên, v.v… Trần Thị Quyên Năm sinh 1985, Sơn La Tốt nghiệp cử nhân Toán-Lý-Tin trường Đại học Tây Bắc năm 2009, tốt nghiệp Thạc sĩ Trường Đại học Sư phạm Hà Nội năm 2011 Hiện làm việc Trường Cao đẳng Sơn La Hướng nghiên cứu bao gồm: Các kỹ thuật học máy, khai phá liệu, v.v… Tạp chí Khoa học Lạc Hồng Số Đặc Biệt 49 ... từ câu hỏi câu trả lời Khi trả lời câu hỏi trang web hỏi đáp cộng đồng, người sử dụng thường có xu hướng sử dụng lại số từ câu hỏi câu trả lời họ Vì câu trả lời có chứa từ cụm từ câu hỏi câu trả. .. đề xếp hạng câu trả lời trang web hỏi đáp cộng đồng Từ bảng so sánh cho thấy nghiên cứu cho kết cao độ đo phân loại Accuracy độ đo xếp hạng MAP Xếp hạng câu trả lời trang web hỏi đápcộng đồng. .. hỏi đáp cộng đồng định nghĩa sau: Cho tập Q câu hỏi, câu hỏi ∈ gắn với tập câu trả Yêu cầu xếp hạng lại câu trả lời? ?? ,…, 1, lời , , … , theo độ liên quan chúng với câu hỏi Việc xếp hạng câu trả