Phần còn lại của bài báo này được tổ chức như sau: phần II trình bày về các nghiên cứu liên quan, phần III trình bày về bài toán xây dựng các cặp câu hỏi - câu trả lời chất [r]
(1)XÂY DỰNG CÁC CẶP CÂU HỎI - CÂU TRẢ LỜI CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB HỎI ĐÁP CỘNG ĐỒNG
Nguyễn Văn Tú1, Lê Anh Cường2, Nguyễn Hà Nam3 1Trường Đại học Tây Bắc
2Trường Đại học Tôn Đức Thắng
3Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Tóm tắt: Các trang web hỏi đáp cộng đồng có chứa lượng lớn thơng tin hỏi - đáp có giá trị sinh người sử dụng Trong trang web hỏi đáp cộng đồng, người dùng gửi câu hỏi, trả lời câu hỏi người khác, cung cấp thông tin phản hồi cho câu hỏi/câu trả lời Trong nghiên cứu sử dụng tiếp cận học máy nhằm xây dựng cặp câu hỏi - câu trả lời chất lượng cao từ trang web hỏi đáp cộng đồng Các cặp câu hỏi - câu trả lời sử dụng làm nguồn liệu cho hệ thống hỏi đáp tự động Chúng tơi thực trích rút đặc trưng quan trọng từ luồng hỏi đáp thông tin người gửi câu trả lời xây dựng mơ hình phân loại để xác định cặp câu hỏi - câu trả lời có ý nghĩa Các kết thực nghiệm liệu cung cấp SemEval 2015 cho thấy đề xuất mang lại kết cao
Từ khóa: Hỏi đáp cộng đồng, phân loại, Support Vector Machines, hệ thống hỏi đáp tự động.1
I TỔNG qUAN
Trong lĩnh vực xử lý ngôn ngữ tự nhiên truy xuất thông tin, vấn đề hỏi - đáp thu hút nhiều ý năm qua Tuy nhiên, nghiên cứu hỏi - đáp chủ yếu tập trung vào việc tìm câu trả lời xác cho câu hỏi factoid đưa Tác giả liên hệ: Nguyễn Văn Tú
Email: tuspttb@gmail.com
Đến tòa soạn: 25/10/2016, chỉnh sửa: 28/12/2016, chấp nhận đăng: 1/1/2017
các tài liệu liên quan Các đánh giá tiếng nhiệm vụ hỏi - đáp factoid hội nghị truy hồi văn (Text REtrieval Conference-TREC) Các câu hỏi câu trả lời phát hành TREC trở thành nguồn liệu quan trọng cho nhà nghiên cứu việc nghiên cứu xây dựng hệ thống hỏi đáp tự động [1] Tuy nhiên, phải đối mặt với câu hỏi non-factoid câu hỏi lý sao, nào, về… khơng có hệ thống hỏi đáp tự động làm việc tốt
Các cặp câu hỏi - câu trả lời người dùng tạo chắn quan trọng để giải vấn đề trả lời câu hỏi non-factoid Rõ ràng, cặp câu hỏi - câu trả lời tự nhiên thường tạo trình giao tiếp người thông qua phương tiện truyền thông xã hội Internet, chúng tơi đặc biệt quan tâm tới trang web hỏi đáp dựa vào cộng đồng Các trang web hỏi đáp dựa vào cộng đồng cung cấp tảng mà người dùng đặt câu hỏi, cung cấp câu trả lời thơng tin phản hồi (ví dụ, cách biểu cho ý kiến) cho câu hỏi/câu trả lời câu trả lời tốt lựa chọn để hiển thị cho người dùng
(2)XÂY DỰNG CÁC CẶP CÂU HỎI - CÂU TRẢ LỜI CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB
chúng đề xuất sử dụng kết hợp nhiều loại đặc trưng quan trọng trích rút từ luồng hỏi đáp thông tin người gửi câu trả lời xây dựng mơ hình phân loại để xác định cặp câu hỏi - câu trả lời có ý nghĩa
Để thực đề xuất mình, chúng tơi sử dụng tập liệu cung cấp SemEval 2015 thực nghiệm Chúng tiến hành đánh giá thử nghiệm rộng rãi để chứng minh tính hiệu phương pháp tiếp cận Các kết thực nghiệm cho thấy phương pháp tiếp cận mà chúng tơi đề xuất xây dựng liệu cặp câu hỏi - câu trả lời chất lượng cao để làm nguồn liệu phục vụ cho hệ thống hỏi đáp tự động
Phần lại báo tổ chức sau: phần II trình bày nghiên cứu liên quan, phần III trình bày tốn xây dựng cặp câu hỏi - câu trả lời chất lượng cao từ trang web hỏi đáp cộng đồng, phần IV trình bày thuật tốn phân loại độ đo đánh giá hiệu suất phân loại, phần V chúng tơi thực trích rút đặc trưng quan trọng để phân loại câu hỏi, thực nghiệm kết trình bày phần VI cuối kết luận hướng phát triển trình bày phần VII
II CÁC NGHIêN CứU lIêN qUAN
Giá trị cặp câu hỏi - câu trả lời sinh cách tự nhiên nhà nghiên cứu xây dựng hệ thống hỏi đáp tự động quan tâm tận năm gần Các nghiên cứu xây dựng hệ thống hỏi đáp ban đầu chủ yếu tập trung vào trích xuất cặp câu hỏi - câu trả lời từ câu hỏi hỏi thường xuyên (FAQ) [2] dịch vụ đối thoại gọi trung tâm [3] Các nghiên cứu gần tập trung khai thác nguồn thông tin hỏi đáp người dùng cung cấp thông qua trang web hỏi đáp cộng đồng Bởi người dùng có quyền tự việc gửi câu hỏi/câu trả lời trang web hỏi đáp cộng đồng, có số lượng lớn câu trả lời không phù hợp hay liên quan cho câu hỏi Điều thực khó khăn để phát cặp câu hỏi - câu trả lời có ý nghĩa trang web hỏi đáp cộng đồng
Các nghiên cứu gần việc đánh giá chất lượng câu trả lời cung cấp trang web hỏi đáp cộng đồng thường thông qua đặc trưng biểu diễn văn câu hỏi - câu trả lời độ dài câu hỏi, độ dài câu trả lời, tỷ lệ độ dài câu hỏi câu trả lời nó, độ đo tương tự câu hỏi câu trả lời [4, 5, 6] Các đặc trưng thông dụng khác sử dụng phân tích chất lượng câu trả lời sử dụng độ đo phổ biến tương tác xã hội [4, 7] chẳng hạn số lượng câu trả lời người trả lời
Tiếp cận khác sử dụng kết hợp đặc trưng đặc trưng từ vựng, đặc trưng cú pháp, thông tin người sử dụng [5] Để nhận câu trả lời chất lượng cao, Hu [8] học kết hợp biểu diễn cho cặp câu hỏi - câu trả lời lấy đặc trưng văn phi văn đầu vào mô hình Surdeanu [9] đề xuất cách tiếp cận khác để nhận câu trả lời chất lượng cao xếp hạng câu trả lời lấy từ trang web hỏi đáp cộng đồng Yahoo!Answers chọn câu trả lời có thứ hạng cao câu trả lời tốt cho câu hỏi
III bÀI TOÁN XâY dựNG CÁC CẶp CâU HỎI - CâU TRả lỜI CHấT lưỢNG CAO TỪ CÁC TRANG Web HỎI đÁp CộNG đồNG Việc xây dựng cặp câu hỏi - câu trả lời chất lượng cao từ trang web hỏi đáp cộng đồng nhằm tìm câu trả lời có ý nghĩa cho câu hỏi tương ứng tập lớn luồng hỏi - đáp Vì vậy, nghiên cứu coi vấn đề xây dựng cặp câu hỏi - câu trả lời chất lượng cao từ trang web hỏi đáp cộng đồng vấn đề phân loại cặp câu hỏi - câu trả lời phát biểu sau:
(3)có chứa thơng tin cho câu trả lời mà câu hỏi qi cần, lij = “Bad” aij câu trả lời không liên quan đến câu hỏi qi
IV THUẬT TỐN pHâN lOạI A Thuật tốn phân loại
Có nhiều phân loại khác sử dụng để phân loại liệu văn như: Support Vector Machine (SVM), Naive Bayes, Maximum Entropy Models, Sparse Network of Winnows, … Tuy nhiên phân loại Support Vector Machine xem hiệu [10, 11, 12] Trong vấn đề phân loại cặp câu hỏi - câu trả lời, cặp câu hỏi - câu trả lời coi văn biểu diễn mơ hình khơng gian vectơ có số chiều lớn, điều phân loại tốt Support Vector Machine Chính nghiên cứu mình, chúng tơi sử dụng phân loại Support Vector Machine với hàm nhân tuyến tính
B Hiệu suất phân loại
Để đánh giá hiệu suất việc phân loại cặp câu hỏi - câu trả lời, sử dụng độ đo precision, recall, F1-measure, accuracy định nghĩa Để ước lượng độ đo dựa vào bảng I:
Bảng I Các kết dự đoán phân loại
Label
y* = +1 yLabel * = -1 Predictionf(x*) = +1 TP FP
Predictionf(x*) = -1 FN TN Mỗi ô bảng đại diện cho bốn kết đầu dự đốn f(x*).
Trong đó:
TP (True Positive): số lượng cặp câu hỏi - câu trả lời positive phân loại
TN (True Negative): số lượng cặp câu hỏi - câu trả lời negative phân loại
FP (False Positive): số lượng cặp câu hỏi - câu trả lời positive bị phân loại sai
FN (False Negative): số lượng cặp câu hỏi - câu trả lời negative bị phân loại sai
Precision định nghĩa xác suất mà liệu phân loại f(x*) = +1 phân loại Nó ước lượng sau:
TP (1)
Precision p
TP FP =
+
Recall định nghĩa xác suất mà liệu với nhãn y* = +1 phân loại Nó ước lượng sau:
TP (2)
Recall r
TP FN
= +
( )
1 2* *p r F measure
p r
− =
+
( )
TP TN Accuracy
TP FP TN FN
+ =
+ + +
V CÁC đẶC TRưNG TRONG pHâN lOạI Để phân loại cặp câu hỏi - câu trả lời chúng tơi thực trích rút loại đặc trưng quan trọng trình bày
A Các đặc trưng từ vựng Đặc trưng n-gram
Các đặc trưng n-gram cặp câu hỏi - câu trả lời trích rút dựa ngữ cảnh từ câu, nghĩa là, từ xuất cặp câu hỏi - câu trả lời Mỗi cặp câu hỏi - câu trả lời x biểu diễn giống biểu diễn tài liệu mơ hình khơng gian vectơ sau:
x = (x1, x2, …, xN) (5) đó: xi tần số xuất từ i x N tổng số từ x Do tính thưa thớt đặc trưng, đặc trưng có giá trị khác khơng giữ lại vectơ đặc trưng Bởi cặp câu hỏi - câu trả lời biểu diễn hình thức sau:
(4)XÂY DỰNG CÁC CẶP CÂU HỎI - CÂU TRẢ LỜI CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB
trong đó: ti từ thứ i x fi tần số xuất ti x
Để trích rút đặc trưng n-gram, n từ liên tiếp cặp câu hỏi - câu trả lời coi đặc trưng Bảng II danh sách số đặc trưng n-gram câu hỏi “How many Grammys did Michael Jackson win in 1983 ?”
Bảng II. Ví dụ số đặc trưng n-gram
Tên đặc
trưng Đặc trưng
Unigram {(How, 1) (many, 1) (Grammys, 1) (did, 1) (Michael, 1) (Jackson, 1) (win, 1) (in, 1) (1983, 1) (?, 1)}
Bigram {(How-many, 1) (many-Grammys, 1) (Grammys-did, 1) (did-Michael, 1) (Michael-Jackson, 1) …(1983-?, 1)}
Trigram {(How-many-Grammys, 1) (many-Grammys-did, 1) …(in-1983-?, 1)}
Số lượng từ câu hỏi, số lượng từ trong câu trả lời
Để phân loại cặp câu hỏi - câu trả lời dựa vào đặc trưng số lượng từ câu hỏi, số lượng từ câu trả lời Từ quan sát liệu thực tế thấy cặp câu hỏi - câu trả lời có số lượng từ 10 thường cặp câu hỏi - câu trả lời khơng có ý nghĩa Số lượng câu (sentence) câu trả lời Đây đặc trưng quan trọng việc phân loại cặp câu hỏi - câu trả lời Thông thường câu trả lời có nhiều sentence thường mang thơng tin trả lời đầy đủ cho câu hỏi
Tỷ lệ số lượng câu (sentence) câu trả lời và câu hỏi
Trong nghiên cứu sử dụng đặc trưng tỷ lệ số lượng câu (sentence) câu trả lời câu hỏi
Chồng chéo n-gram từ câu hỏi câu trả lời Khi trả lời câu hỏi trang web hỏi đáp cộng đồng, người sử dụng thường có xu hướng sử dụng lại số từ câu hỏi câu trả lời họ Vì câu trả lời có chứa từ
hoặc cụm từ câu hỏi câu trả lời có khả câu trả lời tốt cho câu hỏi Để tính tốn chồng chéo câu hỏi câu trả lời, thực loại bỏ stopword câu hỏi, câu trả lời sau tính tốn chồng chéo từ sử dụng n-gram từ (n=1, 2, 3)
B Các đặc trưng đo giống câu hỏi và câu trả lời
Để xây dựng đặc trưng này, thực loại bỏ từ stopword câu hỏi câu trả lời Các câu hỏi câu trả lời sau biểu diễn dạng vectơ (bag-of-word) Để tính tốn giống câu hỏi câu trả lời nó, sử dụng độ đo khác nhau: euclidean, manhattan, minkowski, cosine, jaccard Bảng III ví dụ việc tính tốn đặc trưng đo giống
Bảng III Ví dụ đặc trưng đo giống nhau
Câu hỏi Câu trả lời Các độ đo Các giá trị độ đo
Massage oil Where I can buy good oil for massage?
You might be able to find Body Massage Oil in Body Shop at Landmark or City Centre, and if they have it there,
euclidean 5.196152
manhattan 25
minkowski 3.141
cosine 0.405062
jaccard 1.0
C Đặc trưng dựa thông tin người dùng Số lượng câu trả lời người trả lời
(5)D Các đặc trưng dựa biểu diễn vectơ từ Chúng sử dụng biểu diễn vectơ từ để mơ hình hóa mối quan hệ ngữ nghĩa câu hỏi câu trả lời Chúng tơi chọn mơ hình word2vec2
đề xuất Mikolov [13, 14] để tính tốn độ tương tự ngữ nghĩa câu hỏi câu trả lời Word2vec biểu diễn từ dạng phân bố quan hệ với từ lại Giả sử ta có vectơ có số chiều 100 Khi đó, từ biểu diễn vectơ có phần tử mang giá trị phân bố quan hệ từ từ khác từ điển Trong báo sử dụng tập liệu từ Qatar Living (English)3 để huấn luyện mơ hình
word2vec với vectơ có số chiều 200 Độ tương tự ngữ nghĩa câu hỏi câu trả lời Các câu hỏi câu trả lời phân tích thành từ tố biểu diễn dạng vectơ từ sử dụng mơ hình huấn luyện word2vec Đối với việc tính tốn độ tương tự chúng tơi sử dụng tính tốn độ tương tự thành phần câu hỏi với câu trả lời: tiêu đề (QSubject) câu hỏi với câu trả lời, phần mô tả câu hỏi (QBody) với câu trả lời, câu hỏi (Qsubject + QBody) với câu trả lời Bảng IV ví dụ việc tính tốn độ tương tự ngữ nghĩa câu hỏi câu trả lời
Bảng IV Ví dụ tính tốn độ tương tự ngữ nghĩa
Câu hỏi Câu trả lời tương tựĐộ
Qsubject Massage oil You might be able to find Body Massage Oil in Body Shop at Landmark or City Centre, and if they have it there,
0.2692716 QBody Where I can buy good oil
for massage? 0.7076797
Qsubject +QBody
Massage oil Where I can buy good oil for massage?
0.6686702
Gióng từ câu hỏi câu trả lời
Các câu hỏi câu trả lời phân tích thành từ tố biểu diễn dạng vectơ từ sử dụng mơ hình huấn luyện word2vec Mỗi từ tk câu hỏi sau gióng với tất từ câu
2https://code.google.com/p/word2vec
3http://alt.qcri.org/semeval2015/task3/index.php?id=data-and-tools
trả lời lựa chọn độ tương tự vectơ lớn công thức đây:
( )k 1 h mmax( c _ sim( , ) (7)k h )
score t = ≤ ≤ word ve t b
Trong đó:
m- số từ câu hỏi;
tk- biểu diễn vectơ từ thứ k câu hỏi; bh- biểu diễn vectơ từ thứ h câu trả lời; word2vec_sim(tk, bh)- độ tương tự cosin hai biểu diễn vectơ từ tk bh
Điểm số tương tự câu hỏi câu trả lời tính tốn sau:
( ) ( ) (8)
n
k k
i
score t score a
n
= = ∑
Trong đó: n số lượng từ câu hỏi Độ tương tự ngữ nghĩa câu trả lời loại câu hỏi (QCategory)
Chúng sử dụng độ tương tự ngữ nghĩa câu trả lời với loại (QCategory) câu hỏi tương ứng Trong tập liệu làm thực nghiệm phần VI, câu hỏi phân vào 27 loại khác Bảng V ví dụ việc tính tốn độ tương tự ngữ nghĩa câu trả lời loại câu hỏi
Bảng V. Ví dụ tính tốn độ tương tự ngữ nghĩa
Câu trả lời (QCategory)Loại câu hỏi Độ tương tự ngữ nghĩa You might be
able to find Body Massage Oil in Body Shop at Landmark or City Centre, and if they have it there,
Beauty and Style 0.1182937
Electronics 0.2048591
Doha Shopping 0.3174826
Cars 0.0705854
VI CÁC THựC NGHIỆm VÀ đÁNH GIÁ
(6)XÂY DỰNG CÁC CẶP CÂU HỎI - CÂU TRẢ LỜI CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB
A Tập liệu
Trong trang web hỏi đáp cộng đồng, câu hỏi thường chứa tiêu đề hỏi đoạn văn ngắn mô tả nội dung hỏi đưa người hỏi Phần tiêu đề hỏi phần mô tả coi câu hỏi gồm nhiều câu [15] Để thực thực nghiệm mình, chúng tơi sử dụng tập liệu từ SemEval 20154 Tập
liệu trích rút từ trang web hỏi đáp cộng đồng, bao gồm câu hỏi câu hỏi gồm tập câu trả lời tương ứng Tất cặp câu hỏi - câu trả lời trình bày ngơn ngữ tiếng Anh Tập liệu bao gồm tập con: train - tập liệu dùng để huấn luyện mơ hình phân loại, dev - tập liệu dùng để đánh giá mơ hình phân loại test - tập liệu dùng để kiểm tra tính hiệu mơ hình phân loại Bảng VI trình bày số thống kê tập liệu
Bảng VI. Thống kê tập liệu sử dụng
Tập
liệu Số câu hỏi Số câu trả lời bình câu hỏiSố câu trả lời trung
Train 2270 11503 5.07
Dev 255 1178 4.62
Test 317 1526 4.81
B Các thực nghiệm Thực nghiệm 1:
Bảng VII. Kết phân loại sử dụng các đặc trưng từ vựng
Tập
liệu Accuracy Precision Recall F1-measure
Dev 56.37% 49.64% 48.62% 47.91%
Test 61.53% 48.03% 47.72% 47.73%
Trong thực nghiệm chúng tơi muốn kiểm tra tính hiệu việc sử dụng đặc trưng từ vựng trình bày mục V.A Các đặc trưng từ vựng bao gồm: đặc trưng Unigram, số từ câu hỏi, số từ câu trả lời, số lượng câu (sentence) câu trả lời, tỷ lệ số câu câu trả lời câu hỏi, chồng chéo n-gram từ câu hỏi câu trả lời Bảng VII trình bày kết thực nghiệm
4 http://alt.qcri.org/semeval2015/task3/
Thực nghiệm 2:
Thực nghiệm thứ sử dụng đặc trưng tính tốn giống câu hỏi câu trả lời Để tính tốn độ đo giống câu hỏi câu trả lời, thực hiện: (1) loại bỏ từ stopword câu hỏi câu trả lời; (2) biểu diễn câu hỏi câu trả lời dạng bag-of-word; (3) sử dụng độ đo euclidean, manhattan, minkowski, cosine, jaccard để tính tốn độ tương tự câu hỏi câu trả lời Kết thực nghiệm trình bày bảng VIII
Bảng VIII. Kết phân loại sử dụng các đặc trưng tính tốn độ tương tự
Tập
liệu Accuracy Precision Recall F1-measure
Dev 54.84% 41.85% 42.13% 41.96%
Test 57.93% 41.25% 42.15% 41.57%
Thực nghiệm 3:
Thực nghiệm thực với việc sử dụng đặc trưng trích rút từ thông tin người sử dụng (những người gửi câu hỏi, câu trả lời) Kết thực nghiệm trình bày bảng IX
Bảng IX. Kết phân loại sử dụng đặc trưng trích rút từ thông tin người dùng
Tập
liệu Accuracy Precision Recall F1-measure
Dev 61.63% 34.29% 38.89% 30.94%
Test 66.32% 35.36% 85.34% 30.44%
Thực nghiệm 4:
(7)tương tự ngữ nghĩa Kết phân loại thực nghiệm trình bày bảng X
Bảng X Kết phân loại sử dụng các đặc trưng tính tốn độ tương tự ngữ nghĩa
Tập
liệu Accuracy Precision Recall measureF1
-Dev 60.61% 43.42% 52.32% 45.16%
Test 59.90% 46.83% 46.27% 46.38%
Thực nghiệm 5:
Trong thực nghiệm thực phân loại cặp câu hỏi - câu trả lời cách kết hợp tất loại đặc trưng thực thực nghiệm Các kết phân loại thực nghiệm trình bày bảng XI
Bảng XI. Kết phân loại sử dụng kết hợp của nhiều loại đặc trưng
Tập
liệu Accuracy Precision Recall measureF1
-Dev 65.62% 52.92% 56.88% 54.41%
Test 69.72% 50.91% 62.87% 53.84%
Từ kết thực nghiệm nhận thấy việc phân loại cặp câu hỏi - câu trả lời hệ thống hỏi đáp cộng đồng cần kết hợp nhiều loại đặc trưng khác kết tốt Các đặc trưng từ vựng đóng vai trò quan trọng nhiệm vụ Điều câu trả lời người dùng thường viết cách tự do, không theo cấu trúc định, có nhiều câu trả lời trình bày sai cấu trúc cú pháp chứa từ không liên quan đến câu hỏi Các kết từ thực nghiệm cho thấy việc trích rút đặc trưng dựa biểu diễn vectơ từ (ở word2vec) có ý nghĩa quan trọng việc phân loại cặp câu hỏi - câu trả lời Việc huấn luyện lại mơ hình word2vec sử dụng việc tính tốn độ tương tự ngữ nghĩa thành phần câu hỏi với câu trả lời, câu trả lời với loại câu hỏi cho kết phân loại cao Trong thực nghiệm thực việc kết hợp nhiều loại đặc trưng khác đạt kết phân loại cao tất độ đo mà sử dụng Điều
chứng minh vấn đề phân loại cặp câu hỏi - câu trả lời trang web hỏi đáp cộng đồng cần kết hợp nhiều loại đặc trưng khác Chúng thực so sánh kết nghiên cứu với kết nghiên cứu tác giả khác Các nghiên cứu mà sử dụng để so sánh sử dụng tập liệu từ SemEval 2015 sử dụng số lớp phân loại Bảng XII trình bày số kết nghiên cứu tác giả khác để so sánh với kết vấn đề phân loại cặp câu hỏi - câu trả lời
Bảng XII. So sánh với kết nghiên cứu khác
Nghiên cứu tác giả F1-measure Accuracy
Massimo Nicosia (2015)[6] 53.74% 70.50%
Liang Yi (2015)[16] 53.47% 70.55%
Xiaoqiang Zhou (2015)[17] 49.60% 67.86%
Yonatan Belinkov (2015)[18] 49.10% 66.45%
Amin Heydari (2015)[19] 47.34% 56.83%
Vo (2015)[20] 47.32% 69.13%
Ivan Zamanov (2015)[21] 46.07% 62.35%
Nghiên cứu 53.84% 69.72%
Từ bảng so sánh cho thấy nghiên cứu cho kết phân loại cao độ đo F1-measure