Tuy nhiên, hiện tại tiếng Việt chưa có công bố về bộ đữ liệu cho bài toán đọc hiểu tự động trên miền dữ liệu này, bên cạnh đó, các bộ dit liệu hiện tại cũng mang các đặc tính khác về văn
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
VŨ QUÍ SAN
KHÓA LUẬN TOT NGHIỆP
NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG BÌNH LUẬN KHÁCH HÀNG CHO TIẾNG VIỆT
Machine reading comprehension
on Vietnamese customer reviews
CỬ NHÂN NGANH KHOA HỌC MAY TÍNH
TP HÒ CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
VŨ QUÍ SAN - 18520143
KHÓA LUẬN TÓT NGHIỆP
NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG
BÌNH LUẬN KHÁCH HANG CHO TIENG VIỆT
Machine reading comprehension
on Vietnamese customer reviews
CU NHÂN NGANH KHOA HỌC MAY TÍNH
GIANG VIEN HUONG DAN
TS NGUYEN LUU THUY NGAN
ThS NGUYEN VAN KIET
TP HO CHi MINH, 2022
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
38/QD-ĐHCNTT ngày 19/01/2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 PGS.TS Lê Đình Duy — Chủ tịch.
2 ThS Nguyễn Bích Vân ~— Thư ký.
3 PGS.TS Quản Thành Thơ ~— Ủy viên.
ii
Trang 42.1 Các hướng nghiên cứu liên quan -¿-¿- + + +5 S++++k+xsEexerrkekerererkee 6
2.1.1 _ Các nghiên cứu trên thé giới - : ccc5c2vvcceeccvsrrerrrveccee 6
2.1.2 Các hướng nghiên cứu trong nưỚC -¿- - se +++++xexsrererxee 7
2.2, Vấn đề cần giải quyết -2c222:+c+2222222 22222221111 8 Chương 3 Xây dung và phân tích bộ dữ liệu - - ¿+ + 5+ £+++c+x++vzerexsxex 9
3.1 Xây dựng bộ dữ liệu ¿+ + tt ST HH Hee 9
3.1.1 Chuẩnbj, ììsirrrrrriririirrrieriirirrrre 9
3.1.2 Quy tắc xây dựng dữ liệu -cc¿©222cseccvrrrrrrrrrrrrrrrrree 10
3.1.3 Quy trình xây dựng bộ dit liệu 5-5-5 cccccxsxseercr+ 16
3.2 Phân tích bộ dữ liệu -¿-¿- ¿+ E1 1E SH HH Hư 18
3.2.1 Về tổng quan 22222cccttEEEEEkrrrrrrrrrrrrrrrrrrerrrer 18
3.2.2 Về tỉ lệ các loại câu hỏi, loại suy luận - - +++5+<<c+s<<+ 19
Chương 4 Mô hình cho bai toán đọc hiểu tự động -: c¿5ccssce+ 25 4.1 Tổng quan phương pháp -2:22++222+++++2Evv+rtttrrvrrerrrrrrrrrrrer 25
ii
Trang 54.2 Các mô hình đọc hiểu tự động ¿:©+++22+++ttvvvvrretrrverrerrrer 26 4.2.1 Mô hình R-Net
4.2.2 Mô hình QANNG( Ặ Sun 28
5.3 Độ đo đánh giá mô hình «¿5 SE E11 TH 01111101 1 re 35
5.4 Cài đặt, kết quả, đánh giá thí nghiệm c¿222sce+ccvszcesrx 35
5.4.1 — Cài đặt à ccieieiierierrrrrier.3
542 KEt Ua, Ê 4›.<@ Ẻ 36
5.4.3 Phân tích theo loại câu hỏi ¿+5 + 5+ sscsss+sssereesexsesvvees Z
5.4.4 _ Phân tích lỗi: 72ccc22ctEEktrerktttrrrrrtrrrrrrrrrerrvee 38
Chương 6 Kết luận và hướng phát triỂn ¿ -¿22+z++22++zzzzvscez 42 6.l Kết luận 2222222222222222211122221111222211112221111 221111 42 6.2 Hướng phát triỀn 522222+22+t22222E 12.22211111 re 42
iii
Trang 6LOI CAM ON
Khóa luận này đã không thé hoàn thành nếu không có sự đồng hành, giúp đỡ của quý
thầy cô và những người bạn bè
Tôi xin được gửi lời cảm ơn đến cô Nguyễn Lưu Thùy Ngân và thầy Nguyễn VănKiệt Cô và thầy đã hướng dẫn tận tình, động viên tôi trong thời gian tôi làm tìm hiểu,
nghiên cứu và thực hiện khóa luận này.
Tiếp theo tôi xin gửi lời cảm ơn các thầy cô của trường Đại học Công nghệ thông tinnói chung và các thầy cô khoa Khoa học máy tính nói riêng đã truyền đạt cho tôinhững kiến thức quý báu, bên cạnh đó cho tôi trải nghiệm về một môi trường học tập
năng động, thoải mái, gân gũi, đê lại nhiêu kỷ niệm.
Tôi xin cảm ơn những người bạn bè đã đồng hành cùng tôi qua những giai đoạn thăng
trâm khác nhau.
Tôi xin cảm ơn các bạn Cao Duy Ngọc, Đỗ Phạm Phúc Tính và Nguyễn Thành Nhân
đã tham gia cùng tôi trong quá trình xây dựng dữ liệu.
Cuôi cùng, tôi vô cùng cảm ơn gia đình tôi đã luôn luôn động viên giúp đỡ tôi vào
những lúc khó khăn nhất
iv
Trang 7DANH MỤC TU VIET TAT
BERT | Bidirectional Encoder Representations from Transformers
RoBERTa | Robustly optimized BERT approach
Trang 8DANH MỤC HÌNH VE
Hình 3.1 Hình ảnh về việc sử dụng Microsoft Excel Online dé hỗ trợ xây dựng dữ
I0 10 Hình 3.2 Quy trình xây dựng dữ lIỆU - - G5 SE ** Si, 17 Hình 3.3 Tỉ lệ các loại câu OL . << 5S 2211111111223 11 1155111 kkerrzse 20 Hình 3.4 Tỉ lệ các dạng suy luẬn - <6 E21 1E 911191 9 1 911 ng ng rệt 22
Hình 4.1 Mô hình dự đoán vị trí bat đầu và kết thúc của câu trả lời 26Hình 4.2 Kiến trúc mô hình R-Net Hình vẽ bởi nhóm tác giả mô hình R-Net 27Hình 4.3 Kiến trúc mô hình QANet Hình vẽ bởi nhóm tác giả mô hình QANet 29
Hình 4.4 Transformer encoder (trái) và BERT base (phải) .- -« 31
Hình 5.1 Kết quả theo các loại câu hỏi ¿-2¿2¿©+2©z+x+2zx+tx+erxesrxesrxeee 37Hình 5.2 Số lần xuất hiện của các loại lỗi -:¿-c++++cc+vrerrxrrrerrrerrrrrrree 40
vi
Trang 9Số lượng cặp hỏi đáp theo từng chủ đề -2 5¿©2scc+ccscccxez 18Thống kê trên bộ dữ liệu 2-2-2 £+S£+EE+EE+2E2EESEEtEEEEEzEErrxerrrrex 19
Một số vi dụ về các loại câu hỏi - - 2-52 2252 ££2E£EezEerxerxerxereee 22Một số ví dụ về các dạng suy luận - - 5c Scs* + sieeserrereesxre 24Kết quả các mô hình trên bộ dữ liệu đã xây dựng .- . - 37Một số ví dụ về các loại lỖi ¿- ¿5c sSềEEeEE2EEEEE2E2EEEEEEEEEkerkrrkee 40
vii
Trang 10TÓM TẮT KHÓA LUẬN
Khách hàng thường đặt ra các câu hỏi khi cân nhắc mua sản phẩm hay trải nghiệmdịch vụ nào đó trực tuyến Số lượng khách hàng sử dụng các trang thương mại điện
tử càng nhiều dẫn đến số lượng các câu hỏi ngày càng gia tăng nhanh Hệ thống đọc
hiểu tự động được chứng minh là có thể tự động hóa một phần công việc trả lời chokhách hàng bằng cách tận dụng các thông tin có ích từ các bình luận của khách hàngkhác về sản phẩm hay dịch vụ đã có từ trước Tuy nhiên, hiện tại tiếng Việt chưa có
công bố về bộ đữ liệu cho bài toán đọc hiểu tự động trên miền dữ liệu này, bên cạnh
đó, các bộ dit liệu hiện tại cũng mang các đặc tính khác (về văn phong, về chủ dé) so
với đặc tính của đữ liệu bài toán ta đang hướng tới Do đó, chúng tôi phát triển một
bộ dữ liệu đọc hiểu tự động trên bình luận của khách hàng gồm 6429 cặp câu hỏi đáp,bên cạnh đó, chúng tôi đánh giá và phân tích kết quả của một số mô hình học sâu trên
bộ dit liệu đã phát triển được
Trang 11Chương 1 Mở đầu
1.1 Đặt vấn đề
Khách hàng khi chọn mua sản phẩm hay sử dụng dịch vụ trên các trang thươngmại điện tử thường đặt ra các câu hỏi nhằm tìm hiểu xem san phẩm hay dịch vụ đó
có phù hợp với nhu cầu của mình không Các câu hỏi này được khách hàng đăng lên
và chờ câu trả lời từ nhân viên chăm sóc khách hàng hay từ những khách hàng khác.
Tuy nhiên, với số lượng người sử dụng các trang thương mại điện tử ngày càngnhiều, số lượng câu hỏi được đăng lên ngày càng tăng dẫn đến sự quá tải trong việc
trả lời chúng Kết quả là nhiều câu hỏi của khách hàng phải chờ đợi lâu hoặc thậmchí không được trả lời, điều này gây bắt tiện cho khách hàng và có thể làm ảnh hưởng
doanh thu của doanh nghiệp.
Các bình luận của các khách hàng khác về sản phâm là một nguồn thông tin
có ích trong việc trả lời các câu hỏi trên Nhưng khách hàng phải dành thời gian và
công sức đọc nhiều bình luận khác nhau giữa rất nhiều bình luận để có thé lay đượcthông tin mình muốn Đây chính là động lực để chúng ta tìm giải pháp tự động hóa
việc trả lời cho khách hàng dựa trên nội dung các bình luận có từ trước đó.
Bài toán đọc hiểu tự động đã có từ lâu nhưng bat đầu từ năm 2015 mới đượcnghiên cứu rộng rãi [1] Nhiều nghiên cứu về mô hình và các bộ dữ liệu cho nhiềungôn ngữ cho bài toán đọc hiéu tự động được công bồ trong đó chủ yếu là về tiếngAnh Đối với tiếng Việt, gần đây có sự xuất hiện của các bộ đữ liệu đọc hiểu tự độngnhư UIT-ViQuAD [2] với miền dữ liệu Wikipedia và UIT-ViNewsQA [3] với miền
dữ liệu tin tức về sức khỏe Hai bộ dữ liệu này có văn phong trang trọng (formal) và
có chủ đề về kiến thức tổng quát (UIT-ViQuAD) và về sức khỏe (UIT-ViNewsQA),
khác với dữ liệu bình luận trên các trang thương mại điện tử, nơi mà văn phong chủ
yếu theo dạng không trang trọng (informal) và chủ đề thiên về mô tả, nhận xét các
sản phẩm, dịch vụ.
Xuất phát từ thực trạng trên, chúng tôi quyết định chọn đề tài "Nghiên cứu đọchiểu tự động bình luận khách hàng cho tiếng Việt" làm đề tài khóa luận tốt nghiệp
Trang 12Trong dé tài nay, chúng tôi thừa kế các bình luận từ bộ dữ liệu ViSD4SA [4] ( các
bình luận về điện thoại thông minh) và bộ dữ liệu của Tran et al [5] (các bình luận
về nhà hàng, quán ăn), sau đó chúng tôi đưa ra quy tắc xây dựng dữ liệu được lấy
cảm hứng từ quy tắc xây dựng dữ liệu của bộ đữ liệu UIT-ViQuAD [2] Tiếp theo,
bộ dữ liệu được chúng tôi chia ngẫu nhiên thành ba bộ là bộ huấn luyện, bộ phát triển
và bộ kiểm thử với tỉ lệ xấp xỉ 8:1:1 Sau đó chúng tôi tiến hành chạy thực nghiệm
các mô hình học sâu trên bộ dữ liệu này và phân tích kết quả Các mô hình chúng tôi
thực nghiệm bao gồm R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9]
va XLM-RoBERTa [10].
1.2 Dinh nghia bai toan.
Doc hiéu tu động là bài toán yêu cầu máy tính đọc hiểu một văn bản cho trướcrồi trả lời câu hỏi dựa trên nội dung của văn bản đó Bài toán đọc hiểu tự động có thé
được phan thành nhiều loại khác nhau, tùy vào dạng của câu hỏi, câu trả lời, các loại
dữ liệu đầu vào (ví du dỡ liệu đầu vào không chỉ có văn bản mà còn có hình ảnh, máytính cần trả lời dua trên nội dung của hình ảnh đó), v.v
Dạng bài toán đọc hiểu tự động trên bình luận khách hàng trong dé tài củachúng tôi thuộc dạng đọc hiểu tự động trích xuất (tức câu trả là đoạn con của bình
luận) Bài toán có thé được phát biểu như sau (i, k, ø, m đều là số nguyên dương):
« Dau vào:
o Binh luận C = {ci, c2, , Cn}, VỚI €¡, C2, , Cn là các từ trong C.
o Câu hỏi Q = (gi, q2, , dm}, có thé được trả lời dựa vào nội
dung của C, với qi, đ›, , dm là các từ trong Q.
Trang 13o Bình luậnC: " nói chung ăn được có món thịt heo rừng xảo xa
ớt thôi Các bạn đừng gọi heo rừng nướng vì sẽ rất rất khô , ăn
như nhai khăn giấy vậy đó "
o Câu hỏi Q: "Món nao ở quán mà thực khách khuyên không nên
ăn?"
« Dau ra:
o Câu trả lời A: "heo rừng nướng”
1.3 Mục đích nghiên cứu
Mục đích nghiên cứu gồm hai phần:
e_ Thứ nhất, chúng tôi kế thừa và phát triển các bình luận từ các bộ dữ liệu
VISD4SA [4] (thuộc chủ đề điện thoại thông minh) và bộ di liệu củaTran et al [5] (chủ đề nhà hàng, quán ăn), tuân theo quy tắc xây dựng
dữ liệu được lấy cảm hứng từ quy tắc xây dựng đữ liệu của bộ dữ liệu
UIT-ViQuAD [2], để tạo ra bộ dit liệu đọc hiểu trên bình luận khách
hàng cho tiếng Việt
e Thứ hai, chúng tôi tiến hành nghiên cứu thực nghiệm các mô hình học
sâu trên bộ dữ liệu đã xây dựng được Cụ thé, chúng tôi thực nghiệm
các mô hình R-Net [6], QANet [7], multilingual BERT [8], PhoBERT
[9] và XLM-RoBERTa [10] và so sánh, phân tích kết quả đạt được.
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu thứ nhất của đề tài này là phát triển bộ dit liệu đọc hiểu
trên bình luận khách hàng cho tiếng Việt Theo tìm hiểu của chúng tôi, hiện nay chưa
có công bồ về bộ dữ liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt
Các mô hình học sâu cho bài toán đọc hiểu tự động là đối tượng nghiên cứu
thứ hai của đề tài Chúng tôi nghiên cứu thực nghiệm các mô hình R-Net [6], QANet
[7], multilingual BERT [8], PhoBERT [9] và XLM-RoBER Ta [10] trên bộ dữ liệu đã
Trang 14phát triển, qua đó đưa ra các phân tích, đánh giá về kết quả của từng mô hình, bên
cạnh đó phân tích lỗi dé chỉ ra một số thách thức mà các mô hình tốt nhất gặp phải
1.4.2 Pham vi nghiên cứu
Bộ dữ liệu đọc hiéu tự động trên bình luận khách hàng cho tiếng Việt bao gồmcác bình luận thuộc một trong hai chủ đề: thứ nhất là chủ đề bình luận điện thoại
thông minh, các bình luận này được thu thập từ một trang thương mại điện tử lớn của
Việt Nam [4]; thứ hai là chủ đề bình luận nhà hàng, quán ăn, các bình luận này được
Tran et al [5] thu thập từ trang web foody.com.
Trang 15Chương2 Tong quan
2.1 Các hướng nghiên cứu liên quan
2.1.1 Các nghiên cứu trên thế giới
Trong những năm trở lại đây, đặc biệt là từ khoảng năm 2015 trở đi, thống kê
của X et al [1] cho thay số lượng các bộ dữ liệu về đọc hiểu tự động cũng như các
nghiên cứu về các phương pháp cho bài toán này có sự gia tăng mạnh mẽ Sau đây làmột số nghiên cứu tiêu biểu:
« Vé dit liệu: AmazonQA [11] và ReviewRC [12] là hai trong những bộ
dữ liệu tiêu biểu cho bài toán đọc hiểu trên bình luận khách hàng Tiền
đề của bộ đữ liệu AmazonQA là bộ dữ liệu của McAuley et al [13], bộnày có các câu hỏi và câu trả lời về sản phâm của khách hàng được thu
thập từ một trong những trang thương mại điện tử lớn nhất thế giới là
Amazon Sau này, bộ dữ liệu AmazonQA kế thừa và phát triển bộ dữ
liệu của MeAuley et al [13] băng cách thu thập thêm các bình luận cóchứa thông tin được đề cập trong các câu trả lời Kích thước của bộ dữliệu AmazonQA lên đến 923 ngan câu hỏi, 3.6 triệu câu tra lời và 14triệu bình luận sản phẩm Về bộ dữ liệu ReviewRC, miền dữ liệu của
bình luận không chỉ bao gồm các bình luận sản phẩm từ Amazon.com
mà còn từ các bình luận quán ăn, nhà hàng thu thập từ trang Yelp.com.
« _ Về mô hình cho bài toán đọc hiểu trích xuất: Trên thực tế bài toán đọc
hiểu tự động thường được chia thành hai dạng là trích xuất (extractive
cau trả lời là đoạn con của đoạn van) va trừu tượng hóa (abstractive
-câu trả lời dựa trên nội dung đoạn văn, không nhất thiết phải là đoạn
con của đoạn văn), trong đó bộ dữ liệu AmazonQA thuộc dạng trừu
tượng hóa và ReviewRC thuộc dạng trích xuất Khóa luận của chúngtôi tập trung vào dạng trích xuất nên đầu vào và đầu ra mà chúng tôimong muốn tương tự như ở bộ dir liệu ReviewRC Tuy nhiên bộ dữ liệu
Trang 16ReviewRC có lượng đữ liệu còn hạn chế nên cũng chưa có nhiều nghiên
cứu thực nghiệm trên bộ đữ liệu này (trong công bố của mình, nhóm
tác giả của bộ dữ liệu ReviewRC tập trung thử nghiệm các cách huấn
luyện khác nhau cho mô hình BERT [8] trên bộ dữ liệu này) Do đó,
chúng tôi khảo sát các mô hình được tập trung nghiên cứu trên các bộ
dữ liệu chuyên về đọc hiểu trích xuất tiêu biéu như SQuAD [14] vàNatural Questions [15] (miền đữ liệu là các bài đăng trên Wikipedia)
Các mô hình BERT [8] và các biến thể, cải tiến của BERT (nhưRoBERTa [16] và ELECTRA [17]), được sử dụng bởi nhiều đội vàcho kết quả cao trên bảng xếp hạng của cả hai tập đữ liệu này Ngoài
ra, trước khi mô hình BERT được công bố vào cuối năm 2018, thì môhình R-Net [6] và mô hình QANet [7] từng đứng đầu bảng xếp hạng
của bộ dữ liệu SQuAD lần lượt vào năm 2017 và đầu năm 2018
2.1.2 Các hướng nghiên cứu trong nước
Với tiếng Việt, trong những năm gần đây đọc hiểu tự động đang dần nhận
được sự quan tâm của cộng đồng nghiên cứu với sự ra đời của một số bộ dữ liệu đángchú ý có thé kế đến như:
¢ UIT-ViQuAD [2]: đây là bộ dữ liệu đọc hiéu tự động cho tiếng Việt với
miền dữ liệu là các bài viết trên Wikipedia Bộ dữ liệu gồm 23 nghìn
cặp câu hỏi-đáp được tạo thủ công Các mô hình khác nhau được nhóm
tác giả thử nghiệm và trong số đó mô hình có kết quả cao nhất là RoBERTa [10] với các điểm F1 và EM trên bộ kiểm thử lần lượt đạt
XLM-87.02% và 68.98%.
« UIT-ViNewsQA [3]: đây là bộ dữ liệu đọc hiểu tự động trên các bài tin
tức sức khỏe tiếng Việt Về kích thước, bộ dữ liệu gồm 22,077 cặp câuhỏi-đáp Qua thử nghiệm một số mô hình, nhóm tác giả công bố mô
hình có kết quả cao nhất là 57.57% EM và 76.90% F1 trên bộ kiểm thử
Trang 172.2 Vấn đề cần giải quyết
Qua tìm hiểu các hướng nghiên cứu ở trên, chúng tôi nhận thấy sự thiếu hụt
dữ liệu cho bài toán đọc hiểu tự động trên bình luận khách hàng tiếng Việt Hai bộ
dữ liệu UIT-ViQuAD và UIT-ViNewsQA đều có văn phong trang trọng (formal) vàmiền đữ liệu là bài viết Wikipedia và tin tức sức khỏe, những đặc điểm này không
phù hop với bài toán đọc hiểu tự động trên bình luận khách hàng tiếng Việt, nơi màvăn phong thường thuộc vào dang không quan trọng (informal), có thể có lỗi chính
ta, mat dau, dấu câu thiếu hoặc không hop lý, v.v và miền dữ liệu thiên về các sản
phẩm, dịch vụ.
Do đó, chúng tôi quyết định tập trung phát triển bộ đữ liệu đọc hiểu trên bình
luận khách hàng tiếng Việt Bên cạnh đó, chúng ta cũng cần các đánh giá ban đầu về
hiệu quả của các mô hình trên bộ dữ liệu này Vì vậy, trên bộ dữ liệu phat triển được,chúng tôi cũng tập trung nghiên cứu thực nghiệm và phân tích kết quả các mô hìnhhọc sâu mà cho kết quả tốt tại các nghiên cứu đã đề cập ở trên về đọc hiểu tự động
Dựa trên các nghiên cứu trong nước và ngoài nước, chúng tôi thấy rằng mô
hình BERT [8] và các cải tiến (hay biến thé) của nó cho kết quả cao trên bài toán đọchiểu tự động, bên cạnh đó, các mô hình R-Net [6] và QANet [7] cũng cho kết quả tốttrên bộ dữ liệu tiếng Anh Mô hình BERT (hay các cải tiến, biến thé của nó) dé cóthé áp dụng trên tiếng Việt cần được pre-train trên kho dữ liệu có chứa văn bản tiếngViệt Hiện nay, multilingual BERT [8], PhoBERT [9] và XLM-RoBERTa [10] nằm
trong số các mô hình thỏa mãn điều kiện này Do đó chúng tôi quyết định chọn các
mô hình R-Net, QANet, multilingual BERT, PhoBERT và XLM-RoBERTa dénghiên cứu thực nghiệm trên bộ dữ liệu đã phat triển
Trang 18Chương3 Xây dựng và phân tích bộ dữ liệu
3.1 Xây dựng bộ dữ liệu
3.1.1 Chuẩn bị
Các yếu tố chúng tôi chuẩn bị trước khi xây dựng bộ dữ liệu gồm:
« Quy tắc hay hướng dẫn xây dựng dữ liệu (guideline) mà chúng tôi sử dụng
được lay cảm hứng từ quy tắc của bộ dit liệu UIT-ViQuAD [2] Tóm tắt của
quy tắc được chúng tôi đề cập ở mục
« Cac bình luận được chúng tôi kế thừa và tông hợp từ bộ dir liệu ViSD4SA [4]
và bộ dữ liệu bình luận do Tran et al [5] thu thập từ trang foody.com Chúng
tôi nhận thấy rằng trong số các bình luận thu thập bởi Tran et al [5] có một số
bình luận có chứa các nhãn html Vi vậy, chúng tôi lọc loại bỏ các nhãn html
này băng thư viện Regex (ngôn ngữ lập trình Python)
« Chung tôi sử dụng Microsoft Excel Online làm công cụ hỗ trợ xây dựng dữ
liệu.
o Ưu điểm của phần mềm:
= Hoạt động trên trình duyệt.
« Tự động lưu lại các phiên bản khác nhau của dữ liệu trong qua
trình làm việc và có thé tai lại những phiên bản đó nếu xảy ratrục trặc không mong muốn
» _ Xuất hiện gợi ý các câu hỏi đã nhập Điều này giúp cho các cộng
tác viên xây dựng đữ liệu biết được câu hỏi mình đã đặt nhiều
lần và đặt câu hỏi khác hoặc sử dụng các từ khác đi để làm đadạng các câu hỏi trong bộ dt liệu Hình 3.1 cho thấy phần mềm
gợi ý câu "Tốc độ phục vụ của quan thế nào?" cho thay câu này
đã từng được sử dụng.
« - Nhược điểm của phần mềm:
« Can có bước hậu xử lý cho tệp kết qua Cụ thé, chúng tôi sử dụng
ngôn ngữ lập trình Python để đọc tệp kết quả và kiểm tra xem
Trang 19câu trả lời có thuộc bình luận hay không (cộng tác viên phải sao
chép đoạn con của bình luận qua làm câu trả lời, tuy nhiên đôi
lúc vân có thê thao tác nhâm gây lôi), hai dau của câu trả lời có
bị dư khoảng trang hay không, câu hỏi có kết thúc bằng dấu "2"
18133
Xem video trên fb đôi khi chỉ nghe âm thanh k thấy hình.còn lúc đang màn hình đứng quay ngang vẫn hiện tượng có tiếng còn hình ảnh 1 màn hình trắng.quá lỗi nhận dạng vân tay quá
tệ.nhìn chung bỏ gần 9tr mua dt mà k được như kỳ vọng.mình
18515 đánh giá thấp dt này.
Thấy được review khá tốt nên ghé , hơi thất vọng , nhân viên quá ít , phục vụ chậm , đồ ăn lên nhanh nhưng không có người mang các dụng cụ cần thiết nên phải ngồi chờ rất lâu , đã đặt bàn trước 1 ngày nhưng không có bàn và phải đợi lâu , đồ ăn giá cả hợp lí nhưng vệ sinh quán qua do’, sàn nhà , bàn ghê , toilet , nói chung rất kinh khủng va sẽ không quay lại , chap nhận ăn chỗ mắc hon dé được phục vụ tốt hơn
3.1.2 Quy tắc xây dựng dir liệu
Khi đã có các bình luận từ bộ dit liệu ViSD4SA [4] và bộ dữ liệu của Tran et al [5]
thì dé xây dựng dữ liệu đọc hiểu tự động chúng tôi cần đặt các cặp câu hỏi-đáp trêncác bình luận này Vì vậy quy tắc xây dựng dữ liệu của chúng tôi chính là các quy
tac đặt cặp câu hỏi-đáp trên các bình luận, từ đó, các cộng tác viên có thê dựa trên
các quy tắc này đề xây dựng bộ dữ liệu Phần này chúng tôi tóm tắt quy tắc xây
dựng dữ liệu đã được chúng tôi áp dụng, quy tắc này được lấy cảm hứng từ quy tắc
xây dựng bộ dữ liệu UIT-ViQuAD [2].
10
Trang 20Nhìn chung, với môi bình luận, cộng tác viên sé đặt các cặp câu hoi-dap liên
quan dén bình luận này Môi bình luận có thê có một hoặc nhiêu cặp câu hoi-dap
được đặt.
Đôi với câu hỏi, về hình thức, câu hỏi phải có từ dé hỏi (ai, khi nao, ở dau,
v.v.) và kêt thúc bang dâu châm hỏi, về nội dung, câu hỏi cân phải rõ rang và phải
có thê trả lời được dựa vào nội dung của bình luận Tại bảng 3.1, chúng tôi đưa ra
một sô ví dụ về câu hỏi và từ đê hỏi có thê được sử dụng.
Ai, người nao, đối tượng | Dòng điện thoại này phù hợp với đối tượng nào?
Khi nào, lúc nào
Ăn tại quán này nên đi cùng ai?
Khuyến mãi giảm giá điện thoại được áp dụng khi
nào?
Quán bắt đầu phục vụ đồ ăn cho khách vào lúc nào?
O dau, nơi nao, tại đâu | Nhà hang nay nam tại đâu?
Tai sao, vi sao, nguyên
nhân gì
Như thê nao, thê nao, ra
sao
Vi sao quan lúc nào cũng đông khách?
Nguyên nhân gì khiến máy này thường có lỗi khi sử
dụng?
Trong món lầu gà có những gi?
Tính năng đặc biệt khi chụp ảnh bằng điện thoại này là
gì?
Điều gì thu hút thực khách quay lại quán?
Chất lượng chụp ảnh trên điện thoại này thế nào?
Hương vị món bún cua ở đây ra sao?
Bao nhiêu, mây Giá tiên ăn cho hai người là khoảng bao nhiêu?
11
Trang 21NTK Cpu của điện thoại này có mây nhân?
Máy chỉ dùng để xem phim, nghe nhạc thì bao lâu hết
pin?
Thời gian chờ đồ ăn tại quán này khoảng bao lâu?
Lam sao dé, làm thế nào | Lam thé nào dé pin dùng được lâu hơn?
trên máy này?
Bảng 3.1 Một sô ví dụ về từ đê hỏi và câu hỏi
Đối với câu trả lời, về hình thức, câu trả lời phải là một cum từ liên tiếpthuộc bình luận, ký tự bắt đầu và ký tự kết thúc câu trả lời không phải là dấu câu
(dau cham, dau phây, dau cham hỏi, v.v.) hoặc khoảng trang, về nội dung, câu trả
lời phải trả lời được cho câu hỏi đã được đặt Một điều lưu ý nữa là câu trả lời phải
là câu trả lời ngăn nhất Sau đây là một ví dụ về câu trả lời ngắn nhất
Ví du: Với bình luận "Bin trâu máy quá ngon quá tuyệt vời ,xai hai ngày mới
hết bin,choi game thi dc 1 ngày,chiến tat cả các game cực mượt [ ]" và câu hỏi
"Thời lượng pin khi chơi game là bao lâu?” thì cau trả lời "chơi game thì dc 1
ngày" hay "I ngày” đều đúng, tuy nhiên, ở đây ta chọn câu trả lời là “7 ngày” vì nó
là câu trả lời ngăn nhat.
Các cặp câu hỏi-đáp còn được phân theo dạng suy luận, gồm 4 dạng với độ
khó tăng dần là word matching (tạm dịch: tương đồng về từ), paraphrasing (viết lại
câu theo cách khác), single-sentence inference (suy luận từ một câu) và
multi-sentence inference (suy luận từ nhiều câu) Trong đó, chúng tôi khuyến khích các
cộng tác viên đặt các dạng câu khó như dạng suy luận (từ nhiều câu hay một câu) và
paraphrasing, và không khuyến khích đặt dang câu word matching Bảng 3.2 sau
đây đưa ra định nghĩa và một sô ví dụ vê các dạng suy luận.
12
Trang 22Dạng suy luận | Định nghĩa Vi dụ & giải thích
trong bình luận
Sử dụng từ đồng
nghĩa hay ý nghĩa có liên
quan đề đặt câu
hỏi giúp tránh
trùng lặp với các
từ trong bình luận
Câu trả lời can
nào cũng ngon Nhân viên phục vụ hơi
kém, giá cao hơn mặt bằng chung nhưngphù hợp với chất lượng nước uống [ ]
Câu hỏi: Nhân viên phục vụ như thế nào?
Bình luận: [ ] bắt sóng khỏe.pin tốt thỏamái một ngáy.camera sau rất tốt cam trước
nếu Du sáng thì đẹp thật màu chỉ chê phông
chữ và tác vụ tôi ưu chưa tốt [ ]
Câu hỏi: Chất lượng máy ảnh của điện thoại
nay thé nào?
Binh luận: [ ] Phim nguồn nhạy nên bỏ túiquần cần tự mở màn hình làm khó chịu, vôtrang mua sắm thì vô chậm lắm, 4g thì
yếu, pin lâu [ ]
Câu hỏi: Tốc độ xử lý của máy khi thực
hiện các tác vụ như thé nào?
Giải thích: ở đây việc "vô trang mua sắm thì
vô chậm lắm" là một biéu hiện của "tốc độ
xử lý" cho "các tác vụ".
vài miêng chứ ăn mãi thây ko hêt, có cả
lòng , mé một ít , và đặc biệt là thịt dai ,
13
Trang 23suy ra được câu trả lời.
Bình luận: [ | Tôi từ 5S model 2014 cô đại,
lên 11 nên không có gi dé chê Chụp ảnh,
quay phim đều tốt, âm thanh nghe hay hơn
Về phần pin tôi không chơi game nên sửdụng gần 3 ngày [ ]
Câu hỏi: So với các sản phẩm trước đó thìsản phẩm này có chất lượng âm thanh thế
nào?
Câu trả lời: nghe hay hơn
Giải thích: câu đầu tiên ("Tôi từ để chê")
người dùng kê về việc mình đổi điện thoại,
câu thứ hai ("Chụp ảnh hay hơn.") mô tả
nói cụ thê là máy nao Cân ket hợp nội dung
của cả hai câu đê có thê hiệu rang người
dùng đang mô tả máy mới.
Bảng 3.2 Một số ví dụ về dạng suy luận có thể đặt
14
Trang 24Trong quá trình xây dựng dir liệu, bên cạnh việc tuân thủ các quy tắc đã đề
cập ở trên, cộng tác viên còn cân chú ý tránh một sô lỗi thường gặp (các lôi này
được phát hiện, tổng hợp và cập nhật lại trong quá trình xây dựng dữ liệu, giúp cáccộng tác viên có thể chú ý và phòng tránh), trong đó chủ yếu thuộc một trong ba lỗi
sau:
« Dat câu hỏi có nhiêu câu trả lời năm nhiêu vi trí khác nhau,
« Thiếu từ dé hỏi,
¢ Cau trả lời không phải là câu trả lời ngắn nhất
Đặt câu hỏi có nhiêu câu
trả lời năm nhiêu vi trí
khác nhau
thiếu từ dé hỏi được kí
hiệu S, ngược lại, được kí
hiệu Ð)
Bình luận: nêu vừa xem lâu vừa nhắn tin máy hơi
chậm lại tí ,do mình ko chơi game nên còn lại mình
thây mấy máy mượt mà Cam đẹpCác ứng dụng đềurat dé sài, thao tác nhanh Cảm biến vân tay ko nhạylắm , nhưng mình không dé tâm lắm Quan trọng làcam Ổn, may tién dung ,dé sai !
Câu hoi: Diém nội bật của san phẩm là gi?
Giải thích: "máy mượt mà thao tác nhanh" và
"cam Ổn, may tién dung ,dé sai" đều có thé là câu trả
ye
lời.
Câu hỏi (S): Món ăn ngon nhất tại nhà hang là?
Câu hỏi (P): Món ăn ngon nhất tại nhà hàng là gì?
Câu hỏi (S): Giá điện thoại trong đợt giảm giá trước?
Câu hỏi (B): Giá điện thoại trong đợt giảm giá trước
là bao nhiêu?
15
Trang 25Câu trả lời không phải câu | Bình luận: [ ] Lau nước hơi lạt , k ấn tượng lắm ,
trả lời ngắn nhất (câu trả _ | lâu hải sản mà k có cái j dé cham Nước tạm Nhân
lời không phải câu trả lời | viên phục vụ toàn bỏ vô bếp
ngược lại, được kí hiệu D) | Cau tra lời (S): Nước tam
Câu trả lời (Ð): tạm
Bảng 3.3 Một số ví dụ về các lỗi khi xây dựng dữ liệu
3.1.3 Quy trình xây dựng bộ dữ liệu
Quy trình xây dựng bộ dir liệu của chúng tôi dựa trên quy trình xây dựng hai
bộ dữ liệu UIT-ViQuAD [2] và UIT-ViNewsQA [3] Nhìn chung, chúng tôi đảm
bao chất lượng dit liệu bằng phương pháp kiểm tra chéo (cross-check) [2] và kiểm
tra ngẫu nhiên một só mau đã qua kiểm tra chéo [3] Dưới đây chúng tôi sẽ mô tả
chỉ tiết hơn về quy trình xây dựng dữ liệu
Chúng tôi có 4 cộng tác viên tham gia xây dựng dữ liệu Ban đầu mỗi cộng tácviên đọc bản quy tắc xây dựng đữ liệu và các ví dụ đi kèm Tiếp theo chúng tôi chọn
ra 50 bình luận và yêu cầu mỗi người độc lập đặt các cặp câu hỏi-đáp trên các bìnhluận này, tối thiểu mỗi bình luận đặt 3 cặp câu hỏi đáp Điều này nhằm kiểm tra độhiểu bản quy tắc của cộng tác viên và giúp họ làm quen với công việc Chúng tôikiểm tra kết quả công việc của họ, chỉ ra lỗi sai họ gặp phải và hướng dẫn cách sửa.Sau đó chúng tôi lại tiếp tục chọn ra 50 bình luận tiếp theo và làm tương tự như trước.Sau bước này, chúng tôi thấy các cộng tác viên nhìn chung đã nắm được quy tắc xây
dung dữ liệu.
16
Trang 26Lấy mẫu & kiểm tra
Hình 3.2 Quy trình xây dựng đữ liệu.
Tiếp theo, chúng tôi chính thức bat đầu việc xây dựng dữ liệu, quy trình thực hiệnđược chia thành nhiều đợt, mỗi đợt diễn ra như sau:
« _ Mỗi cộng tác viên sẽ được phân công đặt 200 cặp câu hỏi-đáp trong 4-5 ngày.
« _ Trong 2-3 ngày tiếp theo các cộng tác viên sẽ kiểm tra chéo (cross-check) kết
quả của nhau theo từng cặp 2 người Khi kiểm tra chéo, mỗi người sẽ kiểm tra
kết quả của người kia có tuân theo quy tắc đã đề ra hay không, chỉ ra nhữnglỗi sai dé người kia sửa Nếu cả hai người không đồng thuận hoặc không rõ vềmột trường hợp đặt câu nao đó, thì trường hợp nay sẽ được ghi lại dé dành cho
buổi thảo luận
Buổi thảo luận được tổ chức 1 lần / tuần, tại đây mọi người sẽ thảo luận vé các trườnghop đã được ghi lại dé tìm ra hướng giải quyết và cập nhật lai bản quy tắc nếu cần.Ngoài ra, chúng tôi cũng lấy mẫu ngẫu nhiên 10% số cặp câu mỗi người tạo được (đãqua kiểm tra chéo) của mỗi đợt đề kiểm tra chất lượng kiểm tra chéo và thông báo tại
buổi thảo luận
Sau cùng, chúng tôi tiến hành chia ngẫu nhiên bộ dir liệu thành ba bộ là bộ huấn
luyện, bộ phát triển, bộ kiểm thử theo tỉ lệ xấp xi 8:1: 1.
17
Trang 273.2 Phân tích bộ dữ liệu
3.2.1 Về tổng quan
Chúng tôi phân tích bộ dữ liệu đã xây dựng dựa trên các khía cạnh: số bìnhluận, số cặp câu hoi-dap, sé tir trung binh cua binh luan, số tir trung binh cua cauhoi, số từ trung bình của câu trả lời (thé hiện tại bảng 3.5) Dé đếm số từ cho mộtbình luận, câu hỏi hay câu trả lời, chúng tôi sử dụng thư viện VnCoreNLP [26] đểtách từ và tiếp theo đếm số lượng từ tách được (chúng tôi chọn VnCoreNLP để
nhất quán với công đoạn tách từ trong khâu tiền xử ly dit liệu dé cập ở mục 5.1)
Bên cạnh đó, chúng tôi tính số lượng câu hỏi đáp thuộc mỗi chủ đề (thé hiện tại
bảng 3.4).
Chủ đề
| Điện thoại thông minh | Nhà hang, quán ăn
Số lượng cặp hỏi-đáp 3,140 3,289
Nguồn của bình luận | ViSD4SA [4] Tran et al [5]
Bảng 344 Số lượng cặp hỏi đáp theo từng chủ đề.
Huấn Phát Kiểm Toànluyện triển thử bộ
Số bình luận 1,621 202 204 2,027
Số cặp hỏi-đáp 5,123 679 627 6,429
18