Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu đọc hiểu tự động trên các bình luận sản phẩm tiếng Việt

Tuy nhiên, hiện tại tiếng Việt chưa có công bố về bộ đữ liệu cho bài toán đọc hiểu tự động trên miền dữ liệu này, bên cạnh đó, các bộ dit liệu hiện tại cũng mang các đặc tính khác về văn

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

VŨ QUÍ SAN

KHÓA LUẬN TOT NGHIỆP

NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG BÌNH LUẬN KHÁCH HÀNG CHO TIẾNG VIỆT

Machine reading comprehension

on Vietnamese customer reviews

CỬ NHÂN NGANH KHOA HỌC MAY TÍNH

TP HÒ CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

VŨ QUÍ SAN - 18520143

KHÓA LUẬN TÓT NGHIỆP

NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG

BÌNH LUẬN KHÁCH HANG CHO TIENG VIỆT

Machine reading comprehension

on Vietnamese customer reviews

CU NHÂN NGANH KHOA HỌC MAY TÍNH

GIANG VIEN HUONG DAN

TS NGUYEN LUU THUY NGAN

ThS NGUYEN VAN KIET

TP HO CHi MINH, 2022

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

38/QD-ĐHCNTT ngày 19/01/2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 PGS.TS Lê Đình Duy — Chủ tịch.

2 ThS Nguyễn Bích Vân ~— Thư ký.

3 PGS.TS Quản Thành Thơ ~— Ủy viên.

ii

Trang 4

2.1 Các hướng nghiên cứu liên quan -¿-¿- + + +5 S++++k+xsEexerrkekerererkee 6

2.1.1 _ Các nghiên cứu trên thé giới - : ccc5c2vvcceeccvsrrerrrveccee 6

2.1.2 Các hướng nghiên cứu trong nưỚC -¿- - se +++++xexsrererxee 7

2.2, Vấn đề cần giải quyết -2c222:+c+2222222 22222221111 8 Chương 3 Xây dung và phân tích bộ dữ liệu - - ¿+ + 5+ £+++c+x++vzerexsxex 9

3.1 Xây dựng bộ dữ liệu ¿+ + tt ST HH Hee 9

3.1.1 Chuẩnbj, ììsirrrrrriririirrrieriirirrrre 9

3.1.2 Quy tắc xây dựng dữ liệu -cc¿©222cseccvrrrrrrrrrrrrrrrrree 10

3.1.3 Quy trình xây dựng bộ dit liệu 5-5-5 cccccxsxseercr+ 16

3.2 Phân tích bộ dữ liệu -¿-¿- ¿+ E1 1E SH HH Hư 18

3.2.1 Về tổng quan 22222cccttEEEEEkrrrrrrrrrrrrrrrrrrerrrer 18

3.2.2 Về tỉ lệ các loại câu hỏi, loại suy luận - - +++5+<<c+s<<+ 19

Chương 4 Mô hình cho bai toán đọc hiểu tự động -: c¿5ccssce+ 25 4.1 Tổng quan phương pháp -2:22++222+++++2Evv+rtttrrvrrerrrrrrrrrrrer 25

ii

Trang 5

4.2 Các mô hình đọc hiểu tự động ¿:©+++22+++ttvvvvrretrrverrerrrer 26 4.2.1 Mô hình R-Net

4.2.2 Mô hình QANNG( Ặ Sun 28

5.3 Độ đo đánh giá mô hình «¿5 SE E11 TH 01111101 1 re 35

5.4 Cài đặt, kết quả, đánh giá thí nghiệm c¿222sce+ccvszcesrx 35

5.4.1 — Cài đặt à ccieieiierierrrrrier.3

542 KEt Ua, Ê 4›.<@ Ẻ 36

5.4.3 Phân tích theo loại câu hỏi ¿+5 + 5+ sscsss+sssereesexsesvvees Z

5.4.4 _ Phân tích lỗi: 72ccc22ctEEktrerktttrrrrrtrrrrrrrrrerrvee 38

Chương 6 Kết luận và hướng phát triỂn ¿ -¿22+z++22++zzzzvscez 42 6.l Kết luận 2222222222222222211122221111222211112221111 221111 42 6.2 Hướng phát triỀn 522222+22+t22222E 12.22211111 re 42

iii

Trang 6

LOI CAM ON

Khóa luận này đã không thé hoàn thành nếu không có sự đồng hành, giúp đỡ của quý

thầy cô và những người bạn bè

Tôi xin được gửi lời cảm ơn đến cô Nguyễn Lưu Thùy Ngân và thầy Nguyễn VănKiệt Cô và thầy đã hướng dẫn tận tình, động viên tôi trong thời gian tôi làm tìm hiểu,

nghiên cứu và thực hiện khóa luận này.

Tiếp theo tôi xin gửi lời cảm ơn các thầy cô của trường Đại học Công nghệ thông tinnói chung và các thầy cô khoa Khoa học máy tính nói riêng đã truyền đạt cho tôinhững kiến thức quý báu, bên cạnh đó cho tôi trải nghiệm về một môi trường học tập

năng động, thoải mái, gân gũi, đê lại nhiêu kỷ niệm.

Tôi xin cảm ơn những người bạn bè đã đồng hành cùng tôi qua những giai đoạn thăng

trâm khác nhau.

Tôi xin cảm ơn các bạn Cao Duy Ngọc, Đỗ Phạm Phúc Tính và Nguyễn Thành Nhân

đã tham gia cùng tôi trong quá trình xây dựng dữ liệu.

Cuôi cùng, tôi vô cùng cảm ơn gia đình tôi đã luôn luôn động viên giúp đỡ tôi vào

những lúc khó khăn nhất

iv

Trang 7

DANH MỤC TU VIET TAT

BERT | Bidirectional Encoder Representations from Transformers

RoBERTa | Robustly optimized BERT approach

Trang 8

DANH MỤC HÌNH VE

Hình 3.1 Hình ảnh về việc sử dụng Microsoft Excel Online dé hỗ trợ xây dựng dữ

I0 10 Hình 3.2 Quy trình xây dựng dữ lIỆU - - G5 SE ** Si, 17 Hình 3.3 Tỉ lệ các loại câu OL . << 5S 2211111111223 11 1155111 kkerrzse 20 Hình 3.4 Tỉ lệ các dạng suy luẬn - <6 E21 1E 911191 9 1 911 ng ng rệt 22

Hình 4.1 Mô hình dự đoán vị trí bat đầu và kết thúc của câu trả lời 26Hình 4.2 Kiến trúc mô hình R-Net Hình vẽ bởi nhóm tác giả mô hình R-Net 27Hình 4.3 Kiến trúc mô hình QANet Hình vẽ bởi nhóm tác giả mô hình QANet 29

Hình 4.4 Transformer encoder (trái) và BERT base (phải) .- -« 31

Hình 5.1 Kết quả theo các loại câu hỏi ¿-2¿2¿©+2©z+x+2zx+tx+erxesrxesrxeee 37Hình 5.2 Số lần xuất hiện của các loại lỗi -:¿-c++++cc+vrerrxrrrerrrerrrrrrree 40

vi

Trang 9

Số lượng cặp hỏi đáp theo từng chủ đề -2 5¿©2scc+ccscccxez 18Thống kê trên bộ dữ liệu 2-2-2 £+S£+EE+EE+2E2EESEEtEEEEEzEErrxerrrrex 19

Một số vi dụ về các loại câu hỏi - - 2-52 2252 ££2E£EezEerxerxerxereee 22Một số ví dụ về các dạng suy luận - - 5c Scs* + sieeserrereesxre 24Kết quả các mô hình trên bộ dữ liệu đã xây dựng .- . - 37Một số ví dụ về các loại lỖi ¿- ¿5c sSềEEeEE2EEEEE2E2EEEEEEEEEkerkrrkee 40

vii

Trang 10

TÓM TẮT KHÓA LUẬN

Khách hàng thường đặt ra các câu hỏi khi cân nhắc mua sản phẩm hay trải nghiệmdịch vụ nào đó trực tuyến Số lượng khách hàng sử dụng các trang thương mại điện

tử càng nhiều dẫn đến số lượng các câu hỏi ngày càng gia tăng nhanh Hệ thống đọc

hiểu tự động được chứng minh là có thể tự động hóa một phần công việc trả lời chokhách hàng bằng cách tận dụng các thông tin có ích từ các bình luận của khách hàngkhác về sản phẩm hay dịch vụ đã có từ trước Tuy nhiên, hiện tại tiếng Việt chưa có

công bố về bộ đữ liệu cho bài toán đọc hiểu tự động trên miền dữ liệu này, bên cạnh

đó, các bộ dit liệu hiện tại cũng mang các đặc tính khác (về văn phong, về chủ dé) so

với đặc tính của đữ liệu bài toán ta đang hướng tới Do đó, chúng tôi phát triển một

bộ dữ liệu đọc hiểu tự động trên bình luận của khách hàng gồm 6429 cặp câu hỏi đáp,bên cạnh đó, chúng tôi đánh giá và phân tích kết quả của một số mô hình học sâu trên

bộ dit liệu đã phát triển được

Trang 11

Chương 1 Mở đầu

1.1 Đặt vấn đề

Khách hàng khi chọn mua sản phẩm hay sử dụng dịch vụ trên các trang thươngmại điện tử thường đặt ra các câu hỏi nhằm tìm hiểu xem san phẩm hay dịch vụ đó

có phù hợp với nhu cầu của mình không Các câu hỏi này được khách hàng đăng lên

và chờ câu trả lời từ nhân viên chăm sóc khách hàng hay từ những khách hàng khác.

Tuy nhiên, với số lượng người sử dụng các trang thương mại điện tử ngày càngnhiều, số lượng câu hỏi được đăng lên ngày càng tăng dẫn đến sự quá tải trong việc

trả lời chúng Kết quả là nhiều câu hỏi của khách hàng phải chờ đợi lâu hoặc thậmchí không được trả lời, điều này gây bắt tiện cho khách hàng và có thể làm ảnh hưởng

doanh thu của doanh nghiệp.

Các bình luận của các khách hàng khác về sản phâm là một nguồn thông tin

có ích trong việc trả lời các câu hỏi trên Nhưng khách hàng phải dành thời gian và

công sức đọc nhiều bình luận khác nhau giữa rất nhiều bình luận để có thé lay đượcthông tin mình muốn Đây chính là động lực để chúng ta tìm giải pháp tự động hóa

việc trả lời cho khách hàng dựa trên nội dung các bình luận có từ trước đó.

Bài toán đọc hiểu tự động đã có từ lâu nhưng bat đầu từ năm 2015 mới đượcnghiên cứu rộng rãi [1] Nhiều nghiên cứu về mô hình và các bộ dữ liệu cho nhiềungôn ngữ cho bài toán đọc hiéu tự động được công bồ trong đó chủ yếu là về tiếngAnh Đối với tiếng Việt, gần đây có sự xuất hiện của các bộ đữ liệu đọc hiểu tự độngnhư UIT-ViQuAD [2] với miền dữ liệu Wikipedia và UIT-ViNewsQA [3] với miền

dữ liệu tin tức về sức khỏe Hai bộ dữ liệu này có văn phong trang trọng (formal) và

có chủ đề về kiến thức tổng quát (UIT-ViQuAD) và về sức khỏe (UIT-ViNewsQA),

khác với dữ liệu bình luận trên các trang thương mại điện tử, nơi mà văn phong chủ

yếu theo dạng không trang trọng (informal) và chủ đề thiên về mô tả, nhận xét các

sản phẩm, dịch vụ.

Xuất phát từ thực trạng trên, chúng tôi quyết định chọn đề tài "Nghiên cứu đọchiểu tự động bình luận khách hàng cho tiếng Việt" làm đề tài khóa luận tốt nghiệp

Trang 12

Trong dé tài nay, chúng tôi thừa kế các bình luận từ bộ dữ liệu ViSD4SA [4] ( các

bình luận về điện thoại thông minh) và bộ dữ liệu của Tran et al [5] (các bình luận

về nhà hàng, quán ăn), sau đó chúng tôi đưa ra quy tắc xây dựng dữ liệu được lấy

cảm hứng từ quy tắc xây dựng dữ liệu của bộ đữ liệu UIT-ViQuAD [2] Tiếp theo,

bộ dữ liệu được chúng tôi chia ngẫu nhiên thành ba bộ là bộ huấn luyện, bộ phát triển

và bộ kiểm thử với tỉ lệ xấp xỉ 8:1:1 Sau đó chúng tôi tiến hành chạy thực nghiệm

các mô hình học sâu trên bộ dữ liệu này và phân tích kết quả Các mô hình chúng tôi

thực nghiệm bao gồm R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9]

va XLM-RoBERTa [10].

1.2 Dinh nghia bai toan.

Doc hiéu tu động là bài toán yêu cầu máy tính đọc hiểu một văn bản cho trướcrồi trả lời câu hỏi dựa trên nội dung của văn bản đó Bài toán đọc hiểu tự động có thé

được phan thành nhiều loại khác nhau, tùy vào dạng của câu hỏi, câu trả lời, các loại

dữ liệu đầu vào (ví du dỡ liệu đầu vào không chỉ có văn bản mà còn có hình ảnh, máytính cần trả lời dua trên nội dung của hình ảnh đó), v.v

Dạng bài toán đọc hiểu tự động trên bình luận khách hàng trong dé tài củachúng tôi thuộc dạng đọc hiểu tự động trích xuất (tức câu trả là đoạn con của bình

luận) Bài toán có thé được phát biểu như sau (i, k, ø, m đều là số nguyên dương):

« Dau vào:

o Binh luận C = {ci, c2, , Cn}, VỚI €¡, C2, , Cn là các từ trong C.

o Câu hỏi Q = (gi, q2, , dm}, có thé được trả lời dựa vào nội

dung của C, với qi, đ›, , dm là các từ trong Q.

Trang 13

o Bình luậnC: " nói chung ăn được có món thịt heo rừng xảo xa

ớt thôi Các bạn đừng gọi heo rừng nướng vì sẽ rất rất khô , ăn

như nhai khăn giấy vậy đó "

o Câu hỏi Q: "Món nao ở quán mà thực khách khuyên không nên

ăn?"

« Dau ra:

o Câu trả lời A: "heo rừng nướng”

1.3 Mục đích nghiên cứu

Mục đích nghiên cứu gồm hai phần:

e_ Thứ nhất, chúng tôi kế thừa và phát triển các bình luận từ các bộ dữ liệu

VISD4SA [4] (thuộc chủ đề điện thoại thông minh) và bộ di liệu củaTran et al [5] (chủ đề nhà hàng, quán ăn), tuân theo quy tắc xây dựng

dữ liệu được lấy cảm hứng từ quy tắc xây dựng đữ liệu của bộ dữ liệu

UIT-ViQuAD [2], để tạo ra bộ dit liệu đọc hiểu trên bình luận khách

hàng cho tiếng Việt

e Thứ hai, chúng tôi tiến hành nghiên cứu thực nghiệm các mô hình học

sâu trên bộ dữ liệu đã xây dựng được Cụ thé, chúng tôi thực nghiệm

các mô hình R-Net [6], QANet [7], multilingual BERT [8], PhoBERT

[9] và XLM-RoBERTa [10] và so sánh, phân tích kết quả đạt được.

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu thứ nhất của đề tài này là phát triển bộ dit liệu đọc hiểu

trên bình luận khách hàng cho tiếng Việt Theo tìm hiểu của chúng tôi, hiện nay chưa

có công bồ về bộ dữ liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt

Các mô hình học sâu cho bài toán đọc hiểu tự động là đối tượng nghiên cứu

thứ hai của đề tài Chúng tôi nghiên cứu thực nghiệm các mô hình R-Net [6], QANet

[7], multilingual BERT [8], PhoBERT [9] và XLM-RoBER Ta [10] trên bộ dữ liệu đã

Trang 14

phát triển, qua đó đưa ra các phân tích, đánh giá về kết quả của từng mô hình, bên

cạnh đó phân tích lỗi dé chỉ ra một số thách thức mà các mô hình tốt nhất gặp phải

1.4.2 Pham vi nghiên cứu

Bộ dữ liệu đọc hiéu tự động trên bình luận khách hàng cho tiếng Việt bao gồmcác bình luận thuộc một trong hai chủ đề: thứ nhất là chủ đề bình luận điện thoại

thông minh, các bình luận này được thu thập từ một trang thương mại điện tử lớn của

Việt Nam [4]; thứ hai là chủ đề bình luận nhà hàng, quán ăn, các bình luận này được

Tran et al [5] thu thập từ trang web foody.com.

Trang 15

Chương2 Tong quan

2.1 Các hướng nghiên cứu liên quan

2.1.1 Các nghiên cứu trên thế giới

Trong những năm trở lại đây, đặc biệt là từ khoảng năm 2015 trở đi, thống kê

của X et al [1] cho thay số lượng các bộ dữ liệu về đọc hiểu tự động cũng như các

nghiên cứu về các phương pháp cho bài toán này có sự gia tăng mạnh mẽ Sau đây làmột số nghiên cứu tiêu biểu:

« Vé dit liệu: AmazonQA [11] và ReviewRC [12] là hai trong những bộ

dữ liệu tiêu biểu cho bài toán đọc hiểu trên bình luận khách hàng Tiền

đề của bộ đữ liệu AmazonQA là bộ dữ liệu của McAuley et al [13], bộnày có các câu hỏi và câu trả lời về sản phâm của khách hàng được thu

thập từ một trong những trang thương mại điện tử lớn nhất thế giới là

Amazon Sau này, bộ dữ liệu AmazonQA kế thừa và phát triển bộ dữ

liệu của MeAuley et al [13] băng cách thu thập thêm các bình luận cóchứa thông tin được đề cập trong các câu trả lời Kích thước của bộ dữliệu AmazonQA lên đến 923 ngan câu hỏi, 3.6 triệu câu tra lời và 14triệu bình luận sản phẩm Về bộ dữ liệu ReviewRC, miền dữ liệu của

bình luận không chỉ bao gồm các bình luận sản phẩm từ Amazon.com

mà còn từ các bình luận quán ăn, nhà hàng thu thập từ trang Yelp.com.

« _ Về mô hình cho bài toán đọc hiểu trích xuất: Trên thực tế bài toán đọc

hiểu tự động thường được chia thành hai dạng là trích xuất (extractive

cau trả lời là đoạn con của đoạn van) va trừu tượng hóa (abstractive

-câu trả lời dựa trên nội dung đoạn văn, không nhất thiết phải là đoạn

con của đoạn văn), trong đó bộ dữ liệu AmazonQA thuộc dạng trừu

tượng hóa và ReviewRC thuộc dạng trích xuất Khóa luận của chúngtôi tập trung vào dạng trích xuất nên đầu vào và đầu ra mà chúng tôimong muốn tương tự như ở bộ dir liệu ReviewRC Tuy nhiên bộ dữ liệu

Trang 16

ReviewRC có lượng đữ liệu còn hạn chế nên cũng chưa có nhiều nghiên

cứu thực nghiệm trên bộ đữ liệu này (trong công bố của mình, nhóm

tác giả của bộ dữ liệu ReviewRC tập trung thử nghiệm các cách huấn

luyện khác nhau cho mô hình BERT [8] trên bộ dữ liệu này) Do đó,

chúng tôi khảo sát các mô hình được tập trung nghiên cứu trên các bộ

dữ liệu chuyên về đọc hiểu trích xuất tiêu biéu như SQuAD [14] vàNatural Questions [15] (miền đữ liệu là các bài đăng trên Wikipedia)

Các mô hình BERT [8] và các biến thể, cải tiến của BERT (nhưRoBERTa [16] và ELECTRA [17]), được sử dụng bởi nhiều đội vàcho kết quả cao trên bảng xếp hạng của cả hai tập đữ liệu này Ngoài

ra, trước khi mô hình BERT được công bố vào cuối năm 2018, thì môhình R-Net [6] và mô hình QANet [7] từng đứng đầu bảng xếp hạng

của bộ dữ liệu SQuAD lần lượt vào năm 2017 và đầu năm 2018

2.1.2 Các hướng nghiên cứu trong nước

Với tiếng Việt, trong những năm gần đây đọc hiểu tự động đang dần nhận

được sự quan tâm của cộng đồng nghiên cứu với sự ra đời của một số bộ dữ liệu đángchú ý có thé kế đến như:

¢ UIT-ViQuAD [2]: đây là bộ dữ liệu đọc hiéu tự động cho tiếng Việt với

miền dữ liệu là các bài viết trên Wikipedia Bộ dữ liệu gồm 23 nghìn

cặp câu hỏi-đáp được tạo thủ công Các mô hình khác nhau được nhóm

tác giả thử nghiệm và trong số đó mô hình có kết quả cao nhất là RoBERTa [10] với các điểm F1 và EM trên bộ kiểm thử lần lượt đạt

XLM-87.02% và 68.98%.

« UIT-ViNewsQA [3]: đây là bộ dữ liệu đọc hiểu tự động trên các bài tin

tức sức khỏe tiếng Việt Về kích thước, bộ dữ liệu gồm 22,077 cặp câuhỏi-đáp Qua thử nghiệm một số mô hình, nhóm tác giả công bố mô

hình có kết quả cao nhất là 57.57% EM và 76.90% F1 trên bộ kiểm thử

Trang 17

2.2 Vấn đề cần giải quyết

Qua tìm hiểu các hướng nghiên cứu ở trên, chúng tôi nhận thấy sự thiếu hụt

dữ liệu cho bài toán đọc hiểu tự động trên bình luận khách hàng tiếng Việt Hai bộ

dữ liệu UIT-ViQuAD và UIT-ViNewsQA đều có văn phong trang trọng (formal) vàmiền đữ liệu là bài viết Wikipedia và tin tức sức khỏe, những đặc điểm này không

phù hop với bài toán đọc hiểu tự động trên bình luận khách hàng tiếng Việt, nơi màvăn phong thường thuộc vào dang không quan trọng (informal), có thể có lỗi chính

ta, mat dau, dấu câu thiếu hoặc không hop lý, v.v và miền dữ liệu thiên về các sản

phẩm, dịch vụ.

Do đó, chúng tôi quyết định tập trung phát triển bộ đữ liệu đọc hiểu trên bình

luận khách hàng tiếng Việt Bên cạnh đó, chúng ta cũng cần các đánh giá ban đầu về

hiệu quả của các mô hình trên bộ dữ liệu này Vì vậy, trên bộ dữ liệu phat triển được,chúng tôi cũng tập trung nghiên cứu thực nghiệm và phân tích kết quả các mô hìnhhọc sâu mà cho kết quả tốt tại các nghiên cứu đã đề cập ở trên về đọc hiểu tự động

Dựa trên các nghiên cứu trong nước và ngoài nước, chúng tôi thấy rằng mô

hình BERT [8] và các cải tiến (hay biến thé) của nó cho kết quả cao trên bài toán đọchiểu tự động, bên cạnh đó, các mô hình R-Net [6] và QANet [7] cũng cho kết quả tốttrên bộ dữ liệu tiếng Anh Mô hình BERT (hay các cải tiến, biến thé của nó) dé cóthé áp dụng trên tiếng Việt cần được pre-train trên kho dữ liệu có chứa văn bản tiếngViệt Hiện nay, multilingual BERT [8], PhoBERT [9] và XLM-RoBERTa [10] nằm

trong số các mô hình thỏa mãn điều kiện này Do đó chúng tôi quyết định chọn các

mô hình R-Net, QANet, multilingual BERT, PhoBERT và XLM-RoBERTa dénghiên cứu thực nghiệm trên bộ dữ liệu đã phat triển

Trang 18

Chương3 Xây dựng và phân tích bộ dữ liệu

3.1 Xây dựng bộ dữ liệu

3.1.1 Chuẩn bị

Các yếu tố chúng tôi chuẩn bị trước khi xây dựng bộ dữ liệu gồm:

« Quy tắc hay hướng dẫn xây dựng dữ liệu (guideline) mà chúng tôi sử dụng

được lay cảm hứng từ quy tắc của bộ dit liệu UIT-ViQuAD [2] Tóm tắt của

quy tắc được chúng tôi đề cập ở mục

« Cac bình luận được chúng tôi kế thừa và tông hợp từ bộ dir liệu ViSD4SA [4]

và bộ dữ liệu bình luận do Tran et al [5] thu thập từ trang foody.com Chúng

tôi nhận thấy rằng trong số các bình luận thu thập bởi Tran et al [5] có một số

bình luận có chứa các nhãn html Vi vậy, chúng tôi lọc loại bỏ các nhãn html

này băng thư viện Regex (ngôn ngữ lập trình Python)

« Chung tôi sử dụng Microsoft Excel Online làm công cụ hỗ trợ xây dựng dữ

liệu.

o Ưu điểm của phần mềm:

= Hoạt động trên trình duyệt.

« Tự động lưu lại các phiên bản khác nhau của dữ liệu trong qua

trình làm việc và có thé tai lại những phiên bản đó nếu xảy ratrục trặc không mong muốn

» _ Xuất hiện gợi ý các câu hỏi đã nhập Điều này giúp cho các cộng

tác viên xây dựng đữ liệu biết được câu hỏi mình đã đặt nhiều

lần và đặt câu hỏi khác hoặc sử dụng các từ khác đi để làm đadạng các câu hỏi trong bộ dt liệu Hình 3.1 cho thấy phần mềm

gợi ý câu "Tốc độ phục vụ của quan thế nào?" cho thay câu này

đã từng được sử dụng.

« - Nhược điểm của phần mềm:

« Can có bước hậu xử lý cho tệp kết qua Cụ thé, chúng tôi sử dụng

ngôn ngữ lập trình Python để đọc tệp kết quả và kiểm tra xem

Trang 19

câu trả lời có thuộc bình luận hay không (cộng tác viên phải sao

chép đoạn con của bình luận qua làm câu trả lời, tuy nhiên đôi

lúc vân có thê thao tác nhâm gây lôi), hai dau của câu trả lời có

bị dư khoảng trang hay không, câu hỏi có kết thúc bằng dấu "2"

18133

Xem video trên fb đôi khi chỉ nghe âm thanh k thấy hình.còn lúc đang màn hình đứng quay ngang vẫn hiện tượng có tiếng còn hình ảnh 1 màn hình trắng.quá lỗi nhận dạng vân tay quá

tệ.nhìn chung bỏ gần 9tr mua dt mà k được như kỳ vọng.mình

18515 đánh giá thấp dt này.

Thấy được review khá tốt nên ghé , hơi thất vọng , nhân viên quá ít , phục vụ chậm , đồ ăn lên nhanh nhưng không có người mang các dụng cụ cần thiết nên phải ngồi chờ rất lâu , đã đặt bàn trước 1 ngày nhưng không có bàn và phải đợi lâu , đồ ăn giá cả hợp lí nhưng vệ sinh quán qua do’, sàn nhà , bàn ghê , toilet , nói chung rất kinh khủng va sẽ không quay lại , chap nhận ăn chỗ mắc hon dé được phục vụ tốt hơn

3.1.2 Quy tắc xây dựng dir liệu

Khi đã có các bình luận từ bộ dit liệu ViSD4SA [4] và bộ dữ liệu của Tran et al [5]

thì dé xây dựng dữ liệu đọc hiểu tự động chúng tôi cần đặt các cặp câu hỏi-đáp trêncác bình luận này Vì vậy quy tắc xây dựng dữ liệu của chúng tôi chính là các quy

tac đặt cặp câu hỏi-đáp trên các bình luận, từ đó, các cộng tác viên có thê dựa trên

các quy tắc này đề xây dựng bộ dữ liệu Phần này chúng tôi tóm tắt quy tắc xây

dựng dữ liệu đã được chúng tôi áp dụng, quy tắc này được lấy cảm hứng từ quy tắc

xây dựng bộ dữ liệu UIT-ViQuAD [2].

10

Trang 20

Nhìn chung, với môi bình luận, cộng tác viên sé đặt các cặp câu hoi-dap liên

quan dén bình luận này Môi bình luận có thê có một hoặc nhiêu cặp câu hoi-dap

được đặt.

Đôi với câu hỏi, về hình thức, câu hỏi phải có từ dé hỏi (ai, khi nao, ở dau,

v.v.) và kêt thúc bang dâu châm hỏi, về nội dung, câu hỏi cân phải rõ rang và phải

có thê trả lời được dựa vào nội dung của bình luận Tại bảng 3.1, chúng tôi đưa ra

một sô ví dụ về câu hỏi và từ đê hỏi có thê được sử dụng.

Ai, người nao, đối tượng | Dòng điện thoại này phù hợp với đối tượng nào?

Khi nào, lúc nào

Ăn tại quán này nên đi cùng ai?

Khuyến mãi giảm giá điện thoại được áp dụng khi

nào?

Quán bắt đầu phục vụ đồ ăn cho khách vào lúc nào?

O dau, nơi nao, tại đâu | Nhà hang nay nam tại đâu?

Tai sao, vi sao, nguyên

nhân gì

Như thê nao, thê nao, ra

sao

Vi sao quan lúc nào cũng đông khách?

Nguyên nhân gì khiến máy này thường có lỗi khi sử

dụng?

Trong món lầu gà có những gi?

Tính năng đặc biệt khi chụp ảnh bằng điện thoại này là

gì?

Điều gì thu hút thực khách quay lại quán?

Chất lượng chụp ảnh trên điện thoại này thế nào?

Hương vị món bún cua ở đây ra sao?

Bao nhiêu, mây Giá tiên ăn cho hai người là khoảng bao nhiêu?

11

Trang 21

NTK Cpu của điện thoại này có mây nhân?

Máy chỉ dùng để xem phim, nghe nhạc thì bao lâu hết

pin?

Thời gian chờ đồ ăn tại quán này khoảng bao lâu?

Lam sao dé, làm thế nào | Lam thé nào dé pin dùng được lâu hơn?

trên máy này?

Bảng 3.1 Một sô ví dụ về từ đê hỏi và câu hỏi

Đối với câu trả lời, về hình thức, câu trả lời phải là một cum từ liên tiếpthuộc bình luận, ký tự bắt đầu và ký tự kết thúc câu trả lời không phải là dấu câu

(dau cham, dau phây, dau cham hỏi, v.v.) hoặc khoảng trang, về nội dung, câu trả

lời phải trả lời được cho câu hỏi đã được đặt Một điều lưu ý nữa là câu trả lời phải

là câu trả lời ngăn nhất Sau đây là một ví dụ về câu trả lời ngắn nhất

Ví du: Với bình luận "Bin trâu máy quá ngon quá tuyệt vời ,xai hai ngày mới

hết bin,choi game thi dc 1 ngày,chiến tat cả các game cực mượt [ ]" và câu hỏi

"Thời lượng pin khi chơi game là bao lâu?” thì cau trả lời "chơi game thì dc 1

ngày" hay "I ngày” đều đúng, tuy nhiên, ở đây ta chọn câu trả lời là “7 ngày” vì nó

là câu trả lời ngăn nhat.

Các cặp câu hỏi-đáp còn được phân theo dạng suy luận, gồm 4 dạng với độ

khó tăng dần là word matching (tạm dịch: tương đồng về từ), paraphrasing (viết lại

câu theo cách khác), single-sentence inference (suy luận từ một câu) và

multi-sentence inference (suy luận từ nhiều câu) Trong đó, chúng tôi khuyến khích các

cộng tác viên đặt các dạng câu khó như dạng suy luận (từ nhiều câu hay một câu) và

paraphrasing, và không khuyến khích đặt dang câu word matching Bảng 3.2 sau

đây đưa ra định nghĩa và một sô ví dụ vê các dạng suy luận.

12

Trang 22

Dạng suy luận | Định nghĩa Vi dụ & giải thích

trong bình luận

Sử dụng từ đồng

nghĩa hay ý nghĩa có liên

quan đề đặt câu

hỏi giúp tránh

trùng lặp với các

từ trong bình luận

Câu trả lời can

nào cũng ngon Nhân viên phục vụ hơi

kém, giá cao hơn mặt bằng chung nhưngphù hợp với chất lượng nước uống [ ]

Câu hỏi: Nhân viên phục vụ như thế nào?

Bình luận: [ ] bắt sóng khỏe.pin tốt thỏamái một ngáy.camera sau rất tốt cam trước

nếu Du sáng thì đẹp thật màu chỉ chê phông

chữ và tác vụ tôi ưu chưa tốt [ ]

Câu hỏi: Chất lượng máy ảnh của điện thoại

nay thé nào?

Binh luận: [ ] Phim nguồn nhạy nên bỏ túiquần cần tự mở màn hình làm khó chịu, vôtrang mua sắm thì vô chậm lắm, 4g thì

yếu, pin lâu [ ]

Câu hỏi: Tốc độ xử lý của máy khi thực

hiện các tác vụ như thé nào?

Giải thích: ở đây việc "vô trang mua sắm thì

vô chậm lắm" là một biéu hiện của "tốc độ

xử lý" cho "các tác vụ".

vài miêng chứ ăn mãi thây ko hêt, có cả

lòng , mé một ít , và đặc biệt là thịt dai ,

13

Trang 23

suy ra được câu trả lời.

Bình luận: [ | Tôi từ 5S model 2014 cô đại,

lên 11 nên không có gi dé chê Chụp ảnh,

quay phim đều tốt, âm thanh nghe hay hơn

Về phần pin tôi không chơi game nên sửdụng gần 3 ngày [ ]

Câu hỏi: So với các sản phẩm trước đó thìsản phẩm này có chất lượng âm thanh thế

nào?

Câu trả lời: nghe hay hơn

Giải thích: câu đầu tiên ("Tôi từ để chê")

người dùng kê về việc mình đổi điện thoại,

câu thứ hai ("Chụp ảnh hay hơn.") mô tả

nói cụ thê là máy nao Cân ket hợp nội dung

của cả hai câu đê có thê hiệu rang người

dùng đang mô tả máy mới.

Bảng 3.2 Một số ví dụ về dạng suy luận có thể đặt

14

Trang 24

Trong quá trình xây dựng dir liệu, bên cạnh việc tuân thủ các quy tắc đã đề

cập ở trên, cộng tác viên còn cân chú ý tránh một sô lỗi thường gặp (các lôi này

được phát hiện, tổng hợp và cập nhật lại trong quá trình xây dựng dữ liệu, giúp cáccộng tác viên có thể chú ý và phòng tránh), trong đó chủ yếu thuộc một trong ba lỗi

sau:

« Dat câu hỏi có nhiêu câu trả lời năm nhiêu vi trí khác nhau,

« Thiếu từ dé hỏi,

¢ Cau trả lời không phải là câu trả lời ngắn nhất

Đặt câu hỏi có nhiêu câu

trả lời năm nhiêu vi trí

khác nhau

thiếu từ dé hỏi được kí

hiệu S, ngược lại, được kí

hiệu Ð)

Bình luận: nêu vừa xem lâu vừa nhắn tin máy hơi

chậm lại tí ,do mình ko chơi game nên còn lại mình

thây mấy máy mượt mà Cam đẹpCác ứng dụng đềurat dé sài, thao tác nhanh Cảm biến vân tay ko nhạylắm , nhưng mình không dé tâm lắm Quan trọng làcam Ổn, may tién dung ,dé sai !

Câu hoi: Diém nội bật của san phẩm là gi?

Giải thích: "máy mượt mà thao tác nhanh" và

"cam Ổn, may tién dung ,dé sai" đều có thé là câu trả

ye

lời.

Câu hỏi (S): Món ăn ngon nhất tại nhà hang là?

Câu hỏi (P): Món ăn ngon nhất tại nhà hàng là gì?

Câu hỏi (S): Giá điện thoại trong đợt giảm giá trước?

Câu hỏi (B): Giá điện thoại trong đợt giảm giá trước

là bao nhiêu?

15

Trang 25

Câu trả lời không phải câu | Bình luận: [ ] Lau nước hơi lạt , k ấn tượng lắm ,

trả lời ngắn nhất (câu trả _ | lâu hải sản mà k có cái j dé cham Nước tạm Nhân

lời không phải câu trả lời | viên phục vụ toàn bỏ vô bếp

ngược lại, được kí hiệu D) | Cau tra lời (S): Nước tam

Câu trả lời (Ð): tạm

Bảng 3.3 Một số ví dụ về các lỗi khi xây dựng dữ liệu

3.1.3 Quy trình xây dựng bộ dữ liệu

Quy trình xây dựng bộ dir liệu của chúng tôi dựa trên quy trình xây dựng hai

bộ dữ liệu UIT-ViQuAD [2] và UIT-ViNewsQA [3] Nhìn chung, chúng tôi đảm

bao chất lượng dit liệu bằng phương pháp kiểm tra chéo (cross-check) [2] và kiểm

tra ngẫu nhiên một só mau đã qua kiểm tra chéo [3] Dưới đây chúng tôi sẽ mô tả

chỉ tiết hơn về quy trình xây dựng dữ liệu

Chúng tôi có 4 cộng tác viên tham gia xây dựng dữ liệu Ban đầu mỗi cộng tácviên đọc bản quy tắc xây dựng đữ liệu và các ví dụ đi kèm Tiếp theo chúng tôi chọn

ra 50 bình luận và yêu cầu mỗi người độc lập đặt các cặp câu hỏi-đáp trên các bìnhluận này, tối thiểu mỗi bình luận đặt 3 cặp câu hỏi đáp Điều này nhằm kiểm tra độhiểu bản quy tắc của cộng tác viên và giúp họ làm quen với công việc Chúng tôikiểm tra kết quả công việc của họ, chỉ ra lỗi sai họ gặp phải và hướng dẫn cách sửa.Sau đó chúng tôi lại tiếp tục chọn ra 50 bình luận tiếp theo và làm tương tự như trước.Sau bước này, chúng tôi thấy các cộng tác viên nhìn chung đã nắm được quy tắc xây

dung dữ liệu.

16

Trang 26

Lấy mẫu & kiểm tra

Hình 3.2 Quy trình xây dựng đữ liệu.

Tiếp theo, chúng tôi chính thức bat đầu việc xây dựng dữ liệu, quy trình thực hiệnđược chia thành nhiều đợt, mỗi đợt diễn ra như sau:

« _ Mỗi cộng tác viên sẽ được phân công đặt 200 cặp câu hỏi-đáp trong 4-5 ngày.

« _ Trong 2-3 ngày tiếp theo các cộng tác viên sẽ kiểm tra chéo (cross-check) kết

quả của nhau theo từng cặp 2 người Khi kiểm tra chéo, mỗi người sẽ kiểm tra

kết quả của người kia có tuân theo quy tắc đã đề ra hay không, chỉ ra nhữnglỗi sai dé người kia sửa Nếu cả hai người không đồng thuận hoặc không rõ vềmột trường hợp đặt câu nao đó, thì trường hợp nay sẽ được ghi lại dé dành cho

buổi thảo luận

Buổi thảo luận được tổ chức 1 lần / tuần, tại đây mọi người sẽ thảo luận vé các trườnghop đã được ghi lại dé tìm ra hướng giải quyết và cập nhật lai bản quy tắc nếu cần.Ngoài ra, chúng tôi cũng lấy mẫu ngẫu nhiên 10% số cặp câu mỗi người tạo được (đãqua kiểm tra chéo) của mỗi đợt đề kiểm tra chất lượng kiểm tra chéo và thông báo tại

buổi thảo luận

Sau cùng, chúng tôi tiến hành chia ngẫu nhiên bộ dir liệu thành ba bộ là bộ huấn

luyện, bộ phát triển, bộ kiểm thử theo tỉ lệ xấp xi 8:1: 1.

17

Trang 27

3.2 Phân tích bộ dữ liệu

3.2.1 Về tổng quan

Chúng tôi phân tích bộ dữ liệu đã xây dựng dựa trên các khía cạnh: số bìnhluận, số cặp câu hoi-dap, sé tir trung binh cua binh luan, số tir trung binh cua cauhoi, số từ trung bình của câu trả lời (thé hiện tại bảng 3.5) Dé đếm số từ cho mộtbình luận, câu hỏi hay câu trả lời, chúng tôi sử dụng thư viện VnCoreNLP [26] đểtách từ và tiếp theo đếm số lượng từ tách được (chúng tôi chọn VnCoreNLP để

nhất quán với công đoạn tách từ trong khâu tiền xử ly dit liệu dé cập ở mục 5.1)

Bên cạnh đó, chúng tôi tính số lượng câu hỏi đáp thuộc mỗi chủ đề (thé hiện tại

bảng 3.4).

Chủ đề

| Điện thoại thông minh | Nhà hang, quán ăn

Số lượng cặp hỏi-đáp 3,140 3,289

Nguồn của bình luận | ViSD4SA [4] Tran et al [5]

Bảng 344 Số lượng cặp hỏi đáp theo từng chủ đề.

Huấn Phát Kiểm Toànluyện triển thử bộ

Số bình luận 1,621 202 204 2,027

Số cặp hỏi-đáp 5,123 679 627 6,429

18

Tiêu đề	Nghiên cứu đọc hiểu tự động trên các bình luận sản phẩm tiếng Việt
Tác giả	Vũ Quý San
Người hướng dẫn	TS. Nguyễn Lưu Thuy Ngan, ThS. Nguyễn Văn Kiệt
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	55
Dung lượng	24,7 MB