1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu bài toán phân tích cảm xúc dựa trên khía cạnh sử dụng phương pháp học chuyển tiếp đa ngôn ngữ trên miền dữ liệu của lĩnh vực nhà hàng

107 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích cảm xúc theo khía cạnh sử dụng phương pháp học chuyển tiếp đa ngôn ngữ trên miền dữ liệu của lĩnh vực nhà hàng
Tác giả Phan Thị Kim Khoa
Người hướng dẫn TS. Nguyễn Lưu Thùy Ngân, ThS. Đặng Văn Thìn
Trường học Trường Đại học Công nghệ Thông tin, Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 107
Dung lượng 54,12 MB

Nội dung

Đồng thời, chúng tôi cũng tiến hành nghiên cứu và thựcnghiệm nhiều hướng tiếp cận khác nhau của phương pháp Học chuyển tiếp đa ngôn ngữ Cross-lingual Transfer Learning dựa trên các mô hì

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MAY TÍNH

PHAN THI KIM KHOA

KHOA LUAN TOT NGHIEP

PHAN TÍCH CAM XUC THEO KHÍA CANH SỬ DUNG PHUONG PHAP HOC CHUYEN TIEP DA NGON NGU

CHO DU LIEU LINH VUC NHA HANG

Aspect Based Sentiment Analysis for the Restaurant Domain

Using Cross-lingual Transfer Learning

CỬ NHÂN NGANH KHOA HỌC MAY TÍNH

TP HÒ CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

PHAN THỊ KIM KHOA - 18520934

KHÓA LUẬN TÓT NGHIỆP

PHAN TÍCH CAM XÚC THEO KHÍA CẠNH SỬ DỤNG PHƯƠNG PHAP HỌC CHUYEN TIẾP ĐA NGÔN NGỮ

CHO DỮ LIỆU LĨNH VỰC NHÀ HÀNG

Aspect Based Sentiment Analysis for the Restaurant Domain

Using Cross-lingual Transfer Learning

CU NHÂN NGANH KHOA HOC MAY TÍNH

GIANG VIEN HUONG DAN

TS NGUYEN LUU THUY NGAN

ThS DANG VAN THIN

TP HO CHi MINH, 2021

Trang 3

DANH SÁCH HỘI DONG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 36/QD-DHCNTT

ngày 17/01/2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 TS Lương Ngọc Hoàng — Chủ tịch.

2 ThS Nguyễn Bích Vân - Thư ký.

3 ThS Nguyễn Trọng Chỉnh - Ủy viên.

Trang 4

LOI CAM ON

Đầu tiên, tôi xin chân thành cảm on cô Nguyễn Lưu Thùy Ngân vì sự tận tình

hướng dẫn, định hướng cùng những phản biện nhằm giúp tôi đạt được kết quả

tốt nhất cho khóa luận Đồng thời, tôi cũng xin gửi lời cảm ơn ThS Đặng Văn

Thìn (nghiên cứu viên của The UIT Natural Language Processing Group) đã luôn

bên cạnh hỗ trợ, cho tôi những lời khuyên trong quá trình tôi thực hiện luận văn.

Cô và Thầy đã hướng dẫn tôi tận tình, bổ sung cho tôi những kiến thức, kỹ năng

quan trọng để thực hiện các nghiên cứu trong dé tài này.

Tôi cũng xin gửi lời cảm ơn đến các thay, cô, anh chị, các ban trong Phòng thí nghiệm Truyền thông Đa phương tiện, Trường Đại học Công nghệ thông tin đã

nhiệt tình hỗ trợ và góp ý cho tôi trong quá trình làm khóa luận.

Bên cạnh đó, tôi xin gửi lời cảm ơn Trường Đại học Công nghệ Thông tin,

ĐHQG TP Hồ Chí Minh, nơi không những mang lại cho tôi những kiến thức quan trọng, mà còn cho tôi được có cơ hội gặp và học hỏi những người Thay siêu tuyệt vời, cùng những người bạn cực “xin” đã luôn bên cạnh tôi trong suốt những

năm đại học.

Và điều quan trọng nhất, tôi muốn cảm ơn gia đình tôi: ba Hương, mẹ Lệ, chị

Hẳng, anh Tài, anh Anh, và em Tiến đã luôn ở bên tôi, cho tôi sức mạnh, và là

điểm tựa vững chắc cũng như động lực để tôi vượt qua mọi khó khăn về tinh than lẫn thể chất trong thời gian qua Đặc biệt, tôi muốn gửi đến bà của tôi, người vừa đến một nơi thật xa rằng: “Con làm được rồi nè Ngoại phải thật hạnh phúc

ở thé giới đó nhé.”

Cuối cùng, trong quá trình thực hiện khóa luận, tôi có thể có những thiếu sót

và hạn chế Tôi kính mong nhận được sự phản hồi và góp ý quý báu đến từ quý

Thay, Cô Một lần nữa, tôi xin chân thành cảm ơn!

Bình Định, tháng 12, năm 2021

Sinh viên Phan Thị Kim Khoa

Trang 5

DANH MỤC TU VIET TAT

ITOM TAT KHOA LUAN

4 MỞ ĐẦU)

ii Tổng tan] Xm” / @đ

12 Tháchthức|

[L3 Mục tiêu của nghiên cứu|

1.4 Đối tượng và phạm vi nghiên cứu|

1.41 Phạm vinghiên cứu|

{1.4.2 Đối tượng nghiên cứu|

1.4.3 Kết quả của nghiên cứu|

1.5 Cấu trúc khóa luận|

2 BOI CẢNH VÀ CÁC CÔNG TRÌNH LIÊN QUAN|

2.1 Tổng quan vẻ bài toán Phân tích cảm xúc theo khía cạnh|

2.2 Thương pháp Học chuyển tiếp đa ngôn ngữ|

[2.3 Mô hình học sẵn đa ngôn ngữ]

(2.3.1 Multilingual BERT (mBERT)

Trang 6

NBO] eee 17

2.5 Phát biểu bài toán| 18

PH PHAP| 20

3.1 Kiến trúc mô hình bài toán ACD| - 20

B2 Mô hình Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học

săn đa ngôn ngữ| eee 21

3.2.1 Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning| 21

E.22 Hướng tiếp cận Cross-lingual Transfer Learning with

addi-tional Target Language Datal 22

3.2.3 Hướng tiếp cận Few-shot Cross-lingual Transfer Learning| 23

4 TONG QUAN DU LIỆU 25

[4.1 Bộ dữ liệu chuẩn SemEval2016} 25

Bộ dữ liệu về Nha Hàng trên tiếng Anh| 29

[4.1.2 Bộ dự liệu về Nhà Hàng trên tiếng Pháp| 30

Bộ dữ liệu về Nhà Hàng trên tiếng Hà lan| 30

Bộ dữ liệu vé Nhà Hàng trên tiếng Thổ Nhĩ Kỳ| 31

[1.5 Bộ dữ liệu về Nhà Hàng trên tiếng Tây Ban Nha| 33

Bộ dữ liệu về Nhà Hàng trên tiếng Ngal 33

[4.2 Dữ liệu từ kỹ thuật lấy mẫu dữ liệu| 34

5 THÍ NGHIEM VA KET QUA 38

5.1 Các thông số cài đặt thí nghiệm| 38

5.2 Các thí nghiệm và kết quả ¬ MHẶRAAÁÁ 39

(5.2.1 Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning| 39

5.2.1.1 Tinh chỉnh mô hình trên 1 ngôn ngữ nguồn| 39

5.2.1.2 Tỉnh chỉnh mô hình trên nhiều ngôn ngữ nguồn

Hướng tiếp cận Cross-lingual Transfer Learning with

addi-tional Target Language Data) 43

5.2.3 Hướng tiếp cận Few-shot Cross-lingual Transfer Learning] 45

Các yêu tô quan trọng khi chon ngôn ngữ nguôn thích hợp| 49

Trang 7

6 KẾT LUẬN VÀ HUONG PHAT TRIEN 53

B KET QUA THUC NGHIEM 68

C CONG BO KHOA HOC 82

Trang 8

Vili

Trang 9

5.1 Kết quả của hướng tiếp cận Zero-shot Cross-lingual từ 1 ngôn ngữ

————_— 39

5.2 Biểu đồ so sánh giữa kết qua don ngữ, kết quả khi tinh chỉnh trên

1 và kết quả khi tinh chỉnh trên nhiều ngôn ngữ nguồn của các mô

others->target là kết quả khi tỉnh chỉnh nhiều ngôn ngữ ngoại trừ

ngôn ngữ dich best->target là kết qua tốt nhất khi tinh chỉnh trên 1

ngôn ngữ nguồn target->target là kết quả đơn ngữ.| 425.3 Heatmap thể hiện xu hướng hiệu suất khi sử dụng Data augmenta-

tion (Sampling) của hướng tiếp cận Cross-lingual Transfer

Learn-ing with additional Target Language Data trên tiếng Thổ Nhĩ Kỳ

5.4 Biểu đồ biểu diễn kết quả của các mô hình theo các hướng tiếp cận

khác nhau trên tiếng Thổ Nhĩ Kỳ (a)(c)(e) Kết quả trên mô hình

KP / 46

tion (Sampling) của hướng tiếp cận Fewshot Cross-lingual Transfer

Learning trên tiếng Thổ Nhĩ Kỳ| 47

Trang 10

DANH SÁCH BANG

4.3 Thống kê số lượng nhãn trong mỗi tập dữ liệu thực nghiệm sử

dụng cho các hướng tiếp cận Few-shot Cross-lingual, Cross-lingual

Transfer Learning with additional Target Language Data của mô

hình mBERLl 36

4.4 Thống kê sô lượng nhãn trong mỗi tập dữ liệu thực nghiệm sử

dụng cho các hướng tiếp cận Few-shot Cross-lingual, Cross-lingual

Transfer Learning with additional Target Language Data của mô

hình XLM-R.] 37

5.1 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình

mBERT khi tinh chỉnh trên 1 ngôn ngữ nguồn.| 405.2 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình

Trang 11

tốt nhất ở 2 hướng tiếp cận Few-shot Cross-lingual, Cross-lingual

Transfer Learning with additional Target Language Data.| 51

A.1 Phân bố chỉ tiết nhãn với ky thuật lay mẫu ngẫu nhiên

A.2 Phân bồ chỉ tiết nhãn với kỹ thuật lay mẫu dài nhất dựa trên số

lượng token được tách tu Bert Tokenizer} 61

A.3 Phân bố chỉ tiết nhãn với kỹ thuật lây mẫu ngắn nhất dựa trên số

lượng token được tách từ Bertlokenizer| 63

AA Phân bồ chỉ tiết nhãn với kỹ thuật lay mẫu dài nhất dựa trên số

lượng token được tach từ XLMRobertalokenizer| 65

A.5 Phân bồ chi tiết nhãn với kỹ thuật lây mẫu ngắn nhất dựa trên số

lượng token được tach từ XLMRoberta lokenlzer.| 67

B.1 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình

mBERT khi tính chỉnh trên 1 ngôn ngữ nguồn ¬ ee 68B.2_ Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình

XLM-R khi tinh chỉnh trên 1 ngôn ngữ nguồn|_ 68

B.3 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình

mBERT khi tinh chỉnh trên nhiều ngôn ngữ nguồn| 69B.4_ Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình

XLM-R khi tinh chỉnh trên nhiều ngôn ngữ nguồn

B.5 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with

additional Target Language Data của mô hình mBERT khi tỉnh

chỉnh trên bộ di liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K

mau dữ liệu lây ngẫu nhiên

B.6 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with

additional Target Language Data của mô hình mBERT khi tinh

chỉnh trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K

mẫu dữ liệu dài nhất| Z1B.7 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with

additional Target Language Data của mô hình mBERT khi tinh

mẫu dữ liệu ngắn nhất| 72

Trang 12

B.8 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with

additional Target Language Data của mô hình XLM-R khi tinh chính

trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K mẫu

dữ liệu lay ngẫu nhiên.| - 73B.9_ Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with

additional Target Language Data của mô hình XLM-R khi tinh chính

trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K mẫu

B.10 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with

additional Target Language Data của mô hình XLM-R khi tỉnh chỉnh

trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K mẫu

dữ liệu ngắn nhất| Qua 75B.11 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer Learn-

ing của mô hình mBERT với K mâu dữ liệu ngau nhiên

B.12 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer

Learn-ing của mô hình mBERT với K mẫu dữ liệu dài nhấtB.13 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer Learn-

ing của mô hình mBERT với K mẫu dữ liệu ngắn nhất

B.14 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer

Learn-ing của mô hình XLM-R với K mẫu dữ liệu lây ngẫu nhiênB.15 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer Learn-

ing của mô hình XLM-R với K mẫu dữ liệu dài nhất

ing của mô hình XLM-R với K mẫu dữ liệu ngắn nhất

Trang 13

DANH MỤC TỪ VIET TAT

SA NLP ABSA ACD SemEval CNN

MLM

NSP

MMTs

QA POS NER NLI SVM

Convolution Neural Network

Masked Language Modeling Next Sentence Prediction

Massively Multilingual Transformers

Question Answering Part Of Speech

Named Entity Recognition Natural Language Inference Support Vector Machine

xili

Trang 14

TÓM TẮT KHOÁ LUẬN

Bài toán Phân tích cảm xúc với đầu vào 1a dit liệu văn bản, đầu ra là một trongcác cảm xúc: tích cực, trung tính, và tiêu cực là một trong những bài toán nổi bậtthuộc lĩnh vực Xử lý ngôn ngữ tự nhiên Bài toán không chỉ nhận được nhiềuquan tâm từ cộng đồng các nhà nghiên cứu mà còn được ứng dụng rộng rãi bởicác doanh nghiệp, cơ quan, tổ chức

Tuy nhiên, hiện nay, với sự phát triển của khoa học, công nghệ, đồng thời xuấtphát từ nhu cầu thực tế, các hệ thống phân tích cảm xúc ngày càng tốt hơn, trọngtâm nghiên cứu ngày càng được tập trung cải thiện ở các mức độ chỉ tiết hơn,điển hình là Phân tích cảm xúc trên cấp độ khía cạnh (Aspect Based SentimentAnalysis - ABSA) Trong đề tài này, chúng tôi tập trung nghiên cứu trên một trong

ba bài toán con của bài toán Phân tích cảm xúc theo khía cạnh: Phát hiện danh mục khía cạnh (Aspect Category Detection - ACD).

Khóa luận tốt nghiệp nay là quá trình tim hiểu và cài đặt các mô hình họcsẵn đa ngôn ngữ (Pre-trained multilingual language model) phổ biến hiện nay(mBERT và XLM-R) cho bài toán Phát hiện danh mục khía cạnh trên miền dữliệu lĩnh vực Nhà hàng Đồng thời, chúng tôi cũng tiến hành nghiên cứu và thựcnghiệm nhiều hướng tiếp cận khác nhau của phương pháp Học chuyển tiếp đa

ngôn ngữ (Cross-lingual Transfer Learning) dựa trên các mô hình hoc sẵn đa

ngôn ngữ để có thé vận dụng hiệu quả khi giải quyết van dé ngôn ngữ ít tài

nguyên cho bài toán Phân tích cảm xúc theo khía cạnh nói riêng và các bài toán

khác thuộc lĩnh vực Xử lý ngôn ngữ tự nhiên nói chung Thực tế, mặc dù cáchướng tiếp cận của Học chuyển tiếp đa ngôn ngữ hiện nay nhận được nhiều sự

quan tâm, nhưng vẫn chưa có nhiều nghiên cứu trên bài toán Phân tích cảm xúc

theo khía cạnh, đặc biệt là bài toán con Phát hiện danh mục khía cạnh.

Vì vậy, chúng tôi đã dé xuất thực nghiệm các hướng tiếp cận cho phương

pháp Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học sẵn đa ngôn ngữ:

Zero-shot Cross-lingual Transfer Learning, Cross-lingual Transfer Learning with

additional Target Language Data và Few-shot Cross-lingual Transfer Learning

cho bài toán Phát hiện danh mục khía cạnh trên các bộ dw liệu lĩnh vực Nhà hàng với các ngôn ngữ khác nhau.

Trang 15

Đặc biệt, trong xuyên suốt quá trình hoàn thành đề tài, chúng tôi đã tiến hành

cài đặt và thực nghiệm một cách hệ thống nhằm phân tích, đánh giá, và so sánhcác kết quả dựa trên cơ sở các câu hỏi nghiên cứu Các thí nghiệm của chúng tôi

trên 6 ngôn ngữ đạt được những kết quả sau:

Chúng tôi thành công tinh chỉnh các mô hình đa ngôn ngữ (mBERT và

XLM-R) với dữ liệu đã gán nhãn của một hoặc nhiều ngôn ngữ nguồn cho bài toán

ACD và thực hiện dự đoán tốt trên ngôn ngữ đích mà không cần sử dụngbất kỳ mẫu dữ liệu nào từ ngôn ngữ đích

Đồng thời, chúng tôi cũng chứng minh hiệu quả đáng ngạc nhiên khi cómột lượng nhỏ đữ liệu ngôn ngữ đích thông qua hai hướng tiếp cận: Cross-

lingual Transfer Learning with additional Target Language Data và

Few-shot Cross-lingual Transfer Learning.

Hon thé, dựa trên các thí nghiệm, chúng tôi phân tích được hạn chế cũngnhư thành công tìm ra hướng giải quyết phù hợp và tốt nhất trong cáchướng đã thực nghiệm khi sử dụng phương pháp Học chuyển tiếp cho một

ngôn ngữ ít tài nguyên, khác họ ngôn ngữ với các ngôn ngữ còn lại.

Bên cạnh đó, chúng tôi cũng dé xuất một số yêu tố cần lưu ý trong việc chọnngôn ngữ nguồn khi sử dụng phương pháp Học chuyển tiếp đa ngôn ngữtrong lĩnh vực Xử lý ngôn ngữ tự nhiên, cụ thể, trong đề tài này là bài toánPhát hiện danh mục khía cạnh, thay vì chỉ sử dụng tiếng Anh như hầu hết

các nghiên cứu từ trước đến nay

Cuối cùng, các kết quả thí nghiệm cho thấy việc sử dụng mô hình XLM-R

đạt được kết quả tốt hơn khi sử dụng mô hình mBERT trong hầu hết các

hướng tiếp cận của Học chuyển tiếp đa ngôn ngữ

Bên cạnh đó, trong thời gian hoàn thành dé tài nghiên cứu, nhờ những tìm

hiểu về các mô hình học sẵn đa ngôn ngữ, tôi đã tham gia giải bài toán

“Viet-namese and English-Viet“Viet-namese Textual Entailment” tại Hội thảo VLSP 2021 về

Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP - Vietnamese Language and SpeechProcessing) cùng đội của mình và đạt được kết quả là đội có kết qua đứng thứ 2

với F1 = 0.89.

Trang 16

Inter-về sản phẩm cũng như các loại hình dịch vụ của các doanh nghiệp, tổ chức Điềunày tạo điều kiện thỏa mãn nhu cầu tham khảo phản hồi, đánh giá của khách

hàng mới khi đưa ra các quyết định vẻ dịch vụ, sản phẩm của các doanh nghiệp,

tổ chức ấy

Bên cạnh đó, các ý kiến, nhận xét, đánh giá này không chỉ ảnh hưởng đến

quyết định của khách hàng mới, mà còn là nguồn tài nguyên quý giá để các doanhnghiệp, tổ chức có thể tận dụng phân tích, cải thiện sản phẩm, dịch vụ của mình

và đem đến trải nghiệm tốt nhất cho khách hàng

Tuy nhiên, với lượng thông tin phản hồi khổng lồ từ khách hàng như hiện tại,

khách hàng mới cũng như các doanh nghiệp, tổ chức khó có thể tận dụng được

hết Thế nên, để giải quyết vấn dé này, các doanh nghiệp, tổ chức và khách hangcần một hệ thống có thể phân tích tự động các phản hồi và trả về kết quả đơn giản,

toàn điện nhất để khách hàng mới cũng như các công ty, doanh nghiệp có thể dựa

vào đó tham khảo và đưa ra quyết định Vì vậy, bài toán Phân tích cảm xúc khôngnhững nhận được nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực Xử

lý ngôn ngữ tự nhiên mà còn được chú ý bởi các công ty, doanh nghiệp, tổ chức.

Hiện nay, với sự phát triển của khoa học, công nghệ, đồng thời xuất phát từnhu cầu thực tế, các hệ thống phân tích cảm xúc ngày càng tốt hơn, trọng tâm

nghiên cứu ngày càng được tập trung cải thiện ở các mức độ chỉ tiết hơn, điển

Trang 17

Chương 1 MỞ ĐẦU 2

hình là bài toán Phân tích cảm xúc trên cấp độ khía cạnh (Aspect Based Sentiment

Analysis - ABSA).

Đặc biệt, bài toán Phân tích cảm xúc theo khía cạnh được phát huy tối đa trong

lĩnh vực nhà hàng, khách hàng rất quan tâm cụ thể đến từng khía cạnh của bìnhluận để đưa ra quyết định lựa chọn như chất lượng thức ăn, nước uống, dịch vụ,không gian, giá cả, v.v chứ không đơn thuần chi quan tâm tổng quan nhà hang

tốt hay tệ Bằng việc phân tích chỉ tiết trạng thái của các khía cạnh, khách hàng có

thể khai thác được nhiều thông tin từ đánh giá của người dùng trước

Vì vậy, là một trong những bài toán con quan trọng, Phát hiện danh mục khía

cạnh - bài toán chính trong đề tài này được phát biểu như sau:

e Đầu vào: Câu bình luận của khách hàng vẻ lĩnh vực Nha hàng

e Đầu ra: Danh mục khía cạnh cho trước có dé cập trong câu bình luận của

khách hàng.

12 Thách thức

Ngày nay, hầu hết các nghiên cứu trong lĩnh vực Xử lý Ngôn ngữ Tự nhiênđều liên quan đến việc xử lý các ngôn ngữ giàu nguồn tài nguyên, đặc biệt làtiếng Anh, song song đó, hàng nghìn ngôn ngữ khác được sử dụng trên thế giới

lại bị bỏ qua [1] Hầu như chỉ có các ngôn ngữ giàu tài nguyên mới đáp ứng đủ để

phát triển các hệ thống học sâu yêu cầu nhiều dữ liệu Vì vậy, đối với sự thiếu hut

đữ liệu quy mô lớn của các ngôn ngữ ít tài nguyên lại trở thành vấn dé khó khăncho các nhà nghiên cứu trong việc huấn luyện cũng như cải tiến các hệ thống học

sâu, góp phần tăng hiệu xuất cho các hệ thống NLP

Nhận thay van dé trên là một trong những vấn dé lớn khi nghiên cứu các bài

toán thuộc lĩnh vực Xử lý ngôn ngữ tự nhiên, các nhà nghiên cứu đã cố gắng tìmcách giải quyết bang các phương pháp như: Data Augmentation, Distant supervi-

sion, Transfer Learning, LM domain adaptation, Multilingual LMs, v.v Các nha

nghiên cứu trong công trình [2] đã thực hiện khảo sát chỉ tiết các phương pháp

gần đây khi xử lý vấn đề ít tài nguyên trong Xử lý ngôn ngữ tự nhiên

Bên cạnh đó, dựa trên khảo sát về các cuộc thi hay công trình nghiên cứu gần

đây liên quan đến giải quyết bài toán Phân tích cảm xúc dựa trên khía cạnh

Trang 18

[3]-Chương 1 MỞ ĐẦU 3

[6], vần đẻ thiếu hụt đữ liệu của các ngôn ngữ ít tài nguyên vẫn luôn là một trong

những vẫn đề cần quan tâm Cùng với đó, các mô hình học sẵn đa ngôn ngữ xuấthiện những năm gần đây như mBERT [7] hay XLM-R [8| nhận được nhiều sự chú

ý vì hiệu quả cũng như những đóng góp to lớn của nó khi giải quyết các bài toán

trong lĩnh vực Xử lý ngôn ngữ tự nhiên trên ngôn ngữ ít tài nguyên Tuy nhiên,

hiện nay vẫn chưa có nhiều nghiên cứu chỉ ra mô hình nào tốt hơn hay thích hợp

hơn khi xử lý bài toán nhóm quan tâm là Phân tích cảm xúc theo khía cạnh hay

cụ thể hơn là bài toán Phát hiện danh mục khía cạnh trên ngôn ngữ ít tài nguyên.

1.3 Mục tiêu của nghiên cứu

Trong nghiên cứu này, chúng tôi tiến hành tìm hiểu, nghiên cứu và thựcnghiệm trên các bộ dữ liệu lĩnh vực Nhà hàng gồm 6 ngôn ngữ: tiếng Anh, tiếngPháp, tiếng Hà Lan, tiếng Thổ Nhĩ Kỳ, tiếng Tây Ban Nha, tiếng Nga cho bài toánACD để trả lời cho những câu hỏi nghiên cứu quan trọng sau:

© (RQ1) Khả năng thực hiện bài toán ACD của các mô hình học sẵn da ngôn nsữ đối

uới ngôn ngữ đích chưa từng học qua là như thé nào?

© (RQ2) Liệu viéc tinh chỉnh các mô hình học san da ngén ngữ trên nhiều ngôn nsữ

nguồn có tốt hơn trong hướng tiếp cận Zero-shot Cross-lingual đối uới bài toán

ACD không?

* (RQ3) Nhitng cải thiện nào có thể mong đợi khi giải quyét bài toán ACD cho các

ngôn ngữ đích có sẵn một lượng nhỏ các mẫu dit liệu huấn luyện?

© (RQ4) Hướng tiếp cận nào trong các hướng tiếp cận đã thực nghiệm tốt nhất khi

giải quyết bài toán ACD trên ngôn ngữ it tai nguyên?

© (RQ5) Các yéu tô nào có thể anh hưởng đến viéc lựa chon ngôn ngữ nguồn khi sử

dung phương pháp Học chuyén tiếp da ngôn nữ cho bài toán ACD?

* (RQ6) Mô hình da ngôn ngữ nào trong các mô hình (mBERT va XLM-R) tốt hon

khi Học chuyển tiếp da ngôn ngit trong bài toán ACD?

Trang 19

Chương 1 MỞ ĐẦU 4

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Phạm vi nghiên cứu

Phạm vi nghiên cứu trong dé tai này là những bình luận của người dùng

vẻ lĩnh vực Nhà hàng thuộc các bộ dữ liệu chuẩn được công bồ tại Hội nghị

SemEval2016 task 5 (3) Đối với nguyên cứu nay, chúng tôi thực hiện trên bài toán

con là Phát hiện danh mục khía cạnh (Aspect category detection - ACD)

1.4.2 Đối tượng nghiên cứu

Đầu tiên, một trong những đối tượng quan trọng trong nghiên cứu này là cácbình luận, đánh giá về lĩnh vực Nhà hàng Các bình luận/đánh giá này đượcviết bằng nhiều ngôn ngữ khác nhau: tiếng Anh, tiếng Pháp, tiếng Hà Lan, tiếngThổ Nhĩ Kỳ, tiếng Tây Ban Nha và tiếng Nga Điểm chung của các ngôn ngữ:tiếng Anh, tiếng Pháp, tiếng Hà Lan, tiếng Tây Ban Nha, tiếng Nga là cùng thuộc

ho Indo-European l9 ; Và Tiếng Thổ nhĩ Kỳ thuộc họ Altaic, cụ thể nằm ở nhánh

Western Oguz [10]

Đối với đối tượng nghiên cứu thứ hai, chúng tôi tap trung tìm hiểu và cài đặt

hai mô hình học sẵn đa ngôn ngữ (mBERT [7| và XLM-R (sl) cho bai toán Phat

hién danh muc khia canh.

Cuối cùng, đối tượng nghiên cứu còn lại chính là các hướng tiếp cận của

phương pháp Học chuyển tiếp đa ngôn ngữ (Cross-lingual Transfer Learning)

Ở đề tài này, chúng tôi nghiên cứu và thực nghiệm 3 hướng tiếp cận khác nhau:

Zero-shot Cross-lingual Transfer Learning, Cross-lingual Transfer Learning with

additional Target Language Data và Few-shot Cross-lingual Transfer Learning.

Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning được sử dụng khi môhình không được học bat kỳ mau dt liệu nào của ngôn ngữ đích Cùng với đó, haihướng tiếp cận: Cross-lingual Transfer Learning with additional Target Language

Data và Few-shot Cross-lingual Transfer Learning được thực hiện khi ngôn ngữ

đích có một lượng mẫu dữ liệu nhất định đã gan nhãn

Trang 20

Chương 1 MỞ ĐẦU 5

1.4.3 Kết quả của nghiên cứu

Sau khi tìm hiểu và nghiên cứu, chúng tôi đã cài đặt thành công hai mô hình

học sẵn đa ngôn ngữ mBERT và XLM-R trên các bộ dữ liệu chuẩn SemEval2016

task 5, gồm 6 ngôn ngữ khác nhau (tiếng Anh, tiếng Pháp, tiếng Hà Lan, tiếngThổ Nhĩ Kỳ, tiếng Tây Ban Nha, tiếng Nga) thuộc miễn di liệu lĩnh vực Nha hang

cho bài toán ACD.

Bên cạnh đó, nghiên cứu của chúng tôi đã có thể cung cấp câu trả lời cho cáccâu hỏi dé ra 6 phần Mục tiêu nghiên cứu:

© (RQ1) Khả năng thực hiện bài toán ACD của các mô hình học sẵn da ngôn nsữ đối

uới ngôn nsữ đích chưa từng học qua là như thé nào?

Để trả lời câu hỏi này, chúng tôi đã cài đặt thí nghiệm trên hướng tiếp cậnZero-shot Cross-lingual Transfer Learning và mô hình XLM-R đã cho kếtquả rất ân tượng, có thể cạnh tranh với nhiều mô hình đơn ngữ hiện có, cụthể tất cả các kết quả đều cao hơn các kết quả chiến thắng cuộc thi công bố

bộ dix liệu [3] Đặc biệt, mô hình cho kết quả khi học chuyển tiếp từ tiếng

Pháp sang tiếng Hà Lan cao hơn 13.947% so với mô hình đơn ngữ trên tiếng

Hà Lan chiến thắng cuộc thi Bên cạnh đó, mặc dù, mô hình mBERT không

có hiệu quả tốt bằng XLM-R nhưng kết quả cũng tương đối khả quan, cụ

thể kết quả cao nhất khi Học chuyển tiếp của mô hình trên tiếng Pháp là

61.08% sử dụng ngôn ngữ nguồn là tiếng Anh, chỉ thấp hơn 0,127% so với

mô hình đơn ngữ trên tiếng Pháp đạt kết quả cao nhất trong cuộc thi Vì

vậy, khả năng thực hiện bài toán ACD của các mô hình học sẵn đa ngôn ngữđối với ngôn ngữ đích rất đáng mong đợi

© (RQ2) Liệu viéc tinh chỉnh các mô hình học san da ngôn ngữ trên nhiều ngôn nsữ

nguồn có tốt hơn trong hướng tiếp cận Zero-shot Cross-lingual đối uới bài toán

ACD không?

Kết quả thí nghiệm cho thấy việc tinh chỉnh các mô hình mBERT và XLM-Rtrên nhiều ngôn ngữ nguồn trong hướng tiếp cận Zero-shot Cross-lingualhầu hết đều tốt hơn khi chi tinh chỉnh trên một ngôn ngữ nguồn Cụ thể,

ở mô hình XLM-R, kết quả trên các ngôn ngữ tuy không tăng quá nhiềunhưng đều tăng từ 0.69%-4.32% Với mô hình mBERT, hiệu suất của mô

Trang 21

Chương 1 MỞ ĐẦU 6

hình tăng từ 0.77%-7.85%, ngoại trừ tiếng Thổ Nhĩ Kỳ giảm 5.9% vì bị hiện

tượng “Curse of Multilingual”.

* (RQ3) Những cải thiện nào có thể mong đợi khi giải quyét bài toán ACD cho các

ngôn nữ đích có sẵn một lượng nhỏ các mẫu dit liệu huấn luyện?

Ở câu hỏi này, chúng tôi cài đặt thí nghiệm theo 2 hướng và đạt được những

thành quả sau:

- Đối với hướng tiếp cận Cross-lingual Transfer Learning with

addi-tional Target Language Data: Hướng tiếp cận này đạt được hiệu suất

thực sự tốt, chứng minh được chỉ cần một ít dữ liệu của ngôn ngữ đích,

mô hình Học chuyển tiếp đa ngôn ngữ có thể cho kết quả cạnh tranh

Cu thể, khi so sánh với hướng tiếp cận Zero-shot Cross-lingual, mBERT

nổi bật ở một số ngôn ngữ: tiếng Anh, tiếng Hà Lan, tiếng Nga, chỉ cầnkết hợp từ 10 mẫu dữ liệu ngôn ngữ đích, mô hình có thể cho kết quả

có thể so sánh hoặc vượt qua mBERT khi zero-shot Tương tự, mô hìnhXLM-R nổi bật ở các ngôn ngữ còn lại, bao gồm: tiếng Pháp, tiếng TâyBan Nha, tiếng Thổ nhĩ Kỳ, có thể cho kết quả tốt hơn kết quả hướng

tiếp cận Zero-shot Cross-lingual khi chỉ kết hợp ngôn ngữ nguồn với

10 mẫu dữ liệu ngôn ngữ đích Tuy nhiên, ở hướng tiếp cận này, ngôn

ngữ ít tài nguyên, khác họ ngôn ngữ với các ngôn ngữ còn lại, là tiếngThổ Nhĩ Ky lại tiếp tục bị hiện tượng đột ngột giảm hiệu suất khi môhình tinh chỉnh kết hợp dữ liệu ngôn ngữ nguồn và 500 mẫu dữ liệu

ngôn ngữ đích trở lên.

- Đối với hướng tiếp cận Few-shot Cross-lingual Transfer Learning: Kết

quả thí nghiệm đem lại những kết quả sau:

+ Đối với ngôn ngữ đích cùng họ ngôn ngữ với các ngôn ngữ nguồn:

Hướng tiếp cận Few-shot Cross-lingual Transfer Learning hầu nhưkhông tốt bằng hướng tiếp cận Cross-lingual Transfer Learning

with additional Target Language Data.

x Đối với ngôn ngữ đích khác họ ngôn ngữ với các ngôn ngữ nguồn:

Mặc dù, hướng tiếp cận lúc bắt đầu tinh chỉnh từ 10-100 cho hiệu

suất thấp hơn hướng tiếp cận Cross-lingual Transfer Learning withadditional Target Language Data, nhưng hiệu suất mô hình lại

Trang 22

Chương 1 MỞ ĐẦU 7

tăng rất ổn định, đặc biệt khi few-shot từ 500 mẫu dữ liệu tiếngThổ Nhĩ Kỳ, mô hình còn có thể tốt hơn mô hình đơn ngữ tinhchỉnh trên 1000 mẫu dữ liệu tiếng Thổ Nhĩ Kỳ, cụ thể từ 0%-7.49%

khi sử dụng mô hình mBERT, và từ 0.96%-6.36% khi sử dung mô

hình XLM-R.

x Bên cạnh đó, khi so sánh với các mô hình của hướng tiếp cận

Zero-shot Cross-lingual, hướng tiếp cận này cũng tốt hơn trên tất cả các

ngôn ngữ Điều này lần nữa chứng minh chỉ cần một vài mẫu dữliệu ngôn ngữ đích, mô hình phương pháp Học chuyển tiếp vẫn cóthể cải thiện rất nhiều

© (RQ4) Hướng tiếp cận nào trong các hướng tiếp cận đã thực nghiệm tốt nhất khi

giải quyét bài toán ACD trên ngôn ngữ ít tài nguyên?

- Đối với ngôn ngữ đích ít tài nguyên, cùng họ với ngôn ngữ nguồn,

hướng tiếp cận Cross-lingual Transfer Learning with additional TargetLanguage Data đem lại kết quả tốt nhất

- Đối với ngôn ngữ dich ít tài nguyên, khác họ với ngôn ngữ nguồn,

hướng tiếp cận Few-shot Cross-lingual Transfer Learning chứng minh

được hướng nay vừa có thé dem lại hiệu quả tốt vừa có thể giúp giảmhầu hết hiện tượng đột ngột giảm hiệu suất hay bão hòa hiệu suất (hiện

tượng “Curse of Multilingual”).

© (RQ5) Các yéu tô nào có thể anh hưởng đến viéc lựa chon ngôn ngữ nguồn khi sử

dung phương pháp Học chuyển tiếp da ngôn nữ cho bài toán ACD?

Các thí nghiệm và phân tích trên bài toán ACD của nhóm đã chứng minh

được việc sử dụng ngôn ngữ khác tiếng Anh làm ngôn ngữ nguồn tronghọc Chuyển tiếp đa ngôn ngữ là có khả năng, đặc biệt góp phần tránh thiênkiến trên tiếng Anh, tạo điều kiện cho các ngôn ngữ khác cùng được pháttriển Đồng thời, nhóm cũng chỉ ra một sỐ yếu tố cần lưu ý khi chọn ngônngữ nguồn thích hợp để Học chuyển tiếp đa ngôn ngữ trong bài toán ACD

là:

- Mối quan hệ về mặt ngôn ngữ giữa ngôn ngữ nguồn và ngôn ngữ đích

— Kích thước dữ liệu khi tinh chỉnh mô hình của ngôn ngữ nguồn

Trang 23

© (RQ6) Mô hình da ngôn ngữ nào trong các mô hình (mBERT va XLM-R) tốt hơn

khi Học chuyén tiếp da ngôn ngữ trong bài toán ACD?

Sau khi tiền hành nhiều thí nghiệm trên nhiều hướng tiếp cận của phương

pháp Học chuyển tiếp đa ngôn ngữ, kết quả cho thấy mô hình XLM-R cho

kết quả tốt hơn mô hình mBERT trên tất cả các hướng tiếp cận của Họcchuyển tiếp đa ngôn ngữ trong bài toán ACD

Từ một phần những kết quả đạt được trong luận văn này, chúng tôi đã cóđóng góp vào bài báo khoa học gửi đến Hội nghị quốc tế Scopus “The 4th In-

ternational Conference on Multimedia Analysis and Pattern Recognition (MAPR

2021)” mang tén “Exploring Zero-shot Cross-lingual Aspect-based Sentiment ysis using Pre-trained Multilingual Language Models” (Accepted), với các tác gia

Anal-đóng góp gồm Khoa Thi-Kim Phan, Dang Van Thin, Duong Ngoc Hao, Ngan

Luu-Thuy Nguyen.

Đồng thời, trong thời gian hoàn thành đề tai, nhờ những tìm hiểu về các mô

hình học sẵn đa ngôn ngữ, tôi đã tham gia giải bài toán “Vietnamese and

English-Vietnamese Textual Entailment” tại Hội thảo VLSP 2021 về Xử lí ngôn ngữ và

tiếng nói tiếng Việt (VLSP - Vietnamese Language and Speech Processing) cùng

đội của mình gồm Hoang Xuan Vu, Nguyen Van Tai, Khoa Thi-Kim Phan, DangVan Thin, và đạt được kết quả là đội có kết qua đứng thứ 2 với F1 = 0.89

1.5 Cau trúc khóa luận

Khóa luận được chia thành 6 chương, câu trúc được trình bày như sau

° Chương[†} Mở đầu Trình bày ly do chọn nghiên cứu, đối tượng và phạm

vi nghiên cứu, mục tiêu cũng như kết quả đạt được

° Chương |} Bối cảnh và các công trình liên quan Tổng quan, trình bày cơ

sở lý thuyết cũng như các công trình liên quan đến dé tài Sau đó, nêu ra

Trang 24

Chương 1 MỞ ĐẦU 9

những vấn đề còn tồn đọng và hướng giải quyết được đề cập trong nghiên

cứu của chúng tôi.

° Chương j3} Phương pháp Trình bày kiến trúc các mô hình được sử dụng

thực nghiệm trong nghiên cứu.

° Chương |4} Tổng quan dữ liệu Phân tích, tổng quan về các bộ dữ liệu sử

dụng trong nghiên cứu.

° Chuong|5} Thi nghiém va két qua Trinh bay cach cai dat, va phan tich két

qua giữa các thí nghiệm.

e Chương |6} Kết luận và hướng phát triển Tổng kết các kết quả quan trọng

đã đạt được trong nghiên cứu, những hạn chế chưa được giải quyết và

hướng phát triển trong tương lai.

Trang 25

Chương 2

BỒI CẢNH VÀ CÁC CÔNG TRÌNH

LIÊN QUAN

Đề tài nghiên cứu của chúng tôi liên quan đến các lĩnh vực sau:

¢ Phân tích cảm xúc theo khía cạnh: Cu thể ở nghiên cứu này là bài toán con

Phát hiện danh mục khía cạnh trên dữ liệu lĩnh vực Nhà hàng.

* Các hướng tiếp cận của phương pháp Học chuyển tiếp đa ngôn ngữ

* Các mô hình học sẵn đa ngôn ngữ

Trong chương này, chúng tôi tiến hành tổng quan, trình bày cơ sở lý thuyếtcũng như các công trình liên quan đến dé tài Sau đó, nêu ra những van dé còn

ton đọng và hướng giải quyết được dé cập trong nghiên cứu của chúng tôi

2.1 Tổng quan về bài toán Phân tích cảm xúc theo

khía cạnh

Hơn nhiều thập kỷ qua, Phân tích cảm xúc (SA) là một bài toán nổi bật được

đông đảo cộng đồng các nhà nghiên cứu thuộc lĩnh vực NLP cả trong lẫn ngoài

nước quan tâm Nhiệm vụ chính của bài toán là phân tích và đánh giá bình luận/ý

kiến của người dùng thành các loại cảm xúc khác nhau: tích cực, tiêu cực haytrung lập (11, (12)

Bên cạnh đó, không chỉ là một van dé nổi bật nhận được nhiều quan tâm

trong lĩnh vực NLP, bài toán Phân tích cảm xúc còn được ứng dụng rộng rai bởi

Trang 26

Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 11

các doanh nghiệp, cơ quan, tổ chức trong các ngành công nghiệp - dịch vụ như

một công cụ có thể phân tích, nhận biết thái độ của khách hàng về sản phẩm và

dịch vụ mà họ cung cấp một cách tự động

Tuy nhiên, với sự phát triển vượt bật của khoa học, công nghệ, và sự tăng

lên không ngừng của nhu cầu thực tế, bài toán Phân tích cảm xúc thông thường

không còn đáp ứng đủ nhu cầu thực tế nếu bình luận/đánh giá chứa nhiều hơn

một chủ đề hay khía cạnh

«Ví dụ: “Quán này, thức ăn ngon quá, nhưng bạn phục vụ hơi bị trời đất.”

Trong ví dụ trên, câu có 2 loại cảm xúc (tích cực, tiêu cực) tương ứng với 2 loại

khía cạnh (thức ăn, dịch vụ) Vì vậy các hệ thống phân tích cảm xúc cần phải được

tập trung cải thiện ở mức độ chỉ tiết hơn

Để đáp ứng như cầu trên, bài toán Phân tích cảm xúc theo khía cạnh

(Aspect-Based Sentiment Analysis - ABSA) sớm ra đời với khả năng phân tích cảm xúc cụ

thể trên từng khía cạnh có trong bình luận/đánh giá của người dùng [13], (14).

Va cũng nhờ thé, bài toán ABSA đã thu hút nhiều chú ý từ cộng đồng NLP những

năm gan đây (Í15]-[18|)

(Thức ăn quán này[ngon quá|nhưng|bạn phục vụ

Opininon Target: Opininon Target:

HÌNH 2.1: Ví du minh hoa mô ta bài toán ABSA.

Dựa trên định nghĩa của (3), bai toan Phan tich cam xuc theo khia canh Based Sentiment Analysis - ABSA) bao gồm 3 bài toán con:

(Aspect-e Phat hiện danh mục khía cạnh (Asp(Aspect-ect Cat(Aspect-egory D(Aspect-et(Aspect-ection - ACD): Nhận

diện các cặp thực thé E và thuộc tinh A có trong bình luận/đánh giá của

Trang 27

Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 12

người dùng E#A sẽ được chọn từ các danh mục khía cạnh đã cho trước (Ví dụ: SERVICE#GENERAL, FOOD#OUALTTY, v.v).

© Phat hiện khía cạnh (Opinion Target Expression - OTE): Trích xuất những

cụm từ chỉ ra khía cạnh có trong câu (Ví dụ: Food, sushi, service, v.V).

¢ Phân cực cảm xúc (Sentiment Polarity - SP): Với mỗi cặp E#A trong bai

toán ACD, hay Aspect trong bài toán OTE, bài toán này sẽ gan một trong

các nhãn cảm xúc: tích cực, tiêu cực, hoặc trung tính.

Trong đề tài này, chúng tôi thực nghiệm trên một trong những bài toán connổi bật của bài toán ABSA - Phát hiện danh mục khía cạnh (ACD) Với nhiệm vụnhận điện các danh mục khía cạnh cho trước có dé cập trong bình luận / đánh giá,bài toán là một thử thách hap dẫn được tổ chức trong suốt 3 năm liên tục tại Hội

thảo SemEval [3], [14], [19] Điều này đã giúp thu hút được nhiều sự quan tâm

của các nhà nghiên cứu.

Cụ thể, mô hình đạt kết quả cao nhất trong cuộc thi SemEval2014 [14] sử dụngnhiều đặc trưng như character n-grams, n-grams, stemmed n-grams, word cluster

n-grams, noncontiguous n-grams, va lexicon features để huấn luyện một tập

hợp các bộ phân lớp one-vs-all SVM Năm 2015, tại cuộc thi SemEval [19], Toh vacác cộng sự [21] dé xuất ra mô hình đứng nhất trên miễn di liệu Nhà hang trong

số 9 nhóm và 13 mô hình dự thi Mô hình này được cài đặt dựa trên n-gram, phân

tích cú pháp, va word clusters học được từ dtr liệu Yelp.

Đến năm những năm gan đây, khi các mô hình dựa trên mạng học sâu (Deepneural network) được sử dụng rộng rãi, nhóm tác giả đã dé xuất sử dụng

đầu ra của mạng CNN được huấn luyện trên bộ dữ liệu công bồ tại cuộc thi

SemEval2016 lam các đặc trưng cho các bộ phân lớp tuyến tính one-vs-all

cùng với các tính năng khác như n-grams, POS tags và trở thành mô hình đứng

đầu trong số các mô hình dự thi trên ngôn ngữ tiếng Anh

Bên cạnh đó, ngày nay, với sự phát triển của biểu diễn ngôn ngữ trong NLP,

cùng với thách thức của việc tạo ra những bộ dữ liệu lớn vừa tốn tién, vừa tốn

công sức, các mô hình học sẵn (pre-trained model - PTMs) được công bố và chứng

minh là một trong những giải pháp sáng giá cho nhiều bài toán trong lĩnh vực

NLP nói chung và ABSA nói riêng Điển hình như (23]-[26] sử dung BERT để cải

Trang 28

Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 13

thiện hiệu suất bang cách tinh chỉnh BERT cho bài toán ABSA trên dữ liệu tiếng

Anh.

Đồng thời, không chỉ dừng lai ở tiếng Anh, trong nghiên cứu [27], các tác giả

đã đề xuất hướng giải quyết bài toán ABSA trên tiếng Pháp bằng các mô hình học

sẵn (mBERT [7], CamemBERT [28], FlauBERT [29}) Bên cạnh đó, nghiên cứu

đã dé xuất mô hình học sẵn ParsBERT cùng với kỹ thuật câu bổ trợ (NLI-M) để

cải thiện bài toán ABSA trên tập dữ liệu Pars-ABSA của tiếng Ba Tư

Bên cạnh các công trình nghiên cứu trên thế giới, cộng đồng các nhà nghiên

cứu trong nước cũng rất quan tâm đối với bài toán về Phân tích cảm xúc/ý kiến

này Đầu tiên, phải kể đến [31]-một trong những công trình đầu tiên vé Phân tích

cảm xúc trên cấp độ câu văn ở trong nước, nhóm tác giả đã dé xuất một hệ thống

dựa trên luật (rule-based system) sử dụng nền tang GATE l2].

Năm 2011, nhóm nghiên cứu - một trong số ít nghiên cứu về Phân tích

ý kiến theo khía cạnh lúc bấy giờ, đã thực hiện nghiên cứu trên việc Phân tich ýkiến dựa theo khía cạnh có trong các bình luận/ đánh giá về sản phẩm Đặc biệt,nhóm tác giả sử dụng những quy tắc cú pháp (syntactic rules) trong tiếng Việt đểtrích xuất các từ mang khía cạnh có thể rõ ràng hoặc ngụ ý trong câu Bên cạnh

đó, các ý kiến cũng như định hướng của người dùng được quyết định dựa trên

từ điển từ ngữ cảm xúc của tiếng Việt - VietSentiWordNet

Khi các mô hình Deep Learning phát triển, bài toán Phân tích cảm xúc theo

khía cạnh ở trong nước cũng được tiếp cận theo nhiều hướng khác nhau giúp

hiệu quả tăng cao Điển hình như [34] đã sử dụng kiến trúc mang CNN cho bài

toán Phát hiện khía cạnh trên dữ tiệu tiếng Việt Đặc biệt, mô hình dé xuất của

nhóm tác giả đạt kết quả tốt hơn mô hình chiến thắng tại cuộc thi VLSP 2018, cụ

thể mô hình của nhóm tác giả đạt được 80.40% cho miền dữ liệu Nhà hàng va

69,25% cho miền dữ liệu Khách sạn

Gần đây, nhóm tác giả đã thực hiện thí nghiệm trên 2 bộ dữ liệu chuẩntiếng Việt thuộc miền dữ liệu Nhà hàng, Khách sạn trên nhiều mô hình hoc sẵnđơn ngữ (viBErt_FPT [56], vELECTRA FPT [56], viBERT4news, PhoBERT [37])

va mô hình hoc sẵn đa ngôn ngữ (mBERT [38], XLM-R [8], mDistiIBERT [39]) cho

bài toán ACD.

Qua tìm hiểu, các nghiên cứu trên hầu hết giải quyết bài toán ABSA cũng nhưbài toán con ACD trên miền dữ liệu Nhà hàng bằng các phương pháp truyền

Trang 29

Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 14

thống hoặc sử dụng mô hình học sẵn cho một ngôn ngữ cụ thể Tuy nhiên, khôngphải tất cả các ngôn ngữ trên thế giới đều được tiếp cận và có tài nguyên để

nghiên cứu Vì vậy, đây là thách thức lớn trong lĩnh vực NLP nói chung và bài toán ABSA nói riêng.

2.2 Phương pháp Học chuyển tiếp đa ngôn ngữ

Một trong những yếu tố đóng vai trò vô cùng quan trọng trong sự phát triển

đa dạng, phong phú của các bài toán trong lĩnh vực NLP là dữ liệu Tuy nhiên,

hầu hết các kết quả nghiên cứu trên nhiều bài toán trong lĩnh vực NLP, cụ thể

là bài toán Phân tích cảm xúc theo khía cạnh trong những năm gần đây đều đạt

được trên tiếng Anh (23], (24), [40}) và một số ít các ngôn ngữ giàu tài nguyên khác như tiếng A Rap (ví dụ [41)), tiếng Trung Quốc (ví dụ Í42]), v.v mà bỏ qua

hàng nghìn ngôn ngữ khác ít tài nguyên hơn trên thé giới

Vi vậy, một trong những hướng giải pháp nổi bật, nhận được nhiều quan tâm

là phương pháp Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học sẵn đa

Nhu hinh{2.2] Học chuyển tiếp đa ngôn ngữ là quá trình cho phép việc chuyển

tiếp kiến thức học được từ ngôn ngữ giàu tài nguyên (high resource language

-source language) sang ngôn ngữ ít tài nguyên (low re-source language - target

language) với điều kiện trong quá trình chuyển tiếp, dữ liệu của 2 ngôn ngữ phải

cùng một bài toán.

Trang 30

Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 15

Dé có thể Học chuyển tiếp, chúng ta cần phải biểu diễn đữ liệu từ cả ngôn ngữ

nguồn và ngôn ngữ đích về cùng một không gian biểu diễn đa ngôn ngữ lingual representation space), có thể dưới dạng liên tục hoặc rời rạc Những nămgần đây, có rất nhiều công tác nghiên cứu về yếu tố quan trọng này Một số nghiêncứu sử dụng phương pháp dịch dữ liệu ngôn ngữ đích sang ngôn ngữ nguồn

(cross-(hoặc ngược lại) (/44|, [45)) Bên cạnh đó, [46], sử dung các chuỗi giống nhau

giữa các ngôn ngữ dưới dạng từ điển song ngữ (pseudo bilingual dictionary) để

học cách ánh xạ giữa các phép nhúng được huấn luyện ở mô hình đơn ngữ Hay

gần đây, đã cung cấp những định nghĩa cơ bản và thống kê các công trình sử

dụng phép nhúng từ đa ngôn ngữ (Cross-lingual word embeddings) được huấnluyện trên kho ngữ liệu song song lớn cho phép mô hình làm việc trên bất kỳ

ngôn ngữ nào mà chỉ cần chuyển đổi lớp nhúng từ trong khi mô hình không thay

đổi Tuy nhiên, các phương pháp trên yêu cầu tài nguyên và thời gian rất lớn,đồng thời, không thể đáp ứng cho đại đa số các ngôn ngữ

May mắn thay, gần đây, các mô hình học sẵn đa ngôn ngữ như multilingual

BERT (7) và XLM-Roberta (8|) xuất hiện và trở thành giải pháp cứu tinh để giải

quyết nhân tố quan trọng khi Học chuyển tiếp đa ngôn ngữ cho vô số bài toán

NLP nói chung và bài toán Phân tích cảm xúc theo khía cạnh nói riêng.

2.3 Mô hình học sẵn đa ngôn ngữ

Theo nghiên cứu (21, các ngôn ngữ ít tài nguyên có thể tan dung được nguồn

tài nguyên đã được gán nhãn có sẵn từ các ngôn ngữ giàu tài nguyên khác bằng

cách huấn luyện các biểu diễn đa ngôn ngữ bởi các mô hình đa ngôn ngữ như

mBERT [7], XLM-RoBERTa [8] Các mô hình này được huấn luyện bằng cách sử

dụng các kho ngữ liệu đơn ngữ từ nhiều ngôn ngữ khác nhau và có thể sử dụngtrong cài đặt đa ngôn ngữ nhờ có nhiều ngôn ngữ được học qua trong quá trình

học trước.

2.3.1 Multilingual BERT (mBERT)

Là mô hình cải tiến của BERT [38], các tham số của mBERT cũng được huấn

luyện trên 2 tác vụ: Masked language modeling (MLM) và Next sentence tion (NSP).

Trang 31

predic-Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 16

* Đối với MLM, dé mã hóa ngữ cảnh hai chiều khi biểu diễn mỗi token, BERT

ngẫu nhiên che mặt nạ một số token và sử dụng các token lay từ ngữ cảnh

hai chiều để dự đoán các token mặt nạ đó

© Với NSP, mô hình sẽ dự đoán liệu hai câu có nằm kể nhau không để hiểu

hơn về mồi quan hệ giữa hai chuỗi văn bản

Unlabeled Ser ne Pair

Pre-training Fine-Tuning

HINH 2.3: Kiến trúc của mô hình BERT được trình bay trong (38).

Bên cạnh đó, mBERT là mô hình BERT được huấn luyện trên kho ngữ liệu da

ngôn ngữ ghép nồi từ 104 ngôn ngữ với phiên bản Wikipedia lớn nhát[]

Đồng thời, để giảm bớt tình trạng underfitting (đối với ngôn ngữ ít dữ liệu)

và overfitting, các kỹ thuật up-sampling và down-sampling được thực hiện thông

qua trọng số được làm mịn theo phương pháp liên tiến lũy thừa (Exponential

Smoothing).

2.3.2 XLM on RoBERTa (XLM-R)

Sau khi BERT được công bó, một trong số biến thể của BERT - RoBERTa được

giới thiệu bởi [48] RoBERTa là một biến thể mạnh của BERT được huấn luyện

trước trên kho ngữ liệu lớn hơn Biến thể này cho thấy tác vụ NSP có thể lượt bỏnếu các tham số mô hình được huấn luyện với tác vụ MLM trên kho ngữ liệu đủ

lớn.

XLM [49] cũng dựa trên BERT nhưng áp dụng các phương pháp cải tiến cho

việc huấn luyện trước các mô hình đa ngôn ngữ Kể từ đó, có nhiều phiên bản

Thttps:/ /github.com/google-research /bert/blob/master/multilingual.md

Trang 32

Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 17

học trước của XLM; phiên bản lớn nhất được huấn luyện trước trên 100 ngôn ngữlay từ Wikipedia

XLM-R [3] chinh 1a phién ban cai tiến của XLM dựa trên mô hình RoBERTa

XLM-R được huấn luyện với tác vụ MLM đa ngôn ngữ trên dữ liệu của 100 ngôn

ngữ được lay từ Common Crawl (50) Trong đó có 88 ngôn ngữ giống với mBERT thể hiện ở HÌNH|¿.4]

az 2

Gần đây, các nghiên cứu bắt đầu khai thác tiềm năng của MMTs nhiều hon

khi cài đặt cho phương pháp Học chuyển tiếp

Đầu tiên phải kể đến Học chuyển tiếp Zero-shot cross-lingual dua trên môhình MMTs, trong đó, các mô hình học sẵn đa ngôn ngữ sẽ được tinh chỉnh trên

dữ liệu ngôn ngữ nguôn-ngôn ngữ giàu tài nguyên (đa số các nghiên cứu sử

dụng tiếng Anh), sau đó đánh giá trực tiếp trên tập dữ liệu kiểm tra của ngôn

ngữ đích Năm 2019, [51] cho thấy mô hình mBERT tốt không tưởng khi cài đặthướng tiếp cận Zero-shot cross-lingual cho bài toán POS tagging va NER, và chỉ

ra mô hình sẽ tốt hơn giữa các ngôn ngữ có liên quan Sau đó, Karthikeyan vàcác công sự tại nghiên cứu cũng chứng mình rằng mBERT hiểu quả khi Học

chuyển tiếp trên bài toán NER và NLI đối với tiếng Hindi, tiếng Tây ban Nha,

và tiếng Nga Đồng thời, nhóm cũng chỉ ra rằng hiệu quả việc Học chuyển tiếp

không phụ thuộc vào sự trùng lặp từ vựng giữa các ngôn ngữ, tuy nhiên, hiệu

Trang 33

Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 18

suất sẽ ảnh hưởng bởi những ngôn ngữ giàu tài nguyên trên Wikipedia va nhóm

ngôn ngữ Indo-European Đặc biệt, nhóm nghiên cứu vào năm 2020 đã giới

thiệu XTREME, một chuẩn để đánh giá các mô hình đa ngôn ngữ (mBERT (71,

XLM [49], XLM-R [8], MMTE [54]) bao gồm 9 nhiệm vụ và 40 ngôn ngữ.

Bên cạnh sự phổ biến cũng như được công nhận từ mọi người, hướng tiếp

cận Học chuyển tiếp Zero-shot Cross-lingual vẫn còn tồn tại một số nhược điểmcần cân nhắc: phương sai lớn, không ổn định, bị thiên kiến về mặt ngôn ngữ (cụ

thể là tiếng Anh) ((55], [56|) Vì vay, [57] một lần nữa phân tích sâu giới hạn của

Zero-shot Cross-lingual và nhân mạnh sự nổi bật của hướng tiếp cận Few-shot

Cross-lingual Transfer Learning bằng cách thực hiện nhiều thí nghiệm trên nhiều

nhiệm vụ (POS tagging, Phân tích cú pháp phụ thuộc (Dependency parsing),

NER, NLI, QA) Ở hướng tiếp cận Few-shot Cross-lingual Transfer Learning, đầutiên các mô hình đa ngôn ngữ sẽ được tỉnh chỉnh trên ngôn ngữ nguồn, sau đó,tiếp tục tinh chỉnh với một lượng nhỏ di liệu ngôn ngữ đích và đánh giá tập

dữ liệu kiểm tra của ngôn ngữ đích Tiếp nối ý tưởng trên, có nhiều công trìnhnghiên cứu về hướng tiếp cận này trên nhiều bài toán cũng như trên nhiều ngôn

ngữ (54), (58) 62).

2.5 Phát biểu bài toán

Mặc dù các hướng tiếp cận của Học chuyển tiếp đa ngôn ngữ rất được quan

tâm và phát triển, tuy nhiên, có rất ít công trình trên bài toán Phân tích cảm xúc

theo khía cạnh nói chung và bài toán Phát hiện danh mục khía cạnh nói riêng (5Ì,

[63], [64]) Đặc biệt hơn, các công trình chỉ thực hiện với ngôn ngữ nguôn là tiếng

Anh và chưa khai thác nhiều đối với các mô hình học sẵn đa ngôn ngữ

Vì vậy, trong nghiên cứu này, chúng tôi sẽ thực hiện các hướng tiếp cận củaphương pháp Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình đa ngôn ngữ(mBERT và XLM-R) và đặc biệt, chúng tôi thí nghiệm với nhiều ngôn ngữ nguồn

khác nhau thuộc bộ dữ liệu lĩnh vực Nhà hàng cho bài toán Phát hiện danh mục

khía cạnh.

Bên cạnh đó, mục tiêu của bài toán ACD là nhận diện các danh mục khía cạnh

cho trước có đề cập trong bình luận/ đánh giá Như ví dụ ở HÌNH.1| đầu vào là

câu bình luận của người dùng; dau ra là 2 danh mục khía cạnh FOOD#QUALITY

Trang 34

Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 19

và SERVICE#GENERAL Số lượng các danh mục khía cạnh sẽ tùy thuộc vào miền

dữ liệu của bộ dữ liệu Trong dé tài này, chúng tôi sử dụng miễn dix liệu Nha

hàng, bài toán sẽ phải xác định 12 danh mục khía cạnh từ câu bình luận của

khách hàng trên nhiều ngôn ngữ khác nhau bao gồm:

¢ Dau vào: Câu bình luận của khách hàng về lĩnh vực Nha hàng

¢ Đầu ra: Danh mục khía cạnh có sẵn được dé cập trong câu bình luận của

khách hàng.

Ví dụ:

* Dau vào: Thức ăn quán này ngon, nhưng phục vụ tệ quá

e Đầu ra: FOOD#QUALITY, SERVICE#GENERAL

Trang 35

trong nghiên cứu.

3.1 Kiến trúc mô hình bài toán ACD

Labal

Fully Connected (Sigmoid activation)

Pre-trained Multilingual Language Model

Trang 36

Chương 3 PHƯƠNG PHÁP 21

Đầu tiên, kiến trúc của mô hình bài toán Phát hiện danh mục khía cạnh dựa

trên mô hình học sẵn đa ngôn ngữ trong dé tài này được minh họa bởi HÌNHB.1|

Bài toán như đã được phát biểu ở Chương|2| đồng thời, mỗi câu bình luận/phản

hồi có thể có một hoặc nhiều danh mục khía cạnh Vì vậy, chúng tôi giải quyết bàitoán như một bài toán Phân lớp đa nhãn (Multi-label classification) Điều đó có

nghĩa là số lượng node trong lớp đầu ra (output layer) sẽ là số lượng của các danh

mục khía cạnh cho trước (cu thể, đối với dé tài này là 12)

Để giải quyết bài toán, đầu ra sẽ được biểu diễn dưới dang một véc-tơ nhị

phân với mỗi giá trị là 0 hoặc 1, tương ứng với các loại khía cạnh Vì vậy, chúng

tôi sử dụng một hướng tiếp cận đơn giản là cài đặt dựa trên các mô hình học sẵncho bài toán này Sau đó, chúng tôi trích xuất biểu diễn của token [CLS] tronglớp cuối như một biểu diễn đầu vào Biểu diễn này sẽ được đưa vào lớp Fully

Connected với Sigmoid Activation và dự đoán xác suất của các nhãn với giá

trị từ 0-1 Bởi vì xác suất của mỗi giá trị trong véc-tơ đầu ra là độc lập, chúng tôi

đặt một ngưỡng bằng 0.5 để quyết định nhãn Cuối cùng, chúng tôi sử dụng hàm

tính lỗi là Cross-Entropy [66].

3.2 Mô hình Học chuyển tiếp đa ngôn ngữ dựa trên

các mô hình học san đa ngôn ngữ

Trong phần này, chúng tôi sẽ trình bày các hướng tiếp cận của phương pháp

Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học sẵn đa ngôn ngữ mà đề

tài chúng tôi nghiên cứu Đặc biệt, các hướng tiếp cận này được xây dựng một

cách hệ thống dựa trên các câu hỏi nghiên cứu đã đặt ra ở Chương]

3.2.1 Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning

Học chuyển tiếp Zero-shot cross-lingual hướng đến xây dựng một mô hình có

thể đánh giá trực tiếp dữ liệu kiểm tra của ngôn ngữ đích bằng cách sử dụng lại

kiến thức đã được học khi mô hình huấn luyện trên dit liệu ngôn ngữ nguồn

Dựa trên các mô hình học sẵn đa ngôn ngữ, chúng tôi cài đặt hướng tiếp cận

như HÌNH.2].

Trang 37

Source Language Training Data Target Language Testing Data

HINH 3.2: Mô hình cài đặt theo hướng tiếp cận Zero-shot

Cross-lingual Transfer Learning.

Hướng tiếp cận được cài đặt theo 2 bước chính:

¢ Tinh chỉnh các mô hình đa ngôn ngữ mBERT và XLM-R trên ngôn ngữ

nguồn

© Chuyển tiếp và đánh giá trên ngôn ngữ dich

Khác với cách cài đặt của các công trình đi trước, ở nghiên cứu này, chúng tôi

tinh chỉnh mô hình trên nhiều ngôn ngữ nguồn khác nhau thay vì chỉ sử dụng

tiếng Anh

Bên cạnh đó, ở hướng tiếp cận này, chúng tôi phân thành 2 hướng thí nghiệm:

¢ Tinh chỉnh mô hình trên 1 ngôn ngữ nguồn

¢ Tinh chỉnh mô hình trên nhiều ngôn ngữ nguồn kết hợp

3.2.2 Hướng tiếp cận Cross-lingual Transfer Learning with

ad-ditional Target Language DataTuy chúng ta đều mong muốn một mô hình không cần bat cứ dữ liệu ngônngữ đích nào vẫn có thể giải quyết tốt bài toán trên ngôn ngữ đích đó, nhưng nếu

Trang 38

Chương 3 PHƯƠNG PHÁP 23

chỉ cần làm một ít dix liệu mà có thể tăng hiệu quả cao thì phương án này vẫnđáng được xem xét Đây chính là động lực nhóm thực hiện hướng tiếp cận này và

hướng tiếp cận Few-shot Cross-lingual tương tự các công trình BÌ, (571, lỡ!

Ở hướng tiếp cận này, mô hình cài đặt không khác quá nhiều HÌNH

Chúng tôi tinh chỉnh hai mô hình mBERT và XLM-R trên bộ dữ liệu song ngữ

bao gồm 1 ngôn ngữ nguồn và một lượng K mẫu dữ liệu nhất định của ngôn ngữđích, trong đó K={10, 50, 100, 500, 1000} Sau đó, mô hình chuyển tiếp và đánh

giá trên ngôn ngữ đích Bên cạnh đó, chúng tôi cũng thử nghiệm trên 3 phương

pháp lấy mẫu dữ liệu:

® Lấy ngẫu nhiễn K mẫu dữ liệu huấn luyện của ngôn ngữ đích

e Dựa vào số lượng token của mỗi câu trong các bộ dữ liệu, chúng tôi thực

hiện các phương pháp lấy mẫu sau:

- Lấy K mẫu dữ liệu ngắn nhất trong bộ dữ liệu huấn luyện của ngôn

ngữ đích.

- Lay K mẫu dữ liệu dài nhất trong bộ dữ liệu huấn luyện của ngôn ngữ

đích.

3.2.3 Hướng tiếp cận Few-shot Cross-lingual Transfer Learning

Như đã trình bay ở hướng tiếp cận trên, hướng tiếp cận Few-shot

Cross-lingual cũng được hy vọng có thể đạt hiệu quả cao nhằm có thể giúp giảm thiểu

thời gian cũng như công sức khi làm dữ liệu trong lĩnh vực NLP nói chung và bài

toán ACD nói riêng, đặc biệt, có thể cải thiện nhược điểm của hai hướng tiếp cận

Zero-shot Cross-lingual và Cross-lingual Transfer Learning with additional

Tar-get Language Data trên ngôn ngữ it tai nguyên, khác họ ngôn ngữ với các ngôn

ngữ nguồn

Dựa trên cách cài đặt của E71 chúng tôi đầu tiên cũng tỉnh chỉnh hai mô hình

mBERT và XLM-R trên một ngôn ngữ nguồn, sau đó, chúng tôi tiếp tục quá trình

tinh chỉnh mô hình bằng một lượng K mẫu dé liệu nhất định của ngôn ngữ dich,

trong đó K={10, 50, 100, 500, 1000} Cuối cùng, chúng tôi tiến hành để mô hìnhđánh giá trên ngôn ngữ đích Cụ thể cách cài đặt mô hình theo hướng tiếp cận

này được mô tả bởi HÌNH.3]

Trang 39

Pre-trained Multilingual Language Model ——— Pre-trained Multilingual Language Model > Pre-trained Multilingual Language Model

Eas E; m 2 Eos Ey

I a ¬

Source Language Training Data Target Language Training Data Target Language Testing Data

HINH 3.3: Mô hình cai đặt theo hướng tiếp cận Few-shot

Cross-lingual Transfer Learning.

Tương tự hướng tiếp cận Cross-lingual Transfer Learning with additional

Tar-get Language Data, ở hướng tiếp cận này chúng tôi cũng thực nghiệm trên 3phương pháp lay mẫu dữ liệu:

e Lấy ngẫu nhiễn K mẫu dữ liệu huan luyện của ngôn ngữ dich

© Lấy K mẫu dữ liệu ngắn nhất trong bộ dữ liệu huấn luyện của ngôn ngữ

đích.

° Lây K mẫu đữ liệu dài nhất trong bộ dữ liệu huấn luyện của ngôn ngữ đích

Trang 40

Chương 4

TỔNG QUAN DỮ LIỆU

4.1 Bộ dữ liệu chuẩn SemEval2016

Ở nghiên cứu này, chúng tôi sử dụng các bộ dữ liệu chuẩn thuộc lĩnh vực Nhàhàng trên nhiều ngôn ngữ khác nhau được công bố ở cuộc thi về Phân tích cảm

xúc theo khía cạnh tổ chức bởi Hội thảo SemEval 2016 Task 5 [3].

Chúng tôi sử dụng có tat cả 6 bộ dữ liệu thuộc lĩnh vực Nhà hàng trên 6 ngônngữ bao gồm: tiếng Anh (en), tiếng Pháp (fr), tiếng Hà Lan (nl), tiếng Thổ Nhĩ Kỳ

(tr), tiếng Tây Ban Nha (es), tiếng Nga (ru) Dưới đây là BẢNG|4.1|mô tả ký hiệu

của các ngôn ngữ theo chuẩn ISO-639 mà chúng tôi sử dụng xuyên suốt khóa

luận.

Ngôn ngữ Ký hiệu Tiêng Anh en

Tiếng Pháp frTiéng Ha Lan nl

Tiếng Thổ Nhĩ Ky tr

Tiếng Tay BanNha esTiếng Nga ru

BẢNG 4.1: Ký hiệu của các ngôn ngữ trong bộ dữ liệu.

Bên cạnh đó, trước khi bắt đầu thực hiện các nghiên cứu chúng tôi có tìm hiểu

về mối quan hệ giữa các ngôn ngữ được nghiên cứu trong đề tài HÌNH la.1|biểu

diễn mối quan hệ về mặt từ vựng giữa các ngôn ngữ, đồng thời, cũng thể hiện

số lượng người nói các ngôn ngữ được tính tại thời điểm theo nghiên cứu của

K Tyshchenko (1999), Metatheory of Linguistics [69] Ngoại trừ nhóm Finno-Ugricmàu vàng không thuộc họ ngôn ngữ Indo-European, các nhóm còn lại đều thuộc

Ngày đăng: 23/10/2024, 01:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN