Đồng thời, chúng tôi cũng tiến hành nghiên cứu và thựcnghiệm nhiều hướng tiếp cận khác nhau của phương pháp Học chuyển tiếp đa ngôn ngữ Cross-lingual Transfer Learning dựa trên các mô hì
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MAY TÍNH
PHAN THI KIM KHOA
KHOA LUAN TOT NGHIEP
PHAN TÍCH CAM XUC THEO KHÍA CANH SỬ DUNG PHUONG PHAP HOC CHUYEN TIEP DA NGON NGU
CHO DU LIEU LINH VUC NHA HANG
Aspect Based Sentiment Analysis for the Restaurant Domain
Using Cross-lingual Transfer Learning
CỬ NHÂN NGANH KHOA HỌC MAY TÍNH
TP HÒ CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
PHAN THỊ KIM KHOA - 18520934
KHÓA LUẬN TÓT NGHIỆP
PHAN TÍCH CAM XÚC THEO KHÍA CẠNH SỬ DỤNG PHƯƠNG PHAP HỌC CHUYEN TIẾP ĐA NGÔN NGỮ
CHO DỮ LIỆU LĨNH VỰC NHÀ HÀNG
Aspect Based Sentiment Analysis for the Restaurant Domain
Using Cross-lingual Transfer Learning
CU NHÂN NGANH KHOA HOC MAY TÍNH
GIANG VIEN HUONG DAN
TS NGUYEN LUU THUY NGAN
ThS DANG VAN THIN
TP HO CHi MINH, 2021
Trang 3DANH SÁCH HỘI DONG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 36/QD-DHCNTT
ngày 17/01/2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 TS Lương Ngọc Hoàng — Chủ tịch.
2 ThS Nguyễn Bích Vân - Thư ký.
3 ThS Nguyễn Trọng Chỉnh - Ủy viên.
Trang 4LOI CAM ON
Đầu tiên, tôi xin chân thành cảm on cô Nguyễn Lưu Thùy Ngân vì sự tận tình
hướng dẫn, định hướng cùng những phản biện nhằm giúp tôi đạt được kết quả
tốt nhất cho khóa luận Đồng thời, tôi cũng xin gửi lời cảm ơn ThS Đặng Văn
Thìn (nghiên cứu viên của The UIT Natural Language Processing Group) đã luôn
bên cạnh hỗ trợ, cho tôi những lời khuyên trong quá trình tôi thực hiện luận văn.
Cô và Thầy đã hướng dẫn tôi tận tình, bổ sung cho tôi những kiến thức, kỹ năng
quan trọng để thực hiện các nghiên cứu trong dé tài này.
Tôi cũng xin gửi lời cảm ơn đến các thay, cô, anh chị, các ban trong Phòng thí nghiệm Truyền thông Đa phương tiện, Trường Đại học Công nghệ thông tin đã
nhiệt tình hỗ trợ và góp ý cho tôi trong quá trình làm khóa luận.
Bên cạnh đó, tôi xin gửi lời cảm ơn Trường Đại học Công nghệ Thông tin,
ĐHQG TP Hồ Chí Minh, nơi không những mang lại cho tôi những kiến thức quan trọng, mà còn cho tôi được có cơ hội gặp và học hỏi những người Thay siêu tuyệt vời, cùng những người bạn cực “xin” đã luôn bên cạnh tôi trong suốt những
năm đại học.
Và điều quan trọng nhất, tôi muốn cảm ơn gia đình tôi: ba Hương, mẹ Lệ, chị
Hẳng, anh Tài, anh Anh, và em Tiến đã luôn ở bên tôi, cho tôi sức mạnh, và là
điểm tựa vững chắc cũng như động lực để tôi vượt qua mọi khó khăn về tinh than lẫn thể chất trong thời gian qua Đặc biệt, tôi muốn gửi đến bà của tôi, người vừa đến một nơi thật xa rằng: “Con làm được rồi nè Ngoại phải thật hạnh phúc
ở thé giới đó nhé.”
Cuối cùng, trong quá trình thực hiện khóa luận, tôi có thể có những thiếu sót
và hạn chế Tôi kính mong nhận được sự phản hồi và góp ý quý báu đến từ quý
Thay, Cô Một lần nữa, tôi xin chân thành cảm ơn!
Bình Định, tháng 12, năm 2021
Sinh viên Phan Thị Kim Khoa
Trang 5DANH MỤC TU VIET TAT
ITOM TAT KHOA LUAN
4 MỞ ĐẦU)
ii Tổng tan] Xm” / @đ
12 Tháchthức|
[L3 Mục tiêu của nghiên cứu|
1.4 Đối tượng và phạm vi nghiên cứu|
1.41 Phạm vinghiên cứu|
{1.4.2 Đối tượng nghiên cứu|
1.4.3 Kết quả của nghiên cứu|
1.5 Cấu trúc khóa luận|
2 BOI CẢNH VÀ CÁC CÔNG TRÌNH LIÊN QUAN|
2.1 Tổng quan vẻ bài toán Phân tích cảm xúc theo khía cạnh|
2.2 Thương pháp Học chuyển tiếp đa ngôn ngữ|
[2.3 Mô hình học sẵn đa ngôn ngữ]
(2.3.1 Multilingual BERT (mBERT)
Trang 6NBO] eee 17
2.5 Phát biểu bài toán| 18
PH PHAP| 20
3.1 Kiến trúc mô hình bài toán ACD| - 20
B2 Mô hình Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học
săn đa ngôn ngữ| eee 21
3.2.1 Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning| 21
E.22 Hướng tiếp cận Cross-lingual Transfer Learning with
addi-tional Target Language Datal 22
3.2.3 Hướng tiếp cận Few-shot Cross-lingual Transfer Learning| 23
4 TONG QUAN DU LIỆU 25
[4.1 Bộ dữ liệu chuẩn SemEval2016} 25
Bộ dữ liệu về Nha Hàng trên tiếng Anh| 29
[4.1.2 Bộ dự liệu về Nhà Hàng trên tiếng Pháp| 30
Bộ dữ liệu về Nhà Hàng trên tiếng Hà lan| 30
Bộ dữ liệu vé Nhà Hàng trên tiếng Thổ Nhĩ Kỳ| 31
[1.5 Bộ dữ liệu về Nhà Hàng trên tiếng Tây Ban Nha| 33
Bộ dữ liệu về Nhà Hàng trên tiếng Ngal 33
[4.2 Dữ liệu từ kỹ thuật lấy mẫu dữ liệu| 34
5 THÍ NGHIEM VA KET QUA 38
5.1 Các thông số cài đặt thí nghiệm| 38
5.2 Các thí nghiệm và kết quả ¬ MHẶRAAÁÁ 39
(5.2.1 Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning| 39
5.2.1.1 Tinh chỉnh mô hình trên 1 ngôn ngữ nguồn| 39
5.2.1.2 Tỉnh chỉnh mô hình trên nhiều ngôn ngữ nguồn
Hướng tiếp cận Cross-lingual Transfer Learning with
addi-tional Target Language Data) 43
5.2.3 Hướng tiếp cận Few-shot Cross-lingual Transfer Learning] 45
Các yêu tô quan trọng khi chon ngôn ngữ nguôn thích hợp| 49
Trang 76 KẾT LUẬN VÀ HUONG PHAT TRIEN 53
B KET QUA THUC NGHIEM 68
C CONG BO KHOA HOC 82
Trang 8Vili
Trang 95.1 Kết quả của hướng tiếp cận Zero-shot Cross-lingual từ 1 ngôn ngữ
————_— 39
5.2 Biểu đồ so sánh giữa kết qua don ngữ, kết quả khi tinh chỉnh trên
1 và kết quả khi tinh chỉnh trên nhiều ngôn ngữ nguồn của các mô
others->target là kết quả khi tỉnh chỉnh nhiều ngôn ngữ ngoại trừ
ngôn ngữ dich best->target là kết qua tốt nhất khi tinh chỉnh trên 1
ngôn ngữ nguồn target->target là kết quả đơn ngữ.| 425.3 Heatmap thể hiện xu hướng hiệu suất khi sử dụng Data augmenta-
tion (Sampling) của hướng tiếp cận Cross-lingual Transfer
Learn-ing with additional Target Language Data trên tiếng Thổ Nhĩ Kỳ
5.4 Biểu đồ biểu diễn kết quả của các mô hình theo các hướng tiếp cận
khác nhau trên tiếng Thổ Nhĩ Kỳ (a)(c)(e) Kết quả trên mô hình
KP / 46
tion (Sampling) của hướng tiếp cận Fewshot Cross-lingual Transfer
Learning trên tiếng Thổ Nhĩ Kỳ| 47
Trang 10DANH SÁCH BANG
4.3 Thống kê số lượng nhãn trong mỗi tập dữ liệu thực nghiệm sử
dụng cho các hướng tiếp cận Few-shot Cross-lingual, Cross-lingual
Transfer Learning with additional Target Language Data của mô
hình mBERLl 36
4.4 Thống kê sô lượng nhãn trong mỗi tập dữ liệu thực nghiệm sử
dụng cho các hướng tiếp cận Few-shot Cross-lingual, Cross-lingual
Transfer Learning with additional Target Language Data của mô
hình XLM-R.] 37
5.1 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình
mBERT khi tinh chỉnh trên 1 ngôn ngữ nguồn.| 405.2 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình
Trang 11tốt nhất ở 2 hướng tiếp cận Few-shot Cross-lingual, Cross-lingual
Transfer Learning with additional Target Language Data.| 51
A.1 Phân bố chỉ tiết nhãn với ky thuật lay mẫu ngẫu nhiên
A.2 Phân bồ chỉ tiết nhãn với kỹ thuật lay mẫu dài nhất dựa trên số
lượng token được tách tu Bert Tokenizer} 61
A.3 Phân bố chỉ tiết nhãn với kỹ thuật lây mẫu ngắn nhất dựa trên số
lượng token được tách từ Bertlokenizer| 63
AA Phân bồ chỉ tiết nhãn với kỹ thuật lay mẫu dài nhất dựa trên số
lượng token được tach từ XLMRobertalokenizer| 65
A.5 Phân bồ chi tiết nhãn với kỹ thuật lây mẫu ngắn nhất dựa trên số
lượng token được tach từ XLMRoberta lokenlzer.| 67
B.1 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình
mBERT khi tính chỉnh trên 1 ngôn ngữ nguồn ¬ ee 68B.2_ Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình
XLM-R khi tinh chỉnh trên 1 ngôn ngữ nguồn|_ 68
B.3 Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình
mBERT khi tinh chỉnh trên nhiều ngôn ngữ nguồn| 69B.4_ Kết quả của hướng tiếp cận Zero-shot Cross-lingual của mô hình
XLM-R khi tinh chỉnh trên nhiều ngôn ngữ nguồn
B.5 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with
additional Target Language Data của mô hình mBERT khi tỉnh
chỉnh trên bộ di liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K
mau dữ liệu lây ngẫu nhiên
B.6 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with
additional Target Language Data của mô hình mBERT khi tinh
chỉnh trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K
mẫu dữ liệu dài nhất| Z1B.7 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with
additional Target Language Data của mô hình mBERT khi tinh
mẫu dữ liệu ngắn nhất| 72
Trang 12B.8 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with
additional Target Language Data của mô hình XLM-R khi tinh chính
trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K mẫu
dữ liệu lay ngẫu nhiên.| - 73B.9_ Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with
additional Target Language Data của mô hình XLM-R khi tinh chính
trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K mẫu
B.10 Kết quả của hướng tiếp cận Cross-lingual Transfer Learning with
additional Target Language Data của mô hình XLM-R khi tỉnh chỉnh
trên bộ dữ liệu song ngữ gồm dữ liệu ngôn ngữ nguồn và K mẫu
dữ liệu ngắn nhất| Qua 75B.11 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer Learn-
ing của mô hình mBERT với K mâu dữ liệu ngau nhiên
B.12 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer
Learn-ing của mô hình mBERT với K mẫu dữ liệu dài nhấtB.13 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer Learn-
ing của mô hình mBERT với K mẫu dữ liệu ngắn nhất
B.14 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer
Learn-ing của mô hình XLM-R với K mẫu dữ liệu lây ngẫu nhiênB.15 Kết quả của hướng tiếp cận Few-shot Cross-lingual Transfer Learn-
ing của mô hình XLM-R với K mẫu dữ liệu dài nhất
ing của mô hình XLM-R với K mẫu dữ liệu ngắn nhất
Trang 13DANH MỤC TỪ VIET TAT
SA NLP ABSA ACD SemEval CNN
MLM
NSP
MMTs
QA POS NER NLI SVM
Convolution Neural Network
Masked Language Modeling Next Sentence Prediction
Massively Multilingual Transformers
Question Answering Part Of Speech
Named Entity Recognition Natural Language Inference Support Vector Machine
xili
Trang 14TÓM TẮT KHOÁ LUẬN
Bài toán Phân tích cảm xúc với đầu vào 1a dit liệu văn bản, đầu ra là một trongcác cảm xúc: tích cực, trung tính, và tiêu cực là một trong những bài toán nổi bậtthuộc lĩnh vực Xử lý ngôn ngữ tự nhiên Bài toán không chỉ nhận được nhiềuquan tâm từ cộng đồng các nhà nghiên cứu mà còn được ứng dụng rộng rãi bởicác doanh nghiệp, cơ quan, tổ chức
Tuy nhiên, hiện nay, với sự phát triển của khoa học, công nghệ, đồng thời xuấtphát từ nhu cầu thực tế, các hệ thống phân tích cảm xúc ngày càng tốt hơn, trọngtâm nghiên cứu ngày càng được tập trung cải thiện ở các mức độ chỉ tiết hơn,điển hình là Phân tích cảm xúc trên cấp độ khía cạnh (Aspect Based SentimentAnalysis - ABSA) Trong đề tài này, chúng tôi tập trung nghiên cứu trên một trong
ba bài toán con của bài toán Phân tích cảm xúc theo khía cạnh: Phát hiện danh mục khía cạnh (Aspect Category Detection - ACD).
Khóa luận tốt nghiệp nay là quá trình tim hiểu và cài đặt các mô hình họcsẵn đa ngôn ngữ (Pre-trained multilingual language model) phổ biến hiện nay(mBERT và XLM-R) cho bài toán Phát hiện danh mục khía cạnh trên miền dữliệu lĩnh vực Nhà hàng Đồng thời, chúng tôi cũng tiến hành nghiên cứu và thựcnghiệm nhiều hướng tiếp cận khác nhau của phương pháp Học chuyển tiếp đa
ngôn ngữ (Cross-lingual Transfer Learning) dựa trên các mô hình hoc sẵn đa
ngôn ngữ để có thé vận dụng hiệu quả khi giải quyết van dé ngôn ngữ ít tài
nguyên cho bài toán Phân tích cảm xúc theo khía cạnh nói riêng và các bài toán
khác thuộc lĩnh vực Xử lý ngôn ngữ tự nhiên nói chung Thực tế, mặc dù cáchướng tiếp cận của Học chuyển tiếp đa ngôn ngữ hiện nay nhận được nhiều sự
quan tâm, nhưng vẫn chưa có nhiều nghiên cứu trên bài toán Phân tích cảm xúc
theo khía cạnh, đặc biệt là bài toán con Phát hiện danh mục khía cạnh.
Vì vậy, chúng tôi đã dé xuất thực nghiệm các hướng tiếp cận cho phương
pháp Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học sẵn đa ngôn ngữ:
Zero-shot Cross-lingual Transfer Learning, Cross-lingual Transfer Learning with
additional Target Language Data và Few-shot Cross-lingual Transfer Learning
cho bài toán Phát hiện danh mục khía cạnh trên các bộ dw liệu lĩnh vực Nhà hàng với các ngôn ngữ khác nhau.
Trang 15Đặc biệt, trong xuyên suốt quá trình hoàn thành đề tài, chúng tôi đã tiến hành
cài đặt và thực nghiệm một cách hệ thống nhằm phân tích, đánh giá, và so sánhcác kết quả dựa trên cơ sở các câu hỏi nghiên cứu Các thí nghiệm của chúng tôi
trên 6 ngôn ngữ đạt được những kết quả sau:
Chúng tôi thành công tinh chỉnh các mô hình đa ngôn ngữ (mBERT và
XLM-R) với dữ liệu đã gán nhãn của một hoặc nhiều ngôn ngữ nguồn cho bài toán
ACD và thực hiện dự đoán tốt trên ngôn ngữ đích mà không cần sử dụngbất kỳ mẫu dữ liệu nào từ ngôn ngữ đích
Đồng thời, chúng tôi cũng chứng minh hiệu quả đáng ngạc nhiên khi cómột lượng nhỏ đữ liệu ngôn ngữ đích thông qua hai hướng tiếp cận: Cross-
lingual Transfer Learning with additional Target Language Data và
Few-shot Cross-lingual Transfer Learning.
Hon thé, dựa trên các thí nghiệm, chúng tôi phân tích được hạn chế cũngnhư thành công tìm ra hướng giải quyết phù hợp và tốt nhất trong cáchướng đã thực nghiệm khi sử dụng phương pháp Học chuyển tiếp cho một
ngôn ngữ ít tài nguyên, khác họ ngôn ngữ với các ngôn ngữ còn lại.
Bên cạnh đó, chúng tôi cũng dé xuất một số yêu tố cần lưu ý trong việc chọnngôn ngữ nguồn khi sử dụng phương pháp Học chuyển tiếp đa ngôn ngữtrong lĩnh vực Xử lý ngôn ngữ tự nhiên, cụ thể, trong đề tài này là bài toánPhát hiện danh mục khía cạnh, thay vì chỉ sử dụng tiếng Anh như hầu hết
các nghiên cứu từ trước đến nay
Cuối cùng, các kết quả thí nghiệm cho thấy việc sử dụng mô hình XLM-R
đạt được kết quả tốt hơn khi sử dụng mô hình mBERT trong hầu hết các
hướng tiếp cận của Học chuyển tiếp đa ngôn ngữ
Bên cạnh đó, trong thời gian hoàn thành dé tài nghiên cứu, nhờ những tìm
hiểu về các mô hình học sẵn đa ngôn ngữ, tôi đã tham gia giải bài toán
“Viet-namese and English-Viet“Viet-namese Textual Entailment” tại Hội thảo VLSP 2021 về
Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP - Vietnamese Language and SpeechProcessing) cùng đội của mình và đạt được kết quả là đội có kết qua đứng thứ 2
với F1 = 0.89.
Trang 16Inter-về sản phẩm cũng như các loại hình dịch vụ của các doanh nghiệp, tổ chức Điềunày tạo điều kiện thỏa mãn nhu cầu tham khảo phản hồi, đánh giá của khách
hàng mới khi đưa ra các quyết định vẻ dịch vụ, sản phẩm của các doanh nghiệp,
tổ chức ấy
Bên cạnh đó, các ý kiến, nhận xét, đánh giá này không chỉ ảnh hưởng đến
quyết định của khách hàng mới, mà còn là nguồn tài nguyên quý giá để các doanhnghiệp, tổ chức có thể tận dụng phân tích, cải thiện sản phẩm, dịch vụ của mình
và đem đến trải nghiệm tốt nhất cho khách hàng
Tuy nhiên, với lượng thông tin phản hồi khổng lồ từ khách hàng như hiện tại,
khách hàng mới cũng như các doanh nghiệp, tổ chức khó có thể tận dụng được
hết Thế nên, để giải quyết vấn dé này, các doanh nghiệp, tổ chức và khách hangcần một hệ thống có thể phân tích tự động các phản hồi và trả về kết quả đơn giản,
toàn điện nhất để khách hàng mới cũng như các công ty, doanh nghiệp có thể dựa
vào đó tham khảo và đưa ra quyết định Vì vậy, bài toán Phân tích cảm xúc khôngnhững nhận được nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực Xử
lý ngôn ngữ tự nhiên mà còn được chú ý bởi các công ty, doanh nghiệp, tổ chức.
Hiện nay, với sự phát triển của khoa học, công nghệ, đồng thời xuất phát từnhu cầu thực tế, các hệ thống phân tích cảm xúc ngày càng tốt hơn, trọng tâm
nghiên cứu ngày càng được tập trung cải thiện ở các mức độ chỉ tiết hơn, điển
Trang 17Chương 1 MỞ ĐẦU 2
hình là bài toán Phân tích cảm xúc trên cấp độ khía cạnh (Aspect Based Sentiment
Analysis - ABSA).
Đặc biệt, bài toán Phân tích cảm xúc theo khía cạnh được phát huy tối đa trong
lĩnh vực nhà hàng, khách hàng rất quan tâm cụ thể đến từng khía cạnh của bìnhluận để đưa ra quyết định lựa chọn như chất lượng thức ăn, nước uống, dịch vụ,không gian, giá cả, v.v chứ không đơn thuần chi quan tâm tổng quan nhà hang
tốt hay tệ Bằng việc phân tích chỉ tiết trạng thái của các khía cạnh, khách hàng có
thể khai thác được nhiều thông tin từ đánh giá của người dùng trước
Vì vậy, là một trong những bài toán con quan trọng, Phát hiện danh mục khía
cạnh - bài toán chính trong đề tài này được phát biểu như sau:
e Đầu vào: Câu bình luận của khách hàng vẻ lĩnh vực Nha hàng
e Đầu ra: Danh mục khía cạnh cho trước có dé cập trong câu bình luận của
khách hàng.
12 Thách thức
Ngày nay, hầu hết các nghiên cứu trong lĩnh vực Xử lý Ngôn ngữ Tự nhiênđều liên quan đến việc xử lý các ngôn ngữ giàu nguồn tài nguyên, đặc biệt làtiếng Anh, song song đó, hàng nghìn ngôn ngữ khác được sử dụng trên thế giới
lại bị bỏ qua [1] Hầu như chỉ có các ngôn ngữ giàu tài nguyên mới đáp ứng đủ để
phát triển các hệ thống học sâu yêu cầu nhiều dữ liệu Vì vậy, đối với sự thiếu hut
đữ liệu quy mô lớn của các ngôn ngữ ít tài nguyên lại trở thành vấn dé khó khăncho các nhà nghiên cứu trong việc huấn luyện cũng như cải tiến các hệ thống học
sâu, góp phần tăng hiệu xuất cho các hệ thống NLP
Nhận thay van dé trên là một trong những vấn dé lớn khi nghiên cứu các bài
toán thuộc lĩnh vực Xử lý ngôn ngữ tự nhiên, các nhà nghiên cứu đã cố gắng tìmcách giải quyết bang các phương pháp như: Data Augmentation, Distant supervi-
sion, Transfer Learning, LM domain adaptation, Multilingual LMs, v.v Các nha
nghiên cứu trong công trình [2] đã thực hiện khảo sát chỉ tiết các phương pháp
gần đây khi xử lý vấn đề ít tài nguyên trong Xử lý ngôn ngữ tự nhiên
Bên cạnh đó, dựa trên khảo sát về các cuộc thi hay công trình nghiên cứu gần
đây liên quan đến giải quyết bài toán Phân tích cảm xúc dựa trên khía cạnh
Trang 18[3]-Chương 1 MỞ ĐẦU 3
[6], vần đẻ thiếu hụt đữ liệu của các ngôn ngữ ít tài nguyên vẫn luôn là một trong
những vẫn đề cần quan tâm Cùng với đó, các mô hình học sẵn đa ngôn ngữ xuấthiện những năm gần đây như mBERT [7] hay XLM-R [8| nhận được nhiều sự chú
ý vì hiệu quả cũng như những đóng góp to lớn của nó khi giải quyết các bài toán
trong lĩnh vực Xử lý ngôn ngữ tự nhiên trên ngôn ngữ ít tài nguyên Tuy nhiên,
hiện nay vẫn chưa có nhiều nghiên cứu chỉ ra mô hình nào tốt hơn hay thích hợp
hơn khi xử lý bài toán nhóm quan tâm là Phân tích cảm xúc theo khía cạnh hay
cụ thể hơn là bài toán Phát hiện danh mục khía cạnh trên ngôn ngữ ít tài nguyên.
1.3 Mục tiêu của nghiên cứu
Trong nghiên cứu này, chúng tôi tiến hành tìm hiểu, nghiên cứu và thựcnghiệm trên các bộ dữ liệu lĩnh vực Nhà hàng gồm 6 ngôn ngữ: tiếng Anh, tiếngPháp, tiếng Hà Lan, tiếng Thổ Nhĩ Kỳ, tiếng Tây Ban Nha, tiếng Nga cho bài toánACD để trả lời cho những câu hỏi nghiên cứu quan trọng sau:
© (RQ1) Khả năng thực hiện bài toán ACD của các mô hình học sẵn da ngôn nsữ đối
uới ngôn ngữ đích chưa từng học qua là như thé nào?
© (RQ2) Liệu viéc tinh chỉnh các mô hình học san da ngén ngữ trên nhiều ngôn nsữ
nguồn có tốt hơn trong hướng tiếp cận Zero-shot Cross-lingual đối uới bài toán
ACD không?
* (RQ3) Nhitng cải thiện nào có thể mong đợi khi giải quyét bài toán ACD cho các
ngôn ngữ đích có sẵn một lượng nhỏ các mẫu dit liệu huấn luyện?
© (RQ4) Hướng tiếp cận nào trong các hướng tiếp cận đã thực nghiệm tốt nhất khi
giải quyết bài toán ACD trên ngôn ngữ it tai nguyên?
© (RQ5) Các yéu tô nào có thể anh hưởng đến viéc lựa chon ngôn ngữ nguồn khi sử
dung phương pháp Học chuyén tiếp da ngôn nữ cho bài toán ACD?
* (RQ6) Mô hình da ngôn ngữ nào trong các mô hình (mBERT va XLM-R) tốt hon
khi Học chuyển tiếp da ngôn ngit trong bài toán ACD?
Trang 19Chương 1 MỞ ĐẦU 4
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Phạm vi nghiên cứu
Phạm vi nghiên cứu trong dé tai này là những bình luận của người dùng
vẻ lĩnh vực Nhà hàng thuộc các bộ dữ liệu chuẩn được công bồ tại Hội nghị
SemEval2016 task 5 (3) Đối với nguyên cứu nay, chúng tôi thực hiện trên bài toán
con là Phát hiện danh mục khía cạnh (Aspect category detection - ACD)
1.4.2 Đối tượng nghiên cứu
Đầu tiên, một trong những đối tượng quan trọng trong nghiên cứu này là cácbình luận, đánh giá về lĩnh vực Nhà hàng Các bình luận/đánh giá này đượcviết bằng nhiều ngôn ngữ khác nhau: tiếng Anh, tiếng Pháp, tiếng Hà Lan, tiếngThổ Nhĩ Kỳ, tiếng Tây Ban Nha và tiếng Nga Điểm chung của các ngôn ngữ:tiếng Anh, tiếng Pháp, tiếng Hà Lan, tiếng Tây Ban Nha, tiếng Nga là cùng thuộc
ho Indo-European l9 ; Và Tiếng Thổ nhĩ Kỳ thuộc họ Altaic, cụ thể nằm ở nhánh
Western Oguz [10]
Đối với đối tượng nghiên cứu thứ hai, chúng tôi tap trung tìm hiểu và cài đặt
hai mô hình học sẵn đa ngôn ngữ (mBERT [7| và XLM-R (sl) cho bai toán Phat
hién danh muc khia canh.
Cuối cùng, đối tượng nghiên cứu còn lại chính là các hướng tiếp cận của
phương pháp Học chuyển tiếp đa ngôn ngữ (Cross-lingual Transfer Learning)
Ở đề tài này, chúng tôi nghiên cứu và thực nghiệm 3 hướng tiếp cận khác nhau:
Zero-shot Cross-lingual Transfer Learning, Cross-lingual Transfer Learning with
additional Target Language Data và Few-shot Cross-lingual Transfer Learning.
Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning được sử dụng khi môhình không được học bat kỳ mau dt liệu nào của ngôn ngữ đích Cùng với đó, haihướng tiếp cận: Cross-lingual Transfer Learning with additional Target Language
Data và Few-shot Cross-lingual Transfer Learning được thực hiện khi ngôn ngữ
đích có một lượng mẫu dữ liệu nhất định đã gan nhãn
Trang 20Chương 1 MỞ ĐẦU 5
1.4.3 Kết quả của nghiên cứu
Sau khi tìm hiểu và nghiên cứu, chúng tôi đã cài đặt thành công hai mô hình
học sẵn đa ngôn ngữ mBERT và XLM-R trên các bộ dữ liệu chuẩn SemEval2016
task 5, gồm 6 ngôn ngữ khác nhau (tiếng Anh, tiếng Pháp, tiếng Hà Lan, tiếngThổ Nhĩ Kỳ, tiếng Tây Ban Nha, tiếng Nga) thuộc miễn di liệu lĩnh vực Nha hang
cho bài toán ACD.
Bên cạnh đó, nghiên cứu của chúng tôi đã có thể cung cấp câu trả lời cho cáccâu hỏi dé ra 6 phần Mục tiêu nghiên cứu:
© (RQ1) Khả năng thực hiện bài toán ACD của các mô hình học sẵn da ngôn nsữ đối
uới ngôn nsữ đích chưa từng học qua là như thé nào?
Để trả lời câu hỏi này, chúng tôi đã cài đặt thí nghiệm trên hướng tiếp cậnZero-shot Cross-lingual Transfer Learning và mô hình XLM-R đã cho kếtquả rất ân tượng, có thể cạnh tranh với nhiều mô hình đơn ngữ hiện có, cụthể tất cả các kết quả đều cao hơn các kết quả chiến thắng cuộc thi công bố
bộ dix liệu [3] Đặc biệt, mô hình cho kết quả khi học chuyển tiếp từ tiếng
Pháp sang tiếng Hà Lan cao hơn 13.947% so với mô hình đơn ngữ trên tiếng
Hà Lan chiến thắng cuộc thi Bên cạnh đó, mặc dù, mô hình mBERT không
có hiệu quả tốt bằng XLM-R nhưng kết quả cũng tương đối khả quan, cụ
thể kết quả cao nhất khi Học chuyển tiếp của mô hình trên tiếng Pháp là
61.08% sử dụng ngôn ngữ nguồn là tiếng Anh, chỉ thấp hơn 0,127% so với
mô hình đơn ngữ trên tiếng Pháp đạt kết quả cao nhất trong cuộc thi Vì
vậy, khả năng thực hiện bài toán ACD của các mô hình học sẵn đa ngôn ngữđối với ngôn ngữ đích rất đáng mong đợi
© (RQ2) Liệu viéc tinh chỉnh các mô hình học san da ngôn ngữ trên nhiều ngôn nsữ
nguồn có tốt hơn trong hướng tiếp cận Zero-shot Cross-lingual đối uới bài toán
ACD không?
Kết quả thí nghiệm cho thấy việc tinh chỉnh các mô hình mBERT và XLM-Rtrên nhiều ngôn ngữ nguồn trong hướng tiếp cận Zero-shot Cross-lingualhầu hết đều tốt hơn khi chi tinh chỉnh trên một ngôn ngữ nguồn Cụ thể,
ở mô hình XLM-R, kết quả trên các ngôn ngữ tuy không tăng quá nhiềunhưng đều tăng từ 0.69%-4.32% Với mô hình mBERT, hiệu suất của mô
Trang 21Chương 1 MỞ ĐẦU 6
hình tăng từ 0.77%-7.85%, ngoại trừ tiếng Thổ Nhĩ Kỳ giảm 5.9% vì bị hiện
tượng “Curse of Multilingual”.
* (RQ3) Những cải thiện nào có thể mong đợi khi giải quyét bài toán ACD cho các
ngôn nữ đích có sẵn một lượng nhỏ các mẫu dit liệu huấn luyện?
Ở câu hỏi này, chúng tôi cài đặt thí nghiệm theo 2 hướng và đạt được những
thành quả sau:
- Đối với hướng tiếp cận Cross-lingual Transfer Learning with
addi-tional Target Language Data: Hướng tiếp cận này đạt được hiệu suất
thực sự tốt, chứng minh được chỉ cần một ít dữ liệu của ngôn ngữ đích,
mô hình Học chuyển tiếp đa ngôn ngữ có thể cho kết quả cạnh tranh
Cu thể, khi so sánh với hướng tiếp cận Zero-shot Cross-lingual, mBERT
nổi bật ở một số ngôn ngữ: tiếng Anh, tiếng Hà Lan, tiếng Nga, chỉ cầnkết hợp từ 10 mẫu dữ liệu ngôn ngữ đích, mô hình có thể cho kết quả
có thể so sánh hoặc vượt qua mBERT khi zero-shot Tương tự, mô hìnhXLM-R nổi bật ở các ngôn ngữ còn lại, bao gồm: tiếng Pháp, tiếng TâyBan Nha, tiếng Thổ nhĩ Kỳ, có thể cho kết quả tốt hơn kết quả hướng
tiếp cận Zero-shot Cross-lingual khi chỉ kết hợp ngôn ngữ nguồn với
10 mẫu dữ liệu ngôn ngữ đích Tuy nhiên, ở hướng tiếp cận này, ngôn
ngữ ít tài nguyên, khác họ ngôn ngữ với các ngôn ngữ còn lại, là tiếngThổ Nhĩ Ky lại tiếp tục bị hiện tượng đột ngột giảm hiệu suất khi môhình tinh chỉnh kết hợp dữ liệu ngôn ngữ nguồn và 500 mẫu dữ liệu
ngôn ngữ đích trở lên.
- Đối với hướng tiếp cận Few-shot Cross-lingual Transfer Learning: Kết
quả thí nghiệm đem lại những kết quả sau:
+ Đối với ngôn ngữ đích cùng họ ngôn ngữ với các ngôn ngữ nguồn:
Hướng tiếp cận Few-shot Cross-lingual Transfer Learning hầu nhưkhông tốt bằng hướng tiếp cận Cross-lingual Transfer Learning
with additional Target Language Data.
x Đối với ngôn ngữ đích khác họ ngôn ngữ với các ngôn ngữ nguồn:
Mặc dù, hướng tiếp cận lúc bắt đầu tinh chỉnh từ 10-100 cho hiệu
suất thấp hơn hướng tiếp cận Cross-lingual Transfer Learning withadditional Target Language Data, nhưng hiệu suất mô hình lại
Trang 22Chương 1 MỞ ĐẦU 7
tăng rất ổn định, đặc biệt khi few-shot từ 500 mẫu dữ liệu tiếngThổ Nhĩ Kỳ, mô hình còn có thể tốt hơn mô hình đơn ngữ tinhchỉnh trên 1000 mẫu dữ liệu tiếng Thổ Nhĩ Kỳ, cụ thể từ 0%-7.49%
khi sử dụng mô hình mBERT, và từ 0.96%-6.36% khi sử dung mô
hình XLM-R.
x Bên cạnh đó, khi so sánh với các mô hình của hướng tiếp cận
Zero-shot Cross-lingual, hướng tiếp cận này cũng tốt hơn trên tất cả các
ngôn ngữ Điều này lần nữa chứng minh chỉ cần một vài mẫu dữliệu ngôn ngữ đích, mô hình phương pháp Học chuyển tiếp vẫn cóthể cải thiện rất nhiều
© (RQ4) Hướng tiếp cận nào trong các hướng tiếp cận đã thực nghiệm tốt nhất khi
giải quyét bài toán ACD trên ngôn ngữ ít tài nguyên?
- Đối với ngôn ngữ đích ít tài nguyên, cùng họ với ngôn ngữ nguồn,
hướng tiếp cận Cross-lingual Transfer Learning with additional TargetLanguage Data đem lại kết quả tốt nhất
- Đối với ngôn ngữ dich ít tài nguyên, khác họ với ngôn ngữ nguồn,
hướng tiếp cận Few-shot Cross-lingual Transfer Learning chứng minh
được hướng nay vừa có thé dem lại hiệu quả tốt vừa có thể giúp giảmhầu hết hiện tượng đột ngột giảm hiệu suất hay bão hòa hiệu suất (hiện
tượng “Curse of Multilingual”).
© (RQ5) Các yéu tô nào có thể anh hưởng đến viéc lựa chon ngôn ngữ nguồn khi sử
dung phương pháp Học chuyển tiếp da ngôn nữ cho bài toán ACD?
Các thí nghiệm và phân tích trên bài toán ACD của nhóm đã chứng minh
được việc sử dụng ngôn ngữ khác tiếng Anh làm ngôn ngữ nguồn tronghọc Chuyển tiếp đa ngôn ngữ là có khả năng, đặc biệt góp phần tránh thiênkiến trên tiếng Anh, tạo điều kiện cho các ngôn ngữ khác cùng được pháttriển Đồng thời, nhóm cũng chỉ ra một sỐ yếu tố cần lưu ý khi chọn ngônngữ nguồn thích hợp để Học chuyển tiếp đa ngôn ngữ trong bài toán ACD
là:
- Mối quan hệ về mặt ngôn ngữ giữa ngôn ngữ nguồn và ngôn ngữ đích
— Kích thước dữ liệu khi tinh chỉnh mô hình của ngôn ngữ nguồn
Trang 23© (RQ6) Mô hình da ngôn ngữ nào trong các mô hình (mBERT va XLM-R) tốt hơn
khi Học chuyén tiếp da ngôn ngữ trong bài toán ACD?
Sau khi tiền hành nhiều thí nghiệm trên nhiều hướng tiếp cận của phương
pháp Học chuyển tiếp đa ngôn ngữ, kết quả cho thấy mô hình XLM-R cho
kết quả tốt hơn mô hình mBERT trên tất cả các hướng tiếp cận của Họcchuyển tiếp đa ngôn ngữ trong bài toán ACD
Từ một phần những kết quả đạt được trong luận văn này, chúng tôi đã cóđóng góp vào bài báo khoa học gửi đến Hội nghị quốc tế Scopus “The 4th In-
ternational Conference on Multimedia Analysis and Pattern Recognition (MAPR
2021)” mang tén “Exploring Zero-shot Cross-lingual Aspect-based Sentiment ysis using Pre-trained Multilingual Language Models” (Accepted), với các tác gia
Anal-đóng góp gồm Khoa Thi-Kim Phan, Dang Van Thin, Duong Ngoc Hao, Ngan
Luu-Thuy Nguyen.
Đồng thời, trong thời gian hoàn thành đề tai, nhờ những tìm hiểu về các mô
hình học sẵn đa ngôn ngữ, tôi đã tham gia giải bài toán “Vietnamese and
English-Vietnamese Textual Entailment” tại Hội thảo VLSP 2021 về Xử lí ngôn ngữ và
tiếng nói tiếng Việt (VLSP - Vietnamese Language and Speech Processing) cùng
đội của mình gồm Hoang Xuan Vu, Nguyen Van Tai, Khoa Thi-Kim Phan, DangVan Thin, và đạt được kết quả là đội có kết qua đứng thứ 2 với F1 = 0.89
1.5 Cau trúc khóa luận
Khóa luận được chia thành 6 chương, câu trúc được trình bày như sau
° Chương[†} Mở đầu Trình bày ly do chọn nghiên cứu, đối tượng và phạm
vi nghiên cứu, mục tiêu cũng như kết quả đạt được
° Chương |} Bối cảnh và các công trình liên quan Tổng quan, trình bày cơ
sở lý thuyết cũng như các công trình liên quan đến dé tài Sau đó, nêu ra
Trang 24Chương 1 MỞ ĐẦU 9
những vấn đề còn tồn đọng và hướng giải quyết được đề cập trong nghiên
cứu của chúng tôi.
° Chương j3} Phương pháp Trình bày kiến trúc các mô hình được sử dụng
thực nghiệm trong nghiên cứu.
° Chương |4} Tổng quan dữ liệu Phân tích, tổng quan về các bộ dữ liệu sử
dụng trong nghiên cứu.
° Chuong|5} Thi nghiém va két qua Trinh bay cach cai dat, va phan tich két
qua giữa các thí nghiệm.
e Chương |6} Kết luận và hướng phát triển Tổng kết các kết quả quan trọng
đã đạt được trong nghiên cứu, những hạn chế chưa được giải quyết và
hướng phát triển trong tương lai.
Trang 25Chương 2
BỒI CẢNH VÀ CÁC CÔNG TRÌNH
LIÊN QUAN
Đề tài nghiên cứu của chúng tôi liên quan đến các lĩnh vực sau:
¢ Phân tích cảm xúc theo khía cạnh: Cu thể ở nghiên cứu này là bài toán con
Phát hiện danh mục khía cạnh trên dữ liệu lĩnh vực Nhà hàng.
* Các hướng tiếp cận của phương pháp Học chuyển tiếp đa ngôn ngữ
* Các mô hình học sẵn đa ngôn ngữ
Trong chương này, chúng tôi tiến hành tổng quan, trình bày cơ sở lý thuyếtcũng như các công trình liên quan đến dé tài Sau đó, nêu ra những van dé còn
ton đọng và hướng giải quyết được dé cập trong nghiên cứu của chúng tôi
2.1 Tổng quan về bài toán Phân tích cảm xúc theo
khía cạnh
Hơn nhiều thập kỷ qua, Phân tích cảm xúc (SA) là một bài toán nổi bật được
đông đảo cộng đồng các nhà nghiên cứu thuộc lĩnh vực NLP cả trong lẫn ngoài
nước quan tâm Nhiệm vụ chính của bài toán là phân tích và đánh giá bình luận/ý
kiến của người dùng thành các loại cảm xúc khác nhau: tích cực, tiêu cực haytrung lập (11, (12)
Bên cạnh đó, không chỉ là một van dé nổi bật nhận được nhiều quan tâm
trong lĩnh vực NLP, bài toán Phân tích cảm xúc còn được ứng dụng rộng rai bởi
Trang 26Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 11
các doanh nghiệp, cơ quan, tổ chức trong các ngành công nghiệp - dịch vụ như
một công cụ có thể phân tích, nhận biết thái độ của khách hàng về sản phẩm và
dịch vụ mà họ cung cấp một cách tự động
Tuy nhiên, với sự phát triển vượt bật của khoa học, công nghệ, và sự tăng
lên không ngừng của nhu cầu thực tế, bài toán Phân tích cảm xúc thông thường
không còn đáp ứng đủ nhu cầu thực tế nếu bình luận/đánh giá chứa nhiều hơn
một chủ đề hay khía cạnh
«Ví dụ: “Quán này, thức ăn ngon quá, nhưng bạn phục vụ hơi bị trời đất.”
Trong ví dụ trên, câu có 2 loại cảm xúc (tích cực, tiêu cực) tương ứng với 2 loại
khía cạnh (thức ăn, dịch vụ) Vì vậy các hệ thống phân tích cảm xúc cần phải được
tập trung cải thiện ở mức độ chỉ tiết hơn
Để đáp ứng như cầu trên, bài toán Phân tích cảm xúc theo khía cạnh
(Aspect-Based Sentiment Analysis - ABSA) sớm ra đời với khả năng phân tích cảm xúc cụ
thể trên từng khía cạnh có trong bình luận/đánh giá của người dùng [13], (14).
Va cũng nhờ thé, bài toán ABSA đã thu hút nhiều chú ý từ cộng đồng NLP những
năm gan đây (Í15]-[18|)
(Thức ăn quán này[ngon quá|nhưng|bạn phục vụ
Opininon Target: Opininon Target:
HÌNH 2.1: Ví du minh hoa mô ta bài toán ABSA.
Dựa trên định nghĩa của (3), bai toan Phan tich cam xuc theo khia canh Based Sentiment Analysis - ABSA) bao gồm 3 bài toán con:
(Aspect-e Phat hiện danh mục khía cạnh (Asp(Aspect-ect Cat(Aspect-egory D(Aspect-et(Aspect-ection - ACD): Nhận
diện các cặp thực thé E và thuộc tinh A có trong bình luận/đánh giá của
Trang 27Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 12
người dùng E#A sẽ được chọn từ các danh mục khía cạnh đã cho trước (Ví dụ: SERVICE#GENERAL, FOOD#OUALTTY, v.v).
© Phat hiện khía cạnh (Opinion Target Expression - OTE): Trích xuất những
cụm từ chỉ ra khía cạnh có trong câu (Ví dụ: Food, sushi, service, v.V).
¢ Phân cực cảm xúc (Sentiment Polarity - SP): Với mỗi cặp E#A trong bai
toán ACD, hay Aspect trong bài toán OTE, bài toán này sẽ gan một trong
các nhãn cảm xúc: tích cực, tiêu cực, hoặc trung tính.
Trong đề tài này, chúng tôi thực nghiệm trên một trong những bài toán connổi bật của bài toán ABSA - Phát hiện danh mục khía cạnh (ACD) Với nhiệm vụnhận điện các danh mục khía cạnh cho trước có dé cập trong bình luận / đánh giá,bài toán là một thử thách hap dẫn được tổ chức trong suốt 3 năm liên tục tại Hội
thảo SemEval [3], [14], [19] Điều này đã giúp thu hút được nhiều sự quan tâm
của các nhà nghiên cứu.
Cụ thể, mô hình đạt kết quả cao nhất trong cuộc thi SemEval2014 [14] sử dụngnhiều đặc trưng như character n-grams, n-grams, stemmed n-grams, word cluster
n-grams, noncontiguous n-grams, va lexicon features để huấn luyện một tập
hợp các bộ phân lớp one-vs-all SVM Năm 2015, tại cuộc thi SemEval [19], Toh vacác cộng sự [21] dé xuất ra mô hình đứng nhất trên miễn di liệu Nhà hang trong
số 9 nhóm và 13 mô hình dự thi Mô hình này được cài đặt dựa trên n-gram, phân
tích cú pháp, va word clusters học được từ dtr liệu Yelp.
Đến năm những năm gan đây, khi các mô hình dựa trên mạng học sâu (Deepneural network) được sử dụng rộng rãi, nhóm tác giả đã dé xuất sử dụng
đầu ra của mạng CNN được huấn luyện trên bộ dữ liệu công bồ tại cuộc thi
SemEval2016 lam các đặc trưng cho các bộ phân lớp tuyến tính one-vs-all
cùng với các tính năng khác như n-grams, POS tags và trở thành mô hình đứng
đầu trong số các mô hình dự thi trên ngôn ngữ tiếng Anh
Bên cạnh đó, ngày nay, với sự phát triển của biểu diễn ngôn ngữ trong NLP,
cùng với thách thức của việc tạo ra những bộ dữ liệu lớn vừa tốn tién, vừa tốn
công sức, các mô hình học sẵn (pre-trained model - PTMs) được công bố và chứng
minh là một trong những giải pháp sáng giá cho nhiều bài toán trong lĩnh vực
NLP nói chung và ABSA nói riêng Điển hình như (23]-[26] sử dung BERT để cải
Trang 28Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 13
thiện hiệu suất bang cách tinh chỉnh BERT cho bài toán ABSA trên dữ liệu tiếng
Anh.
Đồng thời, không chỉ dừng lai ở tiếng Anh, trong nghiên cứu [27], các tác giả
đã đề xuất hướng giải quyết bài toán ABSA trên tiếng Pháp bằng các mô hình học
sẵn (mBERT [7], CamemBERT [28], FlauBERT [29}) Bên cạnh đó, nghiên cứu
đã dé xuất mô hình học sẵn ParsBERT cùng với kỹ thuật câu bổ trợ (NLI-M) để
cải thiện bài toán ABSA trên tập dữ liệu Pars-ABSA của tiếng Ba Tư
Bên cạnh các công trình nghiên cứu trên thế giới, cộng đồng các nhà nghiên
cứu trong nước cũng rất quan tâm đối với bài toán về Phân tích cảm xúc/ý kiến
này Đầu tiên, phải kể đến [31]-một trong những công trình đầu tiên vé Phân tích
cảm xúc trên cấp độ câu văn ở trong nước, nhóm tác giả đã dé xuất một hệ thống
dựa trên luật (rule-based system) sử dụng nền tang GATE l2].
Năm 2011, nhóm nghiên cứu - một trong số ít nghiên cứu về Phân tích
ý kiến theo khía cạnh lúc bấy giờ, đã thực hiện nghiên cứu trên việc Phân tich ýkiến dựa theo khía cạnh có trong các bình luận/ đánh giá về sản phẩm Đặc biệt,nhóm tác giả sử dụng những quy tắc cú pháp (syntactic rules) trong tiếng Việt đểtrích xuất các từ mang khía cạnh có thể rõ ràng hoặc ngụ ý trong câu Bên cạnh
đó, các ý kiến cũng như định hướng của người dùng được quyết định dựa trên
từ điển từ ngữ cảm xúc của tiếng Việt - VietSentiWordNet
Khi các mô hình Deep Learning phát triển, bài toán Phân tích cảm xúc theo
khía cạnh ở trong nước cũng được tiếp cận theo nhiều hướng khác nhau giúp
hiệu quả tăng cao Điển hình như [34] đã sử dụng kiến trúc mang CNN cho bài
toán Phát hiện khía cạnh trên dữ tiệu tiếng Việt Đặc biệt, mô hình dé xuất của
nhóm tác giả đạt kết quả tốt hơn mô hình chiến thắng tại cuộc thi VLSP 2018, cụ
thể mô hình của nhóm tác giả đạt được 80.40% cho miền dữ liệu Nhà hàng va
69,25% cho miền dữ liệu Khách sạn
Gần đây, nhóm tác giả đã thực hiện thí nghiệm trên 2 bộ dữ liệu chuẩntiếng Việt thuộc miền dữ liệu Nhà hàng, Khách sạn trên nhiều mô hình hoc sẵnđơn ngữ (viBErt_FPT [56], vELECTRA FPT [56], viBERT4news, PhoBERT [37])
va mô hình hoc sẵn đa ngôn ngữ (mBERT [38], XLM-R [8], mDistiIBERT [39]) cho
bài toán ACD.
Qua tìm hiểu, các nghiên cứu trên hầu hết giải quyết bài toán ABSA cũng nhưbài toán con ACD trên miền dữ liệu Nhà hàng bằng các phương pháp truyền
Trang 29Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 14
thống hoặc sử dụng mô hình học sẵn cho một ngôn ngữ cụ thể Tuy nhiên, khôngphải tất cả các ngôn ngữ trên thế giới đều được tiếp cận và có tài nguyên để
nghiên cứu Vì vậy, đây là thách thức lớn trong lĩnh vực NLP nói chung và bài toán ABSA nói riêng.
2.2 Phương pháp Học chuyển tiếp đa ngôn ngữ
Một trong những yếu tố đóng vai trò vô cùng quan trọng trong sự phát triển
đa dạng, phong phú của các bài toán trong lĩnh vực NLP là dữ liệu Tuy nhiên,
hầu hết các kết quả nghiên cứu trên nhiều bài toán trong lĩnh vực NLP, cụ thể
là bài toán Phân tích cảm xúc theo khía cạnh trong những năm gần đây đều đạt
được trên tiếng Anh (23], (24), [40}) và một số ít các ngôn ngữ giàu tài nguyên khác như tiếng A Rap (ví dụ [41)), tiếng Trung Quốc (ví dụ Í42]), v.v mà bỏ qua
hàng nghìn ngôn ngữ khác ít tài nguyên hơn trên thé giới
Vi vậy, một trong những hướng giải pháp nổi bật, nhận được nhiều quan tâm
là phương pháp Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học sẵn đa
Nhu hinh{2.2] Học chuyển tiếp đa ngôn ngữ là quá trình cho phép việc chuyển
tiếp kiến thức học được từ ngôn ngữ giàu tài nguyên (high resource language
-source language) sang ngôn ngữ ít tài nguyên (low re-source language - target
language) với điều kiện trong quá trình chuyển tiếp, dữ liệu của 2 ngôn ngữ phải
cùng một bài toán.
Trang 30Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 15
Dé có thể Học chuyển tiếp, chúng ta cần phải biểu diễn đữ liệu từ cả ngôn ngữ
nguồn và ngôn ngữ đích về cùng một không gian biểu diễn đa ngôn ngữ lingual representation space), có thể dưới dạng liên tục hoặc rời rạc Những nămgần đây, có rất nhiều công tác nghiên cứu về yếu tố quan trọng này Một số nghiêncứu sử dụng phương pháp dịch dữ liệu ngôn ngữ đích sang ngôn ngữ nguồn
(cross-(hoặc ngược lại) (/44|, [45)) Bên cạnh đó, [46], sử dung các chuỗi giống nhau
giữa các ngôn ngữ dưới dạng từ điển song ngữ (pseudo bilingual dictionary) để
học cách ánh xạ giữa các phép nhúng được huấn luyện ở mô hình đơn ngữ Hay
gần đây, đã cung cấp những định nghĩa cơ bản và thống kê các công trình sử
dụng phép nhúng từ đa ngôn ngữ (Cross-lingual word embeddings) được huấnluyện trên kho ngữ liệu song song lớn cho phép mô hình làm việc trên bất kỳ
ngôn ngữ nào mà chỉ cần chuyển đổi lớp nhúng từ trong khi mô hình không thay
đổi Tuy nhiên, các phương pháp trên yêu cầu tài nguyên và thời gian rất lớn,đồng thời, không thể đáp ứng cho đại đa số các ngôn ngữ
May mắn thay, gần đây, các mô hình học sẵn đa ngôn ngữ như multilingual
BERT (7) và XLM-Roberta (8|) xuất hiện và trở thành giải pháp cứu tinh để giải
quyết nhân tố quan trọng khi Học chuyển tiếp đa ngôn ngữ cho vô số bài toán
NLP nói chung và bài toán Phân tích cảm xúc theo khía cạnh nói riêng.
2.3 Mô hình học sẵn đa ngôn ngữ
Theo nghiên cứu (21, các ngôn ngữ ít tài nguyên có thể tan dung được nguồn
tài nguyên đã được gán nhãn có sẵn từ các ngôn ngữ giàu tài nguyên khác bằng
cách huấn luyện các biểu diễn đa ngôn ngữ bởi các mô hình đa ngôn ngữ như
mBERT [7], XLM-RoBERTa [8] Các mô hình này được huấn luyện bằng cách sử
dụng các kho ngữ liệu đơn ngữ từ nhiều ngôn ngữ khác nhau và có thể sử dụngtrong cài đặt đa ngôn ngữ nhờ có nhiều ngôn ngữ được học qua trong quá trình
học trước.
2.3.1 Multilingual BERT (mBERT)
Là mô hình cải tiến của BERT [38], các tham số của mBERT cũng được huấn
luyện trên 2 tác vụ: Masked language modeling (MLM) và Next sentence tion (NSP).
Trang 31predic-Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 16
* Đối với MLM, dé mã hóa ngữ cảnh hai chiều khi biểu diễn mỗi token, BERT
ngẫu nhiên che mặt nạ một số token và sử dụng các token lay từ ngữ cảnh
hai chiều để dự đoán các token mặt nạ đó
© Với NSP, mô hình sẽ dự đoán liệu hai câu có nằm kể nhau không để hiểu
hơn về mồi quan hệ giữa hai chuỗi văn bản
Unlabeled Ser ne Pair
Pre-training Fine-Tuning
HINH 2.3: Kiến trúc của mô hình BERT được trình bay trong (38).
Bên cạnh đó, mBERT là mô hình BERT được huấn luyện trên kho ngữ liệu da
ngôn ngữ ghép nồi từ 104 ngôn ngữ với phiên bản Wikipedia lớn nhát[]
Đồng thời, để giảm bớt tình trạng underfitting (đối với ngôn ngữ ít dữ liệu)
và overfitting, các kỹ thuật up-sampling và down-sampling được thực hiện thông
qua trọng số được làm mịn theo phương pháp liên tiến lũy thừa (Exponential
Smoothing).
2.3.2 XLM on RoBERTa (XLM-R)
Sau khi BERT được công bó, một trong số biến thể của BERT - RoBERTa được
giới thiệu bởi [48] RoBERTa là một biến thể mạnh của BERT được huấn luyện
trước trên kho ngữ liệu lớn hơn Biến thể này cho thấy tác vụ NSP có thể lượt bỏnếu các tham số mô hình được huấn luyện với tác vụ MLM trên kho ngữ liệu đủ
lớn.
XLM [49] cũng dựa trên BERT nhưng áp dụng các phương pháp cải tiến cho
việc huấn luyện trước các mô hình đa ngôn ngữ Kể từ đó, có nhiều phiên bản
Thttps:/ /github.com/google-research /bert/blob/master/multilingual.md
Trang 32Chương 2 BỒI CẢNH VA CÁC CÔNG TRINH LIEN QUAN 17
học trước của XLM; phiên bản lớn nhất được huấn luyện trước trên 100 ngôn ngữlay từ Wikipedia
XLM-R [3] chinh 1a phién ban cai tiến của XLM dựa trên mô hình RoBERTa
XLM-R được huấn luyện với tác vụ MLM đa ngôn ngữ trên dữ liệu của 100 ngôn
ngữ được lay từ Common Crawl (50) Trong đó có 88 ngôn ngữ giống với mBERT thể hiện ở HÌNH|¿.4]
az 2
Gần đây, các nghiên cứu bắt đầu khai thác tiềm năng của MMTs nhiều hon
khi cài đặt cho phương pháp Học chuyển tiếp
Đầu tiên phải kể đến Học chuyển tiếp Zero-shot cross-lingual dua trên môhình MMTs, trong đó, các mô hình học sẵn đa ngôn ngữ sẽ được tinh chỉnh trên
dữ liệu ngôn ngữ nguôn-ngôn ngữ giàu tài nguyên (đa số các nghiên cứu sử
dụng tiếng Anh), sau đó đánh giá trực tiếp trên tập dữ liệu kiểm tra của ngôn
ngữ đích Năm 2019, [51] cho thấy mô hình mBERT tốt không tưởng khi cài đặthướng tiếp cận Zero-shot cross-lingual cho bài toán POS tagging va NER, và chỉ
ra mô hình sẽ tốt hơn giữa các ngôn ngữ có liên quan Sau đó, Karthikeyan vàcác công sự tại nghiên cứu cũng chứng mình rằng mBERT hiểu quả khi Học
chuyển tiếp trên bài toán NER và NLI đối với tiếng Hindi, tiếng Tây ban Nha,
và tiếng Nga Đồng thời, nhóm cũng chỉ ra rằng hiệu quả việc Học chuyển tiếp
không phụ thuộc vào sự trùng lặp từ vựng giữa các ngôn ngữ, tuy nhiên, hiệu
Trang 33Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 18
suất sẽ ảnh hưởng bởi những ngôn ngữ giàu tài nguyên trên Wikipedia va nhóm
ngôn ngữ Indo-European Đặc biệt, nhóm nghiên cứu vào năm 2020 đã giới
thiệu XTREME, một chuẩn để đánh giá các mô hình đa ngôn ngữ (mBERT (71,
XLM [49], XLM-R [8], MMTE [54]) bao gồm 9 nhiệm vụ và 40 ngôn ngữ.
Bên cạnh sự phổ biến cũng như được công nhận từ mọi người, hướng tiếp
cận Học chuyển tiếp Zero-shot Cross-lingual vẫn còn tồn tại một số nhược điểmcần cân nhắc: phương sai lớn, không ổn định, bị thiên kiến về mặt ngôn ngữ (cụ
thể là tiếng Anh) ((55], [56|) Vì vay, [57] một lần nữa phân tích sâu giới hạn của
Zero-shot Cross-lingual và nhân mạnh sự nổi bật của hướng tiếp cận Few-shot
Cross-lingual Transfer Learning bằng cách thực hiện nhiều thí nghiệm trên nhiều
nhiệm vụ (POS tagging, Phân tích cú pháp phụ thuộc (Dependency parsing),
NER, NLI, QA) Ở hướng tiếp cận Few-shot Cross-lingual Transfer Learning, đầutiên các mô hình đa ngôn ngữ sẽ được tỉnh chỉnh trên ngôn ngữ nguồn, sau đó,tiếp tục tinh chỉnh với một lượng nhỏ di liệu ngôn ngữ đích và đánh giá tập
dữ liệu kiểm tra của ngôn ngữ đích Tiếp nối ý tưởng trên, có nhiều công trìnhnghiên cứu về hướng tiếp cận này trên nhiều bài toán cũng như trên nhiều ngôn
ngữ (54), (58) 62).
2.5 Phát biểu bài toán
Mặc dù các hướng tiếp cận của Học chuyển tiếp đa ngôn ngữ rất được quan
tâm và phát triển, tuy nhiên, có rất ít công trình trên bài toán Phân tích cảm xúc
theo khía cạnh nói chung và bài toán Phát hiện danh mục khía cạnh nói riêng (5Ì,
[63], [64]) Đặc biệt hơn, các công trình chỉ thực hiện với ngôn ngữ nguôn là tiếng
Anh và chưa khai thác nhiều đối với các mô hình học sẵn đa ngôn ngữ
Vì vậy, trong nghiên cứu này, chúng tôi sẽ thực hiện các hướng tiếp cận củaphương pháp Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình đa ngôn ngữ(mBERT và XLM-R) và đặc biệt, chúng tôi thí nghiệm với nhiều ngôn ngữ nguồn
khác nhau thuộc bộ dữ liệu lĩnh vực Nhà hàng cho bài toán Phát hiện danh mục
khía cạnh.
Bên cạnh đó, mục tiêu của bài toán ACD là nhận diện các danh mục khía cạnh
cho trước có đề cập trong bình luận/ đánh giá Như ví dụ ở HÌNH.1| đầu vào là
câu bình luận của người dùng; dau ra là 2 danh mục khía cạnh FOOD#QUALITY
Trang 34Chương 2 BOI CẢNH VA CAC CÔNG TRINH LIEN QUAN 19
và SERVICE#GENERAL Số lượng các danh mục khía cạnh sẽ tùy thuộc vào miền
dữ liệu của bộ dữ liệu Trong dé tài này, chúng tôi sử dụng miễn dix liệu Nha
hàng, bài toán sẽ phải xác định 12 danh mục khía cạnh từ câu bình luận của
khách hàng trên nhiều ngôn ngữ khác nhau bao gồm:
¢ Dau vào: Câu bình luận của khách hàng về lĩnh vực Nha hàng
¢ Đầu ra: Danh mục khía cạnh có sẵn được dé cập trong câu bình luận của
khách hàng.
Ví dụ:
* Dau vào: Thức ăn quán này ngon, nhưng phục vụ tệ quá
e Đầu ra: FOOD#QUALITY, SERVICE#GENERAL
Trang 35trong nghiên cứu.
3.1 Kiến trúc mô hình bài toán ACD
Labal
Fully Connected (Sigmoid activation)
Pre-trained Multilingual Language Model
Trang 36Chương 3 PHƯƠNG PHÁP 21
Đầu tiên, kiến trúc của mô hình bài toán Phát hiện danh mục khía cạnh dựa
trên mô hình học sẵn đa ngôn ngữ trong dé tài này được minh họa bởi HÌNHB.1|
Bài toán như đã được phát biểu ở Chương|2| đồng thời, mỗi câu bình luận/phản
hồi có thể có một hoặc nhiều danh mục khía cạnh Vì vậy, chúng tôi giải quyết bàitoán như một bài toán Phân lớp đa nhãn (Multi-label classification) Điều đó có
nghĩa là số lượng node trong lớp đầu ra (output layer) sẽ là số lượng của các danh
mục khía cạnh cho trước (cu thể, đối với dé tài này là 12)
Để giải quyết bài toán, đầu ra sẽ được biểu diễn dưới dang một véc-tơ nhị
phân với mỗi giá trị là 0 hoặc 1, tương ứng với các loại khía cạnh Vì vậy, chúng
tôi sử dụng một hướng tiếp cận đơn giản là cài đặt dựa trên các mô hình học sẵncho bài toán này Sau đó, chúng tôi trích xuất biểu diễn của token [CLS] tronglớp cuối như một biểu diễn đầu vào Biểu diễn này sẽ được đưa vào lớp Fully
Connected với Sigmoid Activation và dự đoán xác suất của các nhãn với giá
trị từ 0-1 Bởi vì xác suất của mỗi giá trị trong véc-tơ đầu ra là độc lập, chúng tôi
đặt một ngưỡng bằng 0.5 để quyết định nhãn Cuối cùng, chúng tôi sử dụng hàm
tính lỗi là Cross-Entropy [66].
3.2 Mô hình Học chuyển tiếp đa ngôn ngữ dựa trên
các mô hình học san đa ngôn ngữ
Trong phần này, chúng tôi sẽ trình bày các hướng tiếp cận của phương pháp
Học chuyển tiếp đa ngôn ngữ dựa trên các mô hình học sẵn đa ngôn ngữ mà đề
tài chúng tôi nghiên cứu Đặc biệt, các hướng tiếp cận này được xây dựng một
cách hệ thống dựa trên các câu hỏi nghiên cứu đã đặt ra ở Chương]
3.2.1 Hướng tiếp cận Zero-shot Cross-lingual Transfer Learning
Học chuyển tiếp Zero-shot cross-lingual hướng đến xây dựng một mô hình có
thể đánh giá trực tiếp dữ liệu kiểm tra của ngôn ngữ đích bằng cách sử dụng lại
kiến thức đã được học khi mô hình huấn luyện trên dit liệu ngôn ngữ nguồn
Dựa trên các mô hình học sẵn đa ngôn ngữ, chúng tôi cài đặt hướng tiếp cận
như HÌNH.2].
Trang 37Source Language Training Data Target Language Testing Data
HINH 3.2: Mô hình cài đặt theo hướng tiếp cận Zero-shot
Cross-lingual Transfer Learning.
Hướng tiếp cận được cài đặt theo 2 bước chính:
¢ Tinh chỉnh các mô hình đa ngôn ngữ mBERT và XLM-R trên ngôn ngữ
nguồn
© Chuyển tiếp và đánh giá trên ngôn ngữ dich
Khác với cách cài đặt của các công trình đi trước, ở nghiên cứu này, chúng tôi
tinh chỉnh mô hình trên nhiều ngôn ngữ nguồn khác nhau thay vì chỉ sử dụng
tiếng Anh
Bên cạnh đó, ở hướng tiếp cận này, chúng tôi phân thành 2 hướng thí nghiệm:
¢ Tinh chỉnh mô hình trên 1 ngôn ngữ nguồn
¢ Tinh chỉnh mô hình trên nhiều ngôn ngữ nguồn kết hợp
3.2.2 Hướng tiếp cận Cross-lingual Transfer Learning with
ad-ditional Target Language DataTuy chúng ta đều mong muốn một mô hình không cần bat cứ dữ liệu ngônngữ đích nào vẫn có thể giải quyết tốt bài toán trên ngôn ngữ đích đó, nhưng nếu
Trang 38Chương 3 PHƯƠNG PHÁP 23
chỉ cần làm một ít dix liệu mà có thể tăng hiệu quả cao thì phương án này vẫnđáng được xem xét Đây chính là động lực nhóm thực hiện hướng tiếp cận này và
hướng tiếp cận Few-shot Cross-lingual tương tự các công trình BÌ, (571, lỡ!
Ở hướng tiếp cận này, mô hình cài đặt không khác quá nhiều HÌNH
Chúng tôi tinh chỉnh hai mô hình mBERT và XLM-R trên bộ dữ liệu song ngữ
bao gồm 1 ngôn ngữ nguồn và một lượng K mẫu dữ liệu nhất định của ngôn ngữđích, trong đó K={10, 50, 100, 500, 1000} Sau đó, mô hình chuyển tiếp và đánh
giá trên ngôn ngữ đích Bên cạnh đó, chúng tôi cũng thử nghiệm trên 3 phương
pháp lấy mẫu dữ liệu:
® Lấy ngẫu nhiễn K mẫu dữ liệu huấn luyện của ngôn ngữ đích
e Dựa vào số lượng token của mỗi câu trong các bộ dữ liệu, chúng tôi thực
hiện các phương pháp lấy mẫu sau:
- Lấy K mẫu dữ liệu ngắn nhất trong bộ dữ liệu huấn luyện của ngôn
ngữ đích.
- Lay K mẫu dữ liệu dài nhất trong bộ dữ liệu huấn luyện của ngôn ngữ
đích.
3.2.3 Hướng tiếp cận Few-shot Cross-lingual Transfer Learning
Như đã trình bay ở hướng tiếp cận trên, hướng tiếp cận Few-shot
Cross-lingual cũng được hy vọng có thể đạt hiệu quả cao nhằm có thể giúp giảm thiểu
thời gian cũng như công sức khi làm dữ liệu trong lĩnh vực NLP nói chung và bài
toán ACD nói riêng, đặc biệt, có thể cải thiện nhược điểm của hai hướng tiếp cận
Zero-shot Cross-lingual và Cross-lingual Transfer Learning with additional
Tar-get Language Data trên ngôn ngữ it tai nguyên, khác họ ngôn ngữ với các ngôn
ngữ nguồn
Dựa trên cách cài đặt của E71 chúng tôi đầu tiên cũng tỉnh chỉnh hai mô hình
mBERT và XLM-R trên một ngôn ngữ nguồn, sau đó, chúng tôi tiếp tục quá trình
tinh chỉnh mô hình bằng một lượng K mẫu dé liệu nhất định của ngôn ngữ dich,
trong đó K={10, 50, 100, 500, 1000} Cuối cùng, chúng tôi tiến hành để mô hìnhđánh giá trên ngôn ngữ đích Cụ thể cách cài đặt mô hình theo hướng tiếp cận
này được mô tả bởi HÌNH.3]
Trang 39Pre-trained Multilingual Language Model ——— Pre-trained Multilingual Language Model > Pre-trained Multilingual Language Model
Eas E; m 2 Eos Ey
I a ¬
Source Language Training Data Target Language Training Data Target Language Testing Data
HINH 3.3: Mô hình cai đặt theo hướng tiếp cận Few-shot
Cross-lingual Transfer Learning.
Tương tự hướng tiếp cận Cross-lingual Transfer Learning with additional
Tar-get Language Data, ở hướng tiếp cận này chúng tôi cũng thực nghiệm trên 3phương pháp lay mẫu dữ liệu:
e Lấy ngẫu nhiễn K mẫu dữ liệu huan luyện của ngôn ngữ dich
© Lấy K mẫu dữ liệu ngắn nhất trong bộ dữ liệu huấn luyện của ngôn ngữ
đích.
° Lây K mẫu đữ liệu dài nhất trong bộ dữ liệu huấn luyện của ngôn ngữ đích
Trang 40Chương 4
TỔNG QUAN DỮ LIỆU
4.1 Bộ dữ liệu chuẩn SemEval2016
Ở nghiên cứu này, chúng tôi sử dụng các bộ dữ liệu chuẩn thuộc lĩnh vực Nhàhàng trên nhiều ngôn ngữ khác nhau được công bố ở cuộc thi về Phân tích cảm
xúc theo khía cạnh tổ chức bởi Hội thảo SemEval 2016 Task 5 [3].
Chúng tôi sử dụng có tat cả 6 bộ dữ liệu thuộc lĩnh vực Nhà hàng trên 6 ngônngữ bao gồm: tiếng Anh (en), tiếng Pháp (fr), tiếng Hà Lan (nl), tiếng Thổ Nhĩ Kỳ
(tr), tiếng Tây Ban Nha (es), tiếng Nga (ru) Dưới đây là BẢNG|4.1|mô tả ký hiệu
của các ngôn ngữ theo chuẩn ISO-639 mà chúng tôi sử dụng xuyên suốt khóa
luận.
Ngôn ngữ Ký hiệu Tiêng Anh en
Tiếng Pháp frTiéng Ha Lan nl
Tiếng Thổ Nhĩ Ky tr
Tiếng Tay BanNha esTiếng Nga ru
BẢNG 4.1: Ký hiệu của các ngôn ngữ trong bộ dữ liệu.
Bên cạnh đó, trước khi bắt đầu thực hiện các nghiên cứu chúng tôi có tìm hiểu
về mối quan hệ giữa các ngôn ngữ được nghiên cứu trong đề tài HÌNH la.1|biểu
diễn mối quan hệ về mặt từ vựng giữa các ngôn ngữ, đồng thời, cũng thể hiện
số lượng người nói các ngôn ngữ được tính tại thời điểm theo nghiên cứu của
K Tyshchenko (1999), Metatheory of Linguistics [69] Ngoại trừ nhóm Finno-Ugricmàu vàng không thuộc họ ngôn ngữ Indo-European, các nhóm còn lại đều thuộc