Nội dung chính của luận án như sau: Đối với bài toán adc định quan hệ bao thuộc Hypernymy Recognition - HR,luận án đề xuất một mô hình mạng nơ-ron học các vector nhúng từ chuyên biệt từc
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI VĂN TÂN
TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA
CUA TỪ DUA TREN HOC MAY THONG KE
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THONG TIN
Hà Nội - 2022
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI VĂN TÂN
TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA
CUA TỪ DUA TREN HỌC MAY THONG KE
Chuyén nganh: Khoa hoc may tinh
Mã số: 9480101.01
LUẬN ÁN TIEN SĨ CÔNG NGHỆ THONG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Phương Thái
Hà Nội - 2022
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án “Tu động xác định quan hệ ngữ nghĩa của
từ dựa trên học máy thống kê” là công trình nghiên cứu của riêng tôi Các số
liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từng đượccông bố trong bất kỳ một công trình nào khác
m Tôi đã trích dẫn day đủ các tài liệu tham khảo, công trình nghiên cứu liên quan
ở trong nước và quốc tế Ngoại trừ các tài liệu tham khảo này, luận án hoàn
toàn là công trình của riêng tôi.
m Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện rõ
ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng
gop.
m Luận án được hoàn thành trong thời gian tôi lam Nghiên cứu sinh tai Bộ môn
Khoa học máy tính, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ,
Đại học Quốc gia Hà Nội
Tác giả:
Hà Nội:
Trang 4LỜI CẢM ƠN
Trước hết, tôi muốn bày tỏ sự biết ơn đến PGS.TS Nguyễn Phương Thái, cán
bộ hướng dẫn, Thầy đã trực tiếp giảng dạy và định hướng tôi trong suốt thời gian
học nghiên cứu sinh và thực hiện luận án này Một vinh dự lớn cho tôi được học tập,
nghiên cứu dưới sự hướng dẫn của Thầy
Tôi xin bày tỏ sự biết ơn sâu sắc đến GS.TS Nguyễn Thanh Thủy, Trường
Đại học Công nghệ - Dai học Quốc Gia Hà Nội, PGS.TS Lương Chi Mai, Viện Công
nghệ Thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, PGS.TS Bùi Thu Lâm, Học viện Kỹ thuật Mật mã, TS Pham Van Lam - Viện Ngôn ngữ học -
Viện Hàn lâm Khoa học Xã Hội Việt Nam, TS Nguyễn Thị Minh Huyền, TS LêHuy Tiễn, Trường Đại học Khoa học Tự nhiên - Dai học Quốc Gia Hà Nội, PGS.TS
Thân Quang Khoát, PGS.TS Lê Thanh Hương, Trường Đại học Bách Khoa Hà Nội.
Tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS Nguyễn Việt Hà, PGS.TS Hà
Quang Thuy, TS Nguyễn Van Vinh, TS Trần Quốc Long, TS Lê Nguyên Khôi, TS.
Lê Đức Trọng cùng các Thầy Cô trong Bộ môn Khoa học máy tính, trường Đại họcCông nghệ - Đại học Quốc Gia Hà Nội vì sự hướng dẫn, giúp đỡ cũng như nhữngđóng góp rất hữu ích của các Thầy Cô cho luận án này
Tôi xin trân trọng cảm ơn Khoa Công nghệ thông tin, Phòng Đào tạo và
Ban giám hiệu trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội đã tạo điều
kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án
Tôi cũng bày tỏ sự biết ơn đến Trường Đại học Kinh tế Kỹ thuật Côngnghiệp đã tạo điều kiện về thời gian và tài chính cho tôi thực hiện luận án này Tôimuốn cảm ơn đến Ban chủ nhiệm, các cán bộ, giảng viên Khoa Công nghệ thông tin
- Trường Đại học Kinh tế Kỹ thuật Công nghiệp đã cổ vũ động viên và sát cánh bên
tôi trong suốt quá trình nghiên cứu
Tôi muốn cảm ơn đến tất cả những người bạn của tôi, những người luônchia sẻ, động viên tôi bất cứ khi nào tôi cần và tôi luôn ghi nhớ điều đó
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với cha mẹ, vợ, con vàgia đình đã luôn ủng hộ và yêu thương tôi một cách vô điều kiện Nếu không có sự
ủng hộ của gia đình tôi không thể hoàn thành được luận án này
NCS Bùi Văn Tân
il
Trang 5định quan hệ ngữ nghĩa của từ là thành phần quan trọng trong nhiều hệ thống NLPnhư xây dựng cơ sở tri thức từ vựng, dịch máy, phân tích quan điểm người dùng, hệ
thống hỏi đáp, v.v
Trong khoảng mười năm trở lại đây, với tiếp cận học sâu mạnh mẽ, lĩnh vực
NLP đã có bước phát triển nhanh chóng, có nhiều kết quả nghiên cứu mang tính đột
phá Tiếp cận học sâu hiện đại sử dụng các mạng nơ-ron nhiều tầng có cấu trúc phức
tạp Với sức mạnh xử lý vượt trội của các máy tính hiện đại, đặc biệt là các bộ xử
lý đồ họa, các kiến trúc học sâu có khả năng học từ một lượng rất lớn dữ liệu Mặc
dù vậy, để các mô hình NLP xử lý tốt đối với các bài toán có ít dữ liệu, dữ liệu cónhiễu hoặc hiểu được các thủ pháp nghệ thuật như ẩn dụ, hoán dụ, v.v vẫn còn là
một thách thức [73] Việc tích hợp thêm các mô hình xác định quan hệ ngữ nghĩa của
từ là một trong các cách tiếp cận để vượt qua những thách thức này.
Các tiếp cận cho bài toán tự động xác định quan hệ ngữ nghĩa giữa các từ (từ
hoặc khái niệm, thuật ngữ) có thể được chia thành hai tiếp cận chính: tiếp cận mẫu
từ vung - cú pháp và tiếp cận phân phối Tiép cận mẫu từ vựng - cú pháp còn được
gọi là tiếp cận đường dan, sử dung tập các mau từ vung - cú pháp để đoán nhận quan
hệ ngữ nghĩa của từ Quan hệ ngữ nghĩa giữa hai từ được xác định dựa vào các mẫu
đồng xuất hiện cùng chúng trong kho ngữ liệu Theo tiếp cận phân phối, các phươngpháp sử dụng thông tin phân phối của từng từ trong kho ngữ liệu một cách riêngbiệt, không đòi hỏi hai từ cần xác định quan hệ phải đồng xuất hiện trong kho ngữliệu Các phương pháp theo tiếp cận này được phân thành hai nhóm: thứ nhất, theo
tiếp cận không giám sát gồm các phương pháp dựa trên biểu diễn từ bằng vector, sau
đó sử dụng các độ đo không giám sát để phân tách quan hệ ngữ nghĩa; thứ hai, tiếpcận có giám sát gồm các phương pháp sử dụng mạng nơ-ron để phân lớp các quan hệ
Luận án này hướng đến nâng cao hiệu năng của các mô hình tự động xác định một
số quan hệ ngữ nghĩa của từ theo tiếp cận có giám sát, sử dụng các mô hình học máy
Trang 6để xác định bốn quan hệ ngữ nghĩa: quan hệ bao thuộc, quan hệ đồng nghĩa, quan hệ
trái nghĩa, và quan hệ tương đồng ngữ nghĩa Nội dung chính của luận án như sau:
Đối với bài toán adc định quan hệ bao thuộc (Hypernymy Recognition - HR),luận án đề xuất một mô hình mạng nơ-ron học các vector nhúng từ chuyên biệt từcác bộ ba gồm từ bao, từ thuộc và ngữ cảnh đồng xuất hiện của chúng Các vectornhúng từ học được phù hợp cho bài toán HR hơn các mô hình nhúng từ đã được đềxuất trước đó như Word2vec, fastText, GloVe, v.v Bên cạnh đó, những đặc trưng vềquan hệ ngữ nghĩa giữa các thành phần của các từ ghép đã được khai thác như lànhững dấu hiệu quan trọng giúp nhận ra quan hệ bao thuộc của cặp từ Luận án đã
đề xuất một thuật toán trích chọn những đặc trưng ngữ nghĩa mức dưới từ (SubwordSemantic Feature) Thuật toán được đề xuất không những mã hóa được quan hệ ngữ
nghĩa giữa các thành phần của cặp từ mà còn nắm bắt được cả thông tin vị trí của chúng trong các vector đặc trưng ngữ nghĩa mức dưới từ Để xác định quan hệ bao
thuộc của cặp từ, mô hình phân lớp có giám sát máy vector hỗ trợ (Support Vector
Machine) được sử dụng với đặc trưng đầu vào được kết hợp từ vector nhúng từ vàvector đặc trưng ngữ nghĩa mức dưới từ Kết quả thực nghiệm được đánh giá trên
một số bộ dữ liệu chuẩn của cả tiếng Anh, tiếng Việt đã chứng minh mô hình được
đề xuất trong luận án có hiệu năng cao hơn đáng kể so với các mô hình tốt nhất tại
thời điểm công bố Bên cạnh đó, luận án cũng xây dựng bộ dữ liệu VLE-999 dùng
để đánh giá mô hình cho bài toán xác định quan hệ bao thuộc trong tiếng Việt, công
bố bộ dữ liệu này cho cộng đồng nghiên cứu sử dụng Một số kết quả nghiên cứu liênquan đến bài toán này được trình bày trong các công bố [CTI], [CT8], và [CT9] trong
mục danh sách công trình khoa học.
Đối với bài toán phân tách các cặp từ theo quan hệ đồng nghĩa và trái nghĩa
(Antonymy-Synonymy Classification - ASC), luận án đã đề xuất mô hình DVASNet
- một mô hình mạng nơ-ron sử dụng không chỉ thông tin ngữ nghĩa phân phối của
các từ mà còn có khả năng khai thác thông tin ngữ cảnh đồng xuất hiện của cặp từ.Bên cạnh đó, mô hình DVASNet cũng khai thác những đặc trưng riêng của tiếng Việtnhư thông tin tương hỗ, quan hệ ngữ nghĩa giữa các thành phần của từ này với cácthành phần của từ kia trong một cặp từ, độ tương tự ngữ nghĩa giữ hai từ Kết quả
thực nghiệm được đánh giá trên một số bộ dữ liệu chuẩn tiếng Việt đã chứng minh
DVASNet trong luận án có hiệu năng cao hơn từ 14% đến 17% theo độ đo F1 so vớicác mô hình trước đây Thêm nữa, luận án đề xuất một mô hình xác định quan hệtrái nghĩa dựa trên mô hình nhúng từ chuyên biệt Theo đó, các cặp từ đồng nghĩa,
trái nghĩa được trích từ WordNet và từ điển được dùng để học một mô hình không
gian vector biểu diễn từ chuyên biệt, cùng với thông tin phân phối của từ trong kho
Trang 7ngữ liệu, mô hình nhúng từ này được mã hóa thêm các thông tin về quan hệ đồng
nghĩa, trái nghĩa Trong chương này, luận án đã xây dựng bộ dữ liệu ViAS-1000 phục
vụ nhu cầu đánh giá hiệu năng của các mô hình ASC, bộ dit liệu này được công bốcho cộng đồng nghiên cứu sử dụng Một số kết quả nghiên cứu liên quan đến bài toánnày được trình bày trong các công bố [CT5], [CT6], và [CT7] trong mục danh sách
công trình khoa học.
Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từ (Word SimilarityMeasurement - WSM), luận án đề xuất kỹ thuật ExtLeskSim đo lường độ tương tựngữ nghĩa của cặp từ sử dụng thông tin định nghĩa của từ Kết quả thực nghiệm đãcho thấy ExtLeskSim đạt hiệu năng cao đối với tiếng Việt Thêm nữa, luận án cũng
đề xuất lược đồ GraphSim để nâng cao hiện năng đo lường độ tương tự ngữ nghĩa của
các kỹ thuật WSM dựa trên mang từ Kết quả thực nghiệm trên bộ dữ liệu tiếng Anh
và tiếng Việt cho thấy GraphSim đã nâng cao đáng kể hiệu năng cho các kỹ thuật
WSM được áp dụng Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từ songngữ, luận án đã đề xuất một mô hình mạng nơ-ron học mô hình nhúng từ song ngữ
Việt - Anh Sử dụng mô hình nhúng từ song ngữ đã học được để đo lường độ tương
tự ngữ nghĩa cho các cặp từ song ngữ Việt-Anh Kết quả thực nghiệm đã chứng minh
mô hình được đề xuất đạt hiệu năng cao hơn so với các mô hình cơ sở Bên cạnh đó,luận án đã xây dựng bộ dữ liệu VSimLex-999, VESim-1000, công bố các bộ dữ liệunày cho cộng đồng nghiên cứu sử dụng Một số kết quả nghiên cứu liên quan đến bàitoán này được trình bày trong các công bố [CT2], [CT10], và [CT12] trong mục danh
sách công trình khoa học.
Tw khóa: quan hệ ngữ nghĩa, không gian vector ngữ nghĩa, nhúng từ, quan hệ
dong nghĩa, quan hệ trái nghĩa, quan hệ bao thuộc, quan hệ tương đồng ngữ nghĩa
Trang 8Bài toán xác định quan hệ ngữ nghĩa của tÈ 2
Hướng tiếp cận và phương pháp 3
Đóng góp của luận an 2 ee 5
Cấu trúc của luận án ee 6
Chương 1 KIÊN THỨC CƠ SỞ VÀ CÁC NGHIÊN CỨU LIÊN QUAN 8
11
1.2
Một số khái niệm cơ bản vềtừ §
111 Hình vị Qua 8 1.1.2 Twvanghiactat® 2 0 0 ee ee ee 9 1.1.3 Ngữ nghĩa từ vựng 0.20.00 0000004 10 1.1.4 Quan hệ ngữ nghĩa giữa các th 2 Q Q Q Q Q kỦ 10
1.1.5 Một số giả thuyết ngữ nghĩacơbảẩn 121.1.6 Mô hình ngữ nghĩa phân phối - 15
Trang 9Nội dung vii
Mạng nơ-ron hồi quy c5 CS S2 30
Quan hệ bao thuộc Q2 31
1.4.2 Một số nghiên cứu liên quan 35
Quan hệ đồng nghĩa - trái nghĩa - 4115.1 Đặt vấn đề ee 411.5.2 Một số nghiên cứu liên quan 42
Đo lường độ tương tự ngữ nghĩa giữa các tỪ Ặ 45
161 Đặt vấn đề ee 451.6.2 Một số nghiên cứu liên quan 47
Phân tích hạn chế của mô hình DWN_ 54
Đề xuất mô hình LERC 2 54
2.3.1 Mô hình DWN cải tien 2 2 ee 56
2.3.2 Tích hợp đặc trưng ngữ nghĩa mức dưới từ 60 2.3.3 Mô hình phân lớp quan hệ bao thuộc có giám sát 652.3.4 Phân tích ưu nhược điểm và tính mới của mô hình 67
Xây dựng bộ dữ liệu tiếng Việt DtVLE-999, DrVLE-999, DetVLE-999 67
2.4.1 Lựa chọn các cặp ti Ứng viÊn ee ee 68 24.2 Đánh giá dữ lệu vo 68
2.4.3 Thống kê dữ liệu co 69
Thực nghiệm Ặ Q Q Q ee 71 2.5.1 Bộ dữ liệu đánhgiá so 71
2.5.2 Huấn luyện các mô hình nhúng từ - 74
2.5.3 Đánh giámôhình Ặ So 76
2.5.4 Phân tích thống kê cẶ CS So 81
Tom tat chuong DDDỤŨẶĂẶĂẶĂÁÁ 87
Chương 3 PHAN TÁCH QUAN HE DONG NGHĨA - TRÁI NGHĨA
Đề xuất mô hình DVASNet Q2 93
Trang 10Nội dung viii
3.3.1 Các đặc trưng tĩnh ee ee, 94 3.3.2 Mô hình DVASNet 2 0.020.0 2000200000005 95
3.4 Xây dựng bộ dữ liệu ASC tiếng Việt 97
4.2 Đề xuất độ đo tương tu ee 105
4.2.1 Độ đo tương tự ExtLeskSim 105
4.2.2 Kỹ thuật GraphSim ee eee 107
4.3 Xây dựng bộ dữ liệu tiếng Viet 108
4.3.1 Dịch bộ dữ liệu SimLex-999 sang tiếng Việt 109
4.3.2 Đánh giá độ tương tuctacéaptt 0- 110
4.3.3 Một số thống kê trên bộ dữ liệu - 111
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 123
TÀI LIỆU THAM KHẢO 125
Trang 11Distinguishing Vietnamese Antonyms and Synonyms Neural Network Model
Dynamic Weighting
Neu-ral Network
Extend Dynamic
Weighting Neural
Network Hyperspace Analogue to Language
Hypernymy Recognition
Lexical Entailment
Recognition Combination
Lexicographer’s Mutual Information
Latent Semantic Analysis
ix
Diễn giải
Bài toán phân tách quan hệ
đồng nghĩa-trái nghĩa
Mô hình túi từ liên tục.
Mô hình ngữ nghĩa phân phối.
Mô hình mạng nơ-ron phân tách
quan hệ đồng nghĩa - trái nghĩa
Mô hình mạng nơ-ron với trọng
số động
Mô hình mạng nơ-ron với trọng
sô động cải tiên.
Mô hình Không gian ngữ nghĩa
tương tự của ngôn ngữ.
Bài toán xác định quan hệ bao thuộc.
Mô hình tích hợp xác định quan
hệ bao thuộc.
Thông tin tương hỗ theo từ điển.Phân tích ngữ nghĩa tiềm ẩn
Trang 12Danh mục các từ uiết tắt
LSRD
LSTM
MI PMI
WSP
Lexical Semantic Relation Determination
Long Short-Term Memory
Mutual Information Pointwise Mutual
Information
Shortest Paths
Skip-Gram
Dependency
Subword Feature Subword Pattern
Semantic
Semantic
Vietnamese
Computational Lexicon Vector-Space Model
Thông tin tương hỗ.
Thông tin tương hỗ theo từngđiểm
Đường phụ thuộc cú pháp ngắn
nhất
Kiến trúc mạng nơ-ron học biểu
diễn vector cho từ dựa trên dự
đoán từ ngữ cảnh khi biết từ
trung tâm.
Đặc trưng ngữ nghĩa mức dưới từ.
Mẫu ngữ nghĩa mức dưới từ.
Từ điển tiếng Việt cho máy tính
Mô hình không gian vector.
Bài toán đo lường độ tương tự ngữ nghĩa của cặp từ.
Mẫu cấu trúc từ
Trang 13DANH MỤC CÁC BANG
1.1 Thống kê độ dài các từ trong từ điển tiếng Việt 34
1.2 Các mẫu cú pháp - từ vung do Hearst đề xuất cho tiếng Anh, luận án
xác định các mẫu tương ứng trong tiếng Việt 37
2.1 Một số ví dụ về bộ ba ng va 55
2.2 Năm lược đồ tính trọng số chú ý - 592.3 Một số ví dụ theo giả thuyết và phản ví dụ 612.4 Thống kê số SSP và tỷ lệ các cặp từ xuất hiện SSP theo các quan hệ
bao thuộc, cùng thuộc, đồng nghĩa, trái nghĩa, phân nghĩa 622.5 Một vài ví dụ về các SSP xuất hiện trong các cặp bao thuộc 63
2.6 Một số toán tử kết hợp vector biểu dién từ tạo ra vector đặc trưng của
2.7 Phan phối các từ va các cặp từ của bộ dữ liệu trong Veorpus 702.8 Tỷ lệ phần trăm các từ theo miền trong bộ dữ liệu tiếng Việt 702.9 Số lượng các cặp từ theo các quan hệ trong các bộ dữ liệu tiếng Việt 702.10 Một số cặp từ trong các bộ dữ liệu BLESS, WBLESS, BiBLESS 722.11 Số lượng các từ và cặp từ theo quan hệ ngữ nghĩa của các bộ dữ liệu
tiếng Anh cho nhiệm vụ phát hiện quan hệ bao thuộc 73
2.12 Số lượng từ cặp từ từ bao - từ thuộc, từ thuộc - từ bao, và không có quan
hệ bao thuộc trong các bộ đữ liệu tiếng Anh cho hai bài toán: xác địnhchiều của quan hệ bao thuộc; phát hiện quan hệ bao thuộc đồng thờixác định chiều của quan hệ Ặ 732.13 Phan phối độ dài từ trong các bộ dữ lidu 2 73
2.14 Thong kê số từ, kích thước tập từ vung, số câu của kho ngữ liệu đơn
ngữ tiếng Việt, và tiếng Anh cv 74
2.15 Thống kê tập các bộ ba ding để huấn luyện mô hình DWN và EDWN 7ð
2.16 Đánh giá hiệu năng của các mô hình trên ba bộ dữ liệu tiếng Việt, sử
dụng độ do ÂCCUTACV 2 va 77
2.17 Hiệu năng của các mô hình phát hiện quan hệ bao thuộc trên bộ dữ
liệu tiếng Anh, sử dụng độ do Accuracy 79
Xi
Trang 14Hiệu năng của các mô hình phát hiện quan hệ và xác định hướng của
quan hệ bao thuộc trên các bộ dữ liệu tiếng Anh, sử dụng độ do Accuracy 81
So sánh hiệu suất của mô hình EDWN với các sơ đồ trọng số chú ý
khác nhau cho bài toán HR 2 Ặ Q Q Q Q Q Ủ 84
Thống kê bộ dữ liệu ViAS-1000 00.00 ee ee ee 98Một số vi dụ về ngữ cảnh đồng hiện - 100
Tỷ lệ xuất hiện mẫu cấu trúc từ của trái nghĩa/đồng nghĩa trong tiếng
Veto ÔôÔỒộ aaHIaadaa 101
Trung bình cộng của giá trị PMI/LMI của các cặp từ đồng nghĩa/trái
nghĩa LH HQ ng ng ng kg kg v kg vi kia 101
Hiệu năng của mô hình DVASNet so với các mô hình co sở 102
Thống kê số cặp từ có độ tương tự bằng 0 hoặc A lớn trong 999 cặp từ
thuộc bộ SimLex-999 2 Q2 107
Một số cặp từ trong bộ VSimLex-999 và cặp từ tương ứng trong bộ dữliệu gốc SimLex-999 ee 118Kết quả đánh giá hiệu năng theo độ tương quan Pearson của các mô
hình trên bộ dữ liệu VSimLex-999 và SimLex-999 119
Một số cặp của bộ dữ liệu VSimLex-999 có tần số đồng xuất hiệncao/thấp trong kho ngữ liệu 2 2 Ặ c c se 119Hiệu năng theo độ đo hệ số tương quan Pearson của các kỹ thuật
ExtLeskfim ee 120
Kết quả thực nghiệm thuật toán cải tiến 120
Độ tương tự một số cặp từ được đo bởi mô hình gốc (Wu và Palmer)
so với mô hình cải tiến (Graph8im) - 120
Thống kê số cặp từ có độ tương tự bằng 0 hoặc A lớn trong kết quả
thực hiện với thuật toán cải tiến 120
Trang 15DANH MỤC CÁC HÌNH VẼ
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
Một số tiếp cận về biểu diễn ngữ nghĩa của từ vung 2 2
Minh họa trực quan giả thuyết Tập quan hệ ngữ nghĩa 4
Kiến trúc các tầng ngữ nghĩa ốc 10 Mô hình không gian vector ngữ nghĩa phân phối của từ 16
Ma trận đồng xuất hiện Từ - Tài liệu 18
Ma trận đồng xuất hiện Từ - Ngữ cảnh 19
Một phân nhóm các mô hình nhúng tỪ 22
Hai kiến trúc mạng của mô hình Word2Vec 24
Kiến trúc mạng nơ-ron Context2Vec [77] 28
Một ví dụ trực quan về quan hệ giữa các từ thuộc với từ bao 32
Một phân nhóm các phương pháp xác định quan hệ bao thuéc 36
Một phần cây phân loại trong WordNet tiếng Việt (a) và WordNet tiếng “1021 -šẽšẽ ẶäÁẶẶẽ.Ẽ 4ï Mô hình mạng nơ-ron trọng số động - DWN [71] 54
Tổng quan về mô hình LERC - 55
Kiến trúc mang nơ-ron của mô hình EDWN 57
Tỷ lệ phần trăm của các SSP xuất hiện trong các cặp bao thuộc, cùng thuộc, trái nghĩa, đồng nghĩa, phân nghĩa - 63
Hình mình họa vector đặc trưng tổng của các cặp bao thuộc (đường màu xanh), và các cặp không có quan hệ bao thuộc (đường màu đỏ), thuộc bộ dữ liệu VLE-999 và Ontolearn 66
Sự phân bố của các cặp từ theo mức độ tương đồng ngữ nghĩa trong các quan hệ trên ba bộ dữ liệu tiếng Việt 70
Hình ảnh trực quan về sáu cây phân cấp từ vựng trong bộ dữ liệu Ontolearn ee 72 Phân phối của các bộ ba theo độ dài của ngữ cảnh 75
Mức độ cải thiện hiệu nang của các mô hình khi được sử dung thêm dac trung SSF 77
xiii
Trang 16Danh muc các hình vé xiv
2.10 Ty lệ % của mức độ cải thiện hiệu năng của các mô hình khi được kết
hợp với đặc trưng SSF, đánh giá trên các bộ dữ liệu tiếng Anh 802.11 Minh họa về tác động tích cực và tiêu cực của đặc trưng SSF đối với
hiệu suất của mô hình LERC 83
2.12 Hình ảnh trực quan về độ chính xác của mô hình EDWN và LERC qua
30 lần ap ee 85
2.13 Sự thay đổi hiệu năng của mô hình EDWN theo giá trị hyperparameter
8 (a), và sự hội tụ của EDWN so với DWN (b) 86
3.1 Kiến trúc mạng nơ-ron của mô hình AntSynNET 89
3.2 Cây cú pháp của câu "con của ông từ một thanh niên lười biếng giờ trổ
thành người chăm chỉ can ct", oe 90
3.3 Hình minh họa một số mẫu cấu trúc từ của các cặp trái nghĩa/đồng
nghĩa ee 923.4 Tổng quan về mô hình phân tách cặp từ đồng nghĩa-trái nghĩa tiếng Việt 93
3.5 Kiến trúc mạng nơ-ron DVASNet cho bài toán phân lớp quan hệ đồng
nghĩa-trái nghĩa © ee 96
3.6 Hình minh họa kết quả thống kê các bộ ba - 99
4.1 Một phần đồ thị tương tự của các cặp tỪ 1084.2 (a) Phân phối các cặp từ của SimLex-999 và VSimLex-999 theo độ đo
tương tự (b) Phân phối các cặp từ của VSimLex-999 và các bộ dữ liệu
tương ứng của tiếng Đức, Ý, Nga theo độ đo tương tự 111
4.3 Hiệu năng của các mô hình đo độ tương tự khác nhau theo độ tương
quan Pearson, đánh giá với bộ dữ liệu tiếng Anh và tiếng Việt 1134.4 Hiệu năng của kỹ thuật ExtLeskSim theo hệ số tương quan Pearson 114
4.5 Minh họa trực quan hiệu năng của mô hình GraphSim so với các kỹ
thuật gốc (a) - Đánh giá trên bộ dữ liệu tiếng Việt VSimLex-999; (b)
- Đánh giá trên bộ dữ liệu tiếng Anh SimLex-999 115
Trang 17DANH MỤC CÁC THUẬT TOÁN
1 Thuật toán trích chọn vector đặc trưng ngữ nghĩa mức dưới từ của một
cặp từ (FeatEXi) HQ HQ ee 65
2 Thuat toán do độ tương tự ngữ nghĩa giữa các từ (GraphSim) 117
3 _ Thuật toán tim đường đi ngắn nhất giữa mọi cặp đỉnh trên đồ thị
(Floyd-Warshall) ee 118
XV
Trang 18MỞ ĐẦU
Đặt vân đê
Lĩnh vực nghiên cứu zử ly ngôn ngữ tự nhiên (Natural Language Processing - NLP)
nhắm đến mục đích làm cho máy (như: máy tính, robot, thiết bị thông minh, v.v) cóthể hiểu được ngôn ngữ tự nhiên của con người Những năm gần đây, cùng với sự pháttriển nhanh chóng của lĩnh vực học máy đã kéo theo những bước phát triển mangtính đột phá của lĩnh vực NLP Dang chú ý là bên cạnh hướng tiếp cận biểu tượng(Symbolic Approach) vốn dựa trên các luật hay từ điển được xây dung thủ công, đã
xuất hiện những hướng tiếp cận mới "mạnh mẽ" như học sâu (Deep Learning), sử
dụng các mạng nơ-ron nhiều tầng có cấu trúc phức tạp Với sức mạnh xử lý vượt trội
của các máy tính hiện đại, đặc biệt là các bộ xử lý đồ họa, các kiến trúc học sâu có
khả năng hoc từ một lượng rất lớn dit liệu Ngày càng có nhiều hệ thống NLP chứng
minh được khả nang "thong minh" một cách đáng kinh ngạc nhờ kha năng hoc của
của mô hình học sâu Mặc dù vậy, vẫn còn một khoảng cách giữa hiệu năng của các
mô hình và kỳ vọng của con người [22, 73] Linh vực NLP van tồn tại những thách
thức cơ bản như: một số bài toán có ít dữ liệu, dữ liệu có nhiều nhiễu; hiểu được các
thủ pháp nghệ thuật như ẩn dụ, hoán dụ Việc tích hợp thêm các mô hình xác địnhquan hệ ngữ nghĩa của từ là một trong các cách tiếp cận để vượt qua những thách
thức này Do đó, Trong những năm gần đây bài toán zác định quan hệ ngữ nghĩa của
từ vung (Lexical Semantic Relation Determination - LSRD) đã trở thành một trong
những chủ dé nghiên cứu quan trong trong NLP [91, 124, 125, 138}
Xác định quan hệ ngữ nghĩa của từ là chủ dé nghiên cứu được quan tâm của nhiều
ngành từ thời cổ đại Những nghiên cứu gần đây về cấu trúc ngữ nghĩa, cách thức tổchức từ vựng đã thúc đẩy những quan điểm mới về các quan hệ ngữ nghĩa của từ vựng
Trong vài thập kỷ qua, lĩnh vực lý thuyết ngôn ngữ đã có những nghiên cứu xác định
những đặc trưng của các quan hệ ngữ nghĩa như đồng nghĩa, trái nghĩa, bao thuộc, dong âm, da nghĩa, tương tự ngữ nghĩa, liên quan ngữ nghĩa [30, 53, 54, 91, 124], v.v.
Các quan hệ này được thể hiện rõ trong các cơ sở dữ liệu từ vựng lớn như WordNet,
1
Trang 19Mỏ đầu 2
BabelNet Gần đây hơn, các quan hệ ngữ nghĩa từ vựng đã trở thành chủ đề nghiêncứu chính của ngôn ngữ học tính toán, khi chúng là một tiếp cận thuận tiện và tự
nhiên để tổ chức một lượng lớn dữ liệu từ vựng bằng những bản thể hoc (Ontology),
WordNet [1, 97] hay từ điển [98] Do đó, xác định chính xác quan hệ ngữ nghĩa giữa
các từ là chìa khóa để nâng cao hiệu năng cho nhiều ứng dung NLP quan trọng
[22, 109] Mặc dù vậy, trong tiếng Việt, các nghiên cứu về bài toán này chủ yếu tập
trung trong lĩnh vực ngôn ngữ học thuần túy [53, 54] Cho đến thời điểm hiện tại,
vẫn chưa có nhiều nghiên cứu về các quan hệ ngữ nghĩa từ vựng tiếng Việt theo tiếp
cận của ngôn ngữ học tính toán, có thể áp dụng cho các hệ thống NLP [95] Do đó,
xác định quan hệ ngữ nghĩa của từ là một bài toán quan trọng và có ý nghĩa trong
tiếng Việt
Bảng 1 : Các đặc trưng về loại kết quả đầu ra, quan hệ ngữ nghĩa, và ngôn
ngữ, của ba bài toán được nghiên cứu trong luận án.
¬ Đặc trưng Đặc trưng quan Đặc trưng ngôn Bài toán x ^ ~
dau ra hệ ngữ
Định Định Đối Bat đối Tiếng Tiếng
tính lượng xứng xứng Anh Việt
HR v v v v
ASC v v v
WSM v v v v
Tiếp cận ngữ nghĩa Tiếp cận ngữ nghĩa Tiếp cận kết hợp giữa
hình thức phân phối hình thức và phân phối
Tiếp cận dự đoán Tiếp cận đếm dựa trên mạng nơ-ron dựa trên thống kê
(Distributed Representation) (Distributional Representation)
Độc lập ngữ cảnh Phụ thuộc ngữ cảnh
Hình 1 : Một số tiếp cận về biểu diễn ngữ nghĩa của từ vựng
Bài toán xác định quan hệ ngữ nghĩa của từ
Xác định quan hệ ngữ nghĩa giữa hai từ đóng vai trò quan trọng đối với nhiềuứng dụng NLP như xây dung cây ngữ nghĩa [37, 88, 123], phát hiện kế thừa văn bản
Trang 20Mỏ đầu 3
[18], hỏi đáp tự động [20], tóm tắt văn ban [29], v.v Các quan hệ ngữ nghĩa từ được
nghiên cứu nhiều nhất là đồng nghĩa, trái nghĩa, bao thuộc, tương tự ngữ nghĩa, cùng
thuộc, phân nghĩa, v.v Các mô hình xác định quan hệ ngữ nghĩa của từ có thể được
chia thành ba nhóm, gồm dựa trên các mau cú pháp - từ vung [141], dựa trên tiếp cậnngữ nghĩa phan phối [34, 76, 136], hoặc tiếp cận kết hợp [93, 120] Các phương pháptiếp cận dựa trên mau cú pháp - từ vung tìm kiém các mau đồng xuất hiện của các từ
(cụm từ, khái niệm, thuật ngữ, v.v), các mau có thể được biểu diễn bằng đường dẫn
từ kết nối w và v trong kho ngữ liệu Do đó, mọi cặp từ ứng viên (u,v) được biểu thị
bang tập hợp các đường dẫn từ kết nối w và ø trong kho ngữ liệu Các phương pháp
theo tiếp cận ngữ nghĩa phân phối dựa trên việc mô hình hóa các thông tin phân phốicủa từng từ riêng biệt trong kho ngữ liệu, các từ ứng viên u,v không nhất thiết phảiđồng xuất hiện với nhau Chi tiết hơn về các nghiên cứu liên quan của các bài toánxác định quan hệ bao thuộc, phân tách quan hệ đồng nghĩa - trái nghĩa, đo lường độtương tự ngữ nghĩa của cặp từ được trình bày lần lượt trong các phần 1.4.2, 1.5.2 và
1.6.2.
Hướng tiếp cận và phương pháp
Các nghiên cứu trước đây về biểu diễn ngữ nghĩa của từ vựng có thể được chia
thành ba tiếp cận chính gồm ngữ nghĩa hình thúc, ngũ nghĩa phân phối, và tiếp cận
kết hợp Tiép cận ngữ nghĩa hình thức dựa trên các ký hiệu và tập trung vào các thuộc
tính suy luận của ngôn ngữ, tiếp cận ngữ nghĩa phân phối có tính chất thống kê vàdựa trên dữ liệu, tập trung vào các khía cạnh ý nghĩa liên quan đến nội dung mô tả
[22] Khảo sát các nghiên cứu liên quan [76, 86, 91, 124, 131], luận án trực quan hóa
các tiếp cận này bằng Hình 1 Gần đây, luận án của Soler [124] đã khai thác các mô hình nhúng từ theo ngữ cảnh cho các bài toán biểu diễn ngữ nghĩa của từ trong ngữ
cảnh, đo lường mức độ giống nhau về cách sử dụng từ, tính đa nghĩa và phân táchcác nghĩa thành phan của từ Mặc dù tác giả cũng sử dụng hướng tiếp cận ngữ nghĩa
phân phối như chúng tôi nhưng luận án của Soler nhấm đến giải quyết các bài toán
ngữ nghĩa của từ trong ngữ cảnh, hay nói cách khác là sử dụng tiếp cận phụ thuộc
ngữ cảnh.
Trong luận án này, chúng tôi sử dụng tiếp cận ngữ nghĩa phân phối dựa trên mạng
nơ-ron (Hình 1), sử dụng các mô hình học máy, học sâu để xác định bốn quan hệ
ngữ nghĩa của từ bao gồm bao thuộc, đồng nghĩa, trái nghĩa, tương tự ngữ nghĩa Các
nghiên cứu trước đây xác định quan hệ ngữ nghĩa của từ chỉ sử dụng thông tin ngữ
nghĩa của các từ ứng viên, điều này dẫn tới các hạn chế đối với các ngôn ngữ "nghèo"
Trang 21Mỏ đầu 4
tài nguyên, hoặc các lĩnh vực chuyên biệt Để khắc phục nhược điểm này, luận án đưa
ra giả thuyết tập quan hệ ngữ nghĩa, theo đó "Quan hệ ngữ nghĩa giữa hai từ có thể
được định vi thông qua méi quan hệ giữa các từ có quan hệ uới chúng" Giả thuyết này
được minh họa trực quan bằng Hình 2, được sử dụng xuyên suốt trong thiết kế mô
hình giải quyết các bài toán của luận án theo hai tiếp cận chính là tich hợp các quan
hệ ngũ nghĩa uào không gian vector nhúng từ và biểu diễn các quan hệ ngữ nghĩa bằng
cau trúc đô thị qua đó khai thác các độ đo trên đồ thị, học biểu diễn dựa trên đồ thi
Hình 2 : Minh họa trực quan giả thuyết Tập quan hệ ngữ nghĩa
Luận án này nhắm đến giải quyết ba bài toán gồm: Xác định quan hệ bao thuộc
(Hypernymy Recognition - HR); phân tách các cặp từ theo quan hệ đồng nghĩa - trái
nghĩa (Antonymy-Synonymy Classification - ASC); đo lường độ tương tự ngữ nghĩa
của cặp từ (Word Similarity Measurement - WSM) Bảng 1 trình bày tóm tắt các
đặc trưng về kết quả đầu ra, quan hệ ngữ nghĩa, và ngôn ngữ, của ba bài toán được
nghiên cứu trong luận án này.
Đối với bài toán xác định quan hệ bao thuộc, luận án sử dụng hai chiến lược chính
Thứ nhất, học được các biểu diễn vector "chuyên biệt" cho từ bằng một mô hình mạng nơ-ron Biểu diễn vector chuyên biệt này không những chứa thông tin ngữ nghĩa của
từ như các biểu diễn nhúng từ thông thường (Word2vec, GloVe, fastText, v.v) mà
còn mã hóa những đặc trưng của quan hệ bao thuộc Thứ hai, khai thác những đặc
trưng về cấu trúc của các từ ghép và thuật ngữ Bằng cách kết hợp vector nhúng từ
chuyên biệt với vector đặc trưng cấu trúc của từ, mô hình được đề xuất trong luận
án đã cải thiện hiệu năng đáng kể cho bài toán so với các mô hình tốt nhất tại thời
điểm công bố
Đối với bài toán phân tách các cặp từ có quan hệ đồng nghĩa, trái nghĩa, luận án
sử dụng hai chiến lược chính Thứ nhất, khai thác thông tin ngữ cảnh đồng xuất hiện
của cặp từ, thông tin này được mã hóa thành vector bởi một mô hình mạng no-ron.
Thứ hai, khai thác những đặc trưng riêng của tiếng Việt như các mẫu cấu trúc từ
thể hiện mối quan hệ ngữ nghĩa giữa các thành phan của từ nay uới các thành phancủa từ kia, thông tin tương hỗ giữa các từ, độ tương tự ngữ nghĩa của cấp từ, giúp mô
Trang 22Mỏ đầu b
hình phân tách tốt hơn các cặp từ theo quan hệ đồng nghĩa, trái nghĩa Bên cạnh bàitoán phân tách cặp từ theo quan hệ đồng nghĩa, trái nghĩa, luận án đề xuất một môhình phát hiện quan hệ trái nghĩa, theo đó các cặp từ đồng nghĩa, trái nghĩa được
trích từ WordNet và từ điển được dùng để học các biểu diễn vector chuyên biệt cho
từ Những vector nhúng từ chuyên biệt này được mã hóa thêm các thông tin về quan
hệ đồng nghĩa, trái nghĩa Thêm nữa, những đặc trưng về quan hệ ngữ nghĩa của cặp
từ cũng được khai thác để tăng hiệu năng của mô hình
Đối với bài toán đo lường độ tương tự của cặp từ, luận án đã đề xuất những cải
tiến nhằm tăng độ chính xác của phép đo đối với cả các cặp từ đơn ngữ và song ngữ.
Để lượng giá chính xác hơn độ tương tự của cặp từ, chiến lược thứ nhất là áp dụng
thuật toán tìm đường đi tối ưu giữa các đỉnh của đồ thị để đo khoảng cách ngữ nghĩa ngắn nhất giữa các từ Chiến lược thứ hai, luận án khai thác thông tin định nghĩa
của các từ với giả thuyết rằng độ tương tự ngữ nghĩa giữa hai từ tương quan tới múc
độ tương tự ngữ nghĩa giữa các định nghĩa của chúng.
Đóng góp của luận án
Mục tiêu của luận án hướng đến nâng cao hiệu năng của các mô hình tự động xácđịnh bốn quan hệ ngữ nghĩa của từ gồm bao thuộc, đồng nghĩa, trái nghĩa, tương tự
ngữ nghĩa Những đóng góp chính của luận án như sau:
- Đối với bài toán xác định quan quan hệ bao thuộc, luận án đã đề xuất một cải
tiến cho mô hình mạng nơ-ron có trọng số động (Dynamic Weighting Neural Network
- DWN) được đề xuất bởi Anh Tuan Luu và cộng sự [71] Mô hình cải tiến được gọi
là EDWN, có khả năng học các vector nhúng từ chuyên biệt, các vector nhúng này
được "chuyên biệt hóa" các đặc trưng về ngữ nghĩa, qua đó phù hợp cho bài toán xácđịnh quan quan hệ bao thuộc hơn so với các mô hình nhúng từ đã được đề xuất trước
đó như Word2Vec, fastText, GloVe v.v Luận án đã xác định các đặc trưng ngữ nghĩa
mức dưới từ, và đề xuất một thuật toán trích chọn những đặc trưng này Để xác định
quan hệ bao thuộc, luận án đề xuất mô hình LERC, mô hình này đã sử dụng đặctrưng đầu vào được kết hợp từ vector nhúng từ và vector đặc trưng ngữ nghĩa dưới
từ Kết quả thực nghiệm được đánh giá trên một số bộ dữ liệu chuẩn của cả tiếng
Anh, tiếng Việt đã chứng minh mô hình được đề xuất trong luận án có hiệu năng cao
hơn đáng kể so với các mô hình tốt nhất tại cùng thời điểm Những đóng góp đối với
bài toán này được trình bày trong [CT1], [CT8], và [CT9].
Trang 23Mỏ đầu 6
- Đối với bài toán phân tách các cặp từ theo quan hệ đồng nghĩa, trái nghĩa, luận
án đã đề xuất mô hình mạng nơ-ron DVASNet Mô hình này không những sử dụng cácđặc trưng phân phối của từ trong kho ngữ liệu mà còn khai thác được các thông tin
về cấu trúc của từ Kết quả thực nghiệm trên một số bộ dữ liệu chuẩn đã chứng minh
mô hình DVASNet đạt hiệu năng cao hơn đáng kể so với năm mô hình cơ sở, cụ thể:
theo độ đo hồi tưởng, hiệu năng của mô hình DVASNet cao hơn các mô hình cơ sở từ
22% << 32% trên bộ dữ liệu ViCon va từ 33% — 66% trên bộ dữ liệu ViAS-1000; theo
độ đo F1, hiệu năng của mô hình DVASNet vượt trội các mô hình cơ sở từ 8% ©— 15% trên bộ dữ liệu ViCon và từ 29% «+ 33% trên bộ dữ liệu ViAS-1000 Những đóng góp
đối với bài toán này được trình bày trong [CT5], [CT6], và [CT7]
- Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từ, luận án đề xuất mô
hình GraphSim để nâng cao hiệu năng đo lường độ tương tự ngữ nghĩa của cặp từtiếng Anh dựa trên thuật toán tìm đường đi ngắn nhất trên đồ thị Thêm nữa, luận
án đề xuất mô hình ExtLeskSim, là một cải tiến của thuật toán Lesk để nó hoạt động
hiệu quả hơn với đặc trưng của tiếng Việt Đối với bài toán đo lường độ tương tự ngữnghĩa của cặp từ song ngữ, luận án đã đề xuất một mô hình mạng nơ-ron học không
gian nhúng từ song ngữ Việt - Anh Sử dụng không gian nhúng từ song ngữ để đo
lường độ tương tự ngữ nghĩa cho các cặp từ song ngữ Việt - Anh Bên cạnh đó, luận
án đề xuất mô hình WEWD để đo lường độ tương tự ngữ nghĩa cho các cặp từ song
ngữ Việt - Anh dựa trên thông tin phân phối và định nghĩa của từ Những đóng gópđối với bài toán này được trình bày trong [CT2], [CT10], và [CT12]
- Bên cạnh đó, luận án đã xây dựng bốn bộ dữ liệu đánh giá mô hình xác địnhquan hệ ngữ nghĩa, bao gồm: VLE-999, ViAS-1000, VSimLex-999, và VESim-1000
Câu trúc của luận án
Luận án bao gồm phần Mở đầu, bốn chương, và phần Kết luận:
Phần Mở đầu Giới thiệu về bài toán xác định quan hệ ngữ nghĩa của từ dựatrên tiếp cận học máy thống kê Đề cập ý nghĩa và tính cấp thiết của luận án, tổng
quan về bối cảnh nghiên cứu, động lực, mục tiêu, phạm vi, nội dung nghiên cứu, cùng
Trang 24Phan Kết luận Trình bày các kết luận cũng như những điểm hạn chế của luận
án, và đưa ra những hướng nghiên cứu tiếp theo của luận án
Trang 25Chương 1
KIÊN THỨC CƠ SỞ VÀ CÁC NGHIÊN
CUU LIEN QUAN
Trong chương nay, luận án trình bày những kiến thức cơ sở được sử dung trong
các chương tiếp theo Mở đầu, Mục 1.1 trình bày một số khái niệm cơ bản về từ và
ngữ nghĩa của từ, một số giả thuyết ngữ nghĩa cơ bản Luận án cũng giới thiệu về hai
mô hình biểu diễn ngữ nghĩa bằng không gian vector gồm mô hình ngữ nghĩa phân
phối và mô hình nhúng từ (Mục 1.2) Bên cạnh đó, chương này cũng trình bày tổng
quan, phân tích đánh giá các công trình nghiên cứu liên quan và đưa ra các vấn đề
còn tồn tại mà luận án sẽ giải quyết về ba bài toán gồm zác định quan hệ bao thuộc
(Mục 1.4), phân tách quan hệ đồng nghĩa - trái nghĩa (Mục 1.5), và đo lường độ tương
tu ngữ nghĩa của cap từ (Mục 1.6).
1.1 Một số khái niệm cơ bản về từ
1.1.1 Hình vị
Hình vị (Morpheme) hay từ fố, ngỡ tố là đơn vị nhỏ nhất có nghĩa của ngôn ngữ,
chúng tồn tại bằng cách lặp đi lặp lại dưới cùng một dạng hoặc dưới dạng tương đối
giống nhau trong các từ [150] Hình vị có thể đứng riêng một mình hay bị lệ thuộc.
Ví dụ:
Một số hình vị tiếng Anh: house, man, black, sleep, walk, v.v
Một số hình vị tiếng Việt: nhà, người, đẹp, tốt, đi, làm, v.v
Tiếng Việt là một ngôn ngữ đơn lập (hay còn gọi là ngôn ngữ cách thể) nên một hình
vị là một fiếng hay một chữ
Trang 26Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 9 1.1.2 Tw và nghĩa của từ
Từ là đơn vị cơ bản của ngôn ngữ, có thể dé dàng tách khỏi chuỗi âm thanh lời
nói, có cấu trúc hình thức chặt chẽ, có nội dung ý nghĩa hoàn chỉnh và được sử dụng
như là những vật liệu có săn để tạo ra những đơn vị thông báo Từ có thể làm tên
gọi của sự vật (danh từ), chỉ các hoạt động (động từ), trạng thái, tính chất (tính từ),
v.v Từ là công cụ biểu thị khái niệm của con người đối với hiện thực.
Trong tiếng Việt, ngoài các từ đơn còn có các đơn vị có tính chất và chức năng như
từ, chúng được gọi là những đơn ui tương đương từ như: từ phức (hạnh phúc, xanh
ri, v.v), thuật ngữ (OSI, ozit bazơ, cây cân bang, v.v), quán ngữ (vui như tết, buồnnhư trấu căn, khôn nhà dại chợ, v.v), thành ngữ (bút Nam Tào, dao thay thuốc; nếm
mật nam gai; hoc thay không tàu học ban, v.v) Trong phạm vi của dé tài, luận án chỉ
nghiên cứu một số quan hệ ngữ nghĩa của từ đơn, từ phức và thuật ngữ (sau đây
gọi chung là từ).
Trong ngữ nghĩa học từ vựng, nghia (Meaning) và nghĩa thành phan (Sense) của
từ là hai khái niệm cơ bản Theo Nguyễn Thiện Giáp [32], nghĩa thành phần của từ
là cái sở biểu của từ; Nghia của từ là mối quan hệ giữa năng biểu và sở biểu, nó là
quan hệ của từ với cái gì đó nằm ngoài bản thân nó.
Nghĩa của từ là một hiện tượng phức tạp, bao gồm một số thành tố đơn giản hơn
như nghĩa sở biểu, nghĩa sở thị, nghĩa sở chỉ, nghĩa sở dụng, nghĩa ngữ pháp [32] Một
từ có thể có một hoặc nhiều nghĩa thành phần, nói cách khác, nghĩa thành phần là
sự thể hiện rời rac về nghĩa của từ Ví dụ, một số nghĩa thành phan của từ di được
liệt kê trong WordNet tiếng Việt như sau:
— Địi: làm cho thú gi đó di qua hay đưa đến nơi nào đó, ví dụ: "đi dâu điện ra sau
?
tu".
— Dig: di hay di qua một quãng đường, ví du: "chiếc xe này có thể di được 150 ki
16 mét mét gid".
— Dis: (tàu xe) có trang thái nào đó khi lái, ví du: "ze di rất tốt"
— Dig: đi trên, di doc theo hoặc di qua, ví dụ: "di trên các xa lộ ở California".
— Dis: ngồi trên lưng một con vat, thường trong khi điều khiển chuyển động của
nó, ví dụ: "Tôi còn thấu cảnh day té di ngựa như các hoàng tử"
Trang 27Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 10 1.1.3 Ngữ nghĩa từ vựng
Ngữ nghĩa hoc (Semantics) là lĩnh vực nghiên cứu về cách mà ngôn ngữ được sử
dụng để biểu đạt ý nghĩa của các thành phần ngôn ngữ Nói cách khác, ngữ nghĩa
học nhằm mục đích giải thích cách thức các nghĩa đen được mã hóa và giải mã bằng
ngôn ngữ bởi người nói và người nghe.
Ngữ nghĩa học từ vựng (Lexical Semantics) là lĩnh vực nghiên cứu nghĩa của hình
vị, từ và các mối quan hệ ngữ nghĩa giữa chúng, cũng như cách thức mà nghĩa của từ
liên quan đến cấu trúc và ngữ pháp [125] Hình 1.1 cho thấy rằng ngữ nghĩa học từ
vựng là các nghiên cứu thuộc tầng cơ bản và cốt lõi nhất trong lĩnh vực ngữ nghĩahọc, cũng như đóng vai trò quan trọng đối với các bài toán xử lý ngôn ngữ tự nhiên
1.1.4 Quan hệ ngữ nghĩa giữa các từ
Quan hệ ngữ nghĩa giữa các từ là chủ đề nghiên cứu được quan tâm trong nhiều
lĩnh vực như triết học, tâm lý học nhận thức, và khoa học máy tính Các quan hệngữ nghĩa của từ đóng một vai trò thiết yếu trong ngữ nghĩa học từ vựng và được
ứng dụng ở nhiều cấp độ trong các tác vụ hiểu và sinh ngôn ngữ Các quan hệ ngữ
nghĩa giữa các từ cũng là yếu tố trung tâm trong việc tổ chức các cơ sở tri thức ngữ
nghĩa từ vựng [17].
Có nhiều loại quan hệ ngữ nghĩa giữa các từ, tuy nhiên trong phạm vi nghiên cứucủa luận án này, luận án chỉ nghiên cứu về bốn quan hệ ngữ nghĩa cơ bản gồm: baothuộc, đồng nghĩa, tương đồng ngữ nghĩa, trái nghĩa
Trang 28Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 11
1.1.4.1 Quan hệ liên quan ngữ nghĩa
Khái niệm quan hệ liên quan ngữ nghĩa (Semantic Relatedness) trong ngôn ngữ
học tính toán tương ứng với khái niệm tương tự thuộc tính (Attributional Similarity)
trong khoa học nhận thức Hai từ được gọi là có liên quan ngữ nghĩa nếu giữa chúngtồn tại bất kỳ một loại quan hệ ngữ nghĩa nào Quan hệ liên quan ngữ nghĩa đượcđặc trưng bởi các từ thường xuyên xuất hiện cùng nhau trong một số ngữ cảnh, có
liên quan về thời gian, không gian, ví dụ như sting - bắn, bóng đá - cầu thủ, v.v loại
quan hệ nay còn được gọi là quan hệ liên kết ngữ nghĩa (Semantically Association)
Mức độ liên quan ngữ nghĩa của hai từ tỷ lệ với mức độ chia sẻ các thuộc tính ngữ
nghĩa giữa chúng [128].
1.1.4.2 Quan hệ tương tự ngữ nghĩa
Trong lĩnh vực ngôn ngữ học tính toán, quan hệ tương tự ngữ nghĩa (Semantic
Similarity) hay tương đồng phân loại (Taxonomic Similarity) dùng để chỉ các từ có
sự tương đồng với nhau về loại hoặc chức năng Resnik [110] cho rằng hai từ tương
tự nhau về ngữ nghĩa nếu chúng có chung một từ bao Ví dụ từ ô £ô và zeđạp có
chung từ bao là re Quan hệ tương tự ngữ nghĩa là trường hợp đặc biệt của quan hệ
liên quan ngữ nghĩa Theo Navigli và Martelli [87], quan hệ tương tự ngữ nghĩa được
đặc trưng bởi khả năng các từ có thể được dùng thay thế cho nhau trong một số ngữcảnh nhất định mà không thay đổi đáng kể ngữ nghĩa cơ bản của câu
Xác định mức độ tương tự ngữ nghĩa giữa hai từ là phép đo thống kê mức độ chia
sẻ các thuộc tính ngữ nghĩa giữa chúng Phép đo này có ích trong một miền rất rộng
các ứng dụng của lĩnh vực NLP Mặc dù một số phương pháp do đã được đề xuất
để giải quyết bài toán này Tuy nhiên, cho đến hiện tại, việc tính toán chính xác độtương tự ngữ nghĩa giữa các từ vẫn còn là một thách thức lớn.
1.1.4.3 QQuan hệ bao thuộc
Quan hệ bao thuộc (Hypernymy) là một quan hệ ngữ nghĩa bất đối xứng giữa
một tu bao (Hypernym) với một tv thuộc (hyponym), ví dụ thuật toán là một từ bao
của lan truyêền ngược, ze đạp điện là một từ thuộc của zeđạp Quan hệ bao thuộccòn được gọi là quan hệ Ia mot (IS-A) [71, 137], quan hệ kế thừa từ vung (Lexical
Entailment) [7, 7, 18, 130], hoặc quan hệ phân loại (Taxonomic Relation) [71].
Trang 29Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 12
1.1.4.4 Quan hệ đồng nghĩa
Quan hệ đồng nghĩa (Synonymy) là quan hệ ngữ nghĩa giữa hai từ có nghĩa giống
nhau, chúng có thể được dùng thay thế cho nhau trong một số ngữ cảnh mà khônglàm nghĩa của câu thay đổi [S6] Ví dụ, do khán giả và người em là hai từ đồng nghĩa
nên hai câu sau đây tương đồng với nhau về nghĩa:
- "Phim có nhiều đoạn khiến khán gid bị ngắt mạch cảm xúc bởi mảng miếng hài đan
xen”.
- "Phim có nhiều đoạn khiến người zem bị ngắt mạch cảm xúc bởi mảng miếng hài
đan xen".
Mặc dù tương đồng với nhau về nghĩa nhưng các từ đồng nghĩa khác nhau về âm
thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong
cách nào đó, hoặc đồng thời cả hai
1.1.4.5 Quan hệ trái nghĩa
Quan hệ trái nghĩa (Antonymy) là quan hệ giữa các từ đối lập với nhau về nghĩa[72] Quan hệ trái nghĩa lần đầu tiên được đề cập đến như một quan hệ ngữ nghĩađối lập với quan hệ đồng nghĩa trong nghiên cứu của Smith [122] vào năm 1867 Tráinghĩa là một quan hệ có mặt trong tất cả các ngôn ngữ, được xác lập trên cơ sở của
sự liên hệ đối lập hay trái ngược nhau về nghĩa, nó vừa là biện pháp tổ chức của từvựng, vừa là biện pháp tổ chức của tư duy [54]
Trong tiếng Việt, quan hệ đối lập này thường phải dựa trên thế tương liên toàn
diện về nội dung và hình thức giữa các từ Tương liên được hiểu là quan hệ hai chiều
giữa hai thực thể trên một tiêu chí lô gích một thế lưỡng cực, lưỡng phân Hai từ có
nghĩa đối lập nhau nhưng không tương liên thì không phải là từ trái nghĩa [54] Từbat đôi lập với có, nhưng bất và có không phải là cặp từ trái nghĩa, mà bat trái nghĩavới hữu Từ nhỏ đôi lập về nghĩa với các từ cd, cái, lớn, đại, mập, cô, uữ đại nhưng bé
chỉ trái nghĩa với lớn.
1.1.5 Một số giả thuyết ngữ nghĩa cơ bản
1.1.5.1 Giả thuyết ngữ nghĩa thống kê
Giả thuyết ngữ nghĩa thống kê (Statistical Semantics Hypothesis) được Weaver[139] đưa ra và sau đó được đề cập đến trong nghiên cứu của Furnas và cộng sự [28]
Trang 30Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 18
Giả thuyết này cho rằng Các mẫu thống kê vé cách sử dung từ của con người có thểđược sử dung để tìm ra nghĩa của từ mà con người muốn truyền dat
1.1.5.2 Gia thuyết phân phối
Theo tiếp cận ngữ nghĩa phân phối, một từ thường được biểu diễn bằng một vector Các kỹ thuật học các vector biểu diễn từ thường dựa trên giả thuyết phân
phối (Distributional Hypothesis), giả thuyết này được đề xuất bởi Harris [40], theo
đó các từ xuất hiện trong các ngữ cảnh tương tự có cu hướng tương tự uới nhau vé
nghĩa Giả thuyết này được Firth [25] trình bay theo một cách khác chúng ta có thể
biết nghĩa của một từ thông qua những từ đi kèm uới nó Các nghiên cứu của Harris
[40], Firth [25], Furnas và cộng sự [28] đã chỉ ra rằng các từ xuất hiện trong các ngữ
cảnh tương tự có mối liên quan ngữ nghĩa với nhau, là cơ sở cho các mô hình ngữ
nghĩa phân phối (Xem Hình 1) Mặc dù giả thuyết này bắt nguồn từ ngôn ngữ học,
nhưng nó hiện đang nhận được sự quan tâm nghiên cứu trong nhiều lĩnh vực khác
nhau như khoa học nhận thức, trí nhớ phân đoạn (Episodic Memory).
1.1.5.3 Gia thuyết phân phối mở rộng
Lin và Pantel [65] đã đề xuất giả thuyết phân phối mở rộng (Extended
Distribu-tional Hypothesis) cho các mẫu, theo đó các mau cú pháp từ vung xuất hiện cùng tới
các cặp từ tương tự có xu hướng tương tự nhau vé ngữ nghĩa Sự giỗng nhau về mẫu có
thể được sử dụng để suy ra rằng một câu là cách diễn giải của một câu khác [65] Ví
dụ, các mẫu "X viét Y", "Y được viét bởi X", "X là tác giả của Y" cùng xuất hiện với
cặp từ Nguyén_Du - Truyện Kiều trong các câu sau "Nguyễn Du uiết Truyện Kiều",
"Truyện Kiều được viét bởi Nguyễn Du", "Nguyễn Du là tác giả của Truyện Kiều",
có thể thấy rằng, các mẫu trên là tương tự nhau và các câu sử dụng các mẫu này là
những cách diễn giải khác nhau về cùng một vấn đề.
1.1.5.4 Giả thuyết quan hệ tiềm ẩn
Turney và Littman [127] đề xuất giả thuyết quan hệ tiềm ẩn (Latent Relation
Hypothesis), theo đó các cặp từ cùng xuất hiện trong những mẫu tương tự thì chúng
có ru hướng có quan hệ ngữ nghĩa tương tự nhau Các cặp từ voi động 0ật, phổ điệp
-lan, cùng xuất hiện với mẫu "X là một loài Y" như "voi là một loài động uật", "phi_diép
là một loài lan thuộc chỉ hoàng thảo" Có thể thấy rằng, cả hai cặp từ trên đều có
quan hệ bao thuộc.
Trang 31Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 14
1.1.5.5 Giả thuyết bao thuộc phân phối
Giả thuyết bao thuộc phân phối (Distributional Inelusion Hypothesis) được đềxuất bởi Geffet và Dagan [31] Theo giả thuyết này, nếu một từ u có ru hướng xuất
hiện trong một tập hợp con các ngữ cảnh của từ 0 (v bao gồm u), thì u (thuật ngữ
hẹp hơn) có xu hướng là từ thuộc của v (thuật ngữ rộng hơn) Nói cách khác các từ
ngữ cảnh nối bật của từ thuộc được mong đợi sẽ xuất hiện trong một tập hợp con các
ngữ cảnh của từ bao, giả thuyết này còn được gọi là giả thuyết bao hàm thuộc ngữcảnh (Context Inclusion Hypothesis) [18, 52] Một số các phương pháp đo hướng ngữ
nghĩa không giám sát để phát hiện quan hệ bao thuộc dựa trên một số biến thể của
giả thuyết bao thuộc phân phối như nếu u là một từ hẹp hơn v vé mặt ngữ nghĩa,
thì một số lượng đáng kể các đặc trưng phân phối nổi bật của u có thể được bao chứa
trong vector đặc trưng của 0.
1.1.5.6 Gia thuyết thông tin phân phối
Để xác định quan hệ bao thuộc của cặp từ, Santus và cộng sự [114] đề xuất giả
thuyết thông tin phân phối (Distributional Informativeness Hypothesis), giả thuyết
này cho rằng Các từ bao có zu hướng ít thông tin hơn các từ thuộc va chúng xuất hiện
trong các ngữ cảnh chung hơn so tới các từ thuộc của chúng Xét cặp từ có quan hệ
bao thuộc động oật - gấu trắng bắc cực, có thé thấy rang từ động vdt sẽ xuất hiện
trong những ngữ cảnh chung hơn so với từ gấu trắng bắc cực
1.1.5.7 Giả thuyết kết hợp ngữ cảnh
Giả thuyết kết hợp ngữ cảnh (Context Combination Hypothesis) cho rang Khổ
năng hai từ u vd 0 có quan hệ bao thuộc tương quan uới một số đặc trưng có thể họcđược của ngữ cảnh của chúng [7] Theo giả thuyết này, các vector biểu diễn ngữ cảnh
của u và v là các đặc trưng phù hợp đại diện cho đặc trưng của cặp từ u-v Nói cách
khác, vector kết hợp của hai vector biểu diễn của từ u, v phù hợp cho huấn luyện cácthuật toán học máy có giám sát để phát hiện quan hệ bao thuộc
1.1.5.8 Gia thuyết khác biệt tương tự
Giả thuyết khác biệt tương tự (Similarity Differences Hypothesis) cho rằng "khđ
năng cặp từ u-u có quan hệ bao thuộc tương quan vdi sự khác biệt vé độ tương tu
của chứng uới một số từ tham chiếu" [130] Nói cách khác, sim(u,r) — sim(0,r), với
Trang 32Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 15
r là từ thuộc tập hợp từ tham chiếu R (r € R) Xét cặp từ có quan hệ bao thuộc
chó - động uật và cặp từ không có quan hệ này bàn ghế - động vật, xét một từ tham
chiếu sự sống Có thể thấy độ tương tự ngữ nghĩa của chó với sự sống, động uật với
sự sống khá cao (similarity(chó, sự sống) similarity(động oật, sự sống)) Trái lại,
độ tương tự ngữ nghĩa của bàn ghế và sự sống khá nhỏ (similarity(bàn ghế, sựsống)
# similarity(động ật, sự sống)) vì chúng thuộc các miền khác nhau và không chia sécác đặc trưng chung về loai hay chúc năng
1.1.6 Mô hình ngữ nghĩa phân phối
1.1.6.1 Khai niệm
Mô hình ngữ nghĩa phân phối (Distributional Semantic Models - DSMs) còn được
biết đến là mô hình không gian từ (Word Space), mô hình không gian vector ngữ nghĩa(Vector Space Models - VSMs) hoặc phân phối tương tự (Distributional Similarity),
là một mô hình biểu diễn nghĩa của các từ bằng vector dựa trên phân phối của chúng
trong kho ngữ liệu (là một tiếp cận dựa trên cách sử dụng - Usage-based!) Mô hìnhnày dựa trên giả thuyết phân phối [25, 40], theo đó "nghĩa của một từ có thể đượcsuy ra từ cách sử dụng của nó hay nói cách khác là phân phối của nó trong kho ngữ
liệu" Do đó, DSMs xây dựng các biểu diễn ngữ nghĩa dưới dạng các không gian vectornhiều chiều bằng cách phân tích thông tin thống kê sự xuất hiện của từ theo ngữ cảnh(Hình 1.2) Kể từ khi những nghiên cứu đầu tiên về DSMs của Landauer và Dumais
[55], Schủtze [118] được công bố, mô hình này là một chủ đề nghiên cứu trọng tâmcủa ngôn ngữ học tính toán [55, 131], khoa học nhận thức, ngữ nghĩa mồi (Semantic
Priming”), trí nhớ phân đoạn.
Thuật ngữ nghia (Meaning) được hiểu là nghĩa của một từ hay một cụm từ được
gọi chung là nghĩa của từ Nghia của từ thường được biểu diễn theo một số hình thức,
cấu trúc tượng trưng (Symbolic Structure) Freitas [26] cho rằng: Ngtt nghĩa = Mô
hình biểu diễn nghĩa (dữ liệu) + mô hình suy luận
Trong DSMs, các vector biểu diễn ngữ nghĩa của từ trích chọn một cách tự động
từ một kho ngữ liệu, đòi hỏi ít "công sức" hơn những tiếp cận ngữ nghĩa dựa trên xâydung cơ sở dữ liệu tri thức thủ công (WordNet, BabelNet, v.v) Việc xây dựng kho
ngữ liệu cho một ngôn ngữ mới sẽ "rẻ" hơn nhiều so với xây dựng một từ điển, hơn
1 usage-based là một cách tiếp cận nghiên cứu của ngôn ngữ học xuất hiện từ cuối những năm
1980 với giả định về mối quan hệ giữa cấu trúc ngôn ngữ và cách sử dụng.
2 Semantic priming đề cập đến hiện tượng phản hồi đối với từ mục tiêu (ví dụ: học sinh) nhanh hơn khi nó đứng trước một số từ có liên quan về mặt ngữ nghĩa (ví dụ: gido_duc) so với một số từ không
liên quan (ví dụ: ze đạp)
Trang 33Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 16
Giảng_ viên
Sinh_vién
(a ae _ Thuật_toán
Hoa_hồngHình 1.2 : Mô hình không gian vector ngữ nghĩa phân phối của từ
nữa việc xây dựng một từ điển cũng thường yêu cầu một kho ngữ liệu (ví dụ: khongữ liệu SemCor được sử dung để xây dựng Princeton WordNet) DSMs lần đầu tiên
được đề xuất và sử dụng trong hệ thống trích rút thông tin thông minh SMART do
đại học Cornell xây dựng vào năm 1960 Hiện nay, DSMs được ứng dụng hiệu quả
trong một miền rất rộng các bài toán của NLP
1.1.6.2 Lich sử phát triển của mô hình ngữ nghĩa phân phối
Trước khi các phương pháp tự động sinh vector đại diện cho từ được đề xuất, một
số nghiên cứu đã cố gắng tạo ra các vector biểu diễn từ bằng cách sử dụng các đặc
trưng được xây dựng một cách thủ công Mô hình phân biệt ngữ nghĩa (SemanticDifferential?) của Charles Osgood được đề xuất vào những năm 1960 là một ví dụ
điển hình Một số phương pháp tự động sinh các vector đại diện cho từ, đặc trưng
cho thông tin ngữ cảnh của từ, được công bố vào khoảng năm 1990 trong một số lĩnhvực nghiên cứu khác nhau Một trong những mô hình ban đầu có ảnh hưởng nhất là
phân tích ngữ nghĩa tiềm an (Latent Semantic Analysis/Indexing - LSA/LSI), đượcphát triển trong bối cảnh của bài toán truy vấn thông tin và là tiền thân của các
mô hình chủ dé (Topic Models) ngày nay Gần như cùng lúc, một vài mô hình khác
nhau cũng được phát triển dựa trên nghiên cứu các mạng nơ-ron nhân tạo sử dụng các biểu diễn ngữ cảnh Nổi bật nhất trong số đó có lẽ là các mô hình mạng no-ron tu
tổ chúc (Self Organizing Maps) và mạng nơ-ron hồi quy đơn giản (Simple Recurrent
Networks), trong đó mạng no-ron hồi quy được coi là tiền thân của các mô hình ngôn
3 Mô hình phân biệt ngữ nghĩa là một loại thang đánh giá được thiết kế để đo lường ý nghĩa nội
hàm của các từ, khái niệm, đối tượng, và sự kiện.
Trang 34Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 17
ngữ mạng nơ-ron ngày nay Trong ngôn ngữ học tính toán, Sehitze đã phát triển mô
hình không gian vector được dựa trên sự đồng xuất hiện của các từ [116, 117], mô
hình này cũng được sử dụng trong không gian tương tự của ngôn ngữ (Hyperspace
Analogue to Language - HAL) còn được gọi là bộ nhớ ngữ nghĩa (Semantic Memory).
HAL được xây dựng bởi Kevin Lund va Curt Burgress vào năm 1996 như một mô hình bộ nhớ ngữ nghĩa trong khoa học nhận thức Mô hình này dựa trên một giả
thuyết cơ bản đó là những từ có Ú nghĩa tương tu thì thường xuất hiện gan nhau,
theo đó với một kho ngữ liệu lớn, có thể thấy các từ chuột và mèo thường xuất hiệngần nhau, điều tương tự cũng có thể đúng với các từ sinh uiên, hoc_sinh và môn học
Những nghiên cứu sau này về cơ bản là những cải tiến của những mô hình đã được đề
xuất trước đây, mô hình chủ đề, phương pháp phân tích ngữ nghĩa tiềm ẩn theo xác suất (Probabilistic Latent Semantic Analysis) và phân bổ Dirichlet tiềm ẩn (Latent
Dirichlet Allocation) được coi là những mô hình cải tiến của LSA.
Sự khác biệt chính giữa các mô hình là kiểu thông tin ngữ cảnh mà chúng sử dụng.Các mô hình phân tích ngữ nghĩa tiềm ẩn và mô hình chủ đề sử dụng ngữ cảnh là các
tài liệu, do chúng được sử dụng trong các hệ thống truy vấn thông tin Thay vào đó,
các mô hình ngữ nghĩa phân phối sử dụng các từ làm ngữ cảnh, được cho là tự nhiên
hơn từ góc độ ngôn ngữ và nhận thức Các biểu diễn ngữ cảnh khác nhau nắm bắt
những loại tương tự ngữ nghĩa khác nhau,
1.1.6.3 Cau trúc của mô hình ngữ nghĩa phân phối
Theo Freitas [26], một DSMs thường là một bộ gồm bảy thành phần <7, Œ, R,
W, M, d, S>, bao gồm:
— T: Tập hợp các đối tượng của không gian ngữ nghĩa (từ, câu, tài liệu, v.v)
— C: Ngữ cảnh.
— R: Quan hệ giữa T và C.
— W: Lược đồ lượng giá trọng số
— M: Không gian hình học TxC hay ma trận đồng xuất hiện (ma trận tu - tài
liệu, ma trận từ - từ, v.v).
— d: Hàm giảm chiều ma trận M > M’
— 6®: Độ do tương tự áp dụng cho các vector trong ma trận M’.
Ma trận đồng xuất hiện: Trong DSMs, mỗi từ được biểu diễn bang một vectornhiều chiều, tập từ vựng lập thành một không gian vector Vector biểu diễn từ là mã
hóa thông tin phân phối của từ trong kho ngữ liệu Tùy thuộc từng bài toán, một số
Trang 35Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 18
đối tượng T (từ, câu, tài liệu, v.v), và ngữ cảnh Œ khác nhau như tài liệu [112], cửa
so ngữ cảnh của từ [128], phụ thuộc ngữ pháp [63, 102], các mẫu [65] Một số ma trậnđồng xuất hiện được sử dụng pho biến như ma trận Từ - Tài liệu, ma trận Từ - Ngữcảnh, với ngữ cảnh của từ u là các từ xuất hiện trong cửa số ngữ cảnh có kích thước
2x K từ, gồm K từ trước u và K từ đứng sau u.
Ma trận Từ - Tai liệu
Ma trận Tu - Tài liệu (Word - Document Matrix) là ma trận ma mỗi dòng tương ứng với một từ, mỗi cột tương ứng với một tài liệu trong kho ngữ liệu (Hình 1.3) Với matrận M, mỗi tài liệu được biểu diễn bởi một vector cột của M, mỗi từ được biểu diễn
mởi một vector hàng của M Phần tử M„ ¿ là số lần từ w xuất hiện trong tài liệu đ
Tài Tài Tài Tài
Hệul lHệu2 Hệu3 ẽẻlhệuN
Ma trận £d-£ờ (Word-Context Matrix, Word-Word Matrix) là ma trận mà mỗi dòng
tương ứng với một từ (đích), mỗi cột tương ứng với một từ (ngữ cảnh) Thay vì thống
kê sự xuất hiện của các từ trong các document như trong ma trận Word-Document,
ma trận Word-context M sử dụng các context nhỏ hơn như các đoạn văn (paragraph)
hay cửa so kích thước k Ma trận M có kích thước | V | x | V |, với | V | là lực lượngcủa tập hợp từ vựng Mỗi từ được biểu diễn mởi một vector hàng trong ma trận M
Phan tử M,,, là số từ w xuất hiện cùng từ v trong các cửa số ngữ cảnh + k từ (Hình
Trang 36Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 19
Lược đồ trọng số: Các ma trận Từ - Ngữ cảnh lưu trữ tần số đồng xuất hiện
của các cặp từ Tuy nhiên, tần số đồng xuất hiện của các cặp từ thường lệch nhaukhá lớn và không thể hiện tính phân biệt rõ ràng đối với các quan hệ ngữ nghĩa củacặp từ Do đó, các vector tần số "thô" này chưa phải là nhưng đặc trưng tốt nhất đểxác định quan hệ ngữ nghĩa giữa các từ Để các từ ngữ cảnh cung cấp thông tin ngữ
nghĩa về từ đích, tần số đồng xuất hiện của hai từ nên được chuẩn hóa thành đại
lượng đặc trưng cho tần suất hai từ đồng xuất hiện trong kho ngữ liệu Có nhiều lược
đồ chuẩn hóa trọng số khác nhau được sử dụng, Church và Hanks [14] đề xuất độ đo
thông tin tương hỗ theo từng điểm (Pointwise Mutual Information - PMI) dựa trên
khái niệm thông tin tương hỗ (Mutual Information - MI) giữa hai biến ngẫu nhiên X
và Y được tính theo công thức (1.1).
MI(X,Y)= ` P(a, Nom DI) (1.1)
LEX yeY
Cho từ đích w và từ ngữ cảnh c, độ do PMI đặc trưng cho thông tin kết hợp giữa
chúng được tính như sau:
ngữ cảnh c; P(w) = sre va P(c) = SASS lan lượt là xác suat xuất hiện
của + và c trong kho ngữ liệu.
Giá trị PMI đặc trưng cho sự kết hợp của hai từ, hay mức độ xuất hiện thườngxuyên cùng nhau của cặp từ (P(w, c)) so với sác xuất đồng xuất hiện kỳ vọng (P(w) x
P(c)) của chúng, PMI có giá trị từ nằm trong khoảng từ —œo đến oo Tuy nhiên, các
giá trị PMI âm có xu hướng thể hiện thông tin không đáng tin cậy giữa các từ đích
Trang 37Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 20
và ngữ cảnh, chúng ngụ ý rằng xác suất đồng xuất hiện của cặp từ nhỏ hơn so với xác
suất kỳ vọng một cách ngẫu nhiên, do kho ngữ liệu chưa đủ lớn Do đó, một số nghiên
cứu sử dụng độ do PMI dương (Positive Pointwise Mutual Information - PPMI) bằng cách thay các giá trị PMI âm bằng 0 như sau [14]:
PPMI(u, c) = mas(log 0) (1.3)
Bên cạnh PMI, một số nghiên cứu sử dụng độ đo TF-IDF (Term Frequency Inverse
Document Frequency) Độ do TF-IDF của từ w với tài liệu đ thuộc tập tài liệu D được tính theo công thức (1.4) như sau:
Tf — Idf(t,d,D) = Tf(t, d) x Idf(t, D) (1.4)
Một số độ đo khác được khảo sát và được đánh giá chi tiết trong nghiên cứu của
Kiela và Clark [49] như TF-ICF, Okapi BM25, ATC, LTU, T-Test, v.v.
Độ đo tương tự: Mục tiêu của đánh giá sự tương tự là sử dụng các độ đo định
lượng mức độ giống nhau giữa hai thực thể, đây là một bài toán kinh điển trong lĩnh
vực trí tuệ nhân tạo và khoa học nhận thức Đánh giá độ tương tự là một thành phầnquan trọng trong nhiều hệ thống trí tuệ nhân tạo như suy luận dựa trên tình huống,nhận dạng mẫu, phân cụm, phát hiện ngoại lệ, v.v.
Độ đo tương tự giữa hai vector là hàm số ước lượng mức độ giống nhau của chúng
Tích vô hướng của hai vector (Scalar Product, cũng được gọi là Dot-Product, hay
Inner Produet) có thể được sử dụng như một độ đo tương tự
N
Dot-Product(0, ) = Ö: tủ = » U; X Wi (1.5)
i=1
Gia sử có vector Ở = (v1, 0, , 0y), với các vector v’ có các thành phan là hoán vi
của ở Theo bất đẳng thức Cosi ở - @ đạt giá trị lớn nhất với v; = v!,Vi € 1 N hay
= , ö- và dat giá trị nhỏ nhất khi ở = —ở Tuy nhiên, giá trị tương tu đo bằng tích vô hướng của hai vector có nhược điểm: thứ nhất, phụ thuộc vào độ dài (Norm) của vector; thứ hai, đối với các vector biểu diễn từ, tích vô hướng của hai vector có thể bị "lệch" theo tần số xuất hiện của từ, do các từ phổ biến có tần số đồng xuất
hiện cao hơn nhiều so với các từ khác trong kho ngữ liệu, chúng thường được biểu
diễn bởi các vector với giá trị các thành phần lớn, theo đó giá trị tích vô hướng của
hai vector biểu diễn cặp từ phổ biến sẽ cao hơn đáng kể so với các cặp từ hiếm; thứ
Trang 38Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 21
ba, giá trị tương tự đo bằng tích vô hướng của hai vector không được chuẩn hóa trongmột miền giá trị tiêu chuẩn, thông thường các giá trị tương tự thường được chuẩn
hóa về miền giá trị [0 > 1] Để khắc phục nhược điểm thứ ba, một số nghiên cứu sử
dụng hàm Sigmoid (c) chuẩn hóa độ tương tự được tính bởi tích vô hướng của hai
vector về miền giá trị [—1 — 1| (Công thức 1.6)
SimilariWsigmoia(0, tủ) = ơ(0 - 8) (1.6)
Để khắc phụ ba nhược điểm kể trên, độ đo tích vô hướng của hai vector có thể được
chuẩn hóa bằng cách chia cho độ dài của các vector (|| = >>“ œ2) Tích vô hướng
của hai vector ở và w cũng được định nghĩa như sau:
at
|e [ill eI
>
ở- ø =|| ở |\\| ở || cos(a) => cos(a) = (1.7)
Công thức (1.7) cho thấy, góc a được tạo bởi hai vector ở và @ có thể đặc trưng cho
mức độ tương đồng của chúng, theo đó độ tương tự Cosine được định nghĩa là cos(a)
VOM eT ee ex JX we
Similaritycosine(¥, tủ) =
Tương tự là độ do đối ngẫu với khoảng cách, theo đó khoảng cách giữa hai vector
càng lớn thì độ tương tự càng nhỏ và ngược lại Độ đo tương tự có thể được định
nghĩa là phần bù của độ đo khoảng cách theo công thức (1.9)
Similarity(v, 8) = 1— Distance(0, 8) (1.9)
Một số độ đo khoảng cách giữa hai vector được dùng phổ biến như Euclide, Jaccard,
Dice, Manhattan, Camberra, Chebychev, Pearson v.v.
1.2 Mo hình nhúng từ
Theo tiếp cận học máy và học sâu, các mô hình mạng nơ-ron đòi hỏi các đối tượng
cần xử lý phải được mã hóa bằng các vector đặc trưng Trong lĩnh vực xử lý ngôn ngữ
tự nhiên, các từ cần phải được biểu diễn bằng các vector ngữ nghĩa Các phương pháp
tạo ra vector biểu diễn cho từ được chia làm hai nhóm chính: tiếp cận dựa trên thống
kê (Distributional Representaions) (Phần 1.1.6) và tiếp cận sử dụng mạng nơ-ron học
các biểu diễn vector dựa trên dự đoán sự đồng xuất hiện của các từ (Distributed
Representaions), các mô hình này còn được gọi là mô hình vector nhúng từ (Word
Trang 39Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 22
Embeddings Vector hay ngắn gon hơn là Word Embeddings) (Hình 1) Để thống nhất
trong trình bày cũng như theo xu thế hiện nay, luận án này sử dụng thuật ngữ nhúng
từ để chỉ các mô hình không gian vector biểu diễn từ được học từ kho ngữ liệu bằng
các mô hình mạng nơ-ron nhân tạo Pilehvar và Camacho-Collados [107] đã giới thiệumột khảo sát khá đầy đủ về các mô hình nhúng từ được ứng dụng trong lĩnh vực
NLP Tổng hợp từ các tài liệu tham khảo, luận án đưa ra một phân loại về các môhình nhúng từ, được trình bày trong Hình 1.5.
Nhúng từ
Nhúng từ SaaS đơn ngữ
Nhung từ dựa trên thống kê _ Nhúng từ dựa trên mạng nơ-ron
LSA, HAL, COALS, Hellinge-PCA,
Nhung từ theo ngữ cảnh Nhúng từ độc lập ngữ cảnh Nhúng nghĩa thành phần
Context2vec CoVe, ELMo, Sense2Vec, SenseEmbed, MUSE ULMfit, GPT, BERT, XLNet
Nhúng từ chung Nhúng từ chuyên biệt
Word2Vec, fastText, WordRank, dLCE, mLCM, Attract-Repel
LexVec, Poincaré
Hình 1.5 : Một phân nhóm các mô hình nhúng từ.
1.2.1 Lich sử của các mô hình nhúng từ
Nhúng từ là một trong những hướng nghiên cứu được quan tâm nhất trong lĩnh
vực NLP ở thời điểm hiện tại [107] Trong những mô hình nhúng từ, sự tương tự ngữ
nghĩa giữa các từ tương quan với khoảng cách giữa các vector biểu diễn của chúng.
Cùng với sự phát triển nhanh chóng của các mô hình học sâu, các mô hình nhúng từ
ngày càng đóng vai trò quan trọng, các vector nhúng từ đã được sử dụng trong hầu
hết các hệ thống NLP như phân lớp văn bản, phân tích quan điểm người dùng, v.v.Trong ngôn ngữ học tính toán, khi nói về biểu diễn vector cho từ thì thuật ngữ mô
hình ngữ nghĩa phân phối thường được sử dụng [22, 26], một số nghiên cứu sử dung
các thuật ngữ khác nhau như biểu điễn phân phối [S1, 91], cu thể hơn như không gian
vector ngữ nghĩa [36, 131] hoặc đơn giản là không gian vector [136].
Các mô hình nhúng từ học các vector biểu diễn từ dựa trên ý tưởng là thông tin
ngữ cảnh tự nó tạo thành một dai diện khả dụng của các thành phan ngôn ngữ, điều
này trái ngược hoàn toàn với ngôn ngữ hình thức và lý thuyết của Noam Chomsky Y
tưởng này có nguồn gốc lý thuyết từ ngôn ngữ học cấu tric (Structuralist Linguistics)
Trang 40Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 23
và đặc biệt trong các nghiên cứu của Harris [40], Firth [25], và Wittgenstein, được
công bố trong những năm 1950
Ö thời điểm hiện tại, không có sự khác biệt nhiều về chất lượng giữa các mô hình
nhúng từ với các mô hình phân phối ngữ nghĩa dựa trên thống kê Thay vào đó, hai
tiếp cận đã sử dụng các phương tiện tính toán khác nhau để đạt được cùng một kiểu
mô hình ngữ nghĩa, một số nghiên cứu gần đây đã chứng minh cả về mặt lý thuyết
và thực nghiệm sự tương ứng giữa hai loại mô hình khác nhau này [60], [103], [149].
1.2.2 Một số mô hình nhúng từ tổng quát
Các mô hình nhúng từ được sử dụng cho nhiều bài toán NLP khác nhau được gọi
là mô hình nhúng từ tổng quát Những mô hình nhúng từ này được lấy cảm hứng từ
mô hình ngôn ngữ dựa trên mạng nơ-ron Các mô hình ngôn ngữ mạng nơ-ron thực hiện dự đoán các từ ngỡ cảnh dựa trên từ đích hoặc ngược lại dự đoán từ đích khi
biết ngữ cảnh, chúng còn được gọi là mô hình dự đoán Các mô hình mạng no-ron học
các vector nhúng từ bắt đầu bằng việc khởi tạo các vector biểu diễn các từ một cách
ngẫu nhiên, sau đó lặp đi lặp lại việc luyện mạng để vector mã hóa được thông tinngữ cảnh mà từ xuất hiện Tiêu biểu nhất trong số các kỹ thuật này là Word2Vec do
Mikolov và cộng sự đề xuất [81] Cũng giống như các mô hình ngôn ngữ mạng nơ-ron,
mô hình word2vec học các vector nhúng từ bằng cách huấn luyện mạng nơ-ron để
dự đoán các từ lân cận, với hai kiến trúc Skip-Gram và CBOW Trong đó, kiến trúc
Skip-Gram (Hình 1.6 được tham khảo từ [107]) dự đoán các từ lân cận trong một cửa
số ngữ cảnh của từ đích bằng cách cực đại hóa trung bình logarit của các xác suất có
điều kiện (công thức (1.10))
Cc
L 1
TS, » logP(wi+; | wr) (1.10)
t=1j =-¢
Trong đó L là số lượng từ của kho ngữ liệu, w; : t € {1, , L} là toàn bộ các từ thuộc
kho ngữ liệu huấn luyện, œ, là từ trung tâm và w+; là các ti trong cửa số ngữ cảnh
có kích thước 2 x c Xác suất có điều kiện được định nghĩa bằng hàm Softmax (công
thức (1.11)).
T
P(wo | wr) = (1.11)
Trong đó P(wo | wy) là xác suất mang nơ-ron dự đoán từ wo là từ lân cận của từ wy,
V là tập từ vựng của kho ngữ liệu, v, và œ/ là vector biểu diễn đầu vào và đầu ra của
từ w, V là lực lượng của tập từ vựng Dé tính toán theo công thức (1.11) là rất khó