Luận án tiến sĩ Công nghệ thông tin: Tự động xác định quan hệ ngữ nghĩa của từ dựa trên học máy thống kê

Nội dung chính của luận án như sau: Đối với bài toán adc định quan hệ bao thuộc Hypernymy Recognition - HR,luận án đề xuất một mô hình mạng nơ-ron học các vector nhúng từ chuyên biệt từc

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI VĂN TÂN

TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA

CUA TỪ DUA TREN HOC MAY THONG KE

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THONG TIN

Hà Nội - 2022

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI VĂN TÂN

TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA

CUA TỪ DUA TREN HỌC MAY THONG KE

Chuyén nganh: Khoa hoc may tinh

Mã số: 9480101.01

LUẬN ÁN TIEN SĨ CÔNG NGHỆ THONG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Phương Thái

Hà Nội - 2022

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận án “Tu động xác định quan hệ ngữ nghĩa của

từ dựa trên học máy thống kê” là công trình nghiên cứu của riêng tôi Các số

liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từng đượccông bố trong bất kỳ một công trình nào khác

m Tôi đã trích dẫn day đủ các tài liệu tham khảo, công trình nghiên cứu liên quan

ở trong nước và quốc tế Ngoại trừ các tài liệu tham khảo này, luận án hoàn

toàn là công trình của riêng tôi.

m Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện rõ

ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng

gop.

m Luận án được hoàn thành trong thời gian tôi lam Nghiên cứu sinh tai Bộ môn

Khoa học máy tính, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ,

Đại học Quốc gia Hà Nội

Tác giả:

Hà Nội:

Trang 4

LỜI CẢM ƠN

Trước hết, tôi muốn bày tỏ sự biết ơn đến PGS.TS Nguyễn Phương Thái, cán

bộ hướng dẫn, Thầy đã trực tiếp giảng dạy và định hướng tôi trong suốt thời gian

học nghiên cứu sinh và thực hiện luận án này Một vinh dự lớn cho tôi được học tập,

nghiên cứu dưới sự hướng dẫn của Thầy

Tôi xin bày tỏ sự biết ơn sâu sắc đến GS.TS Nguyễn Thanh Thủy, Trường

Đại học Công nghệ - Dai học Quốc Gia Hà Nội, PGS.TS Lương Chi Mai, Viện Công

nghệ Thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, PGS.TS Bùi Thu Lâm, Học viện Kỹ thuật Mật mã, TS Pham Van Lam - Viện Ngôn ngữ học -

Viện Hàn lâm Khoa học Xã Hội Việt Nam, TS Nguyễn Thị Minh Huyền, TS LêHuy Tiễn, Trường Đại học Khoa học Tự nhiên - Dai học Quốc Gia Hà Nội, PGS.TS

Thân Quang Khoát, PGS.TS Lê Thanh Hương, Trường Đại học Bách Khoa Hà Nội.

Tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS Nguyễn Việt Hà, PGS.TS Hà

Quang Thuy, TS Nguyễn Van Vinh, TS Trần Quốc Long, TS Lê Nguyên Khôi, TS.

Lê Đức Trọng cùng các Thầy Cô trong Bộ môn Khoa học máy tính, trường Đại họcCông nghệ - Đại học Quốc Gia Hà Nội vì sự hướng dẫn, giúp đỡ cũng như nhữngđóng góp rất hữu ích của các Thầy Cô cho luận án này

Tôi xin trân trọng cảm ơn Khoa Công nghệ thông tin, Phòng Đào tạo và

Ban giám hiệu trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội đã tạo điều

kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án

Tôi cũng bày tỏ sự biết ơn đến Trường Đại học Kinh tế Kỹ thuật Côngnghiệp đã tạo điều kiện về thời gian và tài chính cho tôi thực hiện luận án này Tôimuốn cảm ơn đến Ban chủ nhiệm, các cán bộ, giảng viên Khoa Công nghệ thông tin

- Trường Đại học Kinh tế Kỹ thuật Công nghiệp đã cổ vũ động viên và sát cánh bên

tôi trong suốt quá trình nghiên cứu

Tôi muốn cảm ơn đến tất cả những người bạn của tôi, những người luônchia sẻ, động viên tôi bất cứ khi nào tôi cần và tôi luôn ghi nhớ điều đó

Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với cha mẹ, vợ, con vàgia đình đã luôn ủng hộ và yêu thương tôi một cách vô điều kiện Nếu không có sự

ủng hộ của gia đình tôi không thể hoàn thành được luận án này

NCS Bùi Văn Tân

il

Trang 5

định quan hệ ngữ nghĩa của từ là thành phần quan trọng trong nhiều hệ thống NLPnhư xây dựng cơ sở tri thức từ vựng, dịch máy, phân tích quan điểm người dùng, hệ

thống hỏi đáp, v.v

Trong khoảng mười năm trở lại đây, với tiếp cận học sâu mạnh mẽ, lĩnh vực

NLP đã có bước phát triển nhanh chóng, có nhiều kết quả nghiên cứu mang tính đột

phá Tiếp cận học sâu hiện đại sử dụng các mạng nơ-ron nhiều tầng có cấu trúc phức

tạp Với sức mạnh xử lý vượt trội của các máy tính hiện đại, đặc biệt là các bộ xử

lý đồ họa, các kiến trúc học sâu có khả năng học từ một lượng rất lớn dữ liệu Mặc

dù vậy, để các mô hình NLP xử lý tốt đối với các bài toán có ít dữ liệu, dữ liệu cónhiễu hoặc hiểu được các thủ pháp nghệ thuật như ẩn dụ, hoán dụ, v.v vẫn còn là

một thách thức [73] Việc tích hợp thêm các mô hình xác định quan hệ ngữ nghĩa của

từ là một trong các cách tiếp cận để vượt qua những thách thức này.

Các tiếp cận cho bài toán tự động xác định quan hệ ngữ nghĩa giữa các từ (từ

hoặc khái niệm, thuật ngữ) có thể được chia thành hai tiếp cận chính: tiếp cận mẫu

từ vung - cú pháp và tiếp cận phân phối Tiép cận mẫu từ vựng - cú pháp còn được

gọi là tiếp cận đường dan, sử dung tập các mau từ vung - cú pháp để đoán nhận quan

hệ ngữ nghĩa của từ Quan hệ ngữ nghĩa giữa hai từ được xác định dựa vào các mẫu

đồng xuất hiện cùng chúng trong kho ngữ liệu Theo tiếp cận phân phối, các phươngpháp sử dụng thông tin phân phối của từng từ trong kho ngữ liệu một cách riêngbiệt, không đòi hỏi hai từ cần xác định quan hệ phải đồng xuất hiện trong kho ngữliệu Các phương pháp theo tiếp cận này được phân thành hai nhóm: thứ nhất, theo

tiếp cận không giám sát gồm các phương pháp dựa trên biểu diễn từ bằng vector, sau

đó sử dụng các độ đo không giám sát để phân tách quan hệ ngữ nghĩa; thứ hai, tiếpcận có giám sát gồm các phương pháp sử dụng mạng nơ-ron để phân lớp các quan hệ

Luận án này hướng đến nâng cao hiệu năng của các mô hình tự động xác định một

số quan hệ ngữ nghĩa của từ theo tiếp cận có giám sát, sử dụng các mô hình học máy

Trang 6

để xác định bốn quan hệ ngữ nghĩa: quan hệ bao thuộc, quan hệ đồng nghĩa, quan hệ

trái nghĩa, và quan hệ tương đồng ngữ nghĩa Nội dung chính của luận án như sau:

Đối với bài toán adc định quan hệ bao thuộc (Hypernymy Recognition - HR),luận án đề xuất một mô hình mạng nơ-ron học các vector nhúng từ chuyên biệt từcác bộ ba gồm từ bao, từ thuộc và ngữ cảnh đồng xuất hiện của chúng Các vectornhúng từ học được phù hợp cho bài toán HR hơn các mô hình nhúng từ đã được đềxuất trước đó như Word2vec, fastText, GloVe, v.v Bên cạnh đó, những đặc trưng vềquan hệ ngữ nghĩa giữa các thành phần của các từ ghép đã được khai thác như lànhững dấu hiệu quan trọng giúp nhận ra quan hệ bao thuộc của cặp từ Luận án đã

đề xuất một thuật toán trích chọn những đặc trưng ngữ nghĩa mức dưới từ (SubwordSemantic Feature) Thuật toán được đề xuất không những mã hóa được quan hệ ngữ

nghĩa giữa các thành phần của cặp từ mà còn nắm bắt được cả thông tin vị trí của chúng trong các vector đặc trưng ngữ nghĩa mức dưới từ Để xác định quan hệ bao

thuộc của cặp từ, mô hình phân lớp có giám sát máy vector hỗ trợ (Support Vector

Machine) được sử dụng với đặc trưng đầu vào được kết hợp từ vector nhúng từ vàvector đặc trưng ngữ nghĩa mức dưới từ Kết quả thực nghiệm được đánh giá trên

một số bộ dữ liệu chuẩn của cả tiếng Anh, tiếng Việt đã chứng minh mô hình được

đề xuất trong luận án có hiệu năng cao hơn đáng kể so với các mô hình tốt nhất tại

thời điểm công bố Bên cạnh đó, luận án cũng xây dựng bộ dữ liệu VLE-999 dùng

để đánh giá mô hình cho bài toán xác định quan hệ bao thuộc trong tiếng Việt, công

bố bộ dữ liệu này cho cộng đồng nghiên cứu sử dụng Một số kết quả nghiên cứu liênquan đến bài toán này được trình bày trong các công bố [CTI], [CT8], và [CT9] trong

mục danh sách công trình khoa học.

Đối với bài toán phân tách các cặp từ theo quan hệ đồng nghĩa và trái nghĩa

(Antonymy-Synonymy Classification - ASC), luận án đã đề xuất mô hình DVASNet

- một mô hình mạng nơ-ron sử dụng không chỉ thông tin ngữ nghĩa phân phối của

các từ mà còn có khả năng khai thác thông tin ngữ cảnh đồng xuất hiện của cặp từ.Bên cạnh đó, mô hình DVASNet cũng khai thác những đặc trưng riêng của tiếng Việtnhư thông tin tương hỗ, quan hệ ngữ nghĩa giữa các thành phần của từ này với cácthành phần của từ kia trong một cặp từ, độ tương tự ngữ nghĩa giữ hai từ Kết quả

thực nghiệm được đánh giá trên một số bộ dữ liệu chuẩn tiếng Việt đã chứng minh

DVASNet trong luận án có hiệu năng cao hơn từ 14% đến 17% theo độ đo F1 so vớicác mô hình trước đây Thêm nữa, luận án đề xuất một mô hình xác định quan hệtrái nghĩa dựa trên mô hình nhúng từ chuyên biệt Theo đó, các cặp từ đồng nghĩa,

trái nghĩa được trích từ WordNet và từ điển được dùng để học một mô hình không

gian vector biểu diễn từ chuyên biệt, cùng với thông tin phân phối của từ trong kho

Trang 7

ngữ liệu, mô hình nhúng từ này được mã hóa thêm các thông tin về quan hệ đồng

nghĩa, trái nghĩa Trong chương này, luận án đã xây dựng bộ dữ liệu ViAS-1000 phục

vụ nhu cầu đánh giá hiệu năng của các mô hình ASC, bộ dit liệu này được công bốcho cộng đồng nghiên cứu sử dụng Một số kết quả nghiên cứu liên quan đến bài toánnày được trình bày trong các công bố [CT5], [CT6], và [CT7] trong mục danh sách

công trình khoa học.

Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từ (Word SimilarityMeasurement - WSM), luận án đề xuất kỹ thuật ExtLeskSim đo lường độ tương tựngữ nghĩa của cặp từ sử dụng thông tin định nghĩa của từ Kết quả thực nghiệm đãcho thấy ExtLeskSim đạt hiệu năng cao đối với tiếng Việt Thêm nữa, luận án cũng

đề xuất lược đồ GraphSim để nâng cao hiện năng đo lường độ tương tự ngữ nghĩa của

các kỹ thuật WSM dựa trên mang từ Kết quả thực nghiệm trên bộ dữ liệu tiếng Anh

và tiếng Việt cho thấy GraphSim đã nâng cao đáng kể hiệu năng cho các kỹ thuật

WSM được áp dụng Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từ songngữ, luận án đã đề xuất một mô hình mạng nơ-ron học mô hình nhúng từ song ngữ

Việt - Anh Sử dụng mô hình nhúng từ song ngữ đã học được để đo lường độ tương

tự ngữ nghĩa cho các cặp từ song ngữ Việt-Anh Kết quả thực nghiệm đã chứng minh

mô hình được đề xuất đạt hiệu năng cao hơn so với các mô hình cơ sở Bên cạnh đó,luận án đã xây dựng bộ dữ liệu VSimLex-999, VESim-1000, công bố các bộ dữ liệunày cho cộng đồng nghiên cứu sử dụng Một số kết quả nghiên cứu liên quan đến bàitoán này được trình bày trong các công bố [CT2], [CT10], và [CT12] trong mục danh

sách công trình khoa học.

Tw khóa: quan hệ ngữ nghĩa, không gian vector ngữ nghĩa, nhúng từ, quan hệ

dong nghĩa, quan hệ trái nghĩa, quan hệ bao thuộc, quan hệ tương đồng ngữ nghĩa

Trang 8

Bài toán xác định quan hệ ngữ nghĩa của tÈ 2

Hướng tiếp cận và phương pháp 3

Đóng góp của luận an 2 ee 5

Cấu trúc của luận án ee 6

Chương 1 KIÊN THỨC CƠ SỞ VÀ CÁC NGHIÊN CỨU LIÊN QUAN 8

11

1.2

Một số khái niệm cơ bản vềtừ §

111 Hình vị Qua 8 1.1.2 Twvanghiactat® 2 0 0 ee ee ee 9 1.1.3 Ngữ nghĩa từ vựng 0.20.00 0000004 10 1.1.4 Quan hệ ngữ nghĩa giữa các th 2 Q Q Q Q Q kỦ 10

1.1.5 Một số giả thuyết ngữ nghĩacơbảẩn 121.1.6 Mô hình ngữ nghĩa phân phối - 15

Trang 9

Nội dung vii

Mạng nơ-ron hồi quy c5 CS S2 30

Quan hệ bao thuộc Q2 31

1.4.2 Một số nghiên cứu liên quan 35

Quan hệ đồng nghĩa - trái nghĩa - 4115.1 Đặt vấn đề ee 411.5.2 Một số nghiên cứu liên quan 42

Đo lường độ tương tự ngữ nghĩa giữa các tỪ Ặ 45

161 Đặt vấn đề ee 451.6.2 Một số nghiên cứu liên quan 47

Phân tích hạn chế của mô hình DWN_ 54

Đề xuất mô hình LERC 2 54

2.3.1 Mô hình DWN cải tien 2 2 ee 56

2.3.2 Tích hợp đặc trưng ngữ nghĩa mức dưới từ 60 2.3.3 Mô hình phân lớp quan hệ bao thuộc có giám sát 652.3.4 Phân tích ưu nhược điểm và tính mới của mô hình 67

Xây dựng bộ dữ liệu tiếng Việt DtVLE-999, DrVLE-999, DetVLE-999 67

2.4.1 Lựa chọn các cặp ti Ứng viÊn ee ee 68 24.2 Đánh giá dữ lệu vo 68

2.4.3 Thống kê dữ liệu co 69

Thực nghiệm Ặ Q Q Q ee 71 2.5.1 Bộ dữ liệu đánhgiá so 71

2.5.2 Huấn luyện các mô hình nhúng từ - 74

2.5.3 Đánh giámôhình Ặ So 76

2.5.4 Phân tích thống kê cẶ CS So 81

Tom tat chuong DDDỤŨẶĂẶĂẶĂÁÁ 87

Chương 3 PHAN TÁCH QUAN HE DONG NGHĨA - TRÁI NGHĨA

Đề xuất mô hình DVASNet Q2 93

Trang 10

Nội dung viii

3.3.1 Các đặc trưng tĩnh ee ee, 94 3.3.2 Mô hình DVASNet 2 0.020.0 2000200000005 95

3.4 Xây dựng bộ dữ liệu ASC tiếng Việt 97

4.2 Đề xuất độ đo tương tu ee 105

4.2.1 Độ đo tương tự ExtLeskSim 105

4.2.2 Kỹ thuật GraphSim ee eee 107

4.3 Xây dựng bộ dữ liệu tiếng Viet 108

4.3.1 Dịch bộ dữ liệu SimLex-999 sang tiếng Việt 109

4.3.2 Đánh giá độ tương tuctacéaptt 0- 110

4.3.3 Một số thống kê trên bộ dữ liệu - 111

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 123

TÀI LIỆU THAM KHẢO 125

Trang 11

Distinguishing Vietnamese Antonyms and Synonyms Neural Network Model

Dynamic Weighting

Neu-ral Network

Extend Dynamic

Weighting Neural

Network Hyperspace Analogue to Language

Hypernymy Recognition

Lexical Entailment

Recognition Combination

Lexicographer’s Mutual Information

Latent Semantic Analysis

ix

Diễn giải

Bài toán phân tách quan hệ

đồng nghĩa-trái nghĩa

Mô hình túi từ liên tục.

Mô hình ngữ nghĩa phân phối.

Mô hình mạng nơ-ron phân tách

quan hệ đồng nghĩa - trái nghĩa

Mô hình mạng nơ-ron với trọng

số động

Mô hình mạng nơ-ron với trọng

sô động cải tiên.

Mô hình Không gian ngữ nghĩa

tương tự của ngôn ngữ.

Bài toán xác định quan hệ bao thuộc.

Mô hình tích hợp xác định quan

hệ bao thuộc.

Thông tin tương hỗ theo từ điển.Phân tích ngữ nghĩa tiềm ẩn

Trang 12

Danh mục các từ uiết tắt

LSRD

LSTM

MI PMI

WSP

Lexical Semantic Relation Determination

Long Short-Term Memory

Mutual Information Pointwise Mutual

Information

Shortest Paths

Skip-Gram

Dependency

Subword Feature Subword Pattern

Semantic

Vietnamese

Computational Lexicon Vector-Space Model

Thông tin tương hỗ.

Thông tin tương hỗ theo từngđiểm

Đường phụ thuộc cú pháp ngắn

nhất

Kiến trúc mạng nơ-ron học biểu

diễn vector cho từ dựa trên dự

đoán từ ngữ cảnh khi biết từ

trung tâm.

Đặc trưng ngữ nghĩa mức dưới từ.

Mẫu ngữ nghĩa mức dưới từ.

Từ điển tiếng Việt cho máy tính

Mô hình không gian vector.

Bài toán đo lường độ tương tự ngữ nghĩa của cặp từ.

Mẫu cấu trúc từ

Trang 13

DANH MỤC CÁC BANG

1.1 Thống kê độ dài các từ trong từ điển tiếng Việt 34

1.2 Các mẫu cú pháp - từ vung do Hearst đề xuất cho tiếng Anh, luận án

xác định các mẫu tương ứng trong tiếng Việt 37

2.1 Một số ví dụ về bộ ba ng va 55

2.2 Năm lược đồ tính trọng số chú ý - 592.3 Một số ví dụ theo giả thuyết và phản ví dụ 612.4 Thống kê số SSP và tỷ lệ các cặp từ xuất hiện SSP theo các quan hệ

bao thuộc, cùng thuộc, đồng nghĩa, trái nghĩa, phân nghĩa 622.5 Một vài ví dụ về các SSP xuất hiện trong các cặp bao thuộc 63

2.6 Một số toán tử kết hợp vector biểu dién từ tạo ra vector đặc trưng của

2.7 Phan phối các từ va các cặp từ của bộ dữ liệu trong Veorpus 702.8 Tỷ lệ phần trăm các từ theo miền trong bộ dữ liệu tiếng Việt 702.9 Số lượng các cặp từ theo các quan hệ trong các bộ dữ liệu tiếng Việt 702.10 Một số cặp từ trong các bộ dữ liệu BLESS, WBLESS, BiBLESS 722.11 Số lượng các từ và cặp từ theo quan hệ ngữ nghĩa của các bộ dữ liệu

tiếng Anh cho nhiệm vụ phát hiện quan hệ bao thuộc 73

2.12 Số lượng từ cặp từ từ bao - từ thuộc, từ thuộc - từ bao, và không có quan

hệ bao thuộc trong các bộ đữ liệu tiếng Anh cho hai bài toán: xác địnhchiều của quan hệ bao thuộc; phát hiện quan hệ bao thuộc đồng thờixác định chiều của quan hệ Ặ 732.13 Phan phối độ dài từ trong các bộ dữ lidu 2 73

2.14 Thong kê số từ, kích thước tập từ vung, số câu của kho ngữ liệu đơn

ngữ tiếng Việt, và tiếng Anh cv 74

2.15 Thống kê tập các bộ ba ding để huấn luyện mô hình DWN và EDWN 7ð

2.16 Đánh giá hiệu năng của các mô hình trên ba bộ dữ liệu tiếng Việt, sử

dụng độ do ÂCCUTACV 2 va 77

2.17 Hiệu năng của các mô hình phát hiện quan hệ bao thuộc trên bộ dữ

liệu tiếng Anh, sử dụng độ do Accuracy 79

Xi

Trang 14

Hiệu năng của các mô hình phát hiện quan hệ và xác định hướng của

quan hệ bao thuộc trên các bộ dữ liệu tiếng Anh, sử dụng độ do Accuracy 81

So sánh hiệu suất của mô hình EDWN với các sơ đồ trọng số chú ý

khác nhau cho bài toán HR 2 Ặ Q Q Q Q Q Ủ 84

Thống kê bộ dữ liệu ViAS-1000 00.00 ee ee ee 98Một số vi dụ về ngữ cảnh đồng hiện - 100

Tỷ lệ xuất hiện mẫu cấu trúc từ của trái nghĩa/đồng nghĩa trong tiếng

Veto ÔôÔỒộ aaHIaadaa 101

Trung bình cộng của giá trị PMI/LMI của các cặp từ đồng nghĩa/trái

nghĩa LH HQ ng ng ng kg kg v kg vi kia 101

Hiệu năng của mô hình DVASNet so với các mô hình co sở 102

Thống kê số cặp từ có độ tương tự bằng 0 hoặc A lớn trong 999 cặp từ

thuộc bộ SimLex-999 2 Q2 107

Một số cặp từ trong bộ VSimLex-999 và cặp từ tương ứng trong bộ dữliệu gốc SimLex-999 ee 118Kết quả đánh giá hiệu năng theo độ tương quan Pearson của các mô

hình trên bộ dữ liệu VSimLex-999 và SimLex-999 119

Một số cặp của bộ dữ liệu VSimLex-999 có tần số đồng xuất hiệncao/thấp trong kho ngữ liệu 2 2 Ặ c c se 119Hiệu năng theo độ đo hệ số tương quan Pearson của các kỹ thuật

ExtLeskfim ee 120

Kết quả thực nghiệm thuật toán cải tiến 120

Độ tương tự một số cặp từ được đo bởi mô hình gốc (Wu và Palmer)

so với mô hình cải tiến (Graph8im) - 120

Thống kê số cặp từ có độ tương tự bằng 0 hoặc A lớn trong kết quả

thực hiện với thuật toán cải tiến 120

Trang 15

DANH MỤC CÁC HÌNH VẼ

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1.9

1.10

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.8

2.9

Một số tiếp cận về biểu diễn ngữ nghĩa của từ vung 2 2

Minh họa trực quan giả thuyết Tập quan hệ ngữ nghĩa 4

Kiến trúc các tầng ngữ nghĩa ốc 10 Mô hình không gian vector ngữ nghĩa phân phối của từ 16

Ma trận đồng xuất hiện Từ - Tài liệu 18

Ma trận đồng xuất hiện Từ - Ngữ cảnh 19

Một phân nhóm các mô hình nhúng tỪ 22

Hai kiến trúc mạng của mô hình Word2Vec 24

Kiến trúc mạng nơ-ron Context2Vec [77] 28

Một ví dụ trực quan về quan hệ giữa các từ thuộc với từ bao 32

Một phân nhóm các phương pháp xác định quan hệ bao thuéc 36

Một phần cây phân loại trong WordNet tiếng Việt (a) và WordNet tiếng “1021 -šẽšẽ ẶäÁẶẶẽ.Ẽ 4ï Mô hình mạng nơ-ron trọng số động - DWN [71] 54

Tổng quan về mô hình LERC - 55

Kiến trúc mang nơ-ron của mô hình EDWN 57

Tỷ lệ phần trăm của các SSP xuất hiện trong các cặp bao thuộc, cùng thuộc, trái nghĩa, đồng nghĩa, phân nghĩa - 63

Hình mình họa vector đặc trưng tổng của các cặp bao thuộc (đường màu xanh), và các cặp không có quan hệ bao thuộc (đường màu đỏ), thuộc bộ dữ liệu VLE-999 và Ontolearn 66

Sự phân bố của các cặp từ theo mức độ tương đồng ngữ nghĩa trong các quan hệ trên ba bộ dữ liệu tiếng Việt 70

Hình ảnh trực quan về sáu cây phân cấp từ vựng trong bộ dữ liệu Ontolearn ee 72 Phân phối của các bộ ba theo độ dài của ngữ cảnh 75

Mức độ cải thiện hiệu nang của các mô hình khi được sử dung thêm dac trung SSF 77

xiii

Trang 16

Danh muc các hình vé xiv

2.10 Ty lệ % của mức độ cải thiện hiệu năng của các mô hình khi được kết

hợp với đặc trưng SSF, đánh giá trên các bộ dữ liệu tiếng Anh 802.11 Minh họa về tác động tích cực và tiêu cực của đặc trưng SSF đối với

hiệu suất của mô hình LERC 83

2.12 Hình ảnh trực quan về độ chính xác của mô hình EDWN và LERC qua

30 lần ap ee 85

2.13 Sự thay đổi hiệu năng của mô hình EDWN theo giá trị hyperparameter

8 (a), và sự hội tụ của EDWN so với DWN (b) 86

3.1 Kiến trúc mạng nơ-ron của mô hình AntSynNET 89

3.2 Cây cú pháp của câu "con của ông từ một thanh niên lười biếng giờ trổ

thành người chăm chỉ can ct", oe 90

3.3 Hình minh họa một số mẫu cấu trúc từ của các cặp trái nghĩa/đồng

nghĩa ee 923.4 Tổng quan về mô hình phân tách cặp từ đồng nghĩa-trái nghĩa tiếng Việt 93

3.5 Kiến trúc mạng nơ-ron DVASNet cho bài toán phân lớp quan hệ đồng

nghĩa-trái nghĩa © ee 96

3.6 Hình minh họa kết quả thống kê các bộ ba - 99

4.1 Một phần đồ thị tương tự của các cặp tỪ 1084.2 (a) Phân phối các cặp từ của SimLex-999 và VSimLex-999 theo độ đo

tương tự (b) Phân phối các cặp từ của VSimLex-999 và các bộ dữ liệu

tương ứng của tiếng Đức, Ý, Nga theo độ đo tương tự 111

4.3 Hiệu năng của các mô hình đo độ tương tự khác nhau theo độ tương

quan Pearson, đánh giá với bộ dữ liệu tiếng Anh và tiếng Việt 1134.4 Hiệu năng của kỹ thuật ExtLeskSim theo hệ số tương quan Pearson 114

4.5 Minh họa trực quan hiệu năng của mô hình GraphSim so với các kỹ

thuật gốc (a) - Đánh giá trên bộ dữ liệu tiếng Việt VSimLex-999; (b)

- Đánh giá trên bộ dữ liệu tiếng Anh SimLex-999 115

Trang 17

DANH MỤC CÁC THUẬT TOÁN

1 Thuật toán trích chọn vector đặc trưng ngữ nghĩa mức dưới từ của một

cặp từ (FeatEXi) HQ HQ ee 65

2 Thuat toán do độ tương tự ngữ nghĩa giữa các từ (GraphSim) 117

3 _ Thuật toán tim đường đi ngắn nhất giữa mọi cặp đỉnh trên đồ thị

(Floyd-Warshall) ee 118

XV

Trang 18

MỞ ĐẦU

Đặt vân đê

Lĩnh vực nghiên cứu zử ly ngôn ngữ tự nhiên (Natural Language Processing - NLP)

nhắm đến mục đích làm cho máy (như: máy tính, robot, thiết bị thông minh, v.v) cóthể hiểu được ngôn ngữ tự nhiên của con người Những năm gần đây, cùng với sự pháttriển nhanh chóng của lĩnh vực học máy đã kéo theo những bước phát triển mangtính đột phá của lĩnh vực NLP Dang chú ý là bên cạnh hướng tiếp cận biểu tượng(Symbolic Approach) vốn dựa trên các luật hay từ điển được xây dung thủ công, đã

xuất hiện những hướng tiếp cận mới "mạnh mẽ" như học sâu (Deep Learning), sử

dụng các mạng nơ-ron nhiều tầng có cấu trúc phức tạp Với sức mạnh xử lý vượt trội

của các máy tính hiện đại, đặc biệt là các bộ xử lý đồ họa, các kiến trúc học sâu có

khả năng hoc từ một lượng rất lớn dit liệu Ngày càng có nhiều hệ thống NLP chứng

minh được khả nang "thong minh" một cách đáng kinh ngạc nhờ kha năng hoc của

của mô hình học sâu Mặc dù vậy, vẫn còn một khoảng cách giữa hiệu năng của các

mô hình và kỳ vọng của con người [22, 73] Linh vực NLP van tồn tại những thách

thức cơ bản như: một số bài toán có ít dữ liệu, dữ liệu có nhiều nhiễu; hiểu được các

thủ pháp nghệ thuật như ẩn dụ, hoán dụ Việc tích hợp thêm các mô hình xác địnhquan hệ ngữ nghĩa của từ là một trong các cách tiếp cận để vượt qua những thách

thức này Do đó, Trong những năm gần đây bài toán zác định quan hệ ngữ nghĩa của

từ vung (Lexical Semantic Relation Determination - LSRD) đã trở thành một trong

những chủ dé nghiên cứu quan trong trong NLP [91, 124, 125, 138}

Xác định quan hệ ngữ nghĩa của từ là chủ dé nghiên cứu được quan tâm của nhiều

ngành từ thời cổ đại Những nghiên cứu gần đây về cấu trúc ngữ nghĩa, cách thức tổchức từ vựng đã thúc đẩy những quan điểm mới về các quan hệ ngữ nghĩa của từ vựng

Trong vài thập kỷ qua, lĩnh vực lý thuyết ngôn ngữ đã có những nghiên cứu xác định

những đặc trưng của các quan hệ ngữ nghĩa như đồng nghĩa, trái nghĩa, bao thuộc, dong âm, da nghĩa, tương tự ngữ nghĩa, liên quan ngữ nghĩa [30, 53, 54, 91, 124], v.v.

Các quan hệ này được thể hiện rõ trong các cơ sở dữ liệu từ vựng lớn như WordNet,

1

Trang 19

Mỏ đầu 2

BabelNet Gần đây hơn, các quan hệ ngữ nghĩa từ vựng đã trở thành chủ đề nghiêncứu chính của ngôn ngữ học tính toán, khi chúng là một tiếp cận thuận tiện và tự

nhiên để tổ chức một lượng lớn dữ liệu từ vựng bằng những bản thể hoc (Ontology),

WordNet [1, 97] hay từ điển [98] Do đó, xác định chính xác quan hệ ngữ nghĩa giữa

các từ là chìa khóa để nâng cao hiệu năng cho nhiều ứng dung NLP quan trọng

[22, 109] Mặc dù vậy, trong tiếng Việt, các nghiên cứu về bài toán này chủ yếu tập

trung trong lĩnh vực ngôn ngữ học thuần túy [53, 54] Cho đến thời điểm hiện tại,

vẫn chưa có nhiều nghiên cứu về các quan hệ ngữ nghĩa từ vựng tiếng Việt theo tiếp

cận của ngôn ngữ học tính toán, có thể áp dụng cho các hệ thống NLP [95] Do đó,

xác định quan hệ ngữ nghĩa của từ là một bài toán quan trọng và có ý nghĩa trong

tiếng Việt

Bảng 1 : Các đặc trưng về loại kết quả đầu ra, quan hệ ngữ nghĩa, và ngôn

ngữ, của ba bài toán được nghiên cứu trong luận án.

¬ Đặc trưng Đặc trưng quan Đặc trưng ngôn Bài toán x ^ ~

dau ra hệ ngữ

Định Định Đối Bat đối Tiếng Tiếng

tính lượng xứng xứng Anh Việt

HR v v v v

ASC v v v

WSM v v v v

Tiếp cận ngữ nghĩa Tiếp cận ngữ nghĩa Tiếp cận kết hợp giữa

hình thức phân phối hình thức và phân phối

Tiếp cận dự đoán Tiếp cận đếm dựa trên mạng nơ-ron dựa trên thống kê

(Distributed Representation) (Distributional Representation)

Độc lập ngữ cảnh Phụ thuộc ngữ cảnh

Hình 1 : Một số tiếp cận về biểu diễn ngữ nghĩa của từ vựng

Bài toán xác định quan hệ ngữ nghĩa của từ

Xác định quan hệ ngữ nghĩa giữa hai từ đóng vai trò quan trọng đối với nhiềuứng dụng NLP như xây dung cây ngữ nghĩa [37, 88, 123], phát hiện kế thừa văn bản

Trang 20

Mỏ đầu 3

[18], hỏi đáp tự động [20], tóm tắt văn ban [29], v.v Các quan hệ ngữ nghĩa từ được

nghiên cứu nhiều nhất là đồng nghĩa, trái nghĩa, bao thuộc, tương tự ngữ nghĩa, cùng

thuộc, phân nghĩa, v.v Các mô hình xác định quan hệ ngữ nghĩa của từ có thể được

chia thành ba nhóm, gồm dựa trên các mau cú pháp - từ vung [141], dựa trên tiếp cậnngữ nghĩa phan phối [34, 76, 136], hoặc tiếp cận kết hợp [93, 120] Các phương pháptiếp cận dựa trên mau cú pháp - từ vung tìm kiém các mau đồng xuất hiện của các từ

(cụm từ, khái niệm, thuật ngữ, v.v), các mau có thể được biểu diễn bằng đường dẫn

từ kết nối w và v trong kho ngữ liệu Do đó, mọi cặp từ ứng viên (u,v) được biểu thị

bang tập hợp các đường dẫn từ kết nối w và ø trong kho ngữ liệu Các phương pháp

theo tiếp cận ngữ nghĩa phân phối dựa trên việc mô hình hóa các thông tin phân phốicủa từng từ riêng biệt trong kho ngữ liệu, các từ ứng viên u,v không nhất thiết phảiđồng xuất hiện với nhau Chi tiết hơn về các nghiên cứu liên quan của các bài toánxác định quan hệ bao thuộc, phân tách quan hệ đồng nghĩa - trái nghĩa, đo lường độtương tự ngữ nghĩa của cặp từ được trình bày lần lượt trong các phần 1.4.2, 1.5.2 và

1.6.2.

Hướng tiếp cận và phương pháp

Các nghiên cứu trước đây về biểu diễn ngữ nghĩa của từ vựng có thể được chia

thành ba tiếp cận chính gồm ngữ nghĩa hình thúc, ngũ nghĩa phân phối, và tiếp cận

kết hợp Tiép cận ngữ nghĩa hình thức dựa trên các ký hiệu và tập trung vào các thuộc

tính suy luận của ngôn ngữ, tiếp cận ngữ nghĩa phân phối có tính chất thống kê vàdựa trên dữ liệu, tập trung vào các khía cạnh ý nghĩa liên quan đến nội dung mô tả

[22] Khảo sát các nghiên cứu liên quan [76, 86, 91, 124, 131], luận án trực quan hóa

các tiếp cận này bằng Hình 1 Gần đây, luận án của Soler [124] đã khai thác các mô hình nhúng từ theo ngữ cảnh cho các bài toán biểu diễn ngữ nghĩa của từ trong ngữ

cảnh, đo lường mức độ giống nhau về cách sử dụng từ, tính đa nghĩa và phân táchcác nghĩa thành phan của từ Mặc dù tác giả cũng sử dụng hướng tiếp cận ngữ nghĩa

phân phối như chúng tôi nhưng luận án của Soler nhấm đến giải quyết các bài toán

ngữ nghĩa của từ trong ngữ cảnh, hay nói cách khác là sử dụng tiếp cận phụ thuộc

ngữ cảnh.

Trong luận án này, chúng tôi sử dụng tiếp cận ngữ nghĩa phân phối dựa trên mạng

nơ-ron (Hình 1), sử dụng các mô hình học máy, học sâu để xác định bốn quan hệ

ngữ nghĩa của từ bao gồm bao thuộc, đồng nghĩa, trái nghĩa, tương tự ngữ nghĩa Các

nghiên cứu trước đây xác định quan hệ ngữ nghĩa của từ chỉ sử dụng thông tin ngữ

nghĩa của các từ ứng viên, điều này dẫn tới các hạn chế đối với các ngôn ngữ "nghèo"

Trang 21

Mỏ đầu 4

tài nguyên, hoặc các lĩnh vực chuyên biệt Để khắc phục nhược điểm này, luận án đưa

ra giả thuyết tập quan hệ ngữ nghĩa, theo đó "Quan hệ ngữ nghĩa giữa hai từ có thể

được định vi thông qua méi quan hệ giữa các từ có quan hệ uới chúng" Giả thuyết này

được minh họa trực quan bằng Hình 2, được sử dụng xuyên suốt trong thiết kế mô

hình giải quyết các bài toán của luận án theo hai tiếp cận chính là tich hợp các quan

hệ ngũ nghĩa uào không gian vector nhúng từ và biểu diễn các quan hệ ngữ nghĩa bằng

cau trúc đô thị qua đó khai thác các độ đo trên đồ thị, học biểu diễn dựa trên đồ thi

Hình 2 : Minh họa trực quan giả thuyết Tập quan hệ ngữ nghĩa

Luận án này nhắm đến giải quyết ba bài toán gồm: Xác định quan hệ bao thuộc

(Hypernymy Recognition - HR); phân tách các cặp từ theo quan hệ đồng nghĩa - trái

nghĩa (Antonymy-Synonymy Classification - ASC); đo lường độ tương tự ngữ nghĩa

của cặp từ (Word Similarity Measurement - WSM) Bảng 1 trình bày tóm tắt các

đặc trưng về kết quả đầu ra, quan hệ ngữ nghĩa, và ngôn ngữ, của ba bài toán được

nghiên cứu trong luận án này.

Đối với bài toán xác định quan hệ bao thuộc, luận án sử dụng hai chiến lược chính

Thứ nhất, học được các biểu diễn vector "chuyên biệt" cho từ bằng một mô hình mạng nơ-ron Biểu diễn vector chuyên biệt này không những chứa thông tin ngữ nghĩa của

từ như các biểu diễn nhúng từ thông thường (Word2vec, GloVe, fastText, v.v) mà

còn mã hóa những đặc trưng của quan hệ bao thuộc Thứ hai, khai thác những đặc

trưng về cấu trúc của các từ ghép và thuật ngữ Bằng cách kết hợp vector nhúng từ

chuyên biệt với vector đặc trưng cấu trúc của từ, mô hình được đề xuất trong luận

án đã cải thiện hiệu năng đáng kể cho bài toán so với các mô hình tốt nhất tại thời

điểm công bố

Đối với bài toán phân tách các cặp từ có quan hệ đồng nghĩa, trái nghĩa, luận án

sử dụng hai chiến lược chính Thứ nhất, khai thác thông tin ngữ cảnh đồng xuất hiện

của cặp từ, thông tin này được mã hóa thành vector bởi một mô hình mạng no-ron.

Thứ hai, khai thác những đặc trưng riêng của tiếng Việt như các mẫu cấu trúc từ

thể hiện mối quan hệ ngữ nghĩa giữa các thành phan của từ nay uới các thành phancủa từ kia, thông tin tương hỗ giữa các từ, độ tương tự ngữ nghĩa của cấp từ, giúp mô

Trang 22

Mỏ đầu b

hình phân tách tốt hơn các cặp từ theo quan hệ đồng nghĩa, trái nghĩa Bên cạnh bàitoán phân tách cặp từ theo quan hệ đồng nghĩa, trái nghĩa, luận án đề xuất một môhình phát hiện quan hệ trái nghĩa, theo đó các cặp từ đồng nghĩa, trái nghĩa được

trích từ WordNet và từ điển được dùng để học các biểu diễn vector chuyên biệt cho

từ Những vector nhúng từ chuyên biệt này được mã hóa thêm các thông tin về quan

hệ đồng nghĩa, trái nghĩa Thêm nữa, những đặc trưng về quan hệ ngữ nghĩa của cặp

từ cũng được khai thác để tăng hiệu năng của mô hình

Đối với bài toán đo lường độ tương tự của cặp từ, luận án đã đề xuất những cải

tiến nhằm tăng độ chính xác của phép đo đối với cả các cặp từ đơn ngữ và song ngữ.

Để lượng giá chính xác hơn độ tương tự của cặp từ, chiến lược thứ nhất là áp dụng

thuật toán tìm đường đi tối ưu giữa các đỉnh của đồ thị để đo khoảng cách ngữ nghĩa ngắn nhất giữa các từ Chiến lược thứ hai, luận án khai thác thông tin định nghĩa

của các từ với giả thuyết rằng độ tương tự ngữ nghĩa giữa hai từ tương quan tới múc

độ tương tự ngữ nghĩa giữa các định nghĩa của chúng.

Đóng góp của luận án

Mục tiêu của luận án hướng đến nâng cao hiệu năng của các mô hình tự động xácđịnh bốn quan hệ ngữ nghĩa của từ gồm bao thuộc, đồng nghĩa, trái nghĩa, tương tự

ngữ nghĩa Những đóng góp chính của luận án như sau:

- Đối với bài toán xác định quan quan hệ bao thuộc, luận án đã đề xuất một cải

tiến cho mô hình mạng nơ-ron có trọng số động (Dynamic Weighting Neural Network

- DWN) được đề xuất bởi Anh Tuan Luu và cộng sự [71] Mô hình cải tiến được gọi

là EDWN, có khả năng học các vector nhúng từ chuyên biệt, các vector nhúng này

được "chuyên biệt hóa" các đặc trưng về ngữ nghĩa, qua đó phù hợp cho bài toán xácđịnh quan quan hệ bao thuộc hơn so với các mô hình nhúng từ đã được đề xuất trước

đó như Word2Vec, fastText, GloVe v.v Luận án đã xác định các đặc trưng ngữ nghĩa

mức dưới từ, và đề xuất một thuật toán trích chọn những đặc trưng này Để xác định

quan hệ bao thuộc, luận án đề xuất mô hình LERC, mô hình này đã sử dụng đặctrưng đầu vào được kết hợp từ vector nhúng từ và vector đặc trưng ngữ nghĩa dưới

từ Kết quả thực nghiệm được đánh giá trên một số bộ dữ liệu chuẩn của cả tiếng

Anh, tiếng Việt đã chứng minh mô hình được đề xuất trong luận án có hiệu năng cao

hơn đáng kể so với các mô hình tốt nhất tại cùng thời điểm Những đóng góp đối với

bài toán này được trình bày trong [CT1], [CT8], và [CT9].

Trang 23

Mỏ đầu 6

- Đối với bài toán phân tách các cặp từ theo quan hệ đồng nghĩa, trái nghĩa, luận

án đã đề xuất mô hình mạng nơ-ron DVASNet Mô hình này không những sử dụng cácđặc trưng phân phối của từ trong kho ngữ liệu mà còn khai thác được các thông tin

về cấu trúc của từ Kết quả thực nghiệm trên một số bộ dữ liệu chuẩn đã chứng minh

mô hình DVASNet đạt hiệu năng cao hơn đáng kể so với năm mô hình cơ sở, cụ thể:

theo độ đo hồi tưởng, hiệu năng của mô hình DVASNet cao hơn các mô hình cơ sở từ

22% << 32% trên bộ dữ liệu ViCon va từ 33% — 66% trên bộ dữ liệu ViAS-1000; theo

độ đo F1, hiệu năng của mô hình DVASNet vượt trội các mô hình cơ sở từ 8% ©— 15% trên bộ dữ liệu ViCon và từ 29% «+ 33% trên bộ dữ liệu ViAS-1000 Những đóng góp

đối với bài toán này được trình bày trong [CT5], [CT6], và [CT7]

- Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từ, luận án đề xuất mô

hình GraphSim để nâng cao hiệu năng đo lường độ tương tự ngữ nghĩa của cặp từtiếng Anh dựa trên thuật toán tìm đường đi ngắn nhất trên đồ thị Thêm nữa, luận

án đề xuất mô hình ExtLeskSim, là một cải tiến của thuật toán Lesk để nó hoạt động

hiệu quả hơn với đặc trưng của tiếng Việt Đối với bài toán đo lường độ tương tự ngữnghĩa của cặp từ song ngữ, luận án đã đề xuất một mô hình mạng nơ-ron học không

gian nhúng từ song ngữ Việt - Anh Sử dụng không gian nhúng từ song ngữ để đo

lường độ tương tự ngữ nghĩa cho các cặp từ song ngữ Việt - Anh Bên cạnh đó, luận

án đề xuất mô hình WEWD để đo lường độ tương tự ngữ nghĩa cho các cặp từ song

ngữ Việt - Anh dựa trên thông tin phân phối và định nghĩa của từ Những đóng gópđối với bài toán này được trình bày trong [CT2], [CT10], và [CT12]

- Bên cạnh đó, luận án đã xây dựng bốn bộ dữ liệu đánh giá mô hình xác địnhquan hệ ngữ nghĩa, bao gồm: VLE-999, ViAS-1000, VSimLex-999, và VESim-1000

Câu trúc của luận án

Luận án bao gồm phần Mở đầu, bốn chương, và phần Kết luận:

Phần Mở đầu Giới thiệu về bài toán xác định quan hệ ngữ nghĩa của từ dựatrên tiếp cận học máy thống kê Đề cập ý nghĩa và tính cấp thiết của luận án, tổng

quan về bối cảnh nghiên cứu, động lực, mục tiêu, phạm vi, nội dung nghiên cứu, cùng

Trang 24

Phan Kết luận Trình bày các kết luận cũng như những điểm hạn chế của luận

án, và đưa ra những hướng nghiên cứu tiếp theo của luận án

Trang 25

Chương 1

KIÊN THỨC CƠ SỞ VÀ CÁC NGHIÊN

CUU LIEN QUAN

Trong chương nay, luận án trình bày những kiến thức cơ sở được sử dung trong

các chương tiếp theo Mở đầu, Mục 1.1 trình bày một số khái niệm cơ bản về từ và

ngữ nghĩa của từ, một số giả thuyết ngữ nghĩa cơ bản Luận án cũng giới thiệu về hai

mô hình biểu diễn ngữ nghĩa bằng không gian vector gồm mô hình ngữ nghĩa phân

phối và mô hình nhúng từ (Mục 1.2) Bên cạnh đó, chương này cũng trình bày tổng

quan, phân tích đánh giá các công trình nghiên cứu liên quan và đưa ra các vấn đề

còn tồn tại mà luận án sẽ giải quyết về ba bài toán gồm zác định quan hệ bao thuộc

(Mục 1.4), phân tách quan hệ đồng nghĩa - trái nghĩa (Mục 1.5), và đo lường độ tương

tu ngữ nghĩa của cap từ (Mục 1.6).

1.1 Một số khái niệm cơ bản về từ

1.1.1 Hình vị

Hình vị (Morpheme) hay từ fố, ngỡ tố là đơn vị nhỏ nhất có nghĩa của ngôn ngữ,

chúng tồn tại bằng cách lặp đi lặp lại dưới cùng một dạng hoặc dưới dạng tương đối

giống nhau trong các từ [150] Hình vị có thể đứng riêng một mình hay bị lệ thuộc.

Ví dụ:

Một số hình vị tiếng Anh: house, man, black, sleep, walk, v.v

Một số hình vị tiếng Việt: nhà, người, đẹp, tốt, đi, làm, v.v

Tiếng Việt là một ngôn ngữ đơn lập (hay còn gọi là ngôn ngữ cách thể) nên một hình

vị là một fiếng hay một chữ

Trang 26

Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 9 1.1.2 Tw và nghĩa của từ

Từ là đơn vị cơ bản của ngôn ngữ, có thể dé dàng tách khỏi chuỗi âm thanh lời

nói, có cấu trúc hình thức chặt chẽ, có nội dung ý nghĩa hoàn chỉnh và được sử dụng

như là những vật liệu có săn để tạo ra những đơn vị thông báo Từ có thể làm tên

gọi của sự vật (danh từ), chỉ các hoạt động (động từ), trạng thái, tính chất (tính từ),

v.v Từ là công cụ biểu thị khái niệm của con người đối với hiện thực.

Trong tiếng Việt, ngoài các từ đơn còn có các đơn vị có tính chất và chức năng như

từ, chúng được gọi là những đơn ui tương đương từ như: từ phức (hạnh phúc, xanh

ri, v.v), thuật ngữ (OSI, ozit bazơ, cây cân bang, v.v), quán ngữ (vui như tết, buồnnhư trấu căn, khôn nhà dại chợ, v.v), thành ngữ (bút Nam Tào, dao thay thuốc; nếm

mật nam gai; hoc thay không tàu học ban, v.v) Trong phạm vi của dé tài, luận án chỉ

nghiên cứu một số quan hệ ngữ nghĩa của từ đơn, từ phức và thuật ngữ (sau đây

gọi chung là từ).

Trong ngữ nghĩa học từ vựng, nghia (Meaning) và nghĩa thành phan (Sense) của

từ là hai khái niệm cơ bản Theo Nguyễn Thiện Giáp [32], nghĩa thành phần của từ

là cái sở biểu của từ; Nghia của từ là mối quan hệ giữa năng biểu và sở biểu, nó là

quan hệ của từ với cái gì đó nằm ngoài bản thân nó.

Nghĩa của từ là một hiện tượng phức tạp, bao gồm một số thành tố đơn giản hơn

như nghĩa sở biểu, nghĩa sở thị, nghĩa sở chỉ, nghĩa sở dụng, nghĩa ngữ pháp [32] Một

từ có thể có một hoặc nhiều nghĩa thành phần, nói cách khác, nghĩa thành phần là

sự thể hiện rời rac về nghĩa của từ Ví dụ, một số nghĩa thành phan của từ di được

liệt kê trong WordNet tiếng Việt như sau:

— Địi: làm cho thú gi đó di qua hay đưa đến nơi nào đó, ví dụ: "đi dâu điện ra sau

?

tu".

— Dig: di hay di qua một quãng đường, ví du: "chiếc xe này có thể di được 150 ki

16 mét mét gid".

— Dis: (tàu xe) có trang thái nào đó khi lái, ví du: "ze di rất tốt"

— Dig: đi trên, di doc theo hoặc di qua, ví dụ: "di trên các xa lộ ở California".

— Dis: ngồi trên lưng một con vat, thường trong khi điều khiển chuyển động của

nó, ví dụ: "Tôi còn thấu cảnh day té di ngựa như các hoàng tử"

Trang 27

Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 10 1.1.3 Ngữ nghĩa từ vựng

Ngữ nghĩa hoc (Semantics) là lĩnh vực nghiên cứu về cách mà ngôn ngữ được sử

dụng để biểu đạt ý nghĩa của các thành phần ngôn ngữ Nói cách khác, ngữ nghĩa

học nhằm mục đích giải thích cách thức các nghĩa đen được mã hóa và giải mã bằng

ngôn ngữ bởi người nói và người nghe.

Ngữ nghĩa học từ vựng (Lexical Semantics) là lĩnh vực nghiên cứu nghĩa của hình

vị, từ và các mối quan hệ ngữ nghĩa giữa chúng, cũng như cách thức mà nghĩa của từ

liên quan đến cấu trúc và ngữ pháp [125] Hình 1.1 cho thấy rằng ngữ nghĩa học từ

vựng là các nghiên cứu thuộc tầng cơ bản và cốt lõi nhất trong lĩnh vực ngữ nghĩahọc, cũng như đóng vai trò quan trọng đối với các bài toán xử lý ngôn ngữ tự nhiên

1.1.4 Quan hệ ngữ nghĩa giữa các từ

Quan hệ ngữ nghĩa giữa các từ là chủ đề nghiên cứu được quan tâm trong nhiều

lĩnh vực như triết học, tâm lý học nhận thức, và khoa học máy tính Các quan hệngữ nghĩa của từ đóng một vai trò thiết yếu trong ngữ nghĩa học từ vựng và được

ứng dụng ở nhiều cấp độ trong các tác vụ hiểu và sinh ngôn ngữ Các quan hệ ngữ

nghĩa giữa các từ cũng là yếu tố trung tâm trong việc tổ chức các cơ sở tri thức ngữ

nghĩa từ vựng [17].

Có nhiều loại quan hệ ngữ nghĩa giữa các từ, tuy nhiên trong phạm vi nghiên cứucủa luận án này, luận án chỉ nghiên cứu về bốn quan hệ ngữ nghĩa cơ bản gồm: baothuộc, đồng nghĩa, tương đồng ngữ nghĩa, trái nghĩa

Trang 28

Chương 1 Kiến thúc cơ sở tà các nghiên cứu liên quan 11

1.1.4.1 Quan hệ liên quan ngữ nghĩa

Khái niệm quan hệ liên quan ngữ nghĩa (Semantic Relatedness) trong ngôn ngữ

học tính toán tương ứng với khái niệm tương tự thuộc tính (Attributional Similarity)

trong khoa học nhận thức Hai từ được gọi là có liên quan ngữ nghĩa nếu giữa chúngtồn tại bất kỳ một loại quan hệ ngữ nghĩa nào Quan hệ liên quan ngữ nghĩa đượcđặc trưng bởi các từ thường xuyên xuất hiện cùng nhau trong một số ngữ cảnh, có

liên quan về thời gian, không gian, ví dụ như sting - bắn, bóng đá - cầu thủ, v.v loại

quan hệ nay còn được gọi là quan hệ liên kết ngữ nghĩa (Semantically Association)

Mức độ liên quan ngữ nghĩa của hai từ tỷ lệ với mức độ chia sẻ các thuộc tính ngữ

nghĩa giữa chúng [128].

1.1.4.2 Quan hệ tương tự ngữ nghĩa

Trong lĩnh vực ngôn ngữ học tính toán, quan hệ tương tự ngữ nghĩa (Semantic

Similarity) hay tương đồng phân loại (Taxonomic Similarity) dùng để chỉ các từ có

sự tương đồng với nhau về loại hoặc chức năng Resnik [110] cho rằng hai từ tương

tự nhau về ngữ nghĩa nếu chúng có chung một từ bao Ví dụ từ ô £ô và zeđạp có

chung từ bao là re Quan hệ tương tự ngữ nghĩa là trường hợp đặc biệt của quan hệ

liên quan ngữ nghĩa Theo Navigli và Martelli [87], quan hệ tương tự ngữ nghĩa được

đặc trưng bởi khả năng các từ có thể được dùng thay thế cho nhau trong một số ngữcảnh nhất định mà không thay đổi đáng kể ngữ nghĩa cơ bản của câu

Xác định mức độ tương tự ngữ nghĩa giữa hai từ là phép đo thống kê mức độ chia

sẻ các thuộc tính ngữ nghĩa giữa chúng Phép đo này có ích trong một miền rất rộng

các ứng dụng của lĩnh vực NLP Mặc dù một số phương pháp do đã được đề xuất

để giải quyết bài toán này Tuy nhiên, cho đến hiện tại, việc tính toán chính xác độtương tự ngữ nghĩa giữa các từ vẫn còn là một thách thức lớn.

1.1.4.3 QQuan hệ bao thuộc

Quan hệ bao thuộc (Hypernymy) là một quan hệ ngữ nghĩa bất đối xứng giữa

một tu bao (Hypernym) với một tv thuộc (hyponym), ví dụ thuật toán là một từ bao

của lan truyêền ngược, ze đạp điện là một từ thuộc của zeđạp Quan hệ bao thuộccòn được gọi là quan hệ Ia mot (IS-A) [71, 137], quan hệ kế thừa từ vung (Lexical

Entailment) [7, 7, 18, 130], hoặc quan hệ phân loại (Taxonomic Relation) [71].

Trang 29

1.1.4.4 Quan hệ đồng nghĩa

Quan hệ đồng nghĩa (Synonymy) là quan hệ ngữ nghĩa giữa hai từ có nghĩa giống

nhau, chúng có thể được dùng thay thế cho nhau trong một số ngữ cảnh mà khônglàm nghĩa của câu thay đổi [S6] Ví dụ, do khán giả và người em là hai từ đồng nghĩa

nên hai câu sau đây tương đồng với nhau về nghĩa:

- "Phim có nhiều đoạn khiến khán gid bị ngắt mạch cảm xúc bởi mảng miếng hài đan

xen”.

- "Phim có nhiều đoạn khiến người zem bị ngắt mạch cảm xúc bởi mảng miếng hài

đan xen".

Mặc dù tương đồng với nhau về nghĩa nhưng các từ đồng nghĩa khác nhau về âm

thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong

cách nào đó, hoặc đồng thời cả hai

1.1.4.5 Quan hệ trái nghĩa

Quan hệ trái nghĩa (Antonymy) là quan hệ giữa các từ đối lập với nhau về nghĩa[72] Quan hệ trái nghĩa lần đầu tiên được đề cập đến như một quan hệ ngữ nghĩađối lập với quan hệ đồng nghĩa trong nghiên cứu của Smith [122] vào năm 1867 Tráinghĩa là một quan hệ có mặt trong tất cả các ngôn ngữ, được xác lập trên cơ sở của

sự liên hệ đối lập hay trái ngược nhau về nghĩa, nó vừa là biện pháp tổ chức của từvựng, vừa là biện pháp tổ chức của tư duy [54]

Trong tiếng Việt, quan hệ đối lập này thường phải dựa trên thế tương liên toàn

diện về nội dung và hình thức giữa các từ Tương liên được hiểu là quan hệ hai chiều

giữa hai thực thể trên một tiêu chí lô gích một thế lưỡng cực, lưỡng phân Hai từ có

nghĩa đối lập nhau nhưng không tương liên thì không phải là từ trái nghĩa [54] Từbat đôi lập với có, nhưng bất và có không phải là cặp từ trái nghĩa, mà bat trái nghĩavới hữu Từ nhỏ đôi lập về nghĩa với các từ cd, cái, lớn, đại, mập, cô, uữ đại nhưng bé

chỉ trái nghĩa với lớn.

1.1.5 Một số giả thuyết ngữ nghĩa cơ bản

1.1.5.1 Giả thuyết ngữ nghĩa thống kê

Giả thuyết ngữ nghĩa thống kê (Statistical Semantics Hypothesis) được Weaver[139] đưa ra và sau đó được đề cập đến trong nghiên cứu của Furnas và cộng sự [28]

Trang 30

Giả thuyết này cho rằng Các mẫu thống kê vé cách sử dung từ của con người có thểđược sử dung để tìm ra nghĩa của từ mà con người muốn truyền dat

1.1.5.2 Gia thuyết phân phối

Theo tiếp cận ngữ nghĩa phân phối, một từ thường được biểu diễn bằng một vector Các kỹ thuật học các vector biểu diễn từ thường dựa trên giả thuyết phân

phối (Distributional Hypothesis), giả thuyết này được đề xuất bởi Harris [40], theo

đó các từ xuất hiện trong các ngữ cảnh tương tự có cu hướng tương tự uới nhau vé

nghĩa Giả thuyết này được Firth [25] trình bay theo một cách khác chúng ta có thể

biết nghĩa của một từ thông qua những từ đi kèm uới nó Các nghiên cứu của Harris

[40], Firth [25], Furnas và cộng sự [28] đã chỉ ra rằng các từ xuất hiện trong các ngữ

cảnh tương tự có mối liên quan ngữ nghĩa với nhau, là cơ sở cho các mô hình ngữ

nghĩa phân phối (Xem Hình 1) Mặc dù giả thuyết này bắt nguồn từ ngôn ngữ học,

nhưng nó hiện đang nhận được sự quan tâm nghiên cứu trong nhiều lĩnh vực khác

nhau như khoa học nhận thức, trí nhớ phân đoạn (Episodic Memory).

1.1.5.3 Gia thuyết phân phối mở rộng

Lin và Pantel [65] đã đề xuất giả thuyết phân phối mở rộng (Extended

Distribu-tional Hypothesis) cho các mẫu, theo đó các mau cú pháp từ vung xuất hiện cùng tới

các cặp từ tương tự có xu hướng tương tự nhau vé ngữ nghĩa Sự giỗng nhau về mẫu có

thể được sử dụng để suy ra rằng một câu là cách diễn giải của một câu khác [65] Ví

dụ, các mẫu "X viét Y", "Y được viét bởi X", "X là tác giả của Y" cùng xuất hiện với

cặp từ Nguyén_Du - Truyện Kiều trong các câu sau "Nguyễn Du uiết Truyện Kiều",

"Truyện Kiều được viét bởi Nguyễn Du", "Nguyễn Du là tác giả của Truyện Kiều",

có thể thấy rằng, các mẫu trên là tương tự nhau và các câu sử dụng các mẫu này là

những cách diễn giải khác nhau về cùng một vấn đề.

1.1.5.4 Giả thuyết quan hệ tiềm ẩn

Turney và Littman [127] đề xuất giả thuyết quan hệ tiềm ẩn (Latent Relation

Hypothesis), theo đó các cặp từ cùng xuất hiện trong những mẫu tương tự thì chúng

có ru hướng có quan hệ ngữ nghĩa tương tự nhau Các cặp từ voi động 0ật, phổ điệp

-lan, cùng xuất hiện với mẫu "X là một loài Y" như "voi là một loài động uật", "phi_diép

là một loài lan thuộc chỉ hoàng thảo" Có thể thấy rằng, cả hai cặp từ trên đều có

quan hệ bao thuộc.

Trang 31

1.1.5.5 Giả thuyết bao thuộc phân phối

Giả thuyết bao thuộc phân phối (Distributional Inelusion Hypothesis) được đềxuất bởi Geffet và Dagan [31] Theo giả thuyết này, nếu một từ u có ru hướng xuất

hiện trong một tập hợp con các ngữ cảnh của từ 0 (v bao gồm u), thì u (thuật ngữ

hẹp hơn) có xu hướng là từ thuộc của v (thuật ngữ rộng hơn) Nói cách khác các từ

ngữ cảnh nối bật của từ thuộc được mong đợi sẽ xuất hiện trong một tập hợp con các

ngữ cảnh của từ bao, giả thuyết này còn được gọi là giả thuyết bao hàm thuộc ngữcảnh (Context Inclusion Hypothesis) [18, 52] Một số các phương pháp đo hướng ngữ

nghĩa không giám sát để phát hiện quan hệ bao thuộc dựa trên một số biến thể của

giả thuyết bao thuộc phân phối như nếu u là một từ hẹp hơn v vé mặt ngữ nghĩa,

thì một số lượng đáng kể các đặc trưng phân phối nổi bật của u có thể được bao chứa

trong vector đặc trưng của 0.

1.1.5.6 Gia thuyết thông tin phân phối

Để xác định quan hệ bao thuộc của cặp từ, Santus và cộng sự [114] đề xuất giả

thuyết thông tin phân phối (Distributional Informativeness Hypothesis), giả thuyết

này cho rằng Các từ bao có zu hướng ít thông tin hơn các từ thuộc va chúng xuất hiện

trong các ngữ cảnh chung hơn so tới các từ thuộc của chúng Xét cặp từ có quan hệ

bao thuộc động oật - gấu trắng bắc cực, có thé thấy rang từ động vdt sẽ xuất hiện

trong những ngữ cảnh chung hơn so với từ gấu trắng bắc cực

1.1.5.7 Giả thuyết kết hợp ngữ cảnh

Giả thuyết kết hợp ngữ cảnh (Context Combination Hypothesis) cho rang Khổ

năng hai từ u vd 0 có quan hệ bao thuộc tương quan uới một số đặc trưng có thể họcđược của ngữ cảnh của chúng [7] Theo giả thuyết này, các vector biểu diễn ngữ cảnh

của u và v là các đặc trưng phù hợp đại diện cho đặc trưng của cặp từ u-v Nói cách

khác, vector kết hợp của hai vector biểu diễn của từ u, v phù hợp cho huấn luyện cácthuật toán học máy có giám sát để phát hiện quan hệ bao thuộc

1.1.5.8 Gia thuyết khác biệt tương tự

Giả thuyết khác biệt tương tự (Similarity Differences Hypothesis) cho rằng "khđ

năng cặp từ u-u có quan hệ bao thuộc tương quan vdi sự khác biệt vé độ tương tu

của chứng uới một số từ tham chiếu" [130] Nói cách khác, sim(u,r) — sim(0,r), với

Trang 32

r là từ thuộc tập hợp từ tham chiếu R (r € R) Xét cặp từ có quan hệ bao thuộc

chó - động uật và cặp từ không có quan hệ này bàn ghế - động vật, xét một từ tham

chiếu sự sống Có thể thấy độ tương tự ngữ nghĩa của chó với sự sống, động uật với

sự sống khá cao (similarity(chó, sự sống) similarity(động oật, sự sống)) Trái lại,

độ tương tự ngữ nghĩa của bàn ghế và sự sống khá nhỏ (similarity(bàn ghế, sựsống)

# similarity(động ật, sự sống)) vì chúng thuộc các miền khác nhau và không chia sécác đặc trưng chung về loai hay chúc năng

1.1.6 Mô hình ngữ nghĩa phân phối

1.1.6.1 Khai niệm

Mô hình ngữ nghĩa phân phối (Distributional Semantic Models - DSMs) còn được

biết đến là mô hình không gian từ (Word Space), mô hình không gian vector ngữ nghĩa(Vector Space Models - VSMs) hoặc phân phối tương tự (Distributional Similarity),

là một mô hình biểu diễn nghĩa của các từ bằng vector dựa trên phân phối của chúng

trong kho ngữ liệu (là một tiếp cận dựa trên cách sử dụng - Usage-based!) Mô hìnhnày dựa trên giả thuyết phân phối [25, 40], theo đó "nghĩa của một từ có thể đượcsuy ra từ cách sử dụng của nó hay nói cách khác là phân phối của nó trong kho ngữ

liệu" Do đó, DSMs xây dựng các biểu diễn ngữ nghĩa dưới dạng các không gian vectornhiều chiều bằng cách phân tích thông tin thống kê sự xuất hiện của từ theo ngữ cảnh(Hình 1.2) Kể từ khi những nghiên cứu đầu tiên về DSMs của Landauer và Dumais

[55], Schủtze [118] được công bố, mô hình này là một chủ đề nghiên cứu trọng tâmcủa ngôn ngữ học tính toán [55, 131], khoa học nhận thức, ngữ nghĩa mồi (Semantic

Priming”), trí nhớ phân đoạn.

Thuật ngữ nghia (Meaning) được hiểu là nghĩa của một từ hay một cụm từ được

gọi chung là nghĩa của từ Nghia của từ thường được biểu diễn theo một số hình thức,

cấu trúc tượng trưng (Symbolic Structure) Freitas [26] cho rằng: Ngtt nghĩa = Mô

hình biểu diễn nghĩa (dữ liệu) + mô hình suy luận

Trong DSMs, các vector biểu diễn ngữ nghĩa của từ trích chọn một cách tự động

từ một kho ngữ liệu, đòi hỏi ít "công sức" hơn những tiếp cận ngữ nghĩa dựa trên xâydung cơ sở dữ liệu tri thức thủ công (WordNet, BabelNet, v.v) Việc xây dựng kho

ngữ liệu cho một ngôn ngữ mới sẽ "rẻ" hơn nhiều so với xây dựng một từ điển, hơn

1 usage-based là một cách tiếp cận nghiên cứu của ngôn ngữ học xuất hiện từ cuối những năm

1980 với giả định về mối quan hệ giữa cấu trúc ngôn ngữ và cách sử dụng.

2 Semantic priming đề cập đến hiện tượng phản hồi đối với từ mục tiêu (ví dụ: học sinh) nhanh hơn khi nó đứng trước một số từ có liên quan về mặt ngữ nghĩa (ví dụ: gido_duc) so với một số từ không

liên quan (ví dụ: ze đạp)

Trang 33

Giảng_ viên

Sinh_vién

(a ae _ Thuật_toán

Hoa_hồngHình 1.2 : Mô hình không gian vector ngữ nghĩa phân phối của từ

nữa việc xây dựng một từ điển cũng thường yêu cầu một kho ngữ liệu (ví dụ: khongữ liệu SemCor được sử dung để xây dựng Princeton WordNet) DSMs lần đầu tiên

được đề xuất và sử dụng trong hệ thống trích rút thông tin thông minh SMART do

đại học Cornell xây dựng vào năm 1960 Hiện nay, DSMs được ứng dụng hiệu quả

trong một miền rất rộng các bài toán của NLP

1.1.6.2 Lich sử phát triển của mô hình ngữ nghĩa phân phối

Trước khi các phương pháp tự động sinh vector đại diện cho từ được đề xuất, một

số nghiên cứu đã cố gắng tạo ra các vector biểu diễn từ bằng cách sử dụng các đặc

trưng được xây dựng một cách thủ công Mô hình phân biệt ngữ nghĩa (SemanticDifferential?) của Charles Osgood được đề xuất vào những năm 1960 là một ví dụ

điển hình Một số phương pháp tự động sinh các vector đại diện cho từ, đặc trưng

cho thông tin ngữ cảnh của từ, được công bố vào khoảng năm 1990 trong một số lĩnhvực nghiên cứu khác nhau Một trong những mô hình ban đầu có ảnh hưởng nhất là

phân tích ngữ nghĩa tiềm an (Latent Semantic Analysis/Indexing - LSA/LSI), đượcphát triển trong bối cảnh của bài toán truy vấn thông tin và là tiền thân của các

mô hình chủ dé (Topic Models) ngày nay Gần như cùng lúc, một vài mô hình khác

nhau cũng được phát triển dựa trên nghiên cứu các mạng nơ-ron nhân tạo sử dụng các biểu diễn ngữ cảnh Nổi bật nhất trong số đó có lẽ là các mô hình mạng no-ron tu

tổ chúc (Self Organizing Maps) và mạng nơ-ron hồi quy đơn giản (Simple Recurrent

Networks), trong đó mạng no-ron hồi quy được coi là tiền thân của các mô hình ngôn

3 Mô hình phân biệt ngữ nghĩa là một loại thang đánh giá được thiết kế để đo lường ý nghĩa nội

hàm của các từ, khái niệm, đối tượng, và sự kiện.

Trang 34

ngữ mạng nơ-ron ngày nay Trong ngôn ngữ học tính toán, Sehitze đã phát triển mô

hình không gian vector được dựa trên sự đồng xuất hiện của các từ [116, 117], mô

hình này cũng được sử dụng trong không gian tương tự của ngôn ngữ (Hyperspace

Analogue to Language - HAL) còn được gọi là bộ nhớ ngữ nghĩa (Semantic Memory).

HAL được xây dựng bởi Kevin Lund va Curt Burgress vào năm 1996 như một mô hình bộ nhớ ngữ nghĩa trong khoa học nhận thức Mô hình này dựa trên một giả

thuyết cơ bản đó là những từ có Ú nghĩa tương tu thì thường xuất hiện gan nhau,

theo đó với một kho ngữ liệu lớn, có thể thấy các từ chuột và mèo thường xuất hiệngần nhau, điều tương tự cũng có thể đúng với các từ sinh uiên, hoc_sinh và môn học

Những nghiên cứu sau này về cơ bản là những cải tiến của những mô hình đã được đề

xuất trước đây, mô hình chủ đề, phương pháp phân tích ngữ nghĩa tiềm ẩn theo xác suất (Probabilistic Latent Semantic Analysis) và phân bổ Dirichlet tiềm ẩn (Latent

Dirichlet Allocation) được coi là những mô hình cải tiến của LSA.

Sự khác biệt chính giữa các mô hình là kiểu thông tin ngữ cảnh mà chúng sử dụng.Các mô hình phân tích ngữ nghĩa tiềm ẩn và mô hình chủ đề sử dụng ngữ cảnh là các

tài liệu, do chúng được sử dụng trong các hệ thống truy vấn thông tin Thay vào đó,

các mô hình ngữ nghĩa phân phối sử dụng các từ làm ngữ cảnh, được cho là tự nhiên

hơn từ góc độ ngôn ngữ và nhận thức Các biểu diễn ngữ cảnh khác nhau nắm bắt

những loại tương tự ngữ nghĩa khác nhau,

1.1.6.3 Cau trúc của mô hình ngữ nghĩa phân phối

Theo Freitas [26], một DSMs thường là một bộ gồm bảy thành phần <7, Œ, R,

W, M, d, S>, bao gồm:

— T: Tập hợp các đối tượng của không gian ngữ nghĩa (từ, câu, tài liệu, v.v)

— C: Ngữ cảnh.

— R: Quan hệ giữa T và C.

— W: Lược đồ lượng giá trọng số

— M: Không gian hình học TxC hay ma trận đồng xuất hiện (ma trận tu - tài

liệu, ma trận từ - từ, v.v).

— d: Hàm giảm chiều ma trận M > M’

— 6®: Độ do tương tự áp dụng cho các vector trong ma trận M’.

Ma trận đồng xuất hiện: Trong DSMs, mỗi từ được biểu diễn bang một vectornhiều chiều, tập từ vựng lập thành một không gian vector Vector biểu diễn từ là mã

hóa thông tin phân phối của từ trong kho ngữ liệu Tùy thuộc từng bài toán, một số

Trang 35

đối tượng T (từ, câu, tài liệu, v.v), và ngữ cảnh Œ khác nhau như tài liệu [112], cửa

so ngữ cảnh của từ [128], phụ thuộc ngữ pháp [63, 102], các mẫu [65] Một số ma trậnđồng xuất hiện được sử dụng pho biến như ma trận Từ - Tài liệu, ma trận Từ - Ngữcảnh, với ngữ cảnh của từ u là các từ xuất hiện trong cửa số ngữ cảnh có kích thước

2x K từ, gồm K từ trước u và K từ đứng sau u.

Ma trận Từ - Tai liệu

Ma trận Tu - Tài liệu (Word - Document Matrix) là ma trận ma mỗi dòng tương ứng với một từ, mỗi cột tương ứng với một tài liệu trong kho ngữ liệu (Hình 1.3) Với matrận M, mỗi tài liệu được biểu diễn bởi một vector cột của M, mỗi từ được biểu diễn

mởi một vector hàng của M Phần tử M„ ¿ là số lần từ w xuất hiện trong tài liệu đ

Tài Tài Tài Tài

Hệul lHệu2 Hệu3 ẽẻlhệuN

Ma trận £d-£ờ (Word-Context Matrix, Word-Word Matrix) là ma trận mà mỗi dòng

tương ứng với một từ (đích), mỗi cột tương ứng với một từ (ngữ cảnh) Thay vì thống

kê sự xuất hiện của các từ trong các document như trong ma trận Word-Document,

ma trận Word-context M sử dụng các context nhỏ hơn như các đoạn văn (paragraph)

hay cửa so kích thước k Ma trận M có kích thước | V | x | V |, với | V | là lực lượngcủa tập hợp từ vựng Mỗi từ được biểu diễn mởi một vector hàng trong ma trận M

Phan tử M,,, là số từ w xuất hiện cùng từ v trong các cửa số ngữ cảnh + k từ (Hình

Trang 36

Lược đồ trọng số: Các ma trận Từ - Ngữ cảnh lưu trữ tần số đồng xuất hiện

của các cặp từ Tuy nhiên, tần số đồng xuất hiện của các cặp từ thường lệch nhaukhá lớn và không thể hiện tính phân biệt rõ ràng đối với các quan hệ ngữ nghĩa củacặp từ Do đó, các vector tần số "thô" này chưa phải là nhưng đặc trưng tốt nhất đểxác định quan hệ ngữ nghĩa giữa các từ Để các từ ngữ cảnh cung cấp thông tin ngữ

nghĩa về từ đích, tần số đồng xuất hiện của hai từ nên được chuẩn hóa thành đại

lượng đặc trưng cho tần suất hai từ đồng xuất hiện trong kho ngữ liệu Có nhiều lược

đồ chuẩn hóa trọng số khác nhau được sử dụng, Church và Hanks [14] đề xuất độ đo

thông tin tương hỗ theo từng điểm (Pointwise Mutual Information - PMI) dựa trên

khái niệm thông tin tương hỗ (Mutual Information - MI) giữa hai biến ngẫu nhiên X

và Y được tính theo công thức (1.1).

MI(X,Y)= ` P(a, Nom DI) (1.1)

LEX yeY

Cho từ đích w và từ ngữ cảnh c, độ do PMI đặc trưng cho thông tin kết hợp giữa

chúng được tính như sau:

ngữ cảnh c; P(w) = sre va P(c) = SASS lan lượt là xác suat xuất hiện

của + và c trong kho ngữ liệu.

Giá trị PMI đặc trưng cho sự kết hợp của hai từ, hay mức độ xuất hiện thườngxuyên cùng nhau của cặp từ (P(w, c)) so với sác xuất đồng xuất hiện kỳ vọng (P(w) x

P(c)) của chúng, PMI có giá trị từ nằm trong khoảng từ —œo đến oo Tuy nhiên, các

giá trị PMI âm có xu hướng thể hiện thông tin không đáng tin cậy giữa các từ đích

Trang 37

và ngữ cảnh, chúng ngụ ý rằng xác suất đồng xuất hiện của cặp từ nhỏ hơn so với xác

suất kỳ vọng một cách ngẫu nhiên, do kho ngữ liệu chưa đủ lớn Do đó, một số nghiên

cứu sử dụng độ do PMI dương (Positive Pointwise Mutual Information - PPMI) bằng cách thay các giá trị PMI âm bằng 0 như sau [14]:

PPMI(u, c) = mas(log 0) (1.3)

Bên cạnh PMI, một số nghiên cứu sử dụng độ đo TF-IDF (Term Frequency Inverse

Document Frequency) Độ do TF-IDF của từ w với tài liệu đ thuộc tập tài liệu D được tính theo công thức (1.4) như sau:

Tf — Idf(t,d,D) = Tf(t, d) x Idf(t, D) (1.4)

Một số độ đo khác được khảo sát và được đánh giá chi tiết trong nghiên cứu của

Kiela và Clark [49] như TF-ICF, Okapi BM25, ATC, LTU, T-Test, v.v.

Độ đo tương tự: Mục tiêu của đánh giá sự tương tự là sử dụng các độ đo định

lượng mức độ giống nhau giữa hai thực thể, đây là một bài toán kinh điển trong lĩnh

vực trí tuệ nhân tạo và khoa học nhận thức Đánh giá độ tương tự là một thành phầnquan trọng trong nhiều hệ thống trí tuệ nhân tạo như suy luận dựa trên tình huống,nhận dạng mẫu, phân cụm, phát hiện ngoại lệ, v.v.

Độ đo tương tự giữa hai vector là hàm số ước lượng mức độ giống nhau của chúng

Tích vô hướng của hai vector (Scalar Product, cũng được gọi là Dot-Product, hay

Inner Produet) có thể được sử dụng như một độ đo tương tự

N

Dot-Product(0, ) = Ö: tủ = » U; X Wi (1.5)

i=1

Gia sử có vector Ở = (v1, 0, , 0y), với các vector v’ có các thành phan là hoán vi

của ở Theo bất đẳng thức Cosi ở - @ đạt giá trị lớn nhất với v; = v!,Vi € 1 N hay

= , ö- và dat giá trị nhỏ nhất khi ở = —ở Tuy nhiên, giá trị tương tu đo bằng tích vô hướng của hai vector có nhược điểm: thứ nhất, phụ thuộc vào độ dài (Norm) của vector; thứ hai, đối với các vector biểu diễn từ, tích vô hướng của hai vector có thể bị "lệch" theo tần số xuất hiện của từ, do các từ phổ biến có tần số đồng xuất

hiện cao hơn nhiều so với các từ khác trong kho ngữ liệu, chúng thường được biểu

diễn bởi các vector với giá trị các thành phần lớn, theo đó giá trị tích vô hướng của

hai vector biểu diễn cặp từ phổ biến sẽ cao hơn đáng kể so với các cặp từ hiếm; thứ

Trang 38

ba, giá trị tương tự đo bằng tích vô hướng của hai vector không được chuẩn hóa trongmột miền giá trị tiêu chuẩn, thông thường các giá trị tương tự thường được chuẩn

hóa về miền giá trị [0 > 1] Để khắc phục nhược điểm thứ ba, một số nghiên cứu sử

dụng hàm Sigmoid (c) chuẩn hóa độ tương tự được tính bởi tích vô hướng của hai

vector về miền giá trị [—1 — 1| (Công thức 1.6)

SimilariWsigmoia(0, tủ) = ơ(0 - 8) (1.6)

Để khắc phụ ba nhược điểm kể trên, độ đo tích vô hướng của hai vector có thể được

chuẩn hóa bằng cách chia cho độ dài của các vector (|| = >>“ œ2) Tích vô hướng

của hai vector ở và w cũng được định nghĩa như sau:

at

|e [ill eI

>

ở- ø =|| ở |\\| ở || cos(a) => cos(a) = (1.7)

Công thức (1.7) cho thấy, góc a được tạo bởi hai vector ở và @ có thể đặc trưng cho

mức độ tương đồng của chúng, theo đó độ tương tự Cosine được định nghĩa là cos(a)

VOM eT ee ex JX we

Similaritycosine(¥, tủ) =

Tương tự là độ do đối ngẫu với khoảng cách, theo đó khoảng cách giữa hai vector

càng lớn thì độ tương tự càng nhỏ và ngược lại Độ đo tương tự có thể được định

nghĩa là phần bù của độ đo khoảng cách theo công thức (1.9)

Similarity(v, 8) = 1— Distance(0, 8) (1.9)

Một số độ đo khoảng cách giữa hai vector được dùng phổ biến như Euclide, Jaccard,

Dice, Manhattan, Camberra, Chebychev, Pearson v.v.

1.2 Mo hình nhúng từ

Theo tiếp cận học máy và học sâu, các mô hình mạng nơ-ron đòi hỏi các đối tượng

cần xử lý phải được mã hóa bằng các vector đặc trưng Trong lĩnh vực xử lý ngôn ngữ

tự nhiên, các từ cần phải được biểu diễn bằng các vector ngữ nghĩa Các phương pháp

tạo ra vector biểu diễn cho từ được chia làm hai nhóm chính: tiếp cận dựa trên thống

kê (Distributional Representaions) (Phần 1.1.6) và tiếp cận sử dụng mạng nơ-ron học

các biểu diễn vector dựa trên dự đoán sự đồng xuất hiện của các từ (Distributed

Representaions), các mô hình này còn được gọi là mô hình vector nhúng từ (Word

Trang 39

Embeddings Vector hay ngắn gon hơn là Word Embeddings) (Hình 1) Để thống nhất

trong trình bày cũng như theo xu thế hiện nay, luận án này sử dụng thuật ngữ nhúng

từ để chỉ các mô hình không gian vector biểu diễn từ được học từ kho ngữ liệu bằng

các mô hình mạng nơ-ron nhân tạo Pilehvar và Camacho-Collados [107] đã giới thiệumột khảo sát khá đầy đủ về các mô hình nhúng từ được ứng dụng trong lĩnh vực

NLP Tổng hợp từ các tài liệu tham khảo, luận án đưa ra một phân loại về các môhình nhúng từ, được trình bày trong Hình 1.5.

Nhúng từ

Nhúng từ SaaS đơn ngữ

Nhung từ dựa trên thống kê _ Nhúng từ dựa trên mạng nơ-ron

LSA, HAL, COALS, Hellinge-PCA,

Nhung từ theo ngữ cảnh Nhúng từ độc lập ngữ cảnh Nhúng nghĩa thành phần

Context2vec CoVe, ELMo, Sense2Vec, SenseEmbed, MUSE ULMfit, GPT, BERT, XLNet

Nhúng từ chung Nhúng từ chuyên biệt

Word2Vec, fastText, WordRank, dLCE, mLCM, Attract-Repel

LexVec, Poincaré

Hình 1.5 : Một phân nhóm các mô hình nhúng từ.

1.2.1 Lich sử của các mô hình nhúng từ

Nhúng từ là một trong những hướng nghiên cứu được quan tâm nhất trong lĩnh

vực NLP ở thời điểm hiện tại [107] Trong những mô hình nhúng từ, sự tương tự ngữ

nghĩa giữa các từ tương quan với khoảng cách giữa các vector biểu diễn của chúng.

Cùng với sự phát triển nhanh chóng của các mô hình học sâu, các mô hình nhúng từ

ngày càng đóng vai trò quan trọng, các vector nhúng từ đã được sử dụng trong hầu

hết các hệ thống NLP như phân lớp văn bản, phân tích quan điểm người dùng, v.v.Trong ngôn ngữ học tính toán, khi nói về biểu diễn vector cho từ thì thuật ngữ mô

hình ngữ nghĩa phân phối thường được sử dụng [22, 26], một số nghiên cứu sử dung

các thuật ngữ khác nhau như biểu điễn phân phối [S1, 91], cu thể hơn như không gian

vector ngữ nghĩa [36, 131] hoặc đơn giản là không gian vector [136].

Các mô hình nhúng từ học các vector biểu diễn từ dựa trên ý tưởng là thông tin

ngữ cảnh tự nó tạo thành một dai diện khả dụng của các thành phan ngôn ngữ, điều

này trái ngược hoàn toàn với ngôn ngữ hình thức và lý thuyết của Noam Chomsky Y

tưởng này có nguồn gốc lý thuyết từ ngôn ngữ học cấu tric (Structuralist Linguistics)

Trang 40

và đặc biệt trong các nghiên cứu của Harris [40], Firth [25], và Wittgenstein, được

công bố trong những năm 1950

Ö thời điểm hiện tại, không có sự khác biệt nhiều về chất lượng giữa các mô hình

nhúng từ với các mô hình phân phối ngữ nghĩa dựa trên thống kê Thay vào đó, hai

tiếp cận đã sử dụng các phương tiện tính toán khác nhau để đạt được cùng một kiểu

mô hình ngữ nghĩa, một số nghiên cứu gần đây đã chứng minh cả về mặt lý thuyết

và thực nghiệm sự tương ứng giữa hai loại mô hình khác nhau này [60], [103], [149].

1.2.2 Một số mô hình nhúng từ tổng quát

Các mô hình nhúng từ được sử dụng cho nhiều bài toán NLP khác nhau được gọi

là mô hình nhúng từ tổng quát Những mô hình nhúng từ này được lấy cảm hứng từ

mô hình ngôn ngữ dựa trên mạng nơ-ron Các mô hình ngôn ngữ mạng nơ-ron thực hiện dự đoán các từ ngỡ cảnh dựa trên từ đích hoặc ngược lại dự đoán từ đích khi

biết ngữ cảnh, chúng còn được gọi là mô hình dự đoán Các mô hình mạng no-ron học

các vector nhúng từ bắt đầu bằng việc khởi tạo các vector biểu diễn các từ một cách

ngẫu nhiên, sau đó lặp đi lặp lại việc luyện mạng để vector mã hóa được thông tinngữ cảnh mà từ xuất hiện Tiêu biểu nhất trong số các kỹ thuật này là Word2Vec do

Mikolov và cộng sự đề xuất [81] Cũng giống như các mô hình ngôn ngữ mạng nơ-ron,

mô hình word2vec học các vector nhúng từ bằng cách huấn luyện mạng nơ-ron để

dự đoán các từ lân cận, với hai kiến trúc Skip-Gram và CBOW Trong đó, kiến trúc

Skip-Gram (Hình 1.6 được tham khảo từ [107]) dự đoán các từ lân cận trong một cửa

số ngữ cảnh của từ đích bằng cách cực đại hóa trung bình logarit của các xác suất có

điều kiện (công thức (1.10))

Cc

L 1

TS, » logP(wi+; | wr) (1.10)

t=1j =-¢

Trong đó L là số lượng từ của kho ngữ liệu, w; : t € {1, , L} là toàn bộ các từ thuộc

kho ngữ liệu huấn luyện, œ, là từ trung tâm và w+; là các ti trong cửa số ngữ cảnh

có kích thước 2 x c Xác suất có điều kiện được định nghĩa bằng hàm Softmax (công

thức (1.11)).

T

P(wo | wr) = (1.11)

Trong đó P(wo | wy) là xác suất mang nơ-ron dự đoán từ wo là từ lân cận của từ wy,

V là tập từ vựng của kho ngữ liệu, v, và œ/ là vector biểu diễn đầu vào và đầu ra của

từ w, V là lực lượng của tập từ vựng Dé tính toán theo công thức (1.11) là rất khó

Định dạng
Số trang	154
Dung lượng	53,08 MB