Tự động xác định quan hệ ngữ nghĩa giữa các từ dựa trên học máy thống kê trong xử lý ngôn ngữ tự nhiên

MỤC LỤC

CUU LIEN QUAN

Một số khái niệm cơ bản về từ

Một số giả thuyết ngữ nghĩa cơ bản
Mô hình ngữ nghĩa phân phối

Kể từ khi những nghiên cứu đầu tiên về DSMs của Landauer và Dumais [55], Schủtze [118] được công bố, mô hình này là một chủ đề nghiên cứu trọng tâm của ngôn ngữ học tính toán [55, 131], khoa học nhận thức, ngữ nghĩa mồi (Semantic Priming”), trí nhớ phân đoạn. Một trong những mô hình ban đầu có ảnh hưởng nhất là phân tích ngữ nghĩa tiềm an (Latent Semantic Analysis/Indexing - LSA/LSI), được phát triển trong bối cảnh của bài toán truy vấn thông tin và là tiền thân của các mô hình chủ dé (Topic Models) ngày nay.

Hình 1.1 : Kiến trúc các tầng ngữ nghĩa.

Mo hình nhúng từ

Độ đo tương tự có thể được định nghĩa là phần bù của độ đo khoảng cách theo công thức (1.9). Một số độ đo khoảng cách giữa hai vector được dùng phổ biến như Euclide, Jaccard,. Dice, Manhattan, Camberra, Chebychev, Pearson v.v. Kiến thúc cơ sở tà các nghiên cứu liên quan 22. Embeddings Vector hay ngắn gon hơn là Word Embeddings) (Hình 1). Cùng với sự phát triển nhanh chóng của các mô hình học sâu, các mô hình nhúng từ ngày càng đóng vai trò quan trọng, các vector nhúng từ đã được sử dụng trong hầu hết các hệ thống NLP như phân lớp văn bản, phân tích quan điểm người dùng, v.v.

Hình 1.7 : Kiến trúc mang nơ-ron Context2Vec [77].

Mạng nơ-ron hồi quy

Kiến thúc cơ sở tà các nghiên cứu liên quan 30 và mô hình ngôn ngữ hoán vị, tức là các từ tố (token) được dự đoán theo một thứ tự ngẫu nhiên. Tế bào nhớ hiện hành c là tổ hợp có trọng số của giá trị nhớ trước c,_1 và giá trị ứng viờn ứ;, cỏc trọng số được tớnh theo giỏ trị cổng vào i; và cổng ra f; (Cụng thức.

Quan hệ bao thuộc

Trạng thỏi của ba cổng i, f;, và o; phụ thuộc giá trị được truyền từ trạng thái trước ht — 1 và giá trị đầu vào. Đầu ra của một đơn vị LSTM (LSTM Unit) là trạng thái ẩn h¿ của mạng hồi quy, hy.

Quan hệ đồng nghĩa - trái nghĩa

Đặt vấn đề

Trong khi Word2Vec cố gắng nắm bắt thông tin đồng hiện của các từ trong một cửa số ngữ cảnh, GloVe được đề xuất bởi Pennington và cộng sự [103] cố gắng nắm bắt ngữ nghĩa của từ thông qua thông tin thống kê tần xuất. Mô hình này có thể tạo ra các vector chất lượng cao cho các ngôn ngữ "nghèo" tài nguyên bằng cách sử dụng các ràng buộc từ đồng nghĩa và trái nghĩa giữa các ngôn ngữ để tạo ra không gian vector nhúng từ đa ngôn ngữ. Fundel và cộng sự [27] đã chỉ ra rằng các đường dẫn phụ thuộc ngắn nhất (Shortest Dependency Paths - SDP) giữa hai từ trong ngữ cảnh đồng xuất hiện của chúng là đặc trưng quan trọng để nhận biết các quan hệ ngữ nghĩa.

Do lường độ tương tự ngữ nghĩa giữa các từ

Đặt van dé
Một số nghiên cứu liên quan

Các phương pháp theo tiếp cận phân phối có thể khai thác trực tiếp giả thuyết phân phối để thống kê thông tin phân phối của từ trong kho ngữ liệu, sinh biểu diễn cho các từ dưới dạng vector đếm từ với số chiều lớn và "thưa". Đối với tiếng Anh, fel [1], Miller [82] đã xây dựng một cơ sở dữ liệu chứa các từ vựng tinh than (Mental Lexicon) và quan hệ ngữ nghĩa giữa chúng, cơ sở dữ liệu này được gọi là WordNet. Mrksic và cộng sự [85] đề xuất mô hình ATTRACT-REPEL theo một tiếp cận khác, các ràng buộc ngữ nghĩa không được tích hợp vào hàm mục tiêu huấn luyện mô hình nhúng từ và được đưa vào (inject) mô hình nhúng từ đã được huấn luyện trước.

Hình 1.10 : Một phần cây phân loại trong WordNet tiếng Việt (a) và WordNet tiếng Anh (b).

CHUYEN BIET

Ý tưởng chính

Luu và cộng sự [71] đã đề xuất mô hình mang no-ron có trọng số động (DWN) khai thác không chỉ thông tin của từ bao và từ thuộc mà còn cả ngữ cảnh đồng xuất hiện của chúng để học các vector nhúng từ. Wang và các công sự [137] đã chỉ ra rằng các vector biểu diễn từ của mô hình DWN nắm bắt các đặc trưng quan hệ bao thuộc (Hypernymy. Embedding), mô hình này phù hợp hơn cho bài toán HR so với các mô hình nhúng. Do đó, việc coi vai trò của các từ ít quan trọng cũng như những từ quan trọng sẽ làm giảm chất lượng của vector biểu diễn ngữ cảnh, qua đó làm giảm chất lượng của mô hình DWN.

Đề xuất mô hình LERC

Mô hình DWN cải tiễn

Kết quả khảo sát trên bộ ba cho thấy các ngữ cảnh có thể chứa nhiều từ (Xem Hình 2.§), trong đó có những từ quan trọng. thông tin ngữ nghĩa. Kết quả khảo sát còn cho thấy độ tương tự ngữ nghĩa giữa các. từ ngữ cảnh với từ bao có sự khác biệt đáng kể. Do đó, việc coi vai trò của các từ ít quan trọng cũng như những từ quan trọng sẽ làm giảm chất lượng của vector biểu diễn ngữ cảnh, qua đó làm giảm chất lượng của mô hình DWN. Xác định quan hệ bao thuộc dựa trên mô hình nhúng từ chuyên biệt bộ). Trên cơ sở phân tích các cặp từ bao thuộc, chúng tôi nhận thấy có các dấu hiệu hình thái và ngữ nghĩa xuất hiện phổ biến trong những cặp này, chúng tôi gọi đó là các đặc trưng ngữ nghĩa mức dưới từ (Subword Semantic Feature). Chúng tôi định nghĩa một mẫu ngữ nghĩa mức dưới từ (subword semantic pattern -. SSP) là một cặp thành phần xuất hiện trong các cặp từ bao thuộc mà giữa chúng tồn tại một quan hệ ngữ nghĩa như đồng nghĩa, trái nghĩa, bao thuộc.

Hình 2.3 : Kiến trúc mạng nơ-ron của mô hình EDWN.

Xây dựng bộ dữ liệu tiêng Việt DtVLE-999, DrVLE-

So với các mô hình đã được đề xuất cho bài toán HR, tính mới của mô hình LERC được thể hiện ở các đặc điểm sau: thứ nhất, mô hình này đã kết hợp giữa vector nhúng. Công việc này đòi hỏi cần có một tập các cặp từ bao thuộc và một kho ngữ liệu lớn, yêu cầu này là một khó khăn đối với các ngôn ngữ. Để biết thông tin tần suất về các từ và các cặp từ của bộ dữ liệu, chúng tôi thống kê trên kho ngữ liệu đơn ngữ tiếng Việt Vcorpus, kết quả thống kê được trình bày trong Bảng 2.14.

Thực nghiệm

Huấn luyện các mô hình nhúng từ

Đối với nhiệm vụ xác định chiều của quan hệ, hai bộ dữ liệu đánh giá gồm DirBless và DirOntolearn được xây dựng bằng cách thực hiện mốt số sửa đổi nhỏ đối với bộ dit liệu gốc Bless và Ontolearn. Để chứng minh rằng mô hình EDWN có thể mang lại sự cải thiện đáng kể về hiệu suất so với mô hình ban đầu, mô hình DWN đã được huấn luyện lại với cùng bộ dữ liệu huấn luyện được dùng cho các mô hình nhúng từ khác trong nghiên cứu này. Như được hiển thị trong Bảng 2.17, khi đặc trưng SSF được sử dụng kết hợp với các vector nhúng từ, hiệu suất của các mô hình đã tăng lên đối với tất cả các bộ dữ liệu đánh giá.

Bảng 2.10 : Một số cặp từ trong các bộ dữ liệu BLESS, WBLESS, BiBLESS.

EDWN _ 0.83 C014

Phân tích thống kê

Cụ thể, năm lược đồ trọng số chú ý đã được sử dụng để huấn luyện mô hình EDWN, bao gồm tích vô hướng của hai vector của mô hình đang được huấn luyện (AWS), tích vô hướng của hai vector của mô hình fastText được huấn luyện. Ngược lại, AWS2 và AWSð yêu cầu các mô hình nhúng từ được huấn luyện trước, các lược đồ trọng số chú ý này nên được sử dụng nếu có sẵn một mô hình nhúng từ được huấn luyện trước tốt thu được từ một kho ngữ liệu đơn ngữ lớn. Chúng tôi đã tiến hành kiểm tra giả thuyết thống kê để xác minh rằng mức độ cải thiện hiệu năng là đáng kể đối với tất cả các mô hình khi khai thác đặc trưng SSF.

Hình 2.12 : Hình ảnh trực quan về độ chính xác của mô hình EDWN và LERC qua 30 lần lặp.

TRÚC TỪ

Các mẫu cấu trúc từ tiếng Việt
Dé xuất mô hình DVASNet
Thực nghiệm

Qua khảo sát các cặp từ tiếng Việt theo các quan hệ ngữ nghĩa khác nhau (xem thêm Bảng 2.4 trong Chương 2), chúng tôi nhận thấy rằng trong hai từ của một cặp từ ghép có quan hệ trái nghĩa hoặc dong nghĩa, các thành phan của từ này thường có quan hệ ngữ nghĩa uới các thành phan của từ kia. Những đặc trưng tĩnh được giới thiệu trong Phần 3.3.1 là một vector được hình thành bởi ba đặc trưng thành phần, chúng được trích chọn trước khi huấn luyện mô hình, bao gồm mẫu cấu trúc từ, chỉ số thông tin tương hỗ và chi số tương dong ngữ nghĩa. Chúng tôi đã tính toán thông tin tương hỗ theo từng điểm và thông tin tương hỗ từ điển |9] trên kho ngữ liệu Veorpus, sử dụng 1000 cặp từ đồng nghĩa và 1000 cặp từ trái nghĩa được chọn ngẫu nhiên từ các cặp từ trái nghĩa/đồng nghĩa của bộ dữ liệu ViCon và ViAS-1000.

Hình 3.1: Kiến trúc mạng nơ-ron của mô hình AntSynNET.

NGHĨA CỦA CẶP TỪ

Xây dựng bộ dữ liệu tiếng Việt

Trong phần này của luận án, chúng tôi đề xuất một mở rộng thuật toán Lesk (Extended Lesk Similarity - ExtLeskSim) để nó hoạt động hiệu quả hơn với đặc trưng của tiếng Việt và WordNet tiếng Việt, qua đó nâng cao hiệu suất của thuật toán này cho bài toán WSM tiếng Việt. Vì kích thước định nghĩa của các từ khá nhỏ, để làm phong phú thêm thông tin ngữ nghĩa của từ, nâng cao độ chính xác của kết quả đo lường độ tương tự giữa các từ, định nghĩa của các từ có quan hệ ngữ nghĩa với từ cần đo độ tương tự cũng được sử dụng. Nhược điểm của kỹ thuật cải tiến là có chi phí thời gian lớn để thực hiện: đo độ tương tự của danh sách các cặp từ phổ biến với độ phức tạp thời gian O(n”); tìm đường đi ngắn nhất giữa mọi cặp đỉnh của đồ thị với độ phức tạp thời gian O(n?).

Hình 4.1: Một phan đồ thị tương tự của các cặp từ