1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tự Động xác Định quan hệ ngữ nghĩa của từ dựa trên học máy thống kê (tt)

37 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tự động xác định quan hệ ngữ nghĩa của từ dựa trên học máy thống kê
Tác giả Bùi Văn Tân
Người hướng dẫn PGS.TS. Nguyễn Phương Thái
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ Thông tin
Thể loại Luận án Tiến sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 37
Dung lượng 3,23 MB

Nội dung

Trongvài thập kỷ qua, lĩnh vực lý thuyết ngôn ngữ đã có những nghiên cứu xác định những đặc trưng của các quan hệ ngữ nghĩa như đồng nghĩa, trái nghĩa, bao thuộc, đồng âm, đa nghĩa, tươn

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———————

BÙI VĂN TÂN

TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA CỦA TỪ DỰA TRÊN HỌC MÁY

THỐNG KÊ

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2022

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———————

BÙI VĂN TÂN

TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA CỦA TỪ DỰA TRÊN HỌC MÁY

THỐNG KÊ

Chuyên ngành: Khoa học máy tính

Mã số: 9480101.01

TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Phương Thái

Hà Nội - 2022

Trang 3

MỞ ĐẦU

Đặt vấn đề

Lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)

nhắm đến mục đích làm cho máy (như: máy tính, robot, thiết bị thông minh, v.v) cóthể hiểu được ngôn ngữ tự nhiên của con người Những năm gần đây, cùng với sự pháttriển nhanh chóng của lĩnh vực học máy đã kéo theo những bước phát triển mang tính

đột phá của lĩnh vực NLP Đáng chú ý là bên cạnh hướng tiếp cận biểu tượng (Symbolic

Approach) vốn dựa trên các luật hay từ điển được xây dựng thủ công, đã xuất hiện những

hướng tiếp cận mới "mạnh mẽ" như học sâu (Deep Learning), sử dụng các mạng nơ-ron

nhiều tầng có cấu trúc phức tạp Với sức mạnh xử lý vượt trội của các máy tính hiện đại,đặc biệt là các bộ xử lý đồ họa, các kiến trúc học sâu có khả năng học từ một lượng rấtlớn dữ liệu Ngày càng có nhiều hệ thống NLP chứng minh được khả năng "thông minh"một cách đáng kinh ngạc nhờ khả năng học của của mô hình học sâu Mặc dù vậy, vẫncòn một khoảng cách giữa hiệu năng của các mô hình và kỳ vọng của con người Lĩnh vựcNLP vẫn tồn tại những thách thức cơ bản như: một số bài toán có ít dữ liệu, dữ liệu cónhiều nhiễu; hiểu được các thủ pháp nghệ thuật như ẩn dụ, hoán dụ Việc tích hợp thêmcác mô hình xác định quan hệ ngữ nghĩa của từ là một trong các cách tiếp cận để vượt

qua những thách thức này Do đó, Trong những năm gần đây bài toán xác định quan hệ

ngữ nghĩa của từ vựng (Lexical Semantic Relation Determination - LSRD) đã trở thành

một trong những chủ đề nghiên cứu quan trọng trong NLP

Xác định quan hệ ngữ nghĩa của từ là chủ đề nghiên cứu được quan tâm của nhiềungành từ thời cổ đại Những nghiên cứu gần đây về cấu trúc ngữ nghĩa, cách thức tổ chức

từ vựng đã thúc đẩy những quan điểm mới về các quan hệ ngữ nghĩa của từ vựng Trongvài thập kỷ qua, lĩnh vực lý thuyết ngôn ngữ đã có những nghiên cứu xác định những

đặc trưng của các quan hệ ngữ nghĩa như đồng nghĩa, trái nghĩa, bao thuộc, đồng âm, đa

nghĩa, tương tự ngữ nghĩa, liên quan ngữ nghĩa, v.v Các quan hệ này được thể hiện rõ

trong các cơ sở dữ liệu từ vựng lớn như WordNet, BabelNet Gần đây hơn, các quan hệngữ nghĩa từ vựng đã trở thành chủ đề nghiên cứu chính của ngôn ngữ học tính toán, khichúng là một tiếp cận thuận tiện và tự nhiên để tổ chức một lượng lớn dữ liệu từ vựng

1

Trang 4

Bảng 1: Các đặc trưng về loại kết quả đầu ra, quan hệ ngữ nghĩa, và ngôn ngữ,

của ba bài toán được nghiên cứu trong luận án

Bài toán Đặc trưng

đầu ra

Đặc trưng quan

hệ

Đặc trưng ngônngữĐịnh

tính

Địnhlượng

Đốixứng

Bất đốixứng

TiếngAnh

TiếngViệt

có nhiều nghiên cứu về các quan hệ ngữ nghĩa từ vựng tiếng Việt theo tiếp cận của ngônngữ học tính toán, có thể áp dụng cho các hệ thống NLP Do đó, xác định quan hệ ngữnghĩa của từ là một bài toán quan trọng và có ý nghĩa trong tiếng Việt

Hình 1: Một số tiếp cận về biểu diễn ngữ nghĩa của từ vựng.

Bài toán xác định quan hệ ngữ nghĩa của từ

Xác định quan hệ ngữ nghĩa giữa hai từ đóng vai trò quan trọng đối với nhiều ứngdụng NLP như xây dựng cây ngữ nghĩa, phát hiện kế thừa văn bản, hỏi đáp tự động, tóm

tắt văn bản, v.v Các quan hệ ngữ nghĩa từ được nghiên cứu nhiều nhất là đồng nghĩa,

trái nghĩa, bao thuộc, tương tự ngữ nghĩa, cùng thuộc, phân nghĩa, v.v Các mô hình xác

định quan hệ ngữ nghĩa của từ có thể được chia thành ba nhóm gồm dựa trên các mẫu từ

vựng - cú pháp, dựa trên tiếp cận ngữ nghĩa phân phối, hoặc tiếp cận kết hợp Các phương

pháp tiếp cận dựa trên mẫu từ vựng - cú pháp tìm kiếm các mẫu đồng xuất hiện của các

từ (cụm từ, khái niệm, thuật ngữ, v.v), các mẫu có thể được biểu diễn bằng đường dẫn từ

kết nối u và v trong kho ngữ liệu Do đó, mọi cặp từ ứng viên (u,v) được biểu thị bằng

Trang 5

Mở đầu 3

tập hợp các đường dẫn từ kết nối u và v trong kho ngữ liệu Các phương pháp theo tiếp

cận ngữ nghĩa phân phối dựa trên việc mô hình hóa các thông tin phân phối của từng từ

riêng biệt trong kho ngữ liệu, các từ ứng viên u,v không nhất thiết phải đồng xuất hiệnvới nhau

Hướng tiếp cận và phương pháp

Các nghiên cứu trước đây về biểu diễn ngữ nghĩa của từ vựng có thể được chia thành

ba tiếp cận chính gồm ngữ nghĩa hình thức, ngữ nghĩa phân phối, và tiếp cận kết hợp.

Tiếp cận ngữ nghĩa hình thức dựa trên các ký hiệu và tập trung vào các thuộc tính suyluận của ngôn ngữ, tiếp cận ngữ nghĩa phân phối có tính chất thống kê và dựa trên dữliệu, tập trung vào các khía cạnh ý nghĩa liên quan đến nội dung mô tả Trong luận ánnày, chúng tôi sử dụng tiếp cận ngữ nghĩa phân phối dựa trên mạng nơ-ron (Hình 1), sửdụng các mô hình học máy, học sâu để xác định bốn quan hệ ngữ nghĩa của từ bao gồm

bao thuộc, đồng nghĩa, trái nghĩa, tương tự ngữ nghĩa Các nghiên cứu trước đây xác định

quan hệ ngữ nghĩa của từ chỉ sử dụng thông tin ngữ nghĩa của các từ ứng viên, điều nàydẫn tới các hạn chế đối với các ngôn ngữ "nghèo" tài nguyên, hoặc các lĩnh vực chuyên

biệt Để khắc phục nhược điểm này, luận án đưa ra giả thuyết tập quan hệ ngữ nghĩa, theo đó "Quan hệ ngữ nghĩa giữa hai từ có thể được định vị thông qua mối quan hệ giữa

các từ có quan hệ với chúng" Giả thuyết này được minh họa trực quan bằng Hình 2, được

sử dụng xuyên suốt trong thiết kế mô hình giải quyết các bài toán của luận án theo hai

tiếp cận chính là tích hợp các quan hệ ngữ nghĩa vào không gian vector nhúng từ và biểu

diễn các quan hệ ngữ nghĩa bằng cấu trúc đồ thị qua đó khai thác các độ đo trên đồ thị, học biểu diễn dựa trên đồ thị.

Hình 2: Minh họa trực quan giả thuyết Tập quan hệ ngữ nghĩa.

Luận án này nhắm đến giải quyết ba bài toán gồm: Xác định quan hệ bao thuộc (Hypernymy Recognition - HR); phân tách các cặp từ theo quan hệ đồng nghĩa - trái

nghĩa (Antonymy-Synonymy Classification - ASC); đo lường độ tương tự ngữ nghĩa của cặp từ (Word Similarity Measurement - WSM) Bảng 1 trình bày tóm tắt các đặc trưng

về kết quả đầu ra, quan hệ ngữ nghĩa, và ngôn ngữ, của ba bài toán được nghiên cứutrong luận án này

Trang 6

Đối với bài toán xác định quan hệ bao thuộc, luận án sử dụng hai chiến lược chính.Thứ nhất, học được các biểu diễn vector "chuyên biệt" cho từ bằng một mô hình mạngnơ-ron Biểu diễn vector chuyên biệt này không những chứa thông tin ngữ nghĩa của từnhư các biểu diễn nhúng từ thông thường (Word2vec, GloVe, fastText, v.v) mà còn mãhóa những đặc trưng của quan hệ bao thuộc Thứ hai, khai thác những đặc trưng về cấutrúc của các từ ghép và thuật ngữ Bằng cách kết hợp vector nhúng từ chuyên biệt vớivector đặc trưng cấu trúc của từ, mô hình được đề xuất trong luận án đã cải thiện hiệunăng đáng kể cho bài toán so với các mô hình tốt nhất tại thời điểm công bố.

Đối với bài toán phân tách các cặp từ có quan hệ đồng nghĩa, trái nghĩa, luận án sửdụng hai chiến lược chính Thứ nhất, khai thác thông tin ngữ cảnh đồng xuất hiện củacặp từ, thông tin này được mã hóa thành vector bởi một mô hình mạng nơ-ron Thứ hai,

khai thác những đặc trưng riêng của tiếng Việt như các mẫu cấu trúc từ thể hiện mối

quan hệ ngữ nghĩa giữa các thành phần của từ này với các thành phần của từ kia, thông tin tương hỗ giữa các từ, độ tương tự ngữ nghĩa của cặp từ, giúp mô hình phân tách tốt

hơn các cặp từ theo quan hệ đồng nghĩa, trái nghĩa Bên cạnh bài toán phân tách cặp

từ theo quan hệ đồng nghĩa, trái nghĩa, luận án đề xuất một mô hình phát hiện quan hệtrái nghĩa, theo đó các cặp từ đồng nghĩa, trái nghĩa được trích từ WordNet và từ điểnđược dùng để học các biểu diễn vector chuyên biệt cho từ Những vector nhúng từ chuyênbiệt này được mã hóa thêm các thông tin về quan hệ đồng nghĩa, trái nghĩa Thêm nữa,những đặc trưng về quan hệ ngữ nghĩa của cặp từ cũng được khai thác để tăng hiệu năngcủa mô hình

Đối với bài toán đo lường độ tương tự của cặp từ, chúng tôi đề xuất những cải tiếnnhằm tăng độ chính xác của phép đo đối với cả các cặp từ đơn ngữ và song ngữ Để lượnggiá chính xác hơn độ tương tự của cặp từ, chiến lược thứ nhất là áp dụng thuật toán tìmđường đi tối ưu giữa các đỉnh của đồ thị để đo khoảng cách ngữ nghĩa ngắn nhất giữacác từ Chiến lược thứ hai, chúng tôi khai thác thông tin định nghĩa của các từ với giả

thuyết rằng độ tương tự ngữ nghĩa giữa hai từ tương quan với mức độ tương tự ngữ nghĩa

giữa các định nghĩa của chúng.

Đóng góp của luận án

Mục tiêu của luận án hướng đến nâng cao hiệu năng của các mô hình tự động xácđịnh bốn quan hệ ngữ nghĩa của từ gồm bao thuộc, đồng nghĩa, trái nghĩa, tương tự ngữnghĩa Những đóng góp chính của luận án như sau

Đối với bài toán xác định quan quan hệ bao thuộc, luận án đã đề xuất một cải tiếncho mô hình mạng nơ-ron có trọng số động (Dynamic Weighting Neural Network - DWN)được đề xuất bởi Anh Tuan Luu và cộng sự Mô hình cải tiến được gọi là EDWN, có

Trang 7

Mở đầu 5

khả năng học các vector nhúng từ chuyên biệt, các vector nhúng này được "chuyên biệthóa" các đặc trưng về ngữ nghĩa, qua đó phù hợp cho bài toán xác định quan quan hệbao thuộc hơn so với các mô hình nhúng từ đã được đề xuất trước đó như Word2Vec,fastText, GloVe v.v Luận án đã xác định các đặc trưng ngữ nghĩa mức dưới từ, và đềxuất một lược đồ trích chọn những đặc trưng này Để xác định quan hệ bao thuộc, luận

án đề xuất mô hình LERC, mô hình này đã sử dụng đặc trưng đầu vào được kết hợp từvector nhúng từ và vector đặc trưng ngữ nghĩa dưới từ Kết quả thực nghiệm được đánhgiá trên một số bộ dữ liệu chuẩn của cả tiếng Anh, tiếng Việt đã chứng minh mô hìnhđược đề xuất trong luận án có hiệu năng cao hơn đáng kể so với các mô hình tốt nhất tạicùng thời điểm Những đóng góp đối với bài toán này được trình bày trong [CT1], [CT8],

và [CT9]

Đối với bài toán phân tách các cặp từ theo quan hệ đồng nghĩa, trái nghĩa, luận án

đã đề xuất mô hình mạng nơ-ron DVASNet Mô hình này không những sử dụng các đặctrưng phân phối của từ trong kho ngữ liệu mà còn khai thác được các thông tin về cấutrúc của từ Kết quả thực nghiệm trên một số bộ dữ liệu chuẩn đã chứng minh mô hìnhDVASNet đạt hiệu năng cao hơn đáng kể so với năm mô hình cơ sở, cụ thể: theo độ đohồi tưởng, hiệu năng của mô hình DVASNet cao hơn các mô hình cơ sở từ 22% ← 32%

trên bộ dữ liệu ViCon và từ 33% ← 66% trên bộ dữ liệu ViAS-1000; theo độ đo F1, hiệunăng của mô hình DVASNet vượt trội các mô hình cơ sở từ 8% ← 15% trên bộ dữ liệuViCon và từ 29% ← 33% trên bộ dữ liệu ViAS-1000 Những đóng góp đối bài toán nàyđược trình bày trong [CT5], [CT6], và [CT7]

Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từ, luận án đề xuất mô hìnhGraphSim để nâng cao hiệu năng đo lường độ tương tự ngữ nghĩa của cặp từ tiếng Anhdựa trên thuật toán tìm đường đi ngắn nhất trên đồ thị Thêm nữa, luận án đề xuất môhình ExtLeskSim, là một cải tiến của thuật toán Lesk để nó hoạt động hiệu quả hơn vớiđặc trưng của tiếng Việt Đối với bài toán đo lường độ tương tự ngữ nghĩa của cặp từsong ngữ, luận án đã đề xuất một mô hình mạng nơ-ron học không gian nhúng từ songngữ Việt - Anh Sử dụng không gian nhúng từ song ngữ để đo lường độ tương tự ngữnghĩa cho các cặp từ song ngữ Việt - Anh Thêm nữa, luận án đề xuất mô hình WEWD

để đo lường độ tương tự ngữ nghĩa cho các cặp từ song ngữ Việt - Anh dựa trên thông tinphân phối và định nghĩa của từ Những đóng góp đối bài toán này được trình bày trong[CT2], [CT10], và [CT12]

Bên cạnh đó, luận án đã xây dựng bốn bộ dữ liệu đánh giá mô hình xác định quan hệngữ nghĩa, bao gồm: VLE-999, ViAS-1000, VSimLex-999, và VESim-1000

Trang 8

Cấu trúc của luận án

Luận án bao gồm các chương: Phần Mở đầu, Chương 1, Chương 2, Chương 3, Chương

4, Phần Kết luận.

Trang 9

1.3 Quan hệ bao thuộc

1.3.1 Đặt vấn đề

Quan hệ bao thuộc (Hypernymy) là một quan hệ cơ bản và quan trọng trong từ điển,

cơ sở dữ liệu tri thức từ vựng như WordNet, BabelNet Quan hệ này được ứng dụng trongnhiều bài toán NLP như xây dựng cây ngữ nghĩa, phát hiện kế thừa văn bản, hỏi đáp tựđộng Xác định quan hệ bao thuộc đang trở thành một chủ đề nghiên cứu được quan tâm

7

Trang 10

vì các ứng dụng của nó trong giải quyết một số bài toán khó được coi là những tháchthức của lĩnh vực NLP như phát hiện thủ pháp nghệ thuật ẩn dụ (Metaphor Detection)

và hoán dụ (Metonymy Detection), phát hiện nội dung mỉa mai, châm biếm (SarcasmDetection), v.v

1.3.1.1 Khái niệm

Bao thuộc là một quan hệ ngữ nghĩa bất đối xứng giữa một từ bao (Hypernym) với một từ thuộc (Hyponym) Ví dụ động vật là một từ bao của voi và voi là từ thuộc của

động vật Tương tự, hoa hồng là một từ bao của hoa hồng bạch, xe đạp điện là một từ

thuộc của xe đạp Bao thuộc là một trong những quan hệ cơ bản và quan trọng nhất trong

các cơ sở tri thức từ vựng như WordNet, BabelNet

1.3.1.2 Tổng quan về bài toán xác định quan hệ bao thuộc

Các nghiên cứu về bài toán xác định quan hệ bao thuộc (Hypernymy Recognition HR) thường nhắm đến giải quyết ba bài toán con như sau:

-Bài toán phát hiện quan hệ bao thuộc (Hypernymy Detection) nhắm đến việc xác định

có tồn tại hay không quan hệ bao thuộc giữa hai từ Một mô hình phát hiện quan hệ baothuộc (fdetection) là một ánh xạ từ tập hợp các cặp từ P (P= {(u,v) |u,v là các từ}) sangtập {0, 1}, như công thức (1.1)

Bài toán xác định chiều của quan hệ bao thuộc (Hypernymy Directionality) nhắm đếnphân tách từ bao với từ thuộc trong một cặp từ có quan hệ bao thuộc Cho cặp từ baothuộc (u, v ), mô hình xác định chiều của quan hệ bao thuộc là một ánh xạ từ tập P sangtập {-1, 1} như công thức (1.2)

Bài toán phát hiện quan hệ đồng thời xác định chiều của quan hệ bao thuộc nymy Detection and Directionality) Mô hình của bài toán này là một ánh xạ từ tập Psang tập {-1, 0, 1}, mô hình này dự đoán hai từ có quan hệ bao thuộc hay không và phântách từ thuộc với từ bao như công thức (1.3)

Trang 11

Chương 1 Kiến thức cơ sở và các nghiên cứu liên quan 9

Các mô hình xác định quan hệ bao thuộc thường dựa trên bốn hướng tiếp cận chínhnhư sau: Hướng tiếp cận dựa trên giả thuyết bao hàm ngữ cảnh; Hướng tiếp cận dựa trêngiả thuyết kết hợp ngữ cảnh; Hướng tiếp cận dựa trên giả thuyết sự khác nhau về độ đotương tự; Hướng tiếp cận dựa trên giả thuyết thông tin phân phối

1.3.2 Động lực của nghiên cứu này

Với mục đích học các vector biểu diễn từ phù hợp cho bài toán xác định quan hệ baothuộc, Anh Tuan Luu và cộng sự đã đề xuất mô hình mạng nơ-ron có trọng số động khaithác không chỉ các cặp bao thuộc mà còn cả thông tin ngữ cảnh của chúng để học một

mô hình nhúng từ chuyên biệt Trong từ vựng của các ngôn ngữ, thường có cả từ đơn.Trong tiếng Việt, từ ghép chiếm một tỷ lệ lớn trong tập từ vựng Qua khảo sát các vănbản thuộc các lĩnh vực như công nghệ thông tin, cơ khí, y tế, tài chính, v.v chúng tôithấy tỷ lệ từ ghép trong các miền kỹ thuật khá cao hơn Mặc dù tỷ lệ từ ghép trong tiếngAnh ít hơn trong tiếng Việt, nhưng chúng lại phổ biến hơn trong các miền kỹ thuật như yhọc, tin sinh học Đối với các hệ thống NLP, việc xác định quan hệ của các từ ghép hiếmgặp sẽ hữu ích hơn là xác định quan hệ của các từ đơn phổ biến vốn dĩ đã được xác địnhtrong các nguồn tri thức từ vựng như từ điển, WordNet Do đó, nghiên cứu này nhằmmục đích đề xuất một phương pháp khắc phục các nhược điểm của mô hình nhúng từ đểgiải quyết các nhiệm vụ HR một cách hiệu quả cho các từ ghép

1.3.3 Một số nghiên cứu liên quan

1.4 Quan hệ đồng nghĩa - trái nghĩa

1.4.1 Đặt vấn đề

1.4.1.1 Khái niệm

Quan hệ trái nghĩa và quan hệ đồng nghĩa là những quan hệ mẫu hình (Paradigmatic).

Những quan hệ này đóng vai trò quan trọng trong cấu trúc của những cơ sở dữ liệu từ

vựng tinh thần Trong đó, đồng nghĩa là quan hệ giữa hai từ tương đồng về ngữ nghĩa.

Theo định nghĩa, một từ là đồng nghĩa với một hoặc nhiều từ khác khi chúng đồng hoặc

gần nghĩa trong một số hoặc tất cả các nghĩa thành phần Khi thay thế một từ bằng một

từ đồng nghĩa của nó trong một câu thì nghĩa "đen" của câu đó không bị thay đổi, ví dụ

như chăm chỉ - chịu khó, thông minh - sáng dạ, v.v Ngược lại, quan hệ trái nghĩa được định nghĩa như sự đối nghịch về nghĩa giữa các từ như buồn - vui, đắt - rẻ, thành công -

thất bại, v.v.

Trang 12

1.4.1.2 Tổng quan về bài toán phân tách quan hệ đồng nghĩa - trái nghĩa

Phân tách các cặp từ theo các quan hệ mẫu hình như đồng nghĩa, trái nghĩa và bao

thuộc là một bài toán khó vì các từ có các quan hệ này có xu hướng xuất hiện trong

những ngữ cảnh giống nhau, hay nói cách khác phân phối các từ ngữ cảnh của chúng

có xu hướng giống nhau Xét các câu cô ấy rất yêu/thích/ghét chó/mèo/động vật, trong

đó yêu, thích là các từ đồng nghĩa; ghét trái nghĩa với yêu, thích; chó, mèo có quan hệ

cùng thuộc; và động vật là từ bao của cả chó và mèo Mặc dù các từ yêu, thích, ghét, chó, mèo, động vật tạo thành các cặp từ có quan hệ đồng nghĩa, trái nghĩa, bao thuộc, cùng thuộc nhưng chúng xuất hiện trong cùng một ngữ cảnh Bài toán phân tách quan

hệ đồng nghĩa - trái nghĩa (Antonymy-Synonymy Classification - ASC) nhắm đến xác

định các cặp từ có quan hệ đồng nghĩa hay trái nghĩa trong một tập hợp các cặp từứng viên Một mô hình ASC là một ánh xạ (fASC) từ tập các cặp từ P (P = {(u,v) |

u,v là các cặp từ có quan hệ đồng nghĩa hoặc trái nghĩa}) sang tập {-1, 1}, với −1 và 1

lần lượt tương ứng với quan hệ trái nghĩa và đồng nghĩa, như công thức (1.4)

1.4.2 Động lực của nghiên cứu này

Phân tách các cặp từ theo quan hệ đồng nghĩa - trái nghĩa là một bài toán quan trọng,

được ứng dụng trong nhiều hệ thống NLP như dịch máy, phân tích quan điểm người dùng,

truy xuất thông tin ASC là một bài toán khó, cho đến thời điểm hiện tại, các mô hình

được đề xuất cho bài toán này vẫn chưa đạt được hiệu năng chưa cao Đã có nhiều môhình cho bài toán ASC được thực nghiệm với tiếng Anh Đối với tiếng Việt, chưa có các

mô hình khai thác những đặc trưng riêng của tiếng Việt được đề xuất, cũng như còn thiếucác tài nguyên dùng cho bài toán Do đó, trong luận án này, chúng tôi muốn đề xuất một

mô hình khai thác các đặc trưng riêng của tiếng Việt để giải quyết hiệu quả bài toánASC, và xây dựng một bộ dữ liệu đánh giá mô hình cho bài toán này

Trang 13

Chương 1 Kiến thức cơ sở và các nghiên cứu liên quan 11

1.4.3 Một số nghiên cứu liên quan

1.5 Quan hệ tương tự ngữ nghĩa mức từ

1.5.1 Đặt vấn đề

1.5.1.1 Khái niệm

Quan hệ tương tự là quan hệ Θ trên một tập không rỗng X thỏa mãn ba tính chất

cơ bản như sau: Tính phản xạ (Reflexive); Tính đối xứng (Symmetric); Tính bắc cầu(Transitive) Trong lĩnh vực ngôn ngữ học tính toán, quan hệ tương tự về ngữ nghĩa (sauđây thuật ngữ "tương tự về ngữ nghĩa" được viết ngắn gọn là "tương tự") giữa các từ(Word Semantic Similarity hay Word Similarity) còn được gọi là sự tương đồng về đặctrưng phân loại của từ (Taxonomical Similarity) được dùng để chỉ các từ có sự tương đồng

với nhau về loại hoặc chức năng.

1.5.1.2 Tổng quan về bài toán đo lường độ tương tự ngữ nghĩa của cặp từ

Các phương pháp WSM lượng giá mức độ giống nhau về nghĩa của hai từ, hay định

lượng khoảng cách nhận thức giữa hai khái niệm với sự quan tâm về loại hoặc chức năng

của chúng Một mô hình WSM là một ánh xạ (fWSM) từ tập các cặp từ P (P= {(u,v) |

u,v là các từ}) sang tập các giá trị thực trong khoảng[0, 1], như công thức (1.5)

1.5.2 Động lực của nghiên cứu này

Sự tương tự về ngữ nghĩa đóng vai trò trung tâm trong cách thức con người xử lý trithức và là tiêu chí để phân loại các đối tượng, xây dựng các khái niệm, biểu diễn sự tổngquát và trừu tượng Do đó, sự tương tự ngữ nghĩa đóng vai trò then chốt trong nhiều

tác vụ xử lý ngôn ngữ tự nhiên như truy vấn thông tin, mô hình ngôn ngữ, phát hiện kế

thừa văn bản, v.v Đo lường độ tương tự ngữ nghĩa giữa các từ một cách chính xác là

một thách thức cốt lõi trong xử lý các tài liệu văn bản phi cấu trúc của lĩnh vực xử lý

dữ liệu lớn Do đó, bài toán đo lường độ tương tự ngữ nghĩa giữa các từ (Word SimilarityMeasurement - WSM) là một chủ đề nghiên cứu quan trọng trong NLP

Trang 14

1.5.3 Một số nghiên cứu liên quan

1.5.3.1 Hướng tiếp cận dựa trên cơ sở tri thức từ vựng

1.5.3.2 Hướng tiếp cận dựa trên mô hình nhúng từ

1.6 Kết luận chương

Chương này của luận án trình bày một số khái niệm cơ bản về từ và ngữ nghĩa của từ.Luận án cũng đã giới thiệu về hai mô hình biểu diễn ngữ nghĩa bằng không gian vectorgồm mô hình ngữ nghĩa phân phối và mô hình nhúng từ Bên cạnh đó, chương này cũngtrình bày tổng quan về ba bài toán được nghiên cứu trong luận án gồm xác định quan hệbao thuộc, phân tách quan hệ đồng nghĩa - trái nghĩa, và đo lường độ tương tự ngữ nghĩacủa cặp từ

Trang 15

Chương 2

XÁC ĐỊNH QUAN HỆ BAO THUỘC DỰA TRÊN MÔ HÌNH NHÚNG TỪ CHUYÊN BIỆT

Trong chương này, luận án đề xuất mô hình LERC để giải quyết bài toán xác địnhquan hệ bao thuộc Những nội dung được trình bày ở chương này được công bố trong[CT1], [CT8], và [CT9]

2.1 Ý tưởng chính

Trong chương này, luận án đề xuất một mô hình cải tiến của mô hình DWN (Extend Dynamic Weighting Neural Network - EDWN) bằng cách tích hợp vào mô hình mạng

nơ-ron gốc một lớp chú ý (Attention Layer), được trình bày chi tiết trong Phần2.3.1 Hơn

nữa, chúng tôi đề xuất một mô hình mới, có tên LERC (Lexical Entailment Recognition Combination) cho bài toán HR, kết hợp nhúng từ EDWN và đặc trưng ngữ nghĩa mức

dưới từ (Subword Semantic Feature) cho ba bài toán: phát hiện quan hệ bao thuộc, xác

định chiều của quan hệ, phát hiện quan hệ và xác định chiều của quan hệ.

2.2 Phân tích hạn chế của mô hình DWN

2.3 Đề xuất mô hình LERC

LERC là mô hình khai thác cả đặc trưng ngữ nghĩa mức dưới từ và vector nhúng từchuyên biệt để giải quyết bài toán xác định quan hệ bao thuộc Hình 2.1 mô tả kiến trúccủa mô hình này

13

Trang 16

Hình 2.1: Tổng quan về mô hình LERC.

2.3.1 Mô hình DWN cải tiến

Để khắc phục nhược điểm của mô hình DWN, chúng tôi giả định rằng vai trò của các

từ ngữ theo ngữ cảnh không đồng nhất trong việc mã hóa một ngữ cảnh, mà những từ ngữ cảnh là dấu hiệu mạnh để nhận ra từ bao nên được gán một trọng số lớn hơn Chúng tôi

mong muốn giảm nhiễu do các từ ngữ cảnh ít quan trọng hơn để có được các vector được

mã hóa tốt hơn Chúng tôi đã thêm vào mô hình DWN ban đầu một lớp chú ý Lớp chú

ý có thể làm giảm sự thiên vị của các từ ngữ cảnh ít quan trọng hơn Phần mở rộng được

đề xuất của chúng tôi về DWN được đặt tên là mô hình mạng nơ-ron trọng số động mởrộng (EDWN)

2.3.1.1 Tích hợp lớp chú ý vào mô hình DWN

2.3.2 Tích hợp đặc trưng ngữ nghĩa mức dưới từ

2.3.2.1 Phân tích cấu trúc của các cặp từ bao thuộc

Hình 2.2 biểu thị mức độ phổ biến của các SSP khác nhau trong các quan hệ ngữnghĩa Kết quả thống kê cho thấy tỷ lệ các cặp bao thuộc bao chứa các SSP cao hơn đáng

kể so với các quan hệ ngữ nghĩa khác trong cả tiếng Anh và tiếng Việt Hơn nữa, các cặp

từ tiếng Việt có xu hướng chứa các SSP cao hơn các cặp từ tiếng Anh Lưu ý rằng, trongtrường hợp tiếng Anh, các cặp từ đồng nghĩa và trái nghĩa hiếm khi xuất hiện các SSP

Trang 17

Chương 2 Xác định quan hệ bao thuộc dựa trên mô hình nhúng từ chuyên biệt 15

Hình 2.2: Tỷ lệ phần trăm của các SSP xuất hiện trong các cặp bao thuộc, cùng

thuộc, trái nghĩa, đồng nghĩa, phân nghĩa

Dựa trên kết quả khảo sát các SSP, chúng tôi đưa ra giả thuyết rằng nếu một cặp từ

ghép chứa các SSP thì các mẫu này có thể được sử dụng như một đặc trưng để nhận ra mối quan hệ ngữ nghĩa của cặp này.

2.3.2.2 Trích chọn đặc trưng

Do tính chất đa dạng và phức tạp của ngôn ngữ tự nhiên, rất khó có thể xác định đầy

đủ các SSP phủ kín các trường hợp trong thực tế Mặc dù các SSP được bao chứa trongmột cặp từ là những đặc trưng hữu ích để nhận biết các quan hệ ngữ nghĩa của cặp từ

đó, nhưng chúng tôi không sử dụng trực tiếp các mẫu này như những đặc trưng "thô" vàrời rạc do hạn chế bởi khả năng bao phủ của chúng Hơn nữa, vì các mẫu này phụ thuộcvào ngôn ngữ cụ thể, nên khó có thể mã hóa chúng dưới dạng vector đặc trưng với sốchiều cố định Do đó, chúng tôi nhắm đến mục đích tìm ra một kỹ thuật để mã hóa các

mẫu này thành một vector đặc trưng (Subword Semantic Feature mà sau đây được gọi

là SSF cho ngắn gọn) Phương pháp mã hóa này có thể nắm bắt không chỉ các mẫu cụ

thể đã được liệt kê mà còn cả các mẫu tiềm ẩn chưa được xác định theo cách thủ công.

2.3.3 Mô hình phân lớp quan hệ bao thuộc có giám sát

2.3.4 Phân tích ưu nhược điểm và tính mới của mô hình

2.4 Xây dựng bộ dữ liệu tiếng Việt DtVLE-999, DrVLE-999,

DetVLE-999

2.5 Thực nghiệm

Chúng tôi đã tiến hành các thực nghiệm để đánh giá hiệu năng của mô hình được đềxuất trong luận án đối với tiếng Việt và tiếng Anh, so sánh hiệu năng của mô hình này

Trang 18

Thuật toán 1: Thuật toán trích chọn vector đặc trưng ngữ nghĩa mức dưới từ

của một cặp từ (FeatExt)

1 def FeatExt(w1, w2);

Input: Đầu vào: Một cặp từ w1-w2

Một mô hình nhúng từ đã được huấn luyện fT

Output: Đầu ra: Trả về vector đặc trưng ngữ nghĩa mức dưới từ vSSF

9 simScore =Cosine Similarity(v1,v2);

10 vSSF = vSSF ⊕ [simScore]; // ⊕ là toán tử bổ sung thêm phần từ

2.5.3.1 Đánh giá mô hình trên bộ dữ liệu tiếng Việt

Như được hiển thị trong Bảng 2.1, mô hình EDWN đạt được hiệu suất cao hơn môhình DWN Có nghĩa là, mô hình EDWN phù hợp hơn so với mô hình DWN ban đầucho bài toán HR Hơn nữa, mô hình LERC đạt được kết quả tốt nhất trong tất cả cácnhiệm vụ Các kết quả thử nghiệm đã chứng minh rằng đặc trưng SSF là hữu ích, cũngnhư mô hình đề xuất của chúng tôi là hiệu quả cho các nhiệm vụ HR Việc sử dụng thêmđặc trưng SSF với các mô hình nhúng từ khác nhau đều làm tăng hiệu năng của mô hìnhphân lớp đối với cả ba bài toán con của bài toán HR Tuy nhiên, mức độ cải thiện hiệunăng thu được thay đổi tùy thuộc vào mô hình nhúng từ và tập dữ liệu đánh giá Hình

2.3 minh họa trực quan sự cải thiện hiệu năng của mô hình phân lớp khi sử dụng các môhình nhúng từ và bộ dữ liệu đánh giá khác nhau khi thực nghiệm với tiếng Việt

Ngày đăng: 02/10/2024, 10:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w