1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dịch máy mạng neural anh việt sử dụng Đồ thị tri thức khóa luận tốt nghiệp chuyên ngành khoa học máy tính

92 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dịch máy mạng neural Anh-Việt sử dụng đồ thị tri thức
Tác giả Chưa rõ tên tác giả
Người hướng dẫn ThS. Trần Thanh Nhớ, ThS. Nguyễn Phương Nam, TS. Nguyễn Hồng Bửu Long
Trường học Trường Đại học Sư phạm TPHCM
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 92
Dung lượng 5,88 MB

Nội dung

Chương này giới thiệu tổng quan về đề ải gồm các nội dung như: lý do chọn để tải, mục tiêu nghiên cứu, đối tượng và phạm vĩ nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực t

Trang 1

KHOA CONG NGHE THONG TIN

B35 TP ĐỘ CHÍ

LÊ CÔNG TRÍ

DỊCH MÁY MẠNG NEURAL ANH-VIỆT SỬ DỤNG

ĐỎ THỊ TRI THỨC

KHÓA LUẬN TÓT NGHIỆP

TP HÔ CHÍ MINH - NĂM 2024

Trang 2

DỊCH MÁY MẠNG NEURAL ANH-VIỆT SỬ

DUNG DO TH] TRI THUC

CHUYÊN NGÀNH: KHOA HOC MAY TÍNH

KHOA LUAN TOT NGHIEP

NGƯỜI HƯỚNG DAN KHOA HQC:

TP.HCM ~ NAM 2024

Trang 3

‘Toi xin cam đoan luận văn "Dịch máy mang neural Ảnh-Việt sử dụng đồ thị trì thức" là công trình nghiên cứu của nhóm chúng tôi, được thực hiện đưới sự hướng dẫn của

‘Thay ThS Trần Thanh Nhã, thầy ThS Nguyễn Phương Nam, thầy TS Nguyễn Hồng Bữu Long Các kết quả nêu trong luận văn là trung thực và nội dung luận văn không có sự sao chép từ các tải liệu hay công trình nghiên cứu khác mả không ghi rõ nguồn trong phần tải liệu tham khảo

Tôi xin chịu trách nhiệm về lời cam đoan này,

Thành phố Hỗ Chỉ Minh, ngày 07 thắng 04 năm 2034

Trang 4

Lời đầu ti „ tôi in gũi lồi t ân sâu sắc đến Thấy ThS, Trần Thanh Nhã, Thấy

ThS Nguyễn Phương Nam và Thầy TS Nguyễn Hồng Bửu Long - những người thầy đồng

hảnh cùng tôi trong suốt hành trình nghiên cứu và thực hiện luận văn này Sự tận tâm và

Kiến thức sâu rộng của các Thầy đã là nguồn động viên lớn lao, giúp tôi vượt qua những

thách thức và hoàn thành công việc của mình Tôi cũng không thể không bày tỏ lòng biết

cơn chân thành đến các thấy cô giáo tại Trường Đại học Sư phạm Thank phd 16 Chi Minh, Những bài học quý báu mà quý thầy cô đã tuyễn đạt không chỉ là kiến thức chuyên môn

mà còn là những phẩm chắt tất đẹp, là nền ng vũng chắc giúp ti phát tiễn và tiến bộ

trong sự nghiệp và cuộc sông

“Cuối cùng, tôi muốn gửi lời cảm ơn chân thành đến gia đình, bạn bè và những người thân yêu Sự ng hộ và động viên từ các bạn bê và gia định là nguồn động lực lớn lao, giúp tôi vượt qua mọi khó khán, điều này thật sự quý báu và không thể đong đếm bằng lời

"Những người này đã luôn đồng bành, chia sẻ và động viên tôi trong suốt quãng thời gian

học tập và làm việc, và tôi sẽ mãi mãi ghỉ nhớ và trân trọng điều đỏ Xin chân thành cảm on!

“Thành phố Hồ Chí Minh, ngày 07 tháng 04 năm 2024

Trang 5

LỜI CAM ĐOAN,

Đối trợng và phạm vỉ nghiên cu 9

`Ý nghĩa khoa học và thực tiễn ° CCấu trú của khóa luận 9

'CHƯƠNG 1: TONG QUAN NGHIEN CUU „1

1.3 _ Các phương pháp cái tiến địch máy mạng neuil - 2

1.3.1 Cae van de dich may 22

1232 Tích hợp đồ thị tỉ thức vào mổ hình địch máy, 2

25 +

142 Bộ ngữ liệu đồ thị tì thức 28 'CHƯƠNG 2: CƠ SỞ LÝ THUYÉT

Trang 6

3.3.4 M6 hinh dich máy mạng Net

CHUONG 4: THỰC NGHIEM VA DAN

41 Cai acm rng 4.11 Thigt bj hud ly tye niin 70 T0

412 Ngôn ngữ lập trình 70 41.3 Clu hinh huân luyện Tô 4.124 Phương thức đảnh giá 1

43 — Đảnhgiávàphẩntieh 4.3.1 Đánh giá mô hình khi có thức : n n 43.2 Phin ch ảnh hướng độ đài câu lên hiệu suất T CHUONG 5: KET LUAN VA HUONG PHAT TRIEN

Trang 7

DANH MYC CHU VIET TAT

Chữ viết tắt Ý nghĩa

Bilingual Evaluataton Understudy

‘Byte Pair Encoding International Workshop on Spoken Language Transaltions

‘Next Sentence Prediction Positional Encoding

Trang 8

Bang 3.1 Thống kê số lượng data bộ ngữ liệu IWSLT”LS ăn 4] Câu hinh ei i qu nh hun hyện môình Bảng 42 Kết quả

Bảng 43 Kế q định gi nà nh vn lấy ngữ lậu cũ độ đủ âu hức nhay

Trang 9

ĐANH MỤC HÌNH ẢNH

Tình | Quá tỉnh phú tiến ch máy inh Eneoder - Deco

lô hình Se2Seq cho bài toa dich may Hình T2 Kiện ắc mỗ hình KƠ NVẾ (41

Hình L5 Hội nghi Kho họ Công nghệ quốc lý TWSLT ần thứ 12 Ba Nang

‘inh 1.6 Ví dụ mô tả về dò thị t

Hình L7 Các nghiên cứu, inh vục ng dụng đồ ti 0í thức Hình L.§ Ví dụ về đ thị trị thức rong mạng xã hội và tế Trình 2 1 Kiến rác mô hình RNN ấp dụng cho mô hình ngôn ngữ Hình 2.2 Cách Hình 2.3 Kiến trúc mô hình Transformer [22] hoạt động của cơ chế chú ý'

Hình 2.4 Input embedding biến c

Hình 2.5 Veetor từ được bỗ sung thêm thông tỉn vị tỉ tử Poxitonal Encođing Hình 2.6 Quá trình tỉnh toán của Sel-atuention

Hình 2.7 Vector Q, K, V sau được nhân với ma trận trong số tương ứng, Hình 2 8 Vid vé oh hij Hình 29 Sự khỉ cổ residual và khi không có (elt©) Hinh 210 Rien te mo hish BERT

inh 2.1 Lip Embedding Layer tong nh BERT nh 3.1 Nat iu sau Kg be im seh Hìn

Hin 35 Cc syne up chuyên hình ác

Hình 3.6 Mô tà về ổ chức Tình 3.7 Kien ức mộ nh đch máy mọngheuni sảng đồ ủi ức đồ thịt thị

Hình 4.1 Tập ngữ liệu kiêm tra khi được dịch bởi mô hình đề xuất Hình 4.2 Câu dịch được sinh ra một các tự nhiên hơn so với câu nguồn Hình 4.3 Biểu đỏ biêu thị mức độ ảnh hưởng độ dài câu đến diém BLEU

Trang 10

Lý do chọn để tài

'Với sự phát triển nhanh chóng của khoa học và công nghệ, tién trình hội nhập quốc tế

của Việt Nam được triển khai tích cực đầy mạnh quá trình toàn cầu hóa, hội nhập sâu rộng

với khu vực và thể giới Xu hướng toàn cầu hồa, hội nhập quốc tế mang đến những cơ hội

to lớn chưa từng có cho nước đang phát triển Đồng thời cũng đặt ra thách thức buộc các

nước phải chuẩn bị kĩ lưỡng trước khi bước vào sân chơi rộng lớn này Một trong những

u tổ cần có đó chính là chuẳn bị cho mình một hành trang trì thức, việc trao dồi thêm một

ngoại ngữ là có thêm một cánh cửa hội nhập với thể giới bên ngoài Do đó việc một mô hình dịch thuật nhanh chóng, chính xác, không làm thay đổi ý nghĩa là yêu cầu rất cấp thiết không chi trong giao tiếp cơ bản mà còn là chia khoá mở cánh cửa vào thể giới Xhoa học và trí thức của nhân loại Hiện nay có nhiều công cụ địch thuật thương mại nỗi

hỗ trợ hơn 10 cặp ngôn ngữ phổ biển như Anh-Pháp, Anb- Trung, Anh-Nhật

Mặc di dịch máy sử dụng mạng nơ rơn đã đạt được thành công đáng kể trong nhiệm

vụ địch máy, nhưng nó đồi hỏi một lượng lớn đào tạo Củng với sự khan hiểm , các từ

khong có từ vựng, chủ yếu là các thực thể và biểu thức thuật ngữ, đặt ra một thách thúc khó

khăn cho các hệ thống Dịch máy mạng neural [2] Do đó tôi đề xuất việc tích hợp đồ thị trí thức (Knowledge Graph) vio qua trinh dich may nhim cai thign higu suit va gidm áp lực

về mặt cho mô hình NMT

Mye tiêu nghiên cứu

Xây dựng mô hình dịch máy tự động bằng mạng neuril ích hợp đồ thị tr thức vào

cquá trình dịch

"apr desl con!

>hdpe/lmwn andes om

Trang 11

Đổi tượng nghiên cứu: từ các văn ban và sách song ngữ

Phạm vi nghiên cứu: Dịch máy mạng neural trtiéng Anh sang tiếng Việt

~ _ Nghiên cứu kỹ thuật xây dựng bộ ngữ liệu đồ thị trì thức cứu cơ sở lý t liên quan đến đ

~_ Nghiên củu kỹ thuật dịch mây mạng neuni tích hợp đồ thịt thức,

~_ Đề xuấthướng phát iển ong tương ai

Phương pháp nghiên cứu thực nghiệm:

~ _ Thu thập, xây dựng bộ ngữ liệu đáp ứng yêu cầu bài toần

~ _ Tiến hảnh xây dựng mô hinh

~ ˆ Đánh giá và so sánh kết quả đạt được

_Ý nghĩa khoa học và thực tiễn

Nghiên cứu này đề xuất một phương pháp mới kết hop tr thức từ đồ thị vào quá ình dich may neural, mở ra hướng nghiên cứu mới vẻ khai thác trỉ thức đẻ cải thiện hiệu suất địch, VỀ mặt thục tiễn, mô hình địch mấy tích bợp đồ tị t thức cổ thể được tiển khai

trong các ứng dụng thực tế để cải thiện chất lượng dịch, vượt qua rào cản ngôn ngữ, thúc

đẫy giao tiếp và hợp tác quốc tế Phương pháp này cũng mở ra iểm năng ứng dụng cho các

bài toán xử lý ngôn ngữ khác như tóm tắt, trả lời câu hỏi và sinh văn ban, Cấu trúc của khóa luận

Dựa vào những mục tiêu đã trình bày, nội dung của khóa văn được chia thành các phần sau: Chương mỡ đầu:

Trang 12

Chương này giới thiệu tổng quan về đề ải gồm các nội dung như: lý do chọn để tải, mục tiêu nghiên cứu, đối tượng và phạm vĩ nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn cũng như cấu trúc chung của đề ải

Chương I: Tổng quan nghiên cứu

Chương này giới thiệu tổng quan trình hình nghiên cứu trong lĩnh vực địch máy, giới

thiệu về các tập dữ liệu tiêu chuẩn đang được các nhà nghiên cứu sử dụng, trình bảy các

phương pháp học sâu vả những công trình tiêu biễu tương ứng với tìng phương pháp Chương 2: Cơ sở lí thuyết

Chương này chúng lôi sẽ trình bảy lẫn lượt tổng quan các phương pháp dịch máy Đồng thời trong từng phương pháp, chúng tôi cũng nêu ra khái niệm cũng như tu-khuyẾt điểm về một số thuật toán, kiến trúc mô hình tiêu biểu để làm cơ sở chọn lựa mô hình phù hợp với

Chương 3: Phương pháp đề xuất

Trình bây chỉ iết phương pháp mà chúng tôi sử dụng trong dịch máy Anh: Việt Phương pháp chính là tich hợp đồ thịt thức vào mô hình dịch máy mang neural

Chương 4: Thực nghiệm và đánh giá

Chương này so sánh và đánh giá kết quảđạt được khi thục hiện chương trình với một

số pre-trained model trên tập ngữ liệu Anh-Việt và các tập ngữ liệu song ngữ khác

Chương 5: Kết luận và hướng phát triển

“Tổng kết lại kết quả đã đạt được và chưa đạt được sau quá trình nghiên cứu, tiền hành

thực nghiệm Từ đó nêu lên những hướng nghiên cứu và phát triển tiếp theo trong tương lai

48 nâng cao hiệu suất địch thuật cũng như để khắc phục các hạn chế hiện ti

Trang 13

CHƯƠNG ‘ONG QUAN NGHIEN

1-1 Tổng quan a tit

Dịch may (Machine Translation) li mt bai ton quan trong trong lĩnh vực xử lý ngôn

ngữ tự nhiên (NLP), với nhiệm vụ chính là đạy cho máy tính có khả năng học và địch tự

động một văn bản từ ngôn ngữ nguồn sang ngôn ngữ dịch mà không cần sự can thiệp của

con người vào quá trình dịch Đây là một thách thức lớn bởi sự đa dạng của các ngôn ngữ:

ngôn ngữ đều có cấu trúc ngữ pháp, ngữ nghĩa và cách biểu đạt riêng biệt Khả năng dich thuật giữa tên thể giới, Hiện nay có hơn 7000 ngôn ngữ khe nhau đang được sử đụng,

sắc ngôn ngữ này một cách chính xác và tồi chảy là mục tiêu then chốt của dịch mấy Đạt

thie day sy giao lưu văn hỏa và hợp tác trên phạm vỉ toàn cầu Ngoài ra, địch máy còn mở

xa nhiều ứng dụng thực ế quan trọng khác như dịch tài liệu, phụ đề phim, website đa ngôn ngũ, hỗ trợ giao tiếp qua biên dịch giọng nói,

Do tim quan trọng to lớn đó, dịch mấy luôn được coi là một trong những lĩnh vực nghiên cứu trọng điểm và được đầu tư mạnh mẽ nhân lực cũng như tài chinh trong NLP

kỹ khác nhau, từ dịch mấy dựa trên quy tắc (RBMT), dịch máy thống kế (SMT) đến dịch may mang

nhưng ban đầu các nhà nghiên cứu đã tận dụng từ điễn và sử dụn: được tạo ra bởi chuyên gia để sắc định nghĩa chính xác của các t Tuy nhiễn, cách tiếp cận nảy gặp hạn

chế li không thể phát triển một hệ thông luật hoàn chinh cho tắt cả các ngôn ngữ có sẵn

Đến những năm 1990 mô hình địch máy thống kê xuất hiện, mô hình này sử đụng một kho

ngữ liệu song ngữ được thu thập bởi các chuyên gia ngôn ngữ trong quá trình huần luyện

Trang 14

cu thế mã chúng được áp dụng [3], [4]

! |

h 1.1 Quá trình phát triển địch máy

1.2.1 Dịch máy dựa trên quy tắc

Dịch máy dựa trên quy tắc (RBMT) là hệ thống địch máy đâu tiên và dựa trên thông tin ngôn ngữ về ngôn ngữ nguồn và ngôn ngữ đích về cơ bản được lẫy từ từ điển và ngữ

pháp bao gồm các quy tắc về ngữ nghĩa, hình thấi và củ pháp chính của từng ngôn ngữ

tương ứng [5] Nguyên lý hoạt động của nó dựa trên việc sử dụng các quy tắc ngôn ngữ học

sự thể để bigu diễn kiến thức về ngôn ngữ nguồn và ngôn ngữ địch Quả trình dịch máy

RBMT diễn ra theo từng bước sau:

+ Phân tích ngôn ngờ nguồn: Quá tình này bắt đầu với một văn bản đầu vào, được tiền xử lý bằng cách tích từ, ấn nhân từ loại và phân đoạn câu Sau đó, vấn bản được phân

tích cú pháp đẻ xác định các thành phần câu và mỗi quan hệ cú pháp giữa chúng, dựa trên

suy ắc ngữ pháp của ngôn ngữ nguồn Tiếp theo, phân ích ngữ nghĩa được thực hiện để xác định ý nghĩa của các từ và cụm từ, dựa trên từ điển ngữ nghĩa và quy tắc ngữ nghĩa của

ngôn ngữ nguồn Kết qua là một biều diễn ngữ nghĩa-cú pháp độc lập với ngôn ngữ nguồn

+ Chuyén tai (Transfer): Bigu didn gtr nghia-ci phap của ngôn ngữ nguồn được chuyên đổi sang biểu diễn trung gian không phụ thuộc ngôn ngữ bằng cách áp dụng quy khác nhau giữa ngôn ngữ nguồn và ngôn ngữ đích như trật tự từ, đảo ngữ, số [sổ nhu,

Trang 15

+ Tổng hợp ngôn ngữ đích (Target Language Generaion): Từ biễu diễn trung gian, suy tắc ngữ pháp và ngữ nghĩa của ngôn ngữ đích được ấp dụng để ạo ra biểu diễn ngữ

nghĩa-cú pháp của ngôn ngữ đích Biểu diễn này sau đó được sử dụng để tổng hợp văn bản

đầu m bằng ngôn ngữ đích thông qua các bước như xây dựng cụm từ và diễn ngữ hoá các thành phần đầu ra cuối cũng

'Có ba phương pháp tiếp cận dịch máy dựa trên quy tắc sau: phương pháp trực tiếp

(Đirset Method), phương pháp chuyển đổi (Transisr Method) và phương pháp Inleringua Phương pháp trực tiếp: Là phương pháp dịch từng từ rong văn bản nguồn thành

từ trong văn bản đích Nó đòi hỏi phân tích hình thái một cách rõ rằng nhưng cl cần một chút phân tích củ pháp và ngữ nghĩa

Phương pháp chuyển đối: Đây là phương pháp phỏ biến nhất trong RBMT, Trong

phương phip này, ngôn ngữ nguồn được chuyển đổi thành một biểu diễn trừu tượng, ít ngôn ngữ cụ thể hơn, Văn bản được phân ích ở cấp độ ngữ pháp và ngữ nghĩa tong ngôn

"ngữ nguồn, sau đó được chuyỂn đổi sang một biểu diễn trung gian không phụ thuộc ngôn cđụng từ điễn song ngữ và các quy tắc ngữ pháp,

Phương pháp Iterlingua: Trong ngôn ngữ nguồn Intedingua được chuyển đổi thành ngôn ngữ trung gian, độc lập với bat ky ngôn ngữ nảo liên quan đến dịch thuật Bán

dịch được địch cho ngôn ngữ đích sau đô được lấy từ ngôn ngữ trung giam Phương pháp dịch máy dựa trên luật (RBMT) có một số ưu điểm đáng kể, Nếu bộ

luật được xây dựng tốt, RBMT có thể tạo ra ban dich chính xác và trung thực về mặt ngữ

pháp Phương pháp này cũng phủ hợp để dịch những văn bản có cấu trúc và từ vựng giới

hạn như hướng dẫn sử dụng, tải liệu ky thugt (A Survey of Current Paradigms in Machine

Translation) Dng thoi, RBMT cho phép kiểm soát tốt quả tình dịch, điều chỉnh và bổ

sung luật một cách linh hoạt

"uy nhiên, RBMT cũng có những hạn chế nhất định Việc xây dựng một hệ thống

RBMT hoàn chỉnh đòi hỏi thời gian đài, các quy tắc thường do nhà ngôn ngữ học phát triển

Trang 16

mmôn/ chuyên gia (có thểrắt tốn kém) để xây dựng rất ắt nhiều quy tắc và ngoại lẽ, đồng

những mẫu câu và từ vựng nằm trong tập luật Những câu quá dài, phức tạp sẽ dễ bị dịch

sai, khó xử lý tốt các, óa, ngữ cảnh, ảm ý trong giao tiếp ngôn ngữ Chỉ phí

xây dựng và duy trì hệ thống cũng cao Mỗi cặp ngôn ngữ cẳn có một hệ thống luật riêng 1.22 Dịch máy dựa trên ví dụ

Dịch máy dựa trên ví dụ (Example-Based Machine Translation - EBMT) là một phương pháp địch máy được giới thiệu lần đầu tiên vào năm 1984 bởi Makoto Nagao từ

ai học Kyoto, Nhật Bản [7] Dịch máy dựa trên ví dụ (EBMT) là một phương pháp dịch tin ngữ pháp cho các cặp câu trong cơ sở dữ liệu song ngữ Điều này giúp cải thiện hiệu cdụ tương tự như sử dụng độ đo tương tự chị +okhốp mẫu, hoặc kết hợp với các kỹ thật ích xuất đặc trưng ngôn ngữ Bên cạnh đó, việc chuyển đổi vả tá tạo câu địch cũng đồi

hỏi phải giải quyết các ấn để như điều chỉnh thứ tự từ, thay đổi hình thai từ và đảm báo

tính đúng đắn ngữ pháp bằng các kỹ thuật như quy tắc chuyển đổi, mô h th ngôn ngũ, và

các thuật toán tối ưu hóa Ý tưởng cốt lõi của EBMT là sử dụng một cơ sở dữ liệu song ngữ:

gằm các cặp câu đã được dịch trước đó để dịch một câu mới chư từng gặp Cách tiếp cận

của EBMT gồm ba bước chính:

~ So khớp (Matching): Trong bước so khớp, hệ thống EBMT sẽ ign hành tìm kiểm trong cơ sở dữ liệu song ngữ để xác định những cặp câu có độ trơng tự cao nhất với câu

cẩn dịch Quá trình tìm kiểm này dựa trên việc so sánh các đặc trưng ngôn ngữ như tử vựng,

cm từ và cẫu trúc cú pháp giữa câu đầu vào và các câu rong cơ sở dữ liệu Hệ thẳng sẽ sử

dụng các thuật toán đo độ tương tự, chẳng hạn như độ đo cosin hoặc khoảng cách

Levenshiein, để tỉnh toán mức độ trùng khớp giữa các câu Kết quả của bước này là một

tập hợp các cặp câu song ngữ có liên quan và tương tự nhất với câu edn địch

Trang 17

~ Chuyển đổi (Alignment): 6 bude nay he théng EBMT sẽ phân ích và xác định sự tương ứng giữa cúc cụm từ, thành phần trong câu nguồn và câu đích của các cặp ví dụ đã

"ngôn ngữ, cho phép hệ thống hiểu được cách các cụm từ và thành phần trong câu nguồn

phân tích cú pháp, nhận dạng thực thể có tên, và các thuật toán căn chỉnh từ để xác định

chính xác sự tương ứng giữa các phẳn tử ngôn ngữ

+ Tai tạo (Recombinadon): Hệ thống EBMT sẽ kết hợp các phần địch tương ứng từ

các cặp ví dụ đã chọn để xây dựng một bản dịch hoàn chỉnh cho câu đầu vào Hệ thống sẽ

căn cứ vào sự tương ứngđã thiết ập ở bước chuyên đổi để lựa chọn và sắp ếp các cụm từ,

thành phần sao cho phủ hợp với cấu trúc ngữ pháp và ngữ nghĩa của ngôn ngữ đích Trong

quá tình ti tạ, hệ thông cũng tiến hình các bước xử lý bổ sung như điều chính từ loi,

thêm/bớt từ chức năng, và đảm bảo sự đồng nhất về giới tính, số lượng, thì động tử, v.v.,

nhằm tạo rà một bản dịch mạch lạc, trồi chảy và tự nhiên Nếu cần thiết, hệ thông có thể sử

dung các quy tắc và mô hình ngôn ngữ để hoàn thiện và tối ưu hóa bản địch cuối cùng

LƯũ điểm của EBMT là khả năng xử lý ốt cúc cụm từ, thành ngữ và đễ mổ rộng bằng việc bổ sung thêm các cặp câu song ngữ vào cơ sở dữ liệu Phương pháp này có khả năng

6 dinh trong ngôn ngữ, do việc sử dụng

xử lý tốt các cụm từ, thành ngữ, và các cấu trúc

sắc cặp câu đã được dịch sẵn lâm nỄn tảng cho qué trinh dich EBMT có thể để đăng mở

rộng và cải thiện bằng cách bỗ sung thêm các cặp câu song ngữ vào cơ sở dữ liệu, giúp tăng:

độ phủ và chất lượng của hệ thống Mô hình địch máy này tận dụng tr thức và kỉnh nghiệm, cđược chất lượng địch tự nhiên và chính xác hơn Cuối cùng, qué trình địch của EBMT

tương ứng đã có sẵn, giúp tiết kiệm thời gian tính toán và xử lý Sato và Nagao [8] đã xây

cđưng một hệ thống EBMT cho cặp ngôn ngữ Anh- Nhật, sử dụng cơ sở liệu song ngữ và

thuật toán so khớp chuỗi con để tìm kiếm và kết hợp các ví dụ tương tự Hệ thống dịch máy:

Trang 18

phương pháp địch y khác [9] Satoshi và cộng sự [10] đã để xuất phương pháp sit dung EBMT trong việc dịch các từ ngữ giao tiếp hằng ngày và cả từ ngữ chuyên ngành trong

khó khăn khi xử lý các câu có cầu trúc phúc tạp, câu dài, hoặc câu chứa nhí

Hệ thống cũng thiếu tính lnh hoạt trong việc xử lý các trường hợp ngoại lệvà ngữ cảnh đặc biệt phí và thời gian, Ngoài ra, khó khân tong việc mỡ rộng sang các cặp ngôn ngữ mới cũng như hiệu suất tính toán khi m kiếm rên cơ sở dữ iệu lớn là những hạn chế đáng lưu ý của EBMT, Mặc đã vậy, EBMT vẫn có giá khi được kết hợp với các kỹ thuật khác, tuy nhiền sự phát iển của địch

iy neural gn diy đ giáp khắc phục nhiễu nhược điểm này và cải thiện đáng kể chất lượng dịch, 1.2.3 Dịch máy thống kê

‘Trong Statistical Machine Translation (SMT) là một phương pháp dich máy khác so với RBMT, mô bình này được lên ý tưởng lằn đầu tiên bởi Warten Weaver vo nam 1949, Đến năm 1993, tại Trùng tâm nghiên cứu Thomas J Watson ciia IBM, Brown và các cộng

bi toan dich may ngày cảng được quan tâm và phát tiể

địch máy thông kê phổ biến như [12] [13] [14] [I5] cho đến ngày nay Các mô hình

Điểm nổi bật của phương pháp này là thay vì sử dụng quy tắc ngôn ngữ hoe thủ

công, SMT sử dụng các mô hình thống kê để học cách dịch văn bản từ ngôn ngữ nguồn hân tích các cặp câu song ngữ trong corpos, SMT xic định các mỗi quan hệ thông kế giữa

Trang 19

sắc từ, cụm từ và cầu trúc câu trong bai ngôn ngữ Quả trình này cho phép SMT dy dosn

corpus SMT đã chứng minh được tính hiệu quả của mình trong nhiễu ứng dụng, từ các hệ

thống địch máy đơn giản đến các công cụ hỗ trợ dịch thuật thương mại như; Google Dịch

(Google Translate), Microsoft Translator’, IBM Watson Language Translator’, SYSTRAN®

.Quá trình địch của SMT bao gồm các bước sau:

+ Huấn luyện mô hình địch: Sử dụng một bộ song ngũ rắtlớn để huắn luyện hai mô hình quan trọng: mô hình ngôn ngữ (language model) và mô hình chuyển ngữ (translation model), Mô hình ngôn ngữ: mục tiêu của mô hình ngôn ngỡ là học cách xếp cúc từ lại với

hiện của các chuỗi tir trong huấn luyện để hiểu cấu trúc ngôn ngữ và cách các từ tương tác

với nhau để tạo ra câu có nghĩa Mô hình chuyển ngữ: Mô hình chuyển ngữ được hun

luyện để học cách địch từ ngôn ngữ nguồn sang nướn ngữ đích dựa trên các cặp câu song

ngữ trong huấn uyện Mục Gi của mô hình nảy là học được các quy luật chuyển đổi cầu trúc và ý nghĩa tử ngôn ngữ nguồn sang ngôn ngữ đích,

+ Giải mã nguồn: DSi với mỗi câu nguồn cần dịch, hệ thống SMT sử dụng kỹ

thuật tìm kiếm heuristic dé tim địch nghĩa có khả năng xây ra cao nhất trong ngôn ngữ đích 'Quá trình này dựa trên việc tính toán và tối đa hóa điểm số của mỗi dich nghĩa đề xuất dựa trên mô hình ngôn ngữ và chuyển ngỡ, Dịch nghĩ có điểm số cao nhất là đầu ra cuối cũng,

+ Điều chinh mô hình địch: SMT cho phép điều chỉnh các thông số của mô hình dịch

như trọng số của mô hình ngôn ngữ và chuyển ngữ) để nàng cao chất lượng địch bằng cách

và so sinh với dịch nghĩa tham chiếu trong bộ đánh giá Các thông số cho kết qua gin nha

với tham chiếu sẽ được giữ lại

°hepe/Ananeirdmizeeo co

‘tari eno po agow8 3 opic-inegratonswatson-anguagetanlaor

Trang 20

dich (vi du: Tiéng Vigt) cho một câu nguồn /'trong ngôn ngữ nguồn (ví dụ: Tiếng Anh)

dược tiếp cận thông qua việc tối đa hóa phân phối xác suất p(e|£) Để tối đa hóa p(€|ƒ) sẵn áp đụng định lý Bayes để phân tách thành hai phần như phương trình ():

“Trong đốc p(ƒ|£) là mô hình chuyển ng (ransation model), mo tax xuất dé câu nguồn /là bản dịch của câu đích Mô hình này cần được ổi tu hóa

+ p(e) là mô hình ngôn ngữ (language model), cho biết xác suất xuất hiện của chuỗi

tong ngôn ngữ ích, đảnh giá mức độ tôi chây, hợp lý của câ

+ p(/) là xác suất của câu nguồn f, duge coi là hằng số trong quá trình tối ưu hóa

`Vấn đề tối ưu hóa p(€|ƒ) được chỉa nhỏ thành hai bài toán con: học mô hình chuyển ngữ p(ƒ|e) và học mô hình ngôn ngữ /e) Bằng cách giải quyết hai bài toán này, ta có thể tìm ra bản dich tốt nhất bằng cách chọn Z có xác suất p(e|ƒ) cao nhất (phương trình 2)

8 argmax p(elf) = argmax p(fledp(e)ve € e* Phân tích theo cách này cho phép tiếp cân vấn đề SMT dựa trên các kỹ thuật thống

kê và máy học mã không cần phụ thuộc vào các quy tắc ngôn ngữ học phức tạp như trong

hạn chế không gian tìm kiểm nhưng vẫn duy t ất lượng địch thuật ở mức có thể

chấp nhận được, ví dụ như các hệ thống dich máy dựa trên phương pháp thống kê [16],

L7] Nhiều thành phẫn khác nhau cần được điều chỉnh ng bigt, ví dụ: mô hình chuyể ngữ, mô hình ngôn ngữ, mô hình sắp xếp lại, v.x điều này gây khó khăn cho việc kết hợp

chúng lại với nhau và khó đổi mới Kết quả là, chất lượng dịch thuật đã bão hòa đối với

ST và những thay đổi lớn đối với khuôn khổ hiện tại là ắt cằn thiết

Trang 21

“Trong những năm gần đây, lĩnh vực dịch máy đã chứng kiến một cuộc cách mang với sự ra đời của các mô hình địch may mang neural (Neural Machine Translation - NMT),

“Trái ngược với cách tiếp cận truyền thống của địch máy thống kê (SMT) dựa trên mô hình thống kê phải xây dựng các thành phần riêng bigt nw word alignment, language model,

sau: Đầu tiên bộ mã hóa (eneoder) sẽ đọc và biểu diễn câu nguồn dưới dạng vector, sau đó

bộ giải mã (decoder) sẽ xử lý các vector này và sinh ra bản dịch (mô tả như hình 1.2) Toe

là kiến trúc bai tẳng trong đó bộ mã hóa đọc chuỗi câu đầu vào x = (xị, xạ, ,Xy) và bộ giải mã cđự đoán chuỗi mục tiêu = (yy,y¿, u) Theo cách này, NMT giải quyết được vấn đề dịch eue bộ mà SMT gặp phải: nó không chỉ thực hiện dịch từng cụm từ đơn lẻ, Thay vào đó,

sắc sự phụ thuộc ngữ nghĩ lâu dõi trong các ngôn ngữ, ví đụ nh rậtự cấu trú củu chủ

chảy hơn sơ với các phương pháp tru thống dựa trên ngữ pháp và từ vựng Khả năng tổng quát hóa mạnh mẽ của NMT đã làm thay đổi cách tiếp cận dịch máy và mở ra nhiều, khả năng mới cho lĩnh vực xử lý ngôn ngữ tự nhiên

Hình I.2 Kiến trúc mô hình Eneoder - Decoder

Trang 22

là mạng thần kinh ti phát (RNN), cho cả bộ mã hỏa và bộ giải mã [19], (20) Mang RNN

là một kiến trúc học sâu đặc biệt phù hợp để xử lý dữ liệu tuần tự như văn bản, giọng nổi

tìm biểu chỉ tiết về cơ ché hoạt động của RNN ở Chương 3) Tóm lại, hay chuỗi động tác

RANN cho phép ta xây đụng các biểu diễn vector cho đầu vào có độ dài thay đổi trong trường hợp này là các câu - bằng cách sử dụng cầu trúc bộ nhớ động để ích xuất thông tin liên quan từ các phần tử tuần tự trước đó

“Các mô hình xử lý tuần tự [19] (Sequenee-to-Sequenee) ngày cảng được nghiên cứu, sâu rộng trong lĩnh vực địch máy như: LSTM, GRU, RNN, Như trong hình l.3 lấy ví dụ

eụ thể là RNN, các mạng RNN sâu với hai lớp xếp chồng được sử dụng đẻ thực hiện địch máy dựa trên chuỗi: Trước tiên, bộ mã hóa RNN đọc và biểu diễn chuỗi nguồn dưới dạng

một vector ngữ nghĩa Tiếp theo, bộ gii mã RNN sẽ xử ý vector ngữ ngHĩa này và tạo rà chuỗi mục tiêu dịch, mỗi lần sinh ra một ký tự cho đến khi tạo ra một ký tự kết thúc chuỗi đặc bigt Khả năng học và biểu n hệ ngữ nghĩa phúc tạp của RNN giúp NMT wut trội so với các phương pháp địch máy thông kế truyền thông bằng cách nắm bắt được ngữ cảnh đầy đủ của câu nguồn trước khi dịch chứ không phải dịch từng phẩn riêng

lẻ Điều này giúp tạo ra các bản dịch chính xác, tồi chảy và bảo toàn được ngữ nghĩa gốc một cách tối tụ,

Hình 1-3 Kiến trúc mô hình Seq2Seq cho bài toán dich may

Từ kiến trúc Seq2Seq (Sequenco-Sequence) và các mồ hình RNN bạn đầu, một bạn lớn được phát hiện là khả năng xử lý các phụ thuộc xa trong chuỗi dữ liệu RNN phải

Trang 23

truyền thông tin ngữ nghĩa qua nhiều bước trung gian, khiến việc nắm bắt các mỗi liên hệ

ngữ pháp và ngữ nghĩa lâu dài trở nên khó khăn hơn Điều này đã dẫn đến sự ra đời của cor ne" ‘chi " (attention) trong các mô hình Seq2Seq Cơ chế chú ý đầu tiên được giới thiệu

bối Bahdanau [21] đã cải thiện đáng kể hiệu suất các mô hình dịch máy Thay vì phải nén

toàn bộ đầu vào thành một vector ngữ nghĩa đoy nhất, cơ chế chủ ý cho phép mô hình tập

trung vào các phần liên quan của đầu vào khi sinh ra từng phần tử đầu ra Cải tiến này giúp

mô hình học tốt hơn về khả năng xử lý phụ thuộc xa

Một trong những sự thành công của cơ chế chú ý chính là sự ra đời của mô hình

“Transformer được giới thigu boi Vaswani et al, (2017) [22] đã nâng tằm cơ chế chú ý thành then chốt Transformer hoàn toàn loại bỏ kiến trác RNN và thay thé bằng cơ chế tự-chú ý (selFattention) để mô hình hóa trực tiếp các phụ thuộc toàn phẩn trong chuỗi đầu vào, điều này khắc phục được hạn chế xử lý phụ thuộc xa của RNN một cách rệt để Cơ chế tự chú

sinh ra mỗi phần tử đầu ra, thay vỉ hãi truyễn thông in qua nhiễu bước trừng gian Di này giúp Transfomer có khả năng mô hình hóa và nắm bắt tốt hơn các mỗi liên hệ ngữ

Mỗi khối pháp, ngữ nghĩa phức tạp trong câu Kiến trúc then chốt của Transorrner bao gổ

mã hóa (eneoder) và một bộ giải ma (decoder) lap đi lặp lại các khối tự chú chú ý sẽ tính toán sự tương quan và trọng số giữa các từ đầu vào để biểu điễn ngữ nghĩa, sau đồ truyền các iễu diễn này cho các phần tử tiế theo Quá trình này lặp di lập lại qua

nhiều lớp đến khi thu được biểu diễn cuối củng mô tả toàn bộ ý nghĩa đầu vào và đầu ra

Nhờ khá năng học được các iễu diễn ngữ nghĩa sầu sắc từ dữ iệu, Trasfoner đã ghỉ nhận nhiễu thành công nỗi bật, vượt tội so với ác mô hình trước đây trung nhiễu tác vụ

NLP quan trọng như dịch máy, hỏi đáp, tóm tất văn bản Kiển trúc này trở thành mô hình

“ương sống" cho NLP hiện đại và là tiễn đ cho nhiễu công

'BERT[23], GPT3[24], XLNet{25] , Trong nghiên cửu nảy dựa trên kiến trúc mô hình

‘Transformer lim hướng tiếp cận chính trong mô hình dịch máy của tôi

nghiên cứu mới như:

Trang 24

1.41 Các vẫn đề dịch máy

Tuy nhiên, các mô hình NMT này gặp phải một vẫn để cần phải có một lượng lớn huắn

luyện, trong khi một số cặp ngôn ngữ lạ không có từ vựng Vấn đề thưa thới trong Dịch

máy (MT), nguyên nhân chủ yếu là do thiểu đảo tạo, đc biệt biểu hiện ở việc dịch gần các

từ chuyên ngành và từ mới(OOV), ví dụ: các thực thể hoặc biểu thức thuật ngữ lạ khi xảy

mh chưa từng thấy trong giai đoạn huắn luyện [26] Điều này dẫn đến một số trong công việc huấn luyện các bộ thưa thớt, cái thiện hiệu suất dịch vụ trên các bộ này Trude đây, các nhà nghiên cứu đã cố gắng giải quyết vin đề này bằng cách tập trung các

dịch thực thể ong quá tình dịch, chất lượng dịch thuật của các thực thé trong edu có ảnh

hưởng rất lớn đến chất lượng dịch thuật của cả câu Việc địch các thực thể nảy vẫn cỏn

nhiều thách thức [27] và nhiều phương pháp khác nhau được đề xuất để cải thiện việc dịch

các thực thể này [28], [29],

13.2 Tích hợp đồ thị tỉ thức vào mô hình dịch máy

Trong nghiên cứu gần đây, Bojanowski và cộng sự [30] đã đề xuất một phương pháp

trúc và phí cấu trúc (chẳng hạn như văn bản), phương pháp nảy cho phép khai thác và kết nối hiệu quả các thông tin ngữ nghĩa từ cả hai nguồn dữ liệu nhằm nỗ lực tăng cường các

mô hình dự doán Những phương pháp này đã được ứng dụng thành công trong các hệ

Trang 25

nhiên và đưa mì các đỂ xuất phủ hợp

Ngoài ra, một số nghiên cứu đã tích hợp KG vào NMT, trong đó Shi và cộng sự [3]

Để xuất sử dụng trí thức từ các đỗ thị trị thức (Knowledge Graphs - KG) để nhúng ngữ

nghĩa vào mồ hình dịch máy (NMT) Các vectơ ngữ nghĩa quan trọng có thể được trích xuất

từ KG và tích hợp vào quá trình mã hóa hoặc giải mã trong NMT, cải thiện khả năng hiểu

và dịch của mô hình, Lu và cộng sự [39] khai thắc các mỗi quan hệ giữa các thực thể trong

KG để tăng cường kết nỗi ngữ nghĩa giữa các từ trong câu nguồn và câu địch Việc sử dụng,

những thông tin mối quan hệ này cho phép mô hình học được cách biểu diễn và ánh xạ ngữ

nghĩa chính xác hơn giữa cúc ngôn ngữ Long Nguyen và các công sự [40] đã tỉnh by việc

áp dụng kiến trúc transformer dựa trên đô thị (graph-based transformer encoder) kết hợp

translonner và đồ thịt hứcgiúp tăng nh các tham số trong khi vượt trội đáng kể sơ với thưa thốt (lowresouree NMT) Kết quả thực nghiệm chứng mình rằng phương pháp để xuất

Anh-ViệUPháp/Séc Diego Moussallem và các cộng sự [41] đề xuất một phương pháp mới

dể tăng cường hiệu suất của dịch máy thần kinh (NMT) bằng cách tích hợp thông tin từ các

cơ sở trí thức (knowledge graphs) Các tác giá sử dụng một công cụ trích xuất thực thể

(Entity Linking) dé nhận diện các thực thể trong câu nguồn và gần nhãn chúng với các thực

thể tương ứng trong cơ sở tri thức DBpedia Tiếp theo, các vector biểu diễn ngữ nghĩa của

mô hình biểu diễn trí thức TransE Những biểu diễn ngữ nghĩa này sau đó được kết hợp với

biểu diễn từ mô hình NMT gốc thông qua một mạng gated, để làm đầu vio cho bộ giải mã

sinh ra bản địch Toàn bộ hệ thống kết hợp NMT và mô-đun tr thức được huắn luyện đồng

thời Quy trình nảy được họ mô tả như hình 1.4 Kết quả thực nghiên cho thấy phương pháp

này đạt được những củi tiến đáng kể và nhất quản vỀ mức trung bình +3 BLEU, METEOR

Trang 26

“Các nghiên cứu về việc kết hợp đồ tị trì thức vào mô hình dịch máy vẫn chưa tận dung

hết và chỉ tập trung vào các thực thể xuất hiện cả trong KG và trong cặp câu huấn luyện,

nhiều thông tin trong KG không được khai thác một cách tối đa Tiếp theolà

các phương pháp KG hiện ti thường sử đụng thực thể như là mức độ chỉ tết cơ bản, trong

khi NMT lại sử dụng từ phụ làm đơn vị đo chỉ tiết, làm cho sự khác biệt gitta KG va NMT

trở nên rõ rằng Chính vì th ác tác giá tong nghiên cứu [42] đề xuất một phương pháp

mới để tích hợp trí thức từ cơ sở tri thức vào mô hình địch máy thẳn kinh (NMT) thông qua

kỹ thuật học đa nhiệm vụ ở mức độ chỉ tết của các phân đoạn thực thể (sub-entiy

graph) và các cả -âu thành mức độ chỉ tiết của các thành phần con (sub-entities) bằng cách

sử dụng kỹ thuật Byte Pair Eneoding (BPE) chung Diễu này giúp phân tách ác thực thể

thành các phân đoạn nhỏ hơn như danh tử, tính từ, v.v Tiếp theo, họ áp dụng phương pháp

Inge da nim vu (multitask learming) đ kết hợp nhiệm vụ dịch máy với nhiệm vụ suy luận kiến the (knovsledge reasoning) Cy thể, mô hình NMT được huần luyện đồng thời để thục hiện dịch mấy và dự đoán các biểu diễn ngữ nghĩa của các phần đoạn thực thể con tử câu nguồn, giúp tích hợp trí thức từ cơ sở trí thức Với phương pháp này họ đã giải quyết được

Trang 27

và cách xử lý thực thể Trong khí nghiên cứu này chỉ tập trung vào mức độ chỉ tiết của thực nghiên cứu dựa trên nền tảng nảy nhưng có một thay đổi trong việc địch các thực thể này:

bằng cách sử dụng đồ thị tỉ thức ãng cường ngữ nghĩa của thực thể (Chỉ tt ở chương 3)

1.4 Bộ ngữ liệu liên quan

ngôn ngữ Thứ hai, các câu trong ngữ iệu cẳn đảm bao tính tương đương vỀ ngữ nghĩa và

ngữ pháp, tức là câu địch phải tru h xác nội dung của có gốc Thứ ba, ngữ nên bao quát nhiều lĩnh vực và thể loại khác nhau như tin tức, văn học, khoa học kỹ thuật, đối thoại v.v để mô bình có khả năng dịch tốt trong nhiều bối cảnh sử dụng Việc xây dựng,

các bộ ngữ liệu chấ lượng cao đôi hỏi nhiễu công tức của các chuyên gia ngôn ngữ và kỹ,

thuật, Các cập ngữ liêu thường được thủ thập từ các văn bản song song như sách, bo, ải

liệu đã được dịch chuyên nghiệp Sau đó, chúng được tiền xử lý, làm sạch, gióng hàng câu

và kiểm tra chất lượng bởi người địch có tình độ

Với sự bùng nỗ của dữ liệu trên internet và các phương pháp học máy hiện đại, việc

khai thác các bộ ngữ iệu lớn đã giúp các hệ thống dịch máy đạt được những bước tiền vượt

bậc Tuy nhiên, vẫn còn nhiều thách thức trong việc phát triển ngữ liệu cho các cặp ngôn

ngữ được sử dụng hoặc cổ sự khác biệt lớn về cầu trúc, Do đó, nghiên cứu vỀ xây dựng

Trang 28

ngành dịch mấy trong tương lai Semrich và cộng sự [43] đã chỉ a rằng bằng cách sử dụng

của các mô hình dịch máy mang neural Kết quả này gợi mở khả năng tận dụng lượng dữ

liệu đơn ngữ khẳng lỗ có để nâng cao hiệu năng địch máy Bên dưới đây là một vải bộ ngữ liệu song ngữ lớn:

- IWSLT: IWSLT là dất của Intemational Workshop on Spoken Language Translation, mt hoi nghị khoa học công nghệ quốc tẾ hàng năm tập trung vào lĩnh vực ngôn ngữ Nó cung cái su cho nhiều cặp ngôn ngữ như tiếng Anh - tiếng ĐI

‘Anh - tiếng Pháp, tiếng Anh - tiếng Trung, tiếng Anh -

Sng Việt, và nhiều cặp ngôn ngữ

khác Ngoài việc dịch giữa các ngôn ngữ, IWSLT cỏn đẻ cập đến các thách thức khác như:

dich néi-ndi (speech-to-speech translation) dich n6i theo thời gian thu (simultaneous

translation), và dịch đa phương thức (multimodal translation) kết hợp hình ảnh và âm thanh

~ Euraparh: Bộ ngữ liệu này được Koehn giới thiệu lần đầu ign vio nam 2005 44] nó chứa các bản ghi hoi dim của Nghị viện Châu Âu, được địch sang nhiễu ngôn ngữ châu Âu khác nhau Đây là một nguồn ngữ liệu quan trọng cho các cặp ngôn ngữ như tiếng Anh - tiếng Đức, tếng Anh iếng Phip,ếng Anh - tổng Tây Bạn Nha v.v Bộ ngữ liệu này trở

thành một tiêu chuẩn trong cộng đồng dịch máy và được sử dụng rộng rãi để đánh giá hiệu năng của các mô hình mới

Trong nghiên cứu này, sử dụng bộ ngữ liệu TWSLT 15' Englih-Vietnamese là một tập hhgp các đoạn hội thoại song ngữ Anh-Vi thu thập từ phiên địch đồng thời trong Hội nghị

Khoa học Công nghệ quốc tế IWSLT lẫn thứ 12 sẽ diễn ra tại Đà Nẵng từ ngày 03-

04/12/2015 (hình 1.5).

Trang 29

12°TWSLT, Da Nang, 3.-4 December 2015 Hình 1 Hội nghị Khoa học Công nghé q

tẾ WSLT lần thứ 12 tại Đà Nẵng Hội nghị này được ổ chức lần đầu tiên vào năm 2004 và đã trở thành một diễn in quan

thuật mới cho địch máy ngôn ngữ nói

“Xử lý ngôn ngữ tự nhiên cho ngôn ngữ

« _ Nhận dạng giọng nói và phân đoạn lời nói

+ Đánh giá và tạo ngữ liệu cho địch máy ngôn ngữ nói

« ˆ Các ứng dụng của địch máy ngôn ngữ nồi trong thực tế

Hội nghỉ thường bao gồm các phần rình bây bãi báo khoa học, hội thảo chuyên đ, cuộc th dịch máy và giới thiệu ngữ liệu địch mới Các tổ chức nghiên cứu, công ty công trọng để thúc đẫy sự phát tiển dịch mấy ngôn ngữ nổ

Trang 30

“Cơ sở trí thức là một tập dữ liệu điễn hình biểu điễn các sự kiện trong thể giới thực và các mỗi quan bệ ngữ nghĩa dưới dạng bộ ba Khi các bộ ba này được biểu diễn đưới dạng thị trí thức (Knowledge Griphs - KOs) hiện đại thường được biểu diễn theo cấu trúc "bộ

thực

đó, mỗi quan hệ (reaon) đóng vai trỏ là liên kết nối giữa hai thực thể, tiên được gọi la "div" (head) và thực thể thứ bai được gọi là "đuôi" (ai) ví dụ (HaNoi, ty_of, VieINam) (mô tả chỉ tiết ở hình 1.6) Vì môi quan hệ không nhất thiết

captial đối xứng nên hướng của một liên kết rất quan trọng Do đó, một đồ thị thức cũng có thể phải

được xem như một đồ thị có hướng trong đó các thực thẻ đầu trỏ đến các thực thẻ đuôi

thong qua canh cia quan hé [45] Bén canh dé Resource Description Framework (RDF) va thị tì thức [46] [47] Cấu trúc này của đồ thị tì thức có thể được định nghĩa như một bản thể luận (ontolosy), thể hiện các thuộc tỉnh của một miễn cụ th và mỗi liên hệ giữa chúng

Ontology déng vai trỏ quan trọng trong việc cung cấp một khung khái niệm chung va thống

nhất cho việc biểu diễn và tổ chức rỉ thức Nó giúp xác định các lớp, thuộc tỉnh và quan hệ

giữa các khái niệm trong một miền cụ thẻ, tạo ra một ngôn ngữ chung để suy luận và khai

thác trí thức một cách hiệu quả

Trang 31

Hinh 1.6 Vi dy mô tả về đồ thị trì thức

“rong những năm gần đây, vi c xây dụng và khai thác các cơ sỡ tri thức (KGs) đã trở thành một lĩnh vực nghiền cứu quan trọng trong tr tuệ nhân tạo và xử lý ngôn ngữ tự nhiên

‘Vivo nim 2012, Google lẫn đầu tiên đưa ra đồ thị tì thức bằng cách giới thiệu cơ sở trì thức

lớn đỏ thị trí thức đã được phát triển, chẳng bạn như: Y AGO (Yet Another Great Ontology)

[48], WordNet1 [49], Freebase [50], Dbpedia [S1] Việc tạo lập và mở rộng các cơ sở trí thức hiệu quả là một thách thức lớn, đồi hỏi sự kết hợp của kỹ thuật trích xuất thông tin,

xử lý ngôn ngữ tự nhiề, học máy và uy luận logic Nhiễ nghiên cứu đang tập trung vào

việc tự động xây dựng tích hợp và suy luận trên các cơ ở trì thức từ ngữ liệu không cấu

trúc và bán cầu trúc [52] [53] Các cơ sở tri thức này đóng vai trò quan trọng trong các hệ

thống trả lồ câu hỏi, tôm tắt văn bản, hệ thẳng hỗ trợ ra quyết định và nhiều ứng đụng tr

tuệ nhân tạo khác Hình 1.7 minh họa lược đồ của các dòng nghiên cứu phổ biển nhất liên

«quan đến đồ thịt thúc, Trong phần này, tôi sẽ giới thiệu các lĩnh vực này bao gằm cổ cả

việc dịch máy và nhắn mạnh những hạn chế của chúng nhằm đưa ra những hiểu biết hữu ích về những thách thức chính của đồ thị tỉ thức,

Trang 32

=

Hình 1.7 Các nghiên cứu, lĩnh vực ứng dụng đồ thị tr thie

~Nhúng đồ thị trì thức (Knowledse Graph Embedding = KGE): là một hướng nghiên cứu quan trong trong xử lý và tận dụng đồ thi tr thie KGE nhằm mục đích biểu điển các

thực thể va mối quan hệ trong đồ thị trì thức dưới dạng các vector trong không gian có chiều

thấp, sao cho các vector này nắm bắt được ngữ nghĩa và cu trúc của đồ th tỉ thức một

cách hiệu quả [54] Các vector đặc trưng thu được từ quá trình nhúng này có thể được sử:

cđụng làm đầu vào cho các mô hình học mây, giúp củi thiện hiệu suất trong nhiề tắc vụ như

phân loại, gom cụm, hay dự đoániên kết Có ba phương pháp chính đổ thực hiện KGE dựa

trên cầu rác bộ ba của đồ thị [54]

+ Phương pháp đựa trên phân tích tensor (Tensor Factorization-based Methods)

"Phương pháp nảy xem đồ thị trí thức như một tensor bậc ba vả sử dụng các kỹ thuật phân

tích tensor để học các biểu diễn vector cho các thực thể và quan hệ Một trong những

biểu diễn vector Các phương pháp khác như DistMult [56] vi ComplEx [57] cũng đã được đề xuất để cải thiện hiệu suất và khả năng mô hình hóa các mỗi quan hệ phúc tap

Trang 33

+ Phuong phip dua tn m6 hinh dich (Translation-based Methods): Phuong phip niy

mô hình hỏa các mỗi quan hệ như các phép dich trong không gian vector, từ đồ học các

vector đuôi (tail) TransE [49] là một trong những phương pháp tiên phong trong nhóm nảy,

sử dụng một hâm mắt mát đơn giản để họ các embedding Các phương pháp mở rộng như

‘TransH [58], TransR [59], và TransD [60] đã được đề xt

“ransE và cải thiện khả năng mô hình hóa các mỗi quan hệ phức tạp Gần đây ất để giải quyết các hạn chế của sic phường pháp hur RotatE [61] vi Quaté [62] da két hgp cdc php biến đổi trong Khong ian complex

‘va quaternion để nâng cao hiệu suất của KGE,

+ Phương pháp dựa trên mang neural (Neural Network-based Methods): Phuong phip

nảy sử dụng các kiến trúc mạng neural như mạng neural tích chap (CNN), mang neural héi

quy (RNN) để học các biểu diễn vector cho các thực thể và quan hệ Các phương pháp như

thức thống nhất Quá trình này đồi hỏi giải quyết các vẫn đề như đồng tham chiếu thực thể

(entity coreference), hợp nhất và làm sạch dữ liệu, cũng như xử lý sự không chắc chắn và

mâu thuẫn trong tr thức Các phương pháp như entity linking, data fusion, wi đồ th xác hiên, một lượng lớn tỉ thức vẫn tổn tụi dưới dạng phĩ cầu trúc, chẳng hạn như trong các

này, các phương pháp trích xuất thông tin như trích xuất thực thể, trích xuất mỗi quan hệ,

và tích xuất thuộc tính đã được phát tiễn [66] [671

Trang 34

tông hợp kiến thức (Knowledge Fusion): là một hướng nghiền cứu quan trọng trong lãnh vục đồ thị tỉ thức, tập trung vào việ thu thập và tích hợp trí thức từ nhiễu nguồn khác nhau để xây dựng và hoàn thiện đồ thị rỉ hức Mục tiêu chính của tổng hợp kiến thức là tạo ra một biểu diễn tri thức thống nhất, toàn diện, và chính xác bằng cách kết hợp thông

tin từ các nguồn dữ liệu đa dạng, bao gồm cơ sở dữ iệu, omtoloy, và các đồ thịt thức

khác nhau Entity alignment [68] là một phương pháp chính để thực hiện các nhiệm vụ tổng

hap kiến thức Endiy alienment nhằm mục dich xác định các thực thể tương đương giữa

các đồ thị trí hức khác nhau, từ đó tạo ra các liên kết giữa chúng Việc thực thi nay cho

phép kết hợp và liên kết trí thức từ nhiều nguồn, iúp tạo ra một đổ thị tì thức thống nhất

và toàn điện hơn

~ Hoàn thiện đồ thị trí thức (Knowledge Graph Completion): là một hướng nghiên

cứu quan trọng nhằm củi thiện chất lượng và tỉnh đầy đủ của các đồ thị tỉ hức hiện có

Mặc dù đã có nhiều nỗ lực trong việc xây dựng các đồ thị trí thức, việc tạo ra một biểu diễn

toàn diện chứa đựng tắt cả các tr thúc trong một lĩnh vực cụ thể vẫn là một thách thức lớn Hẳu hết các đồ thị tị thức th

tại đều thiếu một lượng lớn thông tin về các thực thể và mỗi

sự Không đầy đủ và hạn chế trong việc áp dụng chúng vào thực tiễn Mục

cquan hệ, dã

tiêu chính là bổ sung và lầm giã đồ thị thức bằng cách dự đoán các mỗi quan hệ và thực

thể còn thiểu, để thực biện được việc này bao gồm hai bước chính:

-+Dự đoán liên kết (Link Prediction);

lêm vụ này lập trung vào việc dự đoán các mỗi

quan hệ mới giữa các thực thẻ biện có trong đỏ thị tri thức Các phương pháp dự đoán liên

kết thường sử dụng các kỹ thuật học mây và khai phá dã liệu để m ra các mỗi liên hệ iểm

va RotatE di được áp dụng thành công trong việc dự đoán các mồi quan hệ mới và tạo ra

các bộ ba (triple) bổ sung cho đỗ thị rỉ thức

+Dự đoán thực thể (Entity Prediction): Nhiệm vụ nảy tập trung vào việc thu thập và tích

hợp thông tin về các thực thể mới từ các nguồn dữ iệu bên ngoài đ bổ sung vào đồ thị tỉ

Trang 35

đỗ th trí thức [59], 69] Bên cạnh đó, việc sử dụng các nguồn trí thức bên ngoài như văn

"bản phí cấu trúc, cơ sở dữ liệu và các đồ thị trì thúc khác cũng đóng vai trò quan trọng trong

nghiên cứu quan trọng nhằm mục đích làm giảu và mở rộng đồ thị trí thức bằng cách suy

a các sự kiện và mỗi quan hệ mới dựa trên dữ liệu hiện cỏ [70] Quá nh này giáp khám

các ứng dụng như trả lời câu hỏi, hỗ trợ ra quyết định, và hệ thống gợi ý Một trong những

mục tiêu chính của suy luận trên đồ thịt thức là phát hiện các mỗi quan hệ mới giữa các

thực thể chưa được kết nối trực tiếp với nhau Thông qua việc khai thác các mỗi quan hệ

và quy luật iềm ân trong dữ liệu, các phương pháp suy luận có thé tao racic ba ba (tiple) khám phá mỉ thức mới, suy luận trên đồ thị tr thức cũng cố khả năng xác định và loi bỏ

chất lượng và độ tin cậy của đồ thị trì thức

~ Ứng đụng trong hệ thẳng AI (AI systems): Trong thời dại công nghệ phát triển như

hiện nay, đồ thị tri thức (knowledge graph) đã trở thành một thành phần không thể thiểu

trong nhiễu hé thing trí tuệ nhân tạ (AI) hiện đại [71] Đỗ tị trì thức cung cấp một lượng

lớn thông tin có cấu trúc, bao gồm các khái niệm, thực thể và mối quan hệ giữa chúng, tạo

ề img đụng AI như hệ thống gợi ý, hộ thông hỏi đáp vã công cụ

truy xuất thông tin

+ Hệ thống gợi ý dựa trên đồ thị tri thức (Knowledge Graph-based Recommended

systems): Trong hệ thống này đồ thị mỉ thức đóng vai trồ quan trọng trong việc cải thiện

chat lượng và tính cá nhân hóa của các đẻ xuất Bằng cách khai thác các mối quan hệ giữa

người đùng, sản phẩm và các thực thể liên quan trong đồ thị tr thức, hệ thẳng gợi ý có thể

hiểu rõ hơn vẻ sở thích, nhu cầu và hành vi của người dùng, từ đó đưa ra những gợi ý phù

Trang 36

A hg thống có thể gợi ý các bộ phim khác có diễn viên Á tham gia dựa trên mỗi quan hệ giữa diễn viên và phim trong đồ thị tỉ thức [73],

+ Hệ thống hỏi đáp (question-answering systems): Đối với hệ thống hỏi đáp, đỏ thị trí

thức là một nguồn tì thức quan trong dé tr òi các câu hỏi của người dùng một cách chính

xác và đầy đủ, Bằng cách ánh xạ các thành phần của câu hỏi vào các thực thể và mối quan

hệ tong đỗ thị tị thức, bệ thống có thể ìm kiếm câu trả lời phủ hợp dựa trên suy luận và

kết nồi tỉ thức Viết kết hợp đồ thị tỉ thức đã giúp hệ thống giải quyết các vấn đề khó khăn

"khi phải tìm kiế

hạn chế khi áp dụng đồ thịt thức cho hệ hổng hỏi đáp như: chất lượng dữ liệu đồ thị còn câu trả lời từ một lượng lớn dữ liệu phi cau trúc Tuy nhiên vin con al

nhiều hạn chế phải cần chuyên gia dé có thể xử lý giúp cho hệ thống trả lời chính xác câu

hỏi, suy luận từ đồthị thúc cần một kỹ thuật phức tp 74 [75]

+ Hệ thống truy xuất thông tin (Information Retrieval): Truy xuất thông tin là một lĩnh

‘ve quan trọng trong khos học my tỉnh, tập trong vo việc tìm kiếm và uy xuất các ti

liệu phù hợp với nhu cầu của người dùng từ một tập hợp lớn dữ liệu [76] Mục tiêu chính

sửa các hệ thống IR là khớp các truy vấn của người đùng với c tàiliệu có liên quan, chẳng

bạn như các trang web, bài ảo, hoc ti liệu văn bản Do các công cự tìm kiểm truyéa

thống chủ yếu dựa trên việc khớp từ khóa giữa truy vắ và tài liệu, chúng thường gặp khó

khăn tong việc hiểu và giải tích ý nghĩa ngữ cảnh của văn bản Kết quả là, tìm kiếm đựa

trên từ khóa thường cho kết quả hạn chế và không đáp ứng được nhu cầu thông tin thực sự

của người dùng, Để giải quyết những thách thức này, nhiều nghiên cứu gẳn đây đã tập trung thống IR (77) [78]

-Ứng dụng trong các lĩnh vực khác: Không chỉ gói gọn trong các ứng dụng trí tuệ

nhân tạo như trả lời câu hỏi hay tom tắt văn bản, đồ thị trí thức còn được áp dụng rộng rải

trong nhiều ngành công nghiệp khác, mang lại những giá t gia tăng đáng kể Đồ thị tỉ

Trang 37

4qua, mera nhiu ca hoi ting dung rong các lĩnh vực khác nhau.Trong phẫn này tôi chỉ tập trung phân tích những inh vive được ứng dựng nhiễu như: Y tổ, mạng xã hội và giáo đục

“Trong linh vục y học, các Knowledge Graph đồng vai trở quan trọng trong việc quản lý

và tích hợp dữ liệu y tế Chúng được sử dụng đẻ xây dựng hệ thống y tế thông minh, hỗ trợ

sắc bác sĩ trong chân đoán và điều trị bệnh, Vĩ dụ, các Knowlede Giaph có thể lưu trữ thông tin về các bệnh, triệu chứng, thuốc men, cách điều trị, và mối liên hệ giữa chúng [79], Điều này giúp các bác sĩ có thể truy vấn và suy luận dựa trên các mỗi liên kết để đưa ra

những quyết định y tế chính xác hơn Trong ngành giáo dục, Knowledge Graph duge sit

dung để xây dựng các hệ thống tư vẫn học tập, đề xuất các khóa học phù hợp, hoặc hỗ trợ Việc tao ra các ti nguyên giáo đục tủy chỉnh cho từng học sinh Cée Knowledge Graph của học sinh, tờ đó đưa ra những gợi ý và hưởng dẫn học tập hiệu quả Nhiều nghiên cứu Một số ứng dụng đựa trên đồ tị tr thức hỗ trợ quá tình giáo dục, đặc biệt tập trung vào mạng xã hội như Facebook và Ttuiter đã tở thành một bộ phận không th tách rời rong

xã hội mở ra những cơ hội mới để hiểu rõ hơn về hành vi, mỗi quan hệ và tương tác của

Trang 38

son người trên không gian âo, Điễu này không chỉ mang lại lợi ích cho các doanh nghiệp phát tiển xã hội số Ví dụ như việc trích xuất mỗi quan hệ xã hội ỗ trợ các công ty theo

dõi người dùng và nâng cao trải nghiệm người dùng Vì vậy, nhiều công trình được dành

cho việc khai thác các mỗi quan hệ xã hội Wang và cộng sự [81] để xuất mô hình suy luận

đồ thị để nhận ết các mồi quan hệ xã hội của con người trong một bức ảnh được đăng trên các trang mạng xã hội

Trang 39

“Chương này sẽ trình bày lẫn lượt tổng quan các phương pháp dich miy mang neural

"Đồng thời ong từng phương pháp, tôi cũng nêu ra khái niệm cũng như ưu-khuyết điểm về

một số thuật toán, kiến trúc mô hình tiêu biểu để làm cơ sở chọn lựa mô hình phủ hợp với

ngữ tự nhỉ mấy, ôm tắt văn bản và trả lời sâu hỏi Ý tưởng cố lõi của Seq2Seq

là sử đụng hai mạng neura hồi quy (RNN) để mô hình hóa quá trình biển đổi từ một chuỗi

dau vào sang một chuỗi đầu ra có độ đài khác nhau

Mang thin kinh tái phát (Recurrent Neural Network - RNN) [S2] được Elman giới thiệu lin đầu tiên nằm 1990 là một kiến trúc mạnh mẽ và linh hoạt, đã được áp dụng thành công

trong nhi tác vụ xử lý dữ liệu tuần tự như mô hình hỏa ngôn ngỡ và địch máy thần kính

Khác với các mạng neual truyền thống chỉ có khả năng xử lý dữ iệu đầu vào độc lập, RNN

có thể xử lý chuỗi dữ liệu với độ dài thay đổi bằng cách sử dụng bộ nhớ Về mặt cấu trúc,

RNN nhận đầu vào là một chuỗi các vetor xụ xạ, zụvà xử lý chúng tu tự từng phần tử dđựa trên đầu vào hiện tại và trạng thi ấn trước đồ h1 Trạng thải n h có thể được coi là

biểu di ngữ nghĩ tích luỷ cho đoạn chuỗi đầu vào tử bước 1 đến bước t Bị quyết

trọng nằm ở công thức lặp li (reeurenee relation) xác định cách cập nhật trạng th RNN Dé áp dụng mạng thần kinh ái phát (RNN) cho việc xử lý các câu trong ngôn ngữ, hoặc những chuỗi ký tự rời rạc nói chung, một phương pháp phổ biến là sử dụng biểu điễn

tử trong từ vựng ([V) với V là ừ vựng đang xét, trong đố chỉ có một thành phần của vector

bằng Ï tại vị trí tương ứng với từ trong từ điễn, còn lại đều bằng 0 Tuy nhiên, với một từ

vựng lớn, việc sử dụng biểu diễn này gặp vẫn đ n đến ma trận

Trang 40

tổ, người ta thường sử dụng biển Šn vector những chiều thấp (dense low-dimensional xepresenitions) hoặc nhúng từ (word embeddings) cho các từ Cụ thé, ma trận nhúng H €

IR%«*lf được sử dụng để ánh xạ mỗi từ +; trong từ vựng V thành một vector nhúng x, €

IR với di là chiều cũa vector nhúng, Những biễu diễn này giúp giảm chỉ phí tính toán và củng cấp khả năng bi an sự tương đồng ngữ nghĩa giữa các từ Thông thường, các phần

nhúng từ được học từ ngữ liệu lớn và sẵn sàng sử dụng cho các mô hình ngôn ngữ tự nhiên như RNN, giúp cái thiện hiệu suất và chất lượng của mô hình Hình 2.1 mô tá kiến trúc mô hinh RNN đảnh cho ngôn ngữ

coy 3 lš| lš l§| |g

wo 8 ig) Bk |e

Hình 2.1 Kiến trúc mô hình RNN áp dụng cho mô hình ngôn ngữ

Trong kiến trúc mồ hình Seq2Seq [19] với RNN, vai trò của encoder là nền toản bộ

chuỗi đầu vào thành một veetor duy nh Tuy nhiên, việc này gặp khó và phát sinh vẫn đề

"botleneck" khi encoder phải nén toàn bộ thông tin của chuỗi đầu vào dai vio mot vector biểu diễn duy nhất Điều này dẫn đến nguy cơ mắt mát thông tin và lảm giảm hiệu suất của

mô hình, đặc biệt là với các chuỗi đầu vào dài Hơn nữa, decoder chỉ nhận được một vector

biểu diễn duy nhất của toàn bộ chuỗi đầu vào, trong khi tại mỗi bước thời gian, các phần

khác nhau của chuỗi đầu vào có thể có ý nghĩa khác nhau Vì vậy, trong mô bình hiện ti,

Ngày đăng: 30/10/2024, 07:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN