Chương này giới thiệu tổng quan về đề ải gồm các nội dung như: lý do chọn để tải, mục tiêu nghiên cứu, đối tượng và phạm vĩ nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực t
Trang 1KHOA CONG NGHE THONG TIN
B35 TP ĐỘ CHÍ
LÊ CÔNG TRÍ
DỊCH MÁY MẠNG NEURAL ANH-VIỆT SỬ DỤNG
ĐỎ THỊ TRI THỨC
KHÓA LUẬN TÓT NGHIỆP
TP HÔ CHÍ MINH - NĂM 2024
Trang 2DỊCH MÁY MẠNG NEURAL ANH-VIỆT SỬ
DUNG DO TH] TRI THUC
CHUYÊN NGÀNH: KHOA HOC MAY TÍNH
KHOA LUAN TOT NGHIEP
NGƯỜI HƯỚNG DAN KHOA HQC:
TP.HCM ~ NAM 2024
Trang 3‘Toi xin cam đoan luận văn "Dịch máy mang neural Ảnh-Việt sử dụng đồ thị trì thức" là công trình nghiên cứu của nhóm chúng tôi, được thực hiện đưới sự hướng dẫn của
‘Thay ThS Trần Thanh Nhã, thầy ThS Nguyễn Phương Nam, thầy TS Nguyễn Hồng Bữu Long Các kết quả nêu trong luận văn là trung thực và nội dung luận văn không có sự sao chép từ các tải liệu hay công trình nghiên cứu khác mả không ghi rõ nguồn trong phần tải liệu tham khảo
Tôi xin chịu trách nhiệm về lời cam đoan này,
Thành phố Hỗ Chỉ Minh, ngày 07 thắng 04 năm 2034
Trang 4Lời đầu ti „ tôi in gũi lồi t ân sâu sắc đến Thấy ThS, Trần Thanh Nhã, Thấy
ThS Nguyễn Phương Nam và Thầy TS Nguyễn Hồng Bửu Long - những người thầy đồng
hảnh cùng tôi trong suốt hành trình nghiên cứu và thực hiện luận văn này Sự tận tâm và
Kiến thức sâu rộng của các Thầy đã là nguồn động viên lớn lao, giúp tôi vượt qua những
thách thức và hoàn thành công việc của mình Tôi cũng không thể không bày tỏ lòng biết
cơn chân thành đến các thấy cô giáo tại Trường Đại học Sư phạm Thank phd 16 Chi Minh, Những bài học quý báu mà quý thầy cô đã tuyễn đạt không chỉ là kiến thức chuyên môn
mà còn là những phẩm chắt tất đẹp, là nền ng vũng chắc giúp ti phát tiễn và tiến bộ
trong sự nghiệp và cuộc sông
“Cuối cùng, tôi muốn gửi lời cảm ơn chân thành đến gia đình, bạn bè và những người thân yêu Sự ng hộ và động viên từ các bạn bê và gia định là nguồn động lực lớn lao, giúp tôi vượt qua mọi khó khán, điều này thật sự quý báu và không thể đong đếm bằng lời
"Những người này đã luôn đồng bành, chia sẻ và động viên tôi trong suốt quãng thời gian
học tập và làm việc, và tôi sẽ mãi mãi ghỉ nhớ và trân trọng điều đỏ Xin chân thành cảm on!
“Thành phố Hồ Chí Minh, ngày 07 tháng 04 năm 2024
Trang 5LỜI CAM ĐOAN,
Đối trợng và phạm vỉ nghiên cu 9
`Ý nghĩa khoa học và thực tiễn ° CCấu trú của khóa luận 9
'CHƯƠNG 1: TONG QUAN NGHIEN CUU „1
1.3 _ Các phương pháp cái tiến địch máy mạng neuil - 2
1.3.1 Cae van de dich may 22
1232 Tích hợp đồ thị tỉ thức vào mổ hình địch máy, 2
25 +
142 Bộ ngữ liệu đồ thị tì thức 28 'CHƯƠNG 2: CƠ SỞ LÝ THUYÉT
Trang 63.3.4 M6 hinh dich máy mạng Net
CHUONG 4: THỰC NGHIEM VA DAN
41 Cai acm rng 4.11 Thigt bj hud ly tye niin 70 T0
412 Ngôn ngữ lập trình 70 41.3 Clu hinh huân luyện Tô 4.124 Phương thức đảnh giá 1
43 — Đảnhgiávàphẩntieh 4.3.1 Đánh giá mô hình khi có thức : n n 43.2 Phin ch ảnh hướng độ đài câu lên hiệu suất T CHUONG 5: KET LUAN VA HUONG PHAT TRIEN
Trang 7DANH MYC CHU VIET TAT
Chữ viết tắt Ý nghĩa
Bilingual Evaluataton Understudy
‘Byte Pair Encoding International Workshop on Spoken Language Transaltions
‘Next Sentence Prediction Positional Encoding
Trang 8Bang 3.1 Thống kê số lượng data bộ ngữ liệu IWSLT”LS ăn 4] Câu hinh ei i qu nh hun hyện môình Bảng 42 Kết quả
Bảng 43 Kế q định gi nà nh vn lấy ngữ lậu cũ độ đủ âu hức nhay
Trang 9ĐANH MỤC HÌNH ẢNH
Tình | Quá tỉnh phú tiến ch máy inh Eneoder - Deco
lô hình Se2Seq cho bài toa dich may Hình T2 Kiện ắc mỗ hình KƠ NVẾ (41
Hình L5 Hội nghi Kho họ Công nghệ quốc lý TWSLT ần thứ 12 Ba Nang
‘inh 1.6 Ví dụ mô tả về dò thị t
Hình L7 Các nghiên cứu, inh vục ng dụng đồ ti 0í thức Hình L.§ Ví dụ về đ thị trị thức rong mạng xã hội và tế Trình 2 1 Kiến rác mô hình RNN ấp dụng cho mô hình ngôn ngữ Hình 2.2 Cách Hình 2.3 Kiến trúc mô hình Transformer [22] hoạt động của cơ chế chú ý'
Hình 2.4 Input embedding biến c
Hình 2.5 Veetor từ được bỗ sung thêm thông tỉn vị tỉ tử Poxitonal Encođing Hình 2.6 Quá trình tỉnh toán của Sel-atuention
Hình 2.7 Vector Q, K, V sau được nhân với ma trận trong số tương ứng, Hình 2 8 Vid vé oh hij Hình 29 Sự khỉ cổ residual và khi không có (elt©) Hinh 210 Rien te mo hish BERT
inh 2.1 Lip Embedding Layer tong nh BERT nh 3.1 Nat iu sau Kg be im seh Hìn
Hin 35 Cc syne up chuyên hình ác
Hình 3.6 Mô tà về ổ chức Tình 3.7 Kien ức mộ nh đch máy mọngheuni sảng đồ ủi ức đồ thịt thị
Hình 4.1 Tập ngữ liệu kiêm tra khi được dịch bởi mô hình đề xuất Hình 4.2 Câu dịch được sinh ra một các tự nhiên hơn so với câu nguồn Hình 4.3 Biểu đỏ biêu thị mức độ ảnh hưởng độ dài câu đến diém BLEU
Trang 10
Lý do chọn để tài
'Với sự phát triển nhanh chóng của khoa học và công nghệ, tién trình hội nhập quốc tế
của Việt Nam được triển khai tích cực đầy mạnh quá trình toàn cầu hóa, hội nhập sâu rộng
với khu vực và thể giới Xu hướng toàn cầu hồa, hội nhập quốc tế mang đến những cơ hội
to lớn chưa từng có cho nước đang phát triển Đồng thời cũng đặt ra thách thức buộc các
nước phải chuẩn bị kĩ lưỡng trước khi bước vào sân chơi rộng lớn này Một trong những
u tổ cần có đó chính là chuẳn bị cho mình một hành trang trì thức, việc trao dồi thêm một
ngoại ngữ là có thêm một cánh cửa hội nhập với thể giới bên ngoài Do đó việc một mô hình dịch thuật nhanh chóng, chính xác, không làm thay đổi ý nghĩa là yêu cầu rất cấp thiết không chi trong giao tiếp cơ bản mà còn là chia khoá mở cánh cửa vào thể giới Xhoa học và trí thức của nhân loại Hiện nay có nhiều công cụ địch thuật thương mại nỗi
hỗ trợ hơn 10 cặp ngôn ngữ phổ biển như Anh-Pháp, Anb- Trung, Anh-Nhật
Mặc di dịch máy sử dụng mạng nơ rơn đã đạt được thành công đáng kể trong nhiệm
vụ địch máy, nhưng nó đồi hỏi một lượng lớn đào tạo Củng với sự khan hiểm , các từ
khong có từ vựng, chủ yếu là các thực thể và biểu thức thuật ngữ, đặt ra một thách thúc khó
khăn cho các hệ thống Dịch máy mạng neural [2] Do đó tôi đề xuất việc tích hợp đồ thị trí thức (Knowledge Graph) vio qua trinh dich may nhim cai thign higu suit va gidm áp lực
về mặt cho mô hình NMT
Mye tiêu nghiên cứu
Xây dựng mô hình dịch máy tự động bằng mạng neuril ích hợp đồ thị tr thức vào
cquá trình dịch
"apr desl con!
>hdpe/lmwn andes om
Trang 11Đổi tượng nghiên cứu: từ các văn ban và sách song ngữ
Phạm vi nghiên cứu: Dịch máy mạng neural trtiéng Anh sang tiếng Việt
~ _ Nghiên cứu kỹ thuật xây dựng bộ ngữ liệu đồ thị trì thức cứu cơ sở lý t liên quan đến đ
~_ Nghiên củu kỹ thuật dịch mây mạng neuni tích hợp đồ thịt thức,
~_ Đề xuấthướng phát iển ong tương ai
Phương pháp nghiên cứu thực nghiệm:
~ _ Thu thập, xây dựng bộ ngữ liệu đáp ứng yêu cầu bài toần
~ _ Tiến hảnh xây dựng mô hinh
~ ˆ Đánh giá và so sánh kết quả đạt được
_Ý nghĩa khoa học và thực tiễn
Nghiên cứu này đề xuất một phương pháp mới kết hop tr thức từ đồ thị vào quá ình dich may neural, mở ra hướng nghiên cứu mới vẻ khai thác trỉ thức đẻ cải thiện hiệu suất địch, VỀ mặt thục tiễn, mô hình địch mấy tích bợp đồ tị t thức cổ thể được tiển khai
trong các ứng dụng thực tế để cải thiện chất lượng dịch, vượt qua rào cản ngôn ngữ, thúc
đẫy giao tiếp và hợp tác quốc tế Phương pháp này cũng mở ra iểm năng ứng dụng cho các
bài toán xử lý ngôn ngữ khác như tóm tắt, trả lời câu hỏi và sinh văn ban, Cấu trúc của khóa luận
Dựa vào những mục tiêu đã trình bày, nội dung của khóa văn được chia thành các phần sau: Chương mỡ đầu:
Trang 12Chương này giới thiệu tổng quan về đề ải gồm các nội dung như: lý do chọn để tải, mục tiêu nghiên cứu, đối tượng và phạm vĩ nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn cũng như cấu trúc chung của đề ải
Chương I: Tổng quan nghiên cứu
Chương này giới thiệu tổng quan trình hình nghiên cứu trong lĩnh vực địch máy, giới
thiệu về các tập dữ liệu tiêu chuẩn đang được các nhà nghiên cứu sử dụng, trình bảy các
phương pháp học sâu vả những công trình tiêu biễu tương ứng với tìng phương pháp Chương 2: Cơ sở lí thuyết
Chương này chúng lôi sẽ trình bảy lẫn lượt tổng quan các phương pháp dịch máy Đồng thời trong từng phương pháp, chúng tôi cũng nêu ra khái niệm cũng như tu-khuyẾt điểm về một số thuật toán, kiến trúc mô hình tiêu biểu để làm cơ sở chọn lựa mô hình phù hợp với
Chương 3: Phương pháp đề xuất
Trình bây chỉ iết phương pháp mà chúng tôi sử dụng trong dịch máy Anh: Việt Phương pháp chính là tich hợp đồ thịt thức vào mô hình dịch máy mang neural
Chương 4: Thực nghiệm và đánh giá
Chương này so sánh và đánh giá kết quảđạt được khi thục hiện chương trình với một
số pre-trained model trên tập ngữ liệu Anh-Việt và các tập ngữ liệu song ngữ khác
Chương 5: Kết luận và hướng phát triển
“Tổng kết lại kết quả đã đạt được và chưa đạt được sau quá trình nghiên cứu, tiền hành
thực nghiệm Từ đó nêu lên những hướng nghiên cứu và phát triển tiếp theo trong tương lai
48 nâng cao hiệu suất địch thuật cũng như để khắc phục các hạn chế hiện ti
Trang 13
CHƯƠNG ‘ONG QUAN NGHIEN
1-1 Tổng quan a tit
Dịch may (Machine Translation) li mt bai ton quan trong trong lĩnh vực xử lý ngôn
ngữ tự nhiên (NLP), với nhiệm vụ chính là đạy cho máy tính có khả năng học và địch tự
động một văn bản từ ngôn ngữ nguồn sang ngôn ngữ dịch mà không cần sự can thiệp của
con người vào quá trình dịch Đây là một thách thức lớn bởi sự đa dạng của các ngôn ngữ:
ngôn ngữ đều có cấu trúc ngữ pháp, ngữ nghĩa và cách biểu đạt riêng biệt Khả năng dich thuật giữa tên thể giới, Hiện nay có hơn 7000 ngôn ngữ khe nhau đang được sử đụng,
sắc ngôn ngữ này một cách chính xác và tồi chảy là mục tiêu then chốt của dịch mấy Đạt
thie day sy giao lưu văn hỏa và hợp tác trên phạm vỉ toàn cầu Ngoài ra, địch máy còn mở
xa nhiều ứng dụng thực ế quan trọng khác như dịch tài liệu, phụ đề phim, website đa ngôn ngũ, hỗ trợ giao tiếp qua biên dịch giọng nói,
Do tim quan trọng to lớn đó, dịch mấy luôn được coi là một trong những lĩnh vực nghiên cứu trọng điểm và được đầu tư mạnh mẽ nhân lực cũng như tài chinh trong NLP
kỹ khác nhau, từ dịch mấy dựa trên quy tắc (RBMT), dịch máy thống kế (SMT) đến dịch may mang
nhưng ban đầu các nhà nghiên cứu đã tận dụng từ điễn và sử dụn: được tạo ra bởi chuyên gia để sắc định nghĩa chính xác của các t Tuy nhiễn, cách tiếp cận nảy gặp hạn
chế li không thể phát triển một hệ thông luật hoàn chinh cho tắt cả các ngôn ngữ có sẵn
Đến những năm 1990 mô hình địch máy thống kê xuất hiện, mô hình này sử đụng một kho
ngữ liệu song ngữ được thu thập bởi các chuyên gia ngôn ngữ trong quá trình huần luyện
Trang 14cu thế mã chúng được áp dụng [3], [4]
! |
h 1.1 Quá trình phát triển địch máy
1.2.1 Dịch máy dựa trên quy tắc
Dịch máy dựa trên quy tắc (RBMT) là hệ thống địch máy đâu tiên và dựa trên thông tin ngôn ngữ về ngôn ngữ nguồn và ngôn ngữ đích về cơ bản được lẫy từ từ điển và ngữ
pháp bao gồm các quy tắc về ngữ nghĩa, hình thấi và củ pháp chính của từng ngôn ngữ
tương ứng [5] Nguyên lý hoạt động của nó dựa trên việc sử dụng các quy tắc ngôn ngữ học
sự thể để bigu diễn kiến thức về ngôn ngữ nguồn và ngôn ngữ địch Quả trình dịch máy
RBMT diễn ra theo từng bước sau:
+ Phân tích ngôn ngờ nguồn: Quá tình này bắt đầu với một văn bản đầu vào, được tiền xử lý bằng cách tích từ, ấn nhân từ loại và phân đoạn câu Sau đó, vấn bản được phân
tích cú pháp đẻ xác định các thành phần câu và mỗi quan hệ cú pháp giữa chúng, dựa trên
suy ắc ngữ pháp của ngôn ngữ nguồn Tiếp theo, phân ích ngữ nghĩa được thực hiện để xác định ý nghĩa của các từ và cụm từ, dựa trên từ điển ngữ nghĩa và quy tắc ngữ nghĩa của
ngôn ngữ nguồn Kết qua là một biều diễn ngữ nghĩa-cú pháp độc lập với ngôn ngữ nguồn
+ Chuyén tai (Transfer): Bigu didn gtr nghia-ci phap của ngôn ngữ nguồn được chuyên đổi sang biểu diễn trung gian không phụ thuộc ngôn ngữ bằng cách áp dụng quy khác nhau giữa ngôn ngữ nguồn và ngôn ngữ đích như trật tự từ, đảo ngữ, số [sổ nhu,
Trang 15+ Tổng hợp ngôn ngữ đích (Target Language Generaion): Từ biễu diễn trung gian, suy tắc ngữ pháp và ngữ nghĩa của ngôn ngữ đích được ấp dụng để ạo ra biểu diễn ngữ
nghĩa-cú pháp của ngôn ngữ đích Biểu diễn này sau đó được sử dụng để tổng hợp văn bản
đầu m bằng ngôn ngữ đích thông qua các bước như xây dựng cụm từ và diễn ngữ hoá các thành phần đầu ra cuối cũng
'Có ba phương pháp tiếp cận dịch máy dựa trên quy tắc sau: phương pháp trực tiếp
(Đirset Method), phương pháp chuyển đổi (Transisr Method) và phương pháp Inleringua Phương pháp trực tiếp: Là phương pháp dịch từng từ rong văn bản nguồn thành
từ trong văn bản đích Nó đòi hỏi phân tích hình thái một cách rõ rằng nhưng cl cần một chút phân tích củ pháp và ngữ nghĩa
Phương pháp chuyển đối: Đây là phương pháp phỏ biến nhất trong RBMT, Trong
phương phip này, ngôn ngữ nguồn được chuyển đổi thành một biểu diễn trừu tượng, ít ngôn ngữ cụ thể hơn, Văn bản được phân ích ở cấp độ ngữ pháp và ngữ nghĩa tong ngôn
"ngữ nguồn, sau đó được chuyỂn đổi sang một biểu diễn trung gian không phụ thuộc ngôn cđụng từ điễn song ngữ và các quy tắc ngữ pháp,
Phương pháp Iterlingua: Trong ngôn ngữ nguồn Intedingua được chuyển đổi thành ngôn ngữ trung gian, độc lập với bat ky ngôn ngữ nảo liên quan đến dịch thuật Bán
dịch được địch cho ngôn ngữ đích sau đô được lấy từ ngôn ngữ trung giam Phương pháp dịch máy dựa trên luật (RBMT) có một số ưu điểm đáng kể, Nếu bộ
luật được xây dựng tốt, RBMT có thể tạo ra ban dich chính xác và trung thực về mặt ngữ
pháp Phương pháp này cũng phủ hợp để dịch những văn bản có cấu trúc và từ vựng giới
hạn như hướng dẫn sử dụng, tải liệu ky thugt (A Survey of Current Paradigms in Machine
Translation) Dng thoi, RBMT cho phép kiểm soát tốt quả tình dịch, điều chỉnh và bổ
sung luật một cách linh hoạt
"uy nhiên, RBMT cũng có những hạn chế nhất định Việc xây dựng một hệ thống
RBMT hoàn chỉnh đòi hỏi thời gian đài, các quy tắc thường do nhà ngôn ngữ học phát triển
Trang 16mmôn/ chuyên gia (có thểrắt tốn kém) để xây dựng rất ắt nhiều quy tắc và ngoại lẽ, đồng
những mẫu câu và từ vựng nằm trong tập luật Những câu quá dài, phức tạp sẽ dễ bị dịch
sai, khó xử lý tốt các, óa, ngữ cảnh, ảm ý trong giao tiếp ngôn ngữ Chỉ phí
xây dựng và duy trì hệ thống cũng cao Mỗi cặp ngôn ngữ cẳn có một hệ thống luật riêng 1.22 Dịch máy dựa trên ví dụ
Dịch máy dựa trên ví dụ (Example-Based Machine Translation - EBMT) là một phương pháp địch máy được giới thiệu lần đầu tiên vào năm 1984 bởi Makoto Nagao từ
ai học Kyoto, Nhật Bản [7] Dịch máy dựa trên ví dụ (EBMT) là một phương pháp dịch tin ngữ pháp cho các cặp câu trong cơ sở dữ liệu song ngữ Điều này giúp cải thiện hiệu cdụ tương tự như sử dụng độ đo tương tự chị +okhốp mẫu, hoặc kết hợp với các kỹ thật ích xuất đặc trưng ngôn ngữ Bên cạnh đó, việc chuyển đổi vả tá tạo câu địch cũng đồi
hỏi phải giải quyết các ấn để như điều chỉnh thứ tự từ, thay đổi hình thai từ và đảm báo
tính đúng đắn ngữ pháp bằng các kỹ thuật như quy tắc chuyển đổi, mô h th ngôn ngũ, và
các thuật toán tối ưu hóa Ý tưởng cốt lõi của EBMT là sử dụng một cơ sở dữ liệu song ngữ:
gằm các cặp câu đã được dịch trước đó để dịch một câu mới chư từng gặp Cách tiếp cận
của EBMT gồm ba bước chính:
~ So khớp (Matching): Trong bước so khớp, hệ thống EBMT sẽ ign hành tìm kiểm trong cơ sở dữ liệu song ngữ để xác định những cặp câu có độ trơng tự cao nhất với câu
cẩn dịch Quá trình tìm kiểm này dựa trên việc so sánh các đặc trưng ngôn ngữ như tử vựng,
cm từ và cẫu trúc cú pháp giữa câu đầu vào và các câu rong cơ sở dữ liệu Hệ thẳng sẽ sử
dụng các thuật toán đo độ tương tự, chẳng hạn như độ đo cosin hoặc khoảng cách
Levenshiein, để tỉnh toán mức độ trùng khớp giữa các câu Kết quả của bước này là một
tập hợp các cặp câu song ngữ có liên quan và tương tự nhất với câu edn địch
Trang 17~ Chuyển đổi (Alignment): 6 bude nay he théng EBMT sẽ phân ích và xác định sự tương ứng giữa cúc cụm từ, thành phần trong câu nguồn và câu đích của các cặp ví dụ đã
"ngôn ngữ, cho phép hệ thống hiểu được cách các cụm từ và thành phần trong câu nguồn
phân tích cú pháp, nhận dạng thực thể có tên, và các thuật toán căn chỉnh từ để xác định
chính xác sự tương ứng giữa các phẳn tử ngôn ngữ
+ Tai tạo (Recombinadon): Hệ thống EBMT sẽ kết hợp các phần địch tương ứng từ
các cặp ví dụ đã chọn để xây dựng một bản dịch hoàn chỉnh cho câu đầu vào Hệ thống sẽ
căn cứ vào sự tương ứngđã thiết ập ở bước chuyên đổi để lựa chọn và sắp ếp các cụm từ,
thành phần sao cho phủ hợp với cấu trúc ngữ pháp và ngữ nghĩa của ngôn ngữ đích Trong
quá tình ti tạ, hệ thông cũng tiến hình các bước xử lý bổ sung như điều chính từ loi,
thêm/bớt từ chức năng, và đảm bảo sự đồng nhất về giới tính, số lượng, thì động tử, v.v.,
nhằm tạo rà một bản dịch mạch lạc, trồi chảy và tự nhiên Nếu cần thiết, hệ thông có thể sử
dung các quy tắc và mô hình ngôn ngữ để hoàn thiện và tối ưu hóa bản địch cuối cùng
LƯũ điểm của EBMT là khả năng xử lý ốt cúc cụm từ, thành ngữ và đễ mổ rộng bằng việc bổ sung thêm các cặp câu song ngữ vào cơ sở dữ liệu Phương pháp này có khả năng
6 dinh trong ngôn ngữ, do việc sử dụng
xử lý tốt các cụm từ, thành ngữ, và các cấu trúc
sắc cặp câu đã được dịch sẵn lâm nỄn tảng cho qué trinh dich EBMT có thể để đăng mở
rộng và cải thiện bằng cách bỗ sung thêm các cặp câu song ngữ vào cơ sở dữ liệu, giúp tăng:
độ phủ và chất lượng của hệ thống Mô hình địch máy này tận dụng tr thức và kỉnh nghiệm, cđược chất lượng địch tự nhiên và chính xác hơn Cuối cùng, qué trình địch của EBMT
tương ứng đã có sẵn, giúp tiết kiệm thời gian tính toán và xử lý Sato và Nagao [8] đã xây
cđưng một hệ thống EBMT cho cặp ngôn ngữ Anh- Nhật, sử dụng cơ sở liệu song ngữ và
thuật toán so khớp chuỗi con để tìm kiếm và kết hợp các ví dụ tương tự Hệ thống dịch máy:
Trang 18phương pháp địch y khác [9] Satoshi và cộng sự [10] đã để xuất phương pháp sit dung EBMT trong việc dịch các từ ngữ giao tiếp hằng ngày và cả từ ngữ chuyên ngành trong
khó khăn khi xử lý các câu có cầu trúc phúc tạp, câu dài, hoặc câu chứa nhí
Hệ thống cũng thiếu tính lnh hoạt trong việc xử lý các trường hợp ngoại lệvà ngữ cảnh đặc biệt phí và thời gian, Ngoài ra, khó khân tong việc mỡ rộng sang các cặp ngôn ngữ mới cũng như hiệu suất tính toán khi m kiếm rên cơ sở dữ iệu lớn là những hạn chế đáng lưu ý của EBMT, Mặc đã vậy, EBMT vẫn có giá khi được kết hợp với các kỹ thuật khác, tuy nhiền sự phát iển của địch
iy neural gn diy đ giáp khắc phục nhiễu nhược điểm này và cải thiện đáng kể chất lượng dịch, 1.2.3 Dịch máy thống kê
‘Trong Statistical Machine Translation (SMT) là một phương pháp dich máy khác so với RBMT, mô bình này được lên ý tưởng lằn đầu tiên bởi Warten Weaver vo nam 1949, Đến năm 1993, tại Trùng tâm nghiên cứu Thomas J Watson ciia IBM, Brown và các cộng
bi toan dich may ngày cảng được quan tâm và phát tiể
địch máy thông kê phổ biến như [12] [13] [14] [I5] cho đến ngày nay Các mô hình
Điểm nổi bật của phương pháp này là thay vì sử dụng quy tắc ngôn ngữ hoe thủ
công, SMT sử dụng các mô hình thống kê để học cách dịch văn bản từ ngôn ngữ nguồn hân tích các cặp câu song ngữ trong corpos, SMT xic định các mỗi quan hệ thông kế giữa
Trang 19sắc từ, cụm từ và cầu trúc câu trong bai ngôn ngữ Quả trình này cho phép SMT dy dosn
corpus SMT đã chứng minh được tính hiệu quả của mình trong nhiễu ứng dụng, từ các hệ
thống địch máy đơn giản đến các công cụ hỗ trợ dịch thuật thương mại như; Google Dịch
(Google Translate), Microsoft Translator’, IBM Watson Language Translator’, SYSTRAN®
.Quá trình địch của SMT bao gồm các bước sau:
+ Huấn luyện mô hình địch: Sử dụng một bộ song ngũ rắtlớn để huắn luyện hai mô hình quan trọng: mô hình ngôn ngữ (language model) và mô hình chuyển ngữ (translation model), Mô hình ngôn ngữ: mục tiêu của mô hình ngôn ngỡ là học cách xếp cúc từ lại với
hiện của các chuỗi tir trong huấn luyện để hiểu cấu trúc ngôn ngữ và cách các từ tương tác
với nhau để tạo ra câu có nghĩa Mô hình chuyển ngữ: Mô hình chuyển ngữ được hun
luyện để học cách địch từ ngôn ngữ nguồn sang nướn ngữ đích dựa trên các cặp câu song
ngữ trong huấn uyện Mục Gi của mô hình nảy là học được các quy luật chuyển đổi cầu trúc và ý nghĩa tử ngôn ngữ nguồn sang ngôn ngữ đích,
+ Giải mã nguồn: DSi với mỗi câu nguồn cần dịch, hệ thống SMT sử dụng kỹ
thuật tìm kiếm heuristic dé tim địch nghĩa có khả năng xây ra cao nhất trong ngôn ngữ đích 'Quá trình này dựa trên việc tính toán và tối đa hóa điểm số của mỗi dich nghĩa đề xuất dựa trên mô hình ngôn ngữ và chuyển ngỡ, Dịch nghĩ có điểm số cao nhất là đầu ra cuối cũng,
+ Điều chinh mô hình địch: SMT cho phép điều chỉnh các thông số của mô hình dịch
như trọng số của mô hình ngôn ngữ và chuyển ngữ) để nàng cao chất lượng địch bằng cách
và so sinh với dịch nghĩa tham chiếu trong bộ đánh giá Các thông số cho kết qua gin nha
với tham chiếu sẽ được giữ lại
°hepe/Ananeirdmizeeo co
‘tari eno po agow8 3 opic-inegratonswatson-anguagetanlaor
Trang 20dich (vi du: Tiéng Vigt) cho một câu nguồn /'trong ngôn ngữ nguồn (ví dụ: Tiếng Anh)
dược tiếp cận thông qua việc tối đa hóa phân phối xác suất p(e|£) Để tối đa hóa p(€|ƒ) sẵn áp đụng định lý Bayes để phân tách thành hai phần như phương trình ():
“Trong đốc p(ƒ|£) là mô hình chuyển ng (ransation model), mo tax xuất dé câu nguồn /là bản dịch của câu đích Mô hình này cần được ổi tu hóa
+ p(e) là mô hình ngôn ngữ (language model), cho biết xác suất xuất hiện của chuỗi
tong ngôn ngữ ích, đảnh giá mức độ tôi chây, hợp lý của câ
+ p(/) là xác suất của câu nguồn f, duge coi là hằng số trong quá trình tối ưu hóa
`Vấn đề tối ưu hóa p(€|ƒ) được chỉa nhỏ thành hai bài toán con: học mô hình chuyển ngữ p(ƒ|e) và học mô hình ngôn ngữ /e) Bằng cách giải quyết hai bài toán này, ta có thể tìm ra bản dich tốt nhất bằng cách chọn Z có xác suất p(e|ƒ) cao nhất (phương trình 2)
8 argmax p(elf) = argmax p(fledp(e)ve € e* Phân tích theo cách này cho phép tiếp cân vấn đề SMT dựa trên các kỹ thuật thống
kê và máy học mã không cần phụ thuộc vào các quy tắc ngôn ngữ học phức tạp như trong
hạn chế không gian tìm kiểm nhưng vẫn duy t ất lượng địch thuật ở mức có thể
chấp nhận được, ví dụ như các hệ thống dich máy dựa trên phương pháp thống kê [16],
L7] Nhiều thành phẫn khác nhau cần được điều chỉnh ng bigt, ví dụ: mô hình chuyể ngữ, mô hình ngôn ngữ, mô hình sắp xếp lại, v.x điều này gây khó khăn cho việc kết hợp
chúng lại với nhau và khó đổi mới Kết quả là, chất lượng dịch thuật đã bão hòa đối với
ST và những thay đổi lớn đối với khuôn khổ hiện tại là ắt cằn thiết
Trang 21“Trong những năm gần đây, lĩnh vực dịch máy đã chứng kiến một cuộc cách mang với sự ra đời của các mô hình địch may mang neural (Neural Machine Translation - NMT),
“Trái ngược với cách tiếp cận truyền thống của địch máy thống kê (SMT) dựa trên mô hình thống kê phải xây dựng các thành phần riêng bigt nw word alignment, language model,
sau: Đầu tiên bộ mã hóa (eneoder) sẽ đọc và biểu diễn câu nguồn dưới dạng vector, sau đó
bộ giải mã (decoder) sẽ xử lý các vector này và sinh ra bản dịch (mô tả như hình 1.2) Toe
là kiến trúc bai tẳng trong đó bộ mã hóa đọc chuỗi câu đầu vào x = (xị, xạ, ,Xy) và bộ giải mã cđự đoán chuỗi mục tiêu = (yy,y¿, u) Theo cách này, NMT giải quyết được vấn đề dịch eue bộ mà SMT gặp phải: nó không chỉ thực hiện dịch từng cụm từ đơn lẻ, Thay vào đó,
sắc sự phụ thuộc ngữ nghĩ lâu dõi trong các ngôn ngữ, ví đụ nh rậtự cấu trú củu chủ
chảy hơn sơ với các phương pháp tru thống dựa trên ngữ pháp và từ vựng Khả năng tổng quát hóa mạnh mẽ của NMT đã làm thay đổi cách tiếp cận dịch máy và mở ra nhiều, khả năng mới cho lĩnh vực xử lý ngôn ngữ tự nhiên
Hình I.2 Kiến trúc mô hình Eneoder - Decoder
Trang 22là mạng thần kinh ti phát (RNN), cho cả bộ mã hỏa và bộ giải mã [19], (20) Mang RNN
là một kiến trúc học sâu đặc biệt phù hợp để xử lý dữ liệu tuần tự như văn bản, giọng nổi
tìm biểu chỉ tiết về cơ ché hoạt động của RNN ở Chương 3) Tóm lại, hay chuỗi động tác
RANN cho phép ta xây đụng các biểu diễn vector cho đầu vào có độ dài thay đổi trong trường hợp này là các câu - bằng cách sử dụng cầu trúc bộ nhớ động để ích xuất thông tin liên quan từ các phần tử tuần tự trước đó
“Các mô hình xử lý tuần tự [19] (Sequenee-to-Sequenee) ngày cảng được nghiên cứu, sâu rộng trong lĩnh vực địch máy như: LSTM, GRU, RNN, Như trong hình l.3 lấy ví dụ
eụ thể là RNN, các mạng RNN sâu với hai lớp xếp chồng được sử dụng đẻ thực hiện địch máy dựa trên chuỗi: Trước tiên, bộ mã hóa RNN đọc và biểu diễn chuỗi nguồn dưới dạng
một vector ngữ nghĩa Tiếp theo, bộ gii mã RNN sẽ xử ý vector ngữ ngHĩa này và tạo rà chuỗi mục tiêu dịch, mỗi lần sinh ra một ký tự cho đến khi tạo ra một ký tự kết thúc chuỗi đặc bigt Khả năng học và biểu n hệ ngữ nghĩa phúc tạp của RNN giúp NMT wut trội so với các phương pháp địch máy thông kế truyền thông bằng cách nắm bắt được ngữ cảnh đầy đủ của câu nguồn trước khi dịch chứ không phải dịch từng phẩn riêng
lẻ Điều này giúp tạo ra các bản dịch chính xác, tồi chảy và bảo toàn được ngữ nghĩa gốc một cách tối tụ,
Hình 1-3 Kiến trúc mô hình Seq2Seq cho bài toán dich may
Từ kiến trúc Seq2Seq (Sequenco-Sequence) và các mồ hình RNN bạn đầu, một bạn lớn được phát hiện là khả năng xử lý các phụ thuộc xa trong chuỗi dữ liệu RNN phải
Trang 23truyền thông tin ngữ nghĩa qua nhiều bước trung gian, khiến việc nắm bắt các mỗi liên hệ
ngữ pháp và ngữ nghĩa lâu dài trở nên khó khăn hơn Điều này đã dẫn đến sự ra đời của cor ne" ‘chi " (attention) trong các mô hình Seq2Seq Cơ chế chú ý đầu tiên được giới thiệu
bối Bahdanau [21] đã cải thiện đáng kể hiệu suất các mô hình dịch máy Thay vì phải nén
toàn bộ đầu vào thành một vector ngữ nghĩa đoy nhất, cơ chế chủ ý cho phép mô hình tập
trung vào các phần liên quan của đầu vào khi sinh ra từng phần tử đầu ra Cải tiến này giúp
mô hình học tốt hơn về khả năng xử lý phụ thuộc xa
Một trong những sự thành công của cơ chế chú ý chính là sự ra đời của mô hình
“Transformer được giới thigu boi Vaswani et al, (2017) [22] đã nâng tằm cơ chế chú ý thành then chốt Transformer hoàn toàn loại bỏ kiến trác RNN và thay thé bằng cơ chế tự-chú ý (selFattention) để mô hình hóa trực tiếp các phụ thuộc toàn phẩn trong chuỗi đầu vào, điều này khắc phục được hạn chế xử lý phụ thuộc xa của RNN một cách rệt để Cơ chế tự chú
sinh ra mỗi phần tử đầu ra, thay vỉ hãi truyễn thông in qua nhiễu bước trừng gian Di này giúp Transfomer có khả năng mô hình hóa và nắm bắt tốt hơn các mỗi liên hệ ngữ
Mỗi khối pháp, ngữ nghĩa phức tạp trong câu Kiến trúc then chốt của Transorrner bao gổ
mã hóa (eneoder) và một bộ giải ma (decoder) lap đi lặp lại các khối tự chú chú ý sẽ tính toán sự tương quan và trọng số giữa các từ đầu vào để biểu điễn ngữ nghĩa, sau đồ truyền các iễu diễn này cho các phần tử tiế theo Quá trình này lặp di lập lại qua
nhiều lớp đến khi thu được biểu diễn cuối củng mô tả toàn bộ ý nghĩa đầu vào và đầu ra
Nhờ khá năng học được các iễu diễn ngữ nghĩa sầu sắc từ dữ iệu, Trasfoner đã ghỉ nhận nhiễu thành công nỗi bật, vượt tội so với ác mô hình trước đây trung nhiễu tác vụ
NLP quan trọng như dịch máy, hỏi đáp, tóm tất văn bản Kiển trúc này trở thành mô hình
“ương sống" cho NLP hiện đại và là tiễn đ cho nhiễu công
'BERT[23], GPT3[24], XLNet{25] , Trong nghiên cửu nảy dựa trên kiến trúc mô hình
‘Transformer lim hướng tiếp cận chính trong mô hình dịch máy của tôi
nghiên cứu mới như:
Trang 241.41 Các vẫn đề dịch máy
Tuy nhiên, các mô hình NMT này gặp phải một vẫn để cần phải có một lượng lớn huắn
luyện, trong khi một số cặp ngôn ngữ lạ không có từ vựng Vấn đề thưa thới trong Dịch
máy (MT), nguyên nhân chủ yếu là do thiểu đảo tạo, đc biệt biểu hiện ở việc dịch gần các
từ chuyên ngành và từ mới(OOV), ví dụ: các thực thể hoặc biểu thức thuật ngữ lạ khi xảy
mh chưa từng thấy trong giai đoạn huắn luyện [26] Điều này dẫn đến một số trong công việc huấn luyện các bộ thưa thớt, cái thiện hiệu suất dịch vụ trên các bộ này Trude đây, các nhà nghiên cứu đã cố gắng giải quyết vin đề này bằng cách tập trung các
dịch thực thể ong quá tình dịch, chất lượng dịch thuật của các thực thé trong edu có ảnh
hưởng rất lớn đến chất lượng dịch thuật của cả câu Việc địch các thực thể nảy vẫn cỏn
nhiều thách thức [27] và nhiều phương pháp khác nhau được đề xuất để cải thiện việc dịch
các thực thể này [28], [29],
13.2 Tích hợp đồ thị tỉ thức vào mô hình dịch máy
Trong nghiên cứu gần đây, Bojanowski và cộng sự [30] đã đề xuất một phương pháp
trúc và phí cấu trúc (chẳng hạn như văn bản), phương pháp nảy cho phép khai thác và kết nối hiệu quả các thông tin ngữ nghĩa từ cả hai nguồn dữ liệu nhằm nỗ lực tăng cường các
mô hình dự doán Những phương pháp này đã được ứng dụng thành công trong các hệ
Trang 25
nhiên và đưa mì các đỂ xuất phủ hợp
Ngoài ra, một số nghiên cứu đã tích hợp KG vào NMT, trong đó Shi và cộng sự [3]
Để xuất sử dụng trí thức từ các đỗ thị trị thức (Knowledge Graphs - KG) để nhúng ngữ
nghĩa vào mồ hình dịch máy (NMT) Các vectơ ngữ nghĩa quan trọng có thể được trích xuất
từ KG và tích hợp vào quá trình mã hóa hoặc giải mã trong NMT, cải thiện khả năng hiểu
và dịch của mô hình, Lu và cộng sự [39] khai thắc các mỗi quan hệ giữa các thực thể trong
KG để tăng cường kết nỗi ngữ nghĩa giữa các từ trong câu nguồn và câu địch Việc sử dụng,
những thông tin mối quan hệ này cho phép mô hình học được cách biểu diễn và ánh xạ ngữ
nghĩa chính xác hơn giữa cúc ngôn ngữ Long Nguyen và các công sự [40] đã tỉnh by việc
áp dụng kiến trúc transformer dựa trên đô thị (graph-based transformer encoder) kết hợp
translonner và đồ thịt hứcgiúp tăng nh các tham số trong khi vượt trội đáng kể sơ với thưa thốt (lowresouree NMT) Kết quả thực nghiệm chứng mình rằng phương pháp để xuất
Anh-ViệUPháp/Séc Diego Moussallem và các cộng sự [41] đề xuất một phương pháp mới
dể tăng cường hiệu suất của dịch máy thần kinh (NMT) bằng cách tích hợp thông tin từ các
cơ sở trí thức (knowledge graphs) Các tác giá sử dụng một công cụ trích xuất thực thể
(Entity Linking) dé nhận diện các thực thể trong câu nguồn và gần nhãn chúng với các thực
thể tương ứng trong cơ sở tri thức DBpedia Tiếp theo, các vector biểu diễn ngữ nghĩa của
mô hình biểu diễn trí thức TransE Những biểu diễn ngữ nghĩa này sau đó được kết hợp với
biểu diễn từ mô hình NMT gốc thông qua một mạng gated, để làm đầu vio cho bộ giải mã
sinh ra bản địch Toàn bộ hệ thống kết hợp NMT và mô-đun tr thức được huắn luyện đồng
thời Quy trình nảy được họ mô tả như hình 1.4 Kết quả thực nghiên cho thấy phương pháp
này đạt được những củi tiến đáng kể và nhất quản vỀ mức trung bình +3 BLEU, METEOR
Trang 26“Các nghiên cứu về việc kết hợp đồ tị trì thức vào mô hình dịch máy vẫn chưa tận dung
hết và chỉ tập trung vào các thực thể xuất hiện cả trong KG và trong cặp câu huấn luyện,
nhiều thông tin trong KG không được khai thác một cách tối đa Tiếp theolà
các phương pháp KG hiện ti thường sử đụng thực thể như là mức độ chỉ tết cơ bản, trong
khi NMT lại sử dụng từ phụ làm đơn vị đo chỉ tiết, làm cho sự khác biệt gitta KG va NMT
trở nên rõ rằng Chính vì th ác tác giá tong nghiên cứu [42] đề xuất một phương pháp
mới để tích hợp trí thức từ cơ sở tri thức vào mô hình địch máy thẳn kinh (NMT) thông qua
kỹ thuật học đa nhiệm vụ ở mức độ chỉ tết của các phân đoạn thực thể (sub-entiy
graph) và các cả -âu thành mức độ chỉ tiết của các thành phần con (sub-entities) bằng cách
sử dụng kỹ thuật Byte Pair Eneoding (BPE) chung Diễu này giúp phân tách ác thực thể
thành các phân đoạn nhỏ hơn như danh tử, tính từ, v.v Tiếp theo, họ áp dụng phương pháp
Inge da nim vu (multitask learming) đ kết hợp nhiệm vụ dịch máy với nhiệm vụ suy luận kiến the (knovsledge reasoning) Cy thể, mô hình NMT được huần luyện đồng thời để thục hiện dịch mấy và dự đoán các biểu diễn ngữ nghĩa của các phần đoạn thực thể con tử câu nguồn, giúp tích hợp trí thức từ cơ sở trí thức Với phương pháp này họ đã giải quyết được
Trang 27và cách xử lý thực thể Trong khí nghiên cứu này chỉ tập trung vào mức độ chỉ tiết của thực nghiên cứu dựa trên nền tảng nảy nhưng có một thay đổi trong việc địch các thực thể này:
bằng cách sử dụng đồ thị tỉ thức ãng cường ngữ nghĩa của thực thể (Chỉ tt ở chương 3)
1.4 Bộ ngữ liệu liên quan
ngôn ngữ Thứ hai, các câu trong ngữ iệu cẳn đảm bao tính tương đương vỀ ngữ nghĩa và
ngữ pháp, tức là câu địch phải tru h xác nội dung của có gốc Thứ ba, ngữ nên bao quát nhiều lĩnh vực và thể loại khác nhau như tin tức, văn học, khoa học kỹ thuật, đối thoại v.v để mô bình có khả năng dịch tốt trong nhiều bối cảnh sử dụng Việc xây dựng,
các bộ ngữ liệu chấ lượng cao đôi hỏi nhiễu công tức của các chuyên gia ngôn ngữ và kỹ,
thuật, Các cập ngữ liêu thường được thủ thập từ các văn bản song song như sách, bo, ải
liệu đã được dịch chuyên nghiệp Sau đó, chúng được tiền xử lý, làm sạch, gióng hàng câu
và kiểm tra chất lượng bởi người địch có tình độ
Với sự bùng nỗ của dữ liệu trên internet và các phương pháp học máy hiện đại, việc
khai thác các bộ ngữ iệu lớn đã giúp các hệ thống dịch máy đạt được những bước tiền vượt
bậc Tuy nhiên, vẫn còn nhiều thách thức trong việc phát triển ngữ liệu cho các cặp ngôn
ngữ được sử dụng hoặc cổ sự khác biệt lớn về cầu trúc, Do đó, nghiên cứu vỀ xây dựng
Trang 28ngành dịch mấy trong tương lai Semrich và cộng sự [43] đã chỉ a rằng bằng cách sử dụng
của các mô hình dịch máy mang neural Kết quả này gợi mở khả năng tận dụng lượng dữ
liệu đơn ngữ khẳng lỗ có để nâng cao hiệu năng địch máy Bên dưới đây là một vải bộ ngữ liệu song ngữ lớn:
- IWSLT: IWSLT là dất của Intemational Workshop on Spoken Language Translation, mt hoi nghị khoa học công nghệ quốc tẾ hàng năm tập trung vào lĩnh vực ngôn ngữ Nó cung cái su cho nhiều cặp ngôn ngữ như tiếng Anh - tiếng ĐI
‘Anh - tiếng Pháp, tiếng Anh - tiếng Trung, tiếng Anh -
Sng Việt, và nhiều cặp ngôn ngữ
khác Ngoài việc dịch giữa các ngôn ngữ, IWSLT cỏn đẻ cập đến các thách thức khác như:
dich néi-ndi (speech-to-speech translation) dich n6i theo thời gian thu (simultaneous
translation), và dịch đa phương thức (multimodal translation) kết hợp hình ảnh và âm thanh
~ Euraparh: Bộ ngữ liệu này được Koehn giới thiệu lần đầu ign vio nam 2005 44] nó chứa các bản ghi hoi dim của Nghị viện Châu Âu, được địch sang nhiễu ngôn ngữ châu Âu khác nhau Đây là một nguồn ngữ liệu quan trọng cho các cặp ngôn ngữ như tiếng Anh - tiếng Đức, tếng Anh iếng Phip,ếng Anh - tổng Tây Bạn Nha v.v Bộ ngữ liệu này trở
thành một tiêu chuẩn trong cộng đồng dịch máy và được sử dụng rộng rãi để đánh giá hiệu năng của các mô hình mới
Trong nghiên cứu này, sử dụng bộ ngữ liệu TWSLT 15' Englih-Vietnamese là một tập hhgp các đoạn hội thoại song ngữ Anh-Vi thu thập từ phiên địch đồng thời trong Hội nghị
Khoa học Công nghệ quốc tế IWSLT lẫn thứ 12 sẽ diễn ra tại Đà Nẵng từ ngày 03-
04/12/2015 (hình 1.5).
Trang 29
12°TWSLT, Da Nang, 3.-4 December 2015 Hình 1 Hội nghị Khoa học Công nghé q
tẾ WSLT lần thứ 12 tại Đà Nẵng Hội nghị này được ổ chức lần đầu tiên vào năm 2004 và đã trở thành một diễn in quan
thuật mới cho địch máy ngôn ngữ nói
“Xử lý ngôn ngữ tự nhiên cho ngôn ngữ
« _ Nhận dạng giọng nói và phân đoạn lời nói
+ Đánh giá và tạo ngữ liệu cho địch máy ngôn ngữ nói
« ˆ Các ứng dụng của địch máy ngôn ngữ nồi trong thực tế
Hội nghỉ thường bao gồm các phần rình bây bãi báo khoa học, hội thảo chuyên đ, cuộc th dịch máy và giới thiệu ngữ liệu địch mới Các tổ chức nghiên cứu, công ty công trọng để thúc đẫy sự phát tiển dịch mấy ngôn ngữ nổ
Trang 30
“Cơ sở trí thức là một tập dữ liệu điễn hình biểu điễn các sự kiện trong thể giới thực và các mỗi quan bệ ngữ nghĩa dưới dạng bộ ba Khi các bộ ba này được biểu diễn đưới dạng thị trí thức (Knowledge Griphs - KOs) hiện đại thường được biểu diễn theo cấu trúc "bộ
thực
đó, mỗi quan hệ (reaon) đóng vai trỏ là liên kết nối giữa hai thực thể, tiên được gọi la "div" (head) và thực thể thứ bai được gọi là "đuôi" (ai) ví dụ (HaNoi, ty_of, VieINam) (mô tả chỉ tiết ở hình 1.6) Vì môi quan hệ không nhất thiết
captial đối xứng nên hướng của một liên kết rất quan trọng Do đó, một đồ thị thức cũng có thể phải
được xem như một đồ thị có hướng trong đó các thực thẻ đầu trỏ đến các thực thẻ đuôi
thong qua canh cia quan hé [45] Bén canh dé Resource Description Framework (RDF) va thị tì thức [46] [47] Cấu trúc này của đồ thị tì thức có thể được định nghĩa như một bản thể luận (ontolosy), thể hiện các thuộc tỉnh của một miễn cụ th và mỗi liên hệ giữa chúng
Ontology déng vai trỏ quan trọng trong việc cung cấp một khung khái niệm chung va thống
nhất cho việc biểu diễn và tổ chức rỉ thức Nó giúp xác định các lớp, thuộc tỉnh và quan hệ
giữa các khái niệm trong một miền cụ thẻ, tạo ra một ngôn ngữ chung để suy luận và khai
thác trí thức một cách hiệu quả
Trang 31
Hinh 1.6 Vi dy mô tả về đồ thị trì thức
“rong những năm gần đây, vi c xây dụng và khai thác các cơ sỡ tri thức (KGs) đã trở thành một lĩnh vực nghiền cứu quan trọng trong tr tuệ nhân tạo và xử lý ngôn ngữ tự nhiên
‘Vivo nim 2012, Google lẫn đầu tiên đưa ra đồ thị tì thức bằng cách giới thiệu cơ sở trì thức
lớn đỏ thị trí thức đã được phát triển, chẳng bạn như: Y AGO (Yet Another Great Ontology)
[48], WordNet1 [49], Freebase [50], Dbpedia [S1] Việc tạo lập và mở rộng các cơ sở trí thức hiệu quả là một thách thức lớn, đồi hỏi sự kết hợp của kỹ thuật trích xuất thông tin,
xử lý ngôn ngữ tự nhiề, học máy và uy luận logic Nhiễ nghiên cứu đang tập trung vào
việc tự động xây dựng tích hợp và suy luận trên các cơ ở trì thức từ ngữ liệu không cấu
trúc và bán cầu trúc [52] [53] Các cơ sở tri thức này đóng vai trò quan trọng trong các hệ
thống trả lồ câu hỏi, tôm tắt văn bản, hệ thẳng hỗ trợ ra quyết định và nhiều ứng đụng tr
tuệ nhân tạo khác Hình 1.7 minh họa lược đồ của các dòng nghiên cứu phổ biển nhất liên
«quan đến đồ thịt thúc, Trong phần này, tôi sẽ giới thiệu các lĩnh vực này bao gằm cổ cả
việc dịch máy và nhắn mạnh những hạn chế của chúng nhằm đưa ra những hiểu biết hữu ích về những thách thức chính của đồ thị tỉ thức,
Trang 32
=
Hình 1.7 Các nghiên cứu, lĩnh vực ứng dụng đồ thị tr thie
~Nhúng đồ thị trì thức (Knowledse Graph Embedding = KGE): là một hướng nghiên cứu quan trong trong xử lý và tận dụng đồ thi tr thie KGE nhằm mục đích biểu điển các
thực thể va mối quan hệ trong đồ thị trì thức dưới dạng các vector trong không gian có chiều
thấp, sao cho các vector này nắm bắt được ngữ nghĩa và cu trúc của đồ th tỉ thức một
cách hiệu quả [54] Các vector đặc trưng thu được từ quá trình nhúng này có thể được sử:
cđụng làm đầu vào cho các mô hình học mây, giúp củi thiện hiệu suất trong nhiề tắc vụ như
phân loại, gom cụm, hay dự đoániên kết Có ba phương pháp chính đổ thực hiện KGE dựa
trên cầu rác bộ ba của đồ thị [54]
+ Phương pháp đựa trên phân tích tensor (Tensor Factorization-based Methods)
"Phương pháp nảy xem đồ thị trí thức như một tensor bậc ba vả sử dụng các kỹ thuật phân
tích tensor để học các biểu diễn vector cho các thực thể và quan hệ Một trong những
biểu diễn vector Các phương pháp khác như DistMult [56] vi ComplEx [57] cũng đã được đề xuất để cải thiện hiệu suất và khả năng mô hình hóa các mỗi quan hệ phúc tap
Trang 33+ Phuong phip dua tn m6 hinh dich (Translation-based Methods): Phuong phip niy
mô hình hỏa các mỗi quan hệ như các phép dich trong không gian vector, từ đồ học các
vector đuôi (tail) TransE [49] là một trong những phương pháp tiên phong trong nhóm nảy,
sử dụng một hâm mắt mát đơn giản để họ các embedding Các phương pháp mở rộng như
‘TransH [58], TransR [59], và TransD [60] đã được đề xt
“ransE và cải thiện khả năng mô hình hóa các mỗi quan hệ phức tạp Gần đây ất để giải quyết các hạn chế của sic phường pháp hur RotatE [61] vi Quaté [62] da két hgp cdc php biến đổi trong Khong ian complex
‘va quaternion để nâng cao hiệu suất của KGE,
+ Phương pháp dựa trên mang neural (Neural Network-based Methods): Phuong phip
nảy sử dụng các kiến trúc mạng neural như mạng neural tích chap (CNN), mang neural héi
quy (RNN) để học các biểu diễn vector cho các thực thể và quan hệ Các phương pháp như
thức thống nhất Quá trình này đồi hỏi giải quyết các vẫn đề như đồng tham chiếu thực thể
(entity coreference), hợp nhất và làm sạch dữ liệu, cũng như xử lý sự không chắc chắn và
mâu thuẫn trong tr thức Các phương pháp như entity linking, data fusion, wi đồ th xác hiên, một lượng lớn tỉ thức vẫn tổn tụi dưới dạng phĩ cầu trúc, chẳng hạn như trong các
này, các phương pháp trích xuất thông tin như trích xuất thực thể, trích xuất mỗi quan hệ,
và tích xuất thuộc tính đã được phát tiễn [66] [671
Trang 34
tông hợp kiến thức (Knowledge Fusion): là một hướng nghiền cứu quan trọng trong lãnh vục đồ thị tỉ thức, tập trung vào việ thu thập và tích hợp trí thức từ nhiễu nguồn khác nhau để xây dựng và hoàn thiện đồ thị rỉ hức Mục tiêu chính của tổng hợp kiến thức là tạo ra một biểu diễn tri thức thống nhất, toàn diện, và chính xác bằng cách kết hợp thông
tin từ các nguồn dữ liệu đa dạng, bao gồm cơ sở dữ iệu, omtoloy, và các đồ thịt thức
khác nhau Entity alignment [68] là một phương pháp chính để thực hiện các nhiệm vụ tổng
hap kiến thức Endiy alienment nhằm mục dich xác định các thực thể tương đương giữa
các đồ thị trí hức khác nhau, từ đó tạo ra các liên kết giữa chúng Việc thực thi nay cho
phép kết hợp và liên kết trí thức từ nhiều nguồn, iúp tạo ra một đổ thị tì thức thống nhất
và toàn điện hơn
~ Hoàn thiện đồ thị trí thức (Knowledge Graph Completion): là một hướng nghiên
cứu quan trọng nhằm củi thiện chất lượng và tỉnh đầy đủ của các đồ thị tỉ hức hiện có
Mặc dù đã có nhiều nỗ lực trong việc xây dựng các đồ thị trí thức, việc tạo ra một biểu diễn
toàn diện chứa đựng tắt cả các tr thúc trong một lĩnh vực cụ thể vẫn là một thách thức lớn Hẳu hết các đồ thị tị thức th
tại đều thiếu một lượng lớn thông tin về các thực thể và mỗi
sự Không đầy đủ và hạn chế trong việc áp dụng chúng vào thực tiễn Mục
cquan hệ, dã
tiêu chính là bổ sung và lầm giã đồ thị thức bằng cách dự đoán các mỗi quan hệ và thực
thể còn thiểu, để thực biện được việc này bao gồm hai bước chính:
-+Dự đoán liên kết (Link Prediction);
lêm vụ này lập trung vào việc dự đoán các mỗi
quan hệ mới giữa các thực thẻ biện có trong đỏ thị tri thức Các phương pháp dự đoán liên
kết thường sử dụng các kỹ thuật học mây và khai phá dã liệu để m ra các mỗi liên hệ iểm
va RotatE di được áp dụng thành công trong việc dự đoán các mồi quan hệ mới và tạo ra
các bộ ba (triple) bổ sung cho đỗ thị rỉ thức
+Dự đoán thực thể (Entity Prediction): Nhiệm vụ nảy tập trung vào việc thu thập và tích
hợp thông tin về các thực thể mới từ các nguồn dữ iệu bên ngoài đ bổ sung vào đồ thị tỉ
Trang 35
đỗ th trí thức [59], 69] Bên cạnh đó, việc sử dụng các nguồn trí thức bên ngoài như văn
"bản phí cấu trúc, cơ sở dữ liệu và các đồ thị trì thúc khác cũng đóng vai trò quan trọng trong
nghiên cứu quan trọng nhằm mục đích làm giảu và mở rộng đồ thị trí thức bằng cách suy
a các sự kiện và mỗi quan hệ mới dựa trên dữ liệu hiện cỏ [70] Quá nh này giáp khám
các ứng dụng như trả lời câu hỏi, hỗ trợ ra quyết định, và hệ thống gợi ý Một trong những
mục tiêu chính của suy luận trên đồ thịt thức là phát hiện các mỗi quan hệ mới giữa các
thực thể chưa được kết nối trực tiếp với nhau Thông qua việc khai thác các mỗi quan hệ
và quy luật iềm ân trong dữ liệu, các phương pháp suy luận có thé tao racic ba ba (tiple) khám phá mỉ thức mới, suy luận trên đồ thị tr thức cũng cố khả năng xác định và loi bỏ
chất lượng và độ tin cậy của đồ thị trì thức
~ Ứng đụng trong hệ thẳng AI (AI systems): Trong thời dại công nghệ phát triển như
hiện nay, đồ thị tri thức (knowledge graph) đã trở thành một thành phần không thể thiểu
trong nhiễu hé thing trí tuệ nhân tạ (AI) hiện đại [71] Đỗ tị trì thức cung cấp một lượng
lớn thông tin có cấu trúc, bao gồm các khái niệm, thực thể và mối quan hệ giữa chúng, tạo
ề img đụng AI như hệ thống gợi ý, hộ thông hỏi đáp vã công cụ
truy xuất thông tin
+ Hệ thống gợi ý dựa trên đồ thị tri thức (Knowledge Graph-based Recommended
systems): Trong hệ thống này đồ thị mỉ thức đóng vai trồ quan trọng trong việc cải thiện
chat lượng và tính cá nhân hóa của các đẻ xuất Bằng cách khai thác các mối quan hệ giữa
người đùng, sản phẩm và các thực thể liên quan trong đồ thị tr thức, hệ thẳng gợi ý có thể
hiểu rõ hơn vẻ sở thích, nhu cầu và hành vi của người dùng, từ đó đưa ra những gợi ý phù
Trang 36A hg thống có thể gợi ý các bộ phim khác có diễn viên Á tham gia dựa trên mỗi quan hệ giữa diễn viên và phim trong đồ thị tỉ thức [73],
+ Hệ thống hỏi đáp (question-answering systems): Đối với hệ thống hỏi đáp, đỏ thị trí
thức là một nguồn tì thức quan trong dé tr òi các câu hỏi của người dùng một cách chính
xác và đầy đủ, Bằng cách ánh xạ các thành phần của câu hỏi vào các thực thể và mối quan
hệ tong đỗ thị tị thức, bệ thống có thể ìm kiếm câu trả lời phủ hợp dựa trên suy luận và
kết nồi tỉ thức Viết kết hợp đồ thị tỉ thức đã giúp hệ thống giải quyết các vấn đề khó khăn
"khi phải tìm kiế
hạn chế khi áp dụng đồ thịt thức cho hệ hổng hỏi đáp như: chất lượng dữ liệu đồ thị còn câu trả lời từ một lượng lớn dữ liệu phi cau trúc Tuy nhiên vin con al
nhiều hạn chế phải cần chuyên gia dé có thể xử lý giúp cho hệ thống trả lời chính xác câu
hỏi, suy luận từ đồthị thúc cần một kỹ thuật phức tp 74 [75]
+ Hệ thống truy xuất thông tin (Information Retrieval): Truy xuất thông tin là một lĩnh
‘ve quan trọng trong khos học my tỉnh, tập trong vo việc tìm kiếm và uy xuất các ti
liệu phù hợp với nhu cầu của người dùng từ một tập hợp lớn dữ liệu [76] Mục tiêu chính
sửa các hệ thống IR là khớp các truy vấn của người đùng với c tàiliệu có liên quan, chẳng
bạn như các trang web, bài ảo, hoc ti liệu văn bản Do các công cự tìm kiểm truyéa
thống chủ yếu dựa trên việc khớp từ khóa giữa truy vắ và tài liệu, chúng thường gặp khó
khăn tong việc hiểu và giải tích ý nghĩa ngữ cảnh của văn bản Kết quả là, tìm kiếm đựa
trên từ khóa thường cho kết quả hạn chế và không đáp ứng được nhu cầu thông tin thực sự
của người dùng, Để giải quyết những thách thức này, nhiều nghiên cứu gẳn đây đã tập trung thống IR (77) [78]
-Ứng dụng trong các lĩnh vực khác: Không chỉ gói gọn trong các ứng dụng trí tuệ
nhân tạo như trả lời câu hỏi hay tom tắt văn bản, đồ thị trí thức còn được áp dụng rộng rải
trong nhiều ngành công nghiệp khác, mang lại những giá t gia tăng đáng kể Đồ thị tỉ
Trang 374qua, mera nhiu ca hoi ting dung rong các lĩnh vực khác nhau.Trong phẫn này tôi chỉ tập trung phân tích những inh vive được ứng dựng nhiễu như: Y tổ, mạng xã hội và giáo đục
“Trong linh vục y học, các Knowledge Graph đồng vai trở quan trọng trong việc quản lý
và tích hợp dữ liệu y tế Chúng được sử dụng đẻ xây dựng hệ thống y tế thông minh, hỗ trợ
sắc bác sĩ trong chân đoán và điều trị bệnh, Vĩ dụ, các Knowlede Giaph có thể lưu trữ thông tin về các bệnh, triệu chứng, thuốc men, cách điều trị, và mối liên hệ giữa chúng [79], Điều này giúp các bác sĩ có thể truy vấn và suy luận dựa trên các mỗi liên kết để đưa ra
những quyết định y tế chính xác hơn Trong ngành giáo dục, Knowledge Graph duge sit
dung để xây dựng các hệ thống tư vẫn học tập, đề xuất các khóa học phù hợp, hoặc hỗ trợ Việc tao ra các ti nguyên giáo đục tủy chỉnh cho từng học sinh Cée Knowledge Graph của học sinh, tờ đó đưa ra những gợi ý và hưởng dẫn học tập hiệu quả Nhiều nghiên cứu Một số ứng dụng đựa trên đồ tị tr thức hỗ trợ quá tình giáo dục, đặc biệt tập trung vào mạng xã hội như Facebook và Ttuiter đã tở thành một bộ phận không th tách rời rong
xã hội mở ra những cơ hội mới để hiểu rõ hơn về hành vi, mỗi quan hệ và tương tác của
Trang 38son người trên không gian âo, Điễu này không chỉ mang lại lợi ích cho các doanh nghiệp phát tiển xã hội số Ví dụ như việc trích xuất mỗi quan hệ xã hội ỗ trợ các công ty theo
dõi người dùng và nâng cao trải nghiệm người dùng Vì vậy, nhiều công trình được dành
cho việc khai thác các mỗi quan hệ xã hội Wang và cộng sự [81] để xuất mô hình suy luận
đồ thị để nhận ết các mồi quan hệ xã hội của con người trong một bức ảnh được đăng trên các trang mạng xã hội
Trang 39“Chương này sẽ trình bày lẫn lượt tổng quan các phương pháp dich miy mang neural
"Đồng thời ong từng phương pháp, tôi cũng nêu ra khái niệm cũng như ưu-khuyết điểm về
một số thuật toán, kiến trúc mô hình tiêu biểu để làm cơ sở chọn lựa mô hình phủ hợp với
ngữ tự nhỉ mấy, ôm tắt văn bản và trả lời sâu hỏi Ý tưởng cố lõi của Seq2Seq
là sử đụng hai mạng neura hồi quy (RNN) để mô hình hóa quá trình biển đổi từ một chuỗi
dau vào sang một chuỗi đầu ra có độ đài khác nhau
Mang thin kinh tái phát (Recurrent Neural Network - RNN) [S2] được Elman giới thiệu lin đầu tiên nằm 1990 là một kiến trúc mạnh mẽ và linh hoạt, đã được áp dụng thành công
trong nhi tác vụ xử lý dữ liệu tuần tự như mô hình hỏa ngôn ngỡ và địch máy thần kính
Khác với các mạng neual truyền thống chỉ có khả năng xử lý dữ iệu đầu vào độc lập, RNN
có thể xử lý chuỗi dữ liệu với độ dài thay đổi bằng cách sử dụng bộ nhớ Về mặt cấu trúc,
RNN nhận đầu vào là một chuỗi các vetor xụ xạ, zụvà xử lý chúng tu tự từng phần tử dđựa trên đầu vào hiện tại và trạng thi ấn trước đồ h1 Trạng thải n h có thể được coi là
biểu di ngữ nghĩ tích luỷ cho đoạn chuỗi đầu vào tử bước 1 đến bước t Bị quyết
trọng nằm ở công thức lặp li (reeurenee relation) xác định cách cập nhật trạng th RNN Dé áp dụng mạng thần kinh ái phát (RNN) cho việc xử lý các câu trong ngôn ngữ, hoặc những chuỗi ký tự rời rạc nói chung, một phương pháp phổ biến là sử dụng biểu điễn
tử trong từ vựng ([V) với V là ừ vựng đang xét, trong đố chỉ có một thành phần của vector
bằng Ï tại vị trí tương ứng với từ trong từ điễn, còn lại đều bằng 0 Tuy nhiên, với một từ
vựng lớn, việc sử dụng biểu diễn này gặp vẫn đ n đến ma trận
Trang 40tổ, người ta thường sử dụng biển Šn vector những chiều thấp (dense low-dimensional xepresenitions) hoặc nhúng từ (word embeddings) cho các từ Cụ thé, ma trận nhúng H €
IR%«*lf được sử dụng để ánh xạ mỗi từ +; trong từ vựng V thành một vector nhúng x, €
IR với di là chiều cũa vector nhúng, Những biễu diễn này giúp giảm chỉ phí tính toán và củng cấp khả năng bi an sự tương đồng ngữ nghĩa giữa các từ Thông thường, các phần
nhúng từ được học từ ngữ liệu lớn và sẵn sàng sử dụng cho các mô hình ngôn ngữ tự nhiên như RNN, giúp cái thiện hiệu suất và chất lượng của mô hình Hình 2.1 mô tá kiến trúc mô hinh RNN đảnh cho ngôn ngữ
coy 3 lš| lš l§| |g
wo 8 ig) Bk |e
Hình 2.1 Kiến trúc mô hình RNN áp dụng cho mô hình ngôn ngữ
Trong kiến trúc mồ hình Seq2Seq [19] với RNN, vai trò của encoder là nền toản bộ
chuỗi đầu vào thành một veetor duy nh Tuy nhiên, việc này gặp khó và phát sinh vẫn đề
"botleneck" khi encoder phải nén toàn bộ thông tin của chuỗi đầu vào dai vio mot vector biểu diễn duy nhất Điều này dẫn đến nguy cơ mắt mát thông tin và lảm giảm hiệu suất của
mô hình, đặc biệt là với các chuỗi đầu vào dài Hơn nữa, decoder chỉ nhận được một vector
biểu diễn duy nhất của toàn bộ chuỗi đầu vào, trong khi tại mỗi bước thời gian, các phần
khác nhau của chuỗi đầu vào có thể có ý nghĩa khác nhau Vì vậy, trong mô bình hiện ti,