Luận án tiến sĩ Khoa học máy tính: Nghiên cứu các mô hình sinh chuỗi từ chuỗi sử dụng học sâu và ứng dụng trong xử lý ngôn ngữ tự nhiên

Trong các lĩnh vực đó, một loạt các vấn đề cần giải quyết được quy về lớp các bài toán học máy và được mô hình hoá ở dạng bài toán sinh chuỗi từ chuỗi Sequence to Sequence, viếttắt là Se

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYÊN NGỌC KHƯƠNG

NGHIÊN CỨU CÁC MÔ HÌNH SINH CHUOI TỪ CHUỖI SỬ DUNG HOC SAU

VÀ ỨNG DỤNG TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

LUẬN ÁN TIÊN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2024

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYÊN NGỌC KHƯƠNG

NGHIÊN CỨU CÁC MÔ HÌNH

SINH CHUỖI TỪ CHUỖI SỬ DỤNG HỌC SÂU

VÀ UNG DỤNG TRONG XU LÝ NGÔN NGU TỰ NHIÊN

Chuyên ngành: Khoa học máy tính

Mã số: 9480101.01

LUẬN ÁN TIÊN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS.TS Nguyễn Việt Hà

2 PGS.TS Lê Anh Cường

Hà Nội - 2024

Trang 3

Lời cam đoan

Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện

dưới sự hướng dẫn của PGS.TS Nguyễn Việt Hà và PGS.TS Lê Anh Cường

Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong

luận án này được ghi rõ nguồn trong phần tài liệu tham khảo.

Nguyễn Ngọc Khương

Trang 4

TOM TAT

Hoc sau (Deep Learning) là cách tiếp cận hoc máy đã và đang phát triển mạnh

mẽ gần đây cả trong nghiên cứu và ứng dụng Nhờ các phương pháp học sâu mànhiều ứng dụng khác nhau của lĩnh vực trí tuệ nhân tạo đã trở nên hiện thực, trải

khắp các bài toán của xử lý ngôn ngữ tự nhiên (NLP: natural language processing),

thị giác máy tính (computer vision), xử lý tiếng nói (speech processing) Trong các

lĩnh vực đó, một loạt các vấn đề cần giải quyết được quy về lớp các bài toán học máy

và được mô hình hoá ở dạng bài toán sinh chuỗi từ chuỗi (Sequence to Sequence, viếttắt là Seq2Seq), tức đầu vào là thông tin dưới dạng chuỗi và đầu ra cũng là chuỗi

thông tin được sinh ra, như bài toán dịch máy (machine translation), bài toán tóm

tắt văn bản (text summarization), bài toán diễn đạt lại văn bản (paraphrasing), bàitoán nhận dạng tiếng nói (speech to text/speech recognition), bài toán nhận dang chữviết (OCR: optical character recognition) Các mô hình học sâu cho bài toán Seq2Seq

vì vậy đang thu hút rất nhiều nghiên cứu trong lĩnh vực học máy cũng như trong

các lĩnh vực dữ liệu chuyên sâu như xử lý ngôn ngữ tự nhiên (NLP: natural language

processing), xử lý tiếng nói (speech processing), hay thị giác máy tính (computer

vision).

Trong phạm vi nghiên cứu của luận án này, chúng tôi tập trung vào nghiên cứu

phát triển các mô hình hoc sâu Seq2Seq trong ngữ cảnh ứng dụng cho bài toán diễn đạt lại văn bản và bài toán tóm tắt văn bản M6 hình hoc máy Seq2Seq ở dạng tổng

quát bao gồm hai cấu phần là bộ mã hóa (Encoder) và bộ giải mã (Decoder) Cả

hai thành phần này đều được cấu tạo từ các mạng nơ ron Bộ mã hoá có nhiệm vụ

chuyển đổi dữ liệu từ chuỗi đầu vào thành một véc-tơ biểu diễn chứa toàn bộ thông tin đầu vào, còn bộ giải mã có nhiệm vụ sinh ra chuỗi đầu ra từ véc-tơ biểu diễn của

chuỗi đầu vào Đối với các bài toán xử lý ngôn ngữ tự nhiên, một văn bản đầu vào

chứa các mức độ ngữ nghĩa khác nhau như mức từ, mức câu, mức đoạn, mức toàn

bộ văn bản Hơn nữa các thành phần này trong văn bản có quan hệ với nhau rất đa

nghĩa, ví dụ mỗi từ sẽ có ngữ nghĩa khác nhau khi ở trong các ngữ cảnh khác nhau.

Vì vậy phát triển các mô hình học máy cho nhiệm vụ mã hoá một văn bản sao cho

Trang 5

véc-tơ biểu diễn của nó phản ánh đầy đủ và chính xác văn ban đầu vào luôn là bài

toán thách thức trong lĩnh vực nghiên cứu NLP Đối với bộ giải mã, nhiệm vụ là sinh

ra chuỗi đầu ra cho một mục tiêu nhất định, ví dụ như sinh câu trả lời trong bài toánhội thoại sẽ khác trong bài toán tóm tắt văn bản Một mô hình học máy tốt sẽ phải

giải quyết vấn đề sử dụng một cách phù hợp thông tin đầu vào để sinh nội dung đầu

ra thoả mãn yêu cầu, vì vậy đây cũng luôn là vấn đề thách thức đối với bộ giải mã.

Trong luận án này, chúng tôi tập trung nghiên cứu phát triển các mô hình Seq2Seq

để góp phần giải quyết các vấn đề nêu trên.

Với mục tiêu đó, luận án tập trung nghiên cứu đề xuất các phương pháp nhằmtối ưu hoá việc mã hoá thông tin văn bản đầu vào, dựa trên việc mã hoá cấu trúc

ngữ nghĩa phân cấp của văn bản Chúng tôi cũng đồng thời phát triển mô hình sinh

văn bản dựa trên việc sử dụng cơ chế chú ý (attention) kết hợp với mô hình hoá các

ràng buộc của chuỗi đầu ra Nội dung nghiên cứu tập trung phát triển các mô hình

học sâu Seq2Seq cho hai bài toán: bài toán thứ nhất là bài toán diễn đạt lại (text

paraphasing) một văn bản đầu vào theo một cách diễn đạt mới; bài toán thứ hai là

tóm tắt văn bản theo tiếp cận tóm lược (abstractive text summarization)

Đối với bài toán sinh văn bản, luận án đề xuất mô hình cải tiến để mô hình hoá

vai trò và mối quan hệ có tính cấu trúc của các thành phần trong văn bản đầu vào

và vì vậy đã cải thiện chất lượng pha mã hoá Kết quả thực nghiệm cho bài toán diễn

đạt lại văn bản trên hai kho dữ liệu phổ biến đã cho thấy mô hình cơ chế chú ý phân

cấp cho kết quả tốt hơn đối với mô hình chỉ sử dụng thông tin cấu trúc mức từ Bên

cạnh đó, thực nghiệm trên đề xuất biểu diễn ngữ cảnh hai phía của từ theo các mức

ngữ nghĩa khác nhau cũng đã chứng minh được tính hiệu quả cho bài toán diễn đạt

lại văn bản.

Đối với bài toán tóm tắt tóm lược, luận án đề xuất mô hình biểu diễn ngữ cảnh

hai phía của từ, câu và mối quan mối quan hệ mức từ với mức câu trong văn bản đầu

vào tại pha mã hoá để cải thiện chất lượng sinh tóm tắt tóm lược Hiểu bản chất của

văn bản đầu vào là yếu tố quan trọng quyết định đến chất lượng đầu ra của văn bảntóm tắt, cơ chế chú ý toàn cục chú trọng đến vai trò của từng thành phần trong vănbản đầu vào trên toàn bộ ngữ cảnh, trong khi đó cơ chế chú ý cục bộ đề cập đến vai

trò của từng thành phần trong từng ngữ cảnh cụ thể Luận án cũng đề xuất mô hình

Trang 6

kết hợp hai cơ chế chú ý trên để cải thiện chất lượng sinh tóm tắt tóm lược của mô

hình Trong tóm tắt nói chung và tóm tắt tóm lược nói riêng, độ dài của bản đầu ra

cũng là một trong những yêu cầu quan trọng trong phương diện nghiên cứu và ứng

dụng Chúng tôi nghiên cứu đề xuất mô hình tích hợp ràng buộc độ dài trong pha

mã hoá và pha giải mã trong mô hình Seq2Seq thích hợp cho bài toán sinh tóm tắt

tóm lược có giới hạn độ dài.

Trang 7

15.1 Mục tiêu nghiên cỨu Ặ.ẶẶ ẶSỒ Ặ So 20

¬ 1

` 22 Ộaaa 22

Ta eee 28

Ha 23

2 Kiến thức cơ sở 25

2.1 Mạng nơ-ron hồi quy| c c Q Q v2 25

2.1.1 Biểu diễn và huấn luyện mạng hồi quy 25

2.1.2 Mạng thang du (Residual Networks)) 29

Trang 8

2.2 Mô hình ngôn ngữ dựa trên kỹ thuật học sâu

2.21 Biểu diễn từ Word Embedding|

-2.2.2_ Biểu diễn từ

Word2Vecl -2.2.3 Mô hình BBRII

2.3_ Mô hình sinh chuỗi từ chuỗi

2.3.2 Kién trúc mã hoá - giải mã chuẩn 2.3.3 Huanluyén) 2 0.000000 0.00 ee ee 2.3.4 Hạn chế của kiến trúc mã hoá - giải mã cøơbản|

2.3.5 Cơ chế chú yf) 2.0.0.0 000000 ee 2.3.6 Mô hình lransiormer]

2.4 Diễn đạt lại văn bẳn| Q Q Q Q Q Q Q a 2.5.1 Các khái niệm và phương pháp điển hình 2.5.2 Nhận xét]l 2 0.0.0 020.000.0000 00000000 2 eee 2.6 Các độ do cho đánh giá chất lượng sinh văn ban giá nội dung 2.6.2_ Đánh giá nội dung tóm tắt văn bản 2.7 Dữ liệu thực nghiệm| Ặ Ặ Ặ 2.0.0.0 2000.4 2.7.1 Bài toán diễn đạt lại văn bản 2.7.2 Bài toán tóm tắt tóm lược văn ban 3 Mô hình sinh chuỗi từ chuỗi cho bài toán diễn đạt lại văn ban 3.1 Cơ chế chú ý toàn cục cho bài toán diễn đạt lại văn ban 3.1.1 Mô hình đề xuất

3.1.2 Thucnghiém) 0.200.000 00 eee

Trang 10

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Nguyễn Việt Hà và PGS.TS.

Lê Anh Cường, hai Thay đã trực tiếp hướng dan, chỉ bảo tận tình, luôn hỗ trợ

và tạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.

Tôi xin chân thành cảm ơn các thầy/cô giáo ở Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các thầy/cô

giáo ở Bộ môn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp

đỡ tôi trong quá trình học tập và nghiên cứu ở trường

Tôi xin chân trọng gửi lời cảm ơn đến PGS.TS Nguyễn Phương Thái, TS Trần Quốc Long, TS Nguyễn Văn Vinh, TS Bùi Ngọc Thăng, PGS.TS Phan

Xuân Hiếu, PGS.TS Lê Thanh Hà, TS Lê Đức Trọng, TS Ma Thị Châu, TS.

Tạ Việt Cường (Trường Dại học Công nghệ, Dại học Quốc gia Hà Nội), TS Nguyễn Thị Minh Huyền (Trường Dai học Khoa hoc Tự nhiên, Dai học Quốc

gia Hà Nội), TS Trần Hồng Việt (Trường Dại học FPT), TS Phạm Dức Hồng

(Trường Dai học Điện lực), TS Hồ Thi Xuân Hương (Trường Dai học Quản

lý kinh doanh và Công nghệ), các thầy/cô đã có những góp ý hữu ích để tôi

chỉnh sửa, hoàn thiện luận án

Tôi xin cảm ơn đến tất cả anh, chị, em đồng nghiệp ở Bộ môn Khoa học

máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học

Quốc gia Hà Nội đã giúp đỡ tôi trong thời gian làm nghiên cứu sinh.

Tôi xin trân trọng cảm ơn Đảng ủy, Ban giấm hiệu Trường Đại học HảiPhòng, Lãnh đạo Khoa Công nghệ thông tin, Lãnh đạo Phòng Đào tạo và các

bạn đồng nghiệp tại Trường Dại học Hải Phòng đã quan tâm, giúp đỡ và tạo điều kiện cho tôi trong suốt thời gian làm nghiên cứu sinh.

Cuối cùng, tôi xin bay tổ lòng biết ơn đến tất cả các thành viên trong gia

đình cùng toàn thể bạn bè đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi

học tập, nghiên cứu.

Trang 11

Danh mục viết tắt và thuật ngữ

BiGRU Bidirectional GRU Mang GRU hai phia

BiLSTM Bidirectional LSTM Mang LSTM hai chiéu

BPTT Backpropagation Through Time Lan truyền ngược liên hồi

CBoW Continuous Bag of Words Túi từ liên tiếp

CNN Convolution Neural Networks Mạng tích chập

EM Expectation Maximization Cực đại hóa kỳ vọng

ESLNs Event Semantic Link Networks Mang liên kết ngữ nghĩa sự kiện

FEN Feed Forward Networks Mạng lan truyền thẳng

GAN Generative Adversarial Networks Mạng sinh

GLUE General Language Understanding Evaluation Độ đo đánh giá hiểu ngôn ngữ

GNMT Google’s Neural Machine Translation Mô hình dich dựa trên mang nơ-ron của google

GRU Gated Recurrent Unit Đơn vị hồi quy có cổng

HCA Hierarchical Conditional Attention Cơ chế chú ý phân cấp có điều kiện

HTML HyperText Markup Language Ngôn ngữ đánh dấu siêu văn bản

ILP Integer Linear Programming Quy hoach tuyén tinh nguyén

INIT Information Item Muc thong tin

KD Knowledge Distillation Chất loc tri thức

LA Length Attention Chú ý độ dài

LC Length Controllable Điều khiển độ dài

LE Length Embedding Nhúng độ dài

LLM Large language model Mô hình ngôn ngữ lớn

LPAS Length Pre-trained Abstractive Summarization | Mô hình tóm tắt được huấn luyện trước

LSTM Long Short-Term Memory Bộ nhớ dài-ngắn han

ME Maximum Entropy Độ hỗn loan cực đại

MLE Maximum Likelihood Estimation Ước lượng khả năng cực đại

MLM Masked Language Model Mô hình ngôn ngữ đánh dấu

MLP Multi-Layer Perceptron Mạng Perceptron đa lớp

MT Machine Translation Dịch máy

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

NNLM Neural Network Language Model Mô hình ngôn ngữ dựa trên mang nơ-ron

NSP Next Sentence Prediction Dự đoán câu tiếp theo

OCR Optical Character Recognition Nhan dang ky tu quang hoc

PCA Penalty Coefficient Attention Co chế chú ý phạt

PE Positional Encoding Mã hoá vị trí

POS Part Of Speech Nhãn từ loại

RNN Recurrent Neural Network Mang hồi quy

RoBERTa | Robustly optimized BERT approach Mô hình tối ưu BERT

RRA Recurrent Residual Attention Cơ chế chú ý trên mạng hồi quy thang dư

Seq2Seq Sequence To Sequence Sinh chuỗi từ chuỗi

SMT Statistical Machine Translation Dịch máy thống kê

SRLSTM Stacked Residual LSTM Mang LSTM thang du đa lớp

SVM Support Vector Machine Máy véc-tơ hỗ trợ

WE Word Embedding Ti nhúng

Trang 12

Vi du vé dién dat lai vin ban

Kiến trúc mạng hồi quy.

Đồ thị tính toán trên mạng hồi quy.

Kết nối thang dư| ee

Mô hình mạng thặng dư chỉ tiết.

Phương sai với phương pháp khởi tạo của tham số 50).

Mô hình cân bằng phương sai.J 2 0 ee

Đồ thị hàm và đạo hàm tanh

Mã hoá và giải mã từ theo mô hình Word2vec 105).

2.10 Mô hình CBoW sử dung ngữ cảnh của một từ dé dự đoán từ đó

2.11 Mô hình Skip-Gram [105|.| SỐ VẶT.

2.12 Kiến trúc mô hình BERT |60||

- -2.13 Biểu diễn đầu vào của mô hình BERT 60}.

3.1

3.4

10

30 31 32

33

44

Trang 13

3.5 Kết quả trung bình độ đo BLEU, TER trên kho dữ liệu PPDB 88 3.6 Két quả độ đo METEOR trên kho dữ liệu PPDB 88 3.7 Kết quả độ đo Emb trung bình trên kho dữ liệu PPDB 89

3.8 Kết quả độ do BLEU trên hai kho dữ liệu PPDB va Wiki Answer 89 3.9 Kiến trúc mang với cơ chế chú ý phân cấp 91

3.10 Cơ chế chú ý trên bộ giải mã 93

ẹaáđá 93

3.12 Kết quả độ đo BLEU, METEOR, TER trung bình trên dữ liệu PPDB.| 97 3.13 Kết quả độ đo EMB trên dữ liệu PPDB 97 3.14 So sánh HCANN với S2SA-2 trên dữ liệu PPDB.| 97 3.15 So sánh HCANN với S2SA-2 trên dữ liệu WikiAnswer 98

4.1 Mô hình biểu diễn phân cấp 102

4.2_ Kết quả mô hình HS2S với mô hình ABS+ trên kho dữ liệu Gigaword.| 107 4.3 Kết quả mô hình HS2S và ABS+ trên kho dữ liệu Amazon Reviews 107 4.4 Một số kết quả thực nghiệm tai đầu ra của mô hình 108

4.5 Mô hình Seq2Seq tiêu chuẩn| Ặ.Ặ ee 109

4.6 Cơ chế chú ý| c Ặ Q Q TQ ee 111

4.7 Mot nút mạng hồi quy có cong chú ý thing dư 112

4.8 Co chế chú ý thang dư trên mạng hồi quy 112 4.9 Sơ đồ hàm lỗi quá trình Huấn luyện/Đánh giá 114 4.10 Kết quả trên các văn bản ngắn của 03 mô hình tốt nhất trên Gigaword.| 116 4.11 Kết quả trên các văn bản dài của 03 mô hình tốt nhất trên Gigaword.| 116

Trang 14

Danh sách bang

"an 130

12

Trang 15

Chương 1: Mở đầu

1.1 Bối cảnh

Xử lý ngôn ngữ tự nhiên là một trong những lĩnh vực quan trọng với nhiều ứng

dụng thực tiễn trong ngành khoa học máy tính Trong đó một lớp các bài toán có

thé mô hình hoá dưới mô hình Seq2Seq như: dịch máy, tom tắt văn ban, hội thoại tự động, sinh diễn giải ảnh, Có thể nhận thấy đặc điểm chung của các lớp bài toán

này là: đầu vào là một chuỗi và đầu ra là một chuỗi trong cùng hoặc khác ngôn ngữ

tùy thuộc vào đặc trưng của bài toán.

Cách tiếp cận phổ biến cho các mô hình Seq2Seq thường được biểu diễn dưới

dạng kiến trúc mã hoá - giải mã, trong đó bộ mã hoá thực hiện chức năng ánh xạ

các thành phần trong chuỗi đầu vào để chuyển thành một véc-tơ có kích thường cố định (véc-tơ biểu diễn trung gian đại diện cho chuỗi đầu vào) tại bước mã hoá cuối cùng Trong khi đó bộ giải mã sử dụng véc-tơ biểu diễn trung gian là trạng thái an

đầu tiên và tạo ra các thành phần ở chuỗi đầu ra tại mỗi bước giải mã Bài toán sinh

chuỗi 41, , Ym từ chuỗi z+, ,z„ có thể được mô hình hoá thành hàm phân phối xác

suất có điều kiện như sau:

ra đứng trước liền kề Phân bố này được biểu diễn bằng một hàm softmax trên tất

cả các từ trong tập từ vựng ở ngôn ngữ đích Công thức trên có thể được viết lại

13

Trang 16

Trong đó g là hàm dùng để biến đổi trạng thái an h; của bộ giải mã tại bước giải mã

tương ứng thành véc-tơ có kích thước bằng kích thước của tập từ vựng trong ngôn

ngữ đích Trạng thái an h; được tính như sau:

hy = ƒ(h;_¡,s) (1.4)

Trong đó ƒ là hàm biểu diễn chung cho quá trình tính trang thái ẩn tại bước hiện tại

từ trạng thái an đầu ra của bước trước bằng mạng nơ-ron.

Mô hình Seq2Seq dựa trên kiến trúc mã hoá-giải mã được trình bày ở trên tuy

đã giải quyết bài toán chuyển hóa chuỗi đầu vào thành chuỗi đầu ra trên cùng hoặc

khác ngôn ngữ, tuy nhiên vẫn còn tồn tại một số hạn chế như sau:

e Dầu tiên, dễ thấy nhất đó là việc sử dụng bộ mã hoá duyệt qua từng phần từ

của chuỗi đầu vào và rồi lấy ra véc-tơ trạng thái ẩn của mạng này ở thời điểm

cuối cùng, và hy vọng rằng mô hình sẽ nhớ hết những thông tin cần thiết của

chuỗi đầu vào trước khi chuyển hóa thành chuỗi đầu ra, điều này không phải là

điều luôn khả thi Với những chuỗi dài, sau khi duyệt qua hàng loạt các phần

thì thông tin ở những phần đầu có thể sẽ bị “quên”.

e Thứ hai, các mô hình Seq2Seq dựa trên kiến trúc mã hoá giải mã sử dung mạng

nơ-ron nhiều tầng thường yêu cầu tài nguyên tính toán rất lớn để có thể huấn

luyện để tối ưu học mô hình.

e Kế tiếp, biểu diễn vai trò và quan hệ của các thành phần cấu trúc trong văn

bản đầu vào và đầu ra chưa được xem xét đánh giá đầy đủ trong kiến trúc mã

hoá-giải mã cho bài toán sinh văn bản.

e Bén cạnh đó, các hoạt động bên trong các mô hình Seq2Seq khó diễn giải một

cách tường minh, điều này dẫn đến yếu tố ràng buộc nói chung và ràng buộc về

14

Trang 17

độ dài trong kiến trúc mã hoá-giải mã khó có thể được mô hình hoá một cách

khái quát.

1.2 Cac nghiên cứu liên quan

Trong nghiên cứu của mình Kalchbrenner và Blunsom đã chỉ ra rằng một

trong những điều kiện tiên quyết để mô hình Seq2Seq sinh ra được chuỗi đầu ra mong muốn cho từng bài toán cụ thể đó là phải có khả năng học biểu diễn ngữ nghĩa chuỗi đầu vào Nhìn chung, có hai cách tiếp cập chính cho bài toán học biểu diễn ngữ

nghĩa:

Biểu diễn phân phối (distributed representation): Tiếp cận này hướng tới việc

biểu diễn ý nghĩa của một đơn vị ngôn ngữ (từ, câu, đoạn) dưới dạng một véc-tơ số thực Véc-tơ này ánh xạ các đối tượng biểu diễn vào một không gian khái niệm để biểu diễn được mối liên hệ, sự tương đồng về mặt ngữ nghĩa, ngữ cảnh của dữ liệu.

Không gian này bao gồm nhiều chiều (mỗi chiều biểu diễn một khái niệm trừu tượng

nào đó) mà các đơn vị ngôn ngữ trong không gian đó mà có cùng ngữ cảnh hoặc ngữ

nghĩa sẽ có vị trí gần nhau Thông thường, các nghiên cứu trong lĩnh vực này thường

sử dụng giả thiết phân phối được đề xuất bởi Firth và cộng sự (34), nghién cttu nay

cho rằng các đơn vị ngôn ngữ xuất hiện và được sử dung trong cùng một ngữ cảnh,giống nhau về mặt ngữ nghĩa và có nghĩa tương tự Nói một cách đơn giản "ngữ nghĩa

của một đơn vị ngôn ngữ được tạo nên bởi ngữ cảnh xung quanh no".

Một phương pháp tương đối đơn giản để biểu diễn quan hệ ngữ nghĩa giữa các đơn vị

ngôn ngữ đó là sử dụng véc-to đồng xuất hiện (co-occurrence vector) Phương phápthống kê này đơn giản là đếm những từ xung quanh, cùng xuất hiện với một từ nhấtđịnh, khi đó hai từ có khoảng cách giữa hai véc-tơ đồng xuất hiện nhỏ thì sẽ cókhả năng xuất hiện trong các ngữ cảnh giống nhau và có sự tương đồng về mặt ngữ

nghĩa [izrl: Rõ ràng, có thể thấy đối với các phương pháp thống kê kiểu này, khi

số chiều của véc-tơ biểu diễn lớn thì độ phức tạp tính toán sẽ tăng lên.

Bên cạnh đó, dạng biểu diễn nhúng (embedding) cũng là một kỹ thuật để biểu

diễn các đơn vị ngôn ngữ dưới dạng các véc-tơ số học, nhưng đặc điểm khác biệt đó

là các véc-tơ số thực liên tục và các véc-tơ này có thể học được Một phương pháp

15

Trang 18

khá điển hình trong cách tiếp cận này đó là phương pháp sử dụng mạng nơ-ron Năm

2003, Bengio và cộng sự |ð| đã khai thác khả năng học ngữ nghĩa của mạng no-ron

nhân tạo và xây dựng một mô hình ngôn ngữ (Neural Network Language Model

-NNLM) để dự đoán dạng biểu diễn nhúng của từ (word embedding) Tuy nhiên nhược điểm của đề xuất này đó là chi phí tính toán rất lớn, cụ thể là ở lớp tính softmax

cuối cùng, đặc biệt là với bộ từ vựng lớn Nếu như NNLM là mô hình mạng đầu tiên

áp dụng kỹ thuật học máy cho việc tạo ra các véc-tơ nhúng của từ thì Word2vec là

mô hình thực hiện việc nhúng từ phổ biến nhất Dược giới thiệu bởi Mikolov vào

năm 2013, trong các nghiên cứu của mình tác giả và cộng sự đã đề xuất sử dụng kỹ

thuật học sâu để tính toán và tạo ra các véc-tơ biểu diễn các từ và bao gồm được cả

các tương đồng về ngữ cảnh và ngữ nghĩa của từ đó Về cơ bản, đây là mô hình học

không giám sát, có thể áp dụng được cho những tập văn bản lớn Hai cách thức xây

dựng mô hình Word2Vec được đề cập trong nghiên cứu này bao gồm: Sử dụng ngữ

cảnh để dự đoán mục tiêu (CBOW) va sử dụng một từ để dự đoán ngữ cảnh mục

tiêu (Skip-gram) Cả hai cách thức này đều là các mô hình dự đoán Trong đó, các

thuật toán chỉ xem xét được ngữ cảnh xung quanh từ mục tiêu nhưng không đề cậpđược về ngữ cảnh toàn văn bản Thay vì tính toán xác suất trên các ngữ cảnh đơn

lẻ xung quanh từ mục tiêu, Pnenington và cộng sự đã đề xuất mô hình GloVedựa trên tính toán xác suất trên toàn bộ tập dữ liệu Kết quả thực nghiệm trên một

số nhiệm vụ về ngữ nghĩa, nhận dạng thực thể có gắn tên, đã cho thấy GloVe đạt được kết quả trội hơn và có độ ổn định trung bình tốt hơn Word2Vec Cả GloVe và

Word2Vec đều biểu diễn được mối tương quan về mặt ngữ nghĩa, ngữ cảnh cả các

từ nhưng lại chỉ trong phạm vi dữ liệu của bài toán và kém hiệu quả trong trường

hợp gặp các từ mới, từ hiếm FastText được đề xuất bởi Bojanowski và cộng sự (s},

là phương pháp mở rộng của mô hình Word2Vec Thay vi hoc trực tiếp véc-tơ cho

các từ, fastText biểu thị mỗi từ dưới dạng n-gram ký tự Điều này giúp mã hoá các

cụm ký tự (subword) và cho phép sinh vector-mã hoá cho các subword FastText vì

vậy sinh được véc-tơ nhúng cho các từ mới (không nằm trong tập dữ liệu huấn luyện)nhờ sự kết hợp véc-tơ nhúng của các subword của nó

Ngoài các phương pháp biểu diễn cho từ và các yếu tố của từ, trong những năm

gần đây hướng tiếp cận biểu diễn phân phối ngữ nghĩa còn được sử dụng để biểu diễn

16

Trang 19

câu [63] Hướng tiếp cận này nén một câu có độ dai thay đổi thành một

biểu diễn véc-tơ có kích thước cố định, điều này có thể làm mất đi các khía cạnh có

ý nghĩa của câu gốc

Biểu diễn cấu trúc: Là một cách biểu diễn theo tiếp cận ngôn ngữ học tính toán

(computational linguistics) Trong tiếp cận này, các đối tượng trong ngôn ngữ (dạng

văn bản) được hình thành dựa trên nguyên tắc cấu thành từ các thành phần nhỏ

hơn theo quy tắc ngôn ngữ (ví dụ quy tắc ngữ pháp): các chữ cái cấu thành từ, các

từ cấu thành cụm, các cụm cấu thành câu và các câu cấu thành văn ban (138) Biéu diễn văn bản có thé chia thành các mức như sau: mức từ [99], mức cum (ss), mức câu , mức văn bản (124) Các nghiên cứu liên quan tập trung đề xuất phương

pháp biểu diễn, lượng hoá vai trò của các thành phần trong chuỗi đầu vào, tuy nhiên

các nghiên cứu vẫn gặp phải những thách thức sau:

e Chưa biểu diễn được đầy đủ các đặc trưng của các thành phần trong cấu trúc

chuỗi đầu vào

e Chưa khai thác được đầy đủ vai trò của các thành phần đặc trưng trong cấu

trúc chuỗi đầu vào trong quá trình sinh văn bản đầu ra

e Chưa biểu diễn được một cách tổng quát các yếu tố ràng buộc trong quá trình

sinh văn bản đầu ra

1.3 Bài toán diễn đạt lại văn bản

Diễn đạt lại văn bản là quá trình viết lại nội dung một văn bản nguồn để thu được một dạng văn bản khác mà không thay đổi ý nghĩa chính Trong quá trình này,

quá trình diễn đạt lại cố gắng sử dụng từ vựng, cấu trúc câu và phong cách ngôn ngữ

của mình để tái hiện lại thông tin từ văn bản nguồn một cách tự nhiên và chính xác Điều này có thể bao gồm việc sử dụng từ đồng nghĩa, thay đổi cấu trúc câu, hoặc tái sắp xếp các ý để phù hợp với ngữ cảnh hoặc mục đích cụ thể Mục tiêu của việc diễn

đạt lại văn bản là truyền đạt thông điệp một cách hiệu quả trong ngữ cảnh mới mà

không làm thay đổi ý nghĩa ban đầu như ví dụ trong hình [1.1]

17

Trang 20

Scientists in Australia are despondent ahead of the Australian scientists are disappointed in the run-up to

country’s election next week They say neither the \ ,

: tg š next week's national elections Neither the government

government nor the main opposition party have made

sufficient pledges to address issues surrounding research nor the main opposition promises are enough to address

funding, low morale and job insecurity — issues that the the issues of research funding, low morale and job

COVID-19 pandemic has exacerbated .

insecurity, which are exacerbating the COVID-19

pandemic.

Hinh 1.1: Vi du vé dién dat lai van ban

Diễn đạt lại văn ban đóng vai trò quan trọng trong nhiều bài toán xử lý ngôn

ngữ tự nhiên, đặc biệt là các bài toán liên quan đến hiểu văn bản như: hệ thống hỏi

dap [142]: dịch mấy [125]: phân tích ngữ nghĩa lỗ (14): bên cạnh đó diễn đạt

lại văn bản cũng là một tác vụ rất hữu ích trong các kỹ thuật học máy khi dữ liệu ít,

khi đó diễn đạt lại văn bản có thể sử dụng là một giải pháp làm tăng đữ liệu (36).

Mô hình hoá bai toán diễn đạt lại văn ban được phát biểu như sau: cho văn ban đầu vào X = (#i,#2, #„) bao gồm n từ nằm trong từ điển (x; € V) và văn bản diễn

đạt lại của văn bản X, ký hiệu là Y với Y = (,a, , Ym) € VTM Cần xác định tham

số Ø của mô hình Gp để sinh ra văn bản Y = (i,» f„„) € VTM sao cho Y # X.

Biểu diễn dưới mô hình Seq2Seq, được viết mô hình hoá như sau:

P(Y) = [[o@ln sen Yt-15 Cn) (1.5)

t=1

Trong đó

P(YelYrs -: Ue~t› Cn) = F(Yr-1, Se; En) (1.6)

Mục tiêu của ham hợp lý cực dai (Maximum Likelihood Function - MLE) là tìm tap

tham số 6* để cực đại hoá hàm khả năng (tức là sao cho ngữ nghĩa của Y gần với ngữ

nghĩa của Y nhất có thể) Chúng tôi định nghĩa tập tham số Ø* để mô hình Gp có

thể sinh ra chuỗi Ÿ„„ = (u,?b, Fm) trong đó % nằm trong tập từ vựng của ngôn

ngữ đang xem xét.

1.4 Bài toán tóm tắt văn bản tóm lược

Tóm tắt đơn văn bản hướng tóm lược là cách thức tạo ra một văn bản tóm tắt

ngắn gọn, cô đọng, nắm bắt được nội dung chính của văn bản nguồn Để sinh bản

18

Trang 21

Input Article

Marseille, France (CNN) The French

prosecutor leading an investigation into the

crash of Germanwings Flight 9525 insisted

Wednesday that he was not aware of any

video footage from on board the plane,

Marseille prosecutor Brice Robin told CNN

that" so farno videos were used in the crash

investigation.” He added, "A person who Generated summary

has such a video needs to immediately give it = Abstracthve Prosecutor : “ So far no videos were

to the investigators " Robin\'s comments summarization used in the crash investigation ”

follow claims by two magazines, German

daily Bild and French Paris Match, of a cell

phone video showing the harrowing final

seconds from on board Germanwings Flight

9525 as it crashed into the French Alps All

150 on board were killed Paris Match and

Bild reported that the video was recovered

from 4 phone at the wreckage site.

Hình 1.2: Ví du về tóm tắt văn bản hướng tóm lược

tóm tắt, tóm tắt hướng tóm lược thực hiện viết lại và nén văn bản nguồn (tương tựnhư cách con người tóm tắt văn bản) thay vì lựa chọn các câu quan trọng từ văn bản

đầu vào như trong tóm tắt đơn văn bản hướng trích rút (extractive summarization).

Ví dụ trong hình cho thấy văn bản đầu ra xúc tích hơn nội dung văn bản đầu

vào rất nhiều và đây cũng là đặc điểm chính của tóm tắt văn bản hướng tóm lược.

Đối với tóm tắt tóm lược đặc trưng của bài toán là cố gắng giữ lại các thông tinquan trọng nhất của văn bản đầu vào mà không thêm vào các ý kiến hoặc diễn giải

cá nhân Điều này, đặt ra yêu cầu đòi hỏi mô hình sinh phải có khả năng hiểu được

đầy đủ ý nghĩa và vai trò của các thành phần trong văn bản đầu vào Bài toán tóm

tắt đơn văn bản hướng tóm lược được phát biểu như sau: Cho một văn bản D gồm

N câu được biểu diễn là D = (si,s2, ,sy) với i = 1, N, s; là câu thứ i trong văn

bản hay văn bản được biểu diễn dưới dạng X = (#\,Zạ, ,¿, ,#); trong đó: x; là

từ thứ i trong văn ban, J là số lượng từ của văn bản Nhiệm vụ của bài toán tóm tắt

tóm lược là sinh ra bản tóm tắt gồm T từ được biểu diễn là Y = (0i,a, , yr) (với

j =1,T) biểu diễn nội dung chính của văn ban X(T < J), trong đó: y; là các từ có thể thuộc văn bản nguồn (y; € X) hoặc không thuộc văn bản nguồn (y; £ X) hoặc

thuộc bộ từ vựng.

Xem xét bài toán tóm tắt tóm lược dưới góc độ bài toán sinh văn bản, ở mỗi

bước, mô hình sẽ sinh ra 1 từ dựa vào các từ đã được sinh ra trước đó Với văn

ban đầu vào X = (1,Zs, ¿, ,#y) , mô hình sẽ ước lượng xác suất có điều

19

Trang 22

kiện p(y, a, , Ur|#1, #a, ,#) VỚI: #1,#2, ,ø„ là các từ trong chuỗi đầu vào và11,12, ,1r là các từ của chuỗi đầu ra tương ứng, được tính theo công thức:

T

PM 9a, eo Wr|2t, #2, 7) = | [|p|0, 9ì, yas tr-1) (1.7)

t=1

Trong đó:

+ 0 là tập tham số của mô hình cần xây dựng.

+ z là trạng thái ẩn đại diện cho chuỗi từ đầu vào 2, 2, , #/.

+ (|0, 1, Yi, 9a, f¿_1) là phan bố xác suất của các từ trong bộ từ vựng 6 bước ¿

Sau đó, từ tập các phân bố xác suất này kết hợp với chiến lược tìm kiếm để sinh

ra bản tóm tắt tóm lược cuối cùng

Mục tiêu đặt ra là đi xây dựng và huấn luyện mô hình để tìm tập tham số Ø sao

cho xác suất 0(/|Ø, 2 1, Ye, - ,t¿_1¡) lớn nhất với ¿ € Y tại bước ý Diều này tương

đương với việc tối thiểu hóa hàm mất mát cross - entropy:

1.5.1 Mục tiêu nghiên cứu

Trước những thách thức trên, mục tiêu nghiên cứu tổng quát của luận án là cải

thiện chất lượng sinh văn bản dựa trên mô hình Seq2Seq bằng cách cải tiến các kiến

trúc mã hoá - giải mã, cụ thể cho bài toán diễn đạt lại văn bản và bài toán tóm tắt văn bản theo tiếp cận tóm lược Mục tiêu cụ thể được đặt ra trong luận án bao gồm:

e Dề xuất cải tiến kiến trúc mô hình cho biểu diễn cấu trúc cụm, câu, và đoạn

trong văn bản nguồn S đối với các bài toán sinh diễn đạt lại văn bản và tómtắt văn bản

e Đề xuất các cải tiến mô hình liên quan đến cơ chế chú ý toàn cục và cơ chế chú

ý cục bộ trên các thành phần cấu trúc cụm, câu, đoạn đối với các bài toán sinhdiễn đạt lại và tóm tắt văn bản

20

Trang 23

e Dé xuất phương pháp tích hợp ràng buộc trong mô hình Seq2Seq dựa trên kiến

trúc mã hoá - giải mã và thực nghiệm trên bài toán tóm tắt tóm lược văn bản

có giới hạn độ dài.

1.5.2 Phuong pháp tiếp cận

Để đạt được mục tiêu, luận án đề xuất hệ thống các phương pháp nhằm cải thiện

mô hình Seq2Seq với việc cải thiện chất lượng học biểu diễn đầu vào đối với chuỗi S

và quá trình sinh đầu ra đối với chuỗi T Xuất phát từ ý tưởng, mỗi chuỗi đầu vào

sẽ có tính chất cấu tạo chung gồm các thành phần Từ, Cụm, Câu, Đoạn Ngữ nghĩacủa một chuỗi đầu vào không chỉ phụ thuộc vào Từ, vị trí của từ mà còn phụ thuộc

vào Cụm, vị trí của Cụm, Câu, vị trí của Câu, Đoạn, vị trí của Đoạn Nói một cách

khác cấu trúc của chuỗi đầu vào là cấu trúc phân cấp dạng cây với nút gốc là toàn bộchuỗi đầu vào và các nút lá là các từ hoặc các ký tự trong từ Với các cách tiếp cận

truyền thống thường được đề cập trong các nghiên cứu

đều xem xét vai trò của từng từ trong chuỗi đầu vào Bên cạnh đó hướng nghiên cứu

học biểu diễn phân cấp của văn bản cũng đã thu hút được nhiều sự quan tâm cho các

bài toán khác trong xử lý ngôn ngữ tự nhiên như: Khai phá văn bản (29) Nhan dang

và truy xuất văn bản (34): Phan loai vin ban Dựa trên đặc tính cấu

trúc tự nhiên của văn bản chúng tôi đề xuất mô hình học biểu diễn cấu trúc của văn ban tại bước mã hoá dữ liệu đầu vào trong mô hình Seq2Seq để hướng tới mục tiêu cải thiện chất lượng học biểu diễn trong một lớp các bài toán trong dịch đơn ngữ.

Ngoài ra, với mô hình học sinh ngôn ngữ quá trình học biểu diễn đầu vào và sinh

đầu ra là quá trình hộp đen Có thể nói quá trình sinh là quá trình tự nhiên nên độ

đài của chuỗi đầu ra hoặc các tham số ràng buộc như độ phủ từ khoá, độ phủ chủ đề,

độ phủ kiéu, chua tác động vào quá trình sinh văn bản đầu ra Luận án tập trung

nghiên cứu giải quyết bài toán mô hình hoá ràng buộc trong quá trình sinh văn bản

Để đạt được ba mục tiêu nghiên cứu, Luận án đã sử dụng phương pháp nghiên

cứu kết hợp:

- Thực hiện nghiên cứu, phân tích trên khía cạnh lý thuyết từ đó đề xuất các cảitiến về mô hình kiến trúc, cải tiên về khía cạnh tính toán các thành phần trong mô

21

Trang 24

- Thực hiện thực nghiệm để kiểm chứng, đánh giá kết quả đối với các mô hình đề

xuất, so sánh với các nghiên cứu liên quan.

1.5.3 Đối tượng nghiên cứu

Các đối tượng nghiên cứu chính của luận án là:

1.6

Các mô hình biểu diễn văn bản.

Các mô hình học sâu LSTM và Transformer.

Các kiến trúc sinh chuỗi từ chuỗi và cơ chế chú ý (attention)

Các đặc trưng của ngôn ngữ tiếng Anh

Nhiệm vụ nghiên cứu

Để đạt được mục tiêu đề ra, nhiệm vụ nghiên cứu tập trung giải quyết các vấn đề

Seq2Seq cho hai bài toán sinh tóm tắt tóm lược và sinh diễn dat lại văn bản

Nghiên cứu, đánh giá các cơ chế chú ý cho bài toán sinh văn bản, đề xuất kỹ

thuật chú ý cho mô hình Seq2Seq phù hợp với đặc trưng của bài toán sinh tóm

tắt tóm lược và sinh diễn đạt lại văn bản

Khảo sát các mô hình ràng buộc độ dài trong bài toán giới hạn độ dài tóm tắttóm lược, đề xuất mô hình giới han độ dài cho mô hình Seq2Seq cho bài toánsinh tóm tắt tóm lược

Triển khai thực nghiệm và đánh giá kết quả.

22

Trang 25

1.7 Đóng góp của luận án

e Dề xuất phương pháp biểu diễn phân cấp văn bản trong mô hình Seq2Seq cho

bài toán sinh tóm tắt tóm lược Dóng góp nay được công bố trong kỷ yếu hội

thảo "Knowledge and Systems Engineering năm 2021" [CT.3].

e Dé xuất cơ chế chú ý trong mô hình Seq2Seq cho bài toán sinh diễn dat lại

văn bản Đóng góp này được công bố trong kỷ yếu hội thảo "International

Symposium on Integrated Uncertainty in Knowledge Modelling and Decision

Making năm 2018" [CT.5].

e Dé xuất cơ chế chú ý phân cấp có điều kiện trong mô hình Seq2Seq cho bài

toán sinh diễn đạt lại văn bản Đóng góp này được công bố trong kỷ yếu hội

thảo "Multi-disciplinary International Conference on Artificial Intelligence năm

2018" [CT.4].

e Dé xuất cơ chế chú ý cục bộ thích hợp cho bài toán sinh tóm tắt tóm lược

văn bản Đóng góp nay được trình bày tại hội thảo "Asia Pacific Information

Technology Conference lần thứ 5 năm 2023" [CT.2]

e Dé xuất mô hình Seq2Seq cho bài toán sinh tóm tắt tóm lược có ràng buộc độ

dài Đóng góp này được đăng trong tạp chí "Journal of Intelligent Automation

& Soft Computing năm 2023" [CT.1]

1.8 Cau trúc cua Luận an

Trên cơ sở các nội dung nghiên cứu, để đạt mục tiêu đề ra và đảm bảo tính logic, ngoài phần tóm tắt, kết luận, luận án được tổ chức thành 4 chương, ngoài chương

mở đầu nội dung các chương còn lại được bố cục như sau:

e Chương 2 Kiến thức cơ sở: trình bày các kiến thức liên quan các mô hình học

sâu, học biểu diễn cơ sở mức từ, mức câu và mức cụm; một số phương phấp biểu diễn cấu trúc phân cấp của văn bản; các khái niệm và kiến trúc mô hình

Seq2Seq.

23

Trang 26

e Chương 3 Bai toán sinh diễn đạt lai văn bản: Nội dung chương đề cập đề bài

toán sinh diễn đạt lại cho văn bản, các kỹ thuật sinh diễn đạt lại và đề xuất cơ

chế chú ý toàn cục và cơ chế chú ý phân cấp có điều kiện cho pha xác định vai

trò của các thành phần trong văn bản

e Chương 4 Bài toán sinh tóm tắt tóm lược: trình bày mô hình bài toán, các

phương pháp cho bài toán sinh tóm tắt tóm lược, đề xuất mô hình học biểu

diễn phân cấp, cơ chế chú ý và phương pháp ràng buộc trong mô hình sinh tómtắt tóm lược cho văn bản

24

Trang 27

Chương 2: Kiến thức cơ sở

Chương này trình bày các kiến thức cơ sở liên quan đến các vấn đề trong bài toán

sinh chuỗi từ chuỗi như: mạng nơ-ron hồi quy và các biến thể của mạng nơ-ron hồi

quy, cơ chế chú ý, mô hình Transformer, các mô hình ngôn ngữ dựa trên học sâu đượchuấn luyện trước như: Word2vec, BERT, BERT đa ngôn ngữ, các mô hình tối ưu hoá

của BERT, BERT thu nhỏ để véc-tơ hóa văn bản Chương này cũng trình bày các

thuật toán được sử dụng trong các mô hình sinh văn bản như học có giám sát, tìm

kiếm Beam, các mô hình lý thuyết về độ đo và một số kho dữ liệu điển hình cho hai

bài toán diễn đạt lại và tóm tắt tóm lược văn bản Những kiến thức trình bày trong

chương này là cơ sở cho việc phát triển các đề xuất trong các chương tiếp theo.

2.1 Mạng nơ-ron hồi quy

2.1.1 Biểu diễn và huấn luyện mạng hồi quy

2.1.1.1 Biểu diễn mạng hồi quy

Mạng hồi quy (Recurrent Neural Network - RNN) [107] là một loại mạng

nơ-ron nhân tạo đặc biệt được thiết kế để xử lý dữ liệu chuỗi (sequence data) dạng

X =#z,zs, +, ví dụ như văn bản, tiếng nói, video

Ý tưởng chính của mạng hồi quy (Recurrent Neural Network - RNN) là giúp mô

hình có khả năng xử lý các dữ liệu theo chuỗi, bằng cách sử dụng thông tin từ các

thành phần trước đó của chuỗi để thực hiện dự đoán và phân tích trên các thành

phần hiện tại của chuỗi Diều này cho phép mô hình RNN có khả năng xử lý các

chuỗi dit liệu có độ dài khác nhau.

25

Trang 28

Một cách cụ thể, ý tưởng của mạng RNN được minh hoạ trong hình [2.1] sử dụng

một cấu trúc lặp (recurrent structure) để lưu trữ thông tin từ các thành phần trước

đó của chuỗi và sử dụng các thông tin đó để tính toán trên các thành phần hiện tại Với mỗi thành phan trong chuỗi, một véc-tơ trạng thái an h¿ (hidden state) được tinh toán dựa trên véc-tơ đầu vào và véc-to trạng thái an của thành phần trước đó hy_1.

véc-tơ trạng thái an này sẽ được truyền tiếp đến các thành phần tiếp theo của chuỗi

để tính toán các dự đoán và phân tích trên chuỗi.

@) ® @ ®@

Trải ra |w |w |w

Ñ = ei ae

-G) &) @) &

Hình 2.1: Kiến trúc mạng hồi quy

e Mỗi hình vuông là một trạng thái, trạng thái thứ £ có đầu vào là 2, và hạ_¡

(là trạng thái an đầu ra của trạng thái trước đó) Khi đó trang thái an đầu ra

thứ £ được xác định là hy = ƒ(U * 2, +V xh¿_+), trong đó f là hàm kích hoạt

thường là hàm tanh hoặc ReLU.

e Có thể thấy, h, mang thông tin của trạng thái trước đó h¿_¡ và đầu vào 2, của

trang thái hiện tại Dưới góc độ kỹ thuật thiết kế, có thể coi h¿ như một bộ nhớ

chứa các đặc điểm của các từ đầu vào từ z¡ đến 2.

e Trạng thái đầu tiên được tinh là so và được gán giá tri bằng 0

e ¿ là đầu ra thực tế tại bước t Đối với bài toán sinh văn bản, ta muốn dự đoán

từ tiếp theo có thể xuất hiện thì / chính là véc-tơ xác suất các từ trong danh

sách từ vựng của ngôn ngữ đích, khi đó ¿ = soƒtmaz(Wh,).

RNN có nhiều ứng dụng như dịch thuật, phân loại văn bản, nhận dạng giọng nói,

dự báo thời tiết, sinh văn bản, tự động viết tin nhắn và nhiều ứng dụng khác

26

Trang 29

Mạng hồi quy (Recurrent Neural Network - RNN) và mang Perceptron đa lớp(Multi-Layer Perceptron - MLP) là hai loại mạng nơ-ron nhân tạo khác nhau về cơchế hoạt động và ứng dụng.

Về cơ chế hoạt động:

e Mạng MLP có cấu trúc lớp đầu vào, lớp ẩn và lớp đầu ra MLP sử dung một

loạt các nơ-ron kết nối từ lớp đầu vào đến lớp đầu ra thông qua các lớp an Các nơ-ron ở lớp ẩn và lớp đầu ra sử dụng hàm kích hoạt phi tuyến tính để tính toán đầu ra Điều này cho phép MLP học các hàm phi tuyến tính phức tap để

giải quyết các van đề như phân loại và dự đoán.

e Mạng RNN có cấu trúc tương tự như MLP, nhưng có thêm một cơ chế lặp lại

(recurrent mechanism) giúp lưu trữ thông tin từ các thành phần trước đó của

chuỗi và sử dụng để thực hiện dự đoán và phân tích trên các thành phần hiện

tại của chuỗi Diều này cho phép RNN xử lý được các chuỗi dữ liệu có độ dài

khác nhau.

Về mặt ứng dụng:

e MLP thường được sử dụng cho các vấn đề có đầu vào cố định và đầu ra dự

đoán, ví dụ như phân loại hình ảnh, dự đoán giá cổ phiếu, hay dự báo thu nhập.

e RNN thường được sử dụng cho các vấn đề dữ liệu chuỗi như dự báo chuỗi thời

gian, dịch thuật tự động, tổng hợp văn bản, hay nhận dạng giọng nói.

Tóm lại, RNN và MLP là hai loại mạng nơ-ron nhân tạo khác nhau về cơ chế hoạt

động và ứng dụng, và được sử dụng cho các bài toán khác nhau của học máy.

2.1.1.2 Huấn luyện mạng hồi quy

Nguyên lý huấn luyện mạng hồi quy cũng tương tự mạng Perceptron đa lớp, tuy

nhiên giải thuật lan truyền ngược (Backpropagation) cần có sự thay đổi để biểu diễn

được tính phụ thuộc trạng thái tại mỗi bước thời gian t Ví du, để tính đạo hàm tại

bước £ = 3 ta phải lan truyền ngược lại cả 2 bước trước đó rồi cộng tổng đạo hàm của

chúng lại với nhau, cơ chế này gọi là lan truyền ngược thời gian (Backpropagation

Through Time- BPTTT).

27

Trang 30

Hình 2.2: Đồ thị tính toán trên mạng hồi quy.

2.1.1.3 Hàm lỗi

Một cách tổng quát, bài toán cần sinh chuỗi y = ÿ¡,12, ,1„ với chuỗi đầu vào

tổng lỗi của mỗi đầu ra trên mỗi bước thời gian Mục tiêu của hàm lỗi là cực dai

hoá hợp lý giữa đầu ra thật sự và đầu ra mong muốn bằng việc sử dụng negative

log-likehood Khi sử dụng hàm lỗi này, mô hình thay vì đưa ra một đáp án cụ thể

thì sẽ đưa ra xác suất sinh ra chuỗi từ chuỗi x Khi đó, negative log-likehood được

định nghĩa như sau:

L=5 1 (2.1)

L, = —ylog y; (2.2)

Việc tinh gradient của hàm mat mát L theo các tham số là một phép toán tiêu tốn

nhiều tài nguyên Quá trình tính gradient yêu cầu một lần lan truyền thuận từ trái

sang phải qua đồ thị tính toán trong hình |2.2| rồi sau đó lan truyền ngược qua đồ thị

từ phải sang trái Thời gian chạy của thuật toán là O(m) và không thể giảm xuống

được bằng cách song song quá trình tính toán, bởi đồ thị lan truyền thuận có bản

chất tuần tự; mỗi bước thời gian chỉ có thể được tính sau bước phía trước đó đã hoàn

28

Trang 31

thành Các trạng thái được tính toán trong quá trình lan truyền thuận phải được

lưu cho tới khi các trạng thái đó được sử dụng lại trong quá trình lan truyền ngược,

vì vậy dung lượng bộ nhớ cần sử dụng là O(m) Thuật toán lan truyền ngược Apdụng trên đồ thị tính toán được gọi là lan truyền ngược thời gian (back-propagation

through time - BPTT).

2.1.1.4 Lan truyền ngược thời gian

Trên mỗi nút của đồ thị được đánh bởi chỉ số ¢ trong hình [2.2 có 3 tham số cần

phải xác định trong quá trình huấn luyện là V, U, W Với mỗi nút N, ta cần tính

gradient Ay L, AyL, AwL tương ứng Trong đó:

Trong đó, gradient Az¿E của đầu ra tại bước thời gian là:

Ah,L = ( Dh, ) (Ai) + Cả) (AgL) (2.6)

Ah,L = V' diag(1 — (ht+1)?)(AhipiL) + W ' (Agi L) (2.7)

trong đó (1 — (h¿;¡)2) là ma trận chéo với các phan tit (1 — (hiz41)?) nằm trên đường chéo chính, Day là ma trận Jacobi của hàm tanh ứng với các đơn vị an i ở thời điểm

t+1 Khi đã tính được gradient tại các nút trong đồ thị tính toán, ta có thể thu được

gradient tại các nút tham số

2.1.2 Mạng thang du (Residual Networks)

2.1.2.1 Xử lý tuần tự

Trong các kiến trúc mạng được giới thiệu trong các phần trước của chương này,các lớp (tầng) trong mạng nơ-ron đều được xử lý theo tuần tự Mỗi lớp nhận đầu ra

29

Trang 32

của lớp trước đó là đầu vào của lớp tiếp theo Ví dụ với một kiến trúc mạng bao gồm

ba lớp như trong hình|2.3| được định nghĩa bởi:

hy = fiz, 6]

ha = Sali] (2.8)

hạ = fs[h2, 03]

y = falhs, 4]

trong đó hi, hz, va hg đại điện cho các lớp an trung gian, x là đầu vào của mang, y

là đầu ra của mang và các hàm ƒ là các hàm kích hoạt, 6, là bộ tham số của mạng

Vì quá trình xử lý là tuần tự, quá trình xử lý có thể coi tương đương một loạt các

hàm lồng nhau:

y = falfalfelfilz, 0], 92], 63], 4] (2.9)

về nguyên tắc, trong kiến trúc mang nơ-ron ta có thể thêm bao nhiêu lớp tuỳ ý Số

lớp mạng càng lớn thì số lượng tham số càng lớn Tuy nhiên, theo công thức độ

sâu của mạng càng lớn thì khả năng hàm mất mát trở nên không ổn định Đây chính

là điểm hạn chế trong các mô hình xử lý tuần tự đối với các mạng hồi quy đa lớp.

2.1.2.2 Kết nối thặng dư và khối thặng dư

Kết nối thặng dư là các nhánh trong lưu đồ tính toán, trong đó đầu vào của mỗi

lớp mạng được kết hợp đầu ra để làm đầu vào cho lớp tiếp theo như trong hình [2.4]

Khi đó, công thức được viết lại như sau:

Trang 33

trong đó, ký hiệu đầu tiên ở phía bên phải mỗi công thức tương ứng với kết nối thặng

dư Giá trị các hàm ƒ„|¿,Ø„| sẽ được cộng vào dạng biểu diễn hiện tại nên đòi chúng

có cùng kích thước Mối kết hợp cộng đầu vào và đầu ra đã xử lý được gọi là một

khối thặng dư Công thức có thể được biểu diễn lại dưới dạng hàm đơn bằng

Có thé xem phương trình nay như một quá trình giải nghĩa kiến trúc mang thang dư.

Hình |2.5| cho ta thấy đầu ra cuối cùng của mạng là tổng của đầu vào và bốn mạng

nhỏ hơn Một cách hiểu khác, các kết nối thặng dư biến đổi mạng ban đầu thành một tập hợp các mạng nhỏ hơn, đầu ra của chúng được tổng hợp để tính toán kết quả cho

đầu ra cuối cùng Hơn nữa, kiến trúc mạng tại hình |Ð.5| có 16 đường có độ dài khác

nhau từ đầu vào đến đầu ra Như vậy giá trị đầu ra được tổng hợp từ 4 mạng con

với 16 nguồn dit liệu, khi đó gradient được xác định theo đạo hàm được tính như sau:

Oy " Øja | (Of | Ofs 215)

Of Of: Of: 919 (2.12) 9ƒ | 9/29 | Ofa Ofs | Ofs Ofs 05)

Of Of,Ofi OfsAfi OAfsAfoOh,

Dao ham trong công thức có đường đi ngắn hơn tương ứng với các mang con

H(

được tao ra bởi các kết nối thing dư nên thường sẽ có độ ổn định tốt hơn Do đó

mạng nơ-ron với các kết nối thặng dư hiếm khi gặp các vấn đề phức tạp trong chuỗi

đài đạo hàm.

31

Trang 34

Hình 2.5: Mô hình mang thing du chỉ tiết.

2.1.2.3 Bùng nổ gradient trong mạng thặng dư

Phương pháp khởi tạo tham số đóng vai trò quan trọng trong quá trình huấn luyện

mạng trong cả hai pha lan truyền thẳng và lan truyền ngược He và cộng sự đã

đề xuất sử dụng hàm kích hoạt ReLU và phương pháp khởi tạo trong số thích hợp

cho kiến trúc mạng học sâu đa lớp Đối với mạng thặng dư, khả năng gradient biến

mất khi độ sâu của mạng tăng lên là không thể bởi luôn tồn tại ít nhất một đường

dẫn mà tầng đầu tiên góp phần trực tiếp vào đầu ra của mạng Tuy nhiên, khả năng

32

Trang 35

bùng nổ gradient vẫn có thể xảy ra ngay cả khi sử dụng phương pháp khởi tạo tham

số được đề xuất bởi He và cộng sự và hàm kích hoạt ReLU trong các khối thang

dư Phương sai kỳ vọng không thay đổi sau quá trình xử lý trong mỗi khối thặng

dư Do đó, khi kết hợp với đầu vào, phương sai sẽ tăng gấp đôi như trong hình

và do đó sẽ tăng theo cấp số nhân với số lượng khối thặng dư Một giải pháp khá

đơn giản nhưng có tính hiệu quả bằng cách nhân đầu ra của mỗi khối thặng dư với

vã để cân bằng cho việc tăng gấp đôi như trong hình Tuy nhiên, phương pháp

khái quát thường được sử dụng nhiều hơn đó là kỹ thuật chuẩn hoá hàng loạt (batch

normalization).

2.1.2.4 Kỹ thuật Batch normalization

Batch normalization là một kỹ thuật quan trọng trong mạng nơ-ron được sử dụng

để ổn định và tăng tốc quá trình huấn luyện mạng Trong mạng thặng dư, kỹ thuật này được áp dụng sau mỗi khối thặng dư để chuẩn hóa các giá trị đầu ra của khối

trước đó Ý tưởng chính của batch normalization là chuẩn hoá các giá trị đầu ra của

mỗi tầng hoặc mỗi khối thặng dư bằng cách điều chỉnh trung bình và phương sai của

chúng theo phân phối chuẩn Điều này làm giảm độ biến động của dữ liệu và giữ cho

các giá trị trong phạm vi tuyệt đối Quá trình batch normalization được thực hiện

như sau:

1 Tính trung bình và phương sai của các giá trị đầu ra trong một batch

2 Chuẩn hóa các giá trị đầu ra bằng cách dịch chuyển và điều chỉnh tỷ lệ để có

trung bình bằng + và phương sai bằng 6

33

Trang 36

3 Áp dụng các tham số học (learnable parameters) để điều chỉnh tỷ lệ và dịch

chuyển.

Nếu đặt m„ là trung bình của các trạng thái an, và s„ là độ lệch chuẩn thi công thức

tính các giá trị này cụ thể như sau:

trong đó, + là tham số tỷ lệ va 6 là tham số dich chuyển Các tham số này được hoc

trong quá trình huấn luyện Quá trình này đảm bảo rằng các giá trị đầu ra sau khi

chuẩn hoá có trung bình gần bằng + và phương sai gần bằng ổ, tạo ra một phân phối chuẩn cho các hoạt động trong batch.

2.1.2.5 Nhận xét

Batch normalization giúp cải thiện tốc độ huấn luyện, giảm thiểu hiện tượng biến

mất gradient và mở rộng số lượng tham số của mô hình Phương pháp này cũng giúp

ổn định quá trình huấn luyện bằng cách giảm sự phụ thuộc vào việc khởi tạo tham

số ban đầu và tăng khả năng học của mạng nơ-ron Cụ thể kỹ thuật này có một số

4

ưu điểm sau:

34

Trang 37

1 Ôn định gradient: Batch normalization giúp kiểm soát việc lan truyền

gra-dient trong quá trình lan truyền ngược (backpropagation), giảm thiểu sự phụ

thuộc vào việc khởi tạo tham số và giúp tránh tình trạng gradient biến mất

hoặc bùng nổ.

2 Tăng tốc huấn luyện: Batch normalization giúp tăng tốc quá trình huấn

luyện bằng cách cho phép sử dụng hệ số học lớn hơn và giảm thiểu tác động

của biến động trong dit liệu

3 Regularization: Tác động tương tự như batch normalization, giúp giảm

over-fitting và cải thiện khả năng tổng quát hóa của mô hình.

4 Giảm sự phụ thuộc vào khởi tạo tham số: Batch normalization giúp giảm

sự nhạy cảm của mạng nơ-ron đối với khởi tạo tham số ban đầu, làm cho quá

trình huấn luyện ổn định hơn và dễ dàng tìm ra các điểm cực tiểu cục bộ tốt

hơn.

Mặc dù có nhược điểm về hiệu quả tính toán, nhưng tổng thể, Batch normalization

mang lại nhiều lợi ích quan trọng và được sử dụng rộng rãi trong các mạng nơ-ron

hiện đại.

2.1.3 Mất mát, bùng no đạo hàm và chuẩn hóa lô trong hoc

sau

Trong công thức [2.5] và [2.6] ta có thé thay giá tri gradient Ay L phụ thuộc chuỗi

Øh1+¡oe )', Bên cạnh đó, vì hàm kích hoạt là ham tanh nên kết quả đầu

đạo hàm chuỗi (

ra sẽ nằm trong đoạn [1-,1] nên giá trị đạo hàm sẽ nằm trong khoảng đóng [0,1] Ta

có thể thay ham tanh sẽ có dao hàm bằng 0 tại hai đầu Mà khi đạo hàm bằng 0 thì

nút mạng tương ứng được coi là trạng thái bão hoà (trạng thái không còn khả năng lưu trữ thêm thông tin) Khi đó, các nút phía trước cũng sẽ bị bão hoà theo Ngay cả

khi ta giả định rằng, các tham số đạt được giá trị giúp mạng hồi quy có tính ổn định (có thể lưu trữ ký ức), khó khăn trong học phụ thuộc dài phát sinh từ việc trọng số

của các tương tác dài hạn (bao gồm các phép nhân của nhiều ma trận Jacobi với các

35

Trang 38

giá trị rất nhỏ) thì giá trị tích nhỏ dần theo cấp số nhân so với các tương tác ngắnhạn cũng dẫn đến hiện tượng mất mát gradient Có nhiều nghiên cứu đã chỉ ra các

phương pháp giải quyết vấn đề mất mát gradient, trong đó phương pháp thay thế

các hàm kích hoạt tanh hoặc sigmoid bằng hàm ReLU Dao hàm của hàm ReLU sẽchỉ trả lại một trong hai giá trị hoặc là 0 hoặc là 1 nên trong quá trình huấn luyện

ta có thể kiểm soát được vấn đề mất mát đạo hàm khi nhãn liên tiếp các giá trị 0.

Bên cạnh đó, một phương pháp thông dụng hơn trong các nghiên cứu cho bài toán

xử lý ngôn ngữ tự nhiên là sử dụng kiến trúc mạng nơ-ron bộ nhớ ngắn hạn hướng

dai (Long Short-Term Memory - LSTM) hoặc mạng nơ-ron hồi quy có cổng (Gated

Recurrent Unit - GRU) Đây là hai kiến trúc mạng phổ biến trong lĩnh vực xử lý

ngôn ngữ tự nhiên.

2.2 Mô hình ngôn ngữ dựa trên ky thuật hoc sâu

2.2.1 Biểu diễn từ Word Embeddings

Biểu diễn nhúng từ (Word embedding) là phương pháp phổ biến để biểu diễn các

từ của văn bản Word embedding có khả năng nắm bắt được ngữ cảnh của một từ

36

Trang 39

trong văn bản, sự tương đồng về ý nghĩa và ngữ pháp, mối quan hệ giữa một từ với

các từ khác Phương pháp này cung cấp các véc-tơ biểu diễn từ bằng các giá trị thực, đây là cải tiến so với các mô hình sử dụng tần suất xuất hiện của từ để sinh ra các véc-td có kích thước lớn và thưa (chứa hầu hết các giá trị 0) để mô tả văn bản nhưng không phải ý nghĩa của các từ Nhúng từ sử dụng một thuật toán để huấn luyện tập

các véc-tơ dày đặc với giá trị liên tục, có độ dài cố định dựa trên khối lượng lớn các

văn bản Mỗi từ được biểu diễn bởi một điểm trong không gian mã hóa và được học

dựa trên các từ xung quanh Phương pháp nhúng từ sử dụng cho các nhiệm vụ trong

xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, dịch máy, đã đạt được hiệu quả cao

Có một số mô hình được sử dụng để học nhúng từ như Word2vec, Glove, BERT,

2.2.2 Biểu diễn từ Word2Vec

Biểu diễn Word2vec cho phép biểu diễn mỗi từ bằng một véc-tơ các số thực.

Mô hình này dựa trên mạng nơ-ron và được học trên một tập văn bản Có hai mô

hình cơ bản là CBoW (Continuous Bag of Words) và mô hình Skip - Gram

Mô hình CBoW: Lấy ngữ cảnh của mỗi từ làm dau vào dé cố gắng dự đoán ra từ

tương ứng với ngữ cảnh này, nghĩa là CBoW học cách mã hóa từ bằng cách dự đoán

từ hiện tại dựa trên ngữ cảnh của từ đó Chi tiết như sau: CBoW sử dụng véc-tơ mãhóa one - hot của từ đầu vào và tính toán lỗi đầu ra của mô hình so với véc-tơ mãhóa one - hot của từ cần dự đoán Trong quá trình dự đoán từ mục tiêu, mô hình có

thể học được cách để biểu diễn véc-tơ của từ mục tiêu này Hình thể hiện cách một từ ở dạng biểu diễn one-hot véc-tơ được mã hoá qua phép chiếu ma trận tham

số W để biểu diễn thành véc-tơ mã hoá của mô hình Word2vec và sau đó được giải

mã ngược lại qua ma trận W’ để khôi phục lại biểu diễn one-hot véc-tơ ban đầu, với:

e Lớp đầu vào là véc-tơ được mã hóa dưới dạng véc-tơ one-hot có kích thước V,

lớp an chứa N nơ-ron, lớp đầu ra là một véc-tơ có kích thước V.

e Wyxw là một ma trận trọng số với số chiều là V x N, ánh xạ lớp vào tới lớp

an.

e Wi, là ma trận trọng số với số chiều là N x V, ánh xa các lớp an tới lớp ra.

37

Trang 40

Lớp đầu vào Lớp ấn Lớp dau ra

Hình 2.9: Mã hoá và giải mã từ theo mô hình Word2vec lu],

Các nơ-ron trong lớp ẩn chỉ sao chép tổng trọng số của lớp vào sang lớp tiếp theo

(không có các hàm kích hoạt sigmoid, tanh hay ReLU (29), chỉ có hàm kích hoạt

softmax tại các nơ-ron trong lớp ra.

Mô hình CBoW huấn luyện mô hình để học ma trận tham số mã hoá và giải mã bằng cách sử dụng các từ xung quanh của một từ để dự đoán từ đó Mô hình được thể hiện như trong Hình dưới đây Mô hình này gồm ngữ cảnh của C từ nên khi

Lớp đầu vào

Hình 2.10: Mô hình CBoW sử dụng ngữ cảnh của một từ để dự đoán từ đó.

tính toán các đầu vào lớp an, mô hình tính trung bình véc-tơ của C từ.

Mô hình Skip-Gram: Khác với mô hình CBoW, mô hình Skip-Gram học mã hóa

từ bằng cách dự đoán các từ xung quanh cho một từ đầu vào, được biểu diễn trong

38

Định dạng
Số trang	163
Dung lượng	40,22 MB