Trong các lĩnh vực đó, một loạt các vấn đề cần giải quyết được quy về lớp các bài toán học máy và được mô hình hoá ở dạng bài toán sinh chuỗi từ chuỗi Sequence to Sequence, viếttắt là Se
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYÊN NGỌC KHƯƠNG
NGHIÊN CỨU CÁC MÔ HÌNH SINH CHUOI TỪ CHUỖI SỬ DUNG HOC SAU
VÀ ỨNG DỤNG TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
LUẬN ÁN TIÊN SĨ KHOA HỌC MÁY TÍNH
Hà Nội - 2024
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYÊN NGỌC KHƯƠNG
NGHIÊN CỨU CÁC MÔ HÌNH
SINH CHUỖI TỪ CHUỖI SỬ DỤNG HỌC SÂU
VÀ UNG DỤNG TRONG XU LÝ NGÔN NGU TỰ NHIÊN
Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01
LUẬN ÁN TIÊN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS Nguyễn Việt Hà
2 PGS.TS Lê Anh Cường
Hà Nội - 2024
Trang 3Lời cam đoan
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện
dưới sự hướng dẫn của PGS.TS Nguyễn Việt Hà và PGS.TS Lê Anh Cường
Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong
luận án này được ghi rõ nguồn trong phần tài liệu tham khảo.
Nguyễn Ngọc Khương
Trang 4TOM TAT
Hoc sau (Deep Learning) là cách tiếp cận hoc máy đã và đang phát triển mạnh
mẽ gần đây cả trong nghiên cứu và ứng dụng Nhờ các phương pháp học sâu mànhiều ứng dụng khác nhau của lĩnh vực trí tuệ nhân tạo đã trở nên hiện thực, trải
khắp các bài toán của xử lý ngôn ngữ tự nhiên (NLP: natural language processing),
thị giác máy tính (computer vision), xử lý tiếng nói (speech processing) Trong các
lĩnh vực đó, một loạt các vấn đề cần giải quyết được quy về lớp các bài toán học máy
và được mô hình hoá ở dạng bài toán sinh chuỗi từ chuỗi (Sequence to Sequence, viếttắt là Seq2Seq), tức đầu vào là thông tin dưới dạng chuỗi và đầu ra cũng là chuỗi
thông tin được sinh ra, như bài toán dịch máy (machine translation), bài toán tóm
tắt văn bản (text summarization), bài toán diễn đạt lại văn bản (paraphrasing), bàitoán nhận dạng tiếng nói (speech to text/speech recognition), bài toán nhận dang chữviết (OCR: optical character recognition) Các mô hình học sâu cho bài toán Seq2Seq
vì vậy đang thu hút rất nhiều nghiên cứu trong lĩnh vực học máy cũng như trong
các lĩnh vực dữ liệu chuyên sâu như xử lý ngôn ngữ tự nhiên (NLP: natural language
processing), xử lý tiếng nói (speech processing), hay thị giác máy tính (computer
vision).
Trong phạm vi nghiên cứu của luận án này, chúng tôi tập trung vào nghiên cứu
phát triển các mô hình hoc sâu Seq2Seq trong ngữ cảnh ứng dụng cho bài toán diễn đạt lại văn bản và bài toán tóm tắt văn bản M6 hình hoc máy Seq2Seq ở dạng tổng
quát bao gồm hai cấu phần là bộ mã hóa (Encoder) và bộ giải mã (Decoder) Cả
hai thành phần này đều được cấu tạo từ các mạng nơ ron Bộ mã hoá có nhiệm vụ
chuyển đổi dữ liệu từ chuỗi đầu vào thành một véc-tơ biểu diễn chứa toàn bộ thông tin đầu vào, còn bộ giải mã có nhiệm vụ sinh ra chuỗi đầu ra từ véc-tơ biểu diễn của
chuỗi đầu vào Đối với các bài toán xử lý ngôn ngữ tự nhiên, một văn bản đầu vào
chứa các mức độ ngữ nghĩa khác nhau như mức từ, mức câu, mức đoạn, mức toàn
bộ văn bản Hơn nữa các thành phần này trong văn bản có quan hệ với nhau rất đa
nghĩa, ví dụ mỗi từ sẽ có ngữ nghĩa khác nhau khi ở trong các ngữ cảnh khác nhau.
Vì vậy phát triển các mô hình học máy cho nhiệm vụ mã hoá một văn bản sao cho
Trang 5véc-tơ biểu diễn của nó phản ánh đầy đủ và chính xác văn ban đầu vào luôn là bài
toán thách thức trong lĩnh vực nghiên cứu NLP Đối với bộ giải mã, nhiệm vụ là sinh
ra chuỗi đầu ra cho một mục tiêu nhất định, ví dụ như sinh câu trả lời trong bài toánhội thoại sẽ khác trong bài toán tóm tắt văn bản Một mô hình học máy tốt sẽ phải
giải quyết vấn đề sử dụng một cách phù hợp thông tin đầu vào để sinh nội dung đầu
ra thoả mãn yêu cầu, vì vậy đây cũng luôn là vấn đề thách thức đối với bộ giải mã.
Trong luận án này, chúng tôi tập trung nghiên cứu phát triển các mô hình Seq2Seq
để góp phần giải quyết các vấn đề nêu trên.
Với mục tiêu đó, luận án tập trung nghiên cứu đề xuất các phương pháp nhằmtối ưu hoá việc mã hoá thông tin văn bản đầu vào, dựa trên việc mã hoá cấu trúc
ngữ nghĩa phân cấp của văn bản Chúng tôi cũng đồng thời phát triển mô hình sinh
văn bản dựa trên việc sử dụng cơ chế chú ý (attention) kết hợp với mô hình hoá các
ràng buộc của chuỗi đầu ra Nội dung nghiên cứu tập trung phát triển các mô hình
học sâu Seq2Seq cho hai bài toán: bài toán thứ nhất là bài toán diễn đạt lại (text
paraphasing) một văn bản đầu vào theo một cách diễn đạt mới; bài toán thứ hai là
tóm tắt văn bản theo tiếp cận tóm lược (abstractive text summarization)
Đối với bài toán sinh văn bản, luận án đề xuất mô hình cải tiến để mô hình hoá
vai trò và mối quan hệ có tính cấu trúc của các thành phần trong văn bản đầu vào
và vì vậy đã cải thiện chất lượng pha mã hoá Kết quả thực nghiệm cho bài toán diễn
đạt lại văn bản trên hai kho dữ liệu phổ biến đã cho thấy mô hình cơ chế chú ý phân
cấp cho kết quả tốt hơn đối với mô hình chỉ sử dụng thông tin cấu trúc mức từ Bên
cạnh đó, thực nghiệm trên đề xuất biểu diễn ngữ cảnh hai phía của từ theo các mức
ngữ nghĩa khác nhau cũng đã chứng minh được tính hiệu quả cho bài toán diễn đạt
lại văn bản.
Đối với bài toán tóm tắt tóm lược, luận án đề xuất mô hình biểu diễn ngữ cảnh
hai phía của từ, câu và mối quan mối quan hệ mức từ với mức câu trong văn bản đầu
vào tại pha mã hoá để cải thiện chất lượng sinh tóm tắt tóm lược Hiểu bản chất của
văn bản đầu vào là yếu tố quan trọng quyết định đến chất lượng đầu ra của văn bảntóm tắt, cơ chế chú ý toàn cục chú trọng đến vai trò của từng thành phần trong vănbản đầu vào trên toàn bộ ngữ cảnh, trong khi đó cơ chế chú ý cục bộ đề cập đến vai
trò của từng thành phần trong từng ngữ cảnh cụ thể Luận án cũng đề xuất mô hình
Trang 6kết hợp hai cơ chế chú ý trên để cải thiện chất lượng sinh tóm tắt tóm lược của mô
hình Trong tóm tắt nói chung và tóm tắt tóm lược nói riêng, độ dài của bản đầu ra
cũng là một trong những yêu cầu quan trọng trong phương diện nghiên cứu và ứng
dụng Chúng tôi nghiên cứu đề xuất mô hình tích hợp ràng buộc độ dài trong pha
mã hoá và pha giải mã trong mô hình Seq2Seq thích hợp cho bài toán sinh tóm tắt
tóm lược có giới hạn độ dài.
Trang 715.1 Mục tiêu nghiên cỨu Ặ.ẶẶ ẶSỒ Ặ So 20
¬ 1
` 22 Ộaaa 22
Ta eee 28
Ha 23
2 Kiến thức cơ sở 25
2.1 Mạng nơ-ron hồi quy| c c Q Q v2 25
2.1.1 Biểu diễn và huấn luyện mạng hồi quy 25
2.1.2 Mạng thang du (Residual Networks)) 29
Trang 82.2 Mô hình ngôn ngữ dựa trên kỹ thuật học sâu
2.21 Biểu diễn từ Word Embedding|
-2.2.2_ Biểu diễn từ
Word2Vecl -2.2.3 Mô hình BBRII
2.3_ Mô hình sinh chuỗi từ chuỗi
2.3.2 Kién trúc mã hoá - giải mã chuẩn 2.3.3 Huanluyén) 2 0.000000 0.00 ee ee 2.3.4 Hạn chế của kiến trúc mã hoá - giải mã cøơbản|
2.3.5 Cơ chế chú yf) 2.0.0.0 000000 ee 2.3.6 Mô hình lransiormer]
2.4 Diễn đạt lại văn bẳn| Q Q Q Q Q Q Q a 2.5.1 Các khái niệm và phương pháp điển hình 2.5.2 Nhận xét]l 2 0.0.0 020.000.0000 00000000 2 eee 2.6 Các độ do cho đánh giá chất lượng sinh văn ban giá nội dung 2.6.2_ Đánh giá nội dung tóm tắt văn bản 2.7 Dữ liệu thực nghiệm| Ặ Ặ Ặ 2.0.0.0 2000.4 2.7.1 Bài toán diễn đạt lại văn bản 2.7.2 Bài toán tóm tắt tóm lược văn ban 3 Mô hình sinh chuỗi từ chuỗi cho bài toán diễn đạt lại văn ban 3.1 Cơ chế chú ý toàn cục cho bài toán diễn đạt lại văn ban 3.1.1 Mô hình đề xuất
3.1.2 Thucnghiém) 0.200.000 00 eee
Trang 10LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Nguyễn Việt Hà và PGS.TS.
Lê Anh Cường, hai Thay đã trực tiếp hướng dan, chỉ bảo tận tình, luôn hỗ trợ
và tạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.
Tôi xin chân thành cảm ơn các thầy/cô giáo ở Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các thầy/cô
giáo ở Bộ môn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp
đỡ tôi trong quá trình học tập và nghiên cứu ở trường
Tôi xin chân trọng gửi lời cảm ơn đến PGS.TS Nguyễn Phương Thái, TS Trần Quốc Long, TS Nguyễn Văn Vinh, TS Bùi Ngọc Thăng, PGS.TS Phan
Xuân Hiếu, PGS.TS Lê Thanh Hà, TS Lê Đức Trọng, TS Ma Thị Châu, TS.
Tạ Việt Cường (Trường Dại học Công nghệ, Dại học Quốc gia Hà Nội), TS Nguyễn Thị Minh Huyền (Trường Dai học Khoa hoc Tự nhiên, Dai học Quốc
gia Hà Nội), TS Trần Hồng Việt (Trường Dại học FPT), TS Phạm Dức Hồng
(Trường Dai học Điện lực), TS Hồ Thi Xuân Hương (Trường Dai học Quản
lý kinh doanh và Công nghệ), các thầy/cô đã có những góp ý hữu ích để tôi
chỉnh sửa, hoàn thiện luận án
Tôi xin cảm ơn đến tất cả anh, chị, em đồng nghiệp ở Bộ môn Khoa học
máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học
Quốc gia Hà Nội đã giúp đỡ tôi trong thời gian làm nghiên cứu sinh.
Tôi xin trân trọng cảm ơn Đảng ủy, Ban giấm hiệu Trường Đại học HảiPhòng, Lãnh đạo Khoa Công nghệ thông tin, Lãnh đạo Phòng Đào tạo và các
bạn đồng nghiệp tại Trường Dại học Hải Phòng đã quan tâm, giúp đỡ và tạo điều kiện cho tôi trong suốt thời gian làm nghiên cứu sinh.
Cuối cùng, tôi xin bay tổ lòng biết ơn đến tất cả các thành viên trong gia
đình cùng toàn thể bạn bè đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi
học tập, nghiên cứu.
Trang 11Danh mục viết tắt và thuật ngữ
BiGRU Bidirectional GRU Mang GRU hai phia
BiLSTM Bidirectional LSTM Mang LSTM hai chiéu
BPTT Backpropagation Through Time Lan truyền ngược liên hồi
CBoW Continuous Bag of Words Túi từ liên tiếp
CNN Convolution Neural Networks Mạng tích chập
EM Expectation Maximization Cực đại hóa kỳ vọng
ESLNs Event Semantic Link Networks Mang liên kết ngữ nghĩa sự kiện
FEN Feed Forward Networks Mạng lan truyền thẳng
GAN Generative Adversarial Networks Mạng sinh
GLUE General Language Understanding Evaluation Độ đo đánh giá hiểu ngôn ngữ
GNMT Google’s Neural Machine Translation Mô hình dich dựa trên mang nơ-ron của google
GRU Gated Recurrent Unit Đơn vị hồi quy có cổng
HCA Hierarchical Conditional Attention Cơ chế chú ý phân cấp có điều kiện
HTML HyperText Markup Language Ngôn ngữ đánh dấu siêu văn bản
ILP Integer Linear Programming Quy hoach tuyén tinh nguyén
INIT Information Item Muc thong tin
KD Knowledge Distillation Chất loc tri thức
LA Length Attention Chú ý độ dài
LC Length Controllable Điều khiển độ dài
LE Length Embedding Nhúng độ dài
LLM Large language model Mô hình ngôn ngữ lớn
LPAS Length Pre-trained Abstractive Summarization | Mô hình tóm tắt được huấn luyện trước
LSTM Long Short-Term Memory Bộ nhớ dài-ngắn han
ME Maximum Entropy Độ hỗn loan cực đại
MLE Maximum Likelihood Estimation Ước lượng khả năng cực đại
MLM Masked Language Model Mô hình ngôn ngữ đánh dấu
MLP Multi-Layer Perceptron Mạng Perceptron đa lớp
MT Machine Translation Dịch máy
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
NNLM Neural Network Language Model Mô hình ngôn ngữ dựa trên mang nơ-ron
NSP Next Sentence Prediction Dự đoán câu tiếp theo
OCR Optical Character Recognition Nhan dang ky tu quang hoc
PCA Penalty Coefficient Attention Co chế chú ý phạt
PE Positional Encoding Mã hoá vị trí
POS Part Of Speech Nhãn từ loại
RNN Recurrent Neural Network Mang hồi quy
RoBERTa | Robustly optimized BERT approach Mô hình tối ưu BERT
RRA Recurrent Residual Attention Cơ chế chú ý trên mạng hồi quy thang dư
Seq2Seq Sequence To Sequence Sinh chuỗi từ chuỗi
SMT Statistical Machine Translation Dịch máy thống kê
SRLSTM Stacked Residual LSTM Mang LSTM thang du đa lớp
SVM Support Vector Machine Máy véc-tơ hỗ trợ
WE Word Embedding Ti nhúng
Trang 12Vi du vé dién dat lai vin ban
Kiến trúc mạng hồi quy.
Đồ thị tính toán trên mạng hồi quy.
Kết nối thang dư| ee
Mô hình mạng thặng dư chỉ tiết.
Phương sai với phương pháp khởi tạo của tham số 50).
Mô hình cân bằng phương sai.J 2 0 ee
Đồ thị hàm và đạo hàm tanh
Mã hoá và giải mã từ theo mô hình Word2vec 105).
2.10 Mô hình CBoW sử dung ngữ cảnh của một từ dé dự đoán từ đó
2.11 Mô hình Skip-Gram [105|.| SỐ VẶT.
2.12 Kiến trúc mô hình BERT |60||
- -2.13 Biểu diễn đầu vào của mô hình BERT 60}.
3.1
3.4
10
30 31 32
33
44
Trang 133.5 Kết quả trung bình độ đo BLEU, TER trên kho dữ liệu PPDB 88 3.6 Két quả độ đo METEOR trên kho dữ liệu PPDB 88 3.7 Kết quả độ đo Emb trung bình trên kho dữ liệu PPDB 89
3.8 Kết quả độ do BLEU trên hai kho dữ liệu PPDB va Wiki Answer 89 3.9 Kiến trúc mang với cơ chế chú ý phân cấp 91
3.10 Cơ chế chú ý trên bộ giải mã 93
ẹaáđá 93
3.12 Kết quả độ đo BLEU, METEOR, TER trung bình trên dữ liệu PPDB.| 97 3.13 Kết quả độ đo EMB trên dữ liệu PPDB 97 3.14 So sánh HCANN với S2SA-2 trên dữ liệu PPDB.| 97 3.15 So sánh HCANN với S2SA-2 trên dữ liệu WikiAnswer 98
4.1 Mô hình biểu diễn phân cấp 102
4.2_ Kết quả mô hình HS2S với mô hình ABS+ trên kho dữ liệu Gigaword.| 107 4.3 Kết quả mô hình HS2S và ABS+ trên kho dữ liệu Amazon Reviews 107 4.4 Một số kết quả thực nghiệm tai đầu ra của mô hình 108
4.5 Mô hình Seq2Seq tiêu chuẩn| Ặ.Ặ ee 109
4.6 Cơ chế chú ý| c Ặ Q Q TQ ee 111
4.7 Mot nút mạng hồi quy có cong chú ý thing dư 112
4.8 Co chế chú ý thang dư trên mạng hồi quy 112 4.9 Sơ đồ hàm lỗi quá trình Huấn luyện/Đánh giá 114 4.10 Kết quả trên các văn bản ngắn của 03 mô hình tốt nhất trên Gigaword.| 116 4.11 Kết quả trên các văn bản dài của 03 mô hình tốt nhất trên Gigaword.| 116
Trang 14Danh sách bang
"an 130
12
Trang 15Chương 1: Mở đầu
1.1 Bối cảnh
Xử lý ngôn ngữ tự nhiên là một trong những lĩnh vực quan trọng với nhiều ứng
dụng thực tiễn trong ngành khoa học máy tính Trong đó một lớp các bài toán có
thé mô hình hoá dưới mô hình Seq2Seq như: dịch máy, tom tắt văn ban, hội thoại tự động, sinh diễn giải ảnh, Có thể nhận thấy đặc điểm chung của các lớp bài toán
này là: đầu vào là một chuỗi và đầu ra là một chuỗi trong cùng hoặc khác ngôn ngữ
tùy thuộc vào đặc trưng của bài toán.
Cách tiếp cận phổ biến cho các mô hình Seq2Seq thường được biểu diễn dưới
dạng kiến trúc mã hoá - giải mã, trong đó bộ mã hoá thực hiện chức năng ánh xạ
các thành phần trong chuỗi đầu vào để chuyển thành một véc-tơ có kích thường cố định (véc-tơ biểu diễn trung gian đại diện cho chuỗi đầu vào) tại bước mã hoá cuối cùng Trong khi đó bộ giải mã sử dụng véc-tơ biểu diễn trung gian là trạng thái an
đầu tiên và tạo ra các thành phần ở chuỗi đầu ra tại mỗi bước giải mã Bài toán sinh
chuỗi 41, , Ym từ chuỗi z+, ,z„ có thể được mô hình hoá thành hàm phân phối xác
suất có điều kiện như sau:
ra đứng trước liền kề Phân bố này được biểu diễn bằng một hàm softmax trên tất
cả các từ trong tập từ vựng ở ngôn ngữ đích Công thức trên có thể được viết lại
13
Trang 16Trong đó g là hàm dùng để biến đổi trạng thái an h; của bộ giải mã tại bước giải mã
tương ứng thành véc-tơ có kích thước bằng kích thước của tập từ vựng trong ngôn
ngữ đích Trạng thái an h; được tính như sau:
hy = ƒ(h;_¡,s) (1.4)
Trong đó ƒ là hàm biểu diễn chung cho quá trình tính trang thái ẩn tại bước hiện tại
từ trạng thái an đầu ra của bước trước bằng mạng nơ-ron.
Mô hình Seq2Seq dựa trên kiến trúc mã hoá-giải mã được trình bày ở trên tuy
đã giải quyết bài toán chuyển hóa chuỗi đầu vào thành chuỗi đầu ra trên cùng hoặc
khác ngôn ngữ, tuy nhiên vẫn còn tồn tại một số hạn chế như sau:
e Dầu tiên, dễ thấy nhất đó là việc sử dụng bộ mã hoá duyệt qua từng phần từ
của chuỗi đầu vào và rồi lấy ra véc-tơ trạng thái ẩn của mạng này ở thời điểm
cuối cùng, và hy vọng rằng mô hình sẽ nhớ hết những thông tin cần thiết của
chuỗi đầu vào trước khi chuyển hóa thành chuỗi đầu ra, điều này không phải là
điều luôn khả thi Với những chuỗi dài, sau khi duyệt qua hàng loạt các phần
thì thông tin ở những phần đầu có thể sẽ bị “quên”.
e Thứ hai, các mô hình Seq2Seq dựa trên kiến trúc mã hoá giải mã sử dung mạng
nơ-ron nhiều tầng thường yêu cầu tài nguyên tính toán rất lớn để có thể huấn
luyện để tối ưu học mô hình.
e Kế tiếp, biểu diễn vai trò và quan hệ của các thành phần cấu trúc trong văn
bản đầu vào và đầu ra chưa được xem xét đánh giá đầy đủ trong kiến trúc mã
hoá-giải mã cho bài toán sinh văn bản.
e Bén cạnh đó, các hoạt động bên trong các mô hình Seq2Seq khó diễn giải một
cách tường minh, điều này dẫn đến yếu tố ràng buộc nói chung và ràng buộc về
14
Trang 17độ dài trong kiến trúc mã hoá-giải mã khó có thể được mô hình hoá một cách
khái quát.
1.2 Cac nghiên cứu liên quan
Trong nghiên cứu của mình Kalchbrenner và Blunsom đã chỉ ra rằng một
trong những điều kiện tiên quyết để mô hình Seq2Seq sinh ra được chuỗi đầu ra mong muốn cho từng bài toán cụ thể đó là phải có khả năng học biểu diễn ngữ nghĩa chuỗi đầu vào Nhìn chung, có hai cách tiếp cập chính cho bài toán học biểu diễn ngữ
nghĩa:
Biểu diễn phân phối (distributed representation): Tiếp cận này hướng tới việc
biểu diễn ý nghĩa của một đơn vị ngôn ngữ (từ, câu, đoạn) dưới dạng một véc-tơ số thực Véc-tơ này ánh xạ các đối tượng biểu diễn vào một không gian khái niệm để biểu diễn được mối liên hệ, sự tương đồng về mặt ngữ nghĩa, ngữ cảnh của dữ liệu.
Không gian này bao gồm nhiều chiều (mỗi chiều biểu diễn một khái niệm trừu tượng
nào đó) mà các đơn vị ngôn ngữ trong không gian đó mà có cùng ngữ cảnh hoặc ngữ
nghĩa sẽ có vị trí gần nhau Thông thường, các nghiên cứu trong lĩnh vực này thường
sử dụng giả thiết phân phối được đề xuất bởi Firth và cộng sự (34), nghién cttu nay
cho rằng các đơn vị ngôn ngữ xuất hiện và được sử dung trong cùng một ngữ cảnh,giống nhau về mặt ngữ nghĩa và có nghĩa tương tự Nói một cách đơn giản "ngữ nghĩa
của một đơn vị ngôn ngữ được tạo nên bởi ngữ cảnh xung quanh no".
Một phương pháp tương đối đơn giản để biểu diễn quan hệ ngữ nghĩa giữa các đơn vị
ngôn ngữ đó là sử dụng véc-to đồng xuất hiện (co-occurrence vector) Phương phápthống kê này đơn giản là đếm những từ xung quanh, cùng xuất hiện với một từ nhấtđịnh, khi đó hai từ có khoảng cách giữa hai véc-tơ đồng xuất hiện nhỏ thì sẽ cókhả năng xuất hiện trong các ngữ cảnh giống nhau và có sự tương đồng về mặt ngữ
nghĩa [izrl: Rõ ràng, có thể thấy đối với các phương pháp thống kê kiểu này, khi
số chiều của véc-tơ biểu diễn lớn thì độ phức tạp tính toán sẽ tăng lên.
Bên cạnh đó, dạng biểu diễn nhúng (embedding) cũng là một kỹ thuật để biểu
diễn các đơn vị ngôn ngữ dưới dạng các véc-tơ số học, nhưng đặc điểm khác biệt đó
là các véc-tơ số thực liên tục và các véc-tơ này có thể học được Một phương pháp
15
Trang 18khá điển hình trong cách tiếp cận này đó là phương pháp sử dụng mạng nơ-ron Năm
2003, Bengio và cộng sự |ð| đã khai thác khả năng học ngữ nghĩa của mạng no-ron
nhân tạo và xây dựng một mô hình ngôn ngữ (Neural Network Language Model
-NNLM) để dự đoán dạng biểu diễn nhúng của từ (word embedding) Tuy nhiên nhược điểm của đề xuất này đó là chi phí tính toán rất lớn, cụ thể là ở lớp tính softmax
cuối cùng, đặc biệt là với bộ từ vựng lớn Nếu như NNLM là mô hình mạng đầu tiên
áp dụng kỹ thuật học máy cho việc tạo ra các véc-tơ nhúng của từ thì Word2vec là
mô hình thực hiện việc nhúng từ phổ biến nhất Dược giới thiệu bởi Mikolov vào
năm 2013, trong các nghiên cứu của mình tác giả và cộng sự đã đề xuất sử dụng kỹ
thuật học sâu để tính toán và tạo ra các véc-tơ biểu diễn các từ và bao gồm được cả
các tương đồng về ngữ cảnh và ngữ nghĩa của từ đó Về cơ bản, đây là mô hình học
không giám sát, có thể áp dụng được cho những tập văn bản lớn Hai cách thức xây
dựng mô hình Word2Vec được đề cập trong nghiên cứu này bao gồm: Sử dụng ngữ
cảnh để dự đoán mục tiêu (CBOW) va sử dụng một từ để dự đoán ngữ cảnh mục
tiêu (Skip-gram) Cả hai cách thức này đều là các mô hình dự đoán Trong đó, các
thuật toán chỉ xem xét được ngữ cảnh xung quanh từ mục tiêu nhưng không đề cậpđược về ngữ cảnh toàn văn bản Thay vì tính toán xác suất trên các ngữ cảnh đơn
lẻ xung quanh từ mục tiêu, Pnenington và cộng sự đã đề xuất mô hình GloVedựa trên tính toán xác suất trên toàn bộ tập dữ liệu Kết quả thực nghiệm trên một
số nhiệm vụ về ngữ nghĩa, nhận dạng thực thể có gắn tên, đã cho thấy GloVe đạt được kết quả trội hơn và có độ ổn định trung bình tốt hơn Word2Vec Cả GloVe và
Word2Vec đều biểu diễn được mối tương quan về mặt ngữ nghĩa, ngữ cảnh cả các
từ nhưng lại chỉ trong phạm vi dữ liệu của bài toán và kém hiệu quả trong trường
hợp gặp các từ mới, từ hiếm FastText được đề xuất bởi Bojanowski và cộng sự (s},
là phương pháp mở rộng của mô hình Word2Vec Thay vi hoc trực tiếp véc-tơ cho
các từ, fastText biểu thị mỗi từ dưới dạng n-gram ký tự Điều này giúp mã hoá các
cụm ký tự (subword) và cho phép sinh vector-mã hoá cho các subword FastText vì
vậy sinh được véc-tơ nhúng cho các từ mới (không nằm trong tập dữ liệu huấn luyện)nhờ sự kết hợp véc-tơ nhúng của các subword của nó
Ngoài các phương pháp biểu diễn cho từ và các yếu tố của từ, trong những năm
gần đây hướng tiếp cận biểu diễn phân phối ngữ nghĩa còn được sử dụng để biểu diễn
16
Trang 19câu [63] Hướng tiếp cận này nén một câu có độ dai thay đổi thành một
biểu diễn véc-tơ có kích thước cố định, điều này có thể làm mất đi các khía cạnh có
ý nghĩa của câu gốc
Biểu diễn cấu trúc: Là một cách biểu diễn theo tiếp cận ngôn ngữ học tính toán
(computational linguistics) Trong tiếp cận này, các đối tượng trong ngôn ngữ (dạng
văn bản) được hình thành dựa trên nguyên tắc cấu thành từ các thành phần nhỏ
hơn theo quy tắc ngôn ngữ (ví dụ quy tắc ngữ pháp): các chữ cái cấu thành từ, các
từ cấu thành cụm, các cụm cấu thành câu và các câu cấu thành văn ban (138) Biéu diễn văn bản có thé chia thành các mức như sau: mức từ [99], mức cum (ss), mức câu , mức văn bản (124) Các nghiên cứu liên quan tập trung đề xuất phương
pháp biểu diễn, lượng hoá vai trò của các thành phần trong chuỗi đầu vào, tuy nhiên
các nghiên cứu vẫn gặp phải những thách thức sau:
e Chưa biểu diễn được đầy đủ các đặc trưng của các thành phần trong cấu trúc
chuỗi đầu vào
e Chưa khai thác được đầy đủ vai trò của các thành phần đặc trưng trong cấu
trúc chuỗi đầu vào trong quá trình sinh văn bản đầu ra
e Chưa biểu diễn được một cách tổng quát các yếu tố ràng buộc trong quá trình
sinh văn bản đầu ra
1.3 Bài toán diễn đạt lại văn bản
Diễn đạt lại văn bản là quá trình viết lại nội dung một văn bản nguồn để thu được một dạng văn bản khác mà không thay đổi ý nghĩa chính Trong quá trình này,
quá trình diễn đạt lại cố gắng sử dụng từ vựng, cấu trúc câu và phong cách ngôn ngữ
của mình để tái hiện lại thông tin từ văn bản nguồn một cách tự nhiên và chính xác Điều này có thể bao gồm việc sử dụng từ đồng nghĩa, thay đổi cấu trúc câu, hoặc tái sắp xếp các ý để phù hợp với ngữ cảnh hoặc mục đích cụ thể Mục tiêu của việc diễn
đạt lại văn bản là truyền đạt thông điệp một cách hiệu quả trong ngữ cảnh mới mà
không làm thay đổi ý nghĩa ban đầu như ví dụ trong hình [1.1]
17
Trang 20Scientists in Australia are despondent ahead of the Australian scientists are disappointed in the run-up to
country’s election next week They say neither the \ ,
: tg š next week's national elections Neither the government
government nor the main opposition party have made
sufficient pledges to address issues surrounding research nor the main opposition promises are enough to address
funding, low morale and job insecurity — issues that the the issues of research funding, low morale and job
COVID-19 pandemic has exacerbated .
insecurity, which are exacerbating the COVID-19
pandemic.
Hinh 1.1: Vi du vé dién dat lai van ban
Diễn đạt lại văn ban đóng vai trò quan trọng trong nhiều bài toán xử lý ngôn
ngữ tự nhiên, đặc biệt là các bài toán liên quan đến hiểu văn bản như: hệ thống hỏi
dap [142]: dịch mấy [125]: phân tích ngữ nghĩa lỗ (14): bên cạnh đó diễn đạt
lại văn bản cũng là một tác vụ rất hữu ích trong các kỹ thuật học máy khi dữ liệu ít,
khi đó diễn đạt lại văn bản có thể sử dụng là một giải pháp làm tăng đữ liệu (36).
Mô hình hoá bai toán diễn đạt lại văn ban được phát biểu như sau: cho văn ban đầu vào X = (#i,#2, #„) bao gồm n từ nằm trong từ điển (x; € V) và văn bản diễn
đạt lại của văn bản X, ký hiệu là Y với Y = (,a, , Ym) € VTM Cần xác định tham
số Ø của mô hình Gp để sinh ra văn bản Y = (i,» f„„) € VTM sao cho Y # X.
Biểu diễn dưới mô hình Seq2Seq, được viết mô hình hoá như sau:
P(Y) = [[o@ln sen Yt-15 Cn) (1.5)
t=1
Trong đó
P(YelYrs -: Ue~t› Cn) = F(Yr-1, Se; En) (1.6)
Mục tiêu của ham hợp lý cực dai (Maximum Likelihood Function - MLE) là tìm tap
tham số 6* để cực đại hoá hàm khả năng (tức là sao cho ngữ nghĩa của Y gần với ngữ
nghĩa của Y nhất có thể) Chúng tôi định nghĩa tập tham số Ø* để mô hình Gp có
thể sinh ra chuỗi Ÿ„„ = (u,?b, Fm) trong đó % nằm trong tập từ vựng của ngôn
ngữ đang xem xét.
1.4 Bài toán tóm tắt văn bản tóm lược
Tóm tắt đơn văn bản hướng tóm lược là cách thức tạo ra một văn bản tóm tắt
ngắn gọn, cô đọng, nắm bắt được nội dung chính của văn bản nguồn Để sinh bản
18
Trang 21Input Article
Marseille, France (CNN) The French
prosecutor leading an investigation into the
crash of Germanwings Flight 9525 insisted
Wednesday that he was not aware of any
video footage from on board the plane,
Marseille prosecutor Brice Robin told CNN
that" so farno videos were used in the crash
investigation.” He added, "A person who Generated summary
has such a video needs to immediately give it = Abstracthve Prosecutor : “ So far no videos were
to the investigators " Robin\'s comments summarization used in the crash investigation ”
follow claims by two magazines, German
daily Bild and French Paris Match, of a cell
phone video showing the harrowing final
seconds from on board Germanwings Flight
9525 as it crashed into the French Alps All
150 on board were killed Paris Match and
Bild reported that the video was recovered
from 4 phone at the wreckage site.
Hình 1.2: Ví du về tóm tắt văn bản hướng tóm lược
tóm tắt, tóm tắt hướng tóm lược thực hiện viết lại và nén văn bản nguồn (tương tựnhư cách con người tóm tắt văn bản) thay vì lựa chọn các câu quan trọng từ văn bản
đầu vào như trong tóm tắt đơn văn bản hướng trích rút (extractive summarization).
Ví dụ trong hình cho thấy văn bản đầu ra xúc tích hơn nội dung văn bản đầu
vào rất nhiều và đây cũng là đặc điểm chính của tóm tắt văn bản hướng tóm lược.
Đối với tóm tắt tóm lược đặc trưng của bài toán là cố gắng giữ lại các thông tinquan trọng nhất của văn bản đầu vào mà không thêm vào các ý kiến hoặc diễn giải
cá nhân Điều này, đặt ra yêu cầu đòi hỏi mô hình sinh phải có khả năng hiểu được
đầy đủ ý nghĩa và vai trò của các thành phần trong văn bản đầu vào Bài toán tóm
tắt đơn văn bản hướng tóm lược được phát biểu như sau: Cho một văn bản D gồm
N câu được biểu diễn là D = (si,s2, ,sy) với i = 1, N, s; là câu thứ i trong văn
bản hay văn bản được biểu diễn dưới dạng X = (#\,Zạ, ,¿, ,#); trong đó: x; là
từ thứ i trong văn ban, J là số lượng từ của văn bản Nhiệm vụ của bài toán tóm tắt
tóm lược là sinh ra bản tóm tắt gồm T từ được biểu diễn là Y = (0i,a, , yr) (với
j =1,T) biểu diễn nội dung chính của văn ban X(T < J), trong đó: y; là các từ có thể thuộc văn bản nguồn (y; € X) hoặc không thuộc văn bản nguồn (y; £ X) hoặc
thuộc bộ từ vựng.
Xem xét bài toán tóm tắt tóm lược dưới góc độ bài toán sinh văn bản, ở mỗi
bước, mô hình sẽ sinh ra 1 từ dựa vào các từ đã được sinh ra trước đó Với văn
ban đầu vào X = (1,Zs, ¿, ,#y) , mô hình sẽ ước lượng xác suất có điều
19
Trang 22kiện p(y, a, , Ur|#1, #a, ,#) VỚI: #1,#2, ,ø„ là các từ trong chuỗi đầu vào và11,12, ,1r là các từ của chuỗi đầu ra tương ứng, được tính theo công thức:
T
PM 9a, eo Wr|2t, #2, 7) = | [|p|0, 9ì, yas tr-1) (1.7)
t=1
Trong đó:
+ 0 là tập tham số của mô hình cần xây dựng.
+ z là trạng thái ẩn đại diện cho chuỗi từ đầu vào 2, 2, , #/.
+ (|0, 1, Yi, 9a, f¿_1) là phan bố xác suất của các từ trong bộ từ vựng 6 bước ¿
Sau đó, từ tập các phân bố xác suất này kết hợp với chiến lược tìm kiếm để sinh
ra bản tóm tắt tóm lược cuối cùng
Mục tiêu đặt ra là đi xây dựng và huấn luyện mô hình để tìm tập tham số Ø sao
cho xác suất 0(/|Ø, 2 1, Ye, - ,t¿_1¡) lớn nhất với ¿ € Y tại bước ý Diều này tương
đương với việc tối thiểu hóa hàm mất mát cross - entropy:
1.5.1 Mục tiêu nghiên cứu
Trước những thách thức trên, mục tiêu nghiên cứu tổng quát của luận án là cải
thiện chất lượng sinh văn bản dựa trên mô hình Seq2Seq bằng cách cải tiến các kiến
trúc mã hoá - giải mã, cụ thể cho bài toán diễn đạt lại văn bản và bài toán tóm tắt văn bản theo tiếp cận tóm lược Mục tiêu cụ thể được đặt ra trong luận án bao gồm:
e Dề xuất cải tiến kiến trúc mô hình cho biểu diễn cấu trúc cụm, câu, và đoạn
trong văn bản nguồn S đối với các bài toán sinh diễn đạt lại văn bản và tómtắt văn bản
e Đề xuất các cải tiến mô hình liên quan đến cơ chế chú ý toàn cục và cơ chế chú
ý cục bộ trên các thành phần cấu trúc cụm, câu, đoạn đối với các bài toán sinhdiễn đạt lại và tóm tắt văn bản
20
Trang 23e Dé xuất phương pháp tích hợp ràng buộc trong mô hình Seq2Seq dựa trên kiến
trúc mã hoá - giải mã và thực nghiệm trên bài toán tóm tắt tóm lược văn bản
có giới hạn độ dài.
1.5.2 Phuong pháp tiếp cận
Để đạt được mục tiêu, luận án đề xuất hệ thống các phương pháp nhằm cải thiện
mô hình Seq2Seq với việc cải thiện chất lượng học biểu diễn đầu vào đối với chuỗi S
và quá trình sinh đầu ra đối với chuỗi T Xuất phát từ ý tưởng, mỗi chuỗi đầu vào
sẽ có tính chất cấu tạo chung gồm các thành phần Từ, Cụm, Câu, Đoạn Ngữ nghĩacủa một chuỗi đầu vào không chỉ phụ thuộc vào Từ, vị trí của từ mà còn phụ thuộc
vào Cụm, vị trí của Cụm, Câu, vị trí của Câu, Đoạn, vị trí của Đoạn Nói một cách
khác cấu trúc của chuỗi đầu vào là cấu trúc phân cấp dạng cây với nút gốc là toàn bộchuỗi đầu vào và các nút lá là các từ hoặc các ký tự trong từ Với các cách tiếp cận
truyền thống thường được đề cập trong các nghiên cứu
đều xem xét vai trò của từng từ trong chuỗi đầu vào Bên cạnh đó hướng nghiên cứu
học biểu diễn phân cấp của văn bản cũng đã thu hút được nhiều sự quan tâm cho các
bài toán khác trong xử lý ngôn ngữ tự nhiên như: Khai phá văn bản (29) Nhan dang
và truy xuất văn bản (34): Phan loai vin ban Dựa trên đặc tính cấu
trúc tự nhiên của văn bản chúng tôi đề xuất mô hình học biểu diễn cấu trúc của văn ban tại bước mã hoá dữ liệu đầu vào trong mô hình Seq2Seq để hướng tới mục tiêu cải thiện chất lượng học biểu diễn trong một lớp các bài toán trong dịch đơn ngữ.
Ngoài ra, với mô hình học sinh ngôn ngữ quá trình học biểu diễn đầu vào và sinh
đầu ra là quá trình hộp đen Có thể nói quá trình sinh là quá trình tự nhiên nên độ
đài của chuỗi đầu ra hoặc các tham số ràng buộc như độ phủ từ khoá, độ phủ chủ đề,
độ phủ kiéu, chua tác động vào quá trình sinh văn bản đầu ra Luận án tập trung
nghiên cứu giải quyết bài toán mô hình hoá ràng buộc trong quá trình sinh văn bản
Để đạt được ba mục tiêu nghiên cứu, Luận án đã sử dụng phương pháp nghiên
cứu kết hợp:
- Thực hiện nghiên cứu, phân tích trên khía cạnh lý thuyết từ đó đề xuất các cảitiến về mô hình kiến trúc, cải tiên về khía cạnh tính toán các thành phần trong mô
21
Trang 24- Thực hiện thực nghiệm để kiểm chứng, đánh giá kết quả đối với các mô hình đề
xuất, so sánh với các nghiên cứu liên quan.
1.5.3 Đối tượng nghiên cứu
Các đối tượng nghiên cứu chính của luận án là:
1.6
Các mô hình biểu diễn văn bản.
Các mô hình học sâu LSTM và Transformer.
Các kiến trúc sinh chuỗi từ chuỗi và cơ chế chú ý (attention)
Các đặc trưng của ngôn ngữ tiếng Anh
Nhiệm vụ nghiên cứu
Để đạt được mục tiêu đề ra, nhiệm vụ nghiên cứu tập trung giải quyết các vấn đề
Seq2Seq cho hai bài toán sinh tóm tắt tóm lược và sinh diễn dat lại văn bản
Nghiên cứu, đánh giá các cơ chế chú ý cho bài toán sinh văn bản, đề xuất kỹ
thuật chú ý cho mô hình Seq2Seq phù hợp với đặc trưng của bài toán sinh tóm
tắt tóm lược và sinh diễn đạt lại văn bản
Khảo sát các mô hình ràng buộc độ dài trong bài toán giới hạn độ dài tóm tắttóm lược, đề xuất mô hình giới han độ dài cho mô hình Seq2Seq cho bài toánsinh tóm tắt tóm lược
Triển khai thực nghiệm và đánh giá kết quả.
22
Trang 251.7 Đóng góp của luận án
e Dề xuất phương pháp biểu diễn phân cấp văn bản trong mô hình Seq2Seq cho
bài toán sinh tóm tắt tóm lược Dóng góp nay được công bố trong kỷ yếu hội
thảo "Knowledge and Systems Engineering năm 2021" [CT.3].
e Dé xuất cơ chế chú ý trong mô hình Seq2Seq cho bài toán sinh diễn dat lại
văn bản Đóng góp này được công bố trong kỷ yếu hội thảo "International
Symposium on Integrated Uncertainty in Knowledge Modelling and Decision
Making năm 2018" [CT.5].
e Dé xuất cơ chế chú ý phân cấp có điều kiện trong mô hình Seq2Seq cho bài
toán sinh diễn đạt lại văn bản Đóng góp này được công bố trong kỷ yếu hội
thảo "Multi-disciplinary International Conference on Artificial Intelligence năm
2018" [CT.4].
e Dé xuất cơ chế chú ý cục bộ thích hợp cho bài toán sinh tóm tắt tóm lược
văn bản Đóng góp nay được trình bày tại hội thảo "Asia Pacific Information
Technology Conference lần thứ 5 năm 2023" [CT.2]
e Dé xuất mô hình Seq2Seq cho bài toán sinh tóm tắt tóm lược có ràng buộc độ
dài Đóng góp này được đăng trong tạp chí "Journal of Intelligent Automation
& Soft Computing năm 2023" [CT.1]
1.8 Cau trúc cua Luận an
Trên cơ sở các nội dung nghiên cứu, để đạt mục tiêu đề ra và đảm bảo tính logic, ngoài phần tóm tắt, kết luận, luận án được tổ chức thành 4 chương, ngoài chương
mở đầu nội dung các chương còn lại được bố cục như sau:
e Chương 2 Kiến thức cơ sở: trình bày các kiến thức liên quan các mô hình học
sâu, học biểu diễn cơ sở mức từ, mức câu và mức cụm; một số phương phấp biểu diễn cấu trúc phân cấp của văn bản; các khái niệm và kiến trúc mô hình
Seq2Seq.
23
Trang 26e Chương 3 Bai toán sinh diễn đạt lai văn bản: Nội dung chương đề cập đề bài
toán sinh diễn đạt lại cho văn bản, các kỹ thuật sinh diễn đạt lại và đề xuất cơ
chế chú ý toàn cục và cơ chế chú ý phân cấp có điều kiện cho pha xác định vai
trò của các thành phần trong văn bản
e Chương 4 Bài toán sinh tóm tắt tóm lược: trình bày mô hình bài toán, các
phương pháp cho bài toán sinh tóm tắt tóm lược, đề xuất mô hình học biểu
diễn phân cấp, cơ chế chú ý và phương pháp ràng buộc trong mô hình sinh tómtắt tóm lược cho văn bản
24
Trang 27Chương 2: Kiến thức cơ sở
Chương này trình bày các kiến thức cơ sở liên quan đến các vấn đề trong bài toán
sinh chuỗi từ chuỗi như: mạng nơ-ron hồi quy và các biến thể của mạng nơ-ron hồi
quy, cơ chế chú ý, mô hình Transformer, các mô hình ngôn ngữ dựa trên học sâu đượchuấn luyện trước như: Word2vec, BERT, BERT đa ngôn ngữ, các mô hình tối ưu hoá
của BERT, BERT thu nhỏ để véc-tơ hóa văn bản Chương này cũng trình bày các
thuật toán được sử dụng trong các mô hình sinh văn bản như học có giám sát, tìm
kiếm Beam, các mô hình lý thuyết về độ đo và một số kho dữ liệu điển hình cho hai
bài toán diễn đạt lại và tóm tắt tóm lược văn bản Những kiến thức trình bày trong
chương này là cơ sở cho việc phát triển các đề xuất trong các chương tiếp theo.
2.1 Mạng nơ-ron hồi quy
2.1.1 Biểu diễn và huấn luyện mạng hồi quy
2.1.1.1 Biểu diễn mạng hồi quy
Mạng hồi quy (Recurrent Neural Network - RNN) [107] là một loại mạng
nơ-ron nhân tạo đặc biệt được thiết kế để xử lý dữ liệu chuỗi (sequence data) dạng
X =#z,zs, +, ví dụ như văn bản, tiếng nói, video
Ý tưởng chính của mạng hồi quy (Recurrent Neural Network - RNN) là giúp mô
hình có khả năng xử lý các dữ liệu theo chuỗi, bằng cách sử dụng thông tin từ các
thành phần trước đó của chuỗi để thực hiện dự đoán và phân tích trên các thành
phần hiện tại của chuỗi Diều này cho phép mô hình RNN có khả năng xử lý các
chuỗi dit liệu có độ dài khác nhau.
25
Trang 28Một cách cụ thể, ý tưởng của mạng RNN được minh hoạ trong hình [2.1] sử dụng
một cấu trúc lặp (recurrent structure) để lưu trữ thông tin từ các thành phần trước
đó của chuỗi và sử dụng các thông tin đó để tính toán trên các thành phần hiện tại Với mỗi thành phan trong chuỗi, một véc-tơ trạng thái an h¿ (hidden state) được tinh toán dựa trên véc-tơ đầu vào và véc-to trạng thái an của thành phần trước đó hy_1.
véc-tơ trạng thái an này sẽ được truyền tiếp đến các thành phần tiếp theo của chuỗi
để tính toán các dự đoán và phân tích trên chuỗi.
@) ® @ ®@
Trải ra |w |w |w
Ñ = ei ae
-G) &) @) &
Hình 2.1: Kiến trúc mạng hồi quy
e Mỗi hình vuông là một trạng thái, trạng thái thứ £ có đầu vào là 2, và hạ_¡
(là trạng thái an đầu ra của trạng thái trước đó) Khi đó trang thái an đầu ra
thứ £ được xác định là hy = ƒ(U * 2, +V xh¿_+), trong đó f là hàm kích hoạt
thường là hàm tanh hoặc ReLU.
e Có thể thấy, h, mang thông tin của trạng thái trước đó h¿_¡ và đầu vào 2, của
trang thái hiện tại Dưới góc độ kỹ thuật thiết kế, có thể coi h¿ như một bộ nhớ
chứa các đặc điểm của các từ đầu vào từ z¡ đến 2.
e Trạng thái đầu tiên được tinh là so và được gán giá tri bằng 0
e ¿ là đầu ra thực tế tại bước t Đối với bài toán sinh văn bản, ta muốn dự đoán
từ tiếp theo có thể xuất hiện thì / chính là véc-tơ xác suất các từ trong danh
sách từ vựng của ngôn ngữ đích, khi đó ¿ = soƒtmaz(Wh,).
RNN có nhiều ứng dụng như dịch thuật, phân loại văn bản, nhận dạng giọng nói,
dự báo thời tiết, sinh văn bản, tự động viết tin nhắn và nhiều ứng dụng khác
26
Trang 29Mạng hồi quy (Recurrent Neural Network - RNN) và mang Perceptron đa lớp(Multi-Layer Perceptron - MLP) là hai loại mạng nơ-ron nhân tạo khác nhau về cơchế hoạt động và ứng dụng.
Về cơ chế hoạt động:
e Mạng MLP có cấu trúc lớp đầu vào, lớp ẩn và lớp đầu ra MLP sử dung một
loạt các nơ-ron kết nối từ lớp đầu vào đến lớp đầu ra thông qua các lớp an Các nơ-ron ở lớp ẩn và lớp đầu ra sử dụng hàm kích hoạt phi tuyến tính để tính toán đầu ra Điều này cho phép MLP học các hàm phi tuyến tính phức tap để
giải quyết các van đề như phân loại và dự đoán.
e Mạng RNN có cấu trúc tương tự như MLP, nhưng có thêm một cơ chế lặp lại
(recurrent mechanism) giúp lưu trữ thông tin từ các thành phần trước đó của
chuỗi và sử dụng để thực hiện dự đoán và phân tích trên các thành phần hiện
tại của chuỗi Diều này cho phép RNN xử lý được các chuỗi dữ liệu có độ dài
khác nhau.
Về mặt ứng dụng:
e MLP thường được sử dụng cho các vấn đề có đầu vào cố định và đầu ra dự
đoán, ví dụ như phân loại hình ảnh, dự đoán giá cổ phiếu, hay dự báo thu nhập.
e RNN thường được sử dụng cho các vấn đề dữ liệu chuỗi như dự báo chuỗi thời
gian, dịch thuật tự động, tổng hợp văn bản, hay nhận dạng giọng nói.
Tóm lại, RNN và MLP là hai loại mạng nơ-ron nhân tạo khác nhau về cơ chế hoạt
động và ứng dụng, và được sử dụng cho các bài toán khác nhau của học máy.
2.1.1.2 Huấn luyện mạng hồi quy
Nguyên lý huấn luyện mạng hồi quy cũng tương tự mạng Perceptron đa lớp, tuy
nhiên giải thuật lan truyền ngược (Backpropagation) cần có sự thay đổi để biểu diễn
được tính phụ thuộc trạng thái tại mỗi bước thời gian t Ví du, để tính đạo hàm tại
bước £ = 3 ta phải lan truyền ngược lại cả 2 bước trước đó rồi cộng tổng đạo hàm của
chúng lại với nhau, cơ chế này gọi là lan truyền ngược thời gian (Backpropagation
Through Time- BPTTT).
27
Trang 30Hình 2.2: Đồ thị tính toán trên mạng hồi quy.
2.1.1.3 Hàm lỗi
Một cách tổng quát, bài toán cần sinh chuỗi y = ÿ¡,12, ,1„ với chuỗi đầu vào
© = 1,%, %, Ham lỗi ký hiệu là L, được đo bằng khoảng cách giữa chuỗi đầu rathực sự # và chuỗi đầu ra mong muốn y Khi đó giá trị hàm lỗi trên cả chuỗi x bằng
tổng lỗi của mỗi đầu ra trên mỗi bước thời gian Mục tiêu của hàm lỗi là cực dai
hoá hợp lý giữa đầu ra thật sự và đầu ra mong muốn bằng việc sử dụng negative
log-likehood Khi sử dụng hàm lỗi này, mô hình thay vì đưa ra một đáp án cụ thể
thì sẽ đưa ra xác suất sinh ra chuỗi từ chuỗi x Khi đó, negative log-likehood được
định nghĩa như sau:
L=5 1 (2.1)
L, = —ylog y; (2.2)
Việc tinh gradient của hàm mat mát L theo các tham số là một phép toán tiêu tốn
nhiều tài nguyên Quá trình tính gradient yêu cầu một lần lan truyền thuận từ trái
sang phải qua đồ thị tính toán trong hình |2.2| rồi sau đó lan truyền ngược qua đồ thị
từ phải sang trái Thời gian chạy của thuật toán là O(m) và không thể giảm xuống
được bằng cách song song quá trình tính toán, bởi đồ thị lan truyền thuận có bản
chất tuần tự; mỗi bước thời gian chỉ có thể được tính sau bước phía trước đó đã hoàn
28
Trang 31thành Các trạng thái được tính toán trong quá trình lan truyền thuận phải được
lưu cho tới khi các trạng thái đó được sử dụng lại trong quá trình lan truyền ngược,
vì vậy dung lượng bộ nhớ cần sử dụng là O(m) Thuật toán lan truyền ngược Apdụng trên đồ thị tính toán được gọi là lan truyền ngược thời gian (back-propagation
through time - BPTT).
2.1.1.4 Lan truyền ngược thời gian
Trên mỗi nút của đồ thị được đánh bởi chỉ số ¢ trong hình [2.2 có 3 tham số cần
phải xác định trong quá trình huấn luyện là V, U, W Với mỗi nút N, ta cần tính
gradient Ay L, AyL, AwL tương ứng Trong đó:
Trong đó, gradient Az¿E của đầu ra tại bước thời gian là:
Ah,L = ( Dh, ) (Ai) + Cả) (AgL) (2.6)
Ah,L = V' diag(1 — (ht+1)?)(AhipiL) + W ' (Agi L) (2.7)
trong đó (1 — (h¿;¡)2) là ma trận chéo với các phan tit (1 — (hiz41)?) nằm trên đường chéo chính, Day là ma trận Jacobi của hàm tanh ứng với các đơn vị an i ở thời điểm
t+1 Khi đã tính được gradient tại các nút trong đồ thị tính toán, ta có thể thu được
gradient tại các nút tham số
2.1.2 Mạng thang du (Residual Networks)
2.1.2.1 Xử lý tuần tự
Trong các kiến trúc mạng được giới thiệu trong các phần trước của chương này,các lớp (tầng) trong mạng nơ-ron đều được xử lý theo tuần tự Mỗi lớp nhận đầu ra
29
Trang 32của lớp trước đó là đầu vào của lớp tiếp theo Ví dụ với một kiến trúc mạng bao gồm
ba lớp như trong hình|2.3| được định nghĩa bởi:
hy = fiz, 6]
ha = Sali] (2.8)
hạ = fs[h2, 03]
y = falhs, 4]
trong đó hi, hz, va hg đại điện cho các lớp an trung gian, x là đầu vào của mang, y
là đầu ra của mang và các hàm ƒ là các hàm kích hoạt, 6, là bộ tham số của mạng
Vì quá trình xử lý là tuần tự, quá trình xử lý có thể coi tương đương một loạt các
hàm lồng nhau:
y = falfalfelfilz, 0], 92], 63], 4] (2.9)
về nguyên tắc, trong kiến trúc mang nơ-ron ta có thể thêm bao nhiêu lớp tuỳ ý Số
lớp mạng càng lớn thì số lượng tham số càng lớn Tuy nhiên, theo công thức độ
sâu của mạng càng lớn thì khả năng hàm mất mát trở nên không ổn định Đây chính
là điểm hạn chế trong các mô hình xử lý tuần tự đối với các mạng hồi quy đa lớp.
2.1.2.2 Kết nối thặng dư và khối thặng dư
Kết nối thặng dư là các nhánh trong lưu đồ tính toán, trong đó đầu vào của mỗi
lớp mạng được kết hợp đầu ra để làm đầu vào cho lớp tiếp theo như trong hình [2.4]
Khi đó, công thức được viết lại như sau:
Trang 33trong đó, ký hiệu đầu tiên ở phía bên phải mỗi công thức tương ứng với kết nối thặng
dư Giá trị các hàm ƒ„|¿,Ø„| sẽ được cộng vào dạng biểu diễn hiện tại nên đòi chúng
có cùng kích thước Mối kết hợp cộng đầu vào và đầu ra đã xử lý được gọi là một
khối thặng dư Công thức có thể được biểu diễn lại dưới dạng hàm đơn bằng
Có thé xem phương trình nay như một quá trình giải nghĩa kiến trúc mang thang dư.
Hình |2.5| cho ta thấy đầu ra cuối cùng của mạng là tổng của đầu vào và bốn mạng
nhỏ hơn Một cách hiểu khác, các kết nối thặng dư biến đổi mạng ban đầu thành một tập hợp các mạng nhỏ hơn, đầu ra của chúng được tổng hợp để tính toán kết quả cho
đầu ra cuối cùng Hơn nữa, kiến trúc mạng tại hình |Ð.5| có 16 đường có độ dài khác
nhau từ đầu vào đến đầu ra Như vậy giá trị đầu ra được tổng hợp từ 4 mạng con
với 16 nguồn dit liệu, khi đó gradient được xác định theo đạo hàm được tính như sau:
Oy " Øja | (Of | Ofs 215)
Of Of: Of: 919 (2.12) 9ƒ | 9/29 | Ofa Ofs | Ofs Ofs 05)
Of Of,Ofi OfsAfi OAfsAfoOh,
Dao ham trong công thức có đường đi ngắn hơn tương ứng với các mang con
H(
được tao ra bởi các kết nối thing dư nên thường sẽ có độ ổn định tốt hơn Do đó
mạng nơ-ron với các kết nối thặng dư hiếm khi gặp các vấn đề phức tạp trong chuỗi
đài đạo hàm.
31
Trang 34Hình 2.5: Mô hình mang thing du chỉ tiết.
2.1.2.3 Bùng nổ gradient trong mạng thặng dư
Phương pháp khởi tạo tham số đóng vai trò quan trọng trong quá trình huấn luyện
mạng trong cả hai pha lan truyền thẳng và lan truyền ngược He và cộng sự đã
đề xuất sử dụng hàm kích hoạt ReLU và phương pháp khởi tạo trong số thích hợp
cho kiến trúc mạng học sâu đa lớp Đối với mạng thặng dư, khả năng gradient biến
mất khi độ sâu của mạng tăng lên là không thể bởi luôn tồn tại ít nhất một đường
dẫn mà tầng đầu tiên góp phần trực tiếp vào đầu ra của mạng Tuy nhiên, khả năng
32
Trang 35bùng nổ gradient vẫn có thể xảy ra ngay cả khi sử dụng phương pháp khởi tạo tham
số được đề xuất bởi He và cộng sự và hàm kích hoạt ReLU trong các khối thang
dư Phương sai kỳ vọng không thay đổi sau quá trình xử lý trong mỗi khối thặng
dư Do đó, khi kết hợp với đầu vào, phương sai sẽ tăng gấp đôi như trong hình
và do đó sẽ tăng theo cấp số nhân với số lượng khối thặng dư Một giải pháp khá
đơn giản nhưng có tính hiệu quả bằng cách nhân đầu ra của mỗi khối thặng dư với
vã để cân bằng cho việc tăng gấp đôi như trong hình Tuy nhiên, phương pháp
khái quát thường được sử dụng nhiều hơn đó là kỹ thuật chuẩn hoá hàng loạt (batch
normalization).
2.1.2.4 Kỹ thuật Batch normalization
Batch normalization là một kỹ thuật quan trọng trong mạng nơ-ron được sử dụng
để ổn định và tăng tốc quá trình huấn luyện mạng Trong mạng thặng dư, kỹ thuật này được áp dụng sau mỗi khối thặng dư để chuẩn hóa các giá trị đầu ra của khối
trước đó Ý tưởng chính của batch normalization là chuẩn hoá các giá trị đầu ra của
mỗi tầng hoặc mỗi khối thặng dư bằng cách điều chỉnh trung bình và phương sai của
chúng theo phân phối chuẩn Điều này làm giảm độ biến động của dữ liệu và giữ cho
các giá trị trong phạm vi tuyệt đối Quá trình batch normalization được thực hiện
như sau:
1 Tính trung bình và phương sai của các giá trị đầu ra trong một batch
2 Chuẩn hóa các giá trị đầu ra bằng cách dịch chuyển và điều chỉnh tỷ lệ để có
trung bình bằng + và phương sai bằng 6
33
Trang 363 Áp dụng các tham số học (learnable parameters) để điều chỉnh tỷ lệ và dịch
chuyển.
Nếu đặt m„ là trung bình của các trạng thái an, và s„ là độ lệch chuẩn thi công thức
tính các giá trị này cụ thể như sau:
trong đó, + là tham số tỷ lệ va 6 là tham số dich chuyển Các tham số này được hoc
trong quá trình huấn luyện Quá trình này đảm bảo rằng các giá trị đầu ra sau khi
chuẩn hoá có trung bình gần bằng + và phương sai gần bằng ổ, tạo ra một phân phối chuẩn cho các hoạt động trong batch.
2.1.2.5 Nhận xét
Batch normalization giúp cải thiện tốc độ huấn luyện, giảm thiểu hiện tượng biến
mất gradient và mở rộng số lượng tham số của mô hình Phương pháp này cũng giúp
ổn định quá trình huấn luyện bằng cách giảm sự phụ thuộc vào việc khởi tạo tham
số ban đầu và tăng khả năng học của mạng nơ-ron Cụ thể kỹ thuật này có một số
4
ưu điểm sau:
34
Trang 371 Ôn định gradient: Batch normalization giúp kiểm soát việc lan truyền
gra-dient trong quá trình lan truyền ngược (backpropagation), giảm thiểu sự phụ
thuộc vào việc khởi tạo tham số và giúp tránh tình trạng gradient biến mất
hoặc bùng nổ.
2 Tăng tốc huấn luyện: Batch normalization giúp tăng tốc quá trình huấn
luyện bằng cách cho phép sử dụng hệ số học lớn hơn và giảm thiểu tác động
của biến động trong dit liệu
3 Regularization: Tác động tương tự như batch normalization, giúp giảm
over-fitting và cải thiện khả năng tổng quát hóa của mô hình.
4 Giảm sự phụ thuộc vào khởi tạo tham số: Batch normalization giúp giảm
sự nhạy cảm của mạng nơ-ron đối với khởi tạo tham số ban đầu, làm cho quá
trình huấn luyện ổn định hơn và dễ dàng tìm ra các điểm cực tiểu cục bộ tốt
hơn.
Mặc dù có nhược điểm về hiệu quả tính toán, nhưng tổng thể, Batch normalization
mang lại nhiều lợi ích quan trọng và được sử dụng rộng rãi trong các mạng nơ-ron
hiện đại.
2.1.3 Mất mát, bùng no đạo hàm và chuẩn hóa lô trong hoc
sau
Trong công thức [2.5] và [2.6] ta có thé thay giá tri gradient Ay L phụ thuộc chuỗi
Øh1+¡oe )', Bên cạnh đó, vì hàm kích hoạt là ham tanh nên kết quả đầu
đạo hàm chuỗi (
ra sẽ nằm trong đoạn [1-,1] nên giá trị đạo hàm sẽ nằm trong khoảng đóng [0,1] Ta
có thể thay ham tanh sẽ có dao hàm bằng 0 tại hai đầu Mà khi đạo hàm bằng 0 thì
nút mạng tương ứng được coi là trạng thái bão hoà (trạng thái không còn khả năng lưu trữ thêm thông tin) Khi đó, các nút phía trước cũng sẽ bị bão hoà theo Ngay cả
khi ta giả định rằng, các tham số đạt được giá trị giúp mạng hồi quy có tính ổn định (có thể lưu trữ ký ức), khó khăn trong học phụ thuộc dài phát sinh từ việc trọng số
của các tương tác dài hạn (bao gồm các phép nhân của nhiều ma trận Jacobi với các
35
Trang 38giá trị rất nhỏ) thì giá trị tích nhỏ dần theo cấp số nhân so với các tương tác ngắnhạn cũng dẫn đến hiện tượng mất mát gradient Có nhiều nghiên cứu đã chỉ ra các
phương pháp giải quyết vấn đề mất mát gradient, trong đó phương pháp thay thế
các hàm kích hoạt tanh hoặc sigmoid bằng hàm ReLU Dao hàm của hàm ReLU sẽchỉ trả lại một trong hai giá trị hoặc là 0 hoặc là 1 nên trong quá trình huấn luyện
ta có thể kiểm soát được vấn đề mất mát đạo hàm khi nhãn liên tiếp các giá trị 0.
Bên cạnh đó, một phương pháp thông dụng hơn trong các nghiên cứu cho bài toán
xử lý ngôn ngữ tự nhiên là sử dụng kiến trúc mạng nơ-ron bộ nhớ ngắn hạn hướng
dai (Long Short-Term Memory - LSTM) hoặc mạng nơ-ron hồi quy có cổng (Gated
Recurrent Unit - GRU) Đây là hai kiến trúc mạng phổ biến trong lĩnh vực xử lý
ngôn ngữ tự nhiên.
2.2 Mô hình ngôn ngữ dựa trên ky thuật hoc sâu
2.2.1 Biểu diễn từ Word Embeddings
Biểu diễn nhúng từ (Word embedding) là phương pháp phổ biến để biểu diễn các
từ của văn bản Word embedding có khả năng nắm bắt được ngữ cảnh của một từ
36
Trang 39trong văn bản, sự tương đồng về ý nghĩa và ngữ pháp, mối quan hệ giữa một từ với
các từ khác Phương pháp này cung cấp các véc-tơ biểu diễn từ bằng các giá trị thực, đây là cải tiến so với các mô hình sử dụng tần suất xuất hiện của từ để sinh ra các véc-td có kích thước lớn và thưa (chứa hầu hết các giá trị 0) để mô tả văn bản nhưng không phải ý nghĩa của các từ Nhúng từ sử dụng một thuật toán để huấn luyện tập
các véc-tơ dày đặc với giá trị liên tục, có độ dài cố định dựa trên khối lượng lớn các
văn bản Mỗi từ được biểu diễn bởi một điểm trong không gian mã hóa và được học
dựa trên các từ xung quanh Phương pháp nhúng từ sử dụng cho các nhiệm vụ trong
xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, dịch máy, đã đạt được hiệu quả cao
Có một số mô hình được sử dụng để học nhúng từ như Word2vec, Glove, BERT,
2.2.2 Biểu diễn từ Word2Vec
Biểu diễn Word2vec cho phép biểu diễn mỗi từ bằng một véc-tơ các số thực.
Mô hình này dựa trên mạng nơ-ron và được học trên một tập văn bản Có hai mô
hình cơ bản là CBoW (Continuous Bag of Words) và mô hình Skip - Gram
Mô hình CBoW: Lấy ngữ cảnh của mỗi từ làm dau vào dé cố gắng dự đoán ra từ
tương ứng với ngữ cảnh này, nghĩa là CBoW học cách mã hóa từ bằng cách dự đoán
từ hiện tại dựa trên ngữ cảnh của từ đó Chi tiết như sau: CBoW sử dụng véc-tơ mãhóa one - hot của từ đầu vào và tính toán lỗi đầu ra của mô hình so với véc-tơ mãhóa one - hot của từ cần dự đoán Trong quá trình dự đoán từ mục tiêu, mô hình có
thể học được cách để biểu diễn véc-tơ của từ mục tiêu này Hình thể hiện cách một từ ở dạng biểu diễn one-hot véc-tơ được mã hoá qua phép chiếu ma trận tham
số W để biểu diễn thành véc-tơ mã hoá của mô hình Word2vec và sau đó được giải
mã ngược lại qua ma trận W’ để khôi phục lại biểu diễn one-hot véc-tơ ban đầu, với:
e Lớp đầu vào là véc-tơ được mã hóa dưới dạng véc-tơ one-hot có kích thước V,
lớp an chứa N nơ-ron, lớp đầu ra là một véc-tơ có kích thước V.
e Wyxw là một ma trận trọng số với số chiều là V x N, ánh xạ lớp vào tới lớp
an.
e Wi, là ma trận trọng số với số chiều là N x V, ánh xa các lớp an tới lớp ra.
37
Trang 40Lớp đầu vào Lớp ấn Lớp dau ra
Hình 2.9: Mã hoá và giải mã từ theo mô hình Word2vec lu],
Các nơ-ron trong lớp ẩn chỉ sao chép tổng trọng số của lớp vào sang lớp tiếp theo
(không có các hàm kích hoạt sigmoid, tanh hay ReLU (29), chỉ có hàm kích hoạt
softmax tại các nơ-ron trong lớp ra.
Mô hình CBoW huấn luyện mô hình để học ma trận tham số mã hoá và giải mã bằng cách sử dụng các từ xung quanh của một từ để dự đoán từ đó Mô hình được thể hiện như trong Hình dưới đây Mô hình này gồm ngữ cảnh của C từ nên khi
Lớp đầu vào
Hình 2.10: Mô hình CBoW sử dụng ngữ cảnh của một từ để dự đoán từ đó.
tính toán các đầu vào lớp an, mô hình tính trung bình véc-tơ của C từ.
Mô hình Skip-Gram: Khác với mô hình CBoW, mô hình Skip-Gram học mã hóa
từ bằng cách dự đoán các từ xung quanh cho một từ đầu vào, được biểu diễn trong
38