• Nghiên cứu vai trò của cơ chế chú ý toàn cục và cơ chế chú ý cục bộ trêncác thành phần cấu trúc cụm, câu, đoạn đối với các bài toán sinh diễnđạt lại và tóm tắt văn bản.dựa trên kiến tr
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————
NGUYỄN NGỌC KHƯƠNG
NGHIÊN CỨU CÁC MÔ HÌNH SINH CHUỖI TỪ CHUỖI SỬ DỤNG HỌC SÂU
VÀ ỨNG DỤNG TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội - 2024
Trang 2Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại họcQuốc Gia Hà Nội.
Người hướng dẫn khoa học:
1 PGS.TS.Nguyễn Việt Hà
2 PGS.TS Lê Anh Cường
Phản biện 1: GS.TSKH Hồ Tú Bảo
Phản biện 2: PGS.TS Nguyễn Đức Dũng
Phản biện 3: PGS.TS Nguyễn Thanh Tùng
Luận án đã được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấmluận án tiến sĩ họp tại Đại học Quốc Gia Hà Nội vào hồi 14 giờ 00 ngày 24tháng 01 năm 2024
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội
Trang 3Mục lục
1.1 Bối cảnh 1
1.2 Mục tiêu nghiên cứu 2
1.3 Nhiệm vụ nghiên cứu 3
1.4 Đóng góp của Luận án 4
2 Kiến thức cơ sở 5 2.1 Mạng nơ-ron hồi quy 5
2.2 Mô hình ngôn ngữ dựa trên kỹ thật học sâu 5
2.3 Mạng thặng dư 6
2.4 Kiến trúc mã hoá-giải mã 6
2.4.1 Phát biểu bài toán 6
2.4.2 Mô hình hoá bài toán 7
2.5 Độ đo bài toán sinh văn bản 8
2.6 Kho dữ liệu 8
3 Mô hình học sinh chuỗi từ chuỗi cho bài toán diễn đạt lại văn bản 9 3.1 Giới thiệu 9
3.2 Cơ chế chú ý toàn cục cho bài toán DĐLVB 10
3.2.1 Mô hình đề xuất 10
3.2.2 Thực nghiệm 11
Trang 4MỤC LỤC II
3.3 Cơ chế chú ý phân cấp cho bài toán DĐLVB 12
3.3.1 Mô hình đề xuất 12
3.3.2 Thực nghiệm 13
3.4 Kết luận chương 13
4 Mô hình học sinh chuỗi từ chuỗi cho bài toán sinh tóm tắt tóm lược 14 4.1 Mô hình biểu diễn phân cấp cho bài toán tóm tắt tóm lược 14
4.1.1 Mô hình đề xuất 14
4.1.2 Thực nghiệm 15
4.2 Cơ chế chú ý cục bộ cho bài toán tóm tắt tóm lược 16
4.2.1 Mô hình đề xuất 16
4.2.2 Thực nghiệm 17
4.3 Mô hình sinh tóm tắt văn bản tóm lược có ràng buộc độ dài 17
4.3.1 Mô hình đề xuất 17
4.3.2 Thực nghiệm 19
4.4 Kết luận chương 21
Danh mục công trình khoa học đã công bố
Trang 5từ chuỗi x1, , xn có thể được mô hình hoá thành hàm phân phối xác suất cóđiều kiện như sau:
Mỗi token y j có xác suất xuất hiện được tính như sau:
p(y|y , s) = sof tmax(g(h )) (1.1.3)
Trang 6Trong đó g là hàm dùng để biến đổi trạng thái ẩn hj của bộ giải mã tại bướcgiải mã tương ứng thành véc-tơ có kích thước bằng kích thước của tập từ vựngtrong ngôn ngữ đích Trạng thái ẩn hj được tính như sau:
hiện tại từ trạng thái ẩn đầu ra của bước trước bằng mạng nơ-ron
Mô hình sinh chuỗi từ chuỗi dựa trên kiến trúc mã hoá-giải mã được trìnhbày ở trên tuy đã giải quyết bài toán chuyển hóa chuỗi đầu vào thành chuỗiđầu ra trên cùng hoặc khác ngôn ngữ, tuy nhiên nó tồn tại một số hạn chế nhưsau:
trúc chuỗi đầu vào
cấu trúc chuỗi đầu vào trong quá trình sinh văn bản đầu ra
trình sinh văn bản đầu ra
1.2 Mục tiêu nghiên cứu
Trước những thách thức trên, mục tiêu nghiên cứu tổng quát của luận án
là cải thiện chất lượng sinh văn bản dựa trên mô hình sinh chuỗi từ chuỗi bằngcách mở rộng kiến trúc mã hoá - giải mã Khi đó mục tiêu cụ thể được đặt ratrong luận án bao gồm:
cụm, câu, và đoạn trong văn bản nguồn S đối với các bài toán sinh diễnđạt lại và tóm tắt văn bản
Trang 7• Nghiên cứu vai trò của cơ chế chú ý toàn cục và cơ chế chú ý cục bộ trêncác thành phần cấu trúc cụm, câu, đoạn đối với các bài toán sinh diễnđạt lại và tóm tắt văn bản.
dựa trên kiến trúc mã hoá - giải mã đã có, đề xuất phương pháp tích hợp
và thực nghiệm
1.3 Nhiệm vụ nghiên cứu
Để đạt được mục tiêu đề ra, nhiệm vụ nghiên cứu tập trung giải quyết cácvấn đề chính sau đây:
hình trong các ứng dụng thực tiễn trong lĩnh vực xử lý ngôn ngữ tự nhiên
mô hình vectơ nói riêng, từ đó đề xuất mô hình biểu diễn văn bản trong
mô hình Seq2Seq cho hai bài toán sinh tóm tắt tóm lược và sinh diễn đạtlại văn bản
• Nghiên cứu, đánh giá các cơ chế chú ý cho bài toán sinh văn bản, đề xuất
kỹ thuật chú ý cho mô hình Seq2Seq phù hợp với đặc trưng của bài toánsinh tóm tắt tóm lược và sinh diễn đạt lại văn bản
tóm tắt trừu tượng, đề xuất mô hình giới hạn độ dài cho mô hình Seq2Seqcho bài toán sinh tóm tắt trừu tượng
Trang 81.4 Đóng góp của Luận án
sinh diễn đạt lại văn bản Đóng góp này được công bố trong kỷ yếu hộithảo International Symposium on Integrated Uncertainty in KnowledgeModelling and Decision Making năm 2018
chuỗi cho bài toán sinh diễn đạt lại văn bản Đóng góp này được công
bố trong kỷ yếu hội thảo Multi-disciplinary International Conference onArtificial Intelligence năm 2018
chuỗi từ chuỗi cho bài toán sinh tóm tắt tóm lược Đóng góp này đượccông bố trong kỷ yếu hội thảo Knowledge and Systems Engineering năm2021
lược văn bản Đóng góp này được trình bày tại hội thảo "Asia PacificInformation Technology Conference lần thứ 5 năm 2023"
có ràng buộc độ dài Đóng góp này được đăng trong tạp chí "Jounal ofIntelligent Automation & Soft Computing năm 2023"
Trang 9Chương 2
Kiến thức cơ sở
2.1 Mạng nơ-ron hồi quy
Mạng hồi quy (Recurrent Neural Network - RNN) là một loại kiến trúcmạng nơ-ron trong lĩnh vực học máy và xử lý ngôn ngữ tự nhiên, thiết kế để
xử lý dữ liệu có thứ tự, như dãy thời gian hay chuỗi văn bản RNN có khảnăng giữ và sử dụng thông tin từ các bước trước đó để xử lý bước tiếp theotrong dãy Điểm quan trọng của RNN là khả năng xử lý các chuỗi dữ liệu có
độ dài thay đổi, và nó có khả năng mô hình hóa mối quan hệ phức tạp giữacác thành phần trong chuỗi Tuy nhiên, mặc dù RNN có những ưu điểm, nhưkhả năng mô hình hóa chuỗi dữ liệu, nhưng nó cũng có một số hạn chế Mộttrong những vấn đề chính là khả năng xử lý thông tin từ quá khứ có thể giảmdần khi chuỗi trở nên dài Để giải quyết vấn đề này, đã xuất hiện nhiều biếnthể của RNN như: mạng bộ nhớ ngắn hạn hướng dài(LSTM); mạng đơn vị hồiquy có cổng nhớ (GRU); mạng LSTM hai hướng; mạng GRU hai hướng
2.2 Mô hình ngôn ngữ dựa trên kỹ thật học sâu
Mô hình ngôn ngữ được thiết kế để dự đoán xác suất của từ tiếp theo trongmột chuỗi dựa trên ngữ cảnh của các từ trước đó trong chuỗi Điều này giúp
Trang 10mô hình "học" ngữ pháp, ngữ nghĩa, và mối quan hệ giữa các từ trong mộtngôn ngữ cụ thể Các mô hình ngôn ngữ dựa trên học sâu đã đạt được nhữngtiến triển đáng kể và thường được sử dụng trong nhiều ứng dụng, bao gồmdịch máy, tóm tắt văn bản, phân loại văn bản, và nhiều nhiệm vụ ngôn ngữ tựnhiên khác Nội dung trong mục này, chúng tôi trình bày các kỹ thuật, phươngpháp biểu diễn mã hoá các từ trong văn bản đầu vào như: Word2Vec, GloVe,BERT và các mô hình cải tiến của BERT.
2.3 Mạng thặng dư
Một vấn đề khi xây dựng các mô hình nơ-ron sâu là việc áp dụng học sâu(deep learning) có thể dẫn đến hiện tượng "vanishing gradient" (đạo hàm biếnmất), khi làm giảm hiệu suất học của mạng Mạng thặng dư (Residual NeuralNetwork) giải quyết vấn đề này bằng cách sử dụng các "residual blocks" (khốidư) trong kiến trúc mạng Mô hình mạng thặng dư có thể xây dựng các mạngrất sâu mà không gặp vấn đề của gradient biến mất Nó đã trở thành mộttrong những kiến trúc phổ biến được sử dụng trong nhiều ứng dụng thị giácmáy tính, như nhận dạng hình ảnh và phân loại đối tượng
2.4 Kiến trúc mã hoá-giải mã
2.4.1 Phát biểu bài toán
Một cách tổng quát, mô hình học sinh chuỗi từ chuỗi có thể được phát biểunhư sau:
Cho chuỗi đầu vào x = x1, x2, , xn và chuỗi đầu ra y = y1, y2, , ym, trong
đó xt ∈ Sx, yu ∈ Sy, và Sx, Sy là tập các khả năng có thể cho mỗi cặp xt và yt
tương ứng Giả sử, đầu vào và đầu ra của mô hình là các biến ngẫu nhiên, cácgiá trị n và m phụ thuộc vào từng cặp chuỗi đầu vào, đầu ra cụ thể
Trang 11Giả sử, mô hình sinh luôn sinh được chuỗi y cho mỗi chuỗix dựa trên phânphối xác suất có điều kiện p(y|x), ký hiệu y = f (x) Nhiệm vụ của quá trình
hoá xác suất có điều kiện p(y|x) : y′ = arg max
y
p(y|x, θ)
2.4.2 Mô hình hoá bài toán
Kiến trúc mã hoá - giải mã là mô hình hoá tiểu chuẩn cho các tác vụ sinhchuỗi từ chuỗi Kiến trúc mã hoá - giải mã tổng quát được mô tả trong hình2.1 Các thành phần chính của mô hình bao gồm:
Hình 2.1: Mô hình sinh chuỗi từ chuỗi tổng quát.
đầu vào thành một véc-tơ có kích thước cố định
và tạo ra chuỗi các token ở ngôn ngữ đích tại mỗi bước giải mã Do đó,hàm xác suất có điều kiện có thể được phân tích như sau:
Mỗi token yj có xác suất xuất hiện được tính như sau:
p(y|yj<s, s) = sof tmax(g(hj)) (2.4.3)
Trang 12Trong đó g là hàm dùng để biến đổi trạng thái ẩn hj của bộ Giải mã tại bướcgiải mã tương ứng thành véc-tơ có kích thước bằng kích thước của tập từ vựngtrong ngôn ngữ đích Trạng thái ẩn hj được tính như sau:
hiện tại từ trạng thái ẩn đầu ra của bước trước bằng mạng RNN hoặc bằngnhững cải tiến khác như LSTM và GRU
2.5 Độ đo bài toán sinh văn bản
Trình bày các công thức và ý nghĩa các độ đo liên quan đến việc đánh giá
tự động nội dung văn bản đầu ra trong bài toán diễn đại lại (BLEU, TER,METEOR, EMB) và sinh tóm tắt tóm lược văn bản (ROUGE, BLEU) được
sử dụng trong quá trình thực nghiệm các mô hình được đề xuất trong luận án
2.6 Kho dữ liệu
Nội dung trình bày đặc điểm và thống kê trên các kho dữ liệu thực nghiệmcho hai bài toán diễn đại lại (PPDB, WikiAnswers) và sinh tóm tắt tóm lượcvăn bản (Amazon Reviews, Gigaword, CNN/Daily Mail, NEWSROOM) Trong
cả hai bài toán chúng tôi đều tiến hành quá trình thực nghiệm để đánh giáhiệu quả các mô hình đề xuất trên cả hai mức độ dài của văn bản đầu vào vớingưỡng là 150 trở lên "được coi" là văn bản dài và 150 từ trở xuống "được coi"
là văn bản ngắn
Trang 13Chương 3
Mô hình học sinh chuỗi từ chuỗi
cho bài toán diễn đạt lại văn bản
3.1 Giới thiệu
Mô hình hoá bài toán diễn đạt lại văn bản (DĐLVB) được phát biểu nhưsau: cho văn bản đầu vào X = (x 1 , x 2 , , x n ) bao gồm n từ nằm trong từđiển (xi ∈ V) và văn bản diễn đạt lại của văn bản X, ký hiệu là Y với Y = (y1, y2, , ym) ∈ Vm Cần xác định tham số θ của mô hình Gθ để sinh ra vănbảnY = (b by1,by2, ,bym) ∈ Vm sao cho Y ̸= Xb Biểu diễn dưới mô hình sinh chuỗi
từ chuỗi, khi đó công thức 2.4.1 được viết lại như sau:
Dưới dạng mô hình sinh chuỗi từ chuỗi sử dụng kiến trúc mã hoá giải mã có
phương pháp xây dựng véc-tơ ctrong quá trình sinh diễn đạt lại văn bản trongnội dung các mục tiếu theo
Trang 14trên mỗi trạng thái ẩn hi như sau:
Trang 15trong đó f thường sử dụng hàm tanh với tham số mặc định β là 1 như đườngliền nằm giữa trong hình 3.2.
Trên thực tế, với bài toán diễn đạt lại đôi khi chỉ đơn giản là việc diễn giảihoặc thay thế một số từ có vai trò quan trọng trong văn bản nguồn ta đã cóthể sinh ra một bản diễn đạt lại mới cho văn bản đáp ứng được yêu cầu, mongmuốn đặt ra Điều đó có nghĩa một số từ, cụm từ, thành phần trong văn bảnnguồn không có vai trò trong quá trình diễn đạt lại văn bản Để giải quyết vấn
theo công thức sau:
eti = f (β ∗ (Wa∗ st−1+ Ua∗ hi)) (3.2.6)
phần trong văn bản đầu vào không có ý nghĩa trong quá trình diễn đạt lại vănbản(tương ứng với giá trị của hàm tanh là -1) Điều này làm trực tiếp thay đổigiá trị của trọng số chú ý eti, cơ chế chú ý dựa trên việc bổ sung hệ số phạt β
được gọi là Hệ số phạt chú ý(Penalty Coefficient Attention - PCA)
3.2.2 Thực nghiệm
Bảng 3.1: Kết quả thực nghiệm trên kho dữ liệu PPDB:
Kích thước Beam = 5 Kích thước Beam = 10
Trang 16Bảng 3.2: Kết quả thực nghiệm trên kho dữ liệu WikiAnswer:
Kích thước Beam = 5 Kích thước Beam = 10
Hình 3.3: Kiến trúc mạng với cơ chế chú ý phân cấp.
3.3 Cơ chế chú ý phân cấp cho bài toán DĐLVB
3.3.1 Mô hình đề xuất
Mô hình đề xuất được thể hiện trong hình 3.3, bao gồm hai bộ mã hoá cóquan hệ với nhau Bộ mã hoá mức từ có chức năng chuyển hoá chuỗi đầu vàocác từ trong văn bản đầu vào (w i,1, , wi,Ni,s) thành chuỗi trạng thái ẩn mức
từ (hwi,1 , , hwi,N
i,s) Bộ mã hoá thứ hai có chức năng chuyển các biểu diễn mức
Trang 17câu (c1,t, , cN
D ,t) thành chuỗi các trạng thái ẩn mức câu (hs1,t, , hsN
D ,t), chuỗitrạng thái ẩn này sẽ được sử dụng để xác định các trọng số chú ý mức và mứccâu trong mô hình đề xuất
3.3.2 Thực nghiệm
Bảng 3.3: Kết quả thực nghiệm trên kho dữ liệu PPDB:
Kích thước Beam = 5 Kích thước Beam = 10
Bảng 3.4: Kết quả thực nghiệm trên kho dữ liệu WikiAnswer:
Kích thước Beam = 5 Kích thước Beam = 10
2018 Với cơ chế chú ý HCANN thích hợp cho việc biểu diễn ngữ cảnh mức từ
và mức câu trong chuỗi đầu vào trong bài toán DĐLVB đã được cống bố trong
kỷ yếu hội thảo quốc tế MIWAI 2018
Trang 18Chương 4
Mô hình học sinh chuỗi từ chuỗi
cho bài toán sinh tóm tắt tóm lược
4.1 Mô hình biểu diễn phân cấp cho bài toán tóm
tắt tóm lược
4.1.1 Mô hình đề xuất
Chúng tôi đề xuất mô hình gồm hai thành phần chính: bộ mã hoá và bộ giải
mã dựa trên mạng LSTM thành phần và được minh hoạ chi tiết trong hình4.1 Trong đó bộ mã hoá được thiết kế với nhiều lớp LSTM được xếp chồng lênnhau nhằm thực hiện các chức năng mã hoá cho các đối tượng cấu trúc khácnhau trong văn bản Cụ thể với mỗi mức biểu diễn của văn bản nguồn (vănbản đầu vào), chúng tôi mô hình hoá như sau:
• h ew
t và hest lần lượt là trạng thái ẩn mức từ và mức câu trong bộ mã hoá;
hdwt là trạng thái ẩn mức từ trong bộ giải mã, ở bước thời gian t
Trang 19Hình 4.1: Mô hình biểu diễn phân cấp.
Cách biểu diễn trên phản ánh được bản chất ngữ nghĩa tự nhiên thông qua nộidung và cấu trúc của các thành phần trong văn bản
4.1.2 Thực nghiệm
Bảng 4.1: Kết quả thực nghiệm trên kho dữ liệu GigaWord:
Model/Datasets smaller than 150 words larger than 150 words
ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
RAS-Eleman (Chopra et al., 2016) 33.78 15.97 31.15 32.28 14.28 30.75
Bảng 4.2: Kết quả thực nghiệm trên kho dữ liệu Amazon Reviews:
Model/Datasets smaller than 150 words larger than 150 words
ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
RAS-Eleman (Chopra et al., 2016) 84.77 41.76 81.36 84.01 41.15 80.50
Trang 204.2 Cơ chế chú ý cục bộ cho bài toán tóm tắt tóm
lược
4.2.1 Mô hình đề xuất
Chúng tôi đề xuất mô hình kết hợp giữa cơ chế chú ý cục bộ và cơ chế chú
ý toàn cục nhằm khai thác được đầy đủ thông tin vai trò của các thành phầntrong chuỗi trong quá trình sinh chuỗi đầu ra thông qua thuật toán sau:Thuật toán 1 Cơ chế chú ý toàn cục trên mạng thặng dư
Đầu vào: Véc-tơ trạng thái ẩn của bộ giải mã hraat và tất cả các véc-tơ trạngthái ẩn của bộ mã hoá hraas
Đầu ra: Véc-tơ chú ý ct tại mỗi bước thời gian t ở phía bộ giải mã
- Bước 1: Tính điểm chú ý Với mỗi véc-tơ trạng thái ẩn của bộ mã hoá thì tacần tính điểm thể hiện sự liên quan với véc-tơ trạng thái ẩn hraat của bộ giải
mã Cụ thể, ta sẽ áp dụng một phương trình tính điểm "chú ý" với đầu vào làvéc-tơ trạng thái ẩn của bộ giải mã - hraat và một véc-tơ trạng thái ẩn của bộ
mã hoá - hraas và trả về một giá trị vô hướng score(hraat , hraas )
- Bước 2: Tính trọng số chú ý Áp dụng hàm softmax với đầu vào là điểm chúý
αts = exp(score(h
rra
t , hrras )) exp()PSs′ =1 score(hrrat , hrras′ )
tin ngữ cảnh hai chiều với các thông tin chú ý cục bộ và toàn cục trong quátrình sinh đầu ra của mô hình sinh chuỗi từ chuỗi cho bài toán sinh tóm tắttóm lược
Trang 214.2.2 Thực nghiệm
Bảng 4.3: Kết quả dữ liệu thực nghiệm trên kho dữ liệu Gigaword:
Gigaword Smaller than 150 words Larger than 150 words ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
Sequence-to-sequence RNNs 33.68 15.45 31.71 32.35 15.23 30.79
Pointer-Generator Networks 33.65 16.60 31.78 33.65 15.45 31.56
Generative Adversarial Network 34.15 16.25 31.80 33.75 15.55 31.90
Our proposed model (LRRA) 34.01 15.95 31.04 34.10 15.80 31.95
Bảng 4.4: Kết quả dữ liệu thực nghiệm trên kho dữ liệu Amazon Reviews:
Amazon Review Smaller than 150 words Larger than 150 words ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
Sequence-to-sequence RNNs 81.75 42.65 81.05 80.90 38.89 80.25
Pointer-Generator Networks 84.25 42.10 81.85 82.98 42.17 81.18
Generative Adversarial Network 84.55 43.20 82.05 83.56 42.56 81.78
Our proposed model (LRRA) 84.60 43.15 82.68 84.21 42.50 81.88
4.3 Mô hình sinh tóm tắt văn bản tóm lược có
ràng buộc độ dài
4.3.1 Mô hình đề xuất
Kiến trúc mô hình tích hợp thông tin độ dài mong muốn vào mô hình sinhchuỗi từ chuỗi sử dụng kiến trúc transfomer được mô tả chi tiết trong hình 4.2
4.5.2.1 Tích hợp ràng buộc độ dài vào bộ mã hoá
Giả sử rằng oel biểu diễn dạng véc-tơ one-hot của độ dài mong muốn l với l
nằm trong đoạn[1, moutput] Khi đó dạng nhúng của độ dài mong muốn LEe(xe)