Hơn thế nữa, sự kết hợp giữa hai lĩnh vực thị giác máy tính và ngôn ngữ tựnhiên cuối cùng cũng đã được quan tâm và nghiên cứu, từ đó phát sinh ra nhữngbài toán như nhận diện chữ viết tay
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HỌC MAY TÍNH
NGUYEN MINH CHAU
KHOA LUAN TOT NGHIEP
TAO SINH THO TU ANH SU DUNG
MÔ HINH NGÔN NGỮ VA DAC TRƯNG THỊ GIÁC
POEM GENERATION FROM IMAGE
USING LANGUAGE MODEL AND VISUAL FEATURES
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
CÁN BỘ HƯỚNG DẪN
TS NGUYÊN VINH TIỆP
ThS DANG VĂN THIN
TP HO CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HỌC MAY TÍNH
NGUYEN MINH CHAU - 18520519
KHOA LUAN TOT NGHIEP
TAO SINH THO TU ANH SU DUNG
MÔ HINH NGÔN NGỮ VA DAC TRƯNG THỊ GIÁC
POEM GENERATION FROM IMAGE
USING LANGUAGE MODEL AND VISUAL FEATURES
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
CÁN BỘ HƯỚNG DẪN
TS NGUYÊN VINH TIỆP
ThS DANG VĂN THIN
TP HO CHÍ MINH, 2022
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo quyết định số
36/QD-DHCNTT, ngày 17/01/2022 của Hiệu trưởng Trường Đại học Công Nghệ Thông
Tin.
1 PGS.TS Lê Đình Duy - Chủ tịch.
2 Ths Đỗ Văn Tiến - Thư ký.
3 TS Lê Minh Hưng - Uy viên.
Trang 4Lời cảm ơn
Chúng tôi chân thành cảm ơn đến tất cả những người đã giúp chúng tôi hoàn
thành khóa luận của mình Chúng tôi đặc biệt cảm ơn TS.Nguyén Vinh Tiệp,
với niềm đam mê và lòng nhiệt huyết trong công cuộc giảng dạy và trao đồi kiến thức đến cho sinh viên Chúng tôi cũng đặc biệt cảm ơn Th$.Dang Văn Thìn đã luôn luôn hỗ trợ và giải đáp tất cả thắc mắc của chúng tôi.
Chúng tôi cũng biết ơn các thầy cô thuộc khoa Khoa học máy tính của trường
Đại học Công Nghệ Thông Tin Những người đã giúp chúng tôi trang bị những
kiến thức nền tảng đóng góp một phần rất lớn đến đề tài khóa luận này.
Bên cạnh đó, chúng tôi cảm ơn tất cả mọi người trong phòng thí nghiệm
MMLAB thuộc trường Đại học Công Nghệ Thông Tìn đã tận tình giải đáp
những thắc mắc của chúng tôi, đồng thời giúp đỡ chúng tôi trong vấn đề tài
nguyên tính toán để có thể hoàn thành được khóa luận.
Và cuối cùng, chúng tôi cũng rất cảm ơn tất cả những người bạn, gia đình và
những người xung quanh chúng tôi đã không ngừng hỗ trợ, giúp đỡ chúng tôi
vượt qua những rào cản về mặt vật chất lẫn tinh thần trong quá trình thực hiện
khóa luận.
Trang 5Tóm tắt nội dung
Khoa học kỹ thuật ngày càng phát triển nhằm phục vụ các nhu cầu của con người trong cuộc sống hiện nay Có thể nói con người luôn là mục đích chính cho
nhiều đề tài nghiên cứu ở nhiều lĩnh vực khác nhau, cả về vật chất lẫn tỉnh thần.
Đã có nhiều nghiên cứu được ứng dụng trong đời sống của con người nhằm giảm
thiểu độ khó hoặc số lượng công việc hằng ngày giúp cải tiến đời sống Bên cạnh
đó, các nghiên cứu về mặt tinh thần của con người cũng được quan tâm, cu thể
à các di sản văn hóa Mỗi đất nước đều có những di sản phi vật thé tạo nên nét
riêng cho chính đất nước mình O Việt Nam, thơ ca là một di sản được truyền
ại qua nhiều đời Việc bảo tồn và phát huy giá trị của các di sản văn hóa rất
được quan tâm Cụ thể hơn là việc máy có thể sinh thơ như con người, quan sát cảnh vật trước mắt để tạo ra những bài thơ dựa trên những gì mình đã thấy.
Bài toán này đã được cong đồng nghiên cứu quan tâm gần đây Tuy nhiên, các vấn đề của bài toán vẫn chưa được giải quyết do tính phức tạp của bài toán.
Trong khóa luận này chúng tôi sẽ tìm hiểu về bài toán Sink tho từ ảnh Khóa
uận tập trung vào bài toán từ ảnh phong cảnh sinh ra thơ lục bát của Việt Nam.
Tim hiểu về các hướng tiếp can cho bài toán từ ảnh sinh thơ Các thách thức,
hó khăn trong việc sinh thơ như việc đảm bảo được các qui luật thơ và có liên
quan đến ảnh phong cảnh Nghiên cứu các kiến trúc mạng rút trích đặc trưng
ảnh và các mô hình sinh văn bản mang tính tuân thủ các qui luật chung Tìm
iểu cách xây dựng bộ dữ liệu cũng như các độ đo phù hợp cho bài toán sinh thơ từ ảnh Thực nghiệm so sánh các mô hình khác và tổng hợp các kết quả đạt được trong quá trình nghiên cứu Rút ra các kết luận và các hướng phát triển
tiếp theo.
Trang 6Mục lục
1 Giới thiệu
ll Đặt vấn đề ee ee
1.2 Bài toán sinh thơ từ ảnh|
121 Giới thiệu bài toán|
1.2.2 Cơ sở lý thuyết thơ luc
bát| -13 Thách thức đ⁄⁄.6É£É -.Àé6 ÀA
1.4 Dong góp của đề tai} kg b Các phương pháp liên quan cho bài toán sinh thơ từ ảnh 2.1 Mô hình một giai doạn| ẶẶẶSẶ 000004 2.2_ Mô hình hai giaidoan) 0.2 00 0 00.
2.2.1 Giai đoạn rút trích đặc trưng ảnh|
2.2.2_ Giai đoạn sinh văn bản|
[3_ Framework Dual-Transformer] 3.1 Tổng quan framework Dual-Transformer|
2 Bài toán ảnh sinh từ
khóa| -3.2.1 Mô hình Transformcr|l
13.2.2 Co chế
SelEAttention| -3.2.3 Bộ mã hóa| ST eee ee 3.2.4 Bộ giải mã| Ặ Ặ ee ee ee 13.2.5 Cơ chế masked multi-head attention|
3.2.6 Mô hình Query2Labell
5.27 Cơ chế Cross Attention)
B.3 Bài toán từ khóa sinh thơ[
3.3.1 Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer|
Trang 73.3.2 Mô hình tạo sinh được huấn luyện sẵn (Generative
6.2_ Một số hướng phát triển của đề tài
Tai liệu tham khảo|
ii
24
31 31 31 35
38 38 38 39 39 39 43 45 45 45 AT
53 53 53 55
Trang 8Danh sách hình vẽ
2.8 Mô hình Transformer LM xử lý cả chuỗi nguồn và chuỗi đích
Trọng số ở có chế attention ở mô hình có kiến trúc mã hóa-giải
[ _ mã không cần thiết trong bài toán này [19|)
2.9_ Biểu đồ so sánh các mô hình có kiến trúc mã hóa-giải mã và mô
hình giải mã với độ đo ROUGE-2 khi được tinh chỉnh trọng số
chỉ với 1% bộ dữ liệu |l9|| 14
3.1 Tổng quan framework Dual-Transformer| 16
3.8 Mô hình Query2Label dựa trên bộ giải mã của Transfomer SỈ "
3.9 Mô hình Query2Label sử dung Cross Attention dé tính mối tương
quan giữa các lóp nhãn va các đặc trung thị giác SỊ ¬ 23 3.10 Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer 23| Le.
4.1 Biểu đồ phan bố độ dài các từ khóa trong bộ dữ liệu từ khóa sinh
Trang 9Định dạng dữ liệu từ khóa sinh thơ.
1V
Trang 10Danh sách bảng
5.2_ Bảng số liệu trung bình của cảm nhận cá nhân va độ liên quan
giữa ảnh va thơ của 7 cặp ảnh thơ khảo sát.| 49
5.3 Bảng số liệu trung bình của cảm nhận cá nhân va độ liên quan
giữa ảnh va thơ của từng cặp ảnh thơ khảo sát.| 49
5.4 Bảng thể hiện kết quả thơ lục bát đầu ra của framework
Dual-Transformer khi cho đầu vào là ảnh phong cảnh Các vật thể được
_ 49
5.5 Bảng thể hiện kết quả thơ lục bát đầu ra của framework
Dual-Transformer khi cho đầu vào là ảnh phong cảnh Từ “Trăng” do
mô hình GPT-2 sinh ra lại trái với vật thể mặt trời trong anh .
5.6 Bảng so sánh giữa mô hình GPT-2 và mt5 cho bài toán từ khóa
`" HH 50 5.7 Bảng so sánh giữa framework Dual-Transformer và I2P-GAN cho
bài toán sinh thơ từ ảnh.| 50
Trang 11vì
Trang 12Chương 1
Giới thiệu
1.1 Đặt van đề
Thơ ca là nguồn giải trí phi vật thể đã được truyền lại từ nhiều đời, bất cứ đâu
trên thế giới, đặc biệt là Việt Nam Với nền văn minh gắn liền với thơ ca từ hàng
nghìn năm trước ông cha ta đã để lại một kho tàng nghệ thuật đồ sộ Từ những tác phẩm mang tính đặc trưng của những thi sĩ có tên tuổi cho đến những bài thơ mang đậm tính dân ca được truyền miệng từ những người dân Có thể nói thơ ca là một sản phẩm nghệ thuật không thể thiếu của người dân Việt Nam từ
nghìn đời xưa Đặc biệt nhắc đến thơ ca Việt Nam là nhắc đến thơ lục bát, một
loại thơ khá pho biến ở người dân Việt
Trong môi trường giáo dục, các em nhỏ đang được hướng tới việc làm quen
với thơ văn nhằm giúp các em tư duy hơn Theo nhiều nghiên cứu cho thấy trẻ
em nên tiếp xúc với thơ văn từ sớm Việc xem những bài thơ hay làm thơ giúp
trẻ mở rộng vốn từ ngữ, kích thích sự tò mò, tăng khả năng sáng tạo Với kết
quả ứng dụng của bài toán sinh thơ từ hình ảnh có thể giúp trẻ học hỏi tốt hơn,
gợi sự liên tưởng, tưởng tượng cho trẻ.
Thơ ca từ lâu đã là món ăn tỉnh thần đối với con người Thơ là sự kết hợpgiữa những từ ngữ, mang trong đó cả những tâm tư tình cảm của người viết,những gì gẫn gũi với con người, cuộc sống Do đó, thơ văn vẫn luôn hấp dẫnđược con người, gợi sự hứng thú Với nhiều người, xem thơ là một thú vui, một
cách để giải trí, hay như một đam mê Vì vậy, việc giữ gìn thơ ca cũng như việc
giữ gìn đặc trưng riêng của dân tộc Hiện nay, nhiều cộng đồng thơ ca được lập
Trang 13Something beautiful, a noun (e.g rose, ocean)
(NGESAVER) Jump to options for sharing commenting and voting.
For My Scary Birdsong
A Love Poem by Anonymous
Roses are red,
Violets are blue,
My feeling is scary,
And so are you.
Orchids are white,
Ghost ones are rare,
Space is short,
And so is your hair.
Magnolia grows, With buds like eggs,
Aterm is long,
And so are your legs.
Sunflowers reach,
Up to the skies,
Nuts are hazel,
And so are your eyes.
Foxgloves in hedges,
Surround the farms,
Heads are bald,
And so are your arms.
An adjective to describe that person's smile (eg friendly, winning)
illuminating Daisies are pretty,
Daffies have style,
Bang 1.1: Mô ta ứng dung nhận dau vào là chủ dé do người dùng nhập (A) Bài
thơ trong ảnh (B) được mô hình tự động sinh ra có chủ đề như người dùng mong
muốn
ra nhằm duy trì cái đẹp của thơ và tạo điều kiện để mọi người chia sẻ sự sáng
tạo của mình đến với mọi người
Thơ được sinh ra do con người ta có cảm hứng, mà cảm hứng lại bắt nguồn
một phần từ phong cảnh xung quanh Những tác phẩm nổi tiếng ở trong nướclẫn nước ngoài không bài thơ nào lại không đi liền với cảnh vật Có thể nói đây
sẽ là một thách thức cho những bộ mấy để có thể thực hiện được những hoạt
động có liên quan đến cảm xúc của con người Tuy nhiên, đây cũng là một cơ
hội để giúp những bộ máy phát triển hơn về mặt trí tuệ nhân tạo, nhất là trongnhững năm gần đây Trí tuệ nhân tạo đã đạt đến được những tiêu chuẩn nhất
định, có độ chính xác cao và đã được áp dụng ra ngoài thực tế như bài toán
nhận diện vật thể, nhận diện khuôn mặt, phân loại vật thể, hay về lĩnh vực xử
lý ngôn ngữ tự nhiên như bài toán dịch máy (Google Translate), hệ thống hỏi
đáp, chatbot, Máy tính cũng đã có thể tự sinh ra bài thơ theo mong muốn
của người dùng Trang web Poem Generator |!| người dùng trả lời những câu hỏi
do trang web đặt ra, bài thơ sẽ được tự động sinh với chủ đề như người dùng
mong muốn (Bảng [L.1).
thtEps://www.poem-generator.org.uk
Trang 14Hơn thế nữa, sự kết hợp giữa hai lĩnh vực thị giác máy tính và ngôn ngữ tựnhiên cuối cùng cũng đã được quan tâm và nghiên cứu, từ đó phát sinh ra nhữngbài toán như nhận diện chữ viết tay (Optical Character Recognition), hệ thống
hỏi đáp thông qua hình ảnh (Visual Question Answering), chú thích ảnh (Image
Captioning), do phải quan tâm đến thông tin về hình ảnh và ngôn ngữ nên đây
có thể nói là một khó khăn lớn trong lĩnh vực máy học Do máy tính chỉ có thểhiểu những con số, chúng xem ảnh như ma trận hai chiều, tập văn bản như mộtchuỗi các chữ số Để giúp máy tính có thể hiểu được những thông tin về ảnh hay
văn bản đòi hỏi chúng ta phải huấn luyện bộ máy sử dụng những bộ dit liệu và
những phương pháp phù hợp để máy tính giải quyết những vấn đề trên Thế nênđây sẽ là cơ hội để máy tính có thể cùng con người “viết ra” những bài thơ dựa trên ma trận hai chiều nhằm phát triển hơn những phương pháp cho bài toán
đa phương tiện vừa hướng tới sự sáng tạo trong máy tính.
1.2 Bai toán sinh thơ từ ảnh
1.2.1 Giới thiệu bài toán
O đề tài này, chúng tôi sẽ nghiên cứu và xây dựng mô hình sáng tác thơ từ ảnh.
Bài thơ sinh ra có nội dung mang được một khía cạnh nhất định có trong ảnh
đầu vào như một vật thể nổi bật hay những sự vật sự việc có liên quan đến
những sự vật có trong ảnh Song song đó thơ vẫn giữ được câu trúc của thơ lục
bát.
e Dầu vào: Ảnh phong cảnh.
e Dầu ra: Bài thơ lục bát được sinh ra có nội dung liên quan đến ảnh đầu vào.
Ngắm con sóng biển chiều nay Cồn cào nỗi nhớ đắm say bên bờ
Ngoài khơi sóng vỗ hững hờ
Gửi thương gửi nhớ cho bờ đêm nay
Hình 1.1: Tổng quan bài toán sinh thơ từ ảnh.
Trang 15Ảnh sinh ra phải mang những quy luật của thơ lục bát, từ cấu trúc thơ đến
luật vần, hiệp thanh (Chương 1.2.2) The sinh ra đương nhiên phải mang ý nghĩa
và phải liên quan đến bức ảnh đầu vào
1.2.2 Cơ sở lý thuyết thơ lục bat
Để hiểu về lý thuyết thơ lục bát, chúng ta cần biết về cấu trúc của tiếng trong
Tiếng Việt Tiếng trong Tiếng Việt được cấu tạo gồm hai thành phần chính là
âm đầu và vần, trong vần lại chia ra ba phần là âm đệm, âm chính và âm cuối,
cụ thể ví dụ ở Bảng
x Van
Tiếng | Âm đầu | Âm chính | Am cuối
Bảng 1.2: Cấu trúc tiếng trong tiếng Việt.
Luật của thơ lục bát bao gồm:
e Nhịp: nhịp chan dựa vào tiếng có thanh không đổi (trừ 2,4,6), nhịp 2/2/2
tạo sự hài hòa, nhịp nhàng cho các cặp lục bát trong bài.
e Hài thanh:
— Thanh bằng (B): Các âm chính chứa dấu ngang, dấu huyền
— Thanh trắc (T): Các âm chính chứa dấu sắc, hỏi, ngã, nặng
— O câu lục có đối xứng luân phiên B-T-B ở các từ 2-4-6
— Ö câu bát là B-T-B-B ở các từ 2-4-6-8
e Hiệp vần:
— Từ cuối cùng của câu lục phải vần với từ thứ 6 của câu bát
4
Trang 16— Từ thứ 8 của dòng bát vần với từ thứ 6 của dòng lục tiếp theo
— Hai từ vần nhau khi:
+ Hai từ có cùng âm + Hai từ chung một nhóm thanh
— Ví dụ:
+ anh, đành, tranh, hành: vần với nhau
+ ánh, lạnh, bảnh, rãnh: vần với nhau
Hình [1.2.2| là một ví dụ về thơ lục bát Các kí tự “B” và “T” lần lượt tương
ứng với thanh bằng và thanh trắc và được đặt trên các từ Ví dụ: kí tự “B” được
đặt trên từ “con” mang ý nghĩa từ “con” là thanh bằng, kí tự “I” được đặt trên
từ “biển” mang ý nghĩa từ “biển” là thanh trắc các từ thứ 2, 4, 6 ở câu lục sẽ
tạo thành cấu trúc B-T-B va các từ thứ 2, 4, 6, 8 ở câu bát sẽ theo cấu trúc
B-T-B-B Các từ in đỏ thể hiện vần điệu trong thơ lục bát Từ ở vị trí thứ 6 của
câu lục “nay” sẽ vần với từ thứ 6 của câu bát “say” Từ thứ 8 của câu bát “bờ” sẽvần với từ thứ 6 của câu lục tiếp theo “hờ” và tiếp tục như thé
Mục tiêu của bài toán là sinh ra bài thơ đúng với luật thơ đó và thơ sinh ra phải
có nghĩa Những năm gần đây, nhiều phương pháp sinh ra nhằm giải quyết hai
tiêu chí trên Tuy nhiên, vẫn chưa thể chắc chắn sẽ sinh ra được bài thơ đạt chuẩn hoàn toàn Bài toán ảnh sinh thơ có thể nói là một bài toán nâng cao hơn
b
Trang 17bài toán sinh thơ do có liên quan đến lĩnh vực thị giác máy tính Do đó số lượngthách thức nhiều hơn bài toán thuần sinh thơ:
e Bai toán này lại khan hiếm nguồn lực nghiên cứu do đây vẫn là bài toán
mới và khó, đòi hỏi phải bao gồm hai lĩnh vực thị giác máy tính và xử lý
ngôn ngữ tự nhiên.
e Rất ít bộ dữ liệu cho ảnh sang thơ, đặc biệt là cho thơ lục bát tiếng Việt.
Hơn thế nữa, để xây dựng một bộ dữ liệu ảnh sang thơ lục bát tiếng Việtmất rất nhiều thời gian cũng như nhân lực Người làm dữ liệu phải am hiểu
về thơ ca và việc tạo dữ liệu dễ bị ảnh hưởng bởi cảm nhận của từng người.
e Thách thức trong mô hình sinh thơ: Các bài toán sinh thơ đều tập trung
vào những ngôn ngữ như tiếng Trung Quốc hoặc tiếng Anh Điều này dẫnđến việc các mô hình sinh thơ của những người đi trước chỉ thích hợp với
luật thơ của họ Dé chuyển từ ngôn ngữ này sang ngôn ngữ khác và mang
đặc trưng của nước khác là thách thức lớn.
e Bộ đánh giá mô hình sinh thơ: Tho được tạo ra do cảm nhận của từng người,
nếu để giao việc đánh giá một bài thơ hay cho máy tính là điều không thể.
Nhiều bài báo sinh thơ đều hướng đến việc khảo sát người đọc và chấm
điểm cảm nhận của họ lên từng bài thơ do máy sinh ra.
1.4 Đóng góp của đề tài
Đề tài bao gồm các đóng góp chính như sau:
e Nghiên cứu về các bài toán rút trích vật thể trong ảnh phong cảnh và tạo
sinh thơ Khảo sát các hướng tiếp cận phổ biến cho bài toán sinh thơ từ
ảnh.
e Dề xuất framework Dual-Transformer sinh thơ lục bát từ ảnh phong cảnh
của Việt Nam.
e Bộ dữ liệu UIT-Visual68Poem cho bài toán sinh thơ lục bát từ ảnh phong
cảnh của Việt Nam dựa trên bộ dữ liệu ảnh sinh thơ UTT-Poem-Dataset và
bộ dữ liệu thơ lục bát.
Trang 181.5 Cấu trúc khóa luận
Cấu trúc khóa luận bao gồm 6 chương:
e Chương 1: Giới thiệu Chương này giới thiệu về bài toán, các kiến thức tổng
quan về bài toán, phạm vi đề tài và những đóng góp chính của đề tài
e Chương 2: Các phương pháp liên quan Chương này trình bày về một số
nghiên cứu có liên quan đến đề tài
e Chương 3: Framework Dual-Transformer Chương này chúng tôi đề xuất mô
hình giải quyết bài toán sinh thơ lục bát từ ảnh phong cảnh Việt Nam
e Chương 4: Bộ dữ liệu UIT-Visual68Poem Chương này giới thiệu về bộ dit
liệu UIT-Visual68Poem cho bài toán sinh thơ lục bát từ ảnh phong cảnh
Việt Nam.
e Chương 5: Trình bày các thực nghiệm, so sánh các mô hình cho bài toán
sinh thơ lục bát từ ảnh phong cảnh Việt Nam.
e Chương 6: Kết luận Chương này tổng hợp một số nội dung và đông góp
của đề tài và các hướng phát triển trong tương lai.
Trang 19Chương 2
Các phương pháp liên quan
cho bài toán sinh thơ từ ảnh
2.1 Mô hình một giai đoạn
Vấn đề của bài toán “Sinh thơ từ ảnh” vẫn còn nhiều khó khăn như việc sinh thơ
đảm bảo các quy luật về vần điệu, thể thơ, bài thơ sinh ra phải có nội dung liên
quan đến nội dung của ảnh đầu vào Các hướng tiếp cận cho bài toán này khá
đa dạng, một trong số các hướng tiếp cận đó là hướng tiếp cận theo bài toán
Sinh mô tả cho ảnh (Image Captioning) Hướng tiếp cận này thường sẽ sử dụng
mô hình mạng tính chap CNN để rút trích đặc trưng ảnh và đưa qua mô hìnhmạng hồi quy RNN để sinh thơ Một trong số mô hình áp dụng hướng này là
mô hình của Bei Liu và các cộng sự [1| sử dụng cách huấn luyện đa đối khángthông qua thuật toán học tăng cường Policy Gradient nhằm đảm bảo việc văn
bản sinh ra mang tính thơ ca và có độ liên qua giữa văn bản và ảnh (Hình ]).
Tuy nhiên, mô hình này đòi hỏi phải có bộ dữ liệu đủ lớn để mô hình có thể học
được mối tương quan giữa ảnh và thơ từ đó sinh ra thơ theo luật và liên quanđến ảnh đầu vào Do bộ dữ liệu ảnh sang thơ lục bát khá ít nên dẫn đến kết quả
không tốt cho bài toán sinh thơ lục bát từ ảnh Một số thơ sinh ra có những đối
tượng không liên quan đến ảnh đầu vào và thơ không theo quy luật của thơ lục
bát Kết quả được thể hiện qua phần |5.3| ở chương
Trang 20| Deep Coupled Visual-Poetic Embedding Model | 1 Generator as Agent I Discriminators as Rewards |
| POS parses —Y Hị| lŠg -_› = xa _— el: — ose |
| @mmepssse |Ễ “| [38 (ie HN ¡ (Poetic @| Ị
| (@)coming ere te springtime Mean pooling + | HH ' |
| "——> O0?00 —> ) mmmmaan | II h Paragraphic@] |
| OO — | | pp Lr \
(c) skip-thought model sa
| (a) image and poem pairs trained on UniM-Poem (d) sentence features | | _ (0F RNN generator - i a ice ee AG 7 AC, Ns 1
l§ Pace rar nets FES ES eR SE J +— (i) Policy Gradient —
Hình 2.1: Mô hình sinh tho từ ảnh sử dung phương pháp huấn luyện đa đối
kháng [I|.
2.2 Mo hình hai giai đoạn
Có các hướng tiếp cận khác là tách một bài toán lớn ra thành các bài toán connhỏ dễ giải quyết Ví dụ như phương pháp dựa trên ghi nhớ rút trích các đốitượng quan trọng có trong ảnh đầu vào giúp cho việc tạo thơ mang được các
thông tin hình ảnh quan trọng có trong ảnh đầu vào (2) ( Hình |2.2| [2.2) Dé tao ra
các bai thơ mang tính nghệ thuật, mô hình sinh anh từ thơ |3 (3) ( Hình {2.3} [2.3) dua
trên cách người làm thơ cảm nhận cảnh vat xung quanh từ đó nghĩ đến nhữngyêu tố ngoài có liên quan đến cảnh vật hiện tại dựa trên những trải nghiệm của
người làm thơ Hệ thống nhận ảnh đầu vào và sinh ra từ khóa có trong ảnh Sau
đó các từ khóa khác liên quan đến các từ khóa trong ảnh sẽ được chọn lọc vàđược đưa thêm vào bằng cách truy vấn dựa trên các bài thơ được tạo ra bởi con
người Mỗi từ khóa là mỗi câu thơ.
ag , 3
3É 7h (waterfall) R Ba + # 1R
alk ss The sunlit Censer peak exhales a wreath of cloud
(mountain) Keyword (tre) =
Extraction as ml 38 Ay SẼ h 4 AT J1]
(ng) Like an upended stream the cataract sounds loud
RB (sky)
"Ki TZ#fK
Its torrent dashes down three thousand feet from high
LI Visual Feature Visual Feature HRA BAR
Extraction Vectors As if the Silver River fell from azure sky
Hình 2.2: Mô hình sinh thơ từ anh sử dụng phương pháp ghi nhớ (2).
Trang 213Ñ Tỳ (city) SRA 4 He SP SSBritt ( um (The city flows slowly behind him,
238 (Road) Filtering ‡## (busy) My life is busy.
Evaluator
TEAR (busy) 5 Expansion
place no one knows.
elm KF (smile) Accept | 21k A AR Hy
when With lips curl into phony smile.
high score
Keyword Generation Poem Generation
Hình 2.3: Mô hình sinh thơ từ ảnh sử dụng phương pháp mở rộng từ khóa lì.
Một cách khác là kết hợp giữa các từ khóa với những thông tin trừu tượngnhư thông tin về mùa màng hay thời tiết sửa dung các mô hình phân lớp với
đầu vào là ảnh phong cảnh Điều này giúp cải thiện tính nhất quán về nội dung
của giữa thơ sinh ra và ảnh đầu vào |4| (Hình b.4).
Image Information Extraction
%* Cloud-kissing peak
id a fa
Concrete Information 4 M a Keywords & Snow
Extraction eo Retrieve & Expand #1 Mountains
32 Reach up to the sky
Abstract
Information Vectors
Abstract Information
Extraction
Poetry Generation
BEB, fe eee Pars
Thousands of cloud-kissing peaks up to the clear sky Cloud-kissing peak
Reach up to the sky
2.2.1 Giai đoạn rút trích đặc trưng anh
Mục tiêu của mô hình rút trích đặc trưng ảnh chủa nhóm là để giải quyết bài
toán từ ảnh sinh từ khóa.
Một hướng tiếp cận cho vấn đề này cũng là hướng mà hiện nay có nghiềunghiên cứu đạt đến độ chính xác khá cao là hướng tiếp cận phát hiện đối tượng
(Object Detection) (Hình [2.6).
10
Trang 22Mô hình ảnh
sinh từ khóa sóng biển bờ
Có thể nói bài toán phát hiện đối tượng đẽ được nghiên cứu khá lâu và cho
đến hiện nay vẫn được người người quan tâm, đã có nhiều mô hình được sinh ra
nhắm nâng cao độ chính xác, tối ưu hóa thời gian thực thi và đã được ứng dụng
ra ngoài xã hội để xử lý những công việc con người không thể làm được Các
mô hình hiện nay đạt độ chính xác cao đang hướng tới việc sử dụng kiến trúc
Transformer lỗ như mô hình Swin Transformer [7| hay mô hình DETR BỸ Các
mô hình déu đạt kết quả cao trong bài toán phát hiện đối tượng Do có nhiều bộ
dữ liệu về bài toán này nên đây có thể là một lợi thế cho hướng tiếp cận này.
Tuy nhiên, vẫn có vấn đề cho hướng tiếp cận này trong việc giải quyết bài toánảnh sinh từ khóa Vấn đề là bài toán của nhóm không có bộ dữ liệu phù hợp
nào được công khai rộng rãi, cụ thể là các từ khóa liên quan đến các đối tượng
11
Trang 23phong cảnh Việt Nam Buộc nhóm phải tự tạo một bộ dữ liệu riêng, hơn thế, để
tạo ra bộ đữ liệu cho các mô hình trên giải quyết phải bao gồm các bounding
box cho các đối tượng trong ảnh và số lượng mẫu trong bộ dữ liệu phải nhiều để
đủ cho các mô hình trên có thể học và cho ra kết quả tốt.
Có một hướng tiếp cận khác là sử dụng các mô hình cho bài toán phân loại
đa nhãn (Multi-label Classification) Bai toán này có đầu vào là ảnh và đầu ra
là các nhãn đối tượng có trong ảnh Bài toán phân loại đa nhãn và phát hiện đốitượng đều có đầu vào là ảnh và đầu ra nhãn đối tượng có trong ảnh, tuy nhiênbài toán phân loại đa nhãn không cần đến bounding box trong đữ liệu và các mô
hình trong bài toán này không cần bộ dữ liệu có số lượng lớn dẫn đến việc sử
dụng các mô hình trong bài toán này để giải quyết bài toán từ ảnh sinh từ khóa
là một lựa chọn của nhóm Các mô hình trong bài toán này có hai hướng chính là
sử dụng Graph và mô hình Transformer Hiện nay, hướng tiếp cận Transformer
được nghiên cứu rộng rãi do mô hình Graph có thể học các mối tương quan một
cách mập mờ trường hợp bộ dữ liệu không đủ để mô hình có thể học tốt lBl:
2.2.2 Giai đoạn sinh văn ban
Hiện nay các mô hình sinh văn bản dùng để giải quyết các bài toán như dịch
máy, tóm tắt văn bản, Q&A, Hầu hết các mô hình đều dựa trên mô hình
Transformers (6) Điểm chung đều có hai mô hình encoder để mã hóa các câu
đầu vào thành các véc-tơ và decoder từ các véc-td sé sinh ra các câu phù hợpvới bài toán Một số mô hình như BigBird và mô hình T5 đạt độ F1 caonhất ở một số bộ dữ liệu thuộc bài toán Q&A, mô hình DeLighT [11] đạt độ
BLEU cao ở bộ dữ liệu thuộc bài toán dịch máy Theo [12], những nghiên cứu
trước đây đã chứng minh được việc sử dụng mô hình có cấu trúc mã hóa-giải mã
có thể tạo ra bài thơ Trung Quốc Các mô hình đã phát triển từ kiến trúc đó và cải thiện thêm cho mô hình có thể sinh ra một bài
thơ có nghĩa, các câu thơ có sự liên kết với nhau
Tuy nhiên, với sự phát triển của mô hình ngôn ngữ, một số bài toán cần
tới kiến trúc mã hóa-giải mã được giải quyết bởi decoder của Transformer là
GPT-2 Ở lĩnh vực âm nhạc, mô hình Music Transformer chỉ sử dụng
phan decoder của Transformer để sinh đoạn nhạc Sinh bản nhac cũng như là
một mô hình ngôn ngữ, chỉ cần mô hình học nhạc một cách tự động, không cần
giám sát và sau đó tận hưởng thành quả Các đoạn nhạc được thể hiện bằng các
véc-tơ(Hình 2-7) O một ban nhac, chúng ta không chi sử dụng các not nhạc mà
còn cả cường độ âm - Cường độ khi đánh đàn dương cầm
12
Trang 24Note on Note off Velocity Time
II IIII Ji I II IIIII Ji II II II shaft
Hình 2.7: Doan nhạc được biểu diễn bằng véc-tơ bao gồm các nốt nhac (Note)
và cường độ âm (Velocity }}]
Bài toán tóm tắt văn bản cũng đã được chuyển sang chi sử dung mô hình
decoder của Transformer Mô hình decoder xem bài toán tóm tắt văn bản như
một bài toán mô hình ngôn ngữ (Hình 2.8) Việc sử dung mô hình ngôn ngữ bao
gồm việc:
e Giúp giảm việc sao chép trọng số đã được huấn luyện sẵn lên cả mô hình
mã hóa và giải mã.
e Sứ dụng ít trọng số hơn kiến trúc mã hóa-giải mã
e Dam bảo trọng số của mô hình là các trọng số đã được huấn luyện sẵn.
Mô hình ngôn ngữ xử lý cho bài toán tóm tắt văn bản |19| đã đạt được kếtquả độ đo ROUGE-2 cao hơn mô hình có kiến trúc mã hóa-giải mã khi mô hìnhđược tỉnh chỉnh trọng số với chỉ 1% bộ dữ liệu Hướng tiếp cận này giúp giảiquyết vấn đề ít dữ liệu phù hợp với bài toán mà nhóm chúng tôi gặp phải
thtEps://jalammar.github.io/illustrated-gpt2
15
Trang 25encoder-decoder attention
weights (not pre-trained)
Hình 2.8: Mô hình Transformer LM xử lý cả chuỗi nguồn và chuỗi đích Trọng số
ở có chế attention ở mô hình có kiến trúc mã hóa-giải mã không cần thiết trong
bài toán này 19|.
—®- Encoder-Decoder + Pretraining —e— Transformer LM + Pretraining
Hình 2.9: Biểu đồ so sánh các mô hình có kiến trúc mã hóa-giải mã và mô hình
giải mã với độ đo ROUGE-2 khi được tinh chỉnh trọng số chỉ với 1% bộ dữ liệu
|
14
Trang 26Chương 3
Framework
Dual-Transformer
3.1 Tổng quan framework Dual-Transformer
Trong bài khóa luận này, khóa luận nghiên cứu về van bài toán sinh thơ từ ảnh
Tho sinh ra phải dam bảo các quy luật của một bài thơ lục bát và phải liên quan
đến ảnh đầu vào Vấn đề lớn nhất mà chúng tôi gặp phải ở bài toán này là thiếu
bộ dữ liệu Tuy nhiên, việc chia bài toán lớn thành các bài toán nhỏ để dễ dàng
giải quyết cũng là một ý kiến hợp lý Chúng tôi đã quyết định chia bài toán từ
ảnh sinh thơ thành hai bài toán con là từ ảnh dự đoán từ khóa và từ khóa sinh
thơ Hướng tiếp cận này có thể tăng dữ liệu giúp cho việc huấn luyện mô hình
tốt hơn Quá trình tăng dit liệu sẽ được mô tả chi tiết ở phần |d| Hơn thé, bài
toán từ khóa sinh thơ giúp cho bài thơ đảm bảo được sự liên quan giữa các câu
trong bài thơ id}.
Chúng tôi sẽ trình bay hai định dang bộ dữ liệu cho hai bài toán rút trích từ
khóa từ ảnh và bài toán từ khóa sinh thơ Với bài toán rút trích từ khóa từ ảnh,
chúng tôi sử dụng mô hình Query2Label|g} Phan từ khóa sinh tho chúng tôi sử
dụng mô hình GPT-2 Hình mô tả chi tiết hệ thống Đầu vào hệ thống là
ảnh phong cảnh đi qua mô hình rút trích từ khóa trả ra những từ khóa vật thể
có trong ảnh đầu vào Các từ khóa sẽ được đưa qua mô hình sinh thơ để sinh ra
thơ lục bát có chứa các từ khóa đầu vào
15
Trang 27Ngắm con sóng biển chiều nay
Cồn cào nỗi nhớ đắm say bên bờ
Ngoài khơi sóng vỗ hững hờ
Gửi thương gửi nhớ cho bờ đêm nay
Mô hình ảnh sinh Mô hình từ khóa
từ khóa sinh thơ
Hình 3.1: Tổng quan framework Dual-Transformer.
sóng biển bờ
3.2 Bai toán anh sinh từ khóa
3.2.1 M6 hình Transformer
Mô hình Transformer lỗ đã trở thành kiến trúc thống trị lĩnh vực xử lý ngôn
ngữ tự nhiên bởi vì thời gian đào tạo song song dẫn đến tiết kiệm thời gian choquá trình huấn luyện và đi kèm với nó là độ chính xác tốt hơn hắn so với các
phương pháp trước đó Mô hình transformer bao gồm hai phần lớn là bộ mã hóa
và bộ giải mã Bộ mã hóa biểu diễn ngôn ngữ nguồn thành các véc-tơ, bộ giải
mã sẽ nhận các véc-tơ biểu diễn này và dịch nó sang ngôn ngữ đích Chi tiết các thành phần của bộ mã hóa và giải mã được thể hiện như Hình bộ mã hóa,
và giải mã lần lượt nằm ở cột bên trái và bên phải của hình vẽ
Một trong những ưu điểm của transformer là mô hình có khả năng xử lý song
song cho các từ Đầu vào sẽ được đẩy vào cùng một lúc Bộ mã hóa của mô
hình transformer bao gồm một tập gồm N = 6 lớp giống nhau, mỗi lớp baogồm 2 lớp con Lớp đầu tiên là cơ chế multi-head self-attention, và lớp thứ 2 là
mạng feed-forward kết nối day đủ Dau ra của mỗi lớp con là LayerNorm(x +
Sublayer(x)), trong đó Sublayer(x) là một hàm được thực hiện bới chính lớp con
đó Bộ giải mã: cũng bao gồm tập gồm N = 6 lớp giống nhau Ngoài hai lớp
con giống như bộ mã hóa, bộ giải mã còn có một lớp để thực hiện multi-head
attention trên đầu ra của lớp giải mã Ỏ đây sẽ có thay đổi cơ chế self-attention
trong bộ mã hóa.
16
Trang 293.2.2 Cơ chế Self-Attention
Cơ chế self-attention - “trái tim” của mô hình transformer, là cơ chế giúp
Transformers “hiểu” được sự liên quan giữa các từ trong một câu Có thể tưởng
tượng self-attention giống như cơ chế tìm kiếm Với một từ cho trước, cơ chế
này sẽ cho phép mô hình tìm kiếm trong các từ còn lại để xác định từ nào liên quan để sau đó thông tin sẽ được mã hóa dựa trên tất cả các từ trên Đầu vào
của self-attention là 3 véc-tơ query q, key k, value v Các véc-to này được tạo ra
bằng cách nhân véc-tơ biểu diễn đầu vào với các ma trận tương ứng là JV*, W*,
W° Các ma trận này ban đầu được khởi tạo một cách ngầu nhiên
Chỉ tiết vai trò của ba véc-tơ trên như sau:
e Véc-tơ q là véc-tơ dùng để chứa thông tin của từ được tìm kiếm, so sánh.
e Véc-tơ k là véc-tơ dùng để biểu diễn thông tin các từ được so sánh sự liên
quan với từ được biểu diễn bằng véc-tơ q.
e Véc-tơ v là véc-tơ biểu diễn nội dung, ý nghĩa của các từ
Véc-tơ attention hay tac giả trong bài báo lỗ gọi là Scaled Dot-Produet
Attention cho một từ thể hiện tính tương quan giữa 3 véc-tơ này được tạo ra bằng cách nhân tích vô hướng giữa chúng và sau đó được chuẩn hóa bằng hàm
softmax Cụ thể quá trình tính toán qua Hình [3.3}
Hình 3.3: Mô hình Scaled Dot-Product Attention [21].
18
Trang 30Add & Norm
Feed
Forward
Add & Norm
Multi-Head Attention
Nx
Positional
Encoding at 0
Input Embedding
Inputs
Hình 3.4: Bộ mã hóa của mô hình Transformer
e Bước 1: Tính ma trận query, key, value bằng cách nhân input với các ma
trận trọng số tương ứng.
e Bước 2: Nhân hai ma trận query, key vừa tính được với nhau với ý nghĩa so
sánh giữa câu query và key để học mối tương quan Sau đó các giá trị sẽ được chuẩn hóa về khoảng [0-1] bằng hàm softmax với ý nghĩa 1 khi câu
query giống với key ngược lại, 0 có nghĩa là không giống
e Dước 3: Output sẽ được tính bằng cách nhân ma trận vừa được tạo ra ở
bước 2 với ma trận value.
3.2.3 Bộ mã hóa
Dữ liệu đầu vào sẽ được mã hóa thành các véc-tơ, sau đó sẽ được đưa vào các
các lớp được xếp chồng lên nhau Các thành phần của một lớp được biểu diễn
như Hình
Trong đó input Embedding gồm:
e Input: Các câu đầu vào sẽ được mã hóa thành các véc-tơ bằng việc sử dụng
Word Embedding.
19
Trang 31Scaled Dot-Product
Attention ⁄
Hình 3.5: Mô hình Multi-head Attention [21].
e Positional Encoding: Các câu đầu vào chuyển hóa thành Word Embedding
phần nào cho giúp ta biểu diễn ngữ nghĩa của một từ, tuy nhiên cùng một
từ ở vị trí khác nhau của câu lại mang ý nghĩa khác nhau Đó là lý do
Transformers có thêm một phan Positional Encoding để cho biết thêm thông
tin về vị trí của một từ.
Vấn đề của self-attention là attention của một từ sẽ luôn “chú ý” vào chính
nó Chúng ta muốn mô hình có thể học nhiều kiểu mối quan hệ giữ các từ với
nhau Ý tưởng là thay vì sử dụng một self-attention thì chúng ta sẽ sử dụng
nhiều self-attention Don giản là cần nhiều ma trận query, key, value Mỗi “head”
sẽ cho ra output riêng, các ma trận này sẽ được kết hợp với nhau và nhân với
ma trận trọng số để có được ma trận attention duy nhất (Hình [3.5p.
MultiHead(Q, K,V) = Concat(heady, , head, )W?
Mỗi encoder va decoder trong Transformer sử dung N attention Mỗi attention
sẽ biến đổi tuyến tính q, k, k với một ma trận có thể huấn luyện khác nhau
tương ứng.
Mỗi phép biến đổi cung cấp cho chúng ta một phép chiếu khác nhau cho q, k
và v Vì vay, N attention cho phép xem mức độ phù hợp từ N quan điểm khác nhau Điều này cuối cùng đẩy độ chính xác tổng thể cao hơn, ít nhất là theo
kinh nghiệm.
Việc chuyển đổi cũng làm giảm kích thước đầu ra của chúng, do đó, thậm
chi N attention được sử dung, độ phức tạp tính toán vẫn giữ nguyên Trong
20
Trang 32Add & Norm
Positional
Encoding
Embedding
Hình 3.6: Bộ giải mã của mô hình Transformer [21].
multi-head attention, ghép các vectd đầu ra theo sau là một phép biến đổi tuyến
tính.
3.2.4 Bộ giải mã
Bộ giải mã thực hiện chức năng giải mã véc-tơ của câu nguồn thành câu đích, do
đó bộ giải mã sẽ nhận thông tin từ bộ mã hóa là 2 véc-tơ key và value Kiến trúccủa bộ giải mã rất giống với bộ mã hóa, ngoại trừ cơ chế multi-head attention
nằm ở giữa dùng để học mối liên quan giữ chuỗi đầu vào và chuỗi đang được sinh
ra từ bộ giải mã và có thêm một cơ chế masked multi-head attention (Hình 3.6).
3.2.5 Cơ chế masked multi-head attention
Có chế masked multi-head attention bao gồm nhiều các cơ chế masked
self-attention tạo điều kiện cho mô hình có thể xét đến nhiều mặt ngữ nghĩa của
chuỗi Về phần cơ chế masked self-attention cũng giống như cơ chế self-attentionvới mục địch tính độ liên quan giữa các từ với nhau Tuy nhiên, ở cơ chế self-
attention thông thường sẽ tính độ liên quan giữa các từ trong câu kể cả các từ
21
Trang 33Hình 3.7: Cơ chế self-attention (trái) và cơ chế masked self-attention (phải) 1|.
nằm bên tay phải của từ đang được tính toán Cách hoạt động này giúp mô
hình có cái nhìn tổng quát về ngữ nghĩa của cả câu, thường được sử dụng để xử
lý các bài toán về ngữ nghĩa như mô hình Bert Trong khi đó, cơ chế masked
self-attention lại không xét các từ nằm về phái tay phải của từ đang được tínhtoán, điều này có lợi cho nhưng mô hình ngôn ngữ vì những mô hình này xử lý
các bài toán sinh văn bản nên việc xét ngữ nghĩa cho các từ trong tương lai là
hoàn toàn không cần thiết
Trong bộ giải mã còn có một multi-head attention có chức năng chú ý các từ
ở bộ mã hóa, layer này nhận véc-tơ key và value từ bộ mã hóa, và output từ
layer phía dưới Don giản bởi vì chúng ta muốn so sánh sự tương quan giữa từ
đang được dịch với các từ nguồn
3.2.6 Mô hình Query2Label
Mô hình Query2Label |8] là mô hình hai giai đoạn cho bài toán phân loại da
lớp (multi-label classification) Bang cách sử dung phần giải mã của mô hìnhTransformer và tận dụng phần Multi-Head Attention kết nối giữa bộ mã hóa
và bộ giải mã (Cross Attention) để giải quyết bài toán multi-label classfication
(Hình 3.8).
3.2.7 Cơ chế Cross Attention
Ở phần cơ chế attention cho bộ mã hóa và bộ giải mã - một thành phần trong
decoder giúp cho decoder tập trung vào những phần quan trọng trong chuỗi đầu
vào Trong mô hình Query2Label, tác giả dé xuất việc thay chuỗi đầu vào thành
22
Trang 34Person Car Umbrella = cat motor
Learnable label embeddings
Backbone
(CNN/VIT/ ) xL
Hình 3.8: Mô hình Query2Label dựa trên bộ giải mã của Transfomer lÌ.
các đặc trưng thị giác, các lớp nhãn sẽ trở thành các query Cơ chế attention cho
bộ mã hóa và bộ giải mã từ đây có nhiệm vụ tìm những phần quan trọng của
các lớp nhãn trong các đặc trưng thị giác (Hình 3.9).
| Contain person! | | Contain umbrella! | Label
` ; P Learned Label Features
Sum up Features
@ @ from Attentional
Regions
Multiple Attention Maps
Feature
Extractor
Query from Image Features
= Query: Query:
Input Where’s person? Where’s umbrella?
~ Label Embeddings
(Query)
Hình 3.9: Mô hình Query2Label sử dung Cross Attention để tính mối tương quan
giữa các lớp nhãn và các đặc trung thị giác l|.
Một lợi điểm khác của mô hình Transformer là cơ chế multi-head attention
giúp ta có cái nhìn nhiều chiều về đặc trưng đầu vào Việc này giải quyết được
trường hợp các vật thể bị che khuất bởi vật khác hoặc hướng nhìn bị thay đổi.
23
Trang 353.3 Bai toán từ khóa sinh thơ
3.3.1 M6 hình ngôn ngữ dựa trên bộ giải mã của
Trans-former
Mô hình Transformer được biển đổi để có thể giải quyết bài toán mô hình ngôn
ngữ Một bài báo đã dé xuất rằng loại bỏ phan mã hóa và chỉ lấy phần giải
mã của Transformer để giải quyết bài toán mô hình ngôn ngữ (Hình 3.10).
Hình 3.10: Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer [23].
Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer bao gồm 6 bộ giải
mã con và trong bộ giải mã con bao gồm một cơ chế masked self-attention và
mộtmô hình mạng nơ-rôn lộ Hìnhj 10 mô hình của có thể sinh văn bản với
4000 từ Theo sau đó là sự xuất hiện của nhiều mô hình dựa theo Transformer
và đạt được nhiều kết quả tốt, trong đó có mô hình ngôn ngữ
3.3.2 Mô hình tao sinh được huấn luyện sẵn (Generative
Pre-Training)
Mô hình ngôn ngữ là một phân bố xác xuất trên một chuỗi văn bản Mô hình
xác xuất được dùng để cho biết xác xuất của một từ tiếp theo trong tập từ điển
dựa theo các từ có sẵn được gọi là chuỗi đầu vào Về mặt toán học, cho mộtchuỗi đầu vào ø;_, ,¿_¡ với u; là thành phan thứ i trong chuỗi và mô hình sẽ
24