1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Tạo sinh thơ từ ảnh sử dụng mô hình ngôn ngữ và đặc trưng thị giác

70 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tạo sinh thơ từ ảnh sử dụng mô hình ngôn ngữ và đặc trưng thị giác
Tác giả Nguyen Minh Chau
Người hướng dẫn TS. Nguyen Vinh Tiep, ThS. Dang Van Thin
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 70
Dung lượng 35,49 MB

Nội dung

Hơn thế nữa, sự kết hợp giữa hai lĩnh vực thị giác máy tính và ngôn ngữ tựnhiên cuối cùng cũng đã được quan tâm và nghiên cứu, từ đó phát sinh ra nhữngbài toán như nhận diện chữ viết tay

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HỌC MAY TÍNH

NGUYEN MINH CHAU

KHOA LUAN TOT NGHIEP

TAO SINH THO TU ANH SU DUNG

MÔ HINH NGÔN NGỮ VA DAC TRƯNG THỊ GIÁC

POEM GENERATION FROM IMAGE

USING LANGUAGE MODEL AND VISUAL FEATURES

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

CÁN BỘ HƯỚNG DẪN

TS NGUYÊN VINH TIỆP

ThS DANG VĂN THIN

TP HO CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HỌC MAY TÍNH

NGUYEN MINH CHAU - 18520519

KHOA LUAN TOT NGHIEP

TAO SINH THO TU ANH SU DUNG

MÔ HINH NGÔN NGỮ VA DAC TRƯNG THỊ GIÁC

POEM GENERATION FROM IMAGE

USING LANGUAGE MODEL AND VISUAL FEATURES

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

CÁN BỘ HƯỚNG DẪN

TS NGUYÊN VINH TIỆP

ThS DANG VĂN THIN

TP HO CHÍ MINH, 2022

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo quyết định số

36/QD-DHCNTT, ngày 17/01/2022 của Hiệu trưởng Trường Đại học Công Nghệ Thông

Tin.

1 PGS.TS Lê Đình Duy - Chủ tịch.

2 Ths Đỗ Văn Tiến - Thư ký.

3 TS Lê Minh Hưng - Uy viên.

Trang 4

Lời cảm ơn

Chúng tôi chân thành cảm ơn đến tất cả những người đã giúp chúng tôi hoàn

thành khóa luận của mình Chúng tôi đặc biệt cảm ơn TS.Nguyén Vinh Tiệp,

với niềm đam mê và lòng nhiệt huyết trong công cuộc giảng dạy và trao đồi kiến thức đến cho sinh viên Chúng tôi cũng đặc biệt cảm ơn Th$.Dang Văn Thìn đã luôn luôn hỗ trợ và giải đáp tất cả thắc mắc của chúng tôi.

Chúng tôi cũng biết ơn các thầy cô thuộc khoa Khoa học máy tính của trường

Đại học Công Nghệ Thông Tin Những người đã giúp chúng tôi trang bị những

kiến thức nền tảng đóng góp một phần rất lớn đến đề tài khóa luận này.

Bên cạnh đó, chúng tôi cảm ơn tất cả mọi người trong phòng thí nghiệm

MMLAB thuộc trường Đại học Công Nghệ Thông Tìn đã tận tình giải đáp

những thắc mắc của chúng tôi, đồng thời giúp đỡ chúng tôi trong vấn đề tài

nguyên tính toán để có thể hoàn thành được khóa luận.

Và cuối cùng, chúng tôi cũng rất cảm ơn tất cả những người bạn, gia đình và

những người xung quanh chúng tôi đã không ngừng hỗ trợ, giúp đỡ chúng tôi

vượt qua những rào cản về mặt vật chất lẫn tinh thần trong quá trình thực hiện

khóa luận.

Trang 5

Tóm tắt nội dung

Khoa học kỹ thuật ngày càng phát triển nhằm phục vụ các nhu cầu của con người trong cuộc sống hiện nay Có thể nói con người luôn là mục đích chính cho

nhiều đề tài nghiên cứu ở nhiều lĩnh vực khác nhau, cả về vật chất lẫn tỉnh thần.

Đã có nhiều nghiên cứu được ứng dụng trong đời sống của con người nhằm giảm

thiểu độ khó hoặc số lượng công việc hằng ngày giúp cải tiến đời sống Bên cạnh

đó, các nghiên cứu về mặt tinh thần của con người cũng được quan tâm, cu thể

à các di sản văn hóa Mỗi đất nước đều có những di sản phi vật thé tạo nên nét

riêng cho chính đất nước mình O Việt Nam, thơ ca là một di sản được truyền

ại qua nhiều đời Việc bảo tồn và phát huy giá trị của các di sản văn hóa rất

được quan tâm Cụ thể hơn là việc máy có thể sinh thơ như con người, quan sát cảnh vật trước mắt để tạo ra những bài thơ dựa trên những gì mình đã thấy.

Bài toán này đã được cong đồng nghiên cứu quan tâm gần đây Tuy nhiên, các vấn đề của bài toán vẫn chưa được giải quyết do tính phức tạp của bài toán.

Trong khóa luận này chúng tôi sẽ tìm hiểu về bài toán Sink tho từ ảnh Khóa

uận tập trung vào bài toán từ ảnh phong cảnh sinh ra thơ lục bát của Việt Nam.

Tim hiểu về các hướng tiếp can cho bài toán từ ảnh sinh thơ Các thách thức,

hó khăn trong việc sinh thơ như việc đảm bảo được các qui luật thơ và có liên

quan đến ảnh phong cảnh Nghiên cứu các kiến trúc mạng rút trích đặc trưng

ảnh và các mô hình sinh văn bản mang tính tuân thủ các qui luật chung Tìm

iểu cách xây dựng bộ dữ liệu cũng như các độ đo phù hợp cho bài toán sinh thơ từ ảnh Thực nghiệm so sánh các mô hình khác và tổng hợp các kết quả đạt được trong quá trình nghiên cứu Rút ra các kết luận và các hướng phát triển

tiếp theo.

Trang 6

Mục lục

1 Giới thiệu

ll Đặt vấn đề ee ee

1.2 Bài toán sinh thơ từ ảnh|

121 Giới thiệu bài toán|

1.2.2 Cơ sở lý thuyết thơ luc

bát| -13 Thách thức đ⁄⁄.6É£É -.Àé6 ÀA

1.4 Dong góp của đề tai} kg b Các phương pháp liên quan cho bài toán sinh thơ từ ảnh 2.1 Mô hình một giai doạn| ẶẶẶSẶ 000004 2.2_ Mô hình hai giaidoan) 0.2 00 0 00.

2.2.1 Giai đoạn rút trích đặc trưng ảnh|

2.2.2_ Giai đoạn sinh văn bản|

[3_ Framework Dual-Transformer] 3.1 Tổng quan framework Dual-Transformer|

2 Bài toán ảnh sinh từ

khóa| -3.2.1 Mô hình Transformcr|l

13.2.2 Co chế

SelEAttention| -3.2.3 Bộ mã hóa| ST eee ee 3.2.4 Bộ giải mã| Ặ Ặ ee ee ee 13.2.5 Cơ chế masked multi-head attention|

3.2.6 Mô hình Query2Labell

5.27 Cơ chế Cross Attention)

B.3 Bài toán từ khóa sinh thơ[

3.3.1 Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer|

Trang 7

3.3.2 Mô hình tạo sinh được huấn luyện sẵn (Generative

6.2_ Một số hướng phát triển của đề tài

Tai liệu tham khảo|

ii

24

31 31 31 35

38 38 38 39 39 39 43 45 45 45 AT

53 53 53 55

Trang 8

Danh sách hình vẽ

2.8 Mô hình Transformer LM xử lý cả chuỗi nguồn và chuỗi đích

Trọng số ở có chế attention ở mô hình có kiến trúc mã hóa-giải

[ _ mã không cần thiết trong bài toán này [19|)

2.9_ Biểu đồ so sánh các mô hình có kiến trúc mã hóa-giải mã và mô

hình giải mã với độ đo ROUGE-2 khi được tinh chỉnh trọng số

chỉ với 1% bộ dữ liệu |l9|| 14

3.1 Tổng quan framework Dual-Transformer| 16

3.8 Mô hình Query2Label dựa trên bộ giải mã của Transfomer SỈ "

3.9 Mô hình Query2Label sử dung Cross Attention dé tính mối tương

quan giữa các lóp nhãn va các đặc trung thị giác SỊ ¬ 23 3.10 Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer 23| Le.

4.1 Biểu đồ phan bố độ dài các từ khóa trong bộ dữ liệu từ khóa sinh

Trang 9

Định dạng dữ liệu từ khóa sinh thơ.

1V

Trang 10

Danh sách bảng

5.2_ Bảng số liệu trung bình của cảm nhận cá nhân va độ liên quan

giữa ảnh va thơ của 7 cặp ảnh thơ khảo sát.| 49

5.3 Bảng số liệu trung bình của cảm nhận cá nhân va độ liên quan

giữa ảnh va thơ của từng cặp ảnh thơ khảo sát.| 49

5.4 Bảng thể hiện kết quả thơ lục bát đầu ra của framework

Dual-Transformer khi cho đầu vào là ảnh phong cảnh Các vật thể được

_ 49

5.5 Bảng thể hiện kết quả thơ lục bát đầu ra của framework

Dual-Transformer khi cho đầu vào là ảnh phong cảnh Từ “Trăng” do

mô hình GPT-2 sinh ra lại trái với vật thể mặt trời trong anh .

5.6 Bảng so sánh giữa mô hình GPT-2 và mt5 cho bài toán từ khóa

`" HH 50 5.7 Bảng so sánh giữa framework Dual-Transformer và I2P-GAN cho

bài toán sinh thơ từ ảnh.| 50

Trang 11

Trang 12

Chương 1

Giới thiệu

1.1 Đặt van đề

Thơ ca là nguồn giải trí phi vật thể đã được truyền lại từ nhiều đời, bất cứ đâu

trên thế giới, đặc biệt là Việt Nam Với nền văn minh gắn liền với thơ ca từ hàng

nghìn năm trước ông cha ta đã để lại một kho tàng nghệ thuật đồ sộ Từ những tác phẩm mang tính đặc trưng của những thi sĩ có tên tuổi cho đến những bài thơ mang đậm tính dân ca được truyền miệng từ những người dân Có thể nói thơ ca là một sản phẩm nghệ thuật không thể thiếu của người dân Việt Nam từ

nghìn đời xưa Đặc biệt nhắc đến thơ ca Việt Nam là nhắc đến thơ lục bát, một

loại thơ khá pho biến ở người dân Việt

Trong môi trường giáo dục, các em nhỏ đang được hướng tới việc làm quen

với thơ văn nhằm giúp các em tư duy hơn Theo nhiều nghiên cứu cho thấy trẻ

em nên tiếp xúc với thơ văn từ sớm Việc xem những bài thơ hay làm thơ giúp

trẻ mở rộng vốn từ ngữ, kích thích sự tò mò, tăng khả năng sáng tạo Với kết

quả ứng dụng của bài toán sinh thơ từ hình ảnh có thể giúp trẻ học hỏi tốt hơn,

gợi sự liên tưởng, tưởng tượng cho trẻ.

Thơ ca từ lâu đã là món ăn tỉnh thần đối với con người Thơ là sự kết hợpgiữa những từ ngữ, mang trong đó cả những tâm tư tình cảm của người viết,những gì gẫn gũi với con người, cuộc sống Do đó, thơ văn vẫn luôn hấp dẫnđược con người, gợi sự hứng thú Với nhiều người, xem thơ là một thú vui, một

cách để giải trí, hay như một đam mê Vì vậy, việc giữ gìn thơ ca cũng như việc

giữ gìn đặc trưng riêng của dân tộc Hiện nay, nhiều cộng đồng thơ ca được lập

Trang 13

Something beautiful, a noun (e.g rose, ocean)

(NGESAVER) Jump to options for sharing commenting and voting.

For My Scary Birdsong

A Love Poem by Anonymous

Roses are red,

Violets are blue,

My feeling is scary,

And so are you.

Orchids are white,

Ghost ones are rare,

Space is short,

And so is your hair.

Magnolia grows, With buds like eggs,

Aterm is long,

And so are your legs.

Sunflowers reach,

Up to the skies,

Nuts are hazel,

And so are your eyes.

Foxgloves in hedges,

Surround the farms,

Heads are bald,

And so are your arms.

An adjective to describe that person's smile (eg friendly, winning)

illuminating Daisies are pretty,

Daffies have style,

Bang 1.1: Mô ta ứng dung nhận dau vào là chủ dé do người dùng nhập (A) Bài

thơ trong ảnh (B) được mô hình tự động sinh ra có chủ đề như người dùng mong

muốn

ra nhằm duy trì cái đẹp của thơ và tạo điều kiện để mọi người chia sẻ sự sáng

tạo của mình đến với mọi người

Thơ được sinh ra do con người ta có cảm hứng, mà cảm hứng lại bắt nguồn

một phần từ phong cảnh xung quanh Những tác phẩm nổi tiếng ở trong nướclẫn nước ngoài không bài thơ nào lại không đi liền với cảnh vật Có thể nói đây

sẽ là một thách thức cho những bộ mấy để có thể thực hiện được những hoạt

động có liên quan đến cảm xúc của con người Tuy nhiên, đây cũng là một cơ

hội để giúp những bộ máy phát triển hơn về mặt trí tuệ nhân tạo, nhất là trongnhững năm gần đây Trí tuệ nhân tạo đã đạt đến được những tiêu chuẩn nhất

định, có độ chính xác cao và đã được áp dụng ra ngoài thực tế như bài toán

nhận diện vật thể, nhận diện khuôn mặt, phân loại vật thể, hay về lĩnh vực xử

lý ngôn ngữ tự nhiên như bài toán dịch máy (Google Translate), hệ thống hỏi

đáp, chatbot, Máy tính cũng đã có thể tự sinh ra bài thơ theo mong muốn

của người dùng Trang web Poem Generator |!| người dùng trả lời những câu hỏi

do trang web đặt ra, bài thơ sẽ được tự động sinh với chủ đề như người dùng

mong muốn (Bảng [L.1).

thtEps://www.poem-generator.org.uk

Trang 14

Hơn thế nữa, sự kết hợp giữa hai lĩnh vực thị giác máy tính và ngôn ngữ tựnhiên cuối cùng cũng đã được quan tâm và nghiên cứu, từ đó phát sinh ra nhữngbài toán như nhận diện chữ viết tay (Optical Character Recognition), hệ thống

hỏi đáp thông qua hình ảnh (Visual Question Answering), chú thích ảnh (Image

Captioning), do phải quan tâm đến thông tin về hình ảnh và ngôn ngữ nên đây

có thể nói là một khó khăn lớn trong lĩnh vực máy học Do máy tính chỉ có thểhiểu những con số, chúng xem ảnh như ma trận hai chiều, tập văn bản như mộtchuỗi các chữ số Để giúp máy tính có thể hiểu được những thông tin về ảnh hay

văn bản đòi hỏi chúng ta phải huấn luyện bộ máy sử dụng những bộ dit liệu và

những phương pháp phù hợp để máy tính giải quyết những vấn đề trên Thế nênđây sẽ là cơ hội để máy tính có thể cùng con người “viết ra” những bài thơ dựa trên ma trận hai chiều nhằm phát triển hơn những phương pháp cho bài toán

đa phương tiện vừa hướng tới sự sáng tạo trong máy tính.

1.2 Bai toán sinh thơ từ ảnh

1.2.1 Giới thiệu bài toán

O đề tài này, chúng tôi sẽ nghiên cứu và xây dựng mô hình sáng tác thơ từ ảnh.

Bài thơ sinh ra có nội dung mang được một khía cạnh nhất định có trong ảnh

đầu vào như một vật thể nổi bật hay những sự vật sự việc có liên quan đến

những sự vật có trong ảnh Song song đó thơ vẫn giữ được câu trúc của thơ lục

bát.

e Dầu vào: Ảnh phong cảnh.

e Dầu ra: Bài thơ lục bát được sinh ra có nội dung liên quan đến ảnh đầu vào.

Ngắm con sóng biển chiều nay Cồn cào nỗi nhớ đắm say bên bờ

Ngoài khơi sóng vỗ hững hờ

Gửi thương gửi nhớ cho bờ đêm nay

Hình 1.1: Tổng quan bài toán sinh thơ từ ảnh.

Trang 15

Ảnh sinh ra phải mang những quy luật của thơ lục bát, từ cấu trúc thơ đến

luật vần, hiệp thanh (Chương 1.2.2) The sinh ra đương nhiên phải mang ý nghĩa

và phải liên quan đến bức ảnh đầu vào

1.2.2 Cơ sở lý thuyết thơ lục bat

Để hiểu về lý thuyết thơ lục bát, chúng ta cần biết về cấu trúc của tiếng trong

Tiếng Việt Tiếng trong Tiếng Việt được cấu tạo gồm hai thành phần chính là

âm đầu và vần, trong vần lại chia ra ba phần là âm đệm, âm chính và âm cuối,

cụ thể ví dụ ở Bảng

x Van

Tiếng | Âm đầu | Âm chính | Am cuối

Bảng 1.2: Cấu trúc tiếng trong tiếng Việt.

Luật của thơ lục bát bao gồm:

e Nhịp: nhịp chan dựa vào tiếng có thanh không đổi (trừ 2,4,6), nhịp 2/2/2

tạo sự hài hòa, nhịp nhàng cho các cặp lục bát trong bài.

e Hài thanh:

— Thanh bằng (B): Các âm chính chứa dấu ngang, dấu huyền

— Thanh trắc (T): Các âm chính chứa dấu sắc, hỏi, ngã, nặng

— O câu lục có đối xứng luân phiên B-T-B ở các từ 2-4-6

— Ö câu bát là B-T-B-B ở các từ 2-4-6-8

e Hiệp vần:

— Từ cuối cùng của câu lục phải vần với từ thứ 6 của câu bát

4

Trang 16

— Từ thứ 8 của dòng bát vần với từ thứ 6 của dòng lục tiếp theo

— Hai từ vần nhau khi:

+ Hai từ có cùng âm + Hai từ chung một nhóm thanh

— Ví dụ:

+ anh, đành, tranh, hành: vần với nhau

+ ánh, lạnh, bảnh, rãnh: vần với nhau

Hình [1.2.2| là một ví dụ về thơ lục bát Các kí tự “B” và “T” lần lượt tương

ứng với thanh bằng và thanh trắc và được đặt trên các từ Ví dụ: kí tự “B” được

đặt trên từ “con” mang ý nghĩa từ “con” là thanh bằng, kí tự “I” được đặt trên

từ “biển” mang ý nghĩa từ “biển” là thanh trắc các từ thứ 2, 4, 6 ở câu lục sẽ

tạo thành cấu trúc B-T-B va các từ thứ 2, 4, 6, 8 ở câu bát sẽ theo cấu trúc

B-T-B-B Các từ in đỏ thể hiện vần điệu trong thơ lục bát Từ ở vị trí thứ 6 của

câu lục “nay” sẽ vần với từ thứ 6 của câu bát “say” Từ thứ 8 của câu bát “bờ” sẽvần với từ thứ 6 của câu lục tiếp theo “hờ” và tiếp tục như thé

Mục tiêu của bài toán là sinh ra bài thơ đúng với luật thơ đó và thơ sinh ra phải

có nghĩa Những năm gần đây, nhiều phương pháp sinh ra nhằm giải quyết hai

tiêu chí trên Tuy nhiên, vẫn chưa thể chắc chắn sẽ sinh ra được bài thơ đạt chuẩn hoàn toàn Bài toán ảnh sinh thơ có thể nói là một bài toán nâng cao hơn

b

Trang 17

bài toán sinh thơ do có liên quan đến lĩnh vực thị giác máy tính Do đó số lượngthách thức nhiều hơn bài toán thuần sinh thơ:

e Bai toán này lại khan hiếm nguồn lực nghiên cứu do đây vẫn là bài toán

mới và khó, đòi hỏi phải bao gồm hai lĩnh vực thị giác máy tính và xử lý

ngôn ngữ tự nhiên.

e Rất ít bộ dữ liệu cho ảnh sang thơ, đặc biệt là cho thơ lục bát tiếng Việt.

Hơn thế nữa, để xây dựng một bộ dữ liệu ảnh sang thơ lục bát tiếng Việtmất rất nhiều thời gian cũng như nhân lực Người làm dữ liệu phải am hiểu

về thơ ca và việc tạo dữ liệu dễ bị ảnh hưởng bởi cảm nhận của từng người.

e Thách thức trong mô hình sinh thơ: Các bài toán sinh thơ đều tập trung

vào những ngôn ngữ như tiếng Trung Quốc hoặc tiếng Anh Điều này dẫnđến việc các mô hình sinh thơ của những người đi trước chỉ thích hợp với

luật thơ của họ Dé chuyển từ ngôn ngữ này sang ngôn ngữ khác và mang

đặc trưng của nước khác là thách thức lớn.

e Bộ đánh giá mô hình sinh thơ: Tho được tạo ra do cảm nhận của từng người,

nếu để giao việc đánh giá một bài thơ hay cho máy tính là điều không thể.

Nhiều bài báo sinh thơ đều hướng đến việc khảo sát người đọc và chấm

điểm cảm nhận của họ lên từng bài thơ do máy sinh ra.

1.4 Đóng góp của đề tài

Đề tài bao gồm các đóng góp chính như sau:

e Nghiên cứu về các bài toán rút trích vật thể trong ảnh phong cảnh và tạo

sinh thơ Khảo sát các hướng tiếp cận phổ biến cho bài toán sinh thơ từ

ảnh.

e Dề xuất framework Dual-Transformer sinh thơ lục bát từ ảnh phong cảnh

của Việt Nam.

e Bộ dữ liệu UIT-Visual68Poem cho bài toán sinh thơ lục bát từ ảnh phong

cảnh của Việt Nam dựa trên bộ dữ liệu ảnh sinh thơ UTT-Poem-Dataset và

bộ dữ liệu thơ lục bát.

Trang 18

1.5 Cấu trúc khóa luận

Cấu trúc khóa luận bao gồm 6 chương:

e Chương 1: Giới thiệu Chương này giới thiệu về bài toán, các kiến thức tổng

quan về bài toán, phạm vi đề tài và những đóng góp chính của đề tài

e Chương 2: Các phương pháp liên quan Chương này trình bày về một số

nghiên cứu có liên quan đến đề tài

e Chương 3: Framework Dual-Transformer Chương này chúng tôi đề xuất mô

hình giải quyết bài toán sinh thơ lục bát từ ảnh phong cảnh Việt Nam

e Chương 4: Bộ dữ liệu UIT-Visual68Poem Chương này giới thiệu về bộ dit

liệu UIT-Visual68Poem cho bài toán sinh thơ lục bát từ ảnh phong cảnh

Việt Nam.

e Chương 5: Trình bày các thực nghiệm, so sánh các mô hình cho bài toán

sinh thơ lục bát từ ảnh phong cảnh Việt Nam.

e Chương 6: Kết luận Chương này tổng hợp một số nội dung và đông góp

của đề tài và các hướng phát triển trong tương lai.

Trang 19

Chương 2

Các phương pháp liên quan

cho bài toán sinh thơ từ ảnh

2.1 Mô hình một giai đoạn

Vấn đề của bài toán “Sinh thơ từ ảnh” vẫn còn nhiều khó khăn như việc sinh thơ

đảm bảo các quy luật về vần điệu, thể thơ, bài thơ sinh ra phải có nội dung liên

quan đến nội dung của ảnh đầu vào Các hướng tiếp cận cho bài toán này khá

đa dạng, một trong số các hướng tiếp cận đó là hướng tiếp cận theo bài toán

Sinh mô tả cho ảnh (Image Captioning) Hướng tiếp cận này thường sẽ sử dụng

mô hình mạng tính chap CNN để rút trích đặc trưng ảnh và đưa qua mô hìnhmạng hồi quy RNN để sinh thơ Một trong số mô hình áp dụng hướng này là

mô hình của Bei Liu và các cộng sự [1| sử dụng cách huấn luyện đa đối khángthông qua thuật toán học tăng cường Policy Gradient nhằm đảm bảo việc văn

bản sinh ra mang tính thơ ca và có độ liên qua giữa văn bản và ảnh (Hình ]).

Tuy nhiên, mô hình này đòi hỏi phải có bộ dữ liệu đủ lớn để mô hình có thể học

được mối tương quan giữa ảnh và thơ từ đó sinh ra thơ theo luật và liên quanđến ảnh đầu vào Do bộ dữ liệu ảnh sang thơ lục bát khá ít nên dẫn đến kết quả

không tốt cho bài toán sinh thơ lục bát từ ảnh Một số thơ sinh ra có những đối

tượng không liên quan đến ảnh đầu vào và thơ không theo quy luật của thơ lục

bát Kết quả được thể hiện qua phần |5.3| ở chương

Trang 20

| Deep Coupled Visual-Poetic Embedding Model | 1 Generator as Agent I Discriminators as Rewards |

| POS parses —Y Hị| lŠg -_› = xa _— el: — ose |

| @mmepssse |Ễ “| [38 (ie HN ¡ (Poetic @| Ị

| (@)coming ere te springtime Mean pooling + | HH ' |

| "——> O0?00 —> ) mmmmaan | II h Paragraphic@] |

| OO — | | pp Lr \

(c) skip-thought model sa

| (a) image and poem pairs trained on UniM-Poem (d) sentence features | | _ (0F RNN generator - i a ice ee AG 7 AC, Ns 1

l§ Pace rar nets FES ES eR SE J +— (i) Policy Gradient —

Hình 2.1: Mô hình sinh tho từ ảnh sử dung phương pháp huấn luyện đa đối

kháng [I|.

2.2 Mo hình hai giai đoạn

Có các hướng tiếp cận khác là tách một bài toán lớn ra thành các bài toán connhỏ dễ giải quyết Ví dụ như phương pháp dựa trên ghi nhớ rút trích các đốitượng quan trọng có trong ảnh đầu vào giúp cho việc tạo thơ mang được các

thông tin hình ảnh quan trọng có trong ảnh đầu vào (2) ( Hình |2.2| [2.2) Dé tao ra

các bai thơ mang tính nghệ thuật, mô hình sinh anh từ thơ |3 (3) ( Hình {2.3} [2.3) dua

trên cách người làm thơ cảm nhận cảnh vat xung quanh từ đó nghĩ đến nhữngyêu tố ngoài có liên quan đến cảnh vật hiện tại dựa trên những trải nghiệm của

người làm thơ Hệ thống nhận ảnh đầu vào và sinh ra từ khóa có trong ảnh Sau

đó các từ khóa khác liên quan đến các từ khóa trong ảnh sẽ được chọn lọc vàđược đưa thêm vào bằng cách truy vấn dựa trên các bài thơ được tạo ra bởi con

người Mỗi từ khóa là mỗi câu thơ.

ag , 3

3É 7h (waterfall) R Ba + # 1R

alk ss The sunlit Censer peak exhales a wreath of cloud

(mountain) Keyword (tre) =

Extraction as ml 38 Ay SẼ h 4 AT J1]

(ng) Like an upended stream the cataract sounds loud

RB (sky)

"Ki TZ#fK

Its torrent dashes down three thousand feet from high

LI Visual Feature Visual Feature HRA BAR

Extraction Vectors As if the Silver River fell from azure sky

Hình 2.2: Mô hình sinh thơ từ anh sử dụng phương pháp ghi nhớ (2).

Trang 21

3Ñ Tỳ (city) SRA 4 He SP SSBritt ( um (The city flows slowly behind him,

238 (Road) Filtering ‡## (busy) My life is busy.

Evaluator

TEAR (busy) 5 Expansion

place no one knows.

elm KF (smile) Accept | 21k A AR Hy

when With lips curl into phony smile.

high score

Keyword Generation Poem Generation

Hình 2.3: Mô hình sinh thơ từ ảnh sử dụng phương pháp mở rộng từ khóa lì.

Một cách khác là kết hợp giữa các từ khóa với những thông tin trừu tượngnhư thông tin về mùa màng hay thời tiết sửa dung các mô hình phân lớp với

đầu vào là ảnh phong cảnh Điều này giúp cải thiện tính nhất quán về nội dung

của giữa thơ sinh ra và ảnh đầu vào |4| (Hình b.4).

Image Information Extraction

%* Cloud-kissing peak

id a fa

Concrete Information 4 M a Keywords & Snow

Extraction eo Retrieve & Expand #1 Mountains

32 Reach up to the sky

Abstract

Information Vectors

Abstract Information

Extraction

Poetry Generation

BEB, fe eee Pars

Thousands of cloud-kissing peaks up to the clear sky Cloud-kissing peak

Reach up to the sky

2.2.1 Giai đoạn rút trích đặc trưng anh

Mục tiêu của mô hình rút trích đặc trưng ảnh chủa nhóm là để giải quyết bài

toán từ ảnh sinh từ khóa.

Một hướng tiếp cận cho vấn đề này cũng là hướng mà hiện nay có nghiềunghiên cứu đạt đến độ chính xác khá cao là hướng tiếp cận phát hiện đối tượng

(Object Detection) (Hình [2.6).

10

Trang 22

Mô hình ảnh

sinh từ khóa sóng biển bờ

Có thể nói bài toán phát hiện đối tượng đẽ được nghiên cứu khá lâu và cho

đến hiện nay vẫn được người người quan tâm, đã có nhiều mô hình được sinh ra

nhắm nâng cao độ chính xác, tối ưu hóa thời gian thực thi và đã được ứng dụng

ra ngoài xã hội để xử lý những công việc con người không thể làm được Các

mô hình hiện nay đạt độ chính xác cao đang hướng tới việc sử dụng kiến trúc

Transformer lỗ như mô hình Swin Transformer [7| hay mô hình DETR BỸ Các

mô hình déu đạt kết quả cao trong bài toán phát hiện đối tượng Do có nhiều bộ

dữ liệu về bài toán này nên đây có thể là một lợi thế cho hướng tiếp cận này.

Tuy nhiên, vẫn có vấn đề cho hướng tiếp cận này trong việc giải quyết bài toánảnh sinh từ khóa Vấn đề là bài toán của nhóm không có bộ dữ liệu phù hợp

nào được công khai rộng rãi, cụ thể là các từ khóa liên quan đến các đối tượng

11

Trang 23

phong cảnh Việt Nam Buộc nhóm phải tự tạo một bộ dữ liệu riêng, hơn thế, để

tạo ra bộ đữ liệu cho các mô hình trên giải quyết phải bao gồm các bounding

box cho các đối tượng trong ảnh và số lượng mẫu trong bộ dữ liệu phải nhiều để

đủ cho các mô hình trên có thể học và cho ra kết quả tốt.

Có một hướng tiếp cận khác là sử dụng các mô hình cho bài toán phân loại

đa nhãn (Multi-label Classification) Bai toán này có đầu vào là ảnh và đầu ra

là các nhãn đối tượng có trong ảnh Bài toán phân loại đa nhãn và phát hiện đốitượng đều có đầu vào là ảnh và đầu ra nhãn đối tượng có trong ảnh, tuy nhiênbài toán phân loại đa nhãn không cần đến bounding box trong đữ liệu và các mô

hình trong bài toán này không cần bộ dữ liệu có số lượng lớn dẫn đến việc sử

dụng các mô hình trong bài toán này để giải quyết bài toán từ ảnh sinh từ khóa

là một lựa chọn của nhóm Các mô hình trong bài toán này có hai hướng chính là

sử dụng Graph và mô hình Transformer Hiện nay, hướng tiếp cận Transformer

được nghiên cứu rộng rãi do mô hình Graph có thể học các mối tương quan một

cách mập mờ trường hợp bộ dữ liệu không đủ để mô hình có thể học tốt lBl:

2.2.2 Giai đoạn sinh văn ban

Hiện nay các mô hình sinh văn bản dùng để giải quyết các bài toán như dịch

máy, tóm tắt văn bản, Q&A, Hầu hết các mô hình đều dựa trên mô hình

Transformers (6) Điểm chung đều có hai mô hình encoder để mã hóa các câu

đầu vào thành các véc-tơ và decoder từ các véc-td sé sinh ra các câu phù hợpvới bài toán Một số mô hình như BigBird và mô hình T5 đạt độ F1 caonhất ở một số bộ dữ liệu thuộc bài toán Q&A, mô hình DeLighT [11] đạt độ

BLEU cao ở bộ dữ liệu thuộc bài toán dịch máy Theo [12], những nghiên cứu

trước đây đã chứng minh được việc sử dụng mô hình có cấu trúc mã hóa-giải mã

có thể tạo ra bài thơ Trung Quốc Các mô hình đã phát triển từ kiến trúc đó và cải thiện thêm cho mô hình có thể sinh ra một bài

thơ có nghĩa, các câu thơ có sự liên kết với nhau

Tuy nhiên, với sự phát triển của mô hình ngôn ngữ, một số bài toán cần

tới kiến trúc mã hóa-giải mã được giải quyết bởi decoder của Transformer là

GPT-2 Ở lĩnh vực âm nhạc, mô hình Music Transformer chỉ sử dụng

phan decoder của Transformer để sinh đoạn nhạc Sinh bản nhac cũng như là

một mô hình ngôn ngữ, chỉ cần mô hình học nhạc một cách tự động, không cần

giám sát và sau đó tận hưởng thành quả Các đoạn nhạc được thể hiện bằng các

véc-tơ(Hình 2-7) O một ban nhac, chúng ta không chi sử dụng các not nhạc mà

còn cả cường độ âm - Cường độ khi đánh đàn dương cầm

12

Trang 24

Note on Note off Velocity Time

II IIII Ji I II IIIII Ji II II II shaft

Hình 2.7: Doan nhạc được biểu diễn bằng véc-tơ bao gồm các nốt nhac (Note)

và cường độ âm (Velocity }}]

Bài toán tóm tắt văn bản cũng đã được chuyển sang chi sử dung mô hình

decoder của Transformer Mô hình decoder xem bài toán tóm tắt văn bản như

một bài toán mô hình ngôn ngữ (Hình 2.8) Việc sử dung mô hình ngôn ngữ bao

gồm việc:

e Giúp giảm việc sao chép trọng số đã được huấn luyện sẵn lên cả mô hình

mã hóa và giải mã.

e Sứ dụng ít trọng số hơn kiến trúc mã hóa-giải mã

e Dam bảo trọng số của mô hình là các trọng số đã được huấn luyện sẵn.

Mô hình ngôn ngữ xử lý cho bài toán tóm tắt văn bản |19| đã đạt được kếtquả độ đo ROUGE-2 cao hơn mô hình có kiến trúc mã hóa-giải mã khi mô hìnhđược tỉnh chỉnh trọng số với chỉ 1% bộ dữ liệu Hướng tiếp cận này giúp giảiquyết vấn đề ít dữ liệu phù hợp với bài toán mà nhóm chúng tôi gặp phải

thtEps://jalammar.github.io/illustrated-gpt2

15

Trang 25

encoder-decoder attention

weights (not pre-trained)

Hình 2.8: Mô hình Transformer LM xử lý cả chuỗi nguồn và chuỗi đích Trọng số

ở có chế attention ở mô hình có kiến trúc mã hóa-giải mã không cần thiết trong

bài toán này 19|.

—®- Encoder-Decoder + Pretraining —e— Transformer LM + Pretraining

Hình 2.9: Biểu đồ so sánh các mô hình có kiến trúc mã hóa-giải mã và mô hình

giải mã với độ đo ROUGE-2 khi được tinh chỉnh trọng số chỉ với 1% bộ dữ liệu

|

14

Trang 26

Chương 3

Framework

Dual-Transformer

3.1 Tổng quan framework Dual-Transformer

Trong bài khóa luận này, khóa luận nghiên cứu về van bài toán sinh thơ từ ảnh

Tho sinh ra phải dam bảo các quy luật của một bài thơ lục bát và phải liên quan

đến ảnh đầu vào Vấn đề lớn nhất mà chúng tôi gặp phải ở bài toán này là thiếu

bộ dữ liệu Tuy nhiên, việc chia bài toán lớn thành các bài toán nhỏ để dễ dàng

giải quyết cũng là một ý kiến hợp lý Chúng tôi đã quyết định chia bài toán từ

ảnh sinh thơ thành hai bài toán con là từ ảnh dự đoán từ khóa và từ khóa sinh

thơ Hướng tiếp cận này có thể tăng dữ liệu giúp cho việc huấn luyện mô hình

tốt hơn Quá trình tăng dit liệu sẽ được mô tả chi tiết ở phần |d| Hơn thé, bài

toán từ khóa sinh thơ giúp cho bài thơ đảm bảo được sự liên quan giữa các câu

trong bài thơ id}.

Chúng tôi sẽ trình bay hai định dang bộ dữ liệu cho hai bài toán rút trích từ

khóa từ ảnh và bài toán từ khóa sinh thơ Với bài toán rút trích từ khóa từ ảnh,

chúng tôi sử dụng mô hình Query2Label|g} Phan từ khóa sinh tho chúng tôi sử

dụng mô hình GPT-2 Hình mô tả chi tiết hệ thống Đầu vào hệ thống là

ảnh phong cảnh đi qua mô hình rút trích từ khóa trả ra những từ khóa vật thể

có trong ảnh đầu vào Các từ khóa sẽ được đưa qua mô hình sinh thơ để sinh ra

thơ lục bát có chứa các từ khóa đầu vào

15

Trang 27

Ngắm con sóng biển chiều nay

Cồn cào nỗi nhớ đắm say bên bờ

Ngoài khơi sóng vỗ hững hờ

Gửi thương gửi nhớ cho bờ đêm nay

Mô hình ảnh sinh Mô hình từ khóa

từ khóa sinh thơ

Hình 3.1: Tổng quan framework Dual-Transformer.

sóng biển bờ

3.2 Bai toán anh sinh từ khóa

3.2.1 M6 hình Transformer

Mô hình Transformer lỗ đã trở thành kiến trúc thống trị lĩnh vực xử lý ngôn

ngữ tự nhiên bởi vì thời gian đào tạo song song dẫn đến tiết kiệm thời gian choquá trình huấn luyện và đi kèm với nó là độ chính xác tốt hơn hắn so với các

phương pháp trước đó Mô hình transformer bao gồm hai phần lớn là bộ mã hóa

và bộ giải mã Bộ mã hóa biểu diễn ngôn ngữ nguồn thành các véc-tơ, bộ giải

mã sẽ nhận các véc-tơ biểu diễn này và dịch nó sang ngôn ngữ đích Chi tiết các thành phần của bộ mã hóa và giải mã được thể hiện như Hình bộ mã hóa,

và giải mã lần lượt nằm ở cột bên trái và bên phải của hình vẽ

Một trong những ưu điểm của transformer là mô hình có khả năng xử lý song

song cho các từ Đầu vào sẽ được đẩy vào cùng một lúc Bộ mã hóa của mô

hình transformer bao gồm một tập gồm N = 6 lớp giống nhau, mỗi lớp baogồm 2 lớp con Lớp đầu tiên là cơ chế multi-head self-attention, và lớp thứ 2 là

mạng feed-forward kết nối day đủ Dau ra của mỗi lớp con là LayerNorm(x +

Sublayer(x)), trong đó Sublayer(x) là một hàm được thực hiện bới chính lớp con

đó Bộ giải mã: cũng bao gồm tập gồm N = 6 lớp giống nhau Ngoài hai lớp

con giống như bộ mã hóa, bộ giải mã còn có một lớp để thực hiện multi-head

attention trên đầu ra của lớp giải mã Ỏ đây sẽ có thay đổi cơ chế self-attention

trong bộ mã hóa.

16

Trang 29

3.2.2 Cơ chế Self-Attention

Cơ chế self-attention - “trái tim” của mô hình transformer, là cơ chế giúp

Transformers “hiểu” được sự liên quan giữa các từ trong một câu Có thể tưởng

tượng self-attention giống như cơ chế tìm kiếm Với một từ cho trước, cơ chế

này sẽ cho phép mô hình tìm kiếm trong các từ còn lại để xác định từ nào liên quan để sau đó thông tin sẽ được mã hóa dựa trên tất cả các từ trên Đầu vào

của self-attention là 3 véc-tơ query q, key k, value v Các véc-to này được tạo ra

bằng cách nhân véc-tơ biểu diễn đầu vào với các ma trận tương ứng là JV*, W*,

W° Các ma trận này ban đầu được khởi tạo một cách ngầu nhiên

Chỉ tiết vai trò của ba véc-tơ trên như sau:

e Véc-tơ q là véc-tơ dùng để chứa thông tin của từ được tìm kiếm, so sánh.

e Véc-tơ k là véc-tơ dùng để biểu diễn thông tin các từ được so sánh sự liên

quan với từ được biểu diễn bằng véc-tơ q.

e Véc-tơ v là véc-tơ biểu diễn nội dung, ý nghĩa của các từ

Véc-tơ attention hay tac giả trong bài báo lỗ gọi là Scaled Dot-Produet

Attention cho một từ thể hiện tính tương quan giữa 3 véc-tơ này được tạo ra bằng cách nhân tích vô hướng giữa chúng và sau đó được chuẩn hóa bằng hàm

softmax Cụ thể quá trình tính toán qua Hình [3.3}

Hình 3.3: Mô hình Scaled Dot-Product Attention [21].

18

Trang 30

Add & Norm

Feed

Forward

Add & Norm

Multi-Head Attention

Nx

Positional

Encoding at 0

Input Embedding

Inputs

Hình 3.4: Bộ mã hóa của mô hình Transformer

e Bước 1: Tính ma trận query, key, value bằng cách nhân input với các ma

trận trọng số tương ứng.

e Bước 2: Nhân hai ma trận query, key vừa tính được với nhau với ý nghĩa so

sánh giữa câu query và key để học mối tương quan Sau đó các giá trị sẽ được chuẩn hóa về khoảng [0-1] bằng hàm softmax với ý nghĩa 1 khi câu

query giống với key ngược lại, 0 có nghĩa là không giống

e Dước 3: Output sẽ được tính bằng cách nhân ma trận vừa được tạo ra ở

bước 2 với ma trận value.

3.2.3 Bộ mã hóa

Dữ liệu đầu vào sẽ được mã hóa thành các véc-tơ, sau đó sẽ được đưa vào các

các lớp được xếp chồng lên nhau Các thành phần của một lớp được biểu diễn

như Hình

Trong đó input Embedding gồm:

e Input: Các câu đầu vào sẽ được mã hóa thành các véc-tơ bằng việc sử dụng

Word Embedding.

19

Trang 31

Scaled Dot-Product

Attention ⁄

Hình 3.5: Mô hình Multi-head Attention [21].

e Positional Encoding: Các câu đầu vào chuyển hóa thành Word Embedding

phần nào cho giúp ta biểu diễn ngữ nghĩa của một từ, tuy nhiên cùng một

từ ở vị trí khác nhau của câu lại mang ý nghĩa khác nhau Đó là lý do

Transformers có thêm một phan Positional Encoding để cho biết thêm thông

tin về vị trí của một từ.

Vấn đề của self-attention là attention của một từ sẽ luôn “chú ý” vào chính

nó Chúng ta muốn mô hình có thể học nhiều kiểu mối quan hệ giữ các từ với

nhau Ý tưởng là thay vì sử dụng một self-attention thì chúng ta sẽ sử dụng

nhiều self-attention Don giản là cần nhiều ma trận query, key, value Mỗi “head”

sẽ cho ra output riêng, các ma trận này sẽ được kết hợp với nhau và nhân với

ma trận trọng số để có được ma trận attention duy nhất (Hình [3.5p.

MultiHead(Q, K,V) = Concat(heady, , head, )W?

Mỗi encoder va decoder trong Transformer sử dung N attention Mỗi attention

sẽ biến đổi tuyến tính q, k, k với một ma trận có thể huấn luyện khác nhau

tương ứng.

Mỗi phép biến đổi cung cấp cho chúng ta một phép chiếu khác nhau cho q, k

và v Vì vay, N attention cho phép xem mức độ phù hợp từ N quan điểm khác nhau Điều này cuối cùng đẩy độ chính xác tổng thể cao hơn, ít nhất là theo

kinh nghiệm.

Việc chuyển đổi cũng làm giảm kích thước đầu ra của chúng, do đó, thậm

chi N attention được sử dung, độ phức tạp tính toán vẫn giữ nguyên Trong

20

Trang 32

Add & Norm

Positional

Encoding

Embedding

Hình 3.6: Bộ giải mã của mô hình Transformer [21].

multi-head attention, ghép các vectd đầu ra theo sau là một phép biến đổi tuyến

tính.

3.2.4 Bộ giải mã

Bộ giải mã thực hiện chức năng giải mã véc-tơ của câu nguồn thành câu đích, do

đó bộ giải mã sẽ nhận thông tin từ bộ mã hóa là 2 véc-tơ key và value Kiến trúccủa bộ giải mã rất giống với bộ mã hóa, ngoại trừ cơ chế multi-head attention

nằm ở giữa dùng để học mối liên quan giữ chuỗi đầu vào và chuỗi đang được sinh

ra từ bộ giải mã và có thêm một cơ chế masked multi-head attention (Hình 3.6).

3.2.5 Cơ chế masked multi-head attention

Có chế masked multi-head attention bao gồm nhiều các cơ chế masked

self-attention tạo điều kiện cho mô hình có thể xét đến nhiều mặt ngữ nghĩa của

chuỗi Về phần cơ chế masked self-attention cũng giống như cơ chế self-attentionvới mục địch tính độ liên quan giữa các từ với nhau Tuy nhiên, ở cơ chế self-

attention thông thường sẽ tính độ liên quan giữa các từ trong câu kể cả các từ

21

Trang 33

Hình 3.7: Cơ chế self-attention (trái) và cơ chế masked self-attention (phải) 1|.

nằm bên tay phải của từ đang được tính toán Cách hoạt động này giúp mô

hình có cái nhìn tổng quát về ngữ nghĩa của cả câu, thường được sử dụng để xử

lý các bài toán về ngữ nghĩa như mô hình Bert Trong khi đó, cơ chế masked

self-attention lại không xét các từ nằm về phái tay phải của từ đang được tínhtoán, điều này có lợi cho nhưng mô hình ngôn ngữ vì những mô hình này xử lý

các bài toán sinh văn bản nên việc xét ngữ nghĩa cho các từ trong tương lai là

hoàn toàn không cần thiết

Trong bộ giải mã còn có một multi-head attention có chức năng chú ý các từ

ở bộ mã hóa, layer này nhận véc-tơ key và value từ bộ mã hóa, và output từ

layer phía dưới Don giản bởi vì chúng ta muốn so sánh sự tương quan giữa từ

đang được dịch với các từ nguồn

3.2.6 Mô hình Query2Label

Mô hình Query2Label |8] là mô hình hai giai đoạn cho bài toán phân loại da

lớp (multi-label classification) Bang cách sử dung phần giải mã của mô hìnhTransformer và tận dụng phần Multi-Head Attention kết nối giữa bộ mã hóa

và bộ giải mã (Cross Attention) để giải quyết bài toán multi-label classfication

(Hình 3.8).

3.2.7 Cơ chế Cross Attention

Ở phần cơ chế attention cho bộ mã hóa và bộ giải mã - một thành phần trong

decoder giúp cho decoder tập trung vào những phần quan trọng trong chuỗi đầu

vào Trong mô hình Query2Label, tác giả dé xuất việc thay chuỗi đầu vào thành

22

Trang 34

Person Car Umbrella = cat motor

Learnable label embeddings

Backbone

(CNN/VIT/ ) xL

Hình 3.8: Mô hình Query2Label dựa trên bộ giải mã của Transfomer lÌ.

các đặc trưng thị giác, các lớp nhãn sẽ trở thành các query Cơ chế attention cho

bộ mã hóa và bộ giải mã từ đây có nhiệm vụ tìm những phần quan trọng của

các lớp nhãn trong các đặc trưng thị giác (Hình 3.9).

| Contain person! | | Contain umbrella! | Label

` ; P Learned Label Features

Sum up Features

@ @ from Attentional

Regions

Multiple Attention Maps

Feature

Extractor

Query from Image Features

= Query: Query:

Input Where’s person? Where’s umbrella?

~ Label Embeddings

(Query)

Hình 3.9: Mô hình Query2Label sử dung Cross Attention để tính mối tương quan

giữa các lớp nhãn và các đặc trung thị giác l|.

Một lợi điểm khác của mô hình Transformer là cơ chế multi-head attention

giúp ta có cái nhìn nhiều chiều về đặc trưng đầu vào Việc này giải quyết được

trường hợp các vật thể bị che khuất bởi vật khác hoặc hướng nhìn bị thay đổi.

23

Trang 35

3.3 Bai toán từ khóa sinh thơ

3.3.1 M6 hình ngôn ngữ dựa trên bộ giải mã của

Trans-former

Mô hình Transformer được biển đổi để có thể giải quyết bài toán mô hình ngôn

ngữ Một bài báo đã dé xuất rằng loại bỏ phan mã hóa và chỉ lấy phần giải

mã của Transformer để giải quyết bài toán mô hình ngôn ngữ (Hình 3.10).

Hình 3.10: Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer [23].

Mô hình ngôn ngữ dựa trên bộ giải mã của Transformer bao gồm 6 bộ giải

mã con và trong bộ giải mã con bao gồm một cơ chế masked self-attention và

mộtmô hình mạng nơ-rôn lộ Hìnhj 10 mô hình của có thể sinh văn bản với

4000 từ Theo sau đó là sự xuất hiện của nhiều mô hình dựa theo Transformer

và đạt được nhiều kết quả tốt, trong đó có mô hình ngôn ngữ

3.3.2 Mô hình tao sinh được huấn luyện sẵn (Generative

Pre-Training)

Mô hình ngôn ngữ là một phân bố xác xuất trên một chuỗi văn bản Mô hình

xác xuất được dùng để cho biết xác xuất của một từ tiếp theo trong tập từ điển

dựa theo các từ có sẵn được gọi là chuỗi đầu vào Về mặt toán học, cho mộtchuỗi đầu vào ø;_, ,¿_¡ với u; là thành phan thứ i trong chuỗi và mô hình sẽ

24

Ngày đăng: 23/10/2024, 02:12

HÌNH ẢNH LIÊN QUAN

Hình giải mã với độ đo ROUGE-2 khi được tinh chỉnh trọng số - Khóa luận tốt nghiệp Khoa học máy tính: Tạo sinh thơ từ ảnh sử dụng mô hình ngôn ngữ và đặc trưng thị giác
Hình gi ải mã với độ đo ROUGE-2 khi được tinh chỉnh trọng số (Trang 8)