Khóa luận tốt nghiệp Khoa học dữ liệu: Xây dựng hệ thống mô tả ảnh theo thời gian thực cho ứng dụng dữ liệu lớn

Với ý định tìm ra lời giải bài toán và góp phần sớm đưa bài toán vào ứng dụng thực tế chúng tôi đã bắt tay vào tìm hiéu và đưa ra đề xuất về phương án áp dụng côngnghệ dir liệu lớn cùng

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

HA MINH QUAN - 19522076

DO NGỌC AN - 19520364

KHOA LUAN TOT NGHIEP

XÂY DUNG HE THONG MÔ TA ANH THEO THỜI

GIAN THUC CHO UNG DUNG DU LIEU LON

REAL-TIME IMAGE CAPTIONING SYSTEM FOR DATA

INTENSIVE APPLICATION

CU NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

ThS TA THU THUY

TP HO CHi MINH, 2023

Trang 2

LỜI CẢM ƠN

Chúng em thật lòng muốn gửi tới Thầy TS Đỗ Trọng Hợp và Cô Tạ Thu Thuỷ nhữnglời cảm ơn thành tâm nhất bởi sự quan tâm và hỗ trợ quý báu của thầy cô Thầy Hợp

và cô Thuỷ không chỉ là người thầy, người người cô luôn đồng hành cùng chúng em,

mà còn là người dẫn đường và người tiếp sức mạnh dé chúng em hoàn thiện bản thâncũng như học vấn trong suốt hành trình học tập tại Trường Đại học Công nghệ Thông

Tin.

Chúng em biết on Thay và Cô vi đã luôn sẵn lòng lắng nghe và cung cấp sự hỗ trợkhi chúng em đối mặt với van đề Những nhận xét và hướng dẫn của Thay và Cô đãgiúp chúng em nhận ra các vấn đề còn tồn đọng, tìm ra được hướng giải quyết từ đóhoàn thiện đề tài khoá luận mà chúng em đang nghiên cứu Chúng em rất trân trọng

sự nhạy bén và kiến thức sâu rộng mà Thay và Cô đã chia sẻ, nó đem tới cho chúng

em nhiều bài học quý giá không chỉ mỗi mặt học thuật mà còn hoàn thiện tính cách

bản thân.

Sau cùng, chúng em muốn bày tỏ sự biết ơn đặc biệt tới Thầy và Cô ở Khoa Khoahọc và Kỹ thuật Thông tin vì đã là những người dạy dỗ, khiến chúng em có đủ bảnlĩnh và kiến thức dé thực hiện khoá luận này Hơn thế nữa Thay và Cô còn day chochúng em những kỹ năng sống, kỹ năng giải quyết vấn đề Chính vì vậy chúng em sẽ

cô gắng dé sớm là một công dân tốt có đóng góp cho xã hội và sẽ là những học tròđáng tự hào của Thầy và Cô

Nhóm tác giả

Đỗ Ngoc An

Ha Minh Quan

Trang 3

MỤC LỤC

Chương 1 Tổng quan khóa luận - ¿s2 2 +£E£+E£+E£+EE£EE++E£EEtExerx+zxerrxerxee 9

1.1 Gidi 04 0n 9 1.2 Tính ứng dụng của khoá luận - 5 s11 1S 1 9 1 9v vn kg rưy 10

Chương 2 Các công trình nghiên cứu liên quan 55c + ‡+++s+sexseexssss 12

2.1 Lĩnh vực mô tả ảnh tự động - c2 3S 3S 19 11 1n ng re 12

2.2 Lĩnh vực xử lý dong dit liệu và học liên tục .- «+ +-«c+cc<scesseesees 13

Chương 3 Các phương pháp dé Xuất 2- 22 +¿©2+2+++£x++EE2EEerExerxesrxrrrreee 15

3.1 Tổng quan phương pháp dé Xuất + ¿2© s+S£+E£+EE2E+EerEerkerxerxereee 15

3.2 Phương pháp Streaming dữ lIỆU 5c S2 33233 EESesrsersrsrere 16

3.2.1 Phương pháp thu thập và xử lý dữ liệu + +55 +++<+<xssxsss 17

3.2.1.1 Phương pháp thu thập dữ liệu 55-25 <+++x++eexssesssess 19

3.2.1.2 Phương pháp xử lý dữ liệu - - 5 ScSSs+ssirerrerrererree 19

3.2.2 Phương pháp tăng cường chat lượng dif liệu 2 - 5 5255: 253.2.3 Phương pháp xây dựng bộ dữ liệu kiểm thử 2-2-5 55z©5+2 29

3.3 Phương pháp mô ta ảnh tự động - 5c S21 +skrirriresrrrerree 29

3.3.1 BO gidi ma ch 31

3.3.2 M6 hinh ng6n Ngth oe eeeesecseeeeceeseeeececesseesseceaeseeseesseeeaesseeeseeeaeeees 34

3.3.3 Phuong pháp trích xuất thông tỉn - ¿2 2 s+++££+E££Eerxerxerxerxee 35

3.3.4 Các mô hình mô tả ảnh tự động - c5 + + +vseseeresereresrs 37

Chương 4 Thực nghiệm và đánh giá kết quả - + 2 2 x+£E+zE£+Ee+zxerxzez 42

4.1 Quy trình thực nghiệm mô tả ảnh - 5 5 S1 *++veEsseeeeereeeere 42

4.1.1 Cài đặt thực nghiệm cho các mô hình - - «+ +£+£+s++ee++exss 43

4.1.2 Mô hình trích xuất đặc trưng VinVI, ¿-¿+cs+cx+zxczxzrserxerseee 43

Trang 4

4.1.3 Mô hình Meshed Memory 'TTanSfOTIN€T 5 «+ £++£+s£+s+sessxrs 45

4.1.4 Mô hình Object Relation TTanSÍOTIN€T 55+ + + + esseeess 45

4.1.5 Cài đặt thực nghiệm học liên tục cho các mô hình - - - 46 4.2 Độ đo đánh gia cho mô hình mô tả ảnh tự động - 5+ -5<<<<<+5 47 4.3 Dữ liệu thực nghiỆm - - - G 1 1211211191 91v ng TH ng kg 48

4.4 Cài đặt, phân tích và đánh giá thực nghiệm - <5 5555 **+sc++seesssess 49

4.5 Phân tích lỗi -. - + tt HE ng nàn ng 56

Chương 5 Xây dựng ứng dụng trên hệ thống hỗ trợ mô tả ảnh tự động theo thời

gian thực cho ứng dụng dif liệu lớn .- - 5 5 2S E11 **EEEseeEeeeerseeereeeeree 60

5.1 Môi trường thực hiỆn - - Q2 1221211112111 115111111 11 111g ng ry 60

5.2 Xây dựng ứng dụng mô phỏng tương tác với mô hình - - ‹ - 61

5.2.1 FTOTf-€TI G011 TH Họ no và 62

5.2.2 Back-end aah Z1 HS Hư 63

5.2.3 Cách thức hoạt động và Giao diện của ứng dụng - ‹- ‹ 64

Chương 6 Kết luận và hướng phát triỂn -¿- ¿+2 ©++x++z++£x++zx++zx+zxeex 70

6.1 KẾ luận -cc+-22++222 t2 t2 tr re 706.2 Han ChE 0 726.3 Hướng phát trién o c.cccceccccccscsscsscssessessessessesscsscscsessessessessessessssessesseeseesesseseesees 72TÀI LIEU THAM KHẢO - ¿St St+E‡EE‡EEEEEEESEEEEEEEEEEEEEEEEEEEEEESEEEkrkrkererrrre 73

Trang 5

DANH MỤC HÌNH

Hình 1.1: Một ví dụ cho việc tạo sinh câu mô tả 55555 S 5+ S+++sscesssz 10

Hình 3.1: Sơ đồ tổng quan cách hệ thống vận hành 2 2 ¿+ s2 s+£s2 +2 16Hình 3.2: Tổng quan quy trình xử ly dit liệu được thu thập tir Wikipedia 18

Hình 3.3: Những câu mô tả không phù hợp - - s5 c1 re, 20

Hình 3.4: Quy trình xử lý dữ liệu được thu thập từ WikIpedla - - 22

Hình 3.5: Loại bỏ yếu tố thời gian ra khỏi câu mô tả 2-2 ¿+ s2 =s+£s2 +2 27

Hình 3.6: Minh hoa cách thức hoạt động Knowledge Graph API 28

Hình 3.7: Tổng quan cầu trúc mô ta ảnh tự động [34] . ccssseesees 30Hình 3.8: Cấu trúc mô hình mô tả ảnh tích hợp với phương pháp phát hiện vùng nỗi

Hình 3.9: Tổng quan kiến trúc mô hình học chuyên tiếp [36] - 33

Hình 3.10: Kết quả sử dụng Vinvl cho bài toàn nhận diện vật thé so sánh với kiến

trtic khéc KT éố 36

Hình 3.11: Tổng quan cấu trúc của mô hình OR'T 2 2s ++2s++z++z++zxzzs+ 38Hình 3.12: Kiến trúc mô hình Meshed Memory Transformer -s: s2 40

Hình 4.1 M6 tả tinh chỉnh học liên tục trên các mô hình - 555 +++<<< 46

Hình 4.2: Phân tích lỗi (1) - ¿5+ ©++£++t2EktEEkEEEEkEEEkiEEkEtirtrierriieriirrii 57

Hình 4.3: Phân tích lỗi (2) -¿- - + + ++S+2EE+E2EEEEEEEEEEEEEEEEEEEECEEErkerkerkerkerrrree 58

Hình 5.1: Quy trình hoạt động của Ứng dung ececsceseesseeseeetseseeeseesseesseeseesseens 62

Hình 5.2: Giao diện màn hình chính và màn hình chọn ảnh từ thư viện 65

Hình 5.3: Giao diện ứng dụng sau khi đã chụp hoặc chọn anh từ hệ thống 66Hình 5.4: Giao diện ứng dụng hiển thị câu mô tả - - - 2x k+E£tzEeEeEezkrrereres 67

Hình 5.5: Giao diện người dùng phản hồi nhập mô tả mới phù hợp hơn cho anh 68

Hình 5.6: Giao diện ứng dụng cảm ơn sự đóng góp của người dùng 69

Trang 6

DANH MỤC BANG

Bang 4.1: Kết quả mô hình TransfOrmer- - 2 2 s2 s2 £2££+E£+E££Ee£xzrxzrszsez 50Bang 4.2: Kết quả mô hình dùng VinVIL - ¿2-2 s+SE+EE+E£+E+E£Eerkerxerxersree 51Bang 4.3: Kết quả thực nghiệm mô hình khi dùng biện pháp tăng cường dit liệu 53Bảng 4.4: Kết quả mô hình học liên tục đánh giá trên UIT-ViIC -.- 55Bang 4.5: Két quả mô hình hoc liên tục đánh giá trên bộ kiểm tra - 56

Trang 7

DANH MỤC TỪ VIET TAT

STT Tên thuật

API BLEU

CIDEr CNN JSON

LSTM

M2 ORT

ResNet RNN

ROUGE

SOTA URL

VGG

Artificial Intelligence

Application Programming Interface Bilingual Evaluation Understudy Score Cooperative Intrusion Detection Evaluation and Response Convolutional Neural Network

JavaScript Object Notation Long Short-Term Memor Meshed Memory Transformer Object Relation Transformer Residual Neural Network

Recurrent Neural Network Recall-Oriented Understudy for Gisting Evaluation State Of the Art

Uniform Resource Locator Visual Geometry Group

Trang 8

TÓM TẮT KHÓA LUẬN

Mô tả hình ảnh tự động là một bài toán có độ phức tạp cao và muốn giải được vấn đề

này ta cần đương đầu với nhiều thách thức, chỉ tiết hơn bài toán này đòi hỏi máy tính

phải nhận biết được các chủ thé, môi trường, hành động chủ thé, mối tương quan giữachủ thé và môi trường dé có thé tạo ra được câu mô tả phù hợp cho bức ảnh Day là

vấn đề yêu cầu kết hợp sự hiểu biết và các nghiên cứu từ cả hai lĩnh vực khó là thị

giác máy tính để xử lý, trích xuất những đặc trưng từ ảnh và xử lý ngôn ngữ tự nhiên

để tạo sinh những câu mô tả cho ảnh Tuy là một bài toán chứa đựng rất nhiều thách

thức và khó khăn nhưng vì tiềm năng ứng dụng thực tiễn lớn nên bài toán mô tả hìnhảnh tự động trong suốt thời gian dai nó đã tao sự chú ý với giới khoa học toàn cau.Nhưng ở Việt Nam, tại thời điểm chúng tôi nghiên cứu về bài toán thì chỉ có hai bộ

dữ liệu lớn và uy tín phục vụ cho bài toán ở tiếng Việt là UIT-ViIC phục vụ cho thể

thao và VieCAP4H phục vụ cho y tế Qua đây có thê thấy sự thiếu sót lớn trong đữliệu về mặt số lượng cũng như độ phủ về các lĩnh vực, điều này chính là bước cản lớntrong việc nghiên cứu bài toán và đưa nó vào giải quyết các vướng mắc ở nhiều lĩnh

vực chưa được tháo gỡ ở Việt Nam.

Với ý định tìm ra lời giải bài toán và góp phần sớm đưa bài toán vào ứng dụng thực

tế chúng tôi đã bắt tay vào tìm hiéu và đưa ra đề xuất về phương án áp dụng côngnghệ dir liệu lớn cùng với các phương pháp thu thập, xử lý và tăng cường dữ liệu dé

xây dựng nên được bộ dữ liệu thích hợp với việc đảo tạo mô hình mô tả hình ảnh.

Song song với đó thì khoá luận này chúng tôi còn tìm hiểu, cài đặt và tiễn hành thựcnghiệm sau đó tinh chỉnh các mô hình sau đó thiếp lập mô hình cho phép nó có thé

học liên tục trên dữ liệu của chúng tôi Nhóm đã thành công xây dựng được một mô

hình có khả năng mô tả ảnh tốt và câu mô tả luôn bắt kịp những biến đổi diễn ra ởđời sống xã hội Mô hình này sẽ là yếu tố nòng cốt cho chúng tôi hiện thực hoá đềxuất xây dựng hệ thong mô tả ảnh theo thời gian thực cho ứng dụng dit liệu lớn

Trang 9

Đề xuất mà chúng tôi đưa ra, không chỉ có ý nghĩa và đóng góp có lĩnh vực khoa học

thông qua phương pháp ứng dụng công nghệ dữ liệu lớn cùng với kha năng thu thập,

xử lý và tăng cường đữ liệu vào đề cải thiện độ chính xác của mô hình Phương pháp

này cho phép hệ thong cua chúng tôi tự động thu thập và cập nhật dir liệu, từ đó lamphong phú hơn nguồn dữ liệu cho bài toán Hơn nữa việc áp dụng các phương pháphọc liên tục lên các mô hình học sâu cũng cho thay các mô hình này không chỉ có khảnăng lưu trữ tốt các thông tin đã được học mà còn có thé học liên tục và ghi nhớ thêm

được các thông tin mới từ dữ liệu mới khi thực hiện huấn luyện mô hình liên tục

Nhóm chúng tôi đã thành công trong việc xây dựng hệ thống mô tả ảnh theo thời gian

thực có hiệu suất tốt sẵn sàng đưa vào hoạt động dé đáp ứng những nhu cầu của xã

hội Day là minh chứng rõ ràng cho tính ứng dụng thực tế đáng ké của khoá luận của

chúng tôi.

Trang 10

MỞ ĐẦUĐặt vấn đề

Trong thời đại của cuộc cách mạng công nghiệp 4.0 đầy sự bùng nổ, chúng ta đã trở

thành những công dân của kỷ nguyên số Đây là thời đại mà công nghệ và dữ liệuđược tận dụng một cách tối đa đề mang lại sự tiện ích và tiện nghi cho cuộc sông củamoi người Theo thống kê của trang Statista [1], mỗi ngày có trung bình 328.77 Terra

Byte dữ liệu được sinh ra từ người dùng thông qua các hoạt động trên, một con số

không lồ nhưng vẫn chưa có dấu hiệu dừng lại mà vẫn đang tiếp tục tăng lên theo

từng ngày Lượng dt liệu ma được sinh ra từ những năm 2020 tính tới hiện giờ đã

chiếm tới 90% tổng dung tích dữ liệu hiện đang tồn tại Dữ liệu được lưu trữ ở rấtnhiều hình thức khác nhau: số liệu, hình ảnh, âm thanh, văn bản Nhưng nôi bật hơn

cả chính là đữ liệu hình ảnh, dạng đữ liệu này chiếm tỷ lệ rất lớn giữa các hình thức

lưu trữ dữ liệu và nó chứa đựng lượng lớn thông tin có giá trị đang chờ được khai

thác dé hỗ trợ đời sống, sinh hoạt thường ngày của chúng ta và là đòn đây cho sự phát

triên cho nhiêu lĩnh vực trong xã hội.

Nhận thức được tiềm năng lớn từ việc khai phá dữ liệu hình ảnh nên giới khoa học từ

lâu đã tập trung nghiên cứu và phát triển các bài toán xoay quanh nó Trong số những

bài toán được đặt ra thì nổi bật hơn cả là bài toán mô tả hình anh tự động, bởi tínhứng dụng cao của nó vào đời sống Tuy vậy cho tới nay việc phát triển bài toán nàytrên tiếng Việt còn nhiều trở ngại, trong đó sự khan hiếm về nguồn dữ liệu tiếng Việtchính là một trong những nguyên nhân chính khiến bài toán vẫn còn đang được bỏngỏ Các bộ dữ liệu dành cho mô tả ảnh băng tiếng Việt hiện nay chỉ có một vài bộnhư bộ UTT-VIC, VieCap4H Ngoài sự thiếu hụt về số lượng còn thiếu hụt về sự đa

dạng lĩnh lực, nguồn dit liệu dùng dé huấn luyện các mô hình mô tả ảnh bằng tiếng

việt hiện nay thường là về lĩnh vực cụ thê như là lĩnh vực thê thao (UIT-ViIC), lĩnh

vực sức khoẻ (VieCap4H).

Trang 11

Bài toán mô tả ảnh tự động là một vấn đề phức tạp yêu cầu sự hiểu biết rõ về những

mô hình máy học dé kết hợp xử lý hai lĩnh vực lớn bao gồm: Lĩnh vực thị giác máy

tính phụ trách việc phân tích, tìm ra những đặc trưng hình ảnh và lĩnh vực xử lý ngôn

ngữ tự nhiên đảm nhiệm chức năng tạo sinh câu mô tả từ đặc trưng của ảnh được tìm

ra Mô hình mô tả ảnh sẽ là mô hình kết hợp mô hình của hai lĩnh vực trên dé tạo racâu mô tả chính xác và tự nhiên nhất cho tắm ảnh Nhưng cả hai lĩnh vực đều tồn tạinhiều khó khăn và thách thức chưa có lời giải hoàn toàn Do đó, việc tạo nên mô hình

mô tả ảnh là một công việc không hề dễ dàng yêu cầu cần có nhiều kiến thức, kỹ

năng Ngoài ra nếu chỉ được huấn luyện dựa trên bộ dữ liệu cố định thì mô hình sẽ

không có thể đưa ra các câu mô tả nằm ngoài miền dữ liệu làm hạn chế độ phủ vào

thực tế của bài toán Điều này cũng chính là một trong những là trở ngại lớn cho bàitoán mô tả ảnh bằng tiếng Việt

Nhung trong bối cảnh hiện tai dữ hiện đang đóng vai trò trung tâm của các công nghệmới đang bùng nô, tiêu biểu chính là sự phát triển vượt bậc của công nghệ dữ liệulớn Chúng tôi tin đây chính là chìa khoá dé trả lời cho hai trở ngại mà bài toán dang

gặp phải Việc giải được bài toán và tạo ra cau mô tả phù hợp cho hình ảnh không chỉ

cung cấp khả năng nắm bắt được nhiều thông tin về nội dung của hình ảnh mà còn

cho thấy khả năng giải quyết nhiều vấn đề cho những bài toán thực tiễn, từ lĩnh vực

đời sông như hỗ trợ người khiếm thị cho tới xã hội như làm hệ khuyến nghị trong y

tế giúp bác sĩ đưa ra quyết định chính xác hơn hay giúp quản lý giám sát trong lĩnh

vực an ninh,

Nhìn thấy được tầm quan trọng và ý của mà bài toán mang lại, hiểu được những khó

khăn hạn chế mà bài toán đang mắc phải nên ở khoá luận này chúng tôi đã thực hiện

đề tài “Xây dựng hệ thống mô tả ảnh theo thời gian thực cho ứng dụng đữ liệu lớn”.Khoá luận của chúng tôi sẽ cung cấp giải pháp hoàn chỉnh cho vấn đề thiếu dữ liệucho bài toán mô tả ảnh ở tiếng Việt, đồng thời mô hình của chúng tôi đã được tối ưu

dé xử lý một lượng dữ liệu lớn chảy vào hệ thống, tương thích với bối cảnh xã hội

Trang 12

công nghệ số đang bùng no Đồng thời, nó vẫn đảm bảo kha năng sinh ra câu mô tả

chính xác và linh hoạt học được những đữ liệu mới từ đa lĩnh vực, và thích ứng theo

sự chuyên biên do phát sinh trong những sự vật, sự việc, hoạt động mới của con người theo thời gian.

Mục tiêu khoá luận

Ở đề tài này, chúng tôi nghiên cứu cách thức dé xây dựng một hệ thống có khả năng

phục vụ cho mục đích đưa ra mô tả ảnh tự động theo thời gian thực Cụ thể từng mục

tiêu được hướng tới như sau:

Xây dựng bộ dữ liệu mới có tên OpenDomainVIIC (Open Domain for

Vietnamese Image Captioning), bộ dữ liệu mô ta ảnh nhiều lĩnh vực dành riêng

cho tiếng Việt bao gồm các hình ảnh và câu mô tả ở đa dạng các lĩnh vực.Điểm đặc biệt của bộ dữ liệu này là được cập nhật dữ liệu liên tục làm tăng sự

đa dạng lĩnh vực và không giới hạn số điêm dữ liệu thông qua công nghệ dữ

liệu lớn Đây là điều kiện tiên quyết dé mô hình có khả năng học và mô tả ảnh

ở đa lĩnh vực và không bị giới hạn Bộ dữ liệu này được chúng tôi được kỳ

vọng huấn luyện ra những mô hình mang hiệu suất cao hơn trước nhờ áp dụngthêm kỹ thuật để xử lý và tăng cường dữ liệu

Thực nghiệm đa dạng mô hình và các phương pháp trích xuất đặc trưng đã

được công nhận và đánh gia là phù hợp cho bài toán mô tả hình ảnh trên các

mô hình học sâu, học chuyền tiếp Tiếp theo đưa ra những điều chỉnh và chọnloc mô hình cũng như phương pháp dé cho ra được mô hình cho hiệu suất mô

tả hình anh tốt nhất Ngoài ra còn hướng tới mục đích phát triển mô hình đảmbảo mô hình có khả năng học tập liên tục từ nguồn dữ liệu mới mà không cầnphải huấn luyện mô hình lại như lúc bắt đầu

Nhằm đạt được hai mục tiêu nêu trên, chúng tôi sẽ tiễn hành tìm hiểu về cáchhoạt động và triển khai các công nghệ dữ liệu lớn và dịch vụ cần thiết Qua đó,chúng tôi sẽ áp dụng những kiến thức này để tạo ra hệ thống của chúng tôi

Trang 13

e Xây dựng một ứng dụng di động hoàn chỉnh cùng với các dich vụ đám mây dé

mô phỏng lại hệ thống mô tả ảnh theo thời gian thực cho ứng dụng dữ liệu lớn

Thông qua việc này chứng minh được tính ứng dụng của hệ thống mà chúng

tôi xây dựng.

Đôi tượng và phạm vỉ nghiên cứu

> Đối tượng nghiên cứu:

Trọng tâm nghiên cứu của khoá luận của chúng tôi là áp dụng các kỹ thuật học

sâu dé tạo sinh câu mô tả cho hình anh Ap dụng công nghệ dir liệu lớn chính

là mục tiêu chúng tôi hướng tới để giải quyết bài toán ngoài ra chúng tôi sử

dụng thêm các dịch vụ điện toán đám mây như Apache Kafka, Google Cloud

Flatform đề tiễn hành phát triển một hệ thống có khả năng mô tả ảnh theo thời

gian thực và đảm bảo xử lý được khi phát sinh một lượng lớn dữ liệu đồ về hệ

thống

> Pham vi nghiên cứu:

Trong khoá luận này phạm vi của nhóm chúng tôi gói gon trong tìm hiéu, ứngdụng, điều chỉnh và đánh giá các mô hình học sâu phục vụ mục đích bài toán,ngoài ra nhóm còn tạo nên bộ dữ liệu phục vụ cho bài toán ở trên tiếng Việtthông qua quá trình thu thập và xử lý dữ liệu đang tồn tại trên Internet Nhómchúng tôi sẽ triển khai các phương pháp thu thập dữ liệu, sau đó sẽ tiến hành

xử lý và tăng cường nó dé mô hình có thé học với độ chính xác cao cùng với

sử dụng mô hình học sâu đề đánh giá được độ hiệu suất của mô hình và phương

pháp thực nghiệm từ đó cho ra đời một mô hình phục vụ cho mục đích tạo ra

mô tả chính xác về cả ngữ nghĩa và nội dung bức ảnh Hơn nữa nhằm tăngcường hiệu suất hệ thong thì nhóm chúng tôi tiến hành tinh chỉnh mô hình chophép nó có khả năng học liên tục mà không cần huấn luyện lại

Nghiên cứu của chúng tôi tập trung vào xây dựng và triên khai hệ thống trên

nền tảng điện toán đám mây (Cloud computing) nhằm cải thiện quản lý tài

Trang 14

nguyên, hiệu suất, hạ tầng và đữ liệu, tối ưu hoá hiệu suất hệ thống Hơn nữa,

hệ thống triển khai cũng cung cấp các giao diện lập trình ứng dụng (API) cho

các ứng dụng khác, tăng tính ứng dụng cho khoá luận.

Ket quả nghiên cứu

Khoá luận của chúng tôi đang đi đầu trong giải quyết bài toán mô tả ảnh tự động đalĩnh vực bằng tiếng Việt Trong bối cảnh giới học thuật đang rất thiếu nguồn dữ liệu

dé phục vụ cho bài toán mô tả ảnh bằng tiếng Việt thì chúng tôi đã thành công trong

việc kết hợp công nghệ xử lý dit liệu lớn dé xây dựng một bộ dữ liệu mới, nhăm hỗtrợ việc tạo sinh mô tả ảnh băng tiếng Việt Hơn thế nhóm chúng tôi còn dùng bộ dữliệu vừa tạo được đề thực nghiệm và tìm ra cách điều chỉnh phù hợp các mô hình học

sâu Dựa trên cơ sở đó, chúng tôi đã thực hiện các tinh chỉnh và lựa chọn mô hình

phù hợp nhằm tối đa hóa hiệu suất trong việc tạo sinh câu mô tả cho ảnh Cuối cùngnhóm chúng tôi thành công tạo ra ứng dựng mô tả ảnh trực tiếp giúp người dùng sửdụng thành quả của nhóm để phục vụ bản thân Thành quả mà chúng tôi đạt đượctrong đề tài này không chỉ là kết quả nghiên cứu trên giấy, mà còn có thê ứng dụng

vào thực tế dé phục vụ đời sống con người Công trình này đóng góp một tư liệu quan

trọng cho các nghiên cứu sau này, làm nên tảng đê kê thừa và phát triên đê tài.

Câu trúc khoá luận

Khoá luận của chúng tôi bao gôm sáu chương với các nội dung chính như sau:

> Chương 1: Tổng quan khoá luận

Trong chương nay, chúng tôi sẽ nói về tổng quan bài toán mô tả ảnh theo thờigian thực và nêu rõ ý nghĩa cũng như tính ứng dụng của đề tài trong đời sốngthực tế

Trang 15

> Chương 2: Các công trình nghiên cứu liên quan

Các công trình nghiên cứu có liên quan tới bài toán mô tả ảnh theo thời gian

thực sẽ được giới thiệu ở chương này Đây là cơ sở học thuật tìm hiểu và pháttriển bài toán Cùng với với đó là các công trình về việc kiểm soát dòng dữ

liệu (Data Streaming).

> Chương 3: Các phương pháp đề xuất

Trong chương này sẽ nói tới những phương pháp được đề xuất dé thực nghiệm,

bắt đầu với giới thiệu phương pháp streaming dữ liệu với nhiều bước dé phù

hợp với đề tài: Dữ liệu đầu tiên sẽ được thu thập, tiếp đến sẽ trải qua bước xử

lý, rồi thực hiền tăng cường để tạo ra bộ dữ liệu phù hợp nhất cho VIỆC huấn

luyện Sau đó là làm rõ phương pháp đề xuất dùng để mô tả ảnh tự động thông

qua các mô hình học sâu.

> Chương 4: Thực nghiệm và đánh giá kết quả

Thực nghiệm những đề xuất ở Chương 3 Đầu tiên chúng tôi trién khai phương

pháp streaming dữ liệu dé tạo bộ dữ liệu đáp ứng cho bài toán Sau đó chúngtôi trién khai các mô hình trích suất đặc trưng như VinVL, lay những đặc trưngnày làm nguyên luyện đầu vào cho những mô hình học sâu phức tạp dùng dé

tạo câu mô tả ảnh như Meshed Memory Transformer, Object Relation

Transformer Các mô hình này được liên tục huấn luyện dựa trên dữ liệu mới

được cập nhật thường xuyên vào hệ thống

> Chương 5: Xây dựng ứng dụng hỗ trợ mô tả ảnh tự động theo thời gian

thực

Chúng tôi sẽ trình bày về quy trình triển khai và công nghệ được sử dụng đểtạo ra ứng dụng điện thoại cung cấp công cụ hỗ trợ tạo câu mô tả cho hình ảnh

> Chương 6: Kết luận và hướng phát triển

Chúng tôi đánh giá lại và đưa ra những thành tựu sau khi thực hiện khoá luận,

cũng như chỉ ra những điều còn hạn chế và đề xuất hướng có thể giúp phát

triên khoá luận sau này.

Trang 16

Chương 1 Tổng quan khóa luận

1.1 Giới thiệu khoá luận

Đề tài của chúng tôi nghiên cứu năm trong thời đại của kỹ thuật số, nơi mà dữ liệuđóng vai trò nòng cốt trong hầu hết mọi mặt đời sống, từ kinh doanh tới an ninh và

cả ngành có tính chất đặc thù giáo dục Dữ liệu được sinh ra liên tục, theo thống kê

của trang Statista [1], mỗi ngày có trung bình 328.77 Terra Byte dữ liệu được tạo ra.

Dữ liệu được tạo ra là rất phong phú và dưới đa dạng hình thức khác nhau, bao gồmvăn bản, hình ảnh, video, âm thanh và nhiều hơn nữa Nhưng nỗi bật lên chính là ditliệu đưới dang hình anh, dạng dữ liệu này chiếm tỷ trọng không hề nhỏ trong tổnglượng dit liệu đã từng được sinh ra Lý do cho chuyện đó xuất phat từ sự phát triểnnhư vũ bão của công nghệ hình ảnh số, từ smartphone, máy ảnh kỹ thuật số, cho tớidrone và các loại cảm biến hình ảnh khác Dữ liệu hình ảnh là một trong những dạng

dữ liệu giàu thông tin và có tiềm năng khai thác đáng kê Điều này sẽ thật sự đángtiếc là nếu chúng ta không tận dụng và khai thác dữ liệu này một cách triệt để, nó sẽ

trở thành một sự lãng phí không dang có.

Mô tả hình ảnh tự động là bài toán không mới nó đã thu hút được sự quan tâm từ rất

lâu tước đây Tuy nhiên việc tiếp cận bài toán còn nhiều khó khăn, trong đó sự thiếu

hụt về nguồn đữ liệu chính là nguyên nhân chính Đặc biệt là sự thiếu hụt nguồn dirliệu tiếng Việt Nhưng trong bối cảnh hiện nay cùng với nhiều công nghệ đủ sức làmthay đôi cách thé giới vận hành như công nghệ dữ liệu lớn, trí tuệ nhân tao, Internetvạn vật, Chính điều này trở thành chìa khoá để vượt qua những khó khăn của bàitoán Do đó nhóm chúng tôi chọn chọn cách sử dụng công nghệ đữ liệu lớn, cụ thé là

Kafka, một công nghệ dòng dit liệu (Data Streaming) phô biến, dé thu thập dữ liệu

hình ảnh và văn bản thông qua các kênh khác nhau một cách liên tục theo thời gian

thực Việc này không chỉ mang lại cho mô hình nguồn dé liệu đa lĩnh vực, mà cònkhiến mô hình học liên tục và cập nhật kiến thức của mình theo thời gian, từ đó tăng

cường chât lượng của câu mô tả.

Trang 17

Bài toán chúng tôi đang giải có thể hiểu đơn giản như sau: Khi nhận được hình anh

chúng tôi sẽ tiễn hành tạo ra một câu mô tả tương ứng Cụ thé hơn:

° Đầu vào: Một hình ảnh ngẫu nhiên có thé thu thập từ bat kỳ đâu

° Đầu ra: Câu mô tả diễn giải hình ảnh tương ứng

Người thổ dân dùng cỏ

Hệ thông mô tả ảnh khô tạo lửa

Hình 1.1: Một ví dụ cho việc tao sinh câu mô tả

Đề tài khoá luận này không chỉ đóng góp cho khoa học, mà còn mở ra con đường chonhững ứng dụng thực tế mới của công nghệ này Đây chính là lý do chúng tôi thựchiện khoá luận với niềm tin rằng khả năng của máy móc trong việc hiểu và mô tả hìnhảnh sẽ tiếp tục được cải tiến, trở thành một công cụ đắc lực hỗ trợ giải quyết nhiều

những khó khăn còn tồn đọng trong xã hội hiện đại giúp cải thiện cuộc sống.

1.2 Tính ứng dụng của khoá luận

Như đã đề cập ở phần giới thiệu khoá luận, trong thế giới ngày càng hiện đại hóa và

số hoá, nhu cầu của xã hội đối với việc xử lý thông tin tự động và nhanh chóng ngày

cảng tăng Đặc biệt, với sự bùng nô của đữ liệu hình ảnh, việc khai thác thông tin từhình ảnh trở thành một yêu cầu không thê thiếu trong mọi lĩnh vực Điều này đặt ranhu cau cho việc phát triển một hệ thống có thé mô tả ảnh tự động theo thời gian thực

ở nhiều lĩnh vực khác nhau là vô cũng cấp thiết Trong bối cảnh cấp thiết đó, giải

10

Trang 18

pháp của chúng tôi đề xuất có tiềm năng ứng dụng rất lớn trong nhiều lĩnh vực đờisông từ đó làm đòn bây cho sự phát triển kinh tế, xã hội ở Việt Nam.

Sau quá trình nghiên cứu các mô hình, kết quả nghiên cứu của chúng tôi đã cho phép

mô tả các hình ảnh ở nhiều lĩnh vực khác nhau với sự đầy đủ về ngữ cảnh và ngữnghĩa Từ đó có thể làm cơ sở để ứng dụng vào việc hỗ trợ đời sống của những người

có khiếm khuyết về thị giác, khó khăn trong vấn đề diễn tả ngôn ngữ Không chỉ dừng

lại ở hỗ trợ đời sống thường ngày mà nó còn có khả năng ứng dụng ngay cả trongpháp triển kinh tế, y tế, an ninh, bằng cách mô tả các dữ liệu ảnh đầu vào cần thiếtlàm cơ sở giúp người quản trị có thé quản trị và đưa ra các quyết định nhanh chóng

và hiệu quả.

Với những ứng dụng thực tiễn này, chúng ta có thê thấy việc phát triển một hệ thống

mô tả ảnh đa lĩnh vực tự động theo thời gian thực không chỉ đáp ứng nhu cầu của xã

hội mà còn đóng góp vào việc cải thiện chât lượng cuộc sông một cách mạnh mẽ.

11

Trang 19

Chương 2 Các công trình nghiên cứu liên quan

2.1 Lĩnh vực mô tả ảnh tự động

Với sự đột phá trong kiến trúc mô hình học sâu, điều này đã nền móng cho áp dụng

trí tuệ nhân tạo vào cải thiện chất lượng đời song và dich vụ Không ngoại lệ, bai toán

mô tả ảnh tự động trở thành một thách thức mới lạ và thu hút được phần đông giới

khoa học Từ những bài toán sơ khai, mô tả ảnh tự động đơn giản chỉ sử dụng các mô

hình nhận diện vật thé dé đưa ra các chú thích don giản với tên của đối tượng chính

trong ảnh như trong nghiên cứu của [2, 3] Từ lúc đây, với sự ra đời mạnh mẽ của

những bộ dữ liệu có kích thước lớn và chất lượng cao dé huấn luyện và đánh giá bàitoán này như Flickr-8k của tác giả [4] với 8092 ảnh, và kế đến là Flickr-30k của tácgia [5] đã tạo điều kiện lớn cho mô hình học sâu được phát triển phục vụ bài toán mô

tả ảnh tự động Và đáng chú ý hon, Microsoft đã công bé dữ liệu về lĩnh vực này baogồm hơn 123,000 ảnh, từ đó thị trường nghiên cứu cho bài toán đa phần sử dụng MSCoco [6] dé làm dữ liệu benchmark dé xây dựng mô hình của họ Những nghiên cứu

tiêu biểu về các mô hình mô ta ảnh tự động ban đầu dùng các mạng CNN để lấy ra

đặc trưng, và từ những đặc trưng này, các kiến trúc mạng RNN được áp dụng nhưmột mô hình ngôn ngữ đề tạo ra câu mô tả tương ứng Càng về sau, những kiến trúcCNN tiên phong như ResNet [7], VGG [7] ra đời, nhà nghiên cứu bắt đầu sử dụngnhững kiến trúc lớn này dé trích xuất đặc trưng thay vì những lớp mang CNN đơn

giản như trước, cách tiếp cận này đã tối ưu hóa được hiệu suất mô hình nhờ vào

phương pháp học chuyền đổi (Transfer Learning) Các nghiên cứu đặc sắc ở thời kỳ

này có thé kế đến với [8, 9, 10] Thêm vào đó, các nghiên cứu áp dụng kỹ thuật

attention lên các bài toán học sâu ở thời gian đó đã tao sự chú ý lên rất nhiều lĩnh vực

sử dụng các lớp mạng tương tự Dựa trên kết quả đó, Kelvin và các cộng sự [11] đãcải tiến mô hình Show and Tell bằng việc sử dụng thêm kỹ thuật attention kết hợpvới mạng LSTM ở tầng Decoder, tạo ra một mô hình SOTA mới đó là Show attendand tell [12] Bắt đầu từ năm 2017, những nhà nghiên cứu bắt đầu nhận ra nhữngđiểm chưa tối ưu từ những phương pháp trích xuất đặc trưng từ ảnh dùng các kiến

12

Trang 20

trúc CNN, những phát triển sử dụng các mô hình nhận diện vật thé dé trích xuất đặctrưng lại mang lại hiệu quả cao cho bài toán mô tả hình ảnh có thể kế đến như [13,

14, 15].

Bên cạnh những nghiên cứu đột phát về phần Encoder của mô hình, những phát triển

của mô hình ngôn ngữ trong bai toán mô tả ảnh tự động cũng được nghiên cứu rộng

rãi, những mô hình sử dụng kiến trúc RNN-based như LSTM hay GRU từ nhữngnghiên cứu [16, 17] Hay có thể kế đến mức đột phá từ phát minh kiến trúcTransformer, nhờ vào kiến trúc này đã cải tiễn các tác vụ xử lý ngôn ngữ bằng cáchgiới thiệu cơ chế tự chú ý (self-attention) dé năm bắt các mỗi quan hệ theo ngữ cảnh,cho phép song song hóa hiệu qua dé xử lý nhanh hơn và tạo điều kiện học tập chuyêngiao thông qua huấn luyện trên các bộ dữ liệu quy mô lớn, dẫn đến tiến bộ đáng kê

trong năm được nội dung ảnh và tạo sinh ra câu mô tả gân với ngôn ngữ tự nhiên.

2.2 Lĩnh vực xử lý dòng dữ liệu và học liên tục

Hiện nay các công trình khai thác nguồn đữ liệu lớn đang rất được quan tâm và đầu

tư phát triển Bởi vi tính ứng dụng cao cho các hệ thống cần xử với các luồng dit liệulớn đến trong thời gian thực Về mặt lợi ích, nếu chúng ta có thể tạo một hệ thống

chứa đữ liệu đồ về theo thời gian thực và huấn luyện mô hình liên tục dựa trên dữ

liệu mới thì mô hình có độ chính xác cao sẽ được sinh ra cùng với sự linh hoạt đáp

ứng cho đa dang bài toán phục vụ đời sống Vậy nên, các nhà nghiên cứu từ lâu đãtinh chỉnh và thực nghiệm cho phép các mô hình học liên tục dựa trên các nguồn dữliệu trên trực tuyến Ví dụ sơ khai về các thuật toán học trực tuyến, chăng hạn nhưSVM có cấu trúc trực tuyến [18] và trực tuyến thụ động tích cực [19] (Online Passive-Aggressive), đã trở thành công cụ xử lý đữ liệu truyền trực tuyến Các thuật toán naycho phép ứng dụng trong bối cảnh truyền phát chú thích hình anh dé cập nhật môhình dần dần khi nhận được hình ảnh mới Dựa vào đó, những công nghệ hỗ trợ vậnhành các hệ thống streaming dữ liệu đã ra đời với nhiều bước cải tiến đột phá hơn

trên các mô hình học sâu như Apache Kafka [20] va Apache Flink [21] Và các kỹ

13

Trang 21

thuật học trực tuyến giúp cập nhật dần các mô hình sâu khi truyền dữ liệu đến, cho

phép học theo thời gian thực cũng được đề xuất rộng rãi từ [22, 23]

Qua nghiên cứu, một vấn đề tiềm tàng đã được chỉ ra trong các phương pháp học trực

tuyến với dữ liệu cập nhật đề huấn luyện theo thời gian thực Đó là khả năng của các

mô hình quên đi những đặc trưng đã học khi được nó được học đữ liệu mới Do đó

đã có rất nhiều giải pháp được đưa ra nhằm tăng cường khả năng học của các mô hình

học trực tuyến Vi dụ, Neural Turing Machines (NTMs) và Differentiable Neural

Computers (DNCs) đã được phat trién dé két hop kiến trúc học sâu với cấu trúc bộ

nhớ ngoài, được phát triển bởi [24, 25] Những công trình này là nền móng để xâydựng mô hình trong hệ thống có thể thích ứng với đữ liệu cập nhật trực tuyến mới

trong khi tránh được tình trạng quên đi các đặc trưng đã từng học.

14

Trang 22

Chương 3 Các phương pháp đề xuất

3.1 Tổng quan phương pháp đề xuất

Phần này sẽ trình bày phương pháp tiếp cận độc đáo và hiệu quả mà chúng tôi đề xuất

để giải quyết thách thức của bài toán mô tả hình ảnh tự động và mang lại hiệu suấttốt Việc áp dụng, điều chỉnh các mô hình học sâu có độ phức tạp cao sẽ giúp mô hìnhđưa ra các câu mô tả chính xác và có ngữ nghĩa tốt Tuy vậy, nhận thấy rằng nhữngphương pháp và mô hình trên chưa thực sự đáp ứng toàn diện các yêu cầu của bài

toán là mô tả ảnh trên nhiều lĩnh vực trong khi lượng nguồn dữ liệu ở tiếng Việt đangcòn rất hạn chế Bắt đầu từ khó khăn này nhóm chúng tôi đã chọn ứng dụng công

nghệ dữ liệu lớn phục vụ cho việc thu thập giúp tăng cường sự đa dạng cho dữ liệu

từ đó cho phép mô hình học và đưa ra câu mô tả cho hình ảnh ở đa lĩnh vực.

Áp dụng chiến lược phối hợp sử dụng các công nghệ mới, chúng tôi sẽ sử dụng nhữngthế mạnh của các mô hình học sâu có độ phức tạp cao như Object Relation

Transformer, Meshed-Memory Transformer, Cùng với việc xử lý dữ liệu lớn và

chúng tôi thiết lập cho phép mô hình học liên tục từ những hình anh mới từ đó chophép xây dựng mô hình tạo sinh câu mô tả chính xác nhất cho hình ảnh

15

Trang 23

THU THẬP XỬ LÝ DỮ LIỆU WIKI

Tăng cường Thu thập, xử lý dữ

Hình 3.1: Sơ đồ tổng quan cách hệ thống vận hành

3.2 Phương pháp Streaming dữ liệu

Như ở Hình 3.1, ta có thé ở quá trình thu thập và xử lý dữ liệu Wiki thì giai đoạnstreaming dit liệu bắt đầu với dir liệu được thu thập, xử lý và tăng cường Đầu vàocủa dit liệu là Producer, nó sẽ giao tiếp với consumer băng topic ở Kafka broker rồilưu lại vào cơ sở dữ liệu đưới dang JSON bao gồm url va caption tương ứng cho ảnhnhư ở Hình 3.2 Mục dich của này là dé quản lý hiệu quả một lượng lớn dữ liệu đô về

16

Trang 24

cùng một lúc, từ đó phục vụ cho khả năng mở rộng và phát triển bài toán trong tương

lai.

Ngoài ra dé phục vu bài toán thì chúng tôi còn dùng 2 bộ dit liệu dé phục vụ bài toán

cho huân luyện và kiêm thử bài toán.

năm 2017 của bộ dữ liệu Microsoft COCO Tương tự như Microsoft COCO,

nó cung cấp năm phụ đề tiếng Việt cho mỗi hình ảnh, tổng cộng là 19.250 phụ

đề Đặc biệt, các mô tả hình ảnh này được tạo thủ công, với tham chiếu từ các

mô tả gốc các hình ảnh tương ứng trên MSCOCO

e Bộ dữ liệu kiểm thử: Bộ dữ liệu chứa 769 hình ảnh va câu mô tả tương ứng

Bộ dữ liệu được xây dựng thủ công thông qua những hình ảnh thu thập và

chọn lọc ngẫu nhiên từ Wikipedia Với nhãn là những câu mô tả được gán

nhan thủ công bằng công cụ nhóm tự phát trién

Hai bộ dữ liệu này cũng trải qua quy trình lưu trữ như dữ liệu được thu thập từ

Wikipedia để phục vụ bài toán

3.2.1 Phương pháp thu thập và xử lý dữ liệu

Trong quá trình thu thập dữ liệu, chúng tôi đã có nhiều nguồn đề thu thập ảnh và câu

mô tả, bao gồm các trang báo, mạng xã hội, thư viện học thuật và nhiều nguồn khác

Tuy nhiên, chúng tôi đã quyết định chỉ sử dụng nguồn dữ liệu từ Wikipedia vì các lý

do sau:

e Một trong những nguồn dữ liệu dồi dào, da dang và dễ tiếp cận chính là mạng

xã hội Nhưng ở trên nền tảng này các câu mô tả ảnh thường không mô tả nội

dung ảnh mà câu mô tả này thường là suy nghĩ cảm xúc của họ Chính vì vậy

nó không phù hợp va không có giá tri cho bài toán.

17

Trang 25

e Các trang báo cũng là nguồn dữ liệu rất lớn và tiềm năng Nhưng sau khi tìm

hiểu thì chúng tôi nhận ra ở các trang này các câu mô tả tập trung vào miêu tảmột người một sự việc một địa danh cụ thể và câu mô tả cũng chứa đựng quánhiều cảm xúc ảnh hưởng bởi bối cảnh bài báo Chính vì vậy nguồn dữ liệu

này cũng không phù hợp.

e Wikipedia có da dạng lĩnh vực trong đời sống đặc biệt nó tồn tại các hình ảnh

và câu mô tả thích hợp cho bài toán, các câu mô tả không lang mang mà miêu

tả trực tiếp chủ thé trong ảnh và sự kiện đang diễn ra Đây là nguồn dữ liệu lý

tưởng dé phát triển bài toán

Nhìn Hình 3.2 ta có thé thay tổng quan về quy trình streaming dữ liệu dé có được

nguồn dữ liệu chất lượng

đc Return Page = ,

oC 15 re Beautifulfoup

Saxe" Get Request

WIKIPEDIA

GIAI DOAN XỬ LY DỮ LIEU

Tang cường dữ liệu Hình ảnh Mô tả

Trang 26

Quy trình có thể miêu tả qua các bước chính: Chúng tôi xây dựng một mã nguồn thu

thập dữ liệu từ Wikipedia, tiếp theo tiến hành xử lý dit liệu Tiếp đến dữ liệu trải quacông đoạn streaming rồi được lưu trữ vào kho dữ liệu để làm đầu vào cho mô hình

Quy trình trên cho phép mô hình học liên tục từ dữ liệu mới Chúng tôi tinh chỉnh

cho mô hình sẽ tiếp tục học mỗi khi có điểm dữ liệu mới được gửi về

3.2.1.1 Phương pháp thu thập dữ liệu

Chúng tôi đã áp dụng ngôn ngữ lập trình Python và thư viện BeautifulSoup trong việc

thu thập thông tin từ trang Wikipedia - một quá trình và phương pháp sẽ được giới

thiệu trong phan này Sử dụng BeautifulSoup, một thư viện phổ biến của Python,chúng tôi đã có thê phân tích và rút trích thông tin từ các trang web Đồng thời, dé hỗ

trợ việc giao tiếp với trang web thông qua các giao thức HTTP, chúng tôi đã tận dụng

thư viện 'requests' cua Python.

Nhu có thé thay ở Hình 3.2, chúng tôi gửi yêu cầu GET đến Wikipedia thông qua thưviện request cùng với từ khoá đã được chỉ định Từ khoá sẽ đóng vai trò tìm kiếm tất

cả những trang Wikipedia có dính tới từ khoá được chỉ định Việc này giúp cho quá

trình thu thập diễn ra đơn giản và nhanh chóng hơn Sau khi nhận phản hồi từWikipedia, chúng tôi dùng thư viện BeautifulSoup dé phân tích cú pháp HTML củatrang web và tìm các phần tử HTML chứa thông tin url của hình ảnh và mô tả củaảnh tương ứng Cuối cùng, chúng tôi trích xuất các url và mô tả của hình ảnh từ cácphần tử HTML đã tìm được và chuyền sang giai đoạn tiếp theo

3.2.1.2 Phương pháp xử lý dữ liệu

Như được biết, Wikipedia [27] là một website hỗ trợ các tính năng đăng tải và điềuchỉnh nội dung về khái niệm, hay mô tả của những đối tượng trên thế giới, và tổnglượng thông tin không lỗ trên trang web được đóng góp từ nhiều người, dù vậy cáctrang web không hé đưa rat bat kì quy tắc nào về cấu trúc hay nội dung của trên trang

19

Trang 27

web Bởi thế số lượng ảnh và câu mô tả được lấy từ trang web cần phải được làm

sạch và chuyên đổi dé tăng cường khả năng học của các thuật toán mô tả ảnh tự độngtrên dữ liệu được thu thập Với các dữ liệu được lấy từ hệ thống streaming tự động

của chúng tôi trên trang web Wikipedia, việc xây dựng phương pháp xử lý dữ liệu

với mục tiêu vượt qua những vấn đề xảy ra trong việc chú thích hình ảnh, như sựkhông chính xác và không rõ ràng của các chú thích hiện tại Kết quả từ phương phápnày sẽ cải thiện chất lượng và tính hợp lý của các chú thích, giúp hệ thống dòng dữ

liệu hoạt động một cách tối ưu hơn, và các mô hình cũng sẽ được học những câu chúthích mô tả phù hợp hơn về các đối tượng của hình ảnh

Pelé (áo xanh dương), người được mệnh danh là © Albert Camus, nhà văn, triết gia nổi #!

"Trường xuân bách từ do" (Rae ¿1 a ` = £ tiéng, một thời từng là thủ môn bóng

FW) \§ vào thời Tông mỡ eve một trong những ngôi sao bóng đá vĩ đại nhât mọi đá

Trung Quốc chơi môn xúc cúc thời đại.

Hình 3.3: Những câu mô tả không phù hợp

Từ ví dụ trên ảnh, chúng tôi có thể cho thấy rằng các mẫu dữ liệu này không thích

hop dé đưa vào huấn luyện cho các mô hình mô tả ảnh tự động với các dẫn chứngsau Thứ nhất, với câu mô tả (1) thực chất là câu diễn giải khái niệm đặc trưng chobức tranh, thậm chí còn chứa tiếng Trung Quốc sẽ gây nhiễu nặng cho mô hình học

máy Bên cạnh đó, câu mô tả của hình (2) và hình (3) không nhằm mục đích miêu tả

đối tượng hay hành động diễn ra trong bức hình mà đưa ra thông tin của một ngườinổi tiếng trong hình, mô hình học máy hiện tại vẫn chưa thể năm bắt và dự đoánnhững thông tin cụ thể đến chủ thể như thế này Cho nên, kỹ thuật xử lý trên các loại

20

Trang 28

dữ liệu này được chúng tôi thiết kế dựa trên các nguyên tắc cụ thê và lấy cảm hứng

từ [28] Đầu tiên, để phương pháp lọc và chuyên đổi dữ liệu có được kết quả cao và

tối ưu nhất, nhóm chúng tôi tiến hành đưa ra các nguyên tắc nghiêm khắc dé chọn lọc

cho ảnh và câu mô tả Riêng về ảnh, tat cả các bức hình trước khi được lưu vào cơ sở

dữ liệu thông qua hệ thống streaming sẽ phải trải qua bước lọc ảnh để lượt bớt cácảnh không phù hợp hoặc không đủ chất lượng Kỹ thuật này năm giữ vai trò then chốttrong quá trình phát triên một bộ dữ liệu và đảm bảo răng chỉ có những ảnh chất lượng

cao và liên quan có đủ điều kiện cho các bước tiếp theo của hệ thống như đảo tạo mô

hình hay đánh gia dir liệu Bên cạnh đó, các nguyên tắc lọc dựa trên câu mô tả cũng

được áp dụng, để loại bỏ các nội dung không phù hợp hoặc không cần thiết Bước

này có ảnh hưởng then chốt trong quá trình tiền xử lý các chú thích đưới dạng vănbản, giúp tăng cường chất lượng và độ tin cậy của các câu mô tả được khai thác cho

các mục tiêu tiếp theo như phân loại, trích xuất thông tin, hay xây dựng mô hình dự

đoán Bước kế đến của quá trình lọc là bước kết hợp đặc điểm của cả bức hình và câuchú thích dé tiến hành nhận định liệu cặp dữ liệu này có kết nối và thích hợp dé tiễnhành huấn luyện cho mô hình hay không, quá trình này nhằm loại trừ các thông tinkhông phù hợp hoặc không cần thiết từ cả hình ảnh và văn bản mô tả liên quan Cuốicùng, sau khi trải qua các bước lọc với những nguyên tắc khắc khe đối với cả ảnh và

câu mô tả, dữ liệu được đưa vào hệ thông sẽ đảm bảo là những câu mô tả có cấu trúc

và hình ảnh chất lượng cho các mô hình, dù vậy quá trình thay thế các thuật ngữ cụthê (như tên riêng, số, đơn vị) trong văn bản băng các thuật ngữ toàn cục vẫn rất cầnthiết Những tên riêng hay số liệu về ngày tháng năm cần được thay thế và loại bỏ

Ví dụ như câu mô tả thường thấy về chủ đề thể thao như “Messi đang đá quả bóng về

phía khung thành”, sẽ được thay đỗi thành “cầu thủ bóng đá đang đá quả bóng về phía khung thành” Quá trình này giúp tạo ra một biéu diễn văn bản được tinh chỉnh,

sử dụng các thuật ngữ chung hơn, giúp tập trung vào khái niệm toàn cục và giảm sự

chi tiết không cần thiết Điều này cung cấp một cách tiếp cận trừu tượng hơn và chophép các nhiệm vụ xử lí dữ liệu va phân tích tiếp theo trở nên dé dang hơn, như huấn

luyện các mô hình dự đoán.

21

Trang 29

Dữ liệu sau khi

NINH tương quan IEE)

Bee AGNES chuyền đôi

F —— giữa hình ảnh pets

Câu mô tả và nội dung mô Cau mô ta

Iker Casilas bay người ` ip tả ae ios oe

can pha banh khdi | ; , | Loc dữ liệu trên LÊ Hạc Ranh khung thành câu mô tả eae

àn|

il

Hình 3.4: Quy trình xử lý dữ liệu được thu thập từ Wikipedia

a Phương pháp lọc dựa trên ảnh.

Ở mục này, thư viện PIL sẽ được sử dụng cho việc kiểm tra tất cả bức hình được tìmthấy trên Wikipedia có đáp ứng được chất lượng hay không Với các hình với chiềudài và chiều rộng tương ứng không vượt qua mức 300 pixel sẽ được loại trừ Giúp

cho hệ thống chọn lọc ra những tắm hình chat lượng và day đủ thông tin.

b Phương pháp lọc dựa trên câu mô tả.

Ở phần này, chúng tôi sẽ thực nghiệm phương pháp dựa trên thư viện spacy [29] được

cung cấp bởi Python, với mô hình ngôn ngữ đã huấn luyện trước trên dữ liệu tiếng

Việt tên là "vi core news_Ig” [30] dé phân tích cú pháp và tách từ cho các từ trongcâu chú thích Đầu tiên, ứng với mỗi câu mô tả sẽ được tách từ dựa trên bộ tách từ

của mô hình ngôn ngữ đã tải lên thư viện spacy cho việc phân tích các từ trong câu

trở nên dễ dàng hơn.

Vi dụ : ứng với câu “một người đàn ông đang di bộ ra khỏi căn nha” sẽ được tach

thành danh sách các từ như sau [(một, 'M), (ngườï, 'Nc’), (đàn ông', N), (đang,

'R), (dit, 'V), (bội, 'N}), (ra, 'V), (khỏi', 'V), can’, 'Ne'), (nhàt, ND]

22

Trang 30

Dựa trên các danh sách tách từ của các câu mô tả, chúng tôi sẽ đưa ra 5 nguyên tac

sau đê kiêm tra liệu rang một câu mô tả đủ tiêu chuân hay chưa:

‹ Kiểm tra các tỷ lệ các từ lặp lại trong câu: Chúng tôi sẽ kiểm tra điều kiện

này bằng cách tính từ lặp lại nhiều nhất trong câu, và chia nó với tổng số lượng

từ trong câu sẽ được tỷ lệ các từ lặp, miễn là tỷ lệ này không quá 0.5 thì câu

mô tả được cho là đạt tiêu chuẩn cho điều kiện này Tiêu chuan này giúp chúngtôi lọc được những câu mô tả bị lỗi hoặc thiếu tính chính xác Ý nghĩa của việc

tính tỷ lệ này dùng để đo lường mức độ đa dạng ngôn ngữ Một câu mô tả tốtnên có một tỷ lệ lặp từ thấp, điều này cho thấy câu mô tả tận dụng nhiều từvựng đa dạng hơn đề diễn đạt

Ví dụ : “Cầu thủ giao cầu” = tỷ lệ từ lặp là 0.5

+ Kiểm tra tỷ lệ loại từ cho phép trong câu: Một đoạn mô tả được xem là có

cau trúc tốt khi ty lệ từ duy nhất trong đó cao và bao gồm các loại từ ngữ (POS

tags) khác nhau Các đoạn mô tả không chứa từ chỉ định, không chứa danh từ

hoặc không chứa giới từ sẽ bị loại bỏ Đồng thời, các đoạn mô tả có tỷ lệ từdanh từ quá cao cũng sẽ bị loại bỏ Điều này nhăm đảm bảo rằng các đoạn mô

ta được chọn lọc phải có cau trúc ngôn ngữ đúng đắn và đáp ứng các yêu cầu

về đa dạng từ ngữ Bằng việc tuân thủ các ràng buộc trên, điều kiện này tìmkiếm các đoạn chú thích phủ hợp và có khả năng miêu tả bức hình đầy đủ và

chính xác nhất Vận dụng dựa trên các thực nghiệm, kỹ thuật này sẽ xác định

trước với những loại từ ngữ hợp lệ sẽ thuộc vào 5 loại bao gồm: danh từ, động

từ, tính từ, danh từ riêng và pho từ Đầu tiên số lượng các từ có POS tag thuộcvào tập hợp các loại từ cho phép được đếm Đây là số lượng các từ trong cóloại nằm trong tập hợp 5 loại được định nghĩa trước va là những loại phù hợp

dé cấu thành một câu hoàn chỉnh Từ đó, tỷ lệ này được tính băng cách chia sốlượng các từ có loại từ thuộc vào tập hợp loại từ cho phép chia cho tổng số

lượng các từ trong câu và sao cho tỷ lệ không được nhỏ hơn 0.5.

23

Trang 31

Vi dụ: “một người dan ông đang di bộ ra khỏi căn nhà” với các loại từ tương ứng là [(một, 'M), (người, 'Nc’), (đàn ông), 'N), (đang', 'R), (‘di', 'V'), (bộ',

'N'), (ra', 'V'), (khỏr, 'V'), (căn', Ne'), (inha', 'N')], vậy những tách từ có loại

từ hợp lệ bao gồm (đàn _ông', "N), (đang', 'R', (‘di’, 'V'), (bộ!, N9, (‘ra’, 'V’),

(khỏi', 'V'), (nhà!, 'N’) là 7 từ, 7 từ chia cho tổng số lượng từ trong câu là 10

thì tỷ lệ này sẽ là 0.7 > hợp lệ.

« Kiểm tra tỷ lệ danh từ trong câu: Bên cạnh đó để loại trừ các tình huống

mà câu mô tả của các bức ảnh trên Wikipedia được viết theo cách trích dẫntên của một người hay chỉ kèm tên của một nhân vật nổi tiếng dưới bức ảnh

Vi dụ như câu mô ta “Lionel Messi”, thi chúng tôi thực nghiệm phương pháp

tính tỷ lệ danh từ trong câu bằng cách đếm số lượng danh từ và chia với tổng

sỐ lượng từ của câu Đề hợp lệ, tỷ lệ danh từ không được vượt hơn 0.9, điềunay dé loại bỏ những câu mô tả chỉ kèm tên riêng của một người hay đồ vật rakhỏi hệ thống

Vị dụ: “một người đàn ông đang đi bộ ra khỏi căn nhà” câu này có 2 từ thuộc

loại danh từ dựa trên bộ tach từ của mô hình ngôn ngữ là (‘dan_6ng', 'N'), (nhà, 'N') => ty lệ danh từ của câu là 0.2 => hop lệ.

« Tỷ lệ từ viết hoa: Chúng tôi cũng đưa ra cách tinh tỷ lệ số từ viết hoa trêntổng số từ trong caption nham mục dich loại bỏ các câu từ không mang tinh

mô tả mà đề cập quá nhiều về tên riêng của các nhân vật hay đồ vật khiến cho

việc chuẩn hóa các từ trên của mô hình dự đoán trở nên khó khăn Dựa vào

đó, nêu tỷ lệ này không dưới 0.5 thì câu mô tả được tính là không hợp lệ

Vi dụ: với câu mô tả "một người đàn ông đang di bộ ra khỏi căn nhà” tương

ứng không có từ viết hoa nào nên tỷ lệ từ viết hoa sẽ bằng 0 > hợp lệ

24

Trang 32

c Phương pháp lọc dựa trên sự tương quan giữa ảnh và câu mô tả.

Ngoài việc lọc riêng biệt dựa trên nội dung hình ảnh và văn bản, chúng tôi cũng lọc

bỏ các mẫu đữ liệu mà không có từ nảo trong văn bản có thể tương ứng với nội dungcủa hình ảnh Dé tiến hành kỹ thuật này, chúng tôi áp dung các bộ phân loại có sẵnthông qua các API Google Cloud Vision [31] dé phân loại các lớp cho bức ảnh, sửdụng một bộ phân loại hình ảnh với một số lượng nhãn lớn (từ khoảng 10^5) Đáng

chú ý, những nhãn này cũng được phủ 100% bởi các loại từ Thông thường, hình ảnh

được gán từ 5 đến 20 nhãn, tuy số lượng chính xác phụ thuộc vào hình ảnh cụ thê

Chúng tôi so khớp các nhãn này với các chú thích ứng cử viên, lẫy vào cả việc phân

giải hình thai dựa trên thông tin từ trong chú thích Mục tiêu chính của kỹ thuật này

là sử dụng các bộ phân loại hình ảnh để gán nhãn cho hình ảnh và so khớp các nhãn

này với từ nằm trong câu mô tả Nếu không có sự trùng lắp giữa các nhãn bức ảnh và

từ trong câu chú thích, chúng tôi loại bỏ mau đữ liệu đó Điều này giúp chúng tôi chỉgiữ lại những câu mô tả có liên quan đến nội dung của bức ảnh, đảm bảo tính chínhxác và phù hợp của các mô tả đối với bức ảnh Thông qua kỹ thuật lọc bức ảnh-vănbản này, chúng tôi đã đề xuất một tập dữ liệu cho bài toán mô tả ảnh tự động đã đượclọc và tinh chỉnh, sẵn sàng cho việc áp dụng cho các phần mềm tự động tạo chú thích

ảnh.

3.2.2 Phương pháp tăng cường chất lượng dữ liệu

Sau khi trải qua các ba bước lọc dựa trên từ, ảnh và kết hợp giữa từ và ảnh thì các dữ

liệu văn bản và ảnh chất lượng và mang day đủ các tính chat để cau thành một câu

mô tả hoàn chỉnh Bên cạnh đó, một số văn bản trên Wikipedia bao gồm các từ ngữ

chỉ các khái niệm hay chủ thé quá chỉ tiết như tên người, đồ vật, khái niệm, Cho

nên cần có một bước chuyển đôi dé thực nghiệm các chỉnh sửa trên các mô tả, nhằm

tạo ra một mô tả tổng quát hơn và tập trung vào các khái niệm khái quát hơn

25

Trang 33

Từ câu mô tả ban đầu chúng tôi thực hiện biến đổi văn bản thành một câu mô ta tương

ứng với ngữ nghĩa tổng quát hơn Bằng cách lược bớt các thông tin không quan trong

và thay thế chúng bằng các từ vô danh khái quát, ta có khả năng tạo ra một mô tả ảnh

tổng quát hơn, không chỉ giới hạn trong ngữ cảnh cụ thể của ảnh Điều này giúp đảmbảo rằng các mô tả hình ảnh không chứa quá nhiều thông tin chỉ tiết và tập trung vàocác khái niệm khái quát ma dé dé dang nắm bắt được ngữ cảnh và nội dung của bức

ảnh hơn.

Ví dụ, thay vì mô tả một hình ảnh của "Calista Flockhart đứng trên đường phố LosAngeles", chúng tôi sẽ biến đổi mô tả này thành "diễn viên đứng trên đường phố".Thay vi tập trung vào danh tinh cụ thé của các người trong hình, mô ta được tập trungvào khái niệm khái quát hơn như "diễn viên" và "đường phố", từ đó tạo ra một mô tả

tổng quát hơn và phù hợp với mục đích tạo chú thích hình ảnh Và dưới đây sẽ là các

bước dé tiễn hành thực hiện kỹ thuật này:

+ Loại bỏ các từ chỉ vị trí hay địa điểm: Y nghĩa của việc loại bỏ các từ chỉ

vị trí hay địa điểm là tạo ra một mô tả hình ảnh có tính chất phi địa lý, tức làkhông giới hạn trong ngữ cảnh chỉ tiết từ một địa điểm bất kì Thay vì chỉ tập

trung vào địa điểm cụ thể, mô tả hình ảnh sau khi loại bỏ các từ chỉ vị trí hay

địa điểm sẽ tập trung vào các khái niệm khái quát như hành động, tình huống,

đặc điểm tổng quát của hình ảnh Điều này rất hữu ích trong việc tạo chú thíchhình ảnh vì những đối tượng kiểm thử có thé đến từ nhiều địa điểm khác nhau

và có thé không quen thuộc với địa điểm cụ thé trong mô tả Bằng cách loại

bỏ các từ chỉ vị trí hay địa điểm, mô tả hình ảnh trở nên dễ hiểu và áp dụngcho mọi người một cách tông quát Về mặt kỹ thuật, dé tiến hành loại bỏ các

vị trí hay từ ngữ chỉ địa điểm ra khỏi câu thì, chúng tôi đầu tiên sẽ lọc và tríchxuất tất cả cách danh từ riêng trong câu dựa vào bộ tách từ của mô hình ngôn

ngữ Kế đến dựa vào các danh từ riêng này, Google Name Entity API [32] sẽ

26

Trang 34

được áp dung dé kiêm tra có bat kì danh từ riêng nào thuộc về địa điểm hay

không Nếu có danh từ riêng đó sẽ được loại bỏ ra khỏi câu

+ Loại bỏ các thông tin về ngày thang, thời lượng: Việc loại bỏ các thông

tin về ngày tháng cũng có mục tiêu tương tự với các mô hình học sâu, giúp

cho câu mô tả được lược bỏ những thông tin chỉ tiết không cần thiết và có thể

gây nhiễu Dé tiến hành loại bỏ các thông tin về ngày tháng trong câu mô tả,

bởi vì hiện tai các mô hình ngôn ngữ đã huấn luyện trên dữ liệu tiếng Việt vẫn

chưa có hỗ trợ các bộ tách từ có sẵn dùng cho việc nhận diện ngày tháng năm

trong câu Nên chúng tôi tận dụng thư viện Regex của Python cho phương

pháp Regular Expression Chúng tôi sẽ xây dựng các điều kiện sao cho các từ

ngữ chỉ thời gian sẽ thuộc vào Hình 3.5 -tập hợp các điều kiện cho phương

pháp Regex dé nhận diện dữ liệu ngày thang năm

r'\b\w+\b\sngay\s \d{1,2}\s(thang)\s\d{1,4}\s(nam)\s\d{1,4}\b", # ngày dd thắng r'\b\w+\b\sngay\s\d{1,2}\s(thangy\s\d{1,4}\b* # ngày dd tha r’\b\w+\b\sngay\s\d{1,2}\b" # ngay dd

r'\b\s(nam) \s\d{1,4}\b",

r'\b\w+\b\s(thang) \s\d{1,4}\b° # thang mm r'\b\w+\b\s (thang) \s\d{1,4}\s(nam)\s\d{1,4}\b"

r'\b\w+\b\s\d{1,2}[-/]\d{1,2}[-/]\d{2,4}\b' # dd/mm/yy or dd/mm/yyyy r’\b\w+\b\s\d{1,2}[-/]\d{1,2}\b"

Hình 3.5: Loại bỏ yếu tổ thời gian ra khỏi câu mô tả

Các từ có cấu tạo thuộc vào các quy tắc trên sẽ được cho là dit liệu ngày tháng

năm đê loại bỏ ra khỏi câu mô tả.

‹ Thay thé các thực thế được xác định sử dung Knowledge Graph API:

Va dé thực nghiệm việc thay thé các danh từ chỉ tên một người hay đồ vật bằng

27

Trang 35

chủ thé mang tinh tong quan hơn như từ “Messi” chuyên đổi về “cầu thủ bóng

đá” Chúng tôi sử dụng Google Knowledge Graph API [33] dé thay đổi các

danh từ riêng trong câu, mà tại đó các danh từ riêng này không phải là loại

thực thé “LOCATION”, dé kiểm tra loại thử thé ở các bộ tách từ chúng tôi tiếp

tục sử dụng Google Name Entity API Với Google Knowledge Graph API,

chúng tôi sé gửi một cụm văn ban bao gồm tên riêng có trong câu mô ta đến

server của API, sau đó sử dụng Python dé trích xuất thông tin từ file JSON trả

về cua server Từ đó có được thông tin mô tả tông quát của thực thê.

”TtemList `, lement": [{" : tySearchResult’,

{`descripti a sĩ kiêm ac nhạc", { contentUrl": '

Hình 3.6: Minh hoạ cách thức hoạt động Knowledge Graph API

Từ dit liệu trả về ta có thể trích xuất được với đầu vào “Justin Bieber” là “Ca sĩ

kiêm sáng tác nhạc” và thay thé dé giúp cho mô hình nhận diện được thông tin

tổng quát hơn về bức ảnh

28

Trang 36

3.2.3 Phương pháp xây dựng bộ dữ liệu kiểm thử.

Dé có cơ sở đánh giá hiệu suất của mô hình chúng tôi đã tiền hành xây dựng một bộ

dữ liệu kiểm thử cho mô hình Bước đầu tiên chúng tôi xây dựng một phần mềm gán

nhãn dé phục vu cho việc gan nhãn Sau đó chọn ngẫu nhiên 1000 tam ảnh từ nguồnảnh đã thu thập được từ Wikipedia Chia đều cho 2 người gan nhãn theo hướng dan

gán nhãn như sau:

e Khách quan: Người gán nhãn cần viết những gi họ thấy trong hình ảnh

không phải những gì họ suy nghĩ hoặc cảm nhận Câu mô tả cần phải

dựa trên sự thật và mang tính trung lập.

bao gồm chủ thê chính, hành động, tương tác và ngữ cảnh Ví dụ như

“Một cậu bé đang chơi bóng trên sân cỏ” sẽ mang lại nhiều thông tin

hữu ích hơn “Một cậu bé và quả bóng”

e Ngắn gọn: Mặc dù người gán nhãn cần cung cấp chi tiết mô tả nhưng

hãy làm câu mô tả ngắn gọn không quá dài dòng

e Ngữ pháp chính xác: Người gán nhãn cần sử dụng đúng ngữ pháp và

chính tả Tiếng Việt

Sau khi gán nhãn hoàn thành sẽ tiếp tục kiểm soát chất lượng của bộ dữ liệu kiểm thử

bằng cách hai người gán nhãn sẽ thảo luận và đánh giá lại những câu mô tả và loại

bỏ những hình ảnh và câu mô tả không đủ tiêu chuẩn

3.3 Phương pháp mô tả ảnh tự động

Bài toán mô tả ảnh tự động với mục tiêu từ một dữ liệu dạng ảnh, các mô hình loại

nay có thê tạo ra câu mô tả có thê tông quan hoặc chi tiệt vê nội dung của bức anh đó.

Các mô hình mô tả ảnh tự động thường được câu tạo từ các mô hình tuân tự (sequence

to sequence), với hình ảnh đâu tiên sẽ được đưa vào bộ mã hóa, ở đây bộ mã hóa có

29

Trang 37

nhiệm vụ rút trích các đặc trưng từ hình ảnh từ các lớp kiến trúc CNN, những thông

tin này sẽ được truyền đến một bộ giải mã, thường được gọi là mô hình ngôn ngữđược cấu tạo từ các cấu trúc mạng RNN Ở đây, bộ giải mã có nhiệm vụ cầu tạo nêncác từ ngữ theo tuần tự dựa vào các thông tin về ngữ cảnh ở thời gian t trước đó Vì

vậy, các mô hình mô tả ảnh tự động thường là tập hợp của các lớp mạng phức tạp có

câu trúc như hình bên dưới.

Input Image |

Với sự nghiên cứu rộng rãi ở bài toán trích xuất đặc trưng từ bức ảnh, ngày nay xuấthiện những kiến trúc mạng CNN hiện đại được đào tạo sẵn để sử dụng riêng cho mụcđích rút trích đặc trưng từ ảnh Những kiến trúc này thường được học trên bộ dữ liệurat lớn, giúp cho việc kế thừa nó mang lại kết quả tốt ưu khi tiễn hành tinh chỉnh dựa

trên dữ liệu riêng biệt.

Như đã đề cập, những mô hình mô tả ảnh tự động sử dụng các thông tin trích xuất từảnh dé đưa vào mô hình ngôn ngữ và tận dụng thông tin này dé tao ra đúng những

câu mô tả và liên quan với ngữ cảnh của bức ảnh Bên cạnh các lớp mạng cơ bản, mô

hình mô tả ảnh tự động thường được mở rộng thông qua bộ phát hiện vùng nổi bật

(Salient Region Detector) giữa các thành phần mã hóa và giải mã Dựa vào sự tích

hợp với tính năng phát hiện vùng nỗi bật, các thông tin đặc trưng từ từng đối tượng

được truyền tiép vào mô hình ngôn ngữ đê dự đoán ra câu chú thích tôi ưu hơn.

30

Trang 38

Convolutional Neural Network

input | Jong erm Memory

Image Encoder Salient Region Detector Language Model

Hình 3.8: Cau trúc mô hình mô tả ảnh tích hợp với phương pháp phát hiện

vùng nôi bật /35]

Dé tiến hành dao tao các mô hình mô ta ảnh tự động, các mô hình này hiện nay thườngxây dựng theo cách toàn diện (end-to-end) Hướng tiếp cận toàn diện này này chỉ ápdụng một hàm mat mát duy nhất cho việc tối ưu toàn bộ mô hình, dé giúp cho các

kiến trúc học sâu đơn giản hóa rất nhiều tác vụ trong quá trình huấn luyện và cũng dé

hệ thống hóa khối lượng tính toán không lồ của mô hình Dựa trên phương pháp lantruyền ngược (back-propagated) các sai số được đưa qua mô hình ngôn ngữ từ bộ mãhóa hình anh đến bộ phát hiện vùng nồi bật, xuống bộ mã hóa hình ảnh Kết quả làcác mô-đun này được kết hợp với nhau và không thê thay thé cho nhau nêu không có

sự can thiệp nào khác.

3.3.1 Bộ giải mã ảnh

Trong bài toán mô tả ảnh tự động, bộ mã hóa là một thành phần năm vai trò cốt lõicủa mô hình, có nhiệm vụ chuyển đổi hình ảnh thành các biéu diễn số học mang cácđặc trưng cụ thể từ tâm hình và từ những đặc trưng này bộ giải mã có thể nắm đượcthông tin và cho ra câu mô tả chính xác về bức hình Bộ mã hóa thường sử dụng cáclớp kiến trúc tích chập (CNN) dé mã hóa hình anh CNN có khả năng học và tríchxuất các thông tin đặc trưng của hình ảnh từ việc áp dụng các bộ lọc trượt trên toàn

bộ hình ảnh, từ đó bộ giải mã có thê định rõ các đặc trưng như góc, cạnh, màu sắc và

31

Trang 39

đặc biệt là với các đặc điểm từ đối tượng trong bức hình Dựa vào các nghiên cử rộngrãi áp dụng công nghệ học sâu hiện nay, có rất nhiều kiến trúc mạng CNN lớn được

xây dựng sẵn dé đảm nhiệm vụ này, có thé ké đó như kiến trúc Resnet-152, VGG-16hay Inception V3 Các kiến trúc này được học trên tập đữ liệu rất lớn và có khả năngtrích xuất các thông tin đặc trưng phức tạp từ hình

a Học chuyền tiếp (Transfer Learning)

Như các thông tin đề cập ở trên, bộ mã hóa có nhiệm vụ là trích xuất các thông tin

đặc trưng từ bức hình và biểu diễn các thông tin dưới dạng số học, nhưng với việcyêu cầu một mô hình tận dụng được hết tất cả số lượng đặc trưng từ hình ảnh trongthời gian huấn luyện là một bài toán không tưởng và đương nhiên điều này cũng yêu

cau rất nhiều tài nguyên dé đáp ứng cho khối lượng tính toán không 16 từ các vector

số học trong mô hình Bởi vậy, giải pháp học chuyền tiếp được phát triển với mục

đích trợ giúp các mô hình kế thừa và lưu lại các trọng số đã được hoc dé tinh chỉnh

dựa trên các bộ dữ liệu mới hơn Thông thường, các bộ mã hóa sẽ là các kiến trúc baogồm các lớp CNN đã được đóng gói các bộ trọng số từ việc đào tạo trên dit liệu lớnliên quan đến hình ảnh, ví dụ như nhận diện vật thể Điều này có ý nghĩa rất quan

trọng, nhờ vậy chúng ta chỉ cần chon một kiến trúc CNN cụ thé và loại bỏ lớp trên

cùng nơi đưa ra dự đoán từ các trọng số từ các lớp phía trước dé sử dụng lại các trọng

số quan trọng từ lớp phía trước này cho các bộ đữ liệu mới mà không cần phải tiếnhành cập nhật lại từ đầu Việc loại bỏ những lớp mạng cuối cùng của các mô hình cósẵn giúp các mô hình có khả năng sử dụng lại được những trọng số đã được học trongquá trình huấn luyện từ các bộ dit liệu lớn và có thé tinh chỉnh cho phù hợp với dữ

liệu của bản thân, giúp tôi ưu được tiên trình học của mô hình.

Dựa trên nguyên lý này, các kiến trúc CNN chỉ cần tinh chỉnh lại các đữ kiện về nhãn

và dit liệu sao cho phù hợp với tap dit liệu mới và kế thừa lại các trọng số từ lớp mang

phía trước đê giảm được một sô lượng lớn thời gian và tài nguyên đào tạo các mô

32

Trang 40

hình Bên đưới là hình ảnh diễn giải cho phương pháp học chuyền tiếp từ kiến trúc

được dao tạo trước cho dữ liệu Image-Net lên dữ liệu y tế

+ ˆ Dp, 1©

Convolution Fully connected Predicted

layers layers labels

Transfer |

learning

, Predicted

Medical Convolution Fully connected labels

dataset layers layers

Hình 3.9: Tổng quan kiến trúc mô hình hoc chuyền tiếp [36]

b VGG-16 và Inception V3.

Ở phan này sẽ tập trụng đưa ra thông tin về hai kiến trúc CNN phô biến nhất thườngđược dùng cho các bộ giả mã hình ảnh trong các bài toán về mô tả ảnh tự động đó là

VGG-16 va Inception V3 Đối với VGG-16, đây là một mang CNN truyền thống

được xây dựng từ các lớp tích chập và lớp maxpooling Kiến trúc của VGG-16 rấtsâu và có 16 lớp tích chập, do đó, nó có thé áp dung để trích xuất các đặc trưng chitiết và phức tạp của hình ảnh VGG-16 đã đạt được thành công lớn trong các nhiệm

vụ phân loại hình ảnh và có khả năng định vi các đối tượng và đặc điểm trong hìnhảnh một cách rõ ràng Còn về Inception V3, là một kiến trúc CNN tiên tiễn hơn, vượt

xa khung việc của VGG-16 bằng cách tích hợp cấu trúc sâu của các khối Inception.Các khối Inception gồm có các đường song song với các lớp tích chập có kích thướckhác nhau, cho phép mô hình học các đặc trưng ở nhiều mức độ chỉ tiết khác nhau.Điều này giúp Inception V3 có khả năng trích xuất các đặc trưng phức tap và sâu sắc

33

Tiêu đề	Xây dựng hệ thống mô tả ảnh theo thời gian thực cho ứng dụng dữ liệu lớn
Tác giả	Ha Minh Quan, Do Ngoc An
Người hướng dẫn	TS. Do Trong Hop, ThS. Ta Thu Thuy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	84
Dung lượng	50,82 MB