Với ý định tìm ra lời giải bài toán và góp phần sớm đưa bài toán vào ứng dụng thực tế chúng tôi đã bắt tay vào tìm hiéu và đưa ra đề xuất về phương án áp dụng côngnghệ dir liệu lớn cùng
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
HA MINH QUAN - 19522076
DO NGỌC AN - 19520364
KHOA LUAN TOT NGHIEP
XÂY DUNG HE THONG MÔ TA ANH THEO THỜI
GIAN THUC CHO UNG DUNG DU LIEU LON
REAL-TIME IMAGE CAPTIONING SYSTEM FOR DATA
INTENSIVE APPLICATION
CU NHÂN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
ThS TA THU THUY
TP HO CHi MINH, 2023
Trang 2LỜI CẢM ƠN
Chúng em thật lòng muốn gửi tới Thầy TS Đỗ Trọng Hợp và Cô Tạ Thu Thuỷ nhữnglời cảm ơn thành tâm nhất bởi sự quan tâm và hỗ trợ quý báu của thầy cô Thầy Hợp
và cô Thuỷ không chỉ là người thầy, người người cô luôn đồng hành cùng chúng em,
mà còn là người dẫn đường và người tiếp sức mạnh dé chúng em hoàn thiện bản thâncũng như học vấn trong suốt hành trình học tập tại Trường Đại học Công nghệ Thông
Tin.
Chúng em biết on Thay và Cô vi đã luôn sẵn lòng lắng nghe và cung cấp sự hỗ trợkhi chúng em đối mặt với van đề Những nhận xét và hướng dẫn của Thay và Cô đãgiúp chúng em nhận ra các vấn đề còn tồn đọng, tìm ra được hướng giải quyết từ đóhoàn thiện đề tài khoá luận mà chúng em đang nghiên cứu Chúng em rất trân trọng
sự nhạy bén và kiến thức sâu rộng mà Thay và Cô đã chia sẻ, nó đem tới cho chúng
em nhiều bài học quý giá không chỉ mỗi mặt học thuật mà còn hoàn thiện tính cách
bản thân.
Sau cùng, chúng em muốn bày tỏ sự biết ơn đặc biệt tới Thầy và Cô ở Khoa Khoahọc và Kỹ thuật Thông tin vì đã là những người dạy dỗ, khiến chúng em có đủ bảnlĩnh và kiến thức dé thực hiện khoá luận này Hơn thế nữa Thay và Cô còn day chochúng em những kỹ năng sống, kỹ năng giải quyết vấn đề Chính vì vậy chúng em sẽ
cô gắng dé sớm là một công dân tốt có đóng góp cho xã hội và sẽ là những học tròđáng tự hào của Thầy và Cô
Nhóm tác giả
Đỗ Ngoc An
Ha Minh Quan
Trang 3MỤC LỤC
Chương 1 Tổng quan khóa luận - ¿s2 2 +£E£+E£+E£+EE£EE++E£EEtExerx+zxerrxerxee 9
1.1 Gidi 04 0n 9 1.2 Tính ứng dụng của khoá luận - 5 s11 1S 1 9 1 9v vn kg rưy 10
Chương 2 Các công trình nghiên cứu liên quan 55c + ‡+++s+sexseexssss 12
2.1 Lĩnh vực mô tả ảnh tự động - c2 3S 3S 19 11 1n ng re 12
2.2 Lĩnh vực xử lý dong dit liệu và học liên tục .- «+ +-«c+cc<scesseesees 13
Chương 3 Các phương pháp dé Xuất 2- 22 +¿©2+2+++£x++EE2EEerExerxesrxrrrreee 15
3.1 Tổng quan phương pháp dé Xuất + ¿2© s+S£+E£+EE2E+EerEerkerxerxereee 15
3.2 Phương pháp Streaming dữ lIỆU 5c S2 33233 EESesrsersrsrere 16
3.2.1 Phương pháp thu thập và xử lý dữ liệu + +55 +++<+<xssxsss 17
3.2.1.1 Phương pháp thu thập dữ liệu 55-25 <+++x++eexssesssess 19
3.2.1.2 Phương pháp xử lý dữ liệu - - 5 ScSSs+ssirerrerrererree 19
3.2.2 Phương pháp tăng cường chat lượng dif liệu 2 - 5 5255: 253.2.3 Phương pháp xây dựng bộ dữ liệu kiểm thử 2-2-5 55z©5+2 29
3.3 Phương pháp mô ta ảnh tự động - 5c S21 +skrirriresrrrerree 29
3.3.1 BO gidi ma ch 31
3.3.2 M6 hinh ng6n Ngth oe eeeesecseeeeceeseeeececesseesseceaeseeseesseeeaesseeeseeeaeeees 34
3.3.3 Phuong pháp trích xuất thông tỉn - ¿2 2 s+++££+E££Eerxerxerxerxee 35
3.3.4 Các mô hình mô tả ảnh tự động - c5 + + +vseseeresereresrs 37
Chương 4 Thực nghiệm và đánh giá kết quả - + 2 2 x+£E+zE£+Ee+zxerxzez 42
4.1 Quy trình thực nghiệm mô tả ảnh - 5 5 S1 *++veEsseeeeereeeere 42
4.1.1 Cài đặt thực nghiệm cho các mô hình - - «+ +£+£+s++ee++exss 43
4.1.2 Mô hình trích xuất đặc trưng VinVI, ¿-¿+cs+cx+zxczxzrserxerseee 43
Trang 44.1.3 Mô hình Meshed Memory 'TTanSfOTIN€T 5 «+ £++£+s£+s+sessxrs 45
4.1.4 Mô hình Object Relation TTanSÍOTIN€T 55+ + + + esseeess 45
4.1.5 Cài đặt thực nghiệm học liên tục cho các mô hình - - - 46 4.2 Độ đo đánh gia cho mô hình mô tả ảnh tự động - 5+ -5<<<<<+5 47 4.3 Dữ liệu thực nghiỆm - - - G 1 1211211191 91v ng TH ng kg 48
4.4 Cài đặt, phân tích và đánh giá thực nghiệm - <5 5555 **+sc++seesssess 49
4.5 Phân tích lỗi -. - + tt HE ng nàn ng 56
Chương 5 Xây dựng ứng dụng trên hệ thống hỗ trợ mô tả ảnh tự động theo thời
gian thực cho ứng dụng dif liệu lớn .- - 5 5 2S E11 **EEEseeEeeeerseeereeeeree 60
5.1 Môi trường thực hiỆn - - Q2 1221211112111 115111111 11 111g ng ry 60
5.2 Xây dựng ứng dụng mô phỏng tương tác với mô hình - - ‹ - 61
5.2.1 FTOTf-€TI G011 TH Họ no và 62
5.2.2 Back-end aah Z1 HS Hư 63
5.2.3 Cách thức hoạt động và Giao diện của ứng dụng - ‹- ‹ 64
Chương 6 Kết luận và hướng phát triỂn -¿- ¿+2 ©++x++z++£x++zx++zx+zxeex 70
6.1 KẾ luận -cc+-22++222 t2 t2 tr re 706.2 Han ChE 0 726.3 Hướng phát trién o c.cccceccccccscsscsscssessessessessesscsscscsessessessessessessssessesseeseesesseseesees 72TÀI LIEU THAM KHẢO - ¿St St+E‡EE‡EEEEEEESEEEEEEEEEEEEEEEEEEEEEESEEEkrkrkererrrre 73
Trang 5DANH MỤC HÌNH
Hình 1.1: Một ví dụ cho việc tạo sinh câu mô tả 55555 S 5+ S+++sscesssz 10
Hình 3.1: Sơ đồ tổng quan cách hệ thống vận hành 2 2 ¿+ s2 s+£s2 +2 16Hình 3.2: Tổng quan quy trình xử ly dit liệu được thu thập tir Wikipedia 18
Hình 3.3: Những câu mô tả không phù hợp - - s5 c1 re, 20
Hình 3.4: Quy trình xử lý dữ liệu được thu thập từ WikIpedla - - 22
Hình 3.5: Loại bỏ yếu tố thời gian ra khỏi câu mô tả 2-2 ¿+ s2 =s+£s2 +2 27
Hình 3.6: Minh hoa cách thức hoạt động Knowledge Graph API 28
Hình 3.7: Tổng quan cầu trúc mô ta ảnh tự động [34] . ccssseesees 30Hình 3.8: Cấu trúc mô hình mô tả ảnh tích hợp với phương pháp phát hiện vùng nỗi
Hình 3.9: Tổng quan kiến trúc mô hình học chuyên tiếp [36] - 33
Hình 3.10: Kết quả sử dụng Vinvl cho bài toàn nhận diện vật thé so sánh với kiến
trtic khéc KT éố 36
Hình 3.11: Tổng quan cấu trúc của mô hình OR'T 2 2s ++2s++z++z++zxzzs+ 38Hình 3.12: Kiến trúc mô hình Meshed Memory Transformer -s: s2 40
Hình 4.1 M6 tả tinh chỉnh học liên tục trên các mô hình - 555 +++<<< 46
Hình 4.2: Phân tích lỗi (1) - ¿5+ ©++£++t2EktEEkEEEEkEEEkiEEkEtirtrierriieriirrii 57
Hình 4.3: Phân tích lỗi (2) -¿- - + + ++S+2EE+E2EEEEEEEEEEEEEEEEEEEECEEErkerkerkerkerrrree 58
Hình 5.1: Quy trình hoạt động của Ứng dung ececsceseesseeseeetseseeeseesseesseeseesseens 62
Hình 5.2: Giao diện màn hình chính và màn hình chọn ảnh từ thư viện 65
Hình 5.3: Giao diện ứng dụng sau khi đã chụp hoặc chọn anh từ hệ thống 66Hình 5.4: Giao diện ứng dụng hiển thị câu mô tả - - - 2x k+E£tzEeEeEezkrrereres 67
Hình 5.5: Giao diện người dùng phản hồi nhập mô tả mới phù hợp hơn cho anh 68
Hình 5.6: Giao diện ứng dụng cảm ơn sự đóng góp của người dùng 69
Trang 6DANH MỤC BANG
Bang 4.1: Kết quả mô hình TransfOrmer- - 2 2 s2 s2 £2££+E£+E££Ee£xzrxzrszsez 50Bang 4.2: Kết quả mô hình dùng VinVIL - ¿2-2 s+SE+EE+E£+E+E£Eerkerxerxersree 51Bang 4.3: Kết quả thực nghiệm mô hình khi dùng biện pháp tăng cường dit liệu 53Bảng 4.4: Kết quả mô hình học liên tục đánh giá trên UIT-ViIC -.- 55Bang 4.5: Két quả mô hình hoc liên tục đánh giá trên bộ kiểm tra - 56
Trang 7DANH MỤC TỪ VIET TAT
STT Tên thuật
API BLEU
CIDEr CNN JSON
LSTM
M2 ORT
ResNet RNN
ROUGE
SOTA URL
VGG
Artificial Intelligence
Application Programming Interface Bilingual Evaluation Understudy Score Cooperative Intrusion Detection Evaluation and Response Convolutional Neural Network
JavaScript Object Notation Long Short-Term Memor Meshed Memory Transformer Object Relation Transformer Residual Neural Network
Recurrent Neural Network Recall-Oriented Understudy for Gisting Evaluation State Of the Art
Uniform Resource Locator Visual Geometry Group
Trang 8TÓM TẮT KHÓA LUẬN
Mô tả hình ảnh tự động là một bài toán có độ phức tạp cao và muốn giải được vấn đề
này ta cần đương đầu với nhiều thách thức, chỉ tiết hơn bài toán này đòi hỏi máy tính
phải nhận biết được các chủ thé, môi trường, hành động chủ thé, mối tương quan giữachủ thé và môi trường dé có thé tạo ra được câu mô tả phù hợp cho bức ảnh Day là
vấn đề yêu cầu kết hợp sự hiểu biết và các nghiên cứu từ cả hai lĩnh vực khó là thị
giác máy tính để xử lý, trích xuất những đặc trưng từ ảnh và xử lý ngôn ngữ tự nhiên
để tạo sinh những câu mô tả cho ảnh Tuy là một bài toán chứa đựng rất nhiều thách
thức và khó khăn nhưng vì tiềm năng ứng dụng thực tiễn lớn nên bài toán mô tả hìnhảnh tự động trong suốt thời gian dai nó đã tao sự chú ý với giới khoa học toàn cau.Nhưng ở Việt Nam, tại thời điểm chúng tôi nghiên cứu về bài toán thì chỉ có hai bộ
dữ liệu lớn và uy tín phục vụ cho bài toán ở tiếng Việt là UIT-ViIC phục vụ cho thể
thao và VieCAP4H phục vụ cho y tế Qua đây có thê thấy sự thiếu sót lớn trong đữliệu về mặt số lượng cũng như độ phủ về các lĩnh vực, điều này chính là bước cản lớntrong việc nghiên cứu bài toán và đưa nó vào giải quyết các vướng mắc ở nhiều lĩnh
vực chưa được tháo gỡ ở Việt Nam.
Với ý định tìm ra lời giải bài toán và góp phần sớm đưa bài toán vào ứng dụng thực
tế chúng tôi đã bắt tay vào tìm hiéu và đưa ra đề xuất về phương án áp dụng côngnghệ dir liệu lớn cùng với các phương pháp thu thập, xử lý và tăng cường dữ liệu dé
xây dựng nên được bộ dữ liệu thích hợp với việc đảo tạo mô hình mô tả hình ảnh.
Song song với đó thì khoá luận này chúng tôi còn tìm hiểu, cài đặt và tiễn hành thựcnghiệm sau đó tinh chỉnh các mô hình sau đó thiếp lập mô hình cho phép nó có thé
học liên tục trên dữ liệu của chúng tôi Nhóm đã thành công xây dựng được một mô
hình có khả năng mô tả ảnh tốt và câu mô tả luôn bắt kịp những biến đổi diễn ra ởđời sống xã hội Mô hình này sẽ là yếu tố nòng cốt cho chúng tôi hiện thực hoá đềxuất xây dựng hệ thong mô tả ảnh theo thời gian thực cho ứng dụng dit liệu lớn
Trang 9Đề xuất mà chúng tôi đưa ra, không chỉ có ý nghĩa và đóng góp có lĩnh vực khoa học
thông qua phương pháp ứng dụng công nghệ dữ liệu lớn cùng với kha năng thu thập,
xử lý và tăng cường đữ liệu vào đề cải thiện độ chính xác của mô hình Phương pháp
này cho phép hệ thong cua chúng tôi tự động thu thập và cập nhật dir liệu, từ đó lamphong phú hơn nguồn dữ liệu cho bài toán Hơn nữa việc áp dụng các phương pháphọc liên tục lên các mô hình học sâu cũng cho thay các mô hình này không chỉ có khảnăng lưu trữ tốt các thông tin đã được học mà còn có thé học liên tục và ghi nhớ thêm
được các thông tin mới từ dữ liệu mới khi thực hiện huấn luyện mô hình liên tục
Nhóm chúng tôi đã thành công trong việc xây dựng hệ thống mô tả ảnh theo thời gian
thực có hiệu suất tốt sẵn sàng đưa vào hoạt động dé đáp ứng những nhu cầu của xã
hội Day là minh chứng rõ ràng cho tính ứng dụng thực tế đáng ké của khoá luận của
chúng tôi.
Trang 10MỞ ĐẦUĐặt vấn đề
Trong thời đại của cuộc cách mạng công nghiệp 4.0 đầy sự bùng nổ, chúng ta đã trở
thành những công dân của kỷ nguyên số Đây là thời đại mà công nghệ và dữ liệuđược tận dụng một cách tối đa đề mang lại sự tiện ích và tiện nghi cho cuộc sông củamoi người Theo thống kê của trang Statista [1], mỗi ngày có trung bình 328.77 Terra
Byte dữ liệu được sinh ra từ người dùng thông qua các hoạt động trên, một con số
không lồ nhưng vẫn chưa có dấu hiệu dừng lại mà vẫn đang tiếp tục tăng lên theo
từng ngày Lượng dt liệu ma được sinh ra từ những năm 2020 tính tới hiện giờ đã
chiếm tới 90% tổng dung tích dữ liệu hiện đang tồn tại Dữ liệu được lưu trữ ở rấtnhiều hình thức khác nhau: số liệu, hình ảnh, âm thanh, văn bản Nhưng nôi bật hơn
cả chính là đữ liệu hình ảnh, dạng đữ liệu này chiếm tỷ lệ rất lớn giữa các hình thức
lưu trữ dữ liệu và nó chứa đựng lượng lớn thông tin có giá trị đang chờ được khai
thác dé hỗ trợ đời sống, sinh hoạt thường ngày của chúng ta và là đòn đây cho sự phát
triên cho nhiêu lĩnh vực trong xã hội.
Nhận thức được tiềm năng lớn từ việc khai phá dữ liệu hình ảnh nên giới khoa học từ
lâu đã tập trung nghiên cứu và phát triển các bài toán xoay quanh nó Trong số những
bài toán được đặt ra thì nổi bật hơn cả là bài toán mô tả hình anh tự động, bởi tínhứng dụng cao của nó vào đời sống Tuy vậy cho tới nay việc phát triển bài toán nàytrên tiếng Việt còn nhiều trở ngại, trong đó sự khan hiếm về nguồn dữ liệu tiếng Việtchính là một trong những nguyên nhân chính khiến bài toán vẫn còn đang được bỏngỏ Các bộ dữ liệu dành cho mô tả ảnh băng tiếng Việt hiện nay chỉ có một vài bộnhư bộ UTT-VIC, VieCap4H Ngoài sự thiếu hụt về số lượng còn thiếu hụt về sự đa
dạng lĩnh lực, nguồn dit liệu dùng dé huấn luyện các mô hình mô tả ảnh bằng tiếng
việt hiện nay thường là về lĩnh vực cụ thê như là lĩnh vực thê thao (UIT-ViIC), lĩnh
vực sức khoẻ (VieCap4H).
Trang 11Bài toán mô tả ảnh tự động là một vấn đề phức tạp yêu cầu sự hiểu biết rõ về những
mô hình máy học dé kết hợp xử lý hai lĩnh vực lớn bao gồm: Lĩnh vực thị giác máy
tính phụ trách việc phân tích, tìm ra những đặc trưng hình ảnh và lĩnh vực xử lý ngôn
ngữ tự nhiên đảm nhiệm chức năng tạo sinh câu mô tả từ đặc trưng của ảnh được tìm
ra Mô hình mô tả ảnh sẽ là mô hình kết hợp mô hình của hai lĩnh vực trên dé tạo racâu mô tả chính xác và tự nhiên nhất cho tắm ảnh Nhưng cả hai lĩnh vực đều tồn tạinhiều khó khăn và thách thức chưa có lời giải hoàn toàn Do đó, việc tạo nên mô hình
mô tả ảnh là một công việc không hề dễ dàng yêu cầu cần có nhiều kiến thức, kỹ
năng Ngoài ra nếu chỉ được huấn luyện dựa trên bộ dữ liệu cố định thì mô hình sẽ
không có thể đưa ra các câu mô tả nằm ngoài miền dữ liệu làm hạn chế độ phủ vào
thực tế của bài toán Điều này cũng chính là một trong những là trở ngại lớn cho bàitoán mô tả ảnh bằng tiếng Việt
Nhung trong bối cảnh hiện tai dữ hiện đang đóng vai trò trung tâm của các công nghệmới đang bùng nô, tiêu biểu chính là sự phát triển vượt bậc của công nghệ dữ liệulớn Chúng tôi tin đây chính là chìa khoá dé trả lời cho hai trở ngại mà bài toán dang
gặp phải Việc giải được bài toán và tạo ra cau mô tả phù hợp cho hình ảnh không chỉ
cung cấp khả năng nắm bắt được nhiều thông tin về nội dung của hình ảnh mà còn
cho thấy khả năng giải quyết nhiều vấn đề cho những bài toán thực tiễn, từ lĩnh vực
đời sông như hỗ trợ người khiếm thị cho tới xã hội như làm hệ khuyến nghị trong y
tế giúp bác sĩ đưa ra quyết định chính xác hơn hay giúp quản lý giám sát trong lĩnh
vực an ninh,
Nhìn thấy được tầm quan trọng và ý của mà bài toán mang lại, hiểu được những khó
khăn hạn chế mà bài toán đang mắc phải nên ở khoá luận này chúng tôi đã thực hiện
đề tài “Xây dựng hệ thống mô tả ảnh theo thời gian thực cho ứng dụng đữ liệu lớn”.Khoá luận của chúng tôi sẽ cung cấp giải pháp hoàn chỉnh cho vấn đề thiếu dữ liệucho bài toán mô tả ảnh ở tiếng Việt, đồng thời mô hình của chúng tôi đã được tối ưu
dé xử lý một lượng dữ liệu lớn chảy vào hệ thống, tương thích với bối cảnh xã hội
Trang 12công nghệ số đang bùng no Đồng thời, nó vẫn đảm bảo kha năng sinh ra câu mô tả
chính xác và linh hoạt học được những đữ liệu mới từ đa lĩnh vực, và thích ứng theo
sự chuyên biên do phát sinh trong những sự vật, sự việc, hoạt động mới của con người theo thời gian.
Mục tiêu khoá luận
Ở đề tài này, chúng tôi nghiên cứu cách thức dé xây dựng một hệ thống có khả năng
phục vụ cho mục đích đưa ra mô tả ảnh tự động theo thời gian thực Cụ thể từng mục
tiêu được hướng tới như sau:
Xây dựng bộ dữ liệu mới có tên OpenDomainVIIC (Open Domain for
Vietnamese Image Captioning), bộ dữ liệu mô ta ảnh nhiều lĩnh vực dành riêng
cho tiếng Việt bao gồm các hình ảnh và câu mô tả ở đa dạng các lĩnh vực.Điểm đặc biệt của bộ dữ liệu này là được cập nhật dữ liệu liên tục làm tăng sự
đa dạng lĩnh vực và không giới hạn số điêm dữ liệu thông qua công nghệ dữ
liệu lớn Đây là điều kiện tiên quyết dé mô hình có khả năng học và mô tả ảnh
ở đa lĩnh vực và không bị giới hạn Bộ dữ liệu này được chúng tôi được kỳ
vọng huấn luyện ra những mô hình mang hiệu suất cao hơn trước nhờ áp dụngthêm kỹ thuật để xử lý và tăng cường dữ liệu
Thực nghiệm đa dạng mô hình và các phương pháp trích xuất đặc trưng đã
được công nhận và đánh gia là phù hợp cho bài toán mô tả hình ảnh trên các
mô hình học sâu, học chuyền tiếp Tiếp theo đưa ra những điều chỉnh và chọnloc mô hình cũng như phương pháp dé cho ra được mô hình cho hiệu suất mô
tả hình anh tốt nhất Ngoài ra còn hướng tới mục đích phát triển mô hình đảmbảo mô hình có khả năng học tập liên tục từ nguồn dữ liệu mới mà không cầnphải huấn luyện mô hình lại như lúc bắt đầu
Nhằm đạt được hai mục tiêu nêu trên, chúng tôi sẽ tiễn hành tìm hiểu về cáchhoạt động và triển khai các công nghệ dữ liệu lớn và dịch vụ cần thiết Qua đó,chúng tôi sẽ áp dụng những kiến thức này để tạo ra hệ thống của chúng tôi
Trang 13e Xây dựng một ứng dụng di động hoàn chỉnh cùng với các dich vụ đám mây dé
mô phỏng lại hệ thống mô tả ảnh theo thời gian thực cho ứng dụng dữ liệu lớn
Thông qua việc này chứng minh được tính ứng dụng của hệ thống mà chúng
tôi xây dựng.
Đôi tượng và phạm vỉ nghiên cứu
> Đối tượng nghiên cứu:
Trọng tâm nghiên cứu của khoá luận của chúng tôi là áp dụng các kỹ thuật học
sâu dé tạo sinh câu mô tả cho hình anh Ap dụng công nghệ dir liệu lớn chính
là mục tiêu chúng tôi hướng tới để giải quyết bài toán ngoài ra chúng tôi sử
dụng thêm các dịch vụ điện toán đám mây như Apache Kafka, Google Cloud
Flatform đề tiễn hành phát triển một hệ thống có khả năng mô tả ảnh theo thời
gian thực và đảm bảo xử lý được khi phát sinh một lượng lớn dữ liệu đồ về hệ
thống
> Pham vi nghiên cứu:
Trong khoá luận này phạm vi của nhóm chúng tôi gói gon trong tìm hiéu, ứngdụng, điều chỉnh và đánh giá các mô hình học sâu phục vụ mục đích bài toán,ngoài ra nhóm còn tạo nên bộ dữ liệu phục vụ cho bài toán ở trên tiếng Việtthông qua quá trình thu thập và xử lý dữ liệu đang tồn tại trên Internet Nhómchúng tôi sẽ triển khai các phương pháp thu thập dữ liệu, sau đó sẽ tiến hành
xử lý và tăng cường nó dé mô hình có thé học với độ chính xác cao cùng với
sử dụng mô hình học sâu đề đánh giá được độ hiệu suất của mô hình và phương
pháp thực nghiệm từ đó cho ra đời một mô hình phục vụ cho mục đích tạo ra
mô tả chính xác về cả ngữ nghĩa và nội dung bức ảnh Hơn nữa nhằm tăngcường hiệu suất hệ thong thì nhóm chúng tôi tiến hành tinh chỉnh mô hình chophép nó có khả năng học liên tục mà không cần huấn luyện lại
Nghiên cứu của chúng tôi tập trung vào xây dựng và triên khai hệ thống trên
nền tảng điện toán đám mây (Cloud computing) nhằm cải thiện quản lý tài
Trang 14nguyên, hiệu suất, hạ tầng và đữ liệu, tối ưu hoá hiệu suất hệ thống Hơn nữa,
hệ thống triển khai cũng cung cấp các giao diện lập trình ứng dụng (API) cho
các ứng dụng khác, tăng tính ứng dụng cho khoá luận.
Ket quả nghiên cứu
Khoá luận của chúng tôi đang đi đầu trong giải quyết bài toán mô tả ảnh tự động đalĩnh vực bằng tiếng Việt Trong bối cảnh giới học thuật đang rất thiếu nguồn dữ liệu
dé phục vụ cho bài toán mô tả ảnh bằng tiếng Việt thì chúng tôi đã thành công trong
việc kết hợp công nghệ xử lý dit liệu lớn dé xây dựng một bộ dữ liệu mới, nhăm hỗtrợ việc tạo sinh mô tả ảnh băng tiếng Việt Hơn thế nhóm chúng tôi còn dùng bộ dữliệu vừa tạo được đề thực nghiệm và tìm ra cách điều chỉnh phù hợp các mô hình học
sâu Dựa trên cơ sở đó, chúng tôi đã thực hiện các tinh chỉnh và lựa chọn mô hình
phù hợp nhằm tối đa hóa hiệu suất trong việc tạo sinh câu mô tả cho ảnh Cuối cùngnhóm chúng tôi thành công tạo ra ứng dựng mô tả ảnh trực tiếp giúp người dùng sửdụng thành quả của nhóm để phục vụ bản thân Thành quả mà chúng tôi đạt đượctrong đề tài này không chỉ là kết quả nghiên cứu trên giấy, mà còn có thê ứng dụng
vào thực tế dé phục vụ đời sống con người Công trình này đóng góp một tư liệu quan
trọng cho các nghiên cứu sau này, làm nên tảng đê kê thừa và phát triên đê tài.
Câu trúc khoá luận
Khoá luận của chúng tôi bao gôm sáu chương với các nội dung chính như sau:
> Chương 1: Tổng quan khoá luận
Trong chương nay, chúng tôi sẽ nói về tổng quan bài toán mô tả ảnh theo thờigian thực và nêu rõ ý nghĩa cũng như tính ứng dụng của đề tài trong đời sốngthực tế
Trang 15> Chương 2: Các công trình nghiên cứu liên quan
Các công trình nghiên cứu có liên quan tới bài toán mô tả ảnh theo thời gian
thực sẽ được giới thiệu ở chương này Đây là cơ sở học thuật tìm hiểu và pháttriển bài toán Cùng với với đó là các công trình về việc kiểm soát dòng dữ
liệu (Data Streaming).
> Chương 3: Các phương pháp đề xuất
Trong chương này sẽ nói tới những phương pháp được đề xuất dé thực nghiệm,
bắt đầu với giới thiệu phương pháp streaming dữ liệu với nhiều bước dé phù
hợp với đề tài: Dữ liệu đầu tiên sẽ được thu thập, tiếp đến sẽ trải qua bước xử
lý, rồi thực hiền tăng cường để tạo ra bộ dữ liệu phù hợp nhất cho VIỆC huấn
luyện Sau đó là làm rõ phương pháp đề xuất dùng để mô tả ảnh tự động thông
qua các mô hình học sâu.
> Chương 4: Thực nghiệm và đánh giá kết quả
Thực nghiệm những đề xuất ở Chương 3 Đầu tiên chúng tôi trién khai phương
pháp streaming dữ liệu dé tạo bộ dữ liệu đáp ứng cho bài toán Sau đó chúngtôi trién khai các mô hình trích suất đặc trưng như VinVL, lay những đặc trưngnày làm nguyên luyện đầu vào cho những mô hình học sâu phức tạp dùng dé
tạo câu mô tả ảnh như Meshed Memory Transformer, Object Relation
Transformer Các mô hình này được liên tục huấn luyện dựa trên dữ liệu mới
được cập nhật thường xuyên vào hệ thống
> Chương 5: Xây dựng ứng dụng hỗ trợ mô tả ảnh tự động theo thời gian
thực
Chúng tôi sẽ trình bày về quy trình triển khai và công nghệ được sử dụng đểtạo ra ứng dụng điện thoại cung cấp công cụ hỗ trợ tạo câu mô tả cho hình ảnh
> Chương 6: Kết luận và hướng phát triển
Chúng tôi đánh giá lại và đưa ra những thành tựu sau khi thực hiện khoá luận,
cũng như chỉ ra những điều còn hạn chế và đề xuất hướng có thể giúp phát
triên khoá luận sau này.
Trang 16Chương 1 Tổng quan khóa luận
1.1 Giới thiệu khoá luận
Đề tài của chúng tôi nghiên cứu năm trong thời đại của kỹ thuật số, nơi mà dữ liệuđóng vai trò nòng cốt trong hầu hết mọi mặt đời sống, từ kinh doanh tới an ninh và
cả ngành có tính chất đặc thù giáo dục Dữ liệu được sinh ra liên tục, theo thống kê
của trang Statista [1], mỗi ngày có trung bình 328.77 Terra Byte dữ liệu được tạo ra.
Dữ liệu được tạo ra là rất phong phú và dưới đa dạng hình thức khác nhau, bao gồmvăn bản, hình ảnh, video, âm thanh và nhiều hơn nữa Nhưng nỗi bật lên chính là ditliệu đưới dang hình anh, dạng dữ liệu này chiếm tỷ trọng không hề nhỏ trong tổnglượng dit liệu đã từng được sinh ra Lý do cho chuyện đó xuất phat từ sự phát triểnnhư vũ bão của công nghệ hình ảnh số, từ smartphone, máy ảnh kỹ thuật số, cho tớidrone và các loại cảm biến hình ảnh khác Dữ liệu hình ảnh là một trong những dạng
dữ liệu giàu thông tin và có tiềm năng khai thác đáng kê Điều này sẽ thật sự đángtiếc là nếu chúng ta không tận dụng và khai thác dữ liệu này một cách triệt để, nó sẽ
trở thành một sự lãng phí không dang có.
Mô tả hình ảnh tự động là bài toán không mới nó đã thu hút được sự quan tâm từ rất
lâu tước đây Tuy nhiên việc tiếp cận bài toán còn nhiều khó khăn, trong đó sự thiếu
hụt về nguồn đữ liệu chính là nguyên nhân chính Đặc biệt là sự thiếu hụt nguồn dirliệu tiếng Việt Nhưng trong bối cảnh hiện nay cùng với nhiều công nghệ đủ sức làmthay đôi cách thé giới vận hành như công nghệ dữ liệu lớn, trí tuệ nhân tao, Internetvạn vật, Chính điều này trở thành chìa khoá để vượt qua những khó khăn của bàitoán Do đó nhóm chúng tôi chọn chọn cách sử dụng công nghệ đữ liệu lớn, cụ thé là
Kafka, một công nghệ dòng dit liệu (Data Streaming) phô biến, dé thu thập dữ liệu
hình ảnh và văn bản thông qua các kênh khác nhau một cách liên tục theo thời gian
thực Việc này không chỉ mang lại cho mô hình nguồn dé liệu đa lĩnh vực, mà cònkhiến mô hình học liên tục và cập nhật kiến thức của mình theo thời gian, từ đó tăng
cường chât lượng của câu mô tả.
Trang 17Bài toán chúng tôi đang giải có thể hiểu đơn giản như sau: Khi nhận được hình anh
chúng tôi sẽ tiễn hành tạo ra một câu mô tả tương ứng Cụ thé hơn:
° Đầu vào: Một hình ảnh ngẫu nhiên có thé thu thập từ bat kỳ đâu
° Đầu ra: Câu mô tả diễn giải hình ảnh tương ứng
Người thổ dân dùng cỏ
Hệ thông mô tả ảnh khô tạo lửa
Hình 1.1: Một ví dụ cho việc tao sinh câu mô tả
Đề tài khoá luận này không chỉ đóng góp cho khoa học, mà còn mở ra con đường chonhững ứng dụng thực tế mới của công nghệ này Đây chính là lý do chúng tôi thựchiện khoá luận với niềm tin rằng khả năng của máy móc trong việc hiểu và mô tả hìnhảnh sẽ tiếp tục được cải tiến, trở thành một công cụ đắc lực hỗ trợ giải quyết nhiều
những khó khăn còn tồn đọng trong xã hội hiện đại giúp cải thiện cuộc sống.
1.2 Tính ứng dụng của khoá luận
Như đã đề cập ở phần giới thiệu khoá luận, trong thế giới ngày càng hiện đại hóa và
số hoá, nhu cầu của xã hội đối với việc xử lý thông tin tự động và nhanh chóng ngày
cảng tăng Đặc biệt, với sự bùng nô của đữ liệu hình ảnh, việc khai thác thông tin từhình ảnh trở thành một yêu cầu không thê thiếu trong mọi lĩnh vực Điều này đặt ranhu cau cho việc phát triển một hệ thống có thé mô tả ảnh tự động theo thời gian thực
ở nhiều lĩnh vực khác nhau là vô cũng cấp thiết Trong bối cảnh cấp thiết đó, giải
10
Trang 18pháp của chúng tôi đề xuất có tiềm năng ứng dụng rất lớn trong nhiều lĩnh vực đờisông từ đó làm đòn bây cho sự phát triển kinh tế, xã hội ở Việt Nam.
Sau quá trình nghiên cứu các mô hình, kết quả nghiên cứu của chúng tôi đã cho phép
mô tả các hình ảnh ở nhiều lĩnh vực khác nhau với sự đầy đủ về ngữ cảnh và ngữnghĩa Từ đó có thể làm cơ sở để ứng dụng vào việc hỗ trợ đời sống của những người
có khiếm khuyết về thị giác, khó khăn trong vấn đề diễn tả ngôn ngữ Không chỉ dừng
lại ở hỗ trợ đời sống thường ngày mà nó còn có khả năng ứng dụng ngay cả trongpháp triển kinh tế, y tế, an ninh, bằng cách mô tả các dữ liệu ảnh đầu vào cần thiếtlàm cơ sở giúp người quản trị có thé quản trị và đưa ra các quyết định nhanh chóng
và hiệu quả.
Với những ứng dụng thực tiễn này, chúng ta có thê thấy việc phát triển một hệ thống
mô tả ảnh đa lĩnh vực tự động theo thời gian thực không chỉ đáp ứng nhu cầu của xã
hội mà còn đóng góp vào việc cải thiện chât lượng cuộc sông một cách mạnh mẽ.
11
Trang 19Chương 2 Các công trình nghiên cứu liên quan
2.1 Lĩnh vực mô tả ảnh tự động
Với sự đột phá trong kiến trúc mô hình học sâu, điều này đã nền móng cho áp dụng
trí tuệ nhân tạo vào cải thiện chất lượng đời song và dich vụ Không ngoại lệ, bai toán
mô tả ảnh tự động trở thành một thách thức mới lạ và thu hút được phần đông giới
khoa học Từ những bài toán sơ khai, mô tả ảnh tự động đơn giản chỉ sử dụng các mô
hình nhận diện vật thé dé đưa ra các chú thích don giản với tên của đối tượng chính
trong ảnh như trong nghiên cứu của [2, 3] Từ lúc đây, với sự ra đời mạnh mẽ của
những bộ dữ liệu có kích thước lớn và chất lượng cao dé huấn luyện và đánh giá bàitoán này như Flickr-8k của tác giả [4] với 8092 ảnh, và kế đến là Flickr-30k của tácgia [5] đã tạo điều kiện lớn cho mô hình học sâu được phát triển phục vụ bài toán mô
tả ảnh tự động Và đáng chú ý hon, Microsoft đã công bé dữ liệu về lĩnh vực này baogồm hơn 123,000 ảnh, từ đó thị trường nghiên cứu cho bài toán đa phần sử dụng MSCoco [6] dé làm dữ liệu benchmark dé xây dựng mô hình của họ Những nghiên cứu
tiêu biểu về các mô hình mô ta ảnh tự động ban đầu dùng các mạng CNN để lấy ra
đặc trưng, và từ những đặc trưng này, các kiến trúc mạng RNN được áp dụng nhưmột mô hình ngôn ngữ đề tạo ra câu mô tả tương ứng Càng về sau, những kiến trúcCNN tiên phong như ResNet [7], VGG [7] ra đời, nhà nghiên cứu bắt đầu sử dụngnhững kiến trúc lớn này dé trích xuất đặc trưng thay vì những lớp mang CNN đơn
giản như trước, cách tiếp cận này đã tối ưu hóa được hiệu suất mô hình nhờ vào
phương pháp học chuyền đổi (Transfer Learning) Các nghiên cứu đặc sắc ở thời kỳ
này có thé kế đến với [8, 9, 10] Thêm vào đó, các nghiên cứu áp dụng kỹ thuật
attention lên các bài toán học sâu ở thời gian đó đã tao sự chú ý lên rất nhiều lĩnh vực
sử dụng các lớp mạng tương tự Dựa trên kết quả đó, Kelvin và các cộng sự [11] đãcải tiến mô hình Show and Tell bằng việc sử dụng thêm kỹ thuật attention kết hợpvới mạng LSTM ở tầng Decoder, tạo ra một mô hình SOTA mới đó là Show attendand tell [12] Bắt đầu từ năm 2017, những nhà nghiên cứu bắt đầu nhận ra nhữngđiểm chưa tối ưu từ những phương pháp trích xuất đặc trưng từ ảnh dùng các kiến
12
Trang 20trúc CNN, những phát triển sử dụng các mô hình nhận diện vật thé dé trích xuất đặctrưng lại mang lại hiệu quả cao cho bài toán mô tả hình ảnh có thể kế đến như [13,
14, 15].
Bên cạnh những nghiên cứu đột phát về phần Encoder của mô hình, những phát triển
của mô hình ngôn ngữ trong bai toán mô tả ảnh tự động cũng được nghiên cứu rộng
rãi, những mô hình sử dụng kiến trúc RNN-based như LSTM hay GRU từ nhữngnghiên cứu [16, 17] Hay có thể kế đến mức đột phá từ phát minh kiến trúcTransformer, nhờ vào kiến trúc này đã cải tiễn các tác vụ xử lý ngôn ngữ bằng cáchgiới thiệu cơ chế tự chú ý (self-attention) dé năm bắt các mỗi quan hệ theo ngữ cảnh,cho phép song song hóa hiệu qua dé xử lý nhanh hơn và tạo điều kiện học tập chuyêngiao thông qua huấn luyện trên các bộ dữ liệu quy mô lớn, dẫn đến tiến bộ đáng kê
trong năm được nội dung ảnh và tạo sinh ra câu mô tả gân với ngôn ngữ tự nhiên.
2.2 Lĩnh vực xử lý dòng dữ liệu và học liên tục
Hiện nay các công trình khai thác nguồn đữ liệu lớn đang rất được quan tâm và đầu
tư phát triển Bởi vi tính ứng dụng cao cho các hệ thống cần xử với các luồng dit liệulớn đến trong thời gian thực Về mặt lợi ích, nếu chúng ta có thể tạo một hệ thống
chứa đữ liệu đồ về theo thời gian thực và huấn luyện mô hình liên tục dựa trên dữ
liệu mới thì mô hình có độ chính xác cao sẽ được sinh ra cùng với sự linh hoạt đáp
ứng cho đa dang bài toán phục vụ đời sống Vậy nên, các nhà nghiên cứu từ lâu đãtinh chỉnh và thực nghiệm cho phép các mô hình học liên tục dựa trên các nguồn dữliệu trên trực tuyến Ví dụ sơ khai về các thuật toán học trực tuyến, chăng hạn nhưSVM có cấu trúc trực tuyến [18] và trực tuyến thụ động tích cực [19] (Online Passive-Aggressive), đã trở thành công cụ xử lý đữ liệu truyền trực tuyến Các thuật toán naycho phép ứng dụng trong bối cảnh truyền phát chú thích hình anh dé cập nhật môhình dần dần khi nhận được hình ảnh mới Dựa vào đó, những công nghệ hỗ trợ vậnhành các hệ thống streaming dữ liệu đã ra đời với nhiều bước cải tiến đột phá hơn
trên các mô hình học sâu như Apache Kafka [20] va Apache Flink [21] Và các kỹ
13
Trang 21thuật học trực tuyến giúp cập nhật dần các mô hình sâu khi truyền dữ liệu đến, cho
phép học theo thời gian thực cũng được đề xuất rộng rãi từ [22, 23]
Qua nghiên cứu, một vấn đề tiềm tàng đã được chỉ ra trong các phương pháp học trực
tuyến với dữ liệu cập nhật đề huấn luyện theo thời gian thực Đó là khả năng của các
mô hình quên đi những đặc trưng đã học khi được nó được học đữ liệu mới Do đó
đã có rất nhiều giải pháp được đưa ra nhằm tăng cường khả năng học của các mô hình
học trực tuyến Vi dụ, Neural Turing Machines (NTMs) và Differentiable Neural
Computers (DNCs) đã được phat trién dé két hop kiến trúc học sâu với cấu trúc bộ
nhớ ngoài, được phát triển bởi [24, 25] Những công trình này là nền móng để xâydựng mô hình trong hệ thống có thể thích ứng với đữ liệu cập nhật trực tuyến mới
trong khi tránh được tình trạng quên đi các đặc trưng đã từng học.
14
Trang 22Chương 3 Các phương pháp đề xuất
3.1 Tổng quan phương pháp đề xuất
Phần này sẽ trình bày phương pháp tiếp cận độc đáo và hiệu quả mà chúng tôi đề xuất
để giải quyết thách thức của bài toán mô tả hình ảnh tự động và mang lại hiệu suấttốt Việc áp dụng, điều chỉnh các mô hình học sâu có độ phức tạp cao sẽ giúp mô hìnhđưa ra các câu mô tả chính xác và có ngữ nghĩa tốt Tuy vậy, nhận thấy rằng nhữngphương pháp và mô hình trên chưa thực sự đáp ứng toàn diện các yêu cầu của bài
toán là mô tả ảnh trên nhiều lĩnh vực trong khi lượng nguồn dữ liệu ở tiếng Việt đangcòn rất hạn chế Bắt đầu từ khó khăn này nhóm chúng tôi đã chọn ứng dụng công
nghệ dữ liệu lớn phục vụ cho việc thu thập giúp tăng cường sự đa dạng cho dữ liệu
từ đó cho phép mô hình học và đưa ra câu mô tả cho hình ảnh ở đa lĩnh vực.
Áp dụng chiến lược phối hợp sử dụng các công nghệ mới, chúng tôi sẽ sử dụng nhữngthế mạnh của các mô hình học sâu có độ phức tạp cao như Object Relation
Transformer, Meshed-Memory Transformer, Cùng với việc xử lý dữ liệu lớn và
chúng tôi thiết lập cho phép mô hình học liên tục từ những hình anh mới từ đó chophép xây dựng mô hình tạo sinh câu mô tả chính xác nhất cho hình ảnh
15
Trang 23THU THẬP XỬ LÝ DỮ LIỆU WIKI
Tăng cường Thu thập, xử lý dữ
Hình 3.1: Sơ đồ tổng quan cách hệ thống vận hành
3.2 Phương pháp Streaming dữ liệu
Như ở Hình 3.1, ta có thé ở quá trình thu thập và xử lý dữ liệu Wiki thì giai đoạnstreaming dit liệu bắt đầu với dir liệu được thu thập, xử lý và tăng cường Đầu vàocủa dit liệu là Producer, nó sẽ giao tiếp với consumer băng topic ở Kafka broker rồilưu lại vào cơ sở dữ liệu đưới dang JSON bao gồm url va caption tương ứng cho ảnhnhư ở Hình 3.2 Mục dich của này là dé quản lý hiệu quả một lượng lớn dữ liệu đô về
16
Trang 24cùng một lúc, từ đó phục vụ cho khả năng mở rộng và phát triển bài toán trong tương
lai.
Ngoài ra dé phục vu bài toán thì chúng tôi còn dùng 2 bộ dit liệu dé phục vụ bài toán
cho huân luyện và kiêm thử bài toán.
© UIT-ViIC [26] : Bộ dữ liệu chứa 3.850 hình ảnh thé thao được lay từ phiên ban
năm 2017 của bộ dữ liệu Microsoft COCO Tương tự như Microsoft COCO,
nó cung cấp năm phụ đề tiếng Việt cho mỗi hình ảnh, tổng cộng là 19.250 phụ
đề Đặc biệt, các mô tả hình ảnh này được tạo thủ công, với tham chiếu từ các
mô tả gốc các hình ảnh tương ứng trên MSCOCO
e Bộ dữ liệu kiểm thử: Bộ dữ liệu chứa 769 hình ảnh va câu mô tả tương ứng
Bộ dữ liệu được xây dựng thủ công thông qua những hình ảnh thu thập và
chọn lọc ngẫu nhiên từ Wikipedia Với nhãn là những câu mô tả được gán
nhan thủ công bằng công cụ nhóm tự phát trién
Hai bộ dữ liệu này cũng trải qua quy trình lưu trữ như dữ liệu được thu thập từ
Wikipedia để phục vụ bài toán
3.2.1 Phương pháp thu thập và xử lý dữ liệu
Trong quá trình thu thập dữ liệu, chúng tôi đã có nhiều nguồn đề thu thập ảnh và câu
mô tả, bao gồm các trang báo, mạng xã hội, thư viện học thuật và nhiều nguồn khác
Tuy nhiên, chúng tôi đã quyết định chỉ sử dụng nguồn dữ liệu từ Wikipedia vì các lý
do sau:
e Một trong những nguồn dữ liệu dồi dào, da dang và dễ tiếp cận chính là mạng
xã hội Nhưng ở trên nền tảng này các câu mô tả ảnh thường không mô tả nội
dung ảnh mà câu mô tả này thường là suy nghĩ cảm xúc của họ Chính vì vậy
nó không phù hợp va không có giá tri cho bài toán.
17
Trang 25e Các trang báo cũng là nguồn dữ liệu rất lớn và tiềm năng Nhưng sau khi tìm
hiểu thì chúng tôi nhận ra ở các trang này các câu mô tả tập trung vào miêu tảmột người một sự việc một địa danh cụ thể và câu mô tả cũng chứa đựng quánhiều cảm xúc ảnh hưởng bởi bối cảnh bài báo Chính vì vậy nguồn dữ liệu
này cũng không phù hợp.
e Wikipedia có da dạng lĩnh vực trong đời sống đặc biệt nó tồn tại các hình ảnh
và câu mô tả thích hợp cho bài toán, các câu mô tả không lang mang mà miêu
tả trực tiếp chủ thé trong ảnh và sự kiện đang diễn ra Đây là nguồn dữ liệu lý
tưởng dé phát triển bài toán
Nhìn Hình 3.2 ta có thé thay tổng quan về quy trình streaming dữ liệu dé có được
nguồn dữ liệu chất lượng
đc Return Page = ,
oC 15 re Beautifulfoup
Saxe" Get Request
WIKIPEDIA
GIAI DOAN XỬ LY DỮ LIEU
Tang cường dữ liệu Hình ảnh Mô tả
Trang 26Quy trình có thể miêu tả qua các bước chính: Chúng tôi xây dựng một mã nguồn thu
thập dữ liệu từ Wikipedia, tiếp theo tiến hành xử lý dit liệu Tiếp đến dữ liệu trải quacông đoạn streaming rồi được lưu trữ vào kho dữ liệu để làm đầu vào cho mô hình
Quy trình trên cho phép mô hình học liên tục từ dữ liệu mới Chúng tôi tinh chỉnh
cho mô hình sẽ tiếp tục học mỗi khi có điểm dữ liệu mới được gửi về
3.2.1.1 Phương pháp thu thập dữ liệu
Chúng tôi đã áp dụng ngôn ngữ lập trình Python và thư viện BeautifulSoup trong việc
thu thập thông tin từ trang Wikipedia - một quá trình và phương pháp sẽ được giới
thiệu trong phan này Sử dụng BeautifulSoup, một thư viện phổ biến của Python,chúng tôi đã có thê phân tích và rút trích thông tin từ các trang web Đồng thời, dé hỗ
trợ việc giao tiếp với trang web thông qua các giao thức HTTP, chúng tôi đã tận dụng
thư viện 'requests' cua Python.
Nhu có thé thay ở Hình 3.2, chúng tôi gửi yêu cầu GET đến Wikipedia thông qua thưviện request cùng với từ khoá đã được chỉ định Từ khoá sẽ đóng vai trò tìm kiếm tất
cả những trang Wikipedia có dính tới từ khoá được chỉ định Việc này giúp cho quá
trình thu thập diễn ra đơn giản và nhanh chóng hơn Sau khi nhận phản hồi từWikipedia, chúng tôi dùng thư viện BeautifulSoup dé phân tích cú pháp HTML củatrang web và tìm các phần tử HTML chứa thông tin url của hình ảnh và mô tả củaảnh tương ứng Cuối cùng, chúng tôi trích xuất các url và mô tả của hình ảnh từ cácphần tử HTML đã tìm được và chuyền sang giai đoạn tiếp theo
3.2.1.2 Phương pháp xử lý dữ liệu
Như được biết, Wikipedia [27] là một website hỗ trợ các tính năng đăng tải và điềuchỉnh nội dung về khái niệm, hay mô tả của những đối tượng trên thế giới, và tổnglượng thông tin không lỗ trên trang web được đóng góp từ nhiều người, dù vậy cáctrang web không hé đưa rat bat kì quy tắc nào về cấu trúc hay nội dung của trên trang
19
Trang 27web Bởi thế số lượng ảnh và câu mô tả được lấy từ trang web cần phải được làm
sạch và chuyên đổi dé tăng cường khả năng học của các thuật toán mô tả ảnh tự độngtrên dữ liệu được thu thập Với các dữ liệu được lấy từ hệ thống streaming tự động
của chúng tôi trên trang web Wikipedia, việc xây dựng phương pháp xử lý dữ liệu
với mục tiêu vượt qua những vấn đề xảy ra trong việc chú thích hình ảnh, như sựkhông chính xác và không rõ ràng của các chú thích hiện tại Kết quả từ phương phápnày sẽ cải thiện chất lượng và tính hợp lý của các chú thích, giúp hệ thống dòng dữ
liệu hoạt động một cách tối ưu hơn, và các mô hình cũng sẽ được học những câu chúthích mô tả phù hợp hơn về các đối tượng của hình ảnh
Pelé (áo xanh dương), người được mệnh danh là © Albert Camus, nhà văn, triết gia nổi #!
"Trường xuân bách từ do" (Rae ¿1 a ` = £ tiéng, một thời từng là thủ môn bóng
FW) \§ vào thời Tông mỡ eve một trong những ngôi sao bóng đá vĩ đại nhât mọi đá
Trung Quốc chơi môn xúc cúc thời đại.
Hình 3.3: Những câu mô tả không phù hợp
Từ ví dụ trên ảnh, chúng tôi có thể cho thấy rằng các mẫu dữ liệu này không thích
hop dé đưa vào huấn luyện cho các mô hình mô tả ảnh tự động với các dẫn chứngsau Thứ nhất, với câu mô tả (1) thực chất là câu diễn giải khái niệm đặc trưng chobức tranh, thậm chí còn chứa tiếng Trung Quốc sẽ gây nhiễu nặng cho mô hình học
máy Bên cạnh đó, câu mô tả của hình (2) và hình (3) không nhằm mục đích miêu tả
đối tượng hay hành động diễn ra trong bức hình mà đưa ra thông tin của một ngườinổi tiếng trong hình, mô hình học máy hiện tại vẫn chưa thể năm bắt và dự đoánnhững thông tin cụ thể đến chủ thể như thế này Cho nên, kỹ thuật xử lý trên các loại
20
Trang 28dữ liệu này được chúng tôi thiết kế dựa trên các nguyên tắc cụ thê và lấy cảm hứng
từ [28] Đầu tiên, để phương pháp lọc và chuyên đổi dữ liệu có được kết quả cao và
tối ưu nhất, nhóm chúng tôi tiến hành đưa ra các nguyên tắc nghiêm khắc dé chọn lọc
cho ảnh và câu mô tả Riêng về ảnh, tat cả các bức hình trước khi được lưu vào cơ sở
dữ liệu thông qua hệ thống streaming sẽ phải trải qua bước lọc ảnh để lượt bớt cácảnh không phù hợp hoặc không đủ chất lượng Kỹ thuật này năm giữ vai trò then chốttrong quá trình phát triên một bộ dữ liệu và đảm bảo răng chỉ có những ảnh chất lượng
cao và liên quan có đủ điều kiện cho các bước tiếp theo của hệ thống như đảo tạo mô
hình hay đánh gia dir liệu Bên cạnh đó, các nguyên tắc lọc dựa trên câu mô tả cũng
được áp dụng, để loại bỏ các nội dung không phù hợp hoặc không cần thiết Bước
này có ảnh hưởng then chốt trong quá trình tiền xử lý các chú thích đưới dạng vănbản, giúp tăng cường chất lượng và độ tin cậy của các câu mô tả được khai thác cho
các mục tiêu tiếp theo như phân loại, trích xuất thông tin, hay xây dựng mô hình dự
đoán Bước kế đến của quá trình lọc là bước kết hợp đặc điểm của cả bức hình và câuchú thích dé tiến hành nhận định liệu cặp dữ liệu này có kết nối và thích hợp dé tiễnhành huấn luyện cho mô hình hay không, quá trình này nhằm loại trừ các thông tinkhông phù hợp hoặc không cần thiết từ cả hình ảnh và văn bản mô tả liên quan Cuốicùng, sau khi trải qua các bước lọc với những nguyên tắc khắc khe đối với cả ảnh và
câu mô tả, dữ liệu được đưa vào hệ thông sẽ đảm bảo là những câu mô tả có cấu trúc
và hình ảnh chất lượng cho các mô hình, dù vậy quá trình thay thế các thuật ngữ cụthê (như tên riêng, số, đơn vị) trong văn bản băng các thuật ngữ toàn cục vẫn rất cầnthiết Những tên riêng hay số liệu về ngày tháng năm cần được thay thế và loại bỏ
Ví dụ như câu mô tả thường thấy về chủ đề thể thao như “Messi đang đá quả bóng về
phía khung thành”, sẽ được thay đỗi thành “cầu thủ bóng đá đang đá quả bóng về phía khung thành” Quá trình này giúp tạo ra một biéu diễn văn bản được tinh chỉnh,
sử dụng các thuật ngữ chung hơn, giúp tập trung vào khái niệm toàn cục và giảm sự
chi tiết không cần thiết Điều này cung cấp một cách tiếp cận trừu tượng hơn và chophép các nhiệm vụ xử lí dữ liệu va phân tích tiếp theo trở nên dé dang hơn, như huấn
luyện các mô hình dự đoán.
21
Trang 29Dữ liệu sau khi
NINH tương quan IEE)
Bee AGNES chuyền đôi
F —— giữa hình ảnh pets
Câu mô tả và nội dung mô Cau mô ta
Iker Casilas bay người ` ip tả ae ios oe
can pha banh khdi | ; , | Loc dữ liệu trên LÊ Hạc Ranh khung thành câu mô tả eae
àn|
il
Hình 3.4: Quy trình xử lý dữ liệu được thu thập từ Wikipedia
a Phương pháp lọc dựa trên ảnh.
Ở mục này, thư viện PIL sẽ được sử dụng cho việc kiểm tra tất cả bức hình được tìmthấy trên Wikipedia có đáp ứng được chất lượng hay không Với các hình với chiềudài và chiều rộng tương ứng không vượt qua mức 300 pixel sẽ được loại trừ Giúp
cho hệ thống chọn lọc ra những tắm hình chat lượng và day đủ thông tin.
b Phương pháp lọc dựa trên câu mô tả.
Ở phần này, chúng tôi sẽ thực nghiệm phương pháp dựa trên thư viện spacy [29] được
cung cấp bởi Python, với mô hình ngôn ngữ đã huấn luyện trước trên dữ liệu tiếng
Việt tên là "vi core news_Ig” [30] dé phân tích cú pháp và tách từ cho các từ trongcâu chú thích Đầu tiên, ứng với mỗi câu mô tả sẽ được tách từ dựa trên bộ tách từ
của mô hình ngôn ngữ đã tải lên thư viện spacy cho việc phân tích các từ trong câu
trở nên dễ dàng hơn.
Vi dụ : ứng với câu “một người đàn ông đang di bộ ra khỏi căn nha” sẽ được tach
thành danh sách các từ như sau [(một, 'M), (ngườï, 'Nc’), (đàn ông', N), (đang,
'R), (dit, 'V), (bội, 'N}), (ra, 'V), (khỏi', 'V), can’, 'Ne'), (nhàt, ND]
22
Trang 30Dựa trên các danh sách tách từ của các câu mô tả, chúng tôi sẽ đưa ra 5 nguyên tac
sau đê kiêm tra liệu rang một câu mô tả đủ tiêu chuân hay chưa:
‹ Kiểm tra các tỷ lệ các từ lặp lại trong câu: Chúng tôi sẽ kiểm tra điều kiện
này bằng cách tính từ lặp lại nhiều nhất trong câu, và chia nó với tổng số lượng
từ trong câu sẽ được tỷ lệ các từ lặp, miễn là tỷ lệ này không quá 0.5 thì câu
mô tả được cho là đạt tiêu chuẩn cho điều kiện này Tiêu chuan này giúp chúngtôi lọc được những câu mô tả bị lỗi hoặc thiếu tính chính xác Ý nghĩa của việc
tính tỷ lệ này dùng để đo lường mức độ đa dạng ngôn ngữ Một câu mô tả tốtnên có một tỷ lệ lặp từ thấp, điều này cho thấy câu mô tả tận dụng nhiều từvựng đa dạng hơn đề diễn đạt
Ví dụ : “Cầu thủ giao cầu” = tỷ lệ từ lặp là 0.5
+ Kiểm tra tỷ lệ loại từ cho phép trong câu: Một đoạn mô tả được xem là có
cau trúc tốt khi ty lệ từ duy nhất trong đó cao và bao gồm các loại từ ngữ (POS
tags) khác nhau Các đoạn mô tả không chứa từ chỉ định, không chứa danh từ
hoặc không chứa giới từ sẽ bị loại bỏ Đồng thời, các đoạn mô tả có tỷ lệ từdanh từ quá cao cũng sẽ bị loại bỏ Điều này nhăm đảm bảo rằng các đoạn mô
ta được chọn lọc phải có cau trúc ngôn ngữ đúng đắn và đáp ứng các yêu cầu
về đa dạng từ ngữ Bằng việc tuân thủ các ràng buộc trên, điều kiện này tìmkiếm các đoạn chú thích phủ hợp và có khả năng miêu tả bức hình đầy đủ và
chính xác nhất Vận dụng dựa trên các thực nghiệm, kỹ thuật này sẽ xác định
trước với những loại từ ngữ hợp lệ sẽ thuộc vào 5 loại bao gồm: danh từ, động
từ, tính từ, danh từ riêng và pho từ Đầu tiên số lượng các từ có POS tag thuộcvào tập hợp các loại từ cho phép được đếm Đây là số lượng các từ trong cóloại nằm trong tập hợp 5 loại được định nghĩa trước va là những loại phù hợp
dé cấu thành một câu hoàn chỉnh Từ đó, tỷ lệ này được tính băng cách chia sốlượng các từ có loại từ thuộc vào tập hợp loại từ cho phép chia cho tổng số
lượng các từ trong câu và sao cho tỷ lệ không được nhỏ hơn 0.5.
23
Trang 31Vi dụ: “một người dan ông đang di bộ ra khỏi căn nhà” với các loại từ tương ứng là [(một, 'M), (người, 'Nc’), (đàn ông), 'N), (đang', 'R), (‘di', 'V'), (bộ',
'N'), (ra', 'V'), (khỏr, 'V'), (căn', Ne'), (inha', 'N')], vậy những tách từ có loại
từ hợp lệ bao gồm (đàn _ông', "N), (đang', 'R', (‘di’, 'V'), (bộ!, N9, (‘ra’, 'V’),
(khỏi', 'V'), (nhà!, 'N’) là 7 từ, 7 từ chia cho tổng số lượng từ trong câu là 10
thì tỷ lệ này sẽ là 0.7 > hợp lệ.
« Kiểm tra tỷ lệ danh từ trong câu: Bên cạnh đó để loại trừ các tình huống
mà câu mô tả của các bức ảnh trên Wikipedia được viết theo cách trích dẫntên của một người hay chỉ kèm tên của một nhân vật nổi tiếng dưới bức ảnh
Vi dụ như câu mô ta “Lionel Messi”, thi chúng tôi thực nghiệm phương pháp
tính tỷ lệ danh từ trong câu bằng cách đếm số lượng danh từ và chia với tổng
sỐ lượng từ của câu Đề hợp lệ, tỷ lệ danh từ không được vượt hơn 0.9, điềunay dé loại bỏ những câu mô tả chỉ kèm tên riêng của một người hay đồ vật rakhỏi hệ thống
Vị dụ: “một người đàn ông đang đi bộ ra khỏi căn nhà” câu này có 2 từ thuộc
loại danh từ dựa trên bộ tach từ của mô hình ngôn ngữ là (‘dan_6ng', 'N'), (nhà, 'N') => ty lệ danh từ của câu là 0.2 => hop lệ.
« Tỷ lệ từ viết hoa: Chúng tôi cũng đưa ra cách tinh tỷ lệ số từ viết hoa trêntổng số từ trong caption nham mục dich loại bỏ các câu từ không mang tinh
mô tả mà đề cập quá nhiều về tên riêng của các nhân vật hay đồ vật khiến cho
việc chuẩn hóa các từ trên của mô hình dự đoán trở nên khó khăn Dựa vào
đó, nêu tỷ lệ này không dưới 0.5 thì câu mô tả được tính là không hợp lệ
Vi dụ: với câu mô tả "một người đàn ông đang di bộ ra khỏi căn nhà” tương
ứng không có từ viết hoa nào nên tỷ lệ từ viết hoa sẽ bằng 0 > hợp lệ
24
Trang 32c Phương pháp lọc dựa trên sự tương quan giữa ảnh và câu mô tả.
Ngoài việc lọc riêng biệt dựa trên nội dung hình ảnh và văn bản, chúng tôi cũng lọc
bỏ các mẫu đữ liệu mà không có từ nảo trong văn bản có thể tương ứng với nội dungcủa hình ảnh Dé tiến hành kỹ thuật này, chúng tôi áp dung các bộ phân loại có sẵnthông qua các API Google Cloud Vision [31] dé phân loại các lớp cho bức ảnh, sửdụng một bộ phân loại hình ảnh với một số lượng nhãn lớn (từ khoảng 10^5) Đáng
chú ý, những nhãn này cũng được phủ 100% bởi các loại từ Thông thường, hình ảnh
được gán từ 5 đến 20 nhãn, tuy số lượng chính xác phụ thuộc vào hình ảnh cụ thê
Chúng tôi so khớp các nhãn này với các chú thích ứng cử viên, lẫy vào cả việc phân
giải hình thai dựa trên thông tin từ trong chú thích Mục tiêu chính của kỹ thuật này
là sử dụng các bộ phân loại hình ảnh để gán nhãn cho hình ảnh và so khớp các nhãn
này với từ nằm trong câu mô tả Nếu không có sự trùng lắp giữa các nhãn bức ảnh và
từ trong câu chú thích, chúng tôi loại bỏ mau đữ liệu đó Điều này giúp chúng tôi chỉgiữ lại những câu mô tả có liên quan đến nội dung của bức ảnh, đảm bảo tính chínhxác và phù hợp của các mô tả đối với bức ảnh Thông qua kỹ thuật lọc bức ảnh-vănbản này, chúng tôi đã đề xuất một tập dữ liệu cho bài toán mô tả ảnh tự động đã đượclọc và tinh chỉnh, sẵn sàng cho việc áp dụng cho các phần mềm tự động tạo chú thích
ảnh.
3.2.2 Phương pháp tăng cường chất lượng dữ liệu
Sau khi trải qua các ba bước lọc dựa trên từ, ảnh và kết hợp giữa từ và ảnh thì các dữ
liệu văn bản và ảnh chất lượng và mang day đủ các tính chat để cau thành một câu
mô tả hoàn chỉnh Bên cạnh đó, một số văn bản trên Wikipedia bao gồm các từ ngữ
chỉ các khái niệm hay chủ thé quá chỉ tiết như tên người, đồ vật, khái niệm, Cho
nên cần có một bước chuyển đôi dé thực nghiệm các chỉnh sửa trên các mô tả, nhằm
tạo ra một mô tả tổng quát hơn và tập trung vào các khái niệm khái quát hơn
25
Trang 33Từ câu mô tả ban đầu chúng tôi thực hiện biến đổi văn bản thành một câu mô ta tương
ứng với ngữ nghĩa tổng quát hơn Bằng cách lược bớt các thông tin không quan trong
và thay thế chúng bằng các từ vô danh khái quát, ta có khả năng tạo ra một mô tả ảnh
tổng quát hơn, không chỉ giới hạn trong ngữ cảnh cụ thể của ảnh Điều này giúp đảmbảo rằng các mô tả hình ảnh không chứa quá nhiều thông tin chỉ tiết và tập trung vàocác khái niệm khái quát ma dé dé dang nắm bắt được ngữ cảnh và nội dung của bức
ảnh hơn.
Ví dụ, thay vì mô tả một hình ảnh của "Calista Flockhart đứng trên đường phố LosAngeles", chúng tôi sẽ biến đổi mô tả này thành "diễn viên đứng trên đường phố".Thay vi tập trung vào danh tinh cụ thé của các người trong hình, mô ta được tập trungvào khái niệm khái quát hơn như "diễn viên" và "đường phố", từ đó tạo ra một mô tả
tổng quát hơn và phù hợp với mục đích tạo chú thích hình ảnh Và dưới đây sẽ là các
bước dé tiễn hành thực hiện kỹ thuật này:
+ Loại bỏ các từ chỉ vị trí hay địa điểm: Y nghĩa của việc loại bỏ các từ chỉ
vị trí hay địa điểm là tạo ra một mô tả hình ảnh có tính chất phi địa lý, tức làkhông giới hạn trong ngữ cảnh chỉ tiết từ một địa điểm bất kì Thay vì chỉ tập
trung vào địa điểm cụ thể, mô tả hình ảnh sau khi loại bỏ các từ chỉ vị trí hay
địa điểm sẽ tập trung vào các khái niệm khái quát như hành động, tình huống,
đặc điểm tổng quát của hình ảnh Điều này rất hữu ích trong việc tạo chú thíchhình ảnh vì những đối tượng kiểm thử có thé đến từ nhiều địa điểm khác nhau
và có thé không quen thuộc với địa điểm cụ thé trong mô tả Bằng cách loại
bỏ các từ chỉ vị trí hay địa điểm, mô tả hình ảnh trở nên dễ hiểu và áp dụngcho mọi người một cách tông quát Về mặt kỹ thuật, dé tiến hành loại bỏ các
vị trí hay từ ngữ chỉ địa điểm ra khỏi câu thì, chúng tôi đầu tiên sẽ lọc và tríchxuất tất cả cách danh từ riêng trong câu dựa vào bộ tách từ của mô hình ngôn
ngữ Kế đến dựa vào các danh từ riêng này, Google Name Entity API [32] sẽ
26
Trang 34được áp dung dé kiêm tra có bat kì danh từ riêng nào thuộc về địa điểm hay
không Nếu có danh từ riêng đó sẽ được loại bỏ ra khỏi câu
+ Loại bỏ các thông tin về ngày thang, thời lượng: Việc loại bỏ các thông
tin về ngày tháng cũng có mục tiêu tương tự với các mô hình học sâu, giúp
cho câu mô tả được lược bỏ những thông tin chỉ tiết không cần thiết và có thể
gây nhiễu Dé tiến hành loại bỏ các thông tin về ngày tháng trong câu mô tả,
bởi vì hiện tai các mô hình ngôn ngữ đã huấn luyện trên dữ liệu tiếng Việt vẫn
chưa có hỗ trợ các bộ tách từ có sẵn dùng cho việc nhận diện ngày tháng năm
trong câu Nên chúng tôi tận dụng thư viện Regex của Python cho phương
pháp Regular Expression Chúng tôi sẽ xây dựng các điều kiện sao cho các từ
ngữ chỉ thời gian sẽ thuộc vào Hình 3.5 -tập hợp các điều kiện cho phương
pháp Regex dé nhận diện dữ liệu ngày thang năm
r'\b\w+\b\sngay\s \d{1,2}\s(thang)\s\d{1,4}\s(nam)\s\d{1,4}\b", # ngày dd thắng r'\b\w+\b\sngay\s\d{1,2}\s(thangy\s\d{1,4}\b* # ngày dd tha r’\b\w+\b\sngay\s\d{1,2}\b" # ngay dd
r'\b\s(nam) \s\d{1,4}\b",
r'\b\w+\b\s(thang) \s\d{1,4}\b° # thang mm r'\b\w+\b\s (thang) \s\d{1,4}\s(nam)\s\d{1,4}\b"
r'\b\w+\b\s\d{1,2}[-/]\d{1,2}[-/]\d{2,4}\b' # dd/mm/yy or dd/mm/yyyy r’\b\w+\b\s\d{1,2}[-/]\d{1,2}\b"
Hình 3.5: Loại bỏ yếu tổ thời gian ra khỏi câu mô tả
Các từ có cấu tạo thuộc vào các quy tắc trên sẽ được cho là dit liệu ngày tháng
năm đê loại bỏ ra khỏi câu mô tả.
‹ Thay thé các thực thế được xác định sử dung Knowledge Graph API:
Va dé thực nghiệm việc thay thé các danh từ chỉ tên một người hay đồ vật bằng
27
Trang 35chủ thé mang tinh tong quan hơn như từ “Messi” chuyên đổi về “cầu thủ bóng
đá” Chúng tôi sử dụng Google Knowledge Graph API [33] dé thay đổi các
danh từ riêng trong câu, mà tại đó các danh từ riêng này không phải là loại
thực thé “LOCATION”, dé kiểm tra loại thử thé ở các bộ tách từ chúng tôi tiếp
tục sử dụng Google Name Entity API Với Google Knowledge Graph API,
chúng tôi sé gửi một cụm văn ban bao gồm tên riêng có trong câu mô ta đến
server của API, sau đó sử dụng Python dé trích xuất thông tin từ file JSON trả
về cua server Từ đó có được thông tin mô tả tông quát của thực thê.
”TtemList `, lement": [{" : tySearchResult’,
{`descripti a sĩ kiêm ac nhạc", { contentUrl": '
Hình 3.6: Minh hoạ cách thức hoạt động Knowledge Graph API
Từ dit liệu trả về ta có thể trích xuất được với đầu vào “Justin Bieber” là “Ca sĩ
kiêm sáng tác nhạc” và thay thé dé giúp cho mô hình nhận diện được thông tin
tổng quát hơn về bức ảnh
28
Trang 363.2.3 Phương pháp xây dựng bộ dữ liệu kiểm thử.
Dé có cơ sở đánh giá hiệu suất của mô hình chúng tôi đã tiền hành xây dựng một bộ
dữ liệu kiểm thử cho mô hình Bước đầu tiên chúng tôi xây dựng một phần mềm gán
nhãn dé phục vu cho việc gan nhãn Sau đó chọn ngẫu nhiên 1000 tam ảnh từ nguồnảnh đã thu thập được từ Wikipedia Chia đều cho 2 người gan nhãn theo hướng dan
gán nhãn như sau:
e Khách quan: Người gán nhãn cần viết những gi họ thấy trong hình ảnh
không phải những gì họ suy nghĩ hoặc cảm nhận Câu mô tả cần phải
dựa trên sự thật và mang tính trung lập.
© Chỉ tiết: Người gn nhãn nên cô gắng ghi lại nhiều chi tiết nhất có thé
bao gồm chủ thê chính, hành động, tương tác và ngữ cảnh Ví dụ như
“Một cậu bé đang chơi bóng trên sân cỏ” sẽ mang lại nhiều thông tin
hữu ích hơn “Một cậu bé và quả bóng”
e Ngắn gọn: Mặc dù người gán nhãn cần cung cấp chi tiết mô tả nhưng
hãy làm câu mô tả ngắn gọn không quá dài dòng
e Ngữ pháp chính xác: Người gán nhãn cần sử dụng đúng ngữ pháp và
chính tả Tiếng Việt
Sau khi gán nhãn hoàn thành sẽ tiếp tục kiểm soát chất lượng của bộ dữ liệu kiểm thử
bằng cách hai người gán nhãn sẽ thảo luận và đánh giá lại những câu mô tả và loại
bỏ những hình ảnh và câu mô tả không đủ tiêu chuẩn
3.3 Phương pháp mô tả ảnh tự động
Bài toán mô tả ảnh tự động với mục tiêu từ một dữ liệu dạng ảnh, các mô hình loại
nay có thê tạo ra câu mô tả có thê tông quan hoặc chi tiệt vê nội dung của bức anh đó.
Các mô hình mô tả ảnh tự động thường được câu tạo từ các mô hình tuân tự (sequence
to sequence), với hình ảnh đâu tiên sẽ được đưa vào bộ mã hóa, ở đây bộ mã hóa có
29
Trang 37nhiệm vụ rút trích các đặc trưng từ hình ảnh từ các lớp kiến trúc CNN, những thông
tin này sẽ được truyền đến một bộ giải mã, thường được gọi là mô hình ngôn ngữđược cấu tạo từ các cấu trúc mạng RNN Ở đây, bộ giải mã có nhiệm vụ cầu tạo nêncác từ ngữ theo tuần tự dựa vào các thông tin về ngữ cảnh ở thời gian t trước đó Vì
vậy, các mô hình mô tả ảnh tự động thường là tập hợp của các lớp mạng phức tạp có
câu trúc như hình bên dưới.
Input Image |
Với sự nghiên cứu rộng rãi ở bài toán trích xuất đặc trưng từ bức ảnh, ngày nay xuấthiện những kiến trúc mạng CNN hiện đại được đào tạo sẵn để sử dụng riêng cho mụcđích rút trích đặc trưng từ ảnh Những kiến trúc này thường được học trên bộ dữ liệurat lớn, giúp cho việc kế thừa nó mang lại kết quả tốt ưu khi tiễn hành tinh chỉnh dựa
trên dữ liệu riêng biệt.
Như đã đề cập, những mô hình mô tả ảnh tự động sử dụng các thông tin trích xuất từảnh dé đưa vào mô hình ngôn ngữ và tận dụng thông tin này dé tao ra đúng những
câu mô tả và liên quan với ngữ cảnh của bức ảnh Bên cạnh các lớp mạng cơ bản, mô
hình mô tả ảnh tự động thường được mở rộng thông qua bộ phát hiện vùng nổi bật
(Salient Region Detector) giữa các thành phần mã hóa và giải mã Dựa vào sự tích
hợp với tính năng phát hiện vùng nỗi bật, các thông tin đặc trưng từ từng đối tượng
được truyền tiép vào mô hình ngôn ngữ đê dự đoán ra câu chú thích tôi ưu hơn.
30
Trang 38Convolutional Neural Network
input | Jong erm Memory
Image Encoder Salient Region Detector Language Model
Hình 3.8: Cau trúc mô hình mô tả ảnh tích hợp với phương pháp phát hiện
vùng nôi bật /35]
Dé tiến hành dao tao các mô hình mô ta ảnh tự động, các mô hình này hiện nay thườngxây dựng theo cách toàn diện (end-to-end) Hướng tiếp cận toàn diện này này chỉ ápdụng một hàm mat mát duy nhất cho việc tối ưu toàn bộ mô hình, dé giúp cho các
kiến trúc học sâu đơn giản hóa rất nhiều tác vụ trong quá trình huấn luyện và cũng dé
hệ thống hóa khối lượng tính toán không lồ của mô hình Dựa trên phương pháp lantruyền ngược (back-propagated) các sai số được đưa qua mô hình ngôn ngữ từ bộ mãhóa hình anh đến bộ phát hiện vùng nồi bật, xuống bộ mã hóa hình ảnh Kết quả làcác mô-đun này được kết hợp với nhau và không thê thay thé cho nhau nêu không có
sự can thiệp nào khác.
3.3.1 Bộ giải mã ảnh
Trong bài toán mô tả ảnh tự động, bộ mã hóa là một thành phần năm vai trò cốt lõicủa mô hình, có nhiệm vụ chuyển đổi hình ảnh thành các biéu diễn số học mang cácđặc trưng cụ thể từ tâm hình và từ những đặc trưng này bộ giải mã có thể nắm đượcthông tin và cho ra câu mô tả chính xác về bức hình Bộ mã hóa thường sử dụng cáclớp kiến trúc tích chập (CNN) dé mã hóa hình anh CNN có khả năng học và tríchxuất các thông tin đặc trưng của hình ảnh từ việc áp dụng các bộ lọc trượt trên toàn
bộ hình ảnh, từ đó bộ giải mã có thê định rõ các đặc trưng như góc, cạnh, màu sắc và
31
Trang 39đặc biệt là với các đặc điểm từ đối tượng trong bức hình Dựa vào các nghiên cử rộngrãi áp dụng công nghệ học sâu hiện nay, có rất nhiều kiến trúc mạng CNN lớn được
xây dựng sẵn dé đảm nhiệm vụ này, có thé ké đó như kiến trúc Resnet-152, VGG-16hay Inception V3 Các kiến trúc này được học trên tập đữ liệu rất lớn và có khả năngtrích xuất các thông tin đặc trưng phức tạp từ hình
a Học chuyền tiếp (Transfer Learning)
Như các thông tin đề cập ở trên, bộ mã hóa có nhiệm vụ là trích xuất các thông tin
đặc trưng từ bức hình và biểu diễn các thông tin dưới dạng số học, nhưng với việcyêu cầu một mô hình tận dụng được hết tất cả số lượng đặc trưng từ hình ảnh trongthời gian huấn luyện là một bài toán không tưởng và đương nhiên điều này cũng yêu
cau rất nhiều tài nguyên dé đáp ứng cho khối lượng tính toán không 16 từ các vector
số học trong mô hình Bởi vậy, giải pháp học chuyền tiếp được phát triển với mục
đích trợ giúp các mô hình kế thừa và lưu lại các trọng số đã được hoc dé tinh chỉnh
dựa trên các bộ dữ liệu mới hơn Thông thường, các bộ mã hóa sẽ là các kiến trúc baogồm các lớp CNN đã được đóng gói các bộ trọng số từ việc đào tạo trên dit liệu lớnliên quan đến hình ảnh, ví dụ như nhận diện vật thể Điều này có ý nghĩa rất quan
trọng, nhờ vậy chúng ta chỉ cần chon một kiến trúc CNN cụ thé và loại bỏ lớp trên
cùng nơi đưa ra dự đoán từ các trọng số từ các lớp phía trước dé sử dụng lại các trọng
số quan trọng từ lớp phía trước này cho các bộ đữ liệu mới mà không cần phải tiếnhành cập nhật lại từ đầu Việc loại bỏ những lớp mạng cuối cùng của các mô hình cósẵn giúp các mô hình có khả năng sử dụng lại được những trọng số đã được học trongquá trình huấn luyện từ các bộ dit liệu lớn và có thé tinh chỉnh cho phù hợp với dữ
liệu của bản thân, giúp tôi ưu được tiên trình học của mô hình.
Dựa trên nguyên lý này, các kiến trúc CNN chỉ cần tinh chỉnh lại các đữ kiện về nhãn
và dit liệu sao cho phù hợp với tap dit liệu mới và kế thừa lại các trọng số từ lớp mang
phía trước đê giảm được một sô lượng lớn thời gian và tài nguyên đào tạo các mô
32
Trang 40hình Bên đưới là hình ảnh diễn giải cho phương pháp học chuyền tiếp từ kiến trúc
được dao tạo trước cho dữ liệu Image-Net lên dữ liệu y tế
+ ˆ Dp, 1©
Convolution Fully connected Predicted
layers layers labels
Transfer |
learning
, Predicted
Medical Convolution Fully connected labels
dataset layers layers
Hình 3.9: Tổng quan kiến trúc mô hình hoc chuyền tiếp [36]
b VGG-16 và Inception V3.
Ở phan này sẽ tập trụng đưa ra thông tin về hai kiến trúc CNN phô biến nhất thườngđược dùng cho các bộ giả mã hình ảnh trong các bài toán về mô tả ảnh tự động đó là
VGG-16 va Inception V3 Đối với VGG-16, đây là một mang CNN truyền thống
được xây dựng từ các lớp tích chập và lớp maxpooling Kiến trúc của VGG-16 rấtsâu và có 16 lớp tích chập, do đó, nó có thé áp dung để trích xuất các đặc trưng chitiết và phức tạp của hình ảnh VGG-16 đã đạt được thành công lớn trong các nhiệm
vụ phân loại hình ảnh và có khả năng định vi các đối tượng và đặc điểm trong hìnhảnh một cách rõ ràng Còn về Inception V3, là một kiến trúc CNN tiên tiễn hơn, vượt
xa khung việc của VGG-16 bằng cách tích hợp cấu trúc sâu của các khối Inception.Các khối Inception gồm có các đường song song với các lớp tích chập có kích thướckhác nhau, cho phép mô hình học các đặc trưng ở nhiều mức độ chỉ tiết khác nhau.Điều này giúp Inception V3 có khả năng trích xuất các đặc trưng phức tap và sâu sắc
33