1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Trích xuất tự động văn bản tiếng Nhật từ truyện tranh Nhật Bản

58 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trích xuất tự động văn bản từ truyện tranh
Tác giả Trịnh Đènh Hùng
Người hướng dẫn TS. Nguyễn Lưu Thuy Ngân
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2020
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 58
Dung lượng 34,03 MB

Nội dung

DANH MỤC BANGBảng 4.1: Hiệu suất phát hiện vùng chứa văn bản trên bộ dữ liệu Manga109...Bảng 5.1: Kết quả nhận diện kí tự bảo gồm cả những kí tự nhỏ kế bên... TÓM TẮT KHÓA LUẬNHiện nay,

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRỊNH ĐÌNH HÙNG

KHÓA LUẬN TÓT NGHIỆP TRÍCH XUẤT TU ĐỘNG VĂN BAN TỪ TRUYỆN TRANH

AUTOMATIC TEXT EXTRACTION OF MANGA COMIC

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHI MINH, 2020

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRINH ĐÌNH HÙNG - 17520557

KHÓA LUẬN TÓT NGHIỆP TRÍCH XUAT TỰ ĐỘNG VĂN BAN TỪ TRUYỆN TRANH

AUTOMATIC TEXT EXTRACTION OF MANGA COMIC

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN

TS NGUYEN LUU THUY NGAN

TP HO CHI MINH, 2020

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Em xin chân thành cảm ơn tới Cô TS Nguyễn Lưu Thùy Ngân, người cô

đã tận tình hướng dẫn em trong quá trình thực hiện luận văn này, nhiệt tình giúp

đỡ, dạy bảo trong quá trình nghiên cứu khóa luận này.

Em xin chân thành cảm ơn các thầy, cô khoa Khoa Học Máy Tính, trườngđại học Công Nghệ Thông tin, anh Nguyễn Đức Vũ cùng toàn thé quý thay, cô,

anh, chi và các bạn trong nhóm nghiên cứu NLP@UIT đã giúp đỡ góp ý cho em

hoàn thành khóa luận này một cách hoàn chỉnh.

Em xin chân thành cảm ơn quý thầy cô trong trường đã tận tình dạy bảo,truyền đạt những kiến thức quý báu cho chúng em trong thời gian học tập tạitrường đại học Công Nghệ Thông Tin, giúp chúng em học hỏi được những kiếnthức chuyên ngành dé áp dụng vào thực tiễn cuốc sống và công việc sau này Dù

đã cô gang dé hoàn thành luận văn nhưng cũng không tránh khỏi những sai sót

Kính mong nhận được những nhận xét và góp ý của quý thầy cô và các bạn

để em có thé hoàn thành đề tài của mình tốt hơn

Trang 5

MỤC LỤC

Nội dung

0111571008005.) Ề a ,),H,.HHĂ 2

In v2 2

1.2 Mục tiêu khóa luận «- «- s+cxEkkEkkEktkkkkktEkskkkkkkkkrkrkkkkikkkrrrrrkrrerreri 4

1.3 Đối tượng nghiên cứu -cessreeeerrreertrertrirrrtrirrtrrrrrtrrrrrrrrrerre 4

1.4 Phạm vi nghiÊn COU esessesssecsescsssssecntesseestecssesseeseeseesseeseeneesueeaeeateseeeaseeseeeseeaeeneease 4

1.5 Kết quả nghiên cứu -cce .ecceetrreevvrrtrervtrrtrrvrtrrrrrtrrrrrrrtrrrrrrerre 41.6 Cau tric khOa no -3345 5

Chương 2 Tổng Quan cssssssssssssssssssssssssssssssssssssssseseseessssssssssssseesesssssssssteceeesesssssnsseseesesessessees 6

2.1 Tiếp cận dựa trên vùng và kết cấu của ảnh -e:c:ceeeceetrrrreeeerrrrre 62.2 Tiếp cận dựa trên đề xuất vùng, phân lớp và hồi quy -+- 6

2.3 Dựa trên tích chập sâu -«-c+++xcerksrkkkEkkEEkktrkkrkkkikkkirrrrkirrrrrre 7

2.4 Dựa trên SSD300-fOrk cs-ccScccsScccerrttEiEEitksrktrrrtksrkrrsrksrkrrsrrsrkrrsrrsrkee 7

2.5 Các thách thỨC -cccc+crkethrk th HH HH HH Hee 8

Chương 3 Mô hình phát hiện vùng chứa văn bản trong Manga, 10

3.1 Giới thiệu chung s«+5++xE+kkttEEkkrEEEiEEHiEEiEEiHiiieieeii 10

Trang 6

Chương 4 Thí nghiệm và kết quả cc ¿ -5cccccvvveeeeierrrrrrrrkrrrrrrrirrrrie 17

4.1 Giới thiệu bộ dữ liệu MangalO9 scccrrertrrrrirrrrrrirrrrrirrrrrirrree 17

4.2 Phương pháp đánh giá - sen HH nhe 19

4.3 Cài đặt thí nghiỆm -sscccccrteirrrtertrtrietrtriiirirriiirrriiirrrrirririerrrrie 21

4.4 Đánh giá mô hình phát hiện vùng chứa văn bản -«-cccccccc«ee 22

4.5 Nhận xết e.rHnHHHHHH HH grrrrerrierrrree 25

Chương 5 Nhận diện Kf tự che 30

5.1 Định nghĩa bài toán -e ccsscsrxeerrretrrkirtrrrrtrkirtrrirtrrrtrierrrrrrrrierrrrree 30

5.2 Tổng quan về hệ thống 'Tesseract -+ccstrecerrreeerrererrrrrrrrrrre 315.3 Tiền xử lý ảnh sau khi phát hiện vùng chứa văn bản - 32

5.3.1 Ví dụ kết quả khi áp dụng Tesseract cho nhận diện kí tự sau khi xử lý

5.4 chẽ ẽ.ẽ.ẽ 37

Chương 6 kết luận và hướng phát triỂn -cceeccceeserrrrrrkkeerrrrrrrrriie 42

Ce sa 426.2 Hạn chế cos:ccstccettvvEE.EEE.AEEEiEtriirrtrirtrrirrrtrirrrrrrrre 436.3 Hướng phát triỀn -eccccccrireeeevvEEttrrervrrtrririerrrrrrrrrirrrrrrrrrrrrrrere 45

Trang 7

DANH MỤC HÌNH

Hình 1.1: Minh họa về đầu vào và đầu ra của bài toán .-:-ccvccsrcrverrre 3Hình 3.1: Cấu trúc của mô hình YOLOv3[9]| 222222221211 eeeeee lãiHình 3.2: kiến trúc Dartnet-53[6] - -c¿-2++2c++tttEEktrtrrktrrrrkrrrtrtrrrrrrrrre 12

thích bên ngoài khung truYỆN - - «G1 912191 ng ng 26

Hình 4.4: Kết quả đầu ra của mô hình phát hiện vùng chứa văn bản khó phát hiện

được chữ trang nền đen - 2+ 2 25x92 9EE+EEEEEEEEE2E12217121121122171711 211211 ce 26Hình 4.5: Kết quả đầu ra của mô hình phát hiện vùng chứa văn bản khó phát hiện

được các chữ không có trong bóng thOại - ¿5+ +22 + + ++E+seEseerreereerererre 27

Hình 4.6: Kết quả đầu ra của mô hình phát hiện vùng chứa văn bản một số vùng vănbản được phát hiện vẫn còn bị lệch nhiều làm hạn chế khả năng nhận diện kítự 28

Hình 4.7: Kết quả đầu ra của mô hình phát hiện vùng chứa văn bản Phát hiện nhằm

nhân vật có nét vẽ đơn giản là văn bản - 55c + + 33333 SEtrirssrrrsrsrrrrrerree 28

Hình 4.8: Kết qua đầu ra của mô hình phát hiện vùng chứa văn bản bỏ xót vùng

Chita Van Dan eee 29

Hình 5.1: Kết quả đầu ra của mô hình phát hiện vùng chứa văn bản 32Hình 5.2: Kết quả minh họa phân biệt giữa vùng chứa văn bản và nền 33Hình 5.3: Kết quả minh họa sau khi áp dụng mạng Unet dé xác định rõ vùng chứa

Hình 5.4: Kết quả sau các bước tiền xử lý ảnh dé xóa nền - 5- 2552 s2 35Hình 5.5.a: Kết quả nhận diện kí tự 2- 22 5¿©5++2E++EE+2EE2EEtrEterxezrxerreeree 36

Trang 8

Hình 5.5.b: Kết quả nhận diện ki tự - -.- - - + + E211 E 3E *VE kg re, 37 Hình 5.6: Kết quả nhận diện kí tự bị thừa kí tự -¿-+¿©++cxzecxrzrxerxesree 39

Hình 5.7: Kết quả nhận diện kí tự sai hoàn toàn ki tự trong hình - 40

Hình 5.8: Kết quả nhận diện kí tự bảo gồm cả những kí tự nhỏ kế bên 40

Hình 5.9: Kết quả nhận diện sai ký hiệu đặc biệt thành kí tự -. .: 41

Hình 6.1: Ví dụ minh họa kết quả cuối cùng xuất ra của hệ thống - 42

Trang 9

DANH MỤC BANGBảng 4.1: Hiệu suất phát hiện vùng chứa văn bản trên bộ dữ liệu Manga109 Bảng 5.1: Kết quả nhận diện kí tự bảo gồm cả những kí tự nhỏ kế bên

Trang 10

DANH MỤC TỪ VIET TAT

CNN: Convolutional Neural Network.

YOLO: You Only Look Once

NMS: Non-maximum Suppression.

OCR: Optical Character Recognition.

IOU: Intersection over Union.

FPN: Feature Pyramid Networks.

SOTA: State-of-the-art

TP: True Positive.

FP: False Positive.

FN: False Negative.

Trang 11

TÓM TẮT KHÓA LUẬN

Hiện nay, với sự bùng nô của cuộc cách mạnh 4.0 kéo theo đó là sự phát triển

không ngừng của các phương tiện thông tin đại chúng và Manga là một trong những

mặt hàng phổ biến ở Nhật Ban và các nước còn lại trên thế giới, công cuộc cách mạng4.0 kéo theo ham muốn của người đọc không còn là cẦm trên tay một quyền truyệntranh in thực sự mà sẽ chuyền dan sang đọc truyện trực tuyến trên các trang mang.Hàng trăm bộ truyện tranh được in hàng ngày ở Nhật Ban va sỐ truyện tranh in đóđang dần được số hóa thành Manga trên nền tảng mạng Sau đó mọi người dịch từtiếng Nhật trên Manga sang các ngôn ngữ khác dé những cuốn truyện tranh đó đượcchia sẻ rộng rãi ra thế gidi, dé niém vui khi doc Manga được lan tỏa khap moi mién

và Manga có thê được đọc ở bất cứ nơi đâu Trong đề tài khóa luận này chúng tôi đềxuất một phương pháp tự động phát hiện vùng chứa văn bản và trích xuất kí tự NhậtBản trong truyện tranh, dé có thé hỗ trợ cho qua trình dịch trực tuyến truyện tranh

Nhật Bản.

Trang 12

Chương 1 MO DAU

1.1 DAT VAN DE

Truyện tranh Manga hiện nay rất thông dụng ở Nhật Bản nói riêng và thếgiới nói chung, mỗi ngày có rất nhiều bộ truyện tranh Nhật Bản được sản xuấtbang cả phương pháp truyền thống in giấy, lẫn đăng trên các trang mạng dướidạng ảnh kỹ thuật số Nhiều bộ Manga được cung cấp với dạng mở (open license)hoặc có thể xin phép tác giả, sau đó sẽ dịch những trang truyện này từ tiếng Nhậtsang những ngôn ngữ khác (ví dụ: tiếng Việt, tiếng Anh) Nhưng tất cả đều phảilàm thủ công bởi vì chưa có phương pháp nào dé có thé tự động hóa quá trình dịch

từ những trang truyện gốc bằng tiếng Nhật sang những ngôn ngữ khác

Tuy nhiên, không phải một người hâm mộ truyện tranh nào cũng có théđọc và hiểu được truyện tranh nước ngoài, vì nó đòi hỏi trình độ chuyên môn về

ngôn ngữ đặc thù Khi đó các đọc giả đòi hỏi một công cụ hoặc một phương pháp

cụ thé dé giúp cho việc doc manga một cách dé dang và thuận tiện hơn

Từ sự phát triển ngày càng mạnh của Manga, đại học Tokyo biên soạn bộ

dữ liệu Mangal09 bao gồm 109 tập Manga do các tác giả chuyên nghiệp vẽ màchúng tôi sẽ đề cập chi tiết hơn tại mục 4

Bài toán trong nghiên cứu này được phát biêu như sau

e au vào: ảnh một trang truyện tranh Nhật Bản

e Đầu ra: ví trí có xuất hiện kí tự và kí tự trong vi trí đó Trong bài

toán này chúng tôi sẽ minh họa đầu ra bằng cách trích xuất kí tự sau

đó sử dụng API google dịch trong python để có thể dịch nhữngchuỗi kí tự Nhật Bản đã được trích xuất sau đó thay thế chúng vào

những vùng kí tự tương ứng, đây sẽ là một chương trình dịch truyện

tranh tự động sử dụng phương pháp dé xuất dé trích xuất văn bản

va API google dich dé dich chúng

Trang 13

Hình 1.1: Minh họa vê dau vào và dau ra của bài toán.

Trang 14

1.2 Mục tiêu khóa luận

Dé góp phan thuận tiện hơn cho người hâm mộ không biết ngoại ngữvẫn có thê đọc truyện tranh, đặc biệt là đối với độc giả phô thông Cũng nhưđáp ứng được yêu cầu của một khóa luận tốt nghiệp Chúng tôi cụ thê hóa mục

tiêu của khóa luận nảy như sau:

e_ Thứ nhất: tìm hiéu các nghiên cứu liên quan về phát hiện vùng chứa

văn bản trong ảnh sau đó áp dụng nó với Manga.

e Đánh giá phương pháp trên bộ dữ liệu Manga109.

e Tìm hiểu và áp dụng phương pháp nhận diện kí tự trong

truyện tranh.

1.3 Đối tượng nghiên cứu

Đối tượng nghiên cứu của chúng tôi là các phương pháp phát hiện vậtthé trong ảnh Và dữ liệu Mangal09 bao gồm 109 tập truyện tranh của các tác

giả chuyên nghiệp vẽ và phương pháp nhận diện kí tự Nhật Bản trong truyện

tranh, cụ thể hơn là tiếng Nhật dọc và chữ Nhật viết tay

1.4 Phạm vỉ nghiên cứu

Dé giới hạn nghiên cứu, chúng tôi chủ yêu tập trung nghiên cứu và giải

quyêt các van dé sau.

e dit liệu có trong bộ dữ liệu Manga109.

e Bài toán phát hiện vùng chứa văn ban trong anh và phương pháp

thực hiện dé áp dụng vào bài toán.

e Bài toán nhận diện kí tự Nhật Bản theo chiều doc va phông chữ cách

điệu trong truyện tranh.

1.5 Kết quả nghiên cứu

Độ chính xác khi áp dụng YOLOv3 vào bài toán phát hiện vùng chứa văn bản.

Trang 15

Phương pháp xử ly anh dé có thé áp dung Tesseract vào bài toán nhận

diện kí tự trong truyện tranh.

Câu trúc khóa luận

Bô cục của khóa luận này bao gôm các nội dung chính như sau.

Chương 1: Mở dau Trình bày lý do chọn đề tài, mục tiêu, đối tượngphạm vi và kết quả nghiên cứu

chương 2: Tổng quan Trình bày một số công trình nghiên cứu có

liên quan đến đề tài, chỉ ra những vấn đề còn tồn đọng và hướng

giải quyết.

Chương 3: Mô hình Phát hiện vùng chứa văn bản: Trình bày kỹ

thuật áp dụng để phát hiện vùng chứa văn bản trong Manga

Chương 4: Thí nghiệm và kết quả: Trình bày thiết kế thí nghiệm vàđánh giá kết quả đạt được trên mô hình phát hiện vùng chứa văn bảnchương 5: Nhận diện kí tự: Trinh bay kỹ thuật xử lý anh dé có thé

áp dung Tesseract vào nhận diện kí tự trong Manga.

chương 6: kết luận và hướng phát triển Trinh bày những kết qua

mà đề tài đạt được, rút ra nhận xét, tự đánh giá và trình bày hướng

phát triên của đê tài này.

Trang 16

Chương 2 Tổng Quan

Hiện nay đã có nhiều phương pháp phát hiện vùng chứa văn bản từanh[5], nhưng nghiên cứu về trích xuất văn bản trong truyện tranh thì vẫn chưađược nhiều[2] Sau đây là tóm tắt và nhận xét một số công trình có liên quanđến bài toán

2.1 Tiêp cận dựa trên vùng và kêt cầu của ảnh

Tác giả Kohei Arai, Herman Tolle[1] đã dé xuất hai cách tiép can chinh

đó là: phát hiện vùng chứa văn ban dựa trên vùng và dựa trên kết cấu của ảnh.Cách tiếp cận này dựa trên những đặc trưng cấp thấp của ảnh và xử lý ảnh cơbản đây là cách tiếp cận nhằm phát hiện các vùng ảnh khác nhau về các thuộctính, chang hạn như độ sáng hoặc màu sắc, so với các vùng xung quanh dựaVào gia thiết các đoạn văn bản trong một trang truyện Manga sẽ nằm trong mộtbóng thoại hoàn chỉnh với nền trắng và chữ đen Chính vì vậy nên vẫn có rấtnhiều trường hợp phát hiện sai và sự sai lệch này sẽ dẫn đến nhận dạng kí tự

sai.

H

2.2 Tiếp cận dựa trên đề xuất vùng, phân lớp và hồi quy

Tác giả Wei-ta Chu, Chih-chi Yu[3] đưa ra phương pháp dựa trên đềxuất vùng (Region proposal Network), phân lớp và hồi quy Trong bài báo déxuất hai cách tiếp cận dựa trên mạng học sâu dé phát hiện vùng chứa văn ban

trong truyện tranh.

e Cách 1: Các đặc trưng được trích xuất từ CNN (Convolutional

Neural Network) sau đó được đưa vào mạng phân loại/hồi quy

e Cách2: dựa trên đề xuất vùng, trích xuất đặc trưng và phân loai/héi

quy sau đó kết hợp tất cả lại vào một mạng học sâu Độ chính xáccủa phương pháp này chỉ dừng lại ở mức chấp nhận được (độ chính

xác 62%).

Trang 17

e Số liệu đánh giá tuân theo thiết kế trong cuộc thi của ICDAR 2013,

với vùng kết quả phát hiện A và nhãn vùng kí tự B, chúng ta xem A

0 các trường h sn lai’ với IIAII biêu thị sô lượng cua

các trường hợp còn lại

oii = |

tap A.

2.3 Dựa trên tích chap sâu

Tác giả David Dubray, Jochen Laubrock [4] đề xuất phương pháp pháthiện vùng chứa văn bản dựa trên mạng tích chập sâu, kết cầu mạng này cóđược nhờ sự kết hợp mạng VGG-16 và cấu trúc mạng U (U-net)[4] Phươngpháp này đã hoạt động tốt trong việc phát hiện bóng thoại trên bộ dit liệu GNC

(đây là một bộ dữ liệu truyện tranh với những tập truyện tranh dài hơn 64

trang, ké về một câu chuyện liên tục) Nhưng hiện tại mới chỉ có kết quả tốt

trên bộ dữ liệu ƠNC này và có kết quả không được tốt trên truyện tranh Nhật

Bản (Manga) cụ thể là bộ dữ liệu Manga109 (bao gồm 109 tập truyện được vẽ

bởi các tác giả chuyên nghiệp tại Nhật Bản).

2.4 Dựa trên SSD300-fork

Đây là một phương pháp phát hiện các đối tượng có sự chồng chéo cao,với những phương pháp phát hiện vật thé dựa trên khung neo, mỗi khung neo

có kích cỡ, hình dang và vị trí riêng Trong giai đoạn huấn luyện, các phươngpháp dựa trên khung neo dự đoán vị trí và danh mục của đối tượng gần nhấtcho mỗi khung neo Dé loại bỏ các kết qua đầu ra cho biết cùng một đối tượng

Trang 18

NMS được tiến hành trong giai đoạn huấn luyện, mỗi khung neo được huấnluyện dé trả về vị trí và danh mục gần nhất Từ đó có một vẫn đề xảy ra là cácphương thức hiện tại chúng không thé gan các đối tượng dé có một khung neođúng cách nếu có một số đối tượng có vi trí, kích thước và hình dạng tương tựnhau, kết quả là một trong những đối tượng đó không được dùng để huấnluyện Điều này trở nên cực kỳ ảnh hưởng tới mô hình khi các đối tượng có sựchồng chéo nhau Và trong dit liệu truyện tranh có rất nhiều trường hop chồngchéo nhau Trong trường hợp này hệ thống phát hiện sẽ không hoạt động tốtngay cả khi số lượng nhãn nhỏ.

Dé giải quyết van đề này, Tác giả đề xuất mô hình phân nhánh (forked

model)[7] Mô hình này tạo bản sao của tập mỏ neo Mỗi tập neo được sao

chép chịu trách nhiệm cho một danh mục, các đối tượng được gán trong các

khung neo của tập neo tương ứng Bằng cách sử dụng mô hình phân nhánhđược đề xuất tác giả có thé giải quyết van đề phân công và các đối tượng chồngchéo có thê được phát hiện một cách chính xác

Để xây dựng mô hình phân nhánh, tác giả đã chọn SSD300[8] làmmạng cơ sở vì nó lưu trữ hiệu suất tốt dựa trên CNN SSD300 được làm bởi

bộ trích xuất đặc trưng đa quy mô và lớp phát hiện, bộ trích xuất đặc trưng đaquy mô là mạng tích chập nhận đầu vào là một bức ảnh và đầu ra là một tậpcác ban đồ đặc trưng Phương pháp này là SOTA của bài toán phát hiện vùng

chứa văn bản trong truyện tranh Nhật Bản độ chính xác là 84.1% theo như bai

báo đã công bó

2.5 Các thách thức

Những thách thức trong phát hiện vùng chứa văn bản trong Manga là:

e Bong bóng thoại trong truyện tranh có nhiều hình dang và được đặt

ở những vi trí khác nhau, có vô sô hình dạng va vi trí bóng thoại.

Trang 19

e_ Một số Manga được số hóa là qua quá trình quét từ bản vẽ tay nên

khó nhận dạng.

e C6 nhiều đoạn hội thoại không nằm trong bong bóng thoại chèn lên

nhân vật và ngoại cảnh (ví dụ: suy nghĩ của nhân vật).

Những thách thức trong nhận diện kí tự trong Manga.

e Nhiều đoạn hội thoại được tác giả viết bằng phông chữ cách điệu

hay sử dụng trong Manga đây là phông chữ phức tạp của Nhật Bản

và khó có thể nhận diện chính xác được

e Trong một bong bóng thoại tác giả thường chú thích những chữ khó

ngay bên cạnh bằng nét chữ nhỏ hơn, nhưng điều này hệ thống nhậndiện kí tự hiểu nhằm đây cũng là một kí tự riêng biệt trong vùng vănbản này nên cũng sẽ nhận diện điều này dẫn đến kết quả nhận diện

kí tự của vùng văn bản đó bị sai lệch.

Trang 20

Chương 3 Mô hình phát hiện vùng chứa van ban trong Manga,

Trong phạm vi đề tài này, chúng tôi thực hiện tìm hiểu mô hình pháthiện vật thé YOLOv3 dé áp dụng vào phát hiện vùng chứa văn bản trong truyện

tranh[6] Song song với đó là cai đặt và áp dụng lên bộ dữ liệu Manga109.

3.1 Giới thiệu chung

Đề giải quyết bài toán phát hiện vùng chứa văn ban cụ thé ở khóa luậnnày là bài toán phát hiện vùng chứa văn bản, chúng tôi đã tìm hiểu các nộidung về các kỹ thuật liên quan dé có thé áp dụng vào bài toán Như chúng tôi

đã đề cập ở Chương 2, việc phát hiện vùng chứa văn bản không thể chỉ dựavào các đặc trưng và kết cau của ảnh như vậy sẽ dẫn tới hậu quả là chỉ hiệuquả với những trang truyện có kết cấu phù hợp với giả thiết đề ra Nhưngtruyện tranh là một thế giới đa dạng và rộng lớn có rất nhiều kết cấu trangtruyện khác nhau mà những phương pháp cổ dién đó không thé nào phát hiệnchính xác được vì thế ta cần một phương pháp Máy học có thể tự động tríchxuất đặc trưng và có thê áp dụng với tat cả thé loại truyện tranh

Với mục tiêu đê ra và sự đặc biệt của những nơi có văn bản trong một

trang truyện, chúng tôi xem nhưng phân có văn bản đó như một vật thê có

trong ảnh và tiễn hành thực hiện một thuật toán phát hiện vật thê.

Trong lĩnh vực phát hiện vật thể trong ảnh hiện nay đã có nhiều môhình tốt phục vụ cho việc rút đích đặc trưng từ ảnh Chúng tôi chọn phương

pháp YOLOV3.

YOLO — You Only Look Once (Bạn chỉ nhìn một lần) là một thuật toán

sử dụng CNN cho nhận dạng đối tượng Bạn chỉ cần nhìn 1 lần hay YOLO làmột trong những thuật toán nhận dạng đối tượng nhanh và chính xác Đây làmột thuật toán không chỉ dự đoán lớp của vật thể mà còn nhận ra vị trí đối

tượng, vì vậy không chi là phân loại hình ảnh vào 1 lớp nào đó mà trong bai

toán của chúng ta còn đông thời nhận diện nhiêu vật thê trong một ảnh và còn

10

Trang 21

cần nhận diện chính xác vi trí của vật thé trong ảnh Thuật toán nay áp dụngmột NN đơn cho một ảnh đầy đủ, nó có nghĩa là mạng này chia ảnh thành các

khu vực và nhận diện các vùng có chứa vật thê đó.

Inpuat +16 416 <3

Detection Result

3.2.1 Chi tiết mô hình

YOLO sử dụng các lớp tích chập (CNN), khiến nó trở thành một mạngkết nối toàn phan (fully convolutional network FCN) Trong YOLOv3 ta cómột kiến trúc sâu hơn về trích xuất đặc trưng gọi là Darknet-53 Giống nhưtên gọi, nó bao gồm 53 lớp tích chập (CNN), mỗi lớp tích chập với trượt

11

Trang 22

(stride) là 2 được sử dụng để hạ mẫu (downsampling) các biểu đồ đặc trưng.Điều này giúp tránh khỏi mat mát của những đặc trưng cấp thấp thường bị ảnh

hưởng bởi gộp lại (pooling).

Type Filters Size Output

Convolutional 32 3x3 256 x 256 Convolutional 64 3x3/2 128 x 128

Convolutional 128 3x3/2 64x64 Convolutional 64 1x1

8x} Convolutional 512 3x3

Residual 16x 16

Convolutional 512 1x1 4x| Convolutional 1024 3 x3

diện bât kì vật thê nào, trong bài toán này là vùng chứa văn bản Đâu tiên,

12

Trang 23

chúng ta phải xác minh 6 nào mà vùng chứa đó thuộc vê, đê làm được điêu

này, chúng ta chia ảnh đâu vào thành các ô với kích thước băng với kích thước

của bản đô đặc trưng cuôi cùng Sau đó, ô chứa trung tâm của khung chịu trách

nhiệm cho dự đoán đối tượng

Mô hình này sử dụng khung neo (Anchor Box) dé đưa ra dự đoán các vùng chứa, việc dự đoán các khung neo (Anchor box) này sẽ dễ dàng hơnnhiều so với dự đoán các tọa độ dé tăng độ chính xác Các khung neo này là

sự sắp xếp độ ưu tiên vùng chứa, sử dụng thuật toán gom cụm Kmean dé đưa

ra các lựa chọn khung neo tốt nhất cho mạng, việc này tạo ra IoU tốt hơn(Intersection over Union) Chúng ta sẽ dự đoán độ rộng và chiều cao của khung

từ cụm trung tâm, tọa độ điểm trung tâm của vùng chứa liên quan tới vị trí củaphần lọc đã được dự đoán

Đầu tiên của các điểm đối tượng đại diện cho khả năng mà đối tượng

được bao bên trong vùng chứa Nó nên gần 1 cho 6 ở tâm vùng chứa Điểmđối tượng này được tính qua hàm sigmoid và nó được xem như là một xácxuất YOLOv3 dự đoán thông qua ba thang đo khác nhau, lớp nhận diện được

sử dụng tại bản đồ đặc trưng của ba kích cỡ khác nhau, có độ trượt là 32, 16,

8 Điều này có nghĩa là, với đầu vào 416x416, chúng ta dự đoán ở 13x13,26x26 và 52x52 Khi mà giảm độ lớn của hình ảnh đầu vào đến lớp nhận diệnđầu tiên, cái mà được sử dụng cho bản đồ đặc trưng với độ trượt là 32 Có địnhdạng kích trước bản đồ đặc trưng Một nhận diện khác là sử dụng lớp với độtrượt là 16 Lay mẫu (Upsampling) tương tự sẽ được sử dụng lại và kết quanhận diện cuối cùng được tạo với lớp có độ trượt là 8 Điều này giúp cho việcnhận diện các đối tượng nhỏ tốt hơn, lấy mẫu (Upsampling) có thé giúp mạnghọc làm mịn đặc trưng đây là phương tiện dé nhận diện những vật thé nhỏ

Tiép theo ta so sánh các điêm đôi tượng nêu điêm đôi tượng dưới một

ngưỡng nào đó sẽ bị loại vùng dự đoán đó Sau đó dùng Non-maximum

Supperesion (NMS) dé xóa các nhận diện trùng nhau

13

Trang 24

e Loại bỏ các khung có điểm thấp (có nghĩa là khung không tự tin về

việc phát hiện của mình).

e Lựa chọn chỉ một khung khi nhiều khung chồng lên nhau với mỗi

cái khác và nhận diện cùng một vật thé (NMS)

3.2.2 Ly do chọn YOLOv3

Ưu điểm mà YOLO mang lại đó là chỉ sử dụng thông tin toàn bộ bức

ảnh một lân và dự đoán toàn bộ các khung vật thê chứa các đôi tượng.

YOLOv3 dự đoán độ tự tin của vùng chứa (có chứa vật thể cần tìm hay

không) sử dung logistic regression, YOLOv3 sử dụng các logistic classifier

thay vi softmax cho việc classify đối tượng Việc nay cho hiệu quả tốt hơn néu

các đối tượng loại trừ lẫn nhau, tức là có thể đối tượng cùng thuộc nhiều loại

khác nhau Ví dụ với bài toán trong khóa luận này ta cần phát hiện đối tượng

là văn bản, văn bản trong bong bóng thoại cũng là văn bản mà văn bản không

trong bong bóng thoại cũng là văn bản vì thế nên sử dụng softmax trong trường

hợp này là không phù hợp.

Sử dụng khung xương mạng mới là Darknet-53: Khung mô hình được

thiết kế lại cùng với việc thêm các khối (residual block) với khung xương này

ta có thé dat được 1 mô hình tong quát hóa dữ liệu tốt hơn va đó là mục tiêu ta

đang hướng tới.

YOLOv3 sử dụng kiến trúc FPN (Feature Pyramid Networks) dé đưa

ra các dự đoán từ nhiều tỉ lệ khác nhau của biéu đồ đặc trưng việc này giúp

mô hình tận dụng các biểu đồ đặc trưng với độ đặc trưng khác nhau cho việc

dự đoán kết hợp với các liên kết giữa các lớp dự đoán Mô hình lấy mẫu(Upsampling) các lớp dự đoán ở các tầng sau và sau đó sẽ nối với các lớp dựđoán ở các tầng trước đó phương pháp này giúp tăng độ chính xác khi dự đoáncác vật thé nhỏ và trong | trang truyện thì có rất nhiều những vùng chứa văn

bản nhỏ trong đó.

14

Trang 25

3.3 Các kỹ thuật sử dụng trong mô hình

3.3.1 Batch Normalization

Kĩ thuật Batch Normalization được đưa vào sau tất cả các lớp tích chậpcủa mô hình Kĩ thuật này không những giảm được thời gian huấn luyện, màcòn có tác dụng tăng tính tổng quát (generalize) cho mạng, việc này giúp tăng

độ chính xác và mạng cũng sẽ không cần sử dung dropout dé tăng tính tổng

quát.

3.3.2 Thêm các tính năng chỉ tiết (Fine-grained feature)

Sử dụng biéu độ đặc trưng lớn dé đưa ra các dự đoán Mô hình này kếthợp các đặc trưng ở các tầng khác nhau lại dé đưa ra dự đoán, cụ thé là cácbiểu đồ đặc trưng này sẽ được ghép vào nhau dé tạo thành một khối sử dụngcho dự đoán Thông thường việc ghép các biêu đồ đặc trưng này chỉ thực hiệnđược khi chúng có cùng chiều rộng và chiều dài, tuy nhiên trong YOLOv3 tácgiả sử dụng lớp Reorg Thực ra Reorg chỉ là kĩ thuật tổ chức lại bộ nhớ dé biếncác biéu đồ đặc trưng về chung chiều dài, chiều rộng và chỉ khác nhau về chiều

Trang 26

Đây là một lát cắt kênh (channel) của biéu đồ đặc trưng (feature map)kích thước 4x4 Dé đưa về kích thước 2x2, tức là giảm chiều rộng đi 2 lần vàchiều dai đi 2 lần, ta tách kênh (channel) của biéu đồ đặc trưng (feature map)4x4 thành 4 ma trận như hình trên, ứng với 4 kênh channel chiều sâu của biểu

đồ đặc trưng (feature map) 2x2 mới Vị trí các giá trị trong mỗi kênh (channel)của biểu đồ đặc trưng (feature map) 2x2 mới sẽ lấy thưa thớt trên biéu đồ đặctrưng (feature map) 4x4 ban đầu với độ trượt (stride) là 2 theo 2 trục đài và

rong.

16

Trang 27

Chương 4 Thí nghiệm và kết quả

Trong chương này chúng tôi tiến hành cai đặt thử nghiệm mô hìnhYOLOv3 như dã giới thiệu tại mục 3 Tiến hành thử nghiệm và đánh giá dựa

trên bộ dữ liệu Manga109.

4.1 Giới thiệu bộ dữ liệu Manga109

Một bộ dit liệu quy mô lớn về hình ảnh Manga rất quan trọng đối vớiviệc nghiên cứu Manga Trong các nghiên cứu ban đầu về xử lý hình ảnhManga, không thể tiến hành so sánh công băng các phương pháp vì thiếu bộ

dữ liệu đủ lớn Manga là tác phẩm nghệ thuật, và bản quyền là một van dénhạy cảm nếu chúng tôi muốn xuất bản kết quả nghiên cứu của mình bằngcách sử dụng Manga thương mại đã được xuất bản chuyên nghiệp thì cần phảiđược sự cho phép của tác giả hoặc nhà xuất bản Nói chung, việc này cần cóthời gian và không dễ xin phép Vì vậy, để tạo điều kiện thuận lợi cho việcnghiên cứu Manga, cần phải xây dựng một bộ dữ liệu Manga công bố rộng rãicho cộng đồng nghiên cứu, sự sẵn có của bộ dữ liệu này sẽ thúc đây quá trìnhnghiên cứu về Manga Và bộ dữ liệu Mangal09 đã giải quyết các van đề vềbản quyền nhạy cảm

Bộ dữ liệu nay được biên soạn bởi Aizawa, Yamazaki và phòng thí

nghiệm Matsui, Khoa tin học điện tử, Trường Cao học Khoa học thông tin va

Kỹ thuật, Đại học Tokyo, để nghiên cứu học thuật sử dụng trong xử lý truyềnthông của phim hoạt hình Nhật Bản Mangal09 gồm 109 tập truyện được vẽ

bởi các họa sĩ truyện tranh chuyên nghiệp Nhật Bản Đây là những tập truyện

được phát hành vào những năm 1970 và 2010, bao gồm nhiều thế loại và khángiả mục tiêu Hầu hết các truyện tranh được ghi lại đều xuất bản trong thư viện

Mangaz.com.

17

Trang 29

Mangal09 là một bộ dữ liệu lớn đã được tạo tập nhãn một cách thu

công Là tập dữ liệu hình ảnh truyện tranh hiện có lớn nhất, với sự trợ giúp của

82 người lam trong 8 thang dé tao tập nhãn cho nó Quy trình tạo tập nhãn nàybao gồm các bước kiểm tra và sàng lọc kỹ lưỡng dé cải thiện chất lượng củanhãn, thu được 527.685 nhãn trên tổng số 10,130 trang truyện thuộc 109 tậptruyện khác nhau Đây là một bộ dữ liệu có số lượng dữ liệu lớn so về lĩnh vực

Manga với độ tin cậy cao Với tập nhãn đa dạng không chỉ chú thích các vùng

chứa dé đáp ứng cho bài toán phát hiện đối tượng, mà còn cả tên nhân vật và

nội dung của văn bản.

Khóa luận này, chúng tôi sử dụng độ do là độ chính xác (precision) va

độ phủ dé trình bày kết quả thực nghiệm nhằm cung cấp một cái nhìn tổngquát về kết quả dự đoán các vùng chứa văn bản độ chính xác (precision) làxác xuất của các vùng chứa văn bản được dự đoán khớp với các khung sự thậttrên ảnh thực tế

pal?

TP +FP

e P: Độ chính xác (precision).

e TP: True Positive Số lượng các dự đoán đúng

e FP: False Positive Số lượng các dự đoán là vùng chứa văn ban

nhưng sai so với tập nhãn.

19

Ngày đăng: 02/10/2024, 03:06

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN