LỜI CAM ĐOANTôi xin cam đoan: Luận văn tốt nghiệp với Đề tài “Một hàm mắt mát mới cho bài toán phát hiện đối tượng trên tài liệu dạng ảnh tiếng Việt” là công trình nghiên cứu của học viê
DYNAMIC LABEL ASSIGNMENT (DLA)
DLA được minh hoa trong Hình 2-5(a) Dựa trên thực tiễn phổ biến của VIỆC gán nhãn trong phát hiện đối tượng, mô-đun DLA có thể được xây dựng như sau:
1,if max IoU(b, 6) = Tnew label = {o,f maxlaU(b 6) diction — H
V2 Po aw | Feature adaption acon | anchoring fw
Hình 3-7 Minh họa cấu trúc của guided anchrong [19].
Trong bài toán phân đoạn ảnh (image segmentation), đầu ra của phân đoạn là một lưới thông thường gồm các nhãn được dự đoán, được "rendered" Thực thể được mã hóa trong bản đồ đặc trưng của mạng và có thể được truy cập bất kỳ lúc nào bằng phép nội suy (interpolation) Trong đó, một hàm được tham số hóa và được huấn luyện để dự đoán việc chiếm chỗ từ những ham nay trong các biểu diễn đối tượng điểm point-wise được nội suy.
Dựa trên các yếu tố này, PointRend (Point-based rendering) [20] đã được dé xuất như một phương pháp luận cho phân đoạn hình anh bằng cách sử dụng các biểu diễn điểm Mô-đun PointRend chấp nhận một hoặc nhiều bản đồ đặc trưng CNN điền hình của C channels ƒ € R°*#*”, mỗi bản đồ được xác định trên một lưới thông thường và đưa ra các dự đoán cho các nhãn lớp K với p €
RKxH'*W' trên một lưới thông thường có độ phân giải khác nhau (và có khả năng cao hơn) Mô-đun PointRend bao gồm ba thành phan chính:
Chién lược chon diém (A point selection strategy): chon một số lượng nhỏ các điểm có giá trị thực để đưa ra dự đoán, tránh việc tính toán phức tạp cho tất cả các pixel trong lưới đầu ra có độ phân giải cao. Đối với mỗi điểm đã chọn, một point-wise feature được trích xuất Các đặc trưng cho một điểm có giá trị thực được tính bằng phép nội suy song tuyến của ƒ, sử dụng 4 lân cận gần nhất của điểm nằm trên lưới thông thường của ƒ Khi kết thúc, có thể sử dụng thông tin pixel phụ được mã hóa trong kích thước kênh của ƒ để dự đoán phân đoạn có độ phân giải cao hơn ƒ.
Một điểm đầu (point head): một mạng nơ-ron nhỏ được huấn luyện để dự đoán một nhãn từ biểu diễn đặc trưng point-wise này, độc lập cho từng điểm.
PointRend được áp dụng cho từng khu vực Nó kết hợp các mask theo kiểu từ thô đến tỉnh bằng cách đưa ra các tín hiệu dự đoán trên một tập hợp các điểm đã chọn (Hình 3) Đối với phân đoạn ngữ nghĩa, toàn bộ hình ảnh có thể được coi là một vùng duy nhất và do đó không mắt tính tổng quát. coarse prediction
CNN backbone fine-grained point features point predictions featuresHình 3-8 Kiến trúc pointrend cho phân đoạn ảnh [20].
CASCADETABNET -c-2cccccccrrrrrrrrrrrrrrree 27
CASCADE R-CNN 2222 2222222222131121112222222222222222 c.ccccrrrree 27
Cascade R-CNN là một phương pháp phát hiện đối tượng nhiều giai đoạn (multi-stage) được đề xuất bởi Zhaowei Cai và Nuno Vasconcelos [2] Kiến trúc này được sử dụng để giải quyết hai van đề suy giảm hiệu suất khi tăng giá trị ngưỡng IoU: van đề over-fitting trong quá trình huấn luyện gây ra bởi giá trị IoU cao và sự không khớp về thời gian suy luận giữa IoU mà bộ phát hiện được tối ưu và những giả thuyết đầu vào.
Hình 3-9 Kiến trúc cascade r-enn [17].
Ngoài ra, trong quá trình thực nghiệm, tác giả cũng đã tìm ra rằng kiến trúc 3 giai đoạn là phù hợp nhất với ngưỡng giá trị IoU tăng dần (0.5, 0.6, 0.7) Đó là bởi vì khi sử dụng kiến trúc có 4 giai đoạn, hiệu suất phát hiện đối tượng của mô hình không thay đổi hoặc giảm so với kiến trúc 3 giai đoạn, mặc dù họ có thể nhận được điểm cao nhất ở giá APao Vì vậy, kiến trúc 3 giai đoạn như Hình 2.9 là đánh đổi hợp lý nhất.
Phương pháp này cũng tối ưu hóa việc hồi quy cho phân phối bounding box, được tạo bởi phân phối trước đó nhưng không phải là phân phối ban đầu Cascade R-
CNN đã đạt được thành công trong việc cải thiện từng bước các dự đoán va quá trình huấn luyện các phân phối.
HRNET.Z 4ằ.<@ Ẻ
depth scale feature conv down up maps * unit N samp samp.
Hình 3-10 Kiến trúc mạng High Resolution Net (HRNet) [21].
Hau hết các mang CNN đều chuyền đầu vào thông qua một mạng bao gồm các mạng con có độ phân giải cao đến thấp được kết nói theo chuỗi, sau đó nâng độ phân giải lên Ke Sun và cộng sự [21] đã giới thiệu một kiến trúc mới, đó là Mạng độ phân giải cao (HRNet) HRNet có thể duy trì các biểu diễn độ phân giải cao trong toàn bộ quá trình Cụ thể, HRNet bắt đầu từ mang con có độ phân giải cao như giai đoạn đầu tiên, dần dần thêm từng mạng con có độ phân giải cao đến thấp dé tạo thành nhiều giai đoạn hơn và kết nối song song các mạng con đa độ phân giải Cuối cùng, các kết nối được hợp nhất đa quy mô lặp đi lặp lại bằng cách trao đồi thông tin trên các mạng con đa độ phân giải song song liên tục trong toàn bộ quá trình Kiến trúc mạng HRNet được minh họa tại Hình 2-10.
3.1.5.2.1 CÁC MẠNG CON ĐA ĐỘ PHÂN GIẢI TUẦN TỰ
Goi Ng, là mạng con trong giai đoạn thứ s và r là chỉ số phân giải (Độ phân giải của nó là ya độ phan giải của mang con dau tiên).
3.1.5.2.2 MẠNG CON ĐA ĐỘ PHÂN GIẢI SONG SONG
Bắt đầu từ mạng con độ phân giải cao như là giai đoạn đầu tiên, dần dần thêm từng mạng con có độ phân giải cao đến thấp và hình thành các giai đoạn mới Sau đó, kết nối song song các mang con đa độ phân giải Do đó, độ phân giải cho các mang con song song của giai đoạn sau bao gồm các độ phân giải từ giai đoạn trước và một độ phân giải thấp hơn nữa.
3.1.5.2.3 HỢP ĐA QUY MÔ LAP LAI
Các đơn vị trao đổi (exchange units) được sử dụng trên các mạng con song song sao cho mỗi mạng con lại nhận được thông tin từ các mạng con song song khác. Đây là một ví dụ cho thay sơ đô thay đổi thông tin cũ.
CascadeTabNet [§] là phương pháp nhận dạng bảng tự động đề giải thích dữ liệu dang bảng trong ảnh tài liệu chủ yếu liên quan đến việc giải quyết hai van đề phát hiện bảng và nhận dạng cấu trúc bảng Các nghiên cứu trước đó liên quan đến việc giải quyết cả hai van đề một cách độc lập bằng cách sử dụng hai cách tiếp cận riêng biệt CascadeTabNet là một cách tiếp cận từ end-to-end dựa trên học sâu được cai tiến để giải quyết cả hai van dé về phát hiện bảng và nhận dạng cấu trúc Dé đạt được kết quả có độ chính xác rất cao, sử dụng một mô hình được tạo ra bởi sự kết hợp của hai phương pháp. ¢ Cascade RCNN phát hiện chất lượng cao trong CNN bằng cách giới thiệu một mô hình nhiều giai đoạn. e HRNet sửa đổi dé đạt được các biếu diễn độ phân giải cao đáng tin cậy và biêu diễn đa cấp dé phân đoạn ngữ nghĩa cũng như dé phát hiện đối tượng.
CascadeTabNet là mô hình Cascade mask R-CNN HRNet ba giai đoạn.
Backbone chẳng hạn như ResNet-50 không có lớp cuối cùng được kết nói đầy đủ là một phan của mô hình biến đổi hình ánh thành bản đồ đặc trưng. hình ảnh “I” thành các feature map.“RPN Head” dự đoán các đề xuất đối tượng sơ bộ cho các feature này "Bbox Heads" lấy các đặc trưng Rol làm đầu vào và đưa ra các dự đoán về Rol Mỗi phan đầu đưa ra hai dự đoán là điểm phân loại bbox và điểm hồi quy hộp "B" biểu thị các bbox được dự đoán bởi các đầu và để đơn giản, không hiển thị điểm phân loại trong hình "Mask Head" dự đoán mặt nạ cho các đối tượng và "S" biểu thị đầu ra phân đoạn Các phát hiện đối tượng được thực hiện bởi
"Bbox Heads" được bổ sung với các mặt nạ phân đoạn được thực hiện bởi "MaskHead", cho tất cả các đối tượng được phát hiện.
4 TIM HIỂU CÁC HAM MAT MAT HOI QUY IOU, GIOU, DIOU,
CIOU VA DE XUAT HAM MAT MAT EIOU
Trong những năm gần đây, phát hiện đối tượng trên tài liệu dạng ảnh đã nhận được nhiều sự quan tâm từ cộng đồng nghiên Tuy nhiên, ứng dụng của nó còn nhiều hạn chế trong ảnh tài liệu tiếng Việt [10], [11] Bên cạnh đó, các nghiên cứu trước đây trên bài toán phát hiện đối tượng trên trang tài liệu dạng ảnh vẫn còn tồn tại nhiều hạn chế liên quan đến chất lượng dự đoán của các hộp giới hạn.Học viên dé xuất hàm mắt mát hợp nhất (EloU) cho nhiệm vụ hồi quy hộp giới hạn đề phát hiện đối tượng trong ảnh tài liệu tiếng Việt một cách hiệu quả hơn trên bộ dữ liệu tài liệu dạng ảnh tiếng Việt UIT-DODV [22] với bốn lớp đối tượng bảng, hình, chú thích, công thức.
Gọi B là hộp giới hạn dự đoán B® là hộp giới han thật sự và B là hộp giới hạn dự đoán, ta có IoU được xác định: a> IB n B“*|
Khi đó, hàm mat mát IoU [7] được tính bằng công thức:
Tuy nhiên công thức nay chi phan anh đúng khi hộp giới han có vùng trùng nhau Hình 4-1 cho thấy các trường hợp có IoU bằng nhau nhưng độ chính xác của từng trường hợp khác nhau. a) loU = 0.33 b) loU = 0 ©) loU = 0.33
Hình 4-1 Ba trường hợp iou đều có giá trị là 0.33 [2].
Hàm mat mát GioU [2] được đề xuất khi cân nhắc cả diện tích nhỏ nhất bao quanh hai hộp giới hạn C nằm mục đích cố gắng mở rộng ra đến kích thước của hộp bao thật sự làm cho dự đoán có thê tiến gần đến những dự đoán chính xác Hàm mất mát L¢;y được định nghĩa như sau:
Hàm mắt mát DioU [3] sẽ được thêm một hàm phat để xử lý trường hop không trùng lấp giữa hai hộp giới hạn Ham phạt sẽ có gắng tối thiểu khoảng cách giữa tọa độ trung tâm của hộp giới hạn dự đoán và hộp giới han thật sự Be Mẫu số € là độ dài đường chéo của diện tích nhỏ nhất bao quanh hai hợp giới hạn C Hàm chi phí DIoU được định nghĩa như sau: lB — B13
Hàm mat mát CloU [3] được đề xuất nhằm giải quyết van đề tỉ lệ hộp giới hạn giữa chiều rộng và chiều cao của hai hộp giới hạn Hàm mat mát CloU được định nghĩa như sau:
Letou = Letou + #U Trong đú ứ là tham số đỏnh đổi (trade-off) cũn v ước tớnh tinh nhất quỏn của tỷ lệ khung hình, được định nghĩa như sau:
4 wt w? v= mm (arctan rap — arctan re) v a= (1~IoU(B,B99))+u!
5 MỘT SÓ DE XUẤT CẢI THIỆN KET QUA
5.1 DE XUẤT HAM MÁT MÁT KET HỢP EIOU
Học viên cho rằng hàm lỗ ở trên có sự đánh đổi Do đó, đề xuất một hàm tồn thất tận dụng chúng định nghĩa hàm mất mát dé xuất của mình được gọi là EloU như sau:
Letou = Äfœieu + (1 — A) (Lcrou + Êpiou) trong đó tham số 2 là tham sé cân bằng (trade-off) của mỗi hàm mat mát Học viên đã sử dụng  = 0.6 là mặc định trong thử nghiệm của mình để nhấn mạnh hàm mất mat £greu.
Tận dung các lợi thé từ ba hàm mat mát GloU, DIoU, CloU Hàm mat EioU do học viên đề xuất kết hợp từ 3 hàm mất mát trên với ti trọng theo tham số tham số cân bằng (trade-off) là A Ngoài ra, nhằm phát hiện đối tượng dat kết qua tốt thì cần tạo được các vùng đề xuất chất lượng từ ban đầu (region proposal) và hồi quy tốt hộp giới hạn (bounding box regression) thu được sau cùng, học viên lựa chọn trọng sé nghiêng về ham mat mát £s;su.
5.2 DE XUAT MÔ HÌNH PHAT HIỆN DOI TƯỢNG GADOCNET
Nhu đã mô ta ở trên, Guided Anchoring là một so đồ neo thực hiện thay đổi chiến lược neo truyền thống để cải thiện hiệu suất của Faster R-CNN Ngoài ra,
CascadeTabNet đạt được thành công trong việc phát hiện bảng trên ảnh tài liệu.