Cấu trúc mô hình YOLO [13]

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 39 - 41)

8 Tổng kết

2.22 Cấu trúc mô hình YOLO [13]

Được lấy cảm hứng từ mô hình GoogLeNet [5] dành cho phân loại ảnh (image classi- fication), YOLO gồm 24 lớp tích chập, theo sau là 2 lớp kết nối đầy đủ. YOLO sử dụng các lớp tích chập 1×1 theo sau bởi các lớp tích chập 3×3. Lớp1×1 có tác dụng làm giảm không gian đặc trưng (feature space) từ lớp trước đó.

2.4.2 Hàm lỗi

YOLO sử dụng hàm lỗi tổng bình phương giữa dự đoán và nhãn trên tập huấn luyện để tính độ lỗi của mô hình. Cụ thể, hàm lỗi là tổng của 3 thành phần:

• Độ lỗi của việc dự đoán loại nhãn của vật thể - Classification loss.

• Độ lỗi của việc dự đoán bounding box cho vật thể - Localization loss.

• Độ lỗi của việc box có chứa object nào hay không – Confident loss.

Classification loss

Lỗi phân loại chỉ được tính tại những ô được đánh nhãn là có vật thể, nó được tính bằng độ lỗi bình phương giữa nhãn đúng và nhãn được dự đoán:

Lclassification = ΣSi=02 1obji Σc∈class(pi(c)−pˆi(c))2 (2.19) Trong đó1obj

i cho biết tại i có vật thể hay không, pi(c) là xác suất có điều kiện của lớpc

mà mô hình dự đoán (hay khả năng vật thể được dự đoán là lớp c). Tại những ô không có vật thể, độ lỗi được bỏ qua.

Localization loss

Localization loss được dùng để tính giá trị lỗi cho bounding box được dự đoán, bao gồm toạ độx, y chiều dài, chiều rộng của box. Trong đó, chiều dài, chiều rộng được chuẩn hoá theo kích thước của ảnh, toạ độx, y cũng được biểu diễn theo vị trí so với ô chứa nó, nên tất cả đều có giá trị trong khoảng[0,1].

Llocalization = ΣSi=02 ΣBj=01objij [(xi−xˆi)2 + (yi−yˆi)2 + (wi−wˆi)2 + (hi−ˆhi)2 ] (2.20) Trong đó,1obj

ij cho biết bounding box j tại ô i chịu trách nhiệm cho việc dự đoán, nó sẽ bằng 1nếu bounding box tại ô đó có giá trị IOU lớn nhất. Localization loss được tính bằng tổng bình phương lỗi của x, y, chiều rộng, chiều dài của box. Mỗi ô chỉ có tối đa một box được tính độ lỗi này. Localization là độ lỗi quan trọng nhất trong 3 độ lỗi, nên cần được đánh trọng số cao hơn 2 loại kia.

Confident loss

Confident loss thể hiện độ lỗi việc dự đoán tại một ô có chứa vật thể hay không so với thực tế tại ô đó. Độ lỗi này được tính tại những ô có vật thể lẫn không có vật thể.

Lconfidence = ΣSi=02 ΣBj=01objij (Ci −Cˆi) +λnoobjΣSi=02 ΣBj=01noobjij (Ci−Cˆi) (2.21) Việc tính tại cả những ô không có vật thể vì nếu không tính tại những ô không có, những ô này có thể đẩy giá trị lỗi tiến về 0, dẫn đến những ô này sẽ gây ảnh hưởng lớn hơn đến những ô có chứa vật thể, khiến mô hình không ổn định, có thể không hội tụ. Cần lưu ý rằng, độ lỗi tại những ô chứa vật thể là quan trọng hơn, nên cần dùng hệ số lambda để cân bằng.

2.5 Phân đoạn ngữ nghĩa với UNET

Trước đây, công việc xử lý tài liệu số hoá thường được giải quyết bằng cách thiết kế riêng từng chiến lược áp dụng cho từng bài toán cụ thể, chẳng hạn trích xuất trang, trích xuất đường căn bản (baseline), phân tích bố cục văn bản, trích xuất văn bản, hình ảnh,. . . Nhóm tác giả Sofia Ares Oliveira, Benoit Seguin, Frederic Kaplan [15] đã đề xuất hướng giải quyết bài toán xử lý tài liệu bằng cách tiếp cận khác thông qua việc phân mảng (segmentation) tài liệu thay vì phải giải quyết từng bài toán riêng bằng các hướng giải quyết riêng - Unet [12]. Cách tiếp cận này gồm hai bước liên tiếp nhau:

• Bước đầu tiên nhận vào input là ảnh của tài liệu cần được xử lý, sử dụng một mạng CNN đặc biệt để trả về xác suất của các thuộc tính được dự đoán cho từng pixel ban đầu.

• Bước thứ hai là chuyển kết quả dự đoán từ bước một thành kết quả mong muốn bằng những kỹ thuật xử lý cơ bản, các kỹ thuật độc lập với nhau để đảm bảo giải quyết được đa dạng các bài toán.

2.5.1 Kiến trúc mạng

Kiến trúc Unet gồm 2 phần đối xứng nhau là bộ phiên mã (encoder) và bộ dịch mã (decoder), với bộ phiên mã là một mạng CNN bình thường với các lớp tích chập, max- pooling, và bộ dịch mã là phần được bổ sung thêm có tác dụng chuyển các bản đồ đặc trưng với độ phân giải thấp từ encoder sang các bản đồ đặc trưng với độ phân giải như ảnh ban đầu.

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 39 - 41)