Kiến trúc mạng EAST[19]

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 51 - 53)

8 Tổng kết

3.5 Kiến trúc mạng EAST[19]

Trích xuất đặc trưng - Feature Extractor

Phần này có thể là bất kỳ mạng nơ-ron tích chập nào với lớp tích chập và lớp pooled xen kẽ được huấn luyện sẵn như PVANet, VGG16, ResNet50,...

Hợp nhất đặc trưng - Feature-merging branch Hợp nhất các đặc trưng dần dần với: gi =    unpool(hi) nếu i≤3, conv3×3(hi) nếu i= 4. (3.4) hi =    fi nếu i= 1,

conv3×3(conv1×1([gi−1;fi])) ngược lại. (3.5) Với:

• gi là cơ sở hợp - merge base.

• hi là bản đồ đặc trưng hợp - merged feature map.

Ở mỗi bước hợp nhất, bản đồ đặc trưng từ bước cuối được đưa vào lớp unpooling để gấp đôi kích thước và sau đó nối với bản đồ đặc trưng hiện tại. Sau đó, conv1×1 được sử dụng khi bottleneck làm giảm số lượng kênh và giảm số lượng tính toán, theo sau là

conv3×3 để kết hợp thông tin để tạo ra đầu ra cuối cùng của mọi giai đoạn hợp nhất như được hiển thị trong hình 3.5.

Lớp đầu ra - Output layer

Đầu ra được đi qua conv1×1 với 1 kênh từ một bản đồ giá trị trong khoảng [0−1]. Hình dạng đầu ra có thể là hình chữ nhật xoay (RBOX) hoặc hình tứ giác (QUAD).

Với RBOX, hình được được biểu diễn bởi 4 kênh hộp giới hạn theo trục (axis-aligned bounding box - AABB)Rvà 1 kênh với góc θ.Rgồm 4 kênh thể hiện 4 khoảng cách của điểm ảnh gồm biên trên, phải, dưới, trái của hình chữ nhật tương ứng.

Với SQUAD Q, mô hình sử dụng 8 số thể hiện tọa độ của bốn góc hình {pi|i ∈ {1,2,3,4}}của tứ giác trên tọa độ điểm ảnh. Mỗi giá trị khoảng cách gồm hai số(δxi, δyi).

Hình Số kênh mô tả

AABB 4 G=R={di|i∈1,2,3,4}

RBOX 5 G={R, θ}

QUAD 8 G=Q={di|i∈ {1,2,3,4}} Bảng 3.1: Thiết kế hình đầu ra [19]

Một phần của tài liệu Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định (Trang 51 - 53)

Tải bản đầy đủ (PDF)

(77 trang)