8 Tổng kết
3.5 Kiến trúc mạng EAST[19]
Trích xuất đặc trưng - Feature Extractor
Phần này có thể là bất kỳ mạng nơ-ron tích chập nào với lớp tích chập và lớp pooled xen kẽ được huấn luyện sẵn như PVANet, VGG16, ResNet50,...
Hợp nhất đặc trưng - Feature-merging branch Hợp nhất các đặc trưng dần dần với: gi = unpool(hi) nếu i≤3, conv3×3(hi) nếu i= 4. (3.4) hi = fi nếu i= 1,
conv3×3(conv1×1([gi−1;fi])) ngược lại. (3.5) Với:
• gi là cơ sở hợp - merge base.
• hi là bản đồ đặc trưng hợp - merged feature map.
Ở mỗi bước hợp nhất, bản đồ đặc trưng từ bước cuối được đưa vào lớp unpooling để gấp đôi kích thước và sau đó nối với bản đồ đặc trưng hiện tại. Sau đó, conv1×1 được sử dụng khi bottleneck làm giảm số lượng kênh và giảm số lượng tính toán, theo sau là
conv3×3 để kết hợp thông tin để tạo ra đầu ra cuối cùng của mọi giai đoạn hợp nhất như được hiển thị trong hình 3.5.
Lớp đầu ra - Output layer
Đầu ra được đi qua conv1×1 với 1 kênh từ một bản đồ giá trị trong khoảng [0−1]. Hình dạng đầu ra có thể là hình chữ nhật xoay (RBOX) hoặc hình tứ giác (QUAD).
Với RBOX, hình được được biểu diễn bởi 4 kênh hộp giới hạn theo trục (axis-aligned bounding box - AABB)Rvà 1 kênh với góc θ.Rgồm 4 kênh thể hiện 4 khoảng cách của điểm ảnh gồm biên trên, phải, dưới, trái của hình chữ nhật tương ứng.
Với SQUAD Q, mô hình sử dụng 8 số thể hiện tọa độ của bốn góc hình {pi|i ∈ {1,2,3,4}}của tứ giác trên tọa độ điểm ảnh. Mỗi giá trị khoảng cách gồm hai số(δxi, δyi).
Hình Số kênh mô tả
AABB 4 G=R={di|i∈1,2,3,4}
RBOX 5 G={R, θ}
QUAD 8 G=Q={di|i∈ {1,2,3,4}} Bảng 3.1: Thiết kế hình đầu ra [19]