Một số kết quả nhận diện của EAST[19]

8 Tổng kết

3.7 Một số kết quả nhận diện của EAST[19]

Chương 4 Tập dữ liệu

Với đặc thù của dự án là về nhận diện khung và các vùng văn bản chữ viết tay. Các tờ đơn cần nhận diện này thường mang thông tin cá nhân, do đó tập dữ liệu có sẵn là không có. Nhờ sự hỗ trợ của thầy Tuấn Anh cũng như Viettel Post đã cung cấp cho tôi tập dữ liệu thô để thực hiện dự án này.

Tập dữ liệu gồm có 251 ảnh tờ đơn Viettel Post, các ảnh này được đảm bảo điều kiện chứa toàn bộ, hoặc gần toàn bộ chỉ mất đi những phần góc không ảnh hưởng đến nội dung cần quan tâm. Các ảnh có hướng chính diện, không bị quá nghiêng, không bị biến dạng,...

Do vấn đề dữ liệu quá ít, nên tập dữ liệu đã gán nhãn được chia thành ba tập với phân phối như sau:

• Tập huấn luyện - 190 ảnh

• Tập kiểm thử - 51 ảnh

• Tập kiểm tra - 10 ảnh để đánh giá với thông số và những ảnh thô đánh giá theo cảm quan.

Trong quá trình huấn luyện và kiểm thử nhiều cách tiếp cận, thì bảng dưới đây thể hiện cách gán nhãn cho cách tiếp cận tốt nhất:

Thứ tự Tên lớp Ý nghĩa

0 V Giá trị - chứa chữ viết tay

1 B Box

2→n K-<name> Khóa - Từng vùng có chứa chữ viết tay n+1 →m B-<name> Khóa - Nội dung của box

Cách gán nhãn

Để gán nhãn dữ liệu này, tôi sử dụng một phần mềm mã nguồn mở viết trên ngôn ngữ Python là Labelme1để gán dữ liệu.

Hình 4.1: Giao diện của ứng dụng gán nhãn Labelme

Định dạng lưu của ứng dụng sau khi đánh nhãn là một tệp JSON, với nhu cầu huấn luyện thử nghiệm trên nhiều mô hình cụ thể như với Mask R-CNN thì cần chuyển đổi về định dạng COCO, hay với UNet thì là một ma trận màu và các lớp được đánh số. Tôi phải xây dựng một bước xử lý để chuyển đổi định dạng dữ liệu.

Ngoài ra, với thử nghiệm trên nhiều cách đánh nhãn. Với kiểu đánh nhãn đầy đủ, số lượng nhãn trong một ảnh lên đến gần 200 nhãn, như hình 4.2, thì tôi mất khoảng 40 phút để gán nhãn cho một ảnh dữ liệu.

Tuy tập dữ liệu còn rất nhỏ, nhưng tôi hi vọng đã đóng góp được một tập dữ liệu tốt để phục vụ cho những nghiên cứu phát triển của cộng đồng.

Một số kết quả nhận diện của EAST[19]

Mô hình nhận diện vật thể Faster R-CNN [6]

Kết quả nhận diện của Mask R-CNN [10]