8 Tổng kết
4.2 Mẫu dữ liệu đã được gán nhãn đầy đủ
Chương 5
Phương pháp đề xuất
Trong chương này, tôi sẽ trình bày chi tiết phương pháp mà tôi đã đề xuất để Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bộ cục cố định.
Qua quá trình nghiên cứu và thử nghiệm một số mô hình nhận diện khung và vùng có văn bản, tôi đã đề xuất ra một hệ thống nhận diện với mô-đun chính là: Phát hiện vùng có nội dung chữ viết tay (Text/Object Detection) kèm theo một số phương pháp tiền, hậu xử lý để đưa ra kết quả tốt nhất.
5.1 Phân tích bài toán
Quá trình xác định vị trí các vùng có chữ viết tay từ ảnh đầu vào được gọi là phát hiện vùng có chữ viết tay. Các vùng phát hiện thường có dạng hình chữ nhật (rectangle), hình chữ nhật xoay (oriented rectangle), hay hình tứ giác (quadrilateral). Phát hiện vùng chữ viết tay là một trong những bước cơ bản, đầu tiên trước khi qua việc nhận diện ký tự quang học (OCR-Optical Character Recognition) và sau đó là trích xuất thông tin (IE-Information Extraction). Do đó việc nhận diện vùng có chữ viết tay đòi hỏi cần có một độ chính xác cao. Hiện nay đã có nhiều giải thuật được phát triển cho bài toán phát hiện vùng văn bản như EAST[19], CTPN[20],... Những giải thuật này đã và đang được ứng dụng trong nhiều dự án thực tế về đọc hiểu văn bản.
Hiện nay đang có hai cách tiếp cận phổ biến của bài toán đó là phân đoạn (segmen- tation) và hồi quy (regression). Với cách tiếp cận theo hướng hồi quy, giải thuật sẽ dự đoán vị trí của các vùng văn bản dựa trên đặc trưng được trích xuất từ ảnh đầu vào. Còn theo hướng phân đoạn, giải thuật sẽ phân đoạn ảnh đầu vào và tạo rama trận phân bố xác suất văn bản của từng điểm ảnh, từ đó kết hợp thêm một số phương pháp hậu xử lý để đưa ra vị trí chính xác của vùng văn bản.
Giả định rằng ảnh đầu vào thường chung một loại văn bản, được scan hoặc chụp với một góc thẳng, không quá nghiêng, không bị biến dạng do tác động vật lý, khi đó ảnh đầu vào sẽ có các vùng cần trích xuất hình chữ nhật và không bị méo mó, biến dạng. Nhờ
đó quá trình Phát hiện vùng có chữ viết tay phần nào cho kết quả ổn định hơn.
Sau khi thử nghiệm qua hai mô hình Mask RCNN và U-Net, tôi đã có nhận định dưới đây:
• Tập dữ liệu gán nhãn nhỏ, số nhãn lớn. Ở tập dữ liệu phổ biến, lượng dữ liệu có thể lên tới vài triệu thế nhưng số nhãn vẫn chỉ vài chục đổ lại. Với tập dữ liệu VTP đang có, nếu như đánh nhãn đầy đủ thì có thể lên tới hơn 180 nhãn. Dù tôi đã điều chỉnh và thử nghiệm, thu nhỏ mô hình bài toán lại thì số nhãn hiện tại vẫn lên tới 62 nhãn, rất khó để mô hình Mask RCNN hoạt động hiệu quả.
• Với mô hình Mask RCNN tuy không gặp khó khăn về việc các chữ viết tay bị đè lên nhau, khó khăn trong việc tách các vùng như vậy. Nhưng mô hình này đòi hỏi cần có một lượng dữ liệu đầu vào rất lớn để có thể nhận diện chính xác cũng như toàn bộ vùng có văn bản.
• Dữ liệu về văn bản thường đi sâu về 1 loại nhất định, không có xu hướng phát hiện trên nhiều mẫu văn bản khác nhau, đồng thời nền của văn bản cũng không phức tạp, thường tách rời rõ ràng giữa nội dung và màu nền. Nói cách khác là dữ liệu thường ít chịu sự tác động của nhiễu.
• Với phương pháp sử dụng U-Net hay theo hướng phân đoạn thường không đòi hỏi quá nhiều dữ liệu huấn luyện nhưng vẫn đảm bảo tính ổn định của mô hình.
• Mặc dù kết quả đầu ra của mô hình thường không được đẹp và tính chính xác không quá cao, nhưng với một số bước hậu xử lý thì kết quả cho ra vẫn chấp nhận được. So sánh hình 5.1 và hình 5.2 cho ta thấy kết quả của mô hình Mask R-CNN, có thể thấy với lượng dữ liệu 241 ảnh thì mô hình không thể nhận diện hết được giá trị có trong ảnh.