2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
2.19 Minh họa thuật toán Graphcore để lọc các hình chữ nhật bao
là105 cho một bức ảnh tài liệu, việc tính toán chọn hình chữ nhật sẽ trở thành nút thắt trong quá trình huấn luyện.
Hình 2.19: Minh họa thuật toán Graphcore để lọc các hình chữ nhật bao quanhký tự. ký tự.
Để tăng tốc quá trình quá trình lọc, tác giả đưa ra phương pháp xử lý Graphcore trước khi sử dụng thuật toán NMS. Mỗi điểm ảnh thuộc hình chữ nhật sẽ dự đoán cả vị trí tương đối của nó so với tâm của ký tự, từ đây, ta có thể xây dựng phương pháp Graphcore: (mỗi điểm ảnh nếu không nói gì thêm thì mặc định điểm ảnh đó nằm trong hình chữ nhật bao quanh ký tự)
• Xây dựng đồ thị có hướng: mỗi điểm ảnh là một đỉnh, thêm cạnh hướng từ đỉnh A đến đỉnh B nếu A dự đoán B là tâm của ký tự. Mô tả ở hình 2.19. Có thể thấy, các cạnh sẽ co xu hướng hướng đến tâm hoặc các các điểm ảnh gần tâm của ký tự.
• Bằng cách loại k-core [16] của đồ thị với k=1, chỉ những vòng lặp trong đồ thị được giữ lại.
Việc xử lý bằng phương pháp Graphcore có thể được thực hiện trong thời gian đa thức. Sau quá trình xử lý, mỗi ký tự sẽ chỉ giữ lại khoảng 1-2 hình
chữ nhật bao quanh. Những điểm ảnh được giữ lại được giữ lại được đánh dấu bằng màu cam trong hình 2.19.
2.4.2.2.2 Xây dựng hình chữ nhật bao quanh từ
Sau quá trình lọc hình chữ nhật bao quanh ký tự, tâm của ký tự cũng đồng thời được xác định, kết hợp với tọa độ tâm của từ chứa ký tự, ta có thể ước lượng được hình chữ nhật bao quanh từ như sau:
• Xác định trục đối xứng d của từ: đường thẳng đi qua tâm của từ và song song với chiều dài của ký tự.
• Ước lượng hình chữ nhật bao quanh từ: gọi hình chữ nhật bao quanh ký tự là A, lấy đối xứng A qua d được B, hợp nhấtA vàB để tạo hình chữ nhật bao quanh từ.
Hình 2.19 minh họa quá trình ước lượng. Lưu ý việc xác định như trên được thực hiện với mỗi ký tự và với mỗi ký tự sẽ ước lượng được một hình chữ nhật bao quanh từ khác nhau. Những ký từ nằm gần tâm của từ sẽ cho hình chữ nhật nhỏ hơn và ngược lại, những ký tự nằm xa tâm sẽ cho hình chữ nhật lớn.
Với mỗi từ (trừ các từ có một ký tự) sẽ có nhiều hình chữ nhật bao quanh được xác định. Những hình chữ nhật trên có đặc điểm: hai hình cùng thuộc cùng một từ sẽ đè lên nhau một phần đáng kể, thậm chí một trong hai hình nằm gọn trong hình còn lại; hai hình chữ nhật thuộc hai từ khác nhau hầu như không có hiện tượng giao nhau hoặc giao không đáng kể. Từ đây, có thể xây dựng phương pháp xác định hình chữ nhật bao quanh từ như sau:
• Xây dựng đồ thị: mỗi ký tự là một đỉnh, 2 đỉnh được nối với nhau nếu phần diện tích giao nhau giữa hai hình chữ nhật được ước lượng thông
qua 2.4.2.2.2 lớn hơn 50% diện tích của hình chữ nhật nhỏ.
• Phân cụm các ký tự bằng cách xác định các đồ thì đầy đủ, mỗi đồ thị đầy đủ sẽ tương ứng với một từ. Ngoài ra, cách phân cụm này giúp nhận dạng cả những từ bị xoay vòng.
2.4.3 Mô hình Chargrid-OCR