Nhận dạng và lưu trữ

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng (Trang 79 - 84)

Chương 5 : GIẢI THUẬT

5.4 Nhận dạng và lưu trữ

Ta lần lượt truy xuất các hình ảnh chứa ký tự được tách ra trước đó theo những chỉ số và nội dung đã được lưu trong lớp Qlist. Sau đó ta tiến hành lấy từng ký tự đi nhận dạng.

Để nhận dạng các ký tự việc đầu tiên ta cũng tính tốn lại những đặc trưng của ảnh chứa ký tự cần nhận dạng theo cách tính đặc trưng của mẫu huấn luyện. Sau đó sử dụng hàm svm.predict() để kiểm chứng sự tương đồng giữa ký tự cần nhận

dạng.

Hàm svm.predict() sẽ truy nhập tới folder “Training” chứa các mẫu huấn luyện rồi lần lượt tiến hành so sánh sự tương đồng của ký tự với các mẫu huấn luyện ta đã chuẩn bị sẵn. Từng mẫu huấn luyện được lưu riêng trong từ folder phụ với tên bắt đầu bằng mã Unicode của chính ký tự mẫu.

Ví dụ: với mẫu huấn luyện cho ký tự “A” sẽ được lưu trong folder có tên là “65_A” trong đó, “65” là mã unicode của ký tự “A”. Tương tự cho các mẫu huấn luyện khác.

Sau khi xác định được ký tự cần nhận dạng có độ tương đồng cao nhất với mẫu nào hàm svm.predict() sẽ trả về kết quả là tên của folder chứa mẫu huấn luyện đó. Việc tiếp theo ta sẽ tiến hành tách phần số trong tên của folder khi đó ta sẽ có được mã Unicode của ký tự nhận dạng được.

Khi đã có được mã Unicode ta tiến hành việc chuyển đổi từ Unicode sang ký tự và lưu lại dưới dạng text trong một file có tên là “Ocr.txt”.

Giao diện nhận dạng ký tự: Để tiến hành nhận dạng ta cần tách ký tự (Extract Characters) và nhập thư viện huấn luyện (Path name lib) rồi chọn button OCR.

Hình 5.20: Giao diện chương trình nhận dạng ký tự

Sau khi nhận dạng được ta chuyển kết quả từ dạng mã Unicode sang dạng ký tự và lưu tạm vào một file text.

Để lưu trữ thơng tin tờ hóa đơn vào một file Exel. Đầu tiên chương trình sẽ mở một workbook với một số lượng hang và cột để lưu trữ thông tin.

Sau đó, ta tiến hành lưu lần lượt ký tự từ file text thu được sau quá trình nhận dạng vào các ơ trong workbook. Sau khi lưu hồn tất ta sẽ lưu workbook theo định dạng Exel (*.xls) và đóng workbook kết thúc chương trình.

Giao diện lưu dữ liệu: Sau khi nhận dạng ký tự (OCR) xong button Export to Exel sẽ sang cho phép lưu dữ liệu vào file exel

Hình 5.22: Lựa chọn vị trí lưu trữ dữ liệu

Khi mở file Exel lần đầu tiên hệ thống sẽ xuất hiện hộp thoại để ta lụa chọn một số thông tin hiển thị của ký tự trong file. Ở đây, ta cần lưu ý tới hai mục là :

Character set: đây là định dạng của ký tự ngõ vào. Do dữ liệu của ta xử lý theo

dạng Unicode (UTF-8) nên ta chọn trong thẻ Character set là Unicode (UTF-8)

Separated by: Ở đây cho phép ta lựa chọn phương thức tách giữa các đoạn văn

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng (Trang 79 - 84)