Mô hình Character Classification

Một phần của tài liệu Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt (Trang 47 - 49)

2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN

2.1.3 Mô hình Character Classification

Thông thường các mô hình OCR sẽ bao gồm 1 mạng nơ ron tích chập CNN để trích xuất các đặc trưng và 1 lớp phân loại (softmax, LTSM, ...) để phân loại ký tự đó vào lớp nào và trả ra kết quả.

Đầu vào của mạng nơ ron tích chập CNN là hình ảnh của các ký tự đã được tiền xử lý và lưu dưới dạng Tensor được mô tả như hình bên dưới.

Hình 2.7: Tensor. Nguồn: DeepAI.org

Hình ảnh sẽ được truyền vào mạng nơ ron tích chập CNN với mục đích là học được các đặc trưng hình ảnh để làm đầu vào cho lớp phân loại. Tương tự như mạng nơ-ron thông thường, mạng CNN gồm các trọng số có thể học dựa trên thuật toán tối ưu độ dốc bằng hàm chi phí qua các lớp. Cấu trúc của mạng có thể mô tả như Hình 2.7 bên dưới.

Hình 2.8: Mô hình Character Classification. Nguồn: [23]

Mạng CNN này bao gồm các lớp ẩn (hidden layers) được gọi là lớp chập và các bộ lọc (filters). Bản chất bộ lọc là một ma trận có kích thước nhỏ (như 3x3, 5x5) có khả năng nhận dạng các đặc trưng như góc, cạnh, hình dạng, ... Bộ lọc sẽ trượt và lần lượt nhân với ma trận của hình ảnh từ đó tạo ra các

điểm giá trị. Càng về các lớp cuối, bộ lọc càng có khả năng nhận diện được đặc trưng chính xác và phức tạp hơn. Mỗi lớp chập sẽ có số lượng bộ lọc nhất định. Toàn bộ điểm sau khi nhân với ma trận bộ lọc sẽ được đưa vào hàm kích hoạt và tạo ra bản đồ kích hoạt (activated map), tuỳ vào hàm các điểm sẽ có giá trị từ -1 đến 1. Các điểm trên bản đồ kích hoạt sẽ đi qua lớp tổng hợp tối đa (max pooling) và chỉ giữ lại các giá trị lớn nhất, bỏ qua phần còn lại. Lớp cuối cùng được gọi là lớp tổng hợp kết nối (fully-connected layer), lớp này lấy kết quả đầu ra của mạng nơ ron tổng hợp lại. Cuối cùng kết quả của lớp tổng hợp kết nối (fully-connected layer) sẽ được đi qua lớp phân loại và trả ra kết quả là các ký tự.

Một phần của tài liệu Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt (Trang 47 - 49)

Tải bản đầy đủ (PDF)

(107 trang)