Bộ phân loại kết nối theo thời gian

3 Các công trình liên quan

3.2 Bộ phân loại kết nối theo thời gian

Đối với tính chất của mạng tích chập xoắn (CNN) đơn thuần (Mục 2.2) thì việc nhận dạng văn bản ở mức độ từ là bất khả thi, do đó buộc phải nhận dạng văn bản ở mức độ ký tự rồi kết hợp chúng lại với nhau. Trên thực tế, đối với đặc trưng của chữ viết, các ký tự của chúng hiếm khi rời rạc hay tách biệt hoàn toàn với nhau (unsegmented data). Đến với mạng neuron hồi quy (Recurrent Neural Network - RNN) đã đưa ra một phương pháp tiếp cận ở mức độ nhỏ hơn từ ngữ bằng cách chia nhỏ dữ liệu ảnh thành những phần bằng nhau theo mức độ thời gian, sau đó sử dụng khả năng “nhớ” một số thơng tin phía trước để trích xuất ra đặc trưng đầu vào có những đặc trưng gì, cuối cùng đưa ra kết luận mỗi ảnh thuộc về ký tự nào. Cách tiếp cận như vậy gọi là phân loại theo thời gian (Temporal Classification). Chính vì thế, đầu ra của phương pháp này vẫn là dữ liệu theo thời gian, nó vẫn chưa giải quyết được việc kết hợp các thông tin riêng lẻ lại với nhau để cho ra kết quả cuối cùng là từ ngữ. Từ đó để giải quyết các vấn đề nói trên, các mơ hình có khả năng kết nối các nhãn riêng lẻ của dữ liệu ra đời, gọi chung là hệ thống kết nối (Connectionist System).

Đối với đặc trưng dữ liệu dạng chuỗi hay dữ liệu theo thời gian (sequence data hay time-series data) trong trường hợp là đầu ra của mơ hình RNN, khi đó đã có các

chuỗi nhãn là ký tự, và do chia đều ảnh đầu vào nên chúng sẽ có độ dài cố định dựa theo thiết kế ban đầu của mạng. Thế nhưng chuỗi nhãn thì khơng có chiều dài cố định như thế, từ ngữ sẽ có nhiều độ dài khác nhau, vấn đề này được gọi là alignment problem. Cho nên cần phải tìm cách căn chỉnh các chuỗi về độ dài mong muốn. Theo

[9], hiện chưa có một phương pháp tiên nghiệm nào như vậy, nên cần sử dụng một mơ hình kết nối để thực hiện việc căn chỉnh với độ chính xác chấp nhận được. Vì thế mơ hình này được gọi là bộ kết nối phân loại theo thời gian (Connectionist Temporal Classification - CTC).

Hình 3.2: Tổng quan về áp dụng mạng neuron hồi quy sử dụng CTC cho nhận dạng chữ viết tay1

Các cơng trình liên quan 30

3.2.1 Phân loại theo thời gian

Ảnh đầu vào chứa một chuỗi thông tin là thứ tự xuất hiện của các ký tự. Tương tự, dữ liệu cũng được gán nhãn theo một thứ tự như vậy, nhưng chiều dài của nó có thể ngắn hơn so với chuỗi dự đốn được. Vì vậy, việc cần làm là cố gắng căn chỉnh (align) giữa hai chuỗi, và giả sử rằng độ dài của chuỗi dự đoán được phải lớn hơn hay bằng chuỗi nhãn.

Chúng ta sẽ có hai bước chính để tiếp cận. Đầu tiên chúng ta sẽ chuyển hình ảnh 2D sang dữ liệu dạng tuần tự 1D và bước tiếp theo là thực hiện “alignment” đối với hai chuỗi (Hình 3.3).

Hình 3.3: Vấn đề alignment trong nhận dạng chữ viết tay

3.2.2 Chuyển dữ liệu dạng ảnh sang chuỗi

Hình ảnh đầu vào khơng phải là dữ liệu tuần tự mà hoàn toàn là dữ liệu 2D, vì vậy một số nghiên cứu đã có những cách tiếp cận khác nhau để chuyển đổi hình ảnh từ hai chiều về một chiều. Có thể gọi đây là bài tốn chuyển dữ liệu dạng hình ảnh sang chuỗi (Image to Sequence).

Nhận ra rằng việc sử dụng các đặc trưng được làm thủ cơng (hand-crafted features) thiếu tính mạnh mẽ đối với việc thay đổi hình dạng của văn bản trên hình ảnh, các tác giả trong bài báo [8] đã sử dụng bộ nhớ dài hạn đa chiều (multi-dimensional long-short term memory - MDLSTM) để trích xuất thơng tin trong khơng gian hai chiều, chúng ta sẽ nhận các bản đồ đặc trưng (feature maps) sau các phép tốn tích chập và các lớp dropout. Tương tự, bằng cách thay đổi hướng tiếp cận từ trên xuống (top-down) sang hướng đường chéo (diagonal-wise), các tác giả của bài báo [17] đã phát hành một ứng dụng dựa trên GPU giúp giảm đáng kể thời gian huấn luyện và cho thấy rằng

Các cơng trình liên quan 31

chiều sâu đóng một vai trị quan trọng hơn giữa việc sâu hơn hay rộng hơn trong các kiến trúc MDRNN (Hình 3.4). Chiều cao của các khối được chọn để thu gọn dần dần các hình ảnh 2D thành chuỗi 1D, sau đó có thể được dán nhãn bởi lớp đầu ra. Điều này cho phép các đặc trưng phức tạp được hình thành trong các giai đoạn.

Hình 3.4: Diagonal-wise MDRNN (nguồn [17])

Cấu tạo của một neuron thần kinh

Các hàm kích hoạt thơng dụng