2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
1.12 Kiến trúc mạng RN N Nguồn: [85]
Cơ bản, mạng RNN có cấu trúc như sau:
• st là trạng thái ẩn tại bước t. Nó chính là bộ nhớ của mạng. st được tính toán dựa trên cả các trạng thái ẩn phía trước và đầu vào tại bước đó:st = f(U xt+W st−1). Hàm f thường là một hàm phi tuyến tính như tanh hay ReLu. Để làm phép toán cho phần tử ẩn đầu tiên ta cần khởi tạo thêm s−1, thường giá trị khởi tạo được gắn bằng 0.
• ot là đầu ra tại bước t. Ví dụ, ta muốn dự đoán từ tiếp theo có thể xuất hiện trong câu thì ot chính là một vector xác xuất các từ trong danh sách từ vựng của ta: ot =softmax(V st)
Huấn luyện mạng RNN cũng tương tự như các mạng nơ-ron truyền thống, tuy nhiên giải thuật lan truyền ngược (backpropagation) phải thay đổi một chút. Đạo hàm tại mỗi đầu ra phụ thuộc không chỉ vào các tính toán tại bước đó, mà còn phụ thuộc vào các bước trước đó nữa, vì các tham số trong mạng RNN được sử dụng chung cho tất cả các bước trong mạng.
1.5 Cơ sở lý thuyết - Phân loại thời gian kết nối -
Connectionist Temporal Classification Loss
Trong bài toán Nhận diện ký tự - Text Recognition, đầu vào của bài toán sẽ là hình ảnh của một dòng văn bản, hoặc hình ảnh của một từ văn bản, nhiệm vụ của mô hình sẽ là phân loại được văn bản nào xuất hiện trong ảnh đầu vào. Có rất nhiều hướng tiếp cận để giải quyêt bài toán này, và Phương pháp nhận dạng từng ký tự - Character Based OCR (CB-OCR) là một hướng tiếp cận như vậy. Hãy xét ví dụ dưới đây:
Ở hình trên, chúng ta có thể thấy, đầu ra của thuật toán nhận diện văn bản tiếp cận theo hướng Phương pháp nhận dạng từng ký tự - Character Based OCR (CB-OCR) trả ra kết quả không mong đợi. Nguyên nhân của việc này là