3 Các công trình liên quan
3.3 Mơ hình Convolutional Recurrent Neural Network
chi phí tính tốn q đắt đỏ trong khi việc trích xuất đặc trưng của MDRNNs giống với các lớp tích chập, thậm chí chi phí tính tốn đối với các lớp tích chập thấp hơn.
3.3 Mơ hình Convolutional Recurrent Neural Net-work work
3.3.1 Tổng quan mơ hình
Mơ hình mạng neuron này được đặt tên làConvolutional Recurrent Neural Network (CRNN) vì nó là sự kết hợp của hai mạng neuron CNN và RNN. CRNN có ba lớp chính gồm lớp tích chập (convolutional layers), lớp hồi quy (recurrent layers) và lớp phiên mã (transcription layer). Thứ tự và mô tả của các lớp được biểu diễn khái quát như Hình 3.5.
Đầu vào của mơ hình này là một ảnh chứa chữ viết tay cần nhận dạng được đưa về dạng ảnh xám và biểu diễn dưới dạng ma trậnW ×H. Ma trận này được sử dụng
làm đầu vào của lớp tích chập.
Lớp tích chập
Lớp tính chập được tạo thành bởi convolutional layers và max-pooling layer từ mơ hình CNN cơ bản (fully-connected layer được loại bỏ). Các lớp convolution, max- pooling và hàm kích hoạt tác động trên mỗi phần tử hoạt động ở các vùng địa phương, và chúng bất biến. Vì vậy mỗi cột của bản đồ đặc trưng (feature map) tương ứng với một vùng hình chữ nhật trên hình gốc ban đầu, và những vùng hình chữ nhật đó nằm theo đúng thứ tự như các cột tương ứng của chúng trên feature map từ trái sang phải.
Các cơng trình liên quan 32
Hình 3.5: Kiến trúc mạng bao gồm ba phần: 1) Lớp tích chập dùng để trích xuất đặc trưng từ hình ảnh đầu vào; 2) Lớp hồi quy dùng để dự đoán phân bố nhãn cho mỗi khung; 3) Lớp phiên mã dùng để dịch nhãn đã dự đoán ở mỗi khung thành chuỗi nhãn văn bản cuối cùng. (nguồn [14])
Những điều trên được minh họa ở Hình 3.6, mỗi vector trong chuỗi đặc trưng (feature sequence) tượng trưng cho một vùng hình chữ nhật trên hình.
Hình 3.6:Mỗi vector trong chuỗi đặc trưng trích xuất được kết hợp với một vùng hình chữ nhật trên hình đầu vào, đây có thể được xem là vector đặc trưng của vùng này (nguồn [14])
Lớp hồi quy
Lớp hồi quy sử dụng đầu ra của lớp tích chập để làm đầu vào. Tại đây sử dụng một mạng neuron hồi quy mà chính xác hơn là LSTM. LSTM là một mạng hồi quy có hướng, nó chỉ sử dụng những ngữ cảnh phía trước tính ở thời điểm hiện tại. Tuy nhiên trong chuỗi hình thành dựa trên hình ảnh, ngữ cảnh đến từ hai phía đều hữu ích và
Các cơng trình liên quan 33
bổ sung cho nhau. Vì vậy, tác giả kết hợp hai LSTM lại với nhau, một theo chiều tiến và một theo chiều ngược lại, tạo thành một LSTM hai chiều (bidirectional LSTM). Hơn thế nữa nhiều LSTM hai chiều có thể chồng lên nhau tạo thành một LSTM hai chiều sâu (deep directional LSTM) như được minh họa ở Hình 3.7(b). Ngồi ra, ở dưới cùng của lớp hồi quy cịn có một lớp mạng tùy chỉnh được gọi là “Map-to-Sequence”
được xem là cầu nối giữa lớp tích chập và lớp hồi quy.“Map-to-Sequence” nhằm mục đích có thể lan truyền ngược những sai khác ở lớp hồi quy sang lớp tích chập giúp cập nhật lại các thơng số theo sự sai khác đó.
Hình 3.7: (a) Cấu trúc của một đơn vị LSTM cơ bản. (b) Cấu trúc của deep birectional LSTM được tác giả sử dụng. (nguồn [14])
Lớp phiên mã
Lớp phiên mã (transcription layer) sử dụng đầu ra của lớp hồi quy làm đầu vào. Phiên mã là q trình chuyển dự đốn ở mỗi frame được sinh ra bởi RNN thành một chuỗi nhãn (label sequence). Nói một cách tốn học transcription là tìm một label sequence có xác suất cao nhất dựa vào các dự đốn ở mỗi frame trước đó. Tác giả sử dụng xác suất có điều kiện được định nghĩa bởi CTC. Đầu vào là một chuỗi
y=y1, y2, ..., yT với T là chiều dài chuỗi, yt ∈ ℜ|L′|. Trong đó mỗi yt là phân phối xác suất trên tập L′ = L ∪ {−}, với L bao gồm tất cả các ký tự tiếng Anh, còn “−” là đại diện cho ký tự “khoảng trắng” (blank character). Một hàm ánh xạ chuỗi thành chuỗi (sequence-to-sequence mapping function)B được định nghĩa trên chuỗiπ ∈ L′T,
Bánh xạπ thànhl bằng cách sau, đầu tiên loại bỏ đi các ký tự trùng lặp kế bên nhau mà không bị ngăn cách nhau bởi ký tự “−”, sau đó loại bỏ đi các ký tự “−” này. Cuối cùng, xác suất có điều kiện được định nghĩa là tổng xác suất của tất cả các π được ánh xạ thành l bởi B.
p(l|y) = X
π:B(π)=l
p(π|y) (3.1) Với xác suất của π được định nghĩa bởi p(π|y) =QTt=1yπtt , trong đó yπtt là xác suất của nhãnπt tại điểm thời giant. Trong thực tế, có hai chế độ phiên mã đó là phiên mã
Các cơng trình liên quan 34
phi từ vựng (lexicon-free transcription) và phiên mã dựa trên từ vựng (lexicon-based transcription):
• Lexicon-free transcription: Trong chế độ này chuỗi ℓ∗ có xác suất cao nhất được định nghĩa bởi biểu thức (3.1) và tính tốn dựa trên dự đốn bằng cách sử dụng giải thuật forward-backward [9]. Chuỗi ℓ∗ là xấp xỉ vớiB(argmaxπp(π|y)). • Lexicon-based transcription: Trong chế độ này mỗi mẫu kiểm tra được gắn
với một bộ từ vựng D. Để giới hạn khơng gian tìm kiếm khi bộ từ vựng quá lớn thì ta sẽ chỉ tìm những ứng cử viên hàng xóm gần nhất Nδ(ℓ′) với δ là khoảng cách tùy chỉnh tối đa (maximal edit distance) và ℓ′ là chuỗi phiên mã từy trong chế độ lexicon-free:
ℓ∗ =argmax
ℓ∈Nδ(ℓ′)
p(ℓ|y) (3.2) trong đó Nδ(ℓ′) có thể được tìm thấy hiệu quả với cấu trúc dữ liệu BK-tree [4]. Cho tập huấn luyện là X ={Ii, ℓi}với Ii là hình dùng để huấn luyện và ℓi là chuỗi nhãn đúng của hình. Hàm mất mát của mơ hình được định nghĩa như sau:
O =− X
Ii,ℓi∈X
logp(ℓi|yi) (3.3) trong đó yi là chuỗi nhãn được tạo ra bởi mơ hình từ Ii. Ngồi ra mơ hình sẽ được
huấn luyện bằng Stochastic Gradient Descent (SGD).
3.3.2 Ưu điểm và nhược điểm
Ưu điểm
• Q trình huấn luyện mơ hình được diễn ra liền mạch, cách tiếp cận trước đây thì mơ hình sẽ được huấn luyện sẽ được chia ra các bước rời rạc.
• Khơng phụ thuộc vào chiều rộng và số từ vựng của ảnh đầu vào, không cần phải phân tách ký tự hay chuẩn hóa ngang.
• Khơng bị giới hạn bởi bất kỳ kho từ vựng nào.
• Mơ hình sau khi huấn luyện có kích thước nhỏ và hiệu năng cao, dễ dàng ứng dụng vào các dự án thực tế.
• Mơ hình có thể ứng dụng để nhận diện nhiều bài tốn khác khơng chỉ riêng bài toán nhận diện ký tự.
Nhược điểm
Các cơng trình liên quan 35