báo gốc của các tác giả.
Mỗi mũi tên từ trên xuống chỉ thị cho việc rút trích đặc trưng trung gian từ một bước nhất định của mơ hình. Ở đây ta thấy có sự rút trích đặc trưng trung gian ở 3 mốc trong mơ hình x1, x2, x3 mà ta sẽ gọi tên lần lượt là 3b,4d và 5b mang ý nghĩa chỉ định thứ tự lớp trong toàn bộ mạng mà đặc trưng này được rút ra.
Hãy nhớ lại về InceptionNet[4], [5], mạng được cấu thành bởi việc xếp chồng các khối Inception lên với nhau. Ở InceptionNet, mạng được chia nhỏ thành 5 bậc với mỗi bậc sẽ một số khối Inception xếp chồng lên nhau. Để tiện trao đổi và thảo luận, các bậc được đặt tên theo số, với lớp càng gần đầu vào sô càng nhỏ, và mỗi khối Inception được đặt tên thứ tự theo bảng chữ cái, với lớp gần đầu vào nhất sẽ là a. Như vậy, đặc trưngx1 chính là đặc trưng đầu ra của block Inception thứ 2 của bậc thứ 3.
Hiểu rõ về quy cách gọi tên cũng như ý nghĩa của chúng, ta thống nhất sẽ gọi các biến thể của mạng rút trích đặc trưng đa phân giải và các biến thể của ý tưởng đề xuất ứng dụng chúng bằng các tên 3b, 4d và 5b.
Với ý tưởng về việc xây dựng bộ rút trích đặc trưng đa phân giải như đã trình bày (gọi tên là InceptionFusion và gọi tắt là IF), tác giả luận tham khảo và tiếp thu, qua
đó nghiên cứu về việc ứng dụng ý tưởng đó để phục vụ cho bài toán nhận dạng biểu thức toán học viết tay. Với việc mạng rút trích đặc trưng đa phân giải có thể coi là một mạng rút trích đặc trưng độc lập, kèm theo lợi thế về cách thiết kế chương trình khung theo kiến trúc nền tảng, việc ứng dụng ý tưởng kết hợp với WAP hay MultiScale WAP trở nên dễ dạng hơn với việc chỉ thay thế mô-đun Encoder với biến thể hiện thực InceptionFusion.
Như vậy, việc kết hợp ý tưởng InceptionFusion vào WAP tạo ra WAP + IF với các biến thể 3b, 4d, 5b tương ứng với các biến thể của InceptionFusion mà ta đã đề cập từ trước.
Tương tự, kết hợp ý tưởng InceptionFusion và MultiScale WAP tạo ra MultiScale WAP + IF với các biến thể 5b+4d, 5b+3b và 4d+3b.
Như vậy, phương pháp đề xuất nghiên cứu, thử nghiệm và đánh giá cho luận văn này là nỗ lực cải tiến 2 cơng trình WAP[13] và MultiScale WAP[14] bằng cách kết hợp đặc trưng
Chương 4 Kết quả thực nghiệm1 Dữ liệu 1 Dữ liệu
Dữ liệu được sử dụng để thực hiện huấn luyện cũng như đánh giá các hệ thống, mơ hình là bộ dữ liệu được rút trích từ cuộc thi CROHME 2019. Dữ liệu được công bố và cho
phép tải về bởi ban tổ chức cuộc thi[23], [24].
Qua nhiều lần tổ chức thì tập dữ liệu CROHME cũng dần tăng trưởng và ở phiên bản 2019 tập dữ liệu được phân loại thành 5 tập con gắn liền với các giai đoạn phát triển là: Data2012, Data2013, Train2014, Test2014, Test2016. Bảng [3] cho ta thấy số lượng biểu thức ở mỗi tập dữ liệu con và việc tập dữ liệu sẽ được sử dụng vào mục đích huấn luyện (Train) hay đánh giá (Test) mơ hình.
Tập dữ liệu Số lượng biểu thức Phân loại dữ liệu
Train2014 8834 Train
Test2013 671 Train
Test2012 488 Train
Test2016 1147 Test
Test2014 984 Test
Bảng 3: Các tập dữ liệu con của CROHME 2019, số lượng biểu thức và phân loại của chúng. Dữ liệu CROHME được cung cấp ở dạng các file XML khai báo tọa độ tập hợp các điểm của mỗi nét (stroke) trong biểu thức, tổ hợp các nét sẽ tạo thành các ký tự trong biểu thức. Mỗi biểu thức trong tập dữ liệu sẽ được biểu diễn bởi 1 file XML tương ứng.
Tuy trong dữ liệu được cung cấp có trường giá trị nhãn của biểu thức nhưng việc khảo sát và nghiên cứu tập dữ liệu cho thấy nhãn biểu thức được cung cấp còn nhiều giá trị nhiễu mà đặc trưng là các định danh LATEXnhằm hỗ trợ việc định dạng font chữ (ví dụ như ‘mathrm‘). Do vậy đối với dữ liệu sử dụng cho đề tài thì ta sẽ tiến hành việc xử lý và chuẩn hóa nhãn dữ liệu, cụ thể là ta sẽ rút trích nhãn và tái dựng lại nhãn của biểu thức từ cây cú pháp biểu thức. Bên cạnh đó ta cũng giớn hạn được tập các ký tự xuất hiện trong nhãn (Xem chi tiết ở Phụ lục 3).
Ở phiên bản 2019, ban tổ chức đã định nghĩa chuẩn định dạng ảnh đầu vào cho bài toán cũng như hướng dẫn trực quan hóa dữ liệu nét thành dữ liệu ảnh. Mỗi biểu thức sẽ được trực quan hóa thành ảnh trắng đen với kích thước 310×310. Hình [16] trực quan
hóa một số ảnh ví dụ cho tập dữ liệu. Vì vậy dữ liệu ảnh đầu vào cho mỗi hệ thống, mơ hình được thử nghiệm đều sẽ được cố định về kích thước 310×310, từ đó bỏ qua yếu tố
sử dụng ảnh đa kích thước làm dữ liệu đầu vào ở một số cơng trình[13], [14].
Để phục vụ việc huấn luyện và tối ưu siêu tham số thì tập dữ liệu huấn luyện được chia thành tập TrainSubset và tập Valid theo tỷ lệ 80−20.