Hình [11] mơ tả thiết kế chương trình khung đánh giá các phương pháp và mơ hình nhằm phục vụ việc đảm bảo tính cơng bằng và khách quan cho việc hiện thực, tái lập cũng
như đánh giá và so sánh các cơng trình. Từ sơ đồ ta có thể thấy chương trình khung gồm có 4 giai đoạn chính.
Giai đoạn 1: Chuẩn hóa dữ liệu đầu vào Ở giai đoạn này ta sẽ thực hiện chuyển hóa dữ liệu từ bộ dữ liệu CROHME được cung cấp, từ các file XML thành những dữ liệu ảnh cũng như dữ liệu nhãn nhằm phục vụ cho việc huấn luyện và đánh giá sau này. Với sự hỗ trợ của thư việnscikit-image, dữ liệu từ file XML sẽ được trực quan hóa thành các file ảnh png chứa biểu thức toán học theo đúng chuẩn sẽ được trình bày cụ thể hơn ở Chương 4 Mục 1. Dữ liệu nhãn cho các biểu thức sẽ được tổng hợp và chuẩn hóa vào các file TSV, một định dạng file lưu trữ dữ liệu với các trường giá trị cách nhau bởi dấu tab(\t). Sau đó, các dữ liệu đã được chuẩn hóa sẽ được phân chia vào các tập dữ liệu huấn luyện1, kiểm định2 và đánh giá3 và được lưu trữ tập trung ở bộ lưu trữ dữ liệu huấn luyện và đánh giá. Việc lưu trữ dữ liệu này có thể được tổ chức thơng qua các cơ sở dữ liệu hay đơn giản hơn là ở các hệ thống tập tin dữ liệu4 của máy tính cá nhân.
Giai đoạn 2: Huấn luyện mơ hìnhKiến trúc mơ hình được chọn sẽ được hiện thực và huấn luyện thành các bản thể mơ hình ở giai đoạn này. Giai đoạn 2 sử dụng dữ liệu từ tập huấn luyện đã được chuẩn hóa và lưu trữ sẵn để huấn luyện mơ hình thơng qua các vòng lặp huấn luyện5. Ngồi phương pháp định sẵn số vịng lặp huấn luyện cố định thì ta cịn có kĩ thuật dừng sớm6 có thể sử dụng ở giai đoạn này. Kĩ thuật dừng sớm thực hiện việc đánh giá trên tập Valid theo định kì nhằm theo dõi và ra quyết định điều chỉnh số vòng lặp huấn luyện cần thực hiện. Khi kết quả đánh giá khơng có sự cải thiện sau nhiều vịng lặp thì hệ thống sẽ tự động đưa ra quyết định giảm tỉ số học7, sau nhiều lần tái diễn việc giảm tỉ số học, hệ thống sẽ ra quyết định kết thúc quá trình học.
Giai đoạn 3: Đánh giá mơ hình trên tập Valid & Chọn mơ hình tốt nhấtCác bản thể mơ hình được huấn luyện ở giai đoạn 2 sẽ được đánh giá trên tập dữ liệu Valid. Qua đó, bản thể mơ hình tốt nhất sẽ được chọn ra trở thành đại diện cho kiến trúc mơ hình, ý tưởng đề xuất. Việc đánh giá mơ hình trên tập Valid bên cạnh việc giúp hệ thống có thể tự điều chỉnh số vịng lặp huấn luyện thì cịn giúp ta tìm kiếm những bộ siêu tham số nhằm tạo ra bản thể tốt nhất để đại diện cho cơng trình, ý tưởng.
Giai đoạn 4: Đánh giá mơ hình trên tập Test Sau khi chọn lựa được bản thể tốt nhất để đại diện cho mơ hình ở giai đoạn 3, ta sẽ thực hiện đánh giá bản thể đó trên tập dữ liệu Test. Kết quả đánh giá này sẽ được xem là kết quả chính thức và cuối cùng, đại diện cho cơng trình hay phương pháp được đề xuất.
Khác biệt với các giai đoạn còn lại, giai đoạn 1 được thực hiện một cách độc lập, không phụ thuộc vào cơng trình, ý tưởng đang được thí nghiệm. Do đó các tập dữ liệu huấn luyện, kiểm định và đánh giá đã được cố định. Khi thực hiện việc đánh giá tuân theo chương trình khung được định ra này, ta sẽ đảm bảo thu được những kết quả đánh giá công bằng
1
Thuật ngữ tiếng Anh: Train set
2
Thuật ngữ tiếng Anh: Valid set
3Thuật ngữ tiếng Anh: Test set
4
Thuật ngữ tiếng Anh: Filesystem
5Thuật ngữ tiếng Anh: Training loop
6
Thuật ngữ tiếng Anh: Early stop
và khách quan nhất nhờ vào việc dữ liệu mà mơ hình được thấy để học, dữ liệu ta được thấy để tối ưu siêu tham số cũng như dữ liệu ta không được thấy để đánh giá đối với các mơ hình là như nhau, từ đó tạo ra mơi trường học, huấn luyện tương đồng và thực hiện việc đánh giá trên cùng một tập dữ liệu đánh giá đảm bảo tính cơng bằng trong việc đánh giá.
Như vậy, ta có thể bàn luận dựa trên các kết quả đánh giá thu được khi tuân thủ theo chương trình khung này, tin tưởng vào việc đó là những kết quả cơng bằng và khách quan. 2 Hướng tiếp cận nền tảng
Ở phần này ta sẽ lần lượt tìm hiểu về hướng tiếp cận nền tảng trong việc giải quyết bài toán nhận dạng biểu thức tốn học viết tay và các cơng trình liên quan sử dụng kiến thức nền tảng này mà ta sẽ tái lập ở luận văn này, cụ thể là WAP[13] và [14].
2.1 Kiến trúc nền tảng
Với bài toán nhận diện biểu thức viết tay, dữ liệu đầu vào cho mơ hình là ảnh chứa biểu thức toán học, với mỗi ảnh chỉ chứa duy nhất 1 biểu thức. Dữ liệu đầu ra của mơ hình là một chuỗi ký hiệu theo quy chuẩn mã LATEX. Xét Hình [12], với ảnh đầu vào như hình thì dữ liệu đầu ra ta sẽ thu được chuỗi ký hiệu như sau (các ký hiệu cách nhau bởi khoảng trắng):
y ^ { 4 } + y + 1 = 0