ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ ANH DUY
HỆ THỐNG TRÍCH XUẤT BIỂU THỨCTOÁN HỌC TRÊN ẢNH TÀI LIỆU
Chuyên ngành: Khoa học máy tínhMã số: 8480101
LUẬN VĂN THẠC SĨ
Trang 2Cán bộ hướng dẫn khoa học : TS Trần Tuấn Anh
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)Cán bộ chấm nhận xét 1 : TS Trịnh Tấn Đạt
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)Cán bộ chấm nhận xét 2 : TS Tôn Long Phước
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCMngày 11 tháng 7 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)1 PGS TS Trần Ngọc Thịnh - Chủ tịch hội đồng
2 TS Nguyễn Tiến Thịnh - Thư ký3 TS Trịnh Tấn Đạt - Phản biện 14 TS Tôn Long Phước - Phản biện 25 TS Trần Tuấn Anh - Uỷ viên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành saukhi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LÊ ANH DUYMSHV: 2170524
Ngày, tháng, năm sinh: 16/03/1999Nơi sinh: Tiền Giang
Chuyên ngành: Khoa học máy tínhMã số : 8480101
I TÊN ĐỀ TÀI:
- Tiếng anh: A system for extracting mathematical expressions in document images- Tiếng việt: Hệ thống trích xuất biểu thức toán học trên ảnh tài liệu
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu, đề xuất phương pháp mới cho bài toán nhận diện biểu thức toán học- Thí nghiệm và đánh giá kết quả của phương pháp đề xuất
- Xây dựng hệ thống trích xuất biểu thức toán học trên ảnh tài liệu
III.NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài) 06/02/2023
IV.NGÀY HOÀN THÀNH NHIỆM VỤ:(Ghi theo trong QĐ giao đề tài)09/06/2023
V.CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): TS Trần Tuấn Anh
Tp HCM, ngày 13 tháng 8 năm 2023
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)
Trần Tuấn Anh Thoại Nam
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH(Họ tên và chữ ký)
PGS.TS Quản Thành Thơ
Trang 4Để hoàn thành đề cương luận văn tốt nghiệp này, em đã nhận được sự hỗ trợtừ rất nhiều phía Đầu tiên và quan trọng nhất, em xin gửi lời cảm ơn chân thànhđến giảng viên hướng dẫn trực tiếp của em, Tiến sĩ Trần Tuấn Anh Thầy là ngườiđịnh hướng chính, cung cấp tài liệu cũng như theo dõi quá trình thực hiện đề tài vàhỗ trợ khi em gặp khó khăn Q trình làm việc với thầy em đã học hỏi được rấtnhiều điều từ kiến thức chuyên môn tới phong cách làm việc và nghiên cứu khoahọc Những kinh nghiệm học được từ thầy là hành trang vô cùng quý giá trên chặngđường sự nghiệp sắp tới của em.
Em cũng vô cùng biết ơn sự tận tình dạy dỗ, giúp đỡ của q thầy cơ trongkhoa Khoa học & Kỹ thuật Máy tính nói riêng cũng như trường Đại học Bách khoaTP Hồ Chí Minh nói chung Những kiến thức nhận được từ quý thầy cô là vơ cùngq giá và bổ ích, hỗ trợ rất lớn cho em để hoàn thành luận văn tốt nghiệp này.
Em/mình cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp trong teamOCR Trung tâm Không gian mạng Viettel, những lời khuyên và ý kiến đóng gópcủa mọi người đã giúp ích rất nhiều cho em/mình trong q trình thực hiện lụânvăn này.
Trang 5Tóm tắt
Trích xuất biểu thức tốn học là mơt bài tốn có nhiều ứng dụng trong qtrình chuyển đổi số Để hiện thực một hệ thống trích xuất biểu thức tốn học hồnthiện cần giải quyết hai bài tốn con bao gồm bài toán phát hiện vùng biểu thứctoán học và bài toán nhận diện biểu thức toán học.
Trong hai bài toán trên, nhận diện biểu thức toán học được xem là một bàitốn khó và thực tế hiện nay các phương pháp cho bài tốn này vẫn cịn nhiều mặthạn chế cần phải cải thiện Mục tiêu của bài toán này là xác định nội dung củabiểu thức toán và chuyển đổi từ dạng hình ảnh có thể là sang dạng kĩ thuật số cóthể lưu trữ trên thiết bị điện tử Bài tốn có tính ứng dụng đặc biệt cao trong bốicảnh chuyển đổi số hiện nay nhất là trong hai lĩnh vực khoa học và giáo dục Chínhbởi lẽ đó, nhận diện biểu thực tốn học dần nhận được sự quan tâm ngày càng caotừ giới nghiên cứu trí tuệ nhân tạo trên thế giới trong những năm gần đây.
Trong luận văn này, mục tiêu nhóm hướng tới là nghiên cứu xây dựng một mơhình hiệu quả cho bài tốn MER, từ đó kết hợp cùng với mơ hình phát hiện vùngbiểu thức được cơng bố bởi các nghiên cứu trước đó, để hồn thiện một hệ thốngtrích xuất biểu thức tốn học hồn chỉnh.
Nhóm đã đề xuất một mơ hình dựa trên kiến trúc Seq2seq trong đó sử dụngkiến trúc Vision Transformer cho bộ mơ hình hóa ngữ cảnh Các thí nghiệm trêntập dữ liệu cơng khai đã khẳng định tính hiệu quả của phương pháp được nhóm đềxuất Bên cạnh đó, nhận thấy việc hạn chế về mặt dữ liệu khi nghiên cứu bài toánMER đã thúc đẩy nhóm nghiên cứu và xây dựng một bộ dữ liệu mới gọi là LIMDvới hi vọng có thể thay thế được bộ dữ liệu công khai hiện tại Cuối cùng, nhómtiến hành việc hồn thiện hệ thống trích xuất bằng cách kết hợp mơ hình HybridVision Transformer cùng mơ hình ScanSSD [1] là một mơ hình phát hiện vùng biểuthức tốn học Tồn bộ mã nguồn và bộ dữ liệu sẽ được công khai tại Github1.
Trang 6Extracting mathematical expressions is a problem with many applications inthe digitization process To implement a complete mathematical expression extrac-tion system, two subproblems need to be solved, including the problem of detectingmathematical expression regions and the problem of recognizing mathematical ex-pressions.
In the two aforementioned problems, recognizing mathematical expressions isconsidered a difficult task, and currently, the existing methods for this problemstill have many limitations that need to be improved The goal of this problem isto determine the content of the mathematical expression and convert it from animage format into a digital form that can be stored on electronic devices Thisproblem is highly applicable, especially in the context of digital transformation,particularly in the fields of science and education Therefore, the recognition ofmathematical expressions has been receiving increasing attention from the globalartificial intelligence research community in recent years.
In this thesis, the objective of us is to research and develop an efficient model forthe MER problem The aim is to combine this model with the previously publishedmodel for detecting mathematical expressions in order to complete a comprehensivesystem for extracting mathematical expressions.
Trang 7Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
model The entire source code and dataset will be publicly available on GitHub2.
Trang 8Học viên cam đoan mọi thông tin được trình bày trong báo cáo, cũng như mãnguồn là do học viên tự thực hiện - trừ các kiến thức tham khảo có trích dẫn cũngnhư mã nguồn mẫu do chính nhà sản xuất cung cấp, hồn tồn khơng sao chép từbất cứ nguồn nào khác Nếu lời cam đoan trái với sự thật, học viên xin chịu mọitrách nhiệm trước Ban Giám Hiệu Nhà Trường và Ban Chủ Nhiệm Khoa.
Học viên thực hiện đề tài
Trang 9Mục lục
1 Giới thiệu đề tài 1
1.1 Đặt vấn đề 1
1.2 Mục tiêu và giới hạn của đề tài 3
1.3 Đóng góp chính 4
2 Nền tảng lý thuyết 52.1 Cơ bản về LaTeX 5
2.1.1 Sơ lược về TeX, LaTeX 5
2.1.2 Một số cú pháp toán học cơ bản trong LaTeX 6
2.2 Bài toán dự đoán chuỗi 7
2.2.1 Một số bài tốn điển hình 7
2.2.2 Các lí thuyết liên quan 8
3 Khảo sát các nghiên cứu liên quan 163.1 Tổng quan về các hướng nghiên cứu 16
3.2 Các nghiên cứu dựa trên kiến trúc Seq2seq 18
3.2.1 What You Get Is What You See: A Visual Markup Decompiler 193.2.2 An Improved Approach Based on CNN-RNNs for Mathemat-ical Expression Recognition 21
3.2.3 Translating math formula images to LaTeX sequences usingdeep neural networks with sequence-level training 23
3.2.4 Global Context-Based Network with Transformer for Image2latex 263.3 Kết luận 30
4 Hybric Vision Transformer cho bài toán Nhận diện biểu thứctoán học (MER) 314.1 Vấn đề mơ hình hóa thơng tin ngữ cảnh trong khơng gian hai chiều 324.2 Vấn đề sinh thừa (over-parsing) và sinh thiếu (under-parsing) 34
Trang 104.4 Ý tưởng chính 36
4.5 Thiết kế chi tiết 39
4.5.1 Hybrid Vision Transformer là một bộ mã hóa 39
4.5.2 Khối tập trung sử dụng độ phủ (Coverage Attention) là mộtbộ giải mã 48
4.6 Kết luận 49
5 Thí nghiệm và đánh giá 515.1 Khảo sát tập dữ liệu 51
5.2 Phương pháp huấn luyện, dự đoán 52
5.2.1 Quá trình huấn luyện 52
5.2.2 Giải thuật Beam Search 53
5.2.3 Q trình dự đốn 55
5.2.4 Tăng cường dữ liệu cho ảnh 55
5.2.5 Xử lý dữ liệu đầu vào 57
5.2.6 Chi tiết về độ đo 58
5.3 Thí nghiệm trên bộ dữ liệu IM2LATEX-100K 60
5.3.1 Cấu hình thí nghiệm 605.3.2 Kết quả định lượng 625.3.3 Kết quả định tính 625.3.4 Thí nghiệm thành phần 635.3.5 Phân tích, đánh giá 665.4 Kết luận 68
6 Bộ dữ liệu Large Image to Markup Database (LIMD) 696.1 Vấn đề thiếu hụt dữ liệu đối với bài toán MER 69
6.2 Quá trình xây dựng bộ cơ sở dữ liệu 70
6.2.1 Thu thập dữ liệu LaTeX 71
6.2.2 Lọc dữ liệu 72
6.2.3 Chuẩn hóa dữ liệu 74
6.2.4 Kết xuất dữ liệu ảnh 76
6.2.5 Hậu xử lý dữ liệu 77
6.3 Thống kê, đánh giá bộ dữ liệu 78
6.3.1 Sàng lọc và loại bỏ ngoại lệ 78
6.3.2 Phân tích và đối chiếu với tập IM2LATEX-100K 80
Trang 11Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
7 Hệ thống trích xuất biểu thức tốn học trên ảnh tài liệu 85
7.1 Tổng quan thiết kế hệ thống 85
7.1.1 Luồng hoạt động của hệ thống 86
7.1.2 Mơ hình phát hiện vùng biểu thức toán học 86
7.2 Chi tiết hiện thực hệ thống 89
7.2.1 Ngôn ngữ và thư viện hỗ trợ 89
7.2.2 Công cụ, phần mềm hỗ trợ và triển khai 89
7.2.3 Giao diện và các tính năng của hệ thống 90
7.3 Kết quả demo 94
7.3.1 Tình huống 1-Ảnh chỉ chứa biểu thức toán học 94
7.3.2 Tình huống 2-Ảnh là một trang tài liệu hồn chỉnh 95
7.3.3 Tình huống 3-File PDF nhiều trang 99
7.4 Đánh giá hệ thống 1007.5 Kết luận 1018 Tổng kết 1028.1 Kết quả đạt được 1028.2 Hạn chế 1038.3 Kế hoạch phát triển 103
9 Danh mục các cơng trình khoa học 104
Trang 121.1 Cơng thức tốn trong các văn bản khoa học 2
1.2 Bài toán nhận diện biểu thức toán học (MER) 3
2.1 Quy trình tính tốn giá trị đầu ra của một lớp tích chập [2] 92.2 Cấu trúc của một lớp RNN trước và sau khi duỗi ra [3] 9
2.3 Cấu trúc của một cell LSTM [3] 10
2.4 Quy trình sinh ra kết quả trong bài toán dịch máy [4] 12
2.5 Scaled Dot-Product Attention [5] 13
2.6 Multi-Head Self-Attention [5] 14
2.7 Tổng quan mơ hình Transformer [5] 15
3.1 Cấu trúc của mơ hình WYGIWWYS [6] 20
3.2 Bảng đánh giá kết quả của mơ hình so với các phương phápthông qua các độ đo [6] 21
3.3 Kiến trúc mơ hình Double Attention [7] 22
3.4 Cấu hình backbone của mơ hình Double Attention [7] 22
3.5 Kết quả thí nghiệm trên tập IM2LATEX-100K [7] 23
3.6 Kết quả thí nghiệm trên tập IM2LATEX-100K [8] 24
3.7 Cấu hình chi tiết của bộ mã hóa CNN [8] 24
3.8 Kết cấu của kiến trúc BiLSTM chồng lấp với lớp tập trung[8] 25
3.9 Kết quả thí nghiệm và so sánh kết quả giữa MI2LATEX vớicác phương pháp khác [8] 26
3.10 Tồn bộ kiến trúc của mơ hình [9] 27
3.11 Kiến trúc ResNet được sử dụng [9] 28
3.12 Kiến trúc khối ngữ cảnh toàn cục được sử dụng [9] 29
Trang 13Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
4.1 Sự khác nhau về cấu trúc khơng gian giữa chữ viết tay vàbiểu thức toán học 334.2 Mối liên kết trong không gian hai chiều giữa một kí tự với
các kí tự còn lại 334.3 Các vec-tơ đặc trưng được mơ hình bằng khối BiLSTM 344.4 Sự tương đồng về mặt thông tin giữa hai vùng xanh và đỏ
có thể khiến cơ chế tập trung đưa ra dự đoán sai dẫn đếnviệc những kí tự đã được sinh trong quá khứ sẽ được sinhlại ở những bước dự đoán sau (over-parsing) 354.5 Kiến trúc tổng qt cho mơ hình đề xuất Mơ hình sẽ là sự
kết hợp của ba thành phần chính bao gồm khối trích xuất đặc trưng,khối mơ hình ngữ cảnh và khối dự đoán 364.6 Sự khác nhau trong quá trình mở rộng vùng receptive field
giữa ViT và mơ hình CNN lấy đại diện là ResNet50 [10] Cóthể thấy đối với ResNet50 thơng tin được tổng hợp một cách cục bộ,trong khi đối với ViT việc tổng hợp thơng tin tồn cục đã được thựchiện ở những lớp bậc trung 384.7 Sự khác nhau về khả năng bảo tồn thơng tin vị trí giữa
ViT và mơ hình CNN lấy đại diện là ResNet50 [10] Hàng 1,2 thể hiện khả năng bảo tồn thơng tin của ViT, hàng cuối tươngứng với ResNet50 384.8 Chi tiết về kiến trúc của mơ hình đề xuất Ảnh biểu thức tốn
được đưa qua bộ mã hóa trong đó bản đồ đặc trưng được trích xuấtbởi mơ hình ResNet [11] sau đó phân tách thành các vec-tơ patchnhúng kết hợp với vec-tơ mã hóa thơng tin vị trí làm đầu vào chokhối mơ hình ngữ cảnh gồm các khối ViT xếp chồng, đầu ra của khốimơ hình ngữ cảnh bao gồm vec-tơ nhúng [CLS] được dùng làm trạngthái ẩn khởi tạo cho bộ giải mã, và chuỗi vec-tơ đặc trưng nhúngđược dùng như vec-tơ annotation cho bộ giải mã 404.9 Vùng receptive field ứng với mỗi vec-tơ đặc trưng trên ảnh
gốc 414.10 Thành phần chính của khối ViT đơn vị Khác với thiết kết gốc
Trang 144.11 Mơ hình Vision Transformer cho bài tốn phân loại hìnhảnh Chỉ sử dụng vec-tơ nhúng của token [CLS] làm biểu diễn thôngtin của ảnh phục vụ thao tác phân loại 444.12 Cách cơ chế tự tập trung thực hiện việc tăng cường vec-tơ
nhúng đầu vào Ma trận tập trung (Attention Map) chỉ sự tươngquan giữa ma trận Key và ma trận Query, sau đó được nhân với matrận Value để thu được kết quả 464.13 Khác nhau trong cách thức sử dụng ViT cho bài tốn phân
loại ở hình 4.11 và bài tốn MER Ở bài tốn MER, tồn bộvec-tơ nhúng sau khi được biến đổi sẽ được sử dụng để làm giá trịđầu vào cho giai đoạn giải mã 474.14 Sự khác nhau giữa cơ chế tập trung truyền thống với việc
kết hợp thêm vec-tơ độ phủ Việc sử dụng vec-tơ độ phủ làmđầu vào cho phép toán tập trung sẽ giúp tăng xác suất được chọncuả những đặc trưng chưa được chuyển đổi trong tương lai, và giảmxác suất của những đặc trưng đã được dịch trong quá khứ 485.1 Minh họa một số mẫu dữ liệu từ tập IM2LATEX-100K 525.2 Minh họa về ý tưởng cho phép tăng cường ảnh với Random
Moving 565.3 Minh họa kết quả của các phép tăng cường ảnh trên dữ liệu
IM2LATEX-100K 565.4 Quy trình xử lý dữ liệu đầu vào trước khi huấn luyện mơ
hình 575.5 Những mẫu dữ liệu giống nhau giữa ảnh thật và ảnh kết xuất 635.6 Những mẫu dữ liệu khác nhau giữa ảnh thật và ảnh kết xuất 635.7 So sánh giữa mơ hình đề xuất và mơ hình baseline tại các
nhóm chiều dài cụ thể 675.8 Minh họa bản đồ tự tập trung của token [CLS] nhúng 675.9 Minh họa từng bước sinh token LaTeX 686.1 Các loại token trong LaTeX được thực hiện chuẩn hóa trong
IM2LATEX-100K [6] 706.2 Quy trình xây dựng bộ cơ sở dữ liệu LIMD Bao gồm 6 bước
Trang 15Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
6.3 Cấu trúc đường dẫn của một bài báo trên arxiv Trong đóF IELD_N AM E bao gồm các từ viết tắt trong bảng 6.1, YEARbao gồm hai chữ số cuối của các năm, MONTH là danh sách các
tháng, P AP ER_ID là id tương ứng với từng bài báo 72
6.4 Tương quan giữa tần suất xuất hiện và các nhóm kích thướctrong LIMD 79
6.5 Phần trăm mức độ đóng góp của từng nhóm chiều dài trongLIMD 79
6.6 So sánh số lượng mẫu xét theo chiều cao giữa LIMD vàIM2LATEX-100K 80
6.7 Sự khác nhau về phân bố chiều cao giữa LIMD và IM2LATEX-100K 816.8 So sánh số lượng mẫu xét theo chiều rộng giữa LIMD vàIM2LATEX-100K 81
6.9 Sự khác nhau về phân bố chiều rộng giữa LIMD và IM2LATEX-100K 82
6.10 So sánh số lượng mẫu xét theo độ dài token giữa LIMD vàIM2LATEX-100K 82
6.11 Sự khác nhau về phân bố độ dài token giữa LIMD và IM2LATEX-100K 83
6.12 Danh sách những token xuất hiện nhiều nhất trong LIMD 836.13 Danh sách những token xuất hiện nhiều nhất trong IM2LATEX-100K 84
7.1 Lưu đồ mô tả luồng hoạt động của hệ thống 87
7.2 Kiến trúc ScannSSD [1] 88
7.3 Kiến trúc SSD để phát hiện vật thể [12] 88
7.4 Thống kê tập dữ liệu để huấn luyện và đánh giá ScanSSD [1] 897.5 Các bước để thực hiện dự đoán 90
7.6 Giao diện hệ thống khi bắt đầu 91
7.7 Giao diện khi tải lên một ảnh biểu thức toán học 91
7.8 Giao diện khi tải lên một ảnh tài liệu 92
7.9 Giao diện khi tải lên một file PDF 92
Trang 167.11 Giao diện hiển thị kết quả dự đoán đối với một ảnh Có 3 cột:(1) Chuỗi LaTeX dự đốn, (2) Ảnh kết xuất từ (1), (3) Ảnh được cắt
bởi khối phát hiện vùng 93
7.12 Giao diện hiển thị kết quả dự đoán đối với một file PDFnhiều trang Xuất hiện các tab để hiển thị kết quả tương ứng chotừng trang 93
7.13 Kết quả thu được cho tình huống 1 94
7.14 Một ví dụ minh họa khác cho tình huống 1 94
7.15 Ảnh cần trích xuất thơng tin 1 95
7.16 Kết quả thu được trên ảnh 1 96
7.17 Ảnh cần trích xuất thơng tin 2 97
7.18 Kết quả thu được trên ảnh 2 98
7.19 Trang thứ nhất thuộc file PDF 99
7.20 Kết quả dự đoán cho trang thứ nhất 99
7.21 Trang thứ hai thuộc file PDF 100
Trang 17Danh sách bảng
4.1 Kiến trúc mơ hình ResNet32 425.1 Thông tin phần cứng 615.2 So sánh kết quả giữa các phương pháp trên tập kiểm thử của bộ dữ
liệu IM2LATEX-100K 625.3 Chi tiết cấu hình của các thí nghiệm thành phần, trong đó ‘None’
chỉ việc tại đó khơng sử dụng khối chức năng nào 645.4 Kết quả các thí nghiệm thành phần trong việc đánh giá các khối chức
năng của mơ hình đề xuất Trong đó Feat chỉ khối trích xuất đặctrưng, Context chỉ khối mơ hình ngữ cảnh, Pred chỉ khối dự đốn.Kết quả được đánh giá trên tập đánh giá IM2LATEX-100K 655.5 So sánh hai phương pháp mã hóa thơng tin vị trí 655.6 So sánh hai thiết lập khởi tạo trạng thái ẩn trên mơ hình đề xuất 665.7 So sánh kết quả dự đốn giữa mơ hình có sử dụng tăng cường ảnh
Trang 18MER Mathematical Expression RecognitionNLP Natural Language Processing
STR Scene Text RecognitionDNN Deep Neural NetworkFC Fully Connected
CNN Convolution Neural NetworkRNN Recurrent Neural NetworkGRU Gated Recurrent UnitGNN Graph Neural NetworkFFN Feed-forward-networkMLP Multi Layer PerceptronSeq2seq Sequence to sequenceViT Vision TransformerLSTM Long short term memoryVGG Visual Geometry Group
BiLSTM Bidirectional Long short-term memorySOTA State-of-the-art
Trang 19Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy TínhMHSA Multi-Head Self-Atenttion
Trang 20Giới thiệu đề tài
1.1Đặt vấn đề
Trang 21Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tínhsinh.
Hình 1.1: Cơng thức tốn trong các văn bản khoa học
Có thể thấy, chuyển đổi số có vai trị quan trọng đối với sự phát triển của khoahọc và giáo dục Tuy nhiên, bởi đặc trưng của các loại tài liệu kể trên mang tínhhọc thuật cao nên các thành phần bên trong nó có cấu trúc phức tạp, việc tríchxuất nội dụng của các thành phần có trong đó khơng hề dễ dàng Một trong nhữngthành phần phổ biến và quan trọng nhất thường xuất hiện trong các văn bản khoahọc chính là biểu thức tốn học Để thực hiện việc trích xuất biểu thức toán học,trên thực tế ta cần giải quyết hai bài toán con: Một, phát hiện vùng chứa biểu thứctoán học trên ảnh; hai, dùng các vùng ảnh phát hiện được để tiến hành nhận diệnbiểu thức So với các loại văn bản thơng thường, biểu thức tốn học có hai đặc điểmkhiến cho việc trích xuất trở nên khó khăn:
1 Vùng chứa các biểu thức tốn thường có nhiều mức kích thước khác nhau trênảnh, và nhiều biểu thức cịn nằm lẫn giữa các dịng văn bản thơng thường.2 Biểu thức tốn được tạo thành từ các kí hiệu có mối quan hệ phức tạp với
số lượng kí hiệu lớn và do đó biểu diễn ở dạng văn bản của nó thường viếtbằng dạng ngơn ngữ có cấu trúc (hay cịn gọi là "markup language") ví dụ nhưLaTeX, MathML Hình 1.2 minh họa cho quá trình chuyển đổi biểu thức toánhọc sang dạng LaTeX.
Trang 22Hình 1.2: Bài tốn nhận diện biểu thức tốn học (MER)
hiện và chuyển đổi biểu thức tốn sang dạng ngơn ngữ cấu trúc như LaTeX đặcbiệt hữu ích trong quá trình viết các tài liệu khoa học, giúp rút ngắn thời gian viếtmột cách đáng kể Trong hai bài toán con của bài tốn trích xuất biểu thức tốnhọc, bài tốn nhận diện được đánh giá là khó hơn cả, lí do là bởi vì các chi tiết trênảnh biểu thức thường rất phức tạp khiên việc xây dựng một phương pháp tự độngnhận diện rất khó khăn Trong những năm gần đây, ngày càng có nhiều nghiên cứuvề bài tốn nhận diện biểu thức tốn học được cơng bố trên các hội nghị và tạp chíuy tín chứng tỏ sự quan tâm cho bài toán này ngày càng tăng.
Nhận thức được tính cấp thiết và ứng dụng thiết thực trong thực tế của bàitốn trích xuất biểu thức tốn học, đề tài "Xây dựng hệ thống trích xuất biểu thứctốn học trong ảnh tài liệu" được nhóm đề xuất thực hiện như một nỗ lực trongviệc xây dựng một hệ thống trích xuất biểu thức tốn học với hiệu quả cao thôngqua việc nghiên cứu và cải tiến những phương pháp hiện có, từ đó tạo tiền đề choviệc xây dựng một cơng cụ hồn chỉnh cho phép số hóa các tài liệu khoa học phụcvụ cộng đồng học thuật ở Việt Nam.
1.2Mục tiêu và giới hạn của đề tài
Trang 23Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
bởi các nghiên cứu khác để hoàn thiện một hệ thống trích xuất biểu thức Để đạtđược mục tiêu trên, nhóm tiến hành thực hiện các nhiệm vụ sau đây:
• Khảo sát các cơng trình liên quan đến bài tốn MER Từ đó chọn hướng tiếpcận phù hợp.
• Nghiên cứu đề xuất một mơ hình giải quyết bài tốn MER một cách hiệu quả.• Nghiên cứu xây dựng bộ cơ sở dữ liệu lớn phục vụ việc nghiên cứu bài toán
MER trong tương lai.
• Xây dựng hệ thống trích xuất biểu thức tốn học hồn chỉnh sử dụng mơ hìnhđề xuất.
1.3Đóng góp chính
Trải qua q trình nghiên cứu và phát triển, nhóm xin tóm tắt các đóng gópchính của nhóm trong đề tài luận văn này như sau:
• Đề xuất mơ hình Hybrid Vision Transformer cho bài tốn MER.
• Xây dựng hoàn chỉnh bộ cơ sở dữ liệu Large Image to Markup Database(LIMD) cho bài tốn MER.
• Hồn thiện một hệ thống trích xuất biểu thức tốn học cho các loại ảnh chữin và tài liệu PDF.
• Mã nguồn và bộ dữ liệu được công khai trên github1.
Trang 24Nền tảng lý thuyết
Trong chương này, nhóm xin trình bày qua những nền tảng lý thuyết có liênquan đến bài toán MER bao gồm những kiến thức cơ bản về ngơn ngữ TeX, kháiqt về bài tốn dự đốn chuỗi, một dạng bài toán tổng quát mà MER là một bàitoán con trong lớp bài toán này, các kĩ thuật nền tảng được sử dụng để giải quyếtbài toán này.
2.1Cơ bản về LaTeX
2.1.1Sơ lược về TeX, LaTeX
TeX là một loại ngôn ngữ đánh dấu được tạo ra bởi Donald Knuth 1 với mụcđích tạo ra các văn bản khoa học với định dạng chỉn chu và chuyên nghiệp ví dụnhư dùng để viết báo cáo luận văn, viết sách hoặc một bài báo khoa học để nộp chomột hội nghị nào đó Ngày nay TeX được xem là tiêu chuẩn được sử dụng cho việcbiên soạn bất kì một loại văn bản khoa học nào Khác với những công cụ soạn thảovăn bản thường thầy như Word của Microsoft hay LibreOffice Writer của Linux,TeX sử dụng tập hợp các lệnh để định nghĩa nên cấu trúc của một văn bản.
LaTeX thực chất là một phiên bản được hiệu chỉnh từ TeX được tạo ra bởiLeslie Lamport 2 với mục đích giúp cho việc soạn thảo dựa trên TeX đơn giản hơnthơng qua việc sử dụng các thư viện có sẵn Tuy nhiên, với số lượng lệnh cũng nhưcác kí tự đa dạng việc thành thạo TeX/LaTeX không hề dễ dàng cho người mới bắt
1Nhà Khoa học máy tính, giáo sư tại Đại học Stanford
Trang 25Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
đầu.
2.1.2Một số cú pháp tốn học cơ bản trong LaTeX
Biểu thức toán học trong LaTeX được biểu diễn thơng qua một tập hợp củacác kí hiệu, các kí hiệu được phân làm nhiều nhóm khác nhau Mục tiêu ở phần nàynhằm củng cố lại những kiến thức cơ bản về cách viết một cơng thức tốn bằngLaTeX Một số nhóm kí hiệu cơ bản được phân loại như sau:
• Chế độ viết: Có hai chế độ viết cơ bản bao gồm chế độ inline dùng để viết cácbiểu thức là một phần của đoạn văn bản và chế độ display dùng để viết các biểuthức nằm độc lập Biểu thức trong chế độ inline được viết bên trong các cặp kíhiệu như \( và \), \$ và \$, \begin{math} và \end{math} Đối với chế độdisplay, các cặp kí hiệu \[ và \], \begin{displaymath} và \end{displaymath}và \begin{equantion} và \end{equation} được dùng để chứa cơng thứctốn Bên cạnh đó các thư viện như amsmath còn hỗ trợ một số chế độ viếtkhác như \begin{equation*} và \end{equation*}
• Subscripts và superscripts: Hai kí hiệu superscripts và subscripts là haikí hiệu thường hay được dùng khi viết biểu thức toán bằng LaTeX, chúngkhơng phải là các tốn hạng hay tốn tử trong biểu thức mà được dùngđể mô tả mối quan hệ về mặt không gian giữa các thành phần trong biểuthức LaTeX sử dụng kí tự _ cho subscripts và kí tự ^ cho superscripts Mộtví dụ về cách sử dụng hai kí hiệu trên trong một biểu thức tốn như sau$a_1^2 + a_2^2 = a_3^2$ và kết quả như sau a21+ a2
2 = a2
3 Ngồi ra chúngcũng có thể được sử dụng để biểu diễn cận trên và dưới cho một số kí hiệutốn học như ngun hàm hay giới hạn.
• Chữ La Mã và các kí hiệu tốn học: LaTeX hỗ trợ hầu hết các kí hiệu tốnhọc thường thấy Một số chữ cái La Mã như \alpha, \beta, gamma hay cáctoán tử của biểu thức nhị phân như \times, \div, \oplus, các toán tử sosánh như \leq, \neq và các toán tử logic như \in, \notin, \subset Mộtsố kí hiệu tốn học khác có thể tham khảo thêm tại
https://www.overleaf.com/learn/latex/List_of_Greek_letters_and_math_symbols
Trang 26Dạng đơn giản 1 2 3a b cDạng ngoặc tròn 1 2 3a b c!Dạng ngoặc nhọn(1 2 3a b c)
Bên cạnh đó, ma trận cũng có thể được viết dưới dạng inline khi sử dụng mơitrường \begin{smallmatrix}, \end{smallmatrix}
• Các loại font chữ: Tùy theo từng loại kí hiệu tốn học cụ thể mà sẽ phảisử dụng những loại font khác nhau, thường được hỗ trợ bởi các thư viện nhưamssymb, amsfont Một số loại font thường gặp như \mathcal, \mathfrak,\mathbb, \mathrm, \mathbf, \mathit.
Một điểm cần phải lưu ý khi soạn thảo bằng TeX đó chính là trong TeX hay LaTeX,tồn tại nhiều token cùng biểu diễn một kí tự trong biểu thức tốn.
2.2Bài tốn dự đốn chuỗi2.2.1Một số bài tốn điển hình
Bài tốn dự đoán chuỗi là lớp các bài toán quan trọng trong lĩnh vực khoa họcmáy tính Một bài tốn được xếp vào lớp bài tốn dự đốn chuỗi nếu như có thểmơ hình hóa dữ liệu đầu ra ở dạng một chuỗi các token Lớp bài tốn này có ứngdụng trải dài trên nhiều lĩnh vực từ thị giác máy tính, xử lý ngôn ngữ tự nhiên chođến xử lý tiếng nói.
Trang 27Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
ứng, trong đó bộ mã hóa có chức năng trích xuất các đặc trưng trên hình ảnh kếthợp với những thơng tin từ văn bản thông qua bộ giải mã để có được kết quả cuốicùng Các cơng bố cho bài toán MER sử dụng học sâu hiện nay cơ bản đều dựa trênkiến trúc tổng quát này Phần bên dưới sẽ trình bày chi tiết về những giải thuậtliên quan tới lớp bài tốn này.
2.2.2Các lí thuyết liên quanMạng neural tích chập
Xét tường hợp như sau, cho một ảnh màu có kích thước 50 × 50 điểm ảnhđược biểu diễn bằng 1 tensor3 50× 50 × 3 Để biểu diễn hết thông tin của ảnh này,cần truyền tất cả điểm ảnh vào lớp đầu vào của một mạng FC Lúc này lớp đầuvào có 7500 nút Giả sử số nút trong lớp ẩn đầu tiên là 1000, khi đó số lượng trọngsố giữa lớp đầu vào và lớp ẩn đầu tiên của mạng là 7500×1000 = 7500000, cộngvới số biến bias 1000 ta được tổng tham số cần có cho hai lớp đầu tiên là 7501000.Co thể thấy, việc áp dụng mạng FC cho dữ liệu dạng ảnh sẽ tiêu tốn rất nhiều tàingun tính tốn Cho nên việc áp dụng mạng FC cho ảnh là điều không khả thi.
Các lớp trong mạng neural có mục đích rút trích các đặc trưng của đầu vào,trong khi các đặc trưng của ảnh không phải nằm trên mọi điểm ảnh, mà các điểmảnh gần nhau thường có liên kết với nhau nhiều hơn Do vậy, việc áp dụng các lớptích chập vào mạng neural có thể giải quyết vấn đề về số lượng tham số, trong khivẫn rút trích được các đặc trưng trong ảnh Do đó, để có thể rút trích đặc trưngtrên ảnh một cách hiệu quả mạng neural tích chập được sử dụng Một mạng neuraltích chập có thành phần chính là các lớp tích chập, mối lớp tích chập có kích thướck × k × c, trong đó k là chiều cao và chiều rộng, c là số chiều của bản đồ đặc trưng,s là số bước nhảy giữa các lần trượt Hình 2.1 thể hiện cách thức tính tốn của mộtlớp tích chập trên một bản đồ đặc trưng Một mạng neural tích chập bao gồm nhiềulớp tích chập kết hợp các lớp gộp (pooling) để thu giảm kích thước của bản đồ đặctrưng Ngồi ra, ứng với mỗi bản đồ đặc trưng sẽ có nhiều hơn một lớp tích chậptham gia q trình tính tốn nhằm mục đích tăng khả năng rút trích được nhiềuloại đặc trưng khác nhau.
Trang 28Hình 2.1: Quy trình tính tốn giá trị đầu ra của một lớp tích chập [2]
Hình 2.2: Cấu trúc của một lớp RNN trước và sau khi duỗi ra [3]
Mạng neural hồi qui
Mạng neural truyền thống có các đầu vào và đầu ra độc lập với nhau, điều đócó nghĩa là chúng khơng liên kết thành chuỗi với nhau Kiểu mạng này phù hợptrong nhiều bài tốn, ví dụ bài tốn phân lớp, khi mà các đầu vào của chúng là độclập với nhau Tuy nhiên, nếu xét bài toán dự đoán một từ xuất hiện tiếp theo trongcâu, rõ ràng, việc một từ có khả năng xảy ra là phụ thuộc vào nhiều yếu tố, trongđó có từ trước đó Khi đó mạng neural bình thường sẽ khơng thể biểu diễn và dựđoán đúng cho bài toán Mạng neural hồi quy (RNN) ra đời với mong muốn có thểgiải quyết được các bài toán như vậy Mạng này sẽ thực hiện cùng một tác vụ chotất cả các phần tử của một chuỗi mà đầu ra của chúng lại phụ thuộc vào các phầntử trước đó.
Trang 29Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
Hình 2.3: Cấu trúc của một cell LSTM [3]
Nếu như ở mạng neural thông thường lớp đầu vào x sẽ đi qua các tầng ẩn h vàcho ra lớp đầu ra y với kết nối đầy đủ giữa các lớp thì trong RNN, các đầu vào xt
sẽ kết hợp với lớp ẩn ht−1 bằng hàm fw để tính ả lớp ẩn hiện tại ht và từ đó suy rayt Như vậy kết quả từ các q trình tính tốn trước đó được "nhớ" bằng cách kếthợp thêm lớp ẩn ht−1 để tăng độ chính xác cho dự đốn hiện tại Q trình tínhtốn có thể viết được dưới dạng như sau:
ht= fW(ht−1, xt) (2.1)
Một hạn chế của mạng RNN đó chính là vấn đề tiêu biến đạo hàm, để khắcphục hạn chế trên mơ hình LSTM [16] (Long Short Term Memory) đã ra đời Mộtcell LSTM như hình 2.3 sẽ bao gồm các cổng như sau: Cổng quên (Forget gate),cổng đầu vào (Input gate), cổng đầu ra (Output gate) Cơng thức 2.2 thể hiện cácbước tính tốn giá trị trạng thái ẩn cho một cell LSTM.
Trang 30Kiến trúc Sequence-to-sequence
Đây là một kiến trúc được đề xuất lần đầu trong bài báo [17] cho bài tốndịch máy trong xử lí ngơn ngữ tự nhiên và đã mang lại những thành công vượt bậc.Sự thành công trên bài toán dịch máy đã tạo tiền đề cho việc ứng dụng kiến trúcnày vào các bài toán khác phải kể đến bài toán MER với những thay đổi nhất địnhnhưng về cơ bản vẫn giữ lại cấu trúc chính của mơ hình Một mơ hình Seq2seq sẽbao gồm hai thành phần mã hóa (encoder) và giải mã (decoder) Trong bài báo gốc,bộ mã hóa là một mơ hình RNN dùng để mã hóa câu nguồn thành một vec-tơ đặctrưng còn được biết đến với tên gọi là vec-tơ ngữ cảnh Đối với bài tốn chuyển đổihình ảnh sang văn bản hay cụ thể là bài tốn MER thì bộ mã hóa sẽ được bộ sungthêm một bộ trích xuất đặc trưng sử dụng CNN trước khi đi đến RNN Ở bước giảimã, một mơ hình RNN khác học cách sinh ra giá trị câu đích đối với bài toán dịchmáy một cách tuần tự mỗi lần một từ Chi tiết cách thức thực hiện trong hình 2.4như sau:
• Câu nguồn được truyền qua một lớp embedding sau đó được truyền vào bộ mãhóa.
• Tại mỗi bước lặp, đầu vào của bộ mã hóa bao gồm cả giá trị embedding e củatừ hiện tại e(xt) cũng như giá trị trạng thái ẩn của bước lặp trước đó ht−1 vàtrả về giá trị trạng thái ẩn ht như công thức 2.3
ht = EncoderRNN (e (xt) , ht−1) (2.3)
• Khi từ cuối cùng trong câu nguồn có chiều dài T từ, xT được truyền vào bộmã hóa, giá trị trạng thái ẩn cuối cùng hT được sử dụng như vec-tơ ngữ cảnh,đại diện cho tồn bộ câu nguồn.
• Bắt đầu q trình giải mã, chèn hai kí tự đặc biệt <sos> và <eos> vào câuđích.
• Tại mỗi bước lặp đầu vào của bộ giải mã là giá trị embedding, d, của từ hiệntại trong câu đích tức d(yt) cũng như giá trị trạng thái ẩn từ bước lặp trướcđó, st−1, trong đó giá trị trạng thái ẩn đầu tiên s0 bằng với giá trị vec-tơ ngữcảnh Do đó ta có đầu ra của bộ giải mã được biểu diễn như công thức 2.4
Trang 31Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
Hình 2.4: Quy trình sinh ra kết quả trong bài tốn dịch máy [4]
• Giá trị từ dự đốn tại mỗi bước lặp được thực hiện bằng cách cho giá trị trạngthái ẩn st qua một lớp FC để được ˆyt= f (st)
Cơ chế tự tập trung
Cơ chế tự tập trung (self-attention) lần đầu được giới thiệu trong bài báoAttention Is All You Need [5] đây là một cơ chế được sử dụng rộng rãi trong lĩnhvực NLP Self-attention là cấu trúc cốt lõi tạo nên mơ hình Transformer [5] Chomột chuỗi các phần tử, cơ chế self-attention sẽ ước lượng mức độ liên quan tới nhaucủa một phần tử so với tất cả các phần tử cịn lại, nói cách khác self-attention dùngđể tính trọng số cho mỗi phần tử trong chuỗi dựa trên thơng tin tồn cục của tồnbộ chuỗi đó.
Trang 32Giá trị đầu ra của self-attention là tổng có trọng số các vec-tơ value, trong đó trọngsố của mỗi value được tính bằng một hàm giữa 2 vec-tơ key và query Các vec-tơQuery, Key, Value được tính từ giá trị đầu vào X bằng 3 ma trận trọng số tươngứng WQ ∈ Rn×dq, WK ∈ Rn×dk, WV ∈ Rn×dv, trong đó dq = dk Từ đó ta cóQ = XWQ, K = XWK, V = XWV và đầu ra như hình 2.5 có cơng thức như sau:
Z = sof tmax(QK
T
pdq )V (2.5)
Hình 2.5: Scaled Dot-Product Attention [5]
Trên thực tế, để có thể trích xuất được các đặc trưng khác nhau hay các mốiquan hệ phực tạp hơn giữa các phần tử trong chuỗi, ta có thể cho dữ liệu đầu vào quanhiều khối self-attention cùng lúc hay còn gọi là cơ chế tự tập trung đa đầu (MHSA)Khi đó, mỗi khối self-attention sẽ có các ma trận trọng số riêng WQi, WKi, WVi vớii = 0 (h − 1) trong đó h là số khối self-attention được sử dụng Các giá trị đầura của mỗi khối sau đó sẽ được ghép lại với nhau thành một ma trận duy nhất.
Kiến trúc Transformer
Trang 33Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
Hình 2.6: Multi-Head Self-Attention [5]
Trang 35Chương 3
Khảo sát các nghiên cứu liênquan
Trong chương này nhóm sẽ trình bày khái quát về các nghiên cứu trên bài tốnMER mà nhóm khảo sát được q trình thực hiện luận văn này Quá trình khảosát được tiến hành nhằm mục đích tìm hiểu về các phương pháp được phát triểnnhằm giải quyết bài tốn MER cũng như có cái nhìn tổng quan về lĩnh vực này, từđo giúp nhóm có định hướng để chọn phương pháp tiếp cận cụ thể từ đó đi sâu hơnnhằm tìm hướng cải thiện cho phương pháp đó.
3.1Tổng quan về các hướng nghiên cứu
Trang 36các tác vụ con riêng biệt bao gồm Symbol Segmentation, Symbol Classification vàStructure Analysis Sự khác nhau ở các phương pháp thường nằm ở cách thức giảiquyết tác vụ Structure Analysis.
Các phương pháp giải quyết dựa trên cấu trúc cây thường thực hiện việc tríchxuất mối liên hệ giữa các kí tự thơng qua việc xây dựng một cây đại diện cho cấutrúc của biểu thức Trong [19] thực hiện việc xây dựng cây bằng cách đề xuất việckết hợp giữa phương pháp top-down và bottom-up Một nghiên cứu khác [20] đềxuất việc xây dựng môt cây cơ bản để diển tả thứ tự sắp xếp trong khơng gian haichiều của biểu thức tốn học Bài tốn MER cịn có thể được mơ hình hóa dướidạng bài tốn tìm kiếm cây khung nhỏ nhất (Minimum Cost Spanning Tree) haybài toán MST, cho phép biểu diễn các kí tự và các mối liên hệ khơng gian trên mộtđồ thị Với ý tưởng đó, một hệ thống nhận diện biểu thức toán học được phát triểnbởi Suzuki cùng cộng sự [21] đã ra đời với tên gọi là InftyReader, đây được xem làhệ thống MER đầu tiên được thương mại hóa, hệ thống thực hiện việc nhận dạngbằng cách biểu diễn biểu thức toán ở dạng cây và dùng MST để thực hiện tác vụStructure Analysis.
Trong khi đó, các phương pháp dựa trên cấu trúc ngữ pháp như [22, 23, 24, 25]lại triển khai việc nhận diện bằng cách sử dụng các quy luật ngữ pháp và các quytắc phân tích để nhận diện biểu thức, phương pháp này địi hỏi các nhà nghiên cứucần có một kiến thức đủ sâu về cú pháp trong các biểu thức toán học và phải thựchiện việc định nghĩa trước các luật một cách thủ công Trong nghiên cứu [23], nhómtác giả sử dụng giải thuật Stochastic Context-Free-Grammar (SCFG) để định nghĩacác tập luật quyết định cách thức các kí tự được hợp nhất với nhau.
Trang 37Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
trong đó lấy kiến trúc Seq2seq làm cốt lõi Năm 2016, Deng cùng các cộng sự [6]cơng bố mơ hình WYGIWYS sử dụng kiến trúc dựa trên Seq2seq, trong đó đề xuấtviệc sử dụng bộ trích xuất đặc trưng từ CNN và bộ giải mã dựa trên RNN kết hợpvới cơ chế tập trung để dự đoán chuỗi LaTeX, đây được xem là phương pháp ápdụng kiến trúc Seq2seq đầu tiên cho bài toán MER, hay công bố của Zhang cùngcộng sự [31] đề xuất cải tiến bằng cách ứng dụng kiến trúc DenseNet [32] cho bộ mãhóa của mơ hình để có thể học được các đặc trưng trên nhiều mức kích thước khácnhau Năm 2019, Zhang cùng cộng sự [7] đề xuất cơ chế Double Attention nhằmmơ hình các đặc trưng mờ của ảnh tốt hơn Trong khi đó, [33] đưa ra ý tưởng vềviệc tập trung vào việc trích xuất các đặc trưng chi tiết có sự khác biệt nhỏ do tínhchất chi tiết của các kí tự tốn học trong ảnh [34] đề xuất sử dụng phương phápdrop attention để loại bỏ ngẫu nhiên các đặc trưng trong quá trình huấn luyện giúpmơ hình mạnh mẽ với các yếu tố gây nhiễu Một số phương pháp khác thực hiệnthay đổi kiến trúc bộ giải mã từ RNN sang sử dụng kiến trúc mạng tích chập 1chiều nhằm giảm thời gian xử lý của mơ hình như phương pháp đề xuất trong [35],một số khác đề xuất bổ sung thêm các khối thành phần bổ trợ để việc mơ hình hóadữ liệu tốt hơn như [36] đề xuất bổ sung một khối GNN để mơ hình mối quan hệkhơng gian giữa các kí hiệu trong ảnh Mơ hình của Pang và cộng sự [9] đề cập đếnnhu cầu mơ hình tồn cục thơng tin của ảnh là yếu tố quyết định sự thành cơngcủa mơ hình và đã đề xuất khối Global Context để thực hiện nhiệm vụ trên Ngoàira, một số phương pháp còn tập trung vào việc tối ưu ở cấp độ tồn chuỗi LaTeXthay vì thực hiện việc tối ưu trên cấp độ token bằng cách áp dụng phương pháphọc tăng cường (Reinforcement Learning) thông qua các hàm reward như đề xuấttrong [8].
Có thể thấy hiện nay các mơ hình dựa trên kiến trúc Seq2seq đang chiếm ưuthế trong bài tốn MER, dù có sự thay đổi trong các thành phần nhưng về bảnchất các phương pháp trên vẫn áp dụng nguyên lý của kiến trúc Seq2seq Do đó,nhóm lựa chọn hướng tiếp cận Seq2seq trong việc phát triển mô hình cho bài tốnMER Trong phần sau nhóm sẽ tiến hành trình bày về cơ chế hoạt động của mộtsố phương pháp mà nhóm đã lựa chọn để nghiên cứu sâu hơn.
Trang 38một cách chi tiết hơn Trong phần này nhóm sẽ trình bày về ý tưởng, cơ chế hoạtđộng cũng như một số kết quả đạt được của các phương pháp đó, từ đó làm tiềnđề cho các đề xuất của nhóm về sau.
3.2.1What You Get Is What You See: A Visual MarkupDecompiler
Phương pháp đề xuất
Đây được xem là bài báo đầu tiền để xuất phương pháp dựa trên kiến trúcSeq2seq cho bài toán MER Được đề xuất bởi Deng và công sự vào năm 2016 [6],mơ hình tuần thủ cấu trúc encoder-decoder kết hợp với cơ chế tập trung từ bài báo[37] cho bài toán dịch máy Việc kết hợp với cơ chế tập trung trong q trình giảimã cho phép mơ hình có khả năng xác định những vùng quan tâm trên bản đồ đặctrưng và từ đó cho phép trả về kí tự chính xác tại từng bước lặp Nhóm tác giả đềxuất một lớp mã hóa mới để phù hợp với dữ liệu đầu vào là ảnh với tên gọi là mơhình hồi qui nhiều dịng Tổng quan kiến trúc được đề xuất có ba bộ phận chính:
• Mạng tích chập: Các đặc trưng hình ảnh của ảnh được trích xuất bằng cách sửdụng một bộ rút trích đặc trưng nhiều tầng Từ bức ảnh có kích thước H × Wsẽ tạo ra một bản đồ đặc trưng V có kích thước D × ˆH × ˆW , với ˆH và ˆW làkích thước sau khi đã thu giảm chiều.
• Bộ mã hóa theo dịng: Để đảm bảo bản đồ đặc trưng truyền vào bộ giải mãchứa đựng thông tin về thứ tự, một bộ RNN được bổ sung vào sau bộ rút tríchđặc trưng Mục tiêu giúp cho bộ mã hóa mã hóa thơng tin theo chiều từ tráisang phải cũng như tận dụng được các thông tin ngữ cảnh theo chiều ngangđể làm giàu bản đồ đặc trưng Bản đồ đặc trưng mới ˜V được tạo ra sau khiđưa V chạy qua RNN theo từng hàng của V.
• Bộ giải mã: được huấn luyện như một mơ hình ngơn ngữ có điều kiện để chora xác suất của kí tự tiếp theo dựa trên thông tin về trạng thái ẩn trước đó vàbản đồ đặc trưng ˜V với cơng thức như sau:
pyt+1 | y1, , yt, ˜V= softmax Woutot(3.1)
Trang 39Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính
Hình 3.1: Cấu trúc của mơ hình WYGIWWYS [6].
chế tập trung có cơng thức như bên dưới:
et = aht,n ˜Vh,woαt = softmax (et)
ct = ϕn ˜Vh,wo, αt
(3.2)
Tổng quát mô hình có cấu trúc như hình 3.1.
Đánh giá mơ hình
Trang 40Hình 3.2: Bảng đánh giá kết quả của mơ hình so với các phương pháp thơngqua các độ đo [6].
Nhận xét
Mơ hình WYGIWYS với hướng tiếp cận học sâu sử dụng kiến trúc Seq2seq cócải tiến ở bộ mã hóa đã cho kết quả tốt hơn vượt trội so với các phương pháp kháctrên tất cả các độ đo Mơ hình này là tiền đề cho các phương pháp cải tiến kháctrong tương lai.
3.2.2An Improved Approach Based on CNN-RNNs for Math-ematical Expression Recognition
Phương pháp đề xuất
Được đề xuất bởi Zhang cùng các cộng sự [7] nhằm cải thiện kết quả được cơngbố bởi [6] Nhóm tác giả đưa ra ý tưởng về kiến trúc dựa trên CNN-RNN, để cóthể thu được các đặc trưng mờ và những kí tự có kích thước nhỏ, nhóm tác giả đềxuất việc mở rộng kích thước ảnh lên gấp đơi sau đó sử dụng ảnh đó để trích xuấtthơng tin đặc trưng bằng mơ hình CNN Nhóm tác giả sử dụng một khối DoubleAttention giữa bộ mã hóa và giải mã để thu được vị trí của kí tự chính xác hơn.Cuối cùng để tránh hiện tượng quá khớp, một lớp Dropout [38] được đưa vào sửdụng.
Một cách cụ thể, mơ hình Double Attention sẽ có các thành phần như sau:• Mạng tích chập: Nhóm tác giả sử dụng một mạng tích chập với 6 lớp tích
chập và 5 lớp max-pooling Mỗi lớp tích chập có kích thước kernel là 3x3 Cấuhình chi tiết của mạng tích chập được sử dụng thể hiện trong bảng 3.4 Nhưđã đề cập, trước khi thực hiện việc trích xuất đặc trưng, ảnh đầu vào đượctăng gấp đơi kích thước để bắt được các đặc trưng mờ từ ảnh gốc.