Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 93 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
93
Dung lượng
13 MB
Nội dung
ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển phương pháp nhận dạng công thức tốn học in từ hình ảnh tài liệu khoa học BÙI THỊ NHI Nhi.BT211095M@sis.hust.edu.vn Ngành Kỹ thuật điện tử Giảng viên hướng dẫn: PGS TS Lê Thị Lan Trường Điện – Điện tử HÀ NỘI, 04/2023 ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển phương pháp nhận dạng cơng thức tốn học in từ hình ảnh tài liệu khoa học BÙI THỊ NHI Nhi.BT211095M@sis.hust.edu.vn Ngành Kỹ thuật điện tử Giảng viên hướng dẫn: PGS TS Lê Thị Lan Chữ ký GVHD Trường Điện – Điện tử HÀ NỘI, 04/2023 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Bùi Thị Nhi Đề tài luận văn: Nghiên cứu phát triển phương pháp nhận dạng cơng thức tốn học in từ hình ảnh tài liệu khoa học Chuyên ngành: Kỹ thuật điện tử Mã số SV: 20211095M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27 tháng 04 năm 2023 với nội dung sau: - Tác giả sửa số lỗi trình bày sau: + Chỉnh sửa lỗi soạn thảo luận văn + Phương pháp đề xuất sửa thành Phương pháp nghiên cứu thử nghiệm + Việt hóa thuật ngữ Tiếng Anh Pooling layer: Lớp tổng hợp (trang 50), Growth rate: Tỉ lệ tăng trưởng (trang 50) - Tác giả chỉnh sửa lại hình ảnh: + Hình 1.3: bỏ (a) (trang 4) + Hình 4.16 hình 4.17: Bổ sung thêm kết Ground-trouth (trang 69) - Tác giả bổ sung số đoạn giải thích, làm rõ số ý luận văn, bao gồm bổ sung: + Bổ sung đoạn giải thích mơ tả ý nghĩa kí hiệu sử dụng hình ảnh Các hình ảnh bổ sung giải thích bao gồm: hình 2.5, 2.6, 2.8, 2.9, 2.11, 2.12 (Từ trang 12 đến trang 20) + Bổ sung giải thích chi tiết q trình huấn luyện mạng BTTR: bổ sung số epoch (trang 56) + Bổ sung tài nguyên phần cứng (trang 56) + Mô tả rõ phương pháp tăng cường liệu ảnh huấn luyện mô tả tập liệu sau tăng cường (Từ trang 60 đến trang 61) Ngày 15 tháng 05 năm 2023 Giáo viên hướng dẫn Tác giả luận văn PGS.TS Lê Thị Lan Bùi Thị Nhi CHỦ TỊCH HỘI ĐỒNG PGS.TS Trần Thị Thanh Hải LỜI CẢM ƠN Học viên muốn dành lời cảm ơn chân thành tới PGS.TS Lê Thị Lan hướng dẫn Luận văn khơng thể hồn thiện thiếu góp ý chân thành hướng dẫn tỉ mỉ từ Dù cịn bận bịu với cơng việc nghiên cứu, giảng dạy, hướng dẫn nghiên cứu sinh, sinh viên khác, cô sẵn sàng lắng nghe vấn đề mà học viên gặp phải, đưa định hướng giúp học viên hoàn thiện kết nghiên cứu Học viên muốn bày tỏ lịng biết ơn tới chúc cô tiếp tục đạt thành công công việc sống Học viên muốn dành lời cảm ơn tới thầy PGS.TS Hoàng Mạnh Thắng thầy phịng nghiên cứu Thị giác máy tính MICA, bao gồm PGS TS Vũ Hải, PGS TS Trần Thị Thanh Hải, anh Hoàng Văn Nam, đặc biệt TS Bùi Hải Phong Vũ Văn Xứng Trong q trình suốt nghiên cứu hồn thành luận văn, học viên nhận định hướng, hướng dẫn, bảo trao đổi từ thầy cô Trong trình học Thạc sỹ Đại học Bách Khoa Hà Nội, học viên hỗ trợ tạo điều kiện từ thầy, cô trường Điện - Điện tử, lãnh đạo, đồng nghiệp học viên Trường Đại học Kinh tế Kỹ thuật Công nghiệp Học viên xin chân thành cảm ơn Ban giám hiệu Đại học Bách khoa Hà Nội, Viện Điện tử Viễn thông tạo điều kiện thuận lợi giúp học viên hoàn thiện luận văn Cuối cùng, học viên xin dành lời cảm ơn tới gia đình, điểm tựa để học viên vượt qua giai đoạn khó khăn công việc sống Kết ngày hôm lời tri ân chân thành mà học viên gửi tới người TĨM TẮT Trong luận văn, học viên thực tìm hiểu phương pháp đề xuất cho tốn nhận dạng cơng thức tốn Từ tìm hiểu đó, học viên thực cải tiến phương pháp nhận dạng đề xuất cho nhận dạng công thức viết tay vào nhận dạng công thức in tài liệu khoa học định dạng ảnh dựa mơ hình mã hóa-giải mã Bộ mã hóa sử dụng mạng DenseNet giải mã thực cách sử dụng mạng Bidirectional Transformer Bộ mã hóa giải mã đào tạo chung với liệu đa dạng để cải thiện độ xác nhận dạng Chiến lược tăng cường hình ảnh giai đoạn huấn luyện cho phép cải tiến độ xác nhận dạng mơ hình Các kết thử nghiệm cho thấy phương pháp nghiên cứu cải thiện đáng kể độ xác nhận dạng tập liệu Marmot Mơ hình cho kết nhận dạng tốt so với mơ hình WAP Kết luận văn đạt mục tiêu đề bao gồm: Xây dựng mô - đun nhận dạng cơng thức tốn học in từ tài liệu khoa học định dạng ảnh đánh giá kết nhận dạng sở liệu dùng chung Trong tương lai, mơ hình học viên áp dụng để nhận dạng công thức trường hợp thử thách khác (ví dụ: hình ảnh chụp máy ảnh) Hơn nữa, kết nhận dạng tích hợp cho ứng dụng thực tế hệ thống truy xuất toán học Mặc dù đạt nhiều bước tiến kết nghiên cứu, đánh giá kết nhận dạng sở liệu dùng chung Tuy nhiên kết đạt chưa cao cần phát triển để cải thiện, tối ưu kết phương pháp HỌC VIÊN Ký ghi rõ họ tên Bùi Thị Nhi MỤC LỤC CHƯƠNG GIỚI THIỆU TỔNG QUAN VỀ BÀI TỐN NHẬN DẠNG CƠNG THỨC TỐN HỌC 1.1 Mục tiêu thách thức 1.2 Các đóng góp luận văn 1.3 Bố cục luận văn CHƯƠNG NGHIÊN CỨU LIÊN QUAN 2.1 Các phương pháp truyền thống 2.1.1 Phân tách ký tự 11 2.1.2 Nhận dạng ký tự 14 2.1.3 Phân tích cấu trúc 16 2.2 Các phương pháp học sâu 21 2.2.1 Các mô hình học sâu cho nhận diện ký tự ảnh 21 2.2.1.1 Mơ hình nhận dạng cơng thức tốn học dựa vào ngữ cảnh 21 2.2.1.2 Cấu trúc mã hóa-giải mã 22 2.2.2 Nhận dạng cơng thức tốn viết tay 23 2.2.3 Nhận dạng cơng thức tốn học in 32 2.3 Kết luận chương 44 CHƯƠNG PHƯƠNG PHÁP NGHIÊN CỨU VÀ THỬ NGHIỆM 45 3.1 Bộ mã hóa hình ảnh (Encoder) 46 3.2 Mã hóa vị trí 51 3.2.1 Mã hóa vị trí từ 51 3.2.2 Mã hóa vị trí hình ảnh 52 3.3 Bộ giải mã hình ảnh (Decoder) 52 3.3.1 Scaled Dot-Product Attention 53 3.3.2 Multi-Head Attention 53 3.3.3 Masked Multi-Head Attention 53 3.3.4 Position-wise Feed-Forward Network 54 3.4 Huấn luyện mạng 54 3.4.1 Mạng 55 3.4.2 Chiến lược huấn luyện 55 3.4.3 Suy luận 56 3.5 Kết luận chương 57 CHƯƠNG KẾT QUẢ THỬ NGHIỆM 59 4.1 Cơ sở liệu cho tốn nhận dạng cơng thức tốn học in 59 4.2 Độ đo đánh giá 64 4.3 Kết thử nghiệm 65 4.4 Kết luận chương 70 CHƯƠNG KẾT LUẬN 71 5.1 Kết luận 71 5.2 Hướng phát triển 72 TÀI LIỆU THAM KHẢO 7 DANH MỤC HÌNH VẼ Hình 1.1 Các mơ-đun hệ thống nhận dạng cơng thức toán học từ tài liệu khoa học định dạng ảnh Luận văn tập trung nghiên cứu phát triển mơ-đun nhận dạng biểu diễn cơng thức tốn học (được đánh dấu màu đỏ hình vẽ) Hình 1.2 Ví dụ minh họa nhận dạng cơng thức, (a) Hình ảnh cơng thức, (b) Kết nhận dạng công thức Hình 1.3 Sự phức tạp cơng thức tốn học Hình 2.1 Ví dụ cơng thức độc lập (màu đỏ) công thức nội tuyến (màu xanh) tài liệu ảnh Hình 2.2 Ví dụ độ phức tạp biểu thức tốn học Hình 2.3 Sơ đồ khối bước phương pháp nhận dạng truyền thống 10 Hình 2.4 Mơ hình nhận dạng công thức truyền thống gồm nhiều bước [1] 11 Hình 2.5 Hình ảnh biểu thức toán học (a), quan hệ sau phân tách kí tự (b) [2] 12 Hình 2.6 Phân vùng ký tự sử dụng Connected commponent [3] 13 Hình 2.7 Sự nhập nhằng nhận diện biểu thức toán học [1] 13 Hình 2.8 Xây dựng cấu trúc phân cấp cho đối tượng [2] 16 Hình 2.9 Trọng tâm kiểu ký tự toán học khác [1] 17 Hình 2.10 Minh họa phân tích cấu trúc sai dựa vào box giới hạn [1] 18 Hình 2.11 Quan hệ mập mờ số hay số [1] 18 Hình 2.12 Ví dụ phương pháp biểu diễn dạng biểu thức x2 + Từ trái sang phải: quan hệ, bố cục ký tự, toán tử [4] 20 Hình 2.13 Kiến trúc mơ hình phát ký tự nhận dạng cơng thức tốn học dựa vào ngữ cảnh [5] 22 Hình 2.14 Cấu trúc mạng CRNN 24 Hình 2.15 Cấu tạo mơ hình WAP nhận dạng biểu thức tốn viết tay [6] 26 Hình 2.16 So sánh cấu trúc mơ hình seq2seq [7] Transformer [8] .28 Hình 2.17 Mơ hình transformer [8] 29 Hình 2.18 Scaled Dot-Product Attention sản phẩm chia tỷ lệ (trái) Multi- Head Attention bao gồm số lớp ý chạy song song (phải) [8] 30 Hình 2.19 Kiến trúc mơ hình BTTR Trình tự L2R R2L [Ԧy ; ←−y ] nối thông qua thứ nguyên làm phần đầu vào cho giải mã [9] 31 Hình 2.20 Lưu đồ phát nhận dạng cơng thức tốn học ảnh tài liệu Phát biểu thức cô lập nội tuyến có màu xanh lam đỏ tương ứng Các biểu thức nhận dạng biểu diễn định dạng Latex [10] 34 Hình 2.21 Minh họa kết phát nhận dạng công thức [10] 34 Hình 2.22 Ví dụ kết phát nhận dạng công thức [10] 35 Hình 2.23 Sơ đồ kiến trúc YOLOV3 để phát ME Việc phát biểu thức lập nội tuyến có màu tím tương ứng màu xanh [10] 35 Hình 2.24 Kiến trúc mạng WAP để nhận dạng biểu thức toán học in [10] 36 Hình 2.25 Cấu hình mạng nơ-ron tích chập mơ hình WAP [10] 38 Hình 2.26 So sánh hiệu nhận dạng cơng thức tốn học hệ thống khác [10] 42 Hình 3.1 Kiến trúc mạng BTTR để nhận dạng biểu thức toán học hình ảnh tài liệu 46 Hình 3.2 Một khối kết nối dày đặc lớp có số lượng kênh k = Mỗi lớp lấy tất đặc trưng trước làm đầu vào [11] 47 Hình 3.3 Một DenseNet với ba khối dày đặc Các lớp hai khối liền kề gọi lớp chuyển tiếp thay đổi kích thước đồ tính thơng qua tích chập tổng hợp [11] 50 Hình 4.1 Ví dụ hình ảnh trang tài liệu tập liệu Marmot [12] 60 Hình 4.2 Ví dụ hình ảnh biểu thức tốn in tập liệu Marmot [10] 60 Hình 4.3 Kết việc tạo hình ảnh từ mã Latex cho trước 61 Hình 4.4 Ví dụ độ phức tạp tập liệu Marmot 61 Hình 4.5 Một số ký tự chuẩn hóa tập liệu 62 Hình 4.6 Độ dài biểu thức toán học tập huấn luyện 62 Hình 4.7 Độ dài biểu thức tốn học tập kiểm tra 63 Hình 4.8 Tần suất xuất kí tự tập huấn luyện 63 Hình 4.9 Tần suất xuất kí tự tập thử nghiệm 63 Hình 4.10 Ví dụ biểu thức tốn học có độ dài ngắn (a), độ dài trung bình (b), biểu thức toán học dài (c) 64 Hình 4.11 Ví dụ độ đo đánh giá WER 65 Hình 4.12 Ví dụ nhận dạng hình ảnh khơng xác cơng thức hoán học in phương pháp nghiên cứu thử nghiệm Hình ảnh cơng thức tốn học đầu vào (a), groundtrouth (b), kết nhận dạng phương pháp nghiên cứu thử nghiệm (c) 67 Hình 4.13 Ví dụ kết nhận dạng xác cơng thức tốn học thử nghiệm Hình ảnh cơng thức tốn học đầu vào (a), kết nhận dạng (b), kết nhận dạng phương pháp nghiên cứu thử nghiệm (c) 67 Hình 4.14 Ví dụ kết nhận dạng cơng thức tốn học có độ dài lớn thử nghiệm Cơng thức tốn học đầu vào (a), kết nhận dạng (b), kết nhận dạng phương pháp nghiên cứu thử nghiệm (c) 68 Hình 4.15 Ví dụ cách biểu diễn khác cơng thức tốn Latex Cơng thức tốn học đầu vào (a), cách biểu diễn kết nhận dạng chuỗi Latex thứ (b), cách biểu diễn kết nhận dạng chuỗi Latex thứ hai (c) 68 Hình 4.16 Ví dụ nhận dạng cơng thức tốn học sử dụng phương pháp sai Cơng thức tốn học đầu vào (a), kết nhận dạng (b), kết nhận dạng biểu diễn dạng Latex cách sử dụng mơ hình WAP [10] (c) mơ hình nghiên cứu thử nghiệm (d) Các ký tự có màu đỏ nhận dạng sai 69 Hình 4.17 Ký hiệu bị bỏ sót (màu đỏ) nhận dạng biểu thức lớn Cơng thức tốn học đầu vào (a), kết nhận dạng (b), kết nhận dạng Latex cách sử dụng mơ hình WAP [10] (c) mơ hình nghiên cứu thử nghiệm (d) 69 WAP, phương pháp nghiên cứu thu tỷ lệ nhận dạng (Exprate) cao hẳn tỷ lệ lỗi từ (WER) thấp so với mơ hình WAP [10] Exprate WER mơ hình WAP 45,07% 11,25% Trong đó, phương pháp đề xuất có tỷ lệ nhận dạng (Exprate) 67,9%, cao hẳn tỷ lệ lỗi từ (WER) giảm cịn 4,88% Bảng 4.2: Đánh giá nhận dạng cơng thức mơ hình WAP [10] phương pháp đề xuất Metric Exprate Exprate≤1% Exprate≤2% Exprate≤3% WER WAP[10] Phương pháp đề xuất 45.07% 67.91% 68.22% 70.09% 71.34% 11.25% 4.92% Kết có nhờ vào đặc điểm sau mơ hình đề xuất: • DenseNet cho phép trích xuất tính hiệu phát triển đặc biệt để cải thiện độ xác bị giảm độ dốc biến mạng nơ-ron cấp cao • DenseNet cải tiến chế ý để giải vấn đề lớp tổng hợp gây Trên thực tế, kết phát biểu thức tốn học thiếu số ký hiệu thơng tin hình ảnh Nhận dạng biểu thức toán học in phương pháp đề xuất cho thấy độ xác cạnh tranh cơng thức tốn học bao gồm từ đến 10 ký hiệu Đối với biểu thức lớn, độ xác thấp cần cải thiện Tuy nhiên, kết nhận dạng có độ xác chưa cao cần tiếp tục cải thiện để nâng cao hiệu hoạt động mô hình Ngun nhân dẫn đến nhận dạng sai cơng thức tốn: • Nhiều thơng tin biểu thức lớn bị thay đổi kích thước để phù hợp với mạng • Tập liệu Marmot tập liệu nhỏ để đào tạo huấn luyện mơ hình Như vậy, số cơng thức có mẫu Như 4.17, số ký hiệu (màu đỏ) bị bỏ sót nhận dạng biểu thức lớn 66 Hình 4.12, minh họa ví dụ nhận dạng hình ảnh khơng xác biểu thức tốn học in Kết nhận dạng sai ký tự đánh dấu màu vàng kết nhận dạng Latex xuất 12 lần 436 lần tập huấn luyện Do đó, ký tự chưa học đủ dễ dẫn đến kết nhận dạng sai Hình 4.12: Ví dụ nhận dạng hình ảnh khơng xác cơng thức hốn học in phương pháp nghiên cứu thử nghiệm Hình ảnh cơng thức tốn học đầu vào (a), groundtrouth (b), kết nhận dạng phương pháp nghiên cứu thử nghiệm (c) Hình 4.13, minh họa kết thu cơng thức tốn học in có độ dài nằm phần lớn độ dài công thức tốn tập liệu Với cơng thức có độ dài ngắn, hệ thống cho kết nhận dạng xác cao Hình 4.13: Ví dụ kết nhận dạng xác cơng thức tốn học thử nghiệm Hình ảnh cơng thức tốn học đầu vào (a), kết nhận dạng (b), kết nhận dạng phương pháp nghiên cứu thử nghiệm (c) 67 Với công thức dài chứa nhiều kí tự, hệ thống cho kết nhận dạng chưa xác, hình 4.14 cho thấy kết thu cơng thức tốn có độ dài lớn Nguyên nhân kết nhận dạng sai q trình phát chưa xác kí tự số kí tự khơng có liệu huấn luyện Hình 4.14: Ví dụ kết nhận dạng cơng thức tốn học có độ dài lớn thử nghiệm Công thức toán học đầu vào (a), kết nhận dạng (b), kết nhận dạng phương pháp nghiên cứu thử nghiệm (c) Hình 4.15, minh họa ví dụ cơng thức tốn biểu diễn số cách khác Latex Kết cho thấy nhãn đầu vào chuỗi kết Latex nhận dạng khác nhau, kết nhận dạng cơng thức tốn Hình 4.15: Ví dụ cách biểu diễn khác công thức tốn Latex Cơng thức tốn học đầu vào (a), cách biểu diễn kết nhận dạng chuỗi Latex thứ (b), cách biểu diễn kết nhận dạng chuỗi Latex thứ hai (c) 68 Đối với công thức tốn học phức tạp, mơ hình WAP mơ hình nghiên cứu thử nghiệm khơng thể nhận dạng xác hình 4.16 4.17 Tuy nhiên, thấy kết nhận dạng mơ hình nghiên cứu thử nghiệm gần giống chuỗi biểu diễn công thức ground-truth so với kết nhận mơ hình WAP [10] Số ký tự nhận dạng mơ hình nghiên cứu thử nghiệm nhiều mơ hình WAP Hình 4.16: Ví dụ nhận dạng cơng thức tốn học sử dụng phương pháp sai Cơng thức tốn học đầu vào (a), kết nhận dạng (b), kết nhận dạng biểu diễn dạng Latex cách sử dụng mơ hình WAP [10] (c) mơ hình nghiên cứu thử nghiệm (d) Các ký tự có màu đỏ nhận dạng sai Hình 4.17: Ký hiệu bị bỏ sót (màu đỏ) nhận dạng biểu thức lớn Công thức toán học đầu vào (a), kết nhận dạng (b), kết nhận dạng Latex cách sử dụng mơ hình WAP [10] (c) mơ hình nghiên cứu thử nghiệm (d) Trong ví dụ hình 4.17, dễ bỏ sót mơ hình ký hiệu ’χ’ Latex 69 giống với ký tự ’X ’ Do đó, mơ hình nghiên cứu thử nghiệm nhận biết tốt mơ hình WAP nhờ chế ý đa đầu (Multi-Head Attention) 4.4 Kết luận chương Chương trình bày thử nghiệm mơ hình nghiên cứu thử nghiệm CSDL Marmot Các kết thử nghiệm cho thấy hiệu mơ hình nghiên cứu thử nghiệm so với mơ hình trước Cụ thể, mơ hình nghiên cứu thử nghiệm đạt độ xác ExpRate 67,91% WER 4.92% Điều khẳng định hiệu mơ hình mã hóa-giải mã mạng DenseNet transformer hai chiều Trong tương lai, mơ hình áp dụng để nhận dạng công thức trường hợp thử thách khác (ví dụ: hình ảnh chụp máy ảnh) Hơn nữa, kết nhận dạng tích hợp cho ứng dụng thực tế hệ thống truy xuất cơng thức tốn học 70 CHƯƠNG KẾT LUẬN 5.1 Kết luận Cơng thức tốn học thành phần quan trọng tài liệu khoa học Việc nhận dạng hiểu cơng thức tốn học từ tài liệu khoa học cho phép khai thác thông tin từ tài liệu khoa học tra cứu, so sánh tài liệu khoa học Nhận dạng cơng thức tốn học coi toán nhận dạng ảnh Tuy nhiên, nhận dạng cơng thức tốn học có nhiều thách thức riêng đa dạng tồn ký tự đặc biệt, cách biểu diễn đặc thù miền khơng gian Luận văn trình bày phương pháp nhận dạng cơng thức tốn học hình ảnh in dựa mơ hình mã hóa-giải mã Bộ mã hóa sử dụng mạng DenseNet giải mã thực cách sử dụng mạng Bidirectional Transformer Bộ mã hóa giải mã đào tạo chung với liệu đa dạng để cải thiện độ xác nhận dạng Chiến lược tăng cường hình ảnh giai đoạn huấn luyện cho phép cải tiến độ xác nhận dạng mơ hình Các kết thử nghiệm cho thấy phương pháp nghiên cứu cải thiện đáng kể độ xác nhận dạng tập liệu Marmot Trong tương lai, mơ hình học viên áp dụng để nhận ME trường hợp thử thách khác (ví dụ: hình ảnh chụp máy ảnh) Hơn nữa, kết nhận dạng tích hợp cho ứng dụng thực tế hệ thống truy xuất tốn học Các kết nghiên cứu trình bày hội nghị quốc tế: Van-Xung Vu; Thi-Nhi Bui; Thi-Lan Le; Bui Hai Phong; Manh-Thang Hoang, Transformer-based method for mathematical expression recognition in document images, 2022 International Conference on Multimedia Analysis and Pattern Recognition (MAPR) [56] 5.2 Hướng phát triển Do thời gian thực đề tài tương đối hạn chế nên học viên chưa thể hoàn thiện hồn tồn hệ thống tốt để sử dụng cho việc dạng cơng thức tốn Để ứng dụng với tốn thực tế, mơ hình cần huấn luyện với tập liệu đa dạng Bên cạnh mơ hình cần tối ưu để tốn tài nguyên hoạt động 71 Trong thời gian tới, luận văn tiếp tục nghiên cứu phát triển hồn thiện sau: • Sử dụng mạng học sâu giải mã cho phép trích chọn đặc trưng hiệu biểu diễn cơng thức tốn • Nghiên cứu áp dụng kỹ thuật tiền xử lý ảnh, cho phép phương pháp nhận dạng áp dụng ảnh tài liệu có độ phức tạp cao như ảnh nghiêng, ảnh cong • Mở rộng phạm vi, số lượng cơng thức phát nhận dạng nhằm hỗ trợ người dùng ứng dụng thực tế có sử dụng thơng tin cơng thức tốn học tài liệu ảnh thuận tiện 72 TÀI LIỆU THAM KHẢO [1] K.-F Chan and D.-Y Yeung, “Mathematical expression recognition: a survey,” International Journal on Document Analysis and Recognition, vol 3, no 1, pp 3–15, 2000 11, 13, 17, 18, 19 [2] C Faure and Z X Wang, “Automatic perception of the structure of handwritten mathematical expressions,” in Computer processing of handwriting, pp 337–361, World Scientific, 1990 12, 16, 18 [3] J Ha, R M Haralick, and I T Phillips, “Understanding mathematical expres-sions from document images,” in Proceedings of 3rd International Conference on Document Analysis and Recognition, vol 2, pp 956 –959, IEEE, 1995 13, 16 [4] F Álvaro, J.-A Sánchez, and J.-M Benedí, “An integrated grammar-based approach for mathematical expression recognition,” Pattern Recognition, vol 51, pp 135–147, 2016 21 [5] W He, Y Luo, F Yin, H Hu, J Han, E Ding, and C.-L Liu, “Contextaware mathematical expression recognition: An end-to-end framework and a benchmark,” in 2016 23rd International Conference on Pattern Recognition (ICPR), pp 3246 – 3251, IEEE, 2016 23 [6] J Zhang, J Du, S Zhang, D Liu, Y Hu, J Hu, S Wei, and L Dai, “Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition,” Pattern Recognition, vol 71, pp 196–206, 2017 5, 26, 27, 52, 66 [7] J Zhang, W Ming, and P Liu, “A two-stage framework for mathematical expression recognition,” 2019 27, 28, 34 [8] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L u.Kaiser, and I Polosukhin, “Attention is all you need,” in Advances in Neural Information Processing Systems (I Guyon, U V Luxburg, S Bengio, H Wallach, R Fergus, S Vishwanathan, and R Garnett, eds.), vol 30, Curran Associates, Inc 2017 5, 27, 28, 29, 31, 46, 53, 54 [9] G L Y Z P S D L Z Z Zhao, W., “Handwritten mathematical expression recognition with bidirectionally trained transformer,” in ICDAR 2021 Lecture Notes in Computer Science, vol 12822, 2021 5, 31, 32, 45, 47, 48 73 [10] B H Phong, L T Dat, N T Yen, T M Hoang, and T.-L Le, “A deep learning based system for mathematical expression detection and recognition in document images,” in 2020 12th International Conference on Knowledge and Systems Engineering (KSE), pp 85–90, 2020 34, 35, 36, 37, 39, 44, 60, 61, 62, 67, 68, 70, 71 [11] G Huang, Z Liu, L Van Der Maaten, and K Q Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4700–4708, 2017 33, 49, 52 [12] X Lin, L Gao, Z Tang, X Lin, and X Hu, “Performance evaluation of mathematical formula identification,” in 2012 10th IAPR International Workshop on Document Analysis Systems, pp 287–291, 2012 60, 61 [13] F Alvaro, J.-A S nchez, and J.-M Benedi, “Recognition of printed mathematical expressions using two-dimensional stochastic context-free grammars,” in 2011 International Conference on Document Analysis and Recognition, pp 1225–1229, 2011 4, 9, 33 [14] W Zhao, L Gao, Z Yan, S Peng, L Du, and Z Zhang, “Handwritten mathemat ical expression recognition with bidirectionally trained transformer,” in ICDAR, 2021 [15] M M et al., “Icdar 2019 crohme + tfd: Competition on recognition of handwritten mathematical expressions and typeset formula detection,” in 2019 International Conference on Document Analysis and Recognition (ICDAR), 2019 [16] S Mori, C Y Suen, and K Yamamoto, “Historical review of ocr research and development,” Proceedings of the IEEE, vol 80, no.7, pp 1029 – 1058, 1992.14 [17] C C Tappert, C Y Suen, and T Wakahara, “The state of the art in online handwriting recognition,” IEEE Transactions on pattern analysis and machine intelligence, vol 12, no 8, pp 787 - 808, 1990 14, 15 [18] Y Nakayama, “A prototype pen-input mathematical formula editor,” in Proceedings of ED-MEDIA, pp 400 - 407, ERIC, 1993 14 74 [19] M Okamoto, “Recognition of mathematical expressions by using the layout structure of symbols,” in Proc 1st Int Conf Document Analysis and Recognition, 1991, pp 242–250, 1991 14, 15 [20] M Okamoto and A Miyazawa, “An experimental implementation of a document recognition system for papers containing mathematical expressions,” in Structured Document Image Analysis, pp 36–53, Springer, 1992 14, 15 [21] J.-W Wu, F Yin, Y Zhang, X.-Y Zhang, and C.-L Liu, “Graph-to-graph: to - wards accurate and interpretable online handwritten mathematical expression recognition,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol 35, pp 2925–2933, 2021 15, 25 [22] E G Miller and P A Viola, “Ambiguity and constraint in mathematical expression recognition,” in AAAI/IAAI, pp 784–791, Citeseer, 1998 15 [23] A Belaid and J.-P Haton, “A syntactic approach for handwritten mathematical formula recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, no 1, pp 105–111, 1984 15 [24] K.-F Chan and D.-Y Yeung, “Recognizing on-line handwritten alphanumeric characters through flexible structural matching,” Pattern recognition, vol 32, no 7, pp 1099–1114, 1999 15 [25] L Chen, “A system for on-line recognition of handwritten mathematical expressions,” Computer Processing of Chinese and Oriental Languages, vol 6, no 1, pp 19–39, 1992 15 [26] R J Fateman, T Tokuyasu, B P Berman, and N Mitchell, “Optical character recognition and parsing of typeset mathematics1,” Journal of Visual Communication and Image Representation, vol 7, no 1, pp 2–15, 1996 15 [27] H.-J Lee and J.-S Wang, “Design of a mathematical expression recognition system,” in Proceedings of 3rd International Conference on Document analysis and Recognition, vol 2, pp 1084–1084, IEEE Computer Society, 1995 18 [28] A Grbavec and D Blostein, “Mathematics recognition using graph rewriting,” in Proceedings of 3rd International Conference on Document Analysis and Recognition, vol 1, pp 417–421, IEEE, 1995 18 [29] R H Anderson, “Syntax-directed recognition of hand-printed twodimensional mathematics,” in Symposium on interactive systems for 75 experimental applied math- ematics: Proceedings of the Association for Computing Machinery Inc Symposium, pp 436–459, 1967 19 [30] S.-K Chang, “A method for the structural analysis of two-dimensional mathematical expressions,” information sciences, vol 2, no 3, pp 253–272, 1970 19 [31] J Pfeiffer, “Parsing graphs representing two dimensional figures,” in Proceedings IEEE Workshop on Visual Languages, pp 200–206, IEEE, 1992 20 [32] Z Xuejin, L Xinyu, Z Shengling, P Baochang, and Y Tang, “On-line recognition handwritten mathematical symbols,” in Proceedings of the Fourth International Conference on Document Analysis and Recognition, vol 2, pp 645–648 vol.2, 1997 20 [33] H M Twaakyondo and M Okamoto, “Structure analysis and recognition of mathematical expressions,” in Proceedings of 3rd International Conference on Document Analysis and Recognition, vol 1, pp 430–437, IEEE, 1995 20 [34] G Pagallo, “Method and apparatus for processing graphically input equations,” May 1997 US Patent 5,627,914 20 [35] G M Pagallo, “Constrained attribute grammars for recognition of multidimensional objects,” in Advances in Pattern Recognition: Joint IAPR International Workshops SSPR’98 and SPR’98 Sydney, Australia, August 11–13, 1998 Proceedings, pp 359–365, Springer, 1998 20 [36] S Lavirotte and L Pottier, “Optical formula recognition,” in Proceedings of the Fourth International Conference on Document Analysis and Recognition, vol 1, pp 357–361, IEEE, 1997 21 [37] S Lavirotte and L Pottier, “Mathematical formula recognition using graph grammar,” in Document Recognition V, vol 3305, pp 44–52, SPIE, 1998 21 [38] Z Endong and L Licheng, “Design of online handwritten mathematical expression recognition system based on gated recurrent unit recurrent neural network,” in 2021 4th International Conference on Pattern Recognition and Artificial Intelligence (PRAI), pp 446–451, 2021 25 [39] M Cotogni, C Cusano, and A Nocera, “Recursive recognition of offline handwritten mathematical expressions,” in 2020 25th International Conference on Pattern Recognition (ICPR), pp 3138–3145, 2021 25 76 [40] G Rajesh, R Narayanan, K Srivatsan, P S, and X M Raajini, “Hybrid neural network for handwritten mathematical expression recognition system,” in 2021 International Conference on Intelligent Technology, System and Service for Internet of Everything (ITSS-IoE), pp 1–6, 2021 25 [41] Y Yuan, X Liu, W Dikubab, H Liu, Z Ji, Z Wu, and X Bai, “Syntaxaware network for handwritten mathematical expression recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp 4553–4562, 2022 26 [42] W He, Y Luo, F Yin, H Hu, J Han, E Ding, and C.-L Liu, “Contextaware mathematical expression recognition: An end-to-end framework and a benchmark,” in 2016 23rd International Conference on Pattern Recognition (ICPR), pp 3246– 3251, 2016 26 [43] Y Bengio, P Frasconi, and P Simard, “The problem of learning long-term dependencies in recurrent networks,” in IEEE international conference on neural networks, pp 1183–1188, IEEE, 1993 31 [44] L Kang, P Riba, M Rusi nol, A Fornés, and M Villegas, “Pay attention to what you read: non-recurrent handwritten text-line recognition,” Pattern Recognition, vol 129, p 108766, 2022 31 [45] Y Fu, T Liu, M Gao, and A Zhou, “Edsl: An encoder-decoder architecture with symbol-level features for printed mathematical expression recognition,” arXiv preprint arXiv:2007.02517, 2020 33 [46] Z Yan, X Zhang, L Gao, K Yuan, and Z Tang, “Convmath: A convolutional sequence network for mathematical expression recognition,” in 2020 25th International Conference on Pattern Recognition (ICPR), pp 4566– 4572, 2021 34 [47] B H Phong, T M Hoang, and T.-L Le, “An end-to-end framework for the detection of mathematical expressions in scientific document images,” Expert Systems, vol 39, no 1, p e12800, 2022 45, 47 [48] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser, and I Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol 30, 2017 46 77 [49] G Huang, Z Liu, L van der Maaten, and K Q Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017 48 [50] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016 48, 50 [51] A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” Communications of the ACM, vol 60, no 6, pp 84–90, 2017 50 [52] J Zhang, J Du, and L Dai, “Multi-scale attention with dense encoder for handwritten mathematical expression recognition,” in 2018 24th international conference on pattern recognition (ICPR), pp 2245–2250, IEEE, 2018 52 [53] M D Zeiler, “Adadelta: an adaptive learning rate method,” arXiv preprint arXiv:1212.5701, 2012 57 [54] V I Levenshtein et al., “Binary codes capable of correcting deletions, insertions, and reversals,” in Soviet physics doklady, vol 10, pp 707–710, Soviet Union, 1966 64 [55] Z Li, L Jin, S Lai, and Y Zhu, “Improving attention-based handwritten mathematical expression recognition with scale augmentation and drop attention,” 2020 17th International Conference on Frontiers in Handwriting Recognition (ICFHR), pp 175–180, 2020 67 [56] V.-X Vu, T.-N Bui, T.-L Le, B H Phong, and M.-T Hoang, “Transformer based method for mathematical expression recognition in document images,” in 2022 International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pp 1–6, IEEE, 2022 74 78 TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Nghiên cứu phát triển phương pháp nhận dạng công thức tốn học in từ hình ảnh tài liệu khoa học Tác giả luận văn: Bùi Thị Nhi Khóa: 2021A Người hướng dẫn: PGS.TS Lê Thị Lan Từ khóa (Keyword): Nhận dạng cơng thức tốn học in Nội dung tóm tắt: a) Lý chọn đề tài: Cơng thức tốn học thành phần quan trọng tài liệu khoa học Nhận dạng cơng thức tốn học in từ hình ảnh tài liệu khoa học tốn không Việc nhận dạng hiểu công thức toán học từ tài liệu khoa học cho phép khai thác thông tin từ tài liệu khoa học tra cứu, so sánh tài liệu khoa học Nhận dạng cơng thức tốn học từ tài liệu dạng ảnh coi tốn nhận dạng ảnh Tuy nhiên, nhận dạng công thức tốn học có nhiều thách thức riêng đa dạng tồn ký tự đặc biệt, cách biểu diễn đặc thù miền không gian Do mặc đù có nhiều nghiên cứu đề xuất, nhận dạng cơng thức tốn từ ảnh tốn mở Vì lý học viên lựa chọn thực đề tài: “Nghiên cứu phát triển phương pháp nhận dạng cơng thức tốn học in từ hình ảnh tài liệu khoa học” b) Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu: Mục đích nghiên cứu luận văn tìm hiểu đề xuất phương pháp nhận dạng cơng thức tốn định dạng ảnh dựa mạng học sâu biểu diễn cơng thức dạng chuỗi Latex c) Tóm tắt đọng nội dung đóng góp tác giả: Với mục tiêu đó, luận văn thực cơng việc sau: - Tìm hiểu phân tích phương pháp nhận dạng cơng thức tốn định dạng ảnh dựa kỹ thuật học sâu - Đề xuất cải tiến mơ hình nhận dạng cơng thức toán học in dựa mạng học sâu - Cài đặt, thử nghiệm đánh giá kết nhận dạng sở liệu dùng chung sở liệu tự xây dựng d) Phương pháp nghiên cứu Áp dụng mơ hình Tranformer BTTR cho tốn nhận dạng cơng thức tốn học in với mã hóa sử dụng DenseNet để trích xuất tính đầu vào cho hình ảnh tài liệu DenseNet phát triển đặc biệt để cải thiện độ xác bị giảm độ dốc biến mạng nơ - ron cấp cao, giải mã sử dụng mơ hình transformer tiêu chuẩn với chế tập trung e) Kết luận Luận văn trình bày phương pháp nhận dạng cơng thức tốn học in hình ảnh tài liệu khoa học dựa mơ hình mã hóa-giải mã Bộ mã hóa sử dụng mạng DenseNet giải mã thực cách sử dụng mạng Bidirectional Transformer Bộ mã hóa giải mã đào tạo chung với liệu đa dạng để cải thiện độ xác nhận dạng Chiến lược tăng cường hình ảnh giai đoạn huấn luyện cho phép cải tiến độ xác nhận dạng mơ hình Các kết thử nghiệm cho thấy phương pháp nghiên cứu cải thiện đáng kể độ xác nhận dạng tập liệu Marmot Trong tương lai, mơ hình học viên áp dụng để nhận ME trường hợp thử thách khác (ví dụ: hình ảnh chụp máy ảnh) Hơn nữa, kết nhận dạng tích hợp cho ứng dụng thực tế hệ thống truy xuất toán học Các kết nghiên cứu trình bày hội nghị quốc tế: Van-Xung Vu; Thi-Nhi Bui; Thi-Lan Le; Bui Hai Phong; Manh-Thang Hoang, Transformer-based method for mathematical expression recognition in document images, 2022 International Conference on Multimedia Analysis and Pattern Recognition (MAPR)