Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
2,9 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI HẢI PHONG NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆN CƠNG THỨC TỐN HỌC TRONG ẢNH VĂN BẢN Ngành: Khoa học máy tính Mã số: 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội −2021 Cơng trình hồn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: PGS.TS Hoàng Mạnh Thắng PGS.TS Lê Thị Lan Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội: Vào hồi , ngày tháng năm 2021 Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam GIỚI THIỆU Động lực nghiên cứu Hiện nay, tài liệu khoa học đóng vai trị quan trọng cộng đồng nghiên cứu Cơng thức tốn học thành phần quan trọng tài liệu khoa học Qua thời gian, số lượng tài liệu khoa học công bố ngày tăng Các tài liệu khoa học định dạng hai dạng chính: PDF ảnh Gần đây, tài liệu xuất với định dạng PDF, vậy, số lượng lớn tài liệu dạng ảnh Để số hóa tài liệu này, kỹ thuật xử lý ảnh cần áp dụng Các bước để số hóa tài liệu ảnh bao gồm: phân tích cấu trúc trang tài liệu, nhận dạng ký tự, so khớp, tìm kiếm nội dung tài liệu [2] Việc số hóa tài liệu văn kí tự coi tốn giải với độ xác cao Tuy vậy, việc số hóa tài liệu khoa học có nhiều thách thức thu hút ý nhà khoa học Đặc biệt, phát nhận dạng cơng thức tốn học toán phức tạp Từ yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ xác phát nhận dạng cơng thức tốn học tài liệu định dạng ảnh Giới thiệu toán phát nhận dạng cơng thức tốn học tài liệu định dạng ảnh Cơng thức tốn học sử dụng từ lâu sống người Cơng thức tốn học định nghĩa kết hợp chặt chẽ, hữu hạn ký hiệu toán học theo ngữ cảnh [5] Các luật kết hợp ký hiệu toán học phụ thuộc vào ngữ cảnh định Cơng thức tốn học thường chứa biến, phép toán, hàm, ký hiệu đặc biệt (dấu ngoặc, dấu chấm) Các thành phần cơng thức tốn học kết hợp dựa thứ tự tuân theo ngữ pháp định Trong tài liệu, công thức tốn học chia thành hai loại: cơng thức độc lập công thức nội tuyến Công thức độc lập xuất dòng văn riêng biệt đó, cơng thức nội tuyến xuất dịng với kí tự văn thơng thường Phát công thức độc lập thu nhiều kết tích cực, vậy, phát cơng thức nội tuyến thách thức tiếp tục nghiên cứu rộng rãi Phát công thức hướng tới xác định vị trí cơng thức tài liệu khoa học Trong đó, nhận dạng cơng thức tốn học nhằm chuyển đổi cơng thức từ định dạng ảnh sang định dạng chuỗi ký tự biểu diễn chuỗi ký tự định dạng định (trong luận án này, kết nhận dạng biểu diễn dạng Latex) Hình minh họa trình phát nhận dạng công thức tài liệu ảnh Kết phát nhận dạng cơng thức có mối quan hệ chặt chẽ Việc phát xác cơng thức giúp nhận dạng cơng thức xác Ngược lại, lỗi q trình phát cơng thức gây lỗi q trình nhận dạng Phạm vi nghiên cứu luận án sau: Hình Ví dụ minh họa phát (a) nhận dạng (b) cơng thức tốn học tài liệu dạng ảnh Công thức độc lập công thức nội tuyến đánh dấu hình chữ nhật màu đỏ xanh Kết nhận dạng công thức biểu diễn Latex (c) (1) Trên thực tế, công thức toán học đa dạng sử dụng nhiều lĩnh vực khoa học khác nhau, luận án nghiên cứu phương pháp phát nhận dạng công thức tốn học (khơng phải cơng thức vật lý, hóa học) tài liệu khoa học Trong tài liệu này, công thức thường biểu diễn số định dạng chữ in đậm, in nghiêng Kích thước công thức nằm đoạn văn bản, không vượt lề tài liệu Các công thức không nằm thành phần khác tài liệu bảng, hình vẽ (2) Độ xác phát nhận dạng công thức phụ thuộc nhiều vào chất lượng tài liệu ảnh đầu vào Luận án sâu nghiên cứu phương pháp phát nhận dạng công thức tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao (3) Luận án phát công thức tài liệu khoa học biểu diễn công thức phát hình chữ nhật bao quanh cơng thức Sau đó, công thức nhận dạng biểu diễn nhờ định dạng Latex [4] Những khó khăn, thách thức việc nhận dạng cơng thức tốn học sau: (1) Cho tới nay, hàng trăm kí tự tốn học sử dụng cơng thức tốn học Việc nhận dạng xác số lượng lớn kí tự tốn học thách thức lớn Một số kí tự chứa nhiều thành phần (ví dụ kí tự ’i’, ‘j’, ‘=’) Trong đó, số kí √ tự tốn học phức tạp chứa kí tự khác (ví dụ a ) (2) Một số kí tự tốn học có vai trị khác tùy theo ngữ cảnh (3) Một số kí tự tốn học biểu diễn cách tường minh hiểu ngầm tùy theo kí tự kèm (4) Cũng ngôn ngữ tự nhiên, kí hiệu tốn học đa dạng có tính chất địa phương Do đó, luận án tập trung nghiên cứu phương pháp nhận dạng số lượng định cơng thức tốn học Đóng góp luận án Luận án có ba đóng góp việc nâng cao độ xác phát nhận dạng cơng thức tốn học: (1) Trước hết, luận án nghiên cứu, đề xuất phương pháp lai nhằm kết hợp đặc trưng trích chọn thủ cơng đặc trưng trích chọn tự động dựa mạng học sâu Phương pháp lai giúp nâng cao độ xác phát cơng thức tốn học Ngồi ra, ưu điểm phương pháp phát cơng thức tốn học với độ xác cao mà khơng phụ thuộc vào phần mềm nhận dạng kí tự (2) Tiếp theo, luận án đề xuất phương pháp phát công thức cách tích hợp Phương pháp gồm hai bước Bước thứ áp dụng phương pháp biến đổi ảnh dựa khoảng cách để chuyển đối ảnh tài liệu từ đen trắng sang ảnh màu Phép biến đổi nhằm tận dụng thông tin khác hiển thị cơng thức, qua giúp nhận dạng cơng thức xác Bước thứ hai áp dụng tối ưu mạng học sâu tiên tiến Faster R-CNN nhằm phát công thức ảnh sau biến đổi cách xác (3) Luận án kết hợp tối ưu mạng học sâu việc phát nhận dạng cơng thức tốn học Cụ thể, công thức phát tài liệu dựa mạng Faster R-CNN Sau đó, cơng thức nhận dạng dựa mạng học sâu theo cấu trúc Mã hóa-Giải mã Cấu trúc luận án Chương "Giới thiệu"trình bày mục tiêu, giới hạn luận án khó khăn tốn phát nhận dạng cơng thức tốn học Chương giới thiệu, phân tích số phương pháp liên quan phát nhận dạng công thức Chương đề xuất mơ hình lai cho phép kết hợp kỹ thuật trích chọn đặc trưng thủ cơng trích chọn đặc trưng tự động dựa mơ hình học sâu tiên tiến Phương pháp lai với số chiến lược phân tích trang tài liệu nâng cao độ xác phát cơng thức tốn học Chương đề xuất phương pháp tích hợp để tiếp tục nâng cao độ xác phát công thức Chương đề xuất phương pháp kết hợp phát nhận dạng công thức tốn học dựa mơ hình học sâu tiên tiến Chương kết luận trình bày tóm tắt đóng góp luận án đưa hướng phát triển CHƯƠNG Nghiên cứu liên quan Chương nghiên cứu phương pháp liên quan tới phát nhận dạng cơng thức tốn học tài liệu ảnh Các ưu, nhược điểm phương pháp phân tích Từ đó, đề xuất, cài tiến chất lượng phát nhận dạng công thức đưa chương 1.1 Các kỹ thuật phân tích trang tài liệu Các phương pháp truyền thống giải tốn phát cơng thức tốn học dựa hai bước [9]: phân tích trang tài liệu phát công thức dựa kết phân tích trang Phân tích trang tài liệu kỹ thuật sử dụng để phân vùng tài liệu thành vùng đồng cấu trúc [17] Trong năm gần đây, phân tích trang tài liệu thu hút nhiều nhà nghiên cứu giới Trước hết, trang tài liệu tiền xử lý để nâng cao chất lượng Các kỹ thuật tiền xử lý thường gặp như: lọc nhiễu, loại bỏ góc nghiêng, cong tài liệu Sau đó, kỹ thuật phân tích trang tài liệu áp dụng bao gồm: kỹ thuật phân tích từ lên, phân tích từ xuống, phân tích dựa độ phân giải khác kỹ thuật lai [15] Trong năm gần đây, mạng học sâu áp dụng để phân tích trang tài liệu Ưu điểm mạng học sâu phân tích tài liệu có cấu trúc đa dạng khác [16] 1.2 Phát công thức tài liệu ảnh Phát cơng thức tốn học tài liệu ảnh nghiên cứu từ nhiều năm Các phương pháp chia thành ba loại chính: phương pháp sử dụng luật, phương pháp sử dụng trích chọn đặc trưng thủ cơng phương pháp sử dụng mạng học sâu 1.2.1 Phát công thức dựa luật Trong nghiên cứu phát công thức tài liệu ảnh, luật đưa để phát công thức [6, 18] Các luật đưa dựa khác hình thái học, biểu diễn cơng thức so với văn thông thường Các phương pháp thường áp dụng để phát công thức số trường hợp đặc biệt Phương pháp gặp nhiều lỗi sai phát công thức tài liệu có cấu trúc phức tạp 1.2.2 Phát cơng thức dựa trích chọn đặc trưng thủ cơng Các đặc trưng cơng thức trích chọn, thiết kế thủ công để phát công thức tài liệu ảnh Bảng 1.1 tổng hợp số đặc trưng thiết kế để phát công thức độc lập Bên cạnh đó, đặc trưng khác thiết kế để phát công thức nội tuyến Bảng 1.2 tổng hợp đặc trưng thiết kế để phát cơng thức nội tuyến Sau trích chọn đặc trưng, phân lớp K láng giềng gần hay Máy vec tơ hỗ trợ áp dụng để phát công thức Các phương pháp phát cơng thức dựa trích chọn đặc trưng thủ cơng cho độ xác cao với số liệu định, vậy, phương pháp phát cho hiệu thấp với công thức nội tuyến Bảng 1.1 Các đặc trưng sử dụng để phát công thức độc lập Đặc trưng Mật độ [12] Tỉ lệ chiều cao chiều rộng [19] Căn lề trái, phải [12, 20] Vị trí kí tự [12] Khoảng cách dịng [23] Mơ tả Mật độ điểm ảnh màu đen Tỉ lệ chiều cao chiều rộng dòng chữ Căn lề dòng chữ so với lề văn Thay đổi vị trí kí tự cơng thức Khoảng cách với dịng trước dịng sau Bảng 1.2 Các đặc trưng sử dụng để phát cơng thức nội tuyến Đặc trưng Kí tự đặc biệt [13] Mật độ[12] Tỉ lệ chiều cao/chiều rộng [12] Thay đổi vị trí kí tự [12] Khoảng cách kí tự [23] 1.2.3 Mơ tả Một từ có chứa kí tự đặc biệt hay khơng Mật độ điểm ảnh màu đen Tỉ lệ chiều cao/chiều rộng từ Sự thay đổi vị trí kí tự từ Khoảng cách kí tự từ Phát cơng thức tốn học dựa mạng học sâu Trong năm gần đây, kỹ thuật học sâu cho thấy hiệu vượt trội phát nhận dạng công thức Nghiên cứu [21] áp dụng kiến trúc mạng U-net phát công thức Sau phát hiện, kỹ thuật hậu xử lý áp dụng để nâng cao độ xác phát công thức Mạng U-net huấn luyện tập liệu khoa học đa dạng để nâng cao hiệu phát cơng thức Độ xác đạt cho phát công thức theo độ đo "precision"và "recall"lần lượt 95.2% 91% sở liệu dùng chung GTDB Mặc dù nghiên cứu cho kết phát kí tự tốn học xác, q trình phát cơng thức, nghiên cứu chưa xử lý tốt việc xây dựng cấu trúc cơng thức đầy đủ Ngồi ra, nghiên cứu [22] phát công thức dựa cấu trúc mạng nơ ron SSD-512 YOLOv3 1.3 1.3.1 Nhận dạng công thức Các phương pháp truyền thống nhận dạng cơng thức Nhận dạng cơng thức tốn học nghiên cứu từ năm 1960 Đây lĩnh vực thu hút nhiều ý vô thử thách Các phương pháp truyền thống nhận dạng cơng thức tốn học thường gồm bước: phân vùng kí tự, nhận dạng kí tự phân tích cấu trúc tài liệu Nghiên cứu [1] tổng hợp nhiều phương pháp khác để giải toán nhận dạng cơng thức Các phương pháp phân vùng kí tự thường dựa phân tích thành phần liên tục kí tự dựa hình chiếu kí tự Các phương pháp thường gặp khó khăn phân vùng kí tự lớn có chứa kí tự (ví dụ kí tự bậc hai, tính tổng) kí tự liền kề Các phương pháp nhận dạng kí tự nghiên cứu dựa đặc trưng kí tự kết hợp với phân lớp học máy So với phân vùng nhận dạng kí tự, bước phân tích cấu trúc cơng thức khó khăn Một số cấu trúc thường dùng để giải tốn phân tích cấu trúc tốn học như: cấu trúc cây, đồ thị, văn phạm phi ngữ cảnh Như vậy, phương pháp truyền thống để nhận dạng công thức nghiên cứu từ nhiều năm Các phương pháp thường có nhược điểm sau: (1) Độ xác nhận dạng cơng thức tốn học cịn thấp Bất kỳ lỗi gặp phải q trình phân vùng, nhận dạng kí tự hay phân tích cấu trúc kí tự dẫn đến kết nhận dạng sai (2) Việc trích chọn đặc trưng thủ cơng cho số lượng lớn kí tự tốn học tốn nhiều thời gian công sức (3) Rất khó đánh giá, so sánh độ xác nhận dạng phương pháp đề xuất phương pháp thử nghiệm tập liệu khác 1.3.2 Nhận dạng cơng thức tốn học sử dụng mạng Nơ ron Trong năm gần đây, mạng học sâu áp dụng cách hiệu nhận dạng cơng thức tốn học Nghiên cứu [24] áp dụng mạng nơ ron tích chập mạng hồi quy để nhận dạng cơng thức tốn học chụp camera Một số mơ hình dựa mạng Encoder-Decoder[25] đưa để nhận dạng công thức tốn học Ý tưởng mạng sử dụng mạng nơ ron tích chập để trích chọn đặc trưng tự động ảnh cơng thức Sau đó, giải mã áp dụng cấu trúc mạng hồi quy để giải mã đặc trưng thành kết nhận dạng cơng thức Từ mơ hình mạng Encoder-Decoder, số kỹ thuật tiếp tục cải tiến để nâng cao chất lượng nhận dạng công thức Nghiên cứu [3] đưa chế học tăng cường dựa mẫu chữ viết tay chữ in để nâng cao độ xác nhận công thức So với phương pháp truyền thống, phương pháp nhận dạng dựa học sâu cho độ xác cao cơng thức toán học lớn, phức tạp 1.4 Cơ sở liệu độ đo đánh giá hệ thống 1.4.1 Cơ sở liệu Một số phương pháp có đánh giá độ xác tốn phát nhận dạng cơng thức tốn học sở liệu cá nhân có kích thước nhỏ Để có đánh giá rõ ràng so sánh phương pháp có, luận án thực thử nghiệm sở liệu dùng chung giới sở liệu Marmot [11] GTDB [21] So với sở liệu Marmot, sở liệu GTDB lớn hơn, thách thức số lượng, kích thước cơng thức Thơng tin so sánh hai sở liệu mô tả bảng 1.3 Bảng 1.3 Thông tin sở liệu Marmot GTDB Cơ sở liệu Số Số Số Số Số trang tài liệu lượng công thức độc lập lượng công thức nội tuyến lượng font chữ công thức trung bình/1 trang 1.4.2 GTDB Huấn luyện Thử nghiệm 569 236 4218 2488 22178 9397 30 47.55 Marmot Huấn luyện Thử nghiệm 330 70 1322 253 6951 956 18 23.70 Độ đo đánh giá hiệu hệ thống Hai độ đo phổ biến áp dụng để đánh giá hiệu hệ thống phát công thức Độ đo thứ Precision (P), Recall (R) F1 score Độ đo thứ hai sử dụng độ đo IoU (Intersection over Union) Độ đo IoU thường áp dụng tốn phát đối tượng Trong đó, hai độ đo tỉ lệ lỗi ký tự (WER) tỉ lệ lỗi nhận dạng công thức (ExpRate) áp dụng để đánh giá độ xác hệ thống nhận dạng công thức Độ đo (ExpRate) tỉ lệ số lượng cơng thức nhận dạng hồn tồn so với tổng số cơng thức có sở liệu Độ đo (WER) tính theo tỉ lệ số lượng kí tự cần thay đổi (thêm, sửa, xóa) để thu chuỗi xác biểu diễn cơng thức tổng số kí tự chuỗi biểu diễn công thức CHƯƠNG Phát công thức sử dụng phương pháp kết hợp trích chọn đặc trưng thủ công mạng học sâu 2.1 Giới thiệu phương pháp Tài liệu khoa học thường bao gồm nhiều thành phần khác như: bảng, hình vẽ, kí tự cơng thức tốn học Các phương pháp truyền thống phát cơng thức dựa hai kỹ thuật chính: phân tích trang tài liệu trích chọn đặc trưng thủ công Các phương pháp truyền thống thường cho kết phát công thức thấp tài liệu có cấu trúc phức tạp Do đó, chương trình bày phương pháp kết hợp trích chọn đặc trưng thủ công kỹ thuật học sâu tiên tiến nhằm nâng cao độ xác phát cơng thức tốn học Hình 2.1 minh họa bước phương pháp Đầu vào phương pháp hình ảnh tài liệu đen trắng Kỹ thuật phân tích trang tài liệu dựa phép chiếu thực để tách dòng tài liệu (text lines) Các công thức độc lập phát từ dòng tài liệu thu Các dịng tài liệu khơng phải cơng thức độc lập tách thành từ (word) Các công thức nội tuyến phát từ từ Cuối cùng, kỹ thuật hậu xử lý áp dụng để nâng cao độ xác phát cơng thức Hình 2.1 Sơ đồ khối hệ thống phát công thức tốn học 2.2 Phân tích trang tài liệu Cơng thức văn tài liệu biểu diễn từ xuống từ trái sang phải, vậy, kĩ thuật phân tích trang tài liệu dựa hình chiếu ngang hình chiếu dọc áp dụng [8] Hình chiếu ngang hình chiếu dọc ảnh cho biết phân bố điểm ảnh theo hai chiều, đó, kĩ thuật đơn giản phù hợp cho phân tích cấu trúc tài liệu Mục tiêu q trình phân tích trang tài liệu để lấy dòng văn từ Dựa dòng từ lấy từ trang tài liệu, công thức độc lập công thức nội tuyến phát 2.3 Phát cơng thức dựa phương pháp trích chọn đặc trưng thủ cơng Hình 2.2 Sơ đồ khối q trình phát cơng thức tốn học dựa trích chọn đặc trưng thủ công Sơ đồ khối trình phát cơng thức độc lập cơng thức nội tuyến mơ tả hình 2.2 Với phương pháp phát dựa trích chọn đặc trưng thủ công, dựa đặc điểm khác công thức tốn học kí tự văn thơng thường, đặc trưng nghiên cứu, đề xuất để nâng cao độ xác phát 2.3.1 Phát cơng thức độc lập dựa trích chọn đặc trưng thủ cơng Mật độ khoảng cách kí tự công thức độc lập thường khác so với kí tự văn thơng thường Do đó, để làm bật đặc trưng này, dòng văn chuyển đổi sang miền tần số nhờ biến đổi Fast Fourier Transform (FFT) 2.5 Phát công thức dựa kết hợp muộn phương pháp trích chọn đặc trưng thủ công sử dụng mạng nơ ron tích chập Hình 2.4 Sơ đồ khối phát công thức dựa kết hợp muộn phương pháp trích chọn đặc trưng thủ cơng sử dụng mạng nơ ron tích chập Trong năm gần đây, chiến lược kết hợp nhiều mơ hình cho hiệu cao phát phân loại đối tượng Luận án nghiên cứu áp dụng phương pháp kết hợp muộn kết dự đốn cơng thức đầu phân lớp học máy (SVM, kNN, định, rừng ngẫu nhiên) kết dự đốn lớp softmax mạng nơ ron tích chập Sơ đồ khối 2.4 mô tả chi tiết trình kết hợp muộn phát cơng thức 2.6 Kỹ thuật hậu xử lý phát công thức Trong phát công thức, số công thức lớn thường bị tách thành nhiều dịng Do đó, nhằm nâng cao độ xác phát cơng thức, luận án áp dụng phương pháp 11 ước lượng ngưỡng để ghép thành phần bị tách công thức thành cơng thức cuối Hình 2.5 minh họa q trình ghép hai thành phần công thức bị tách thành cơng thức hồn chỉnh (a) Trước hậu xử lý (b) Sau hậu xử lý Hình 2.5 Ví dụ minh họa kỹ thuật hậu xử lý áp dụng để ghép hai phần công thức để thu công thức cuối 2.7 Kết đánh giá thực nghiệm Bảng 2.1 So sánh kết nhận dạng công thức độc lập sở liệu Marmot phương pháp đề xuất phương pháp có (kết phát cao in đậm) Phương pháp Phương pháp [12] Đề xuất FFT RF Mạng AlexNet Mạng ResNet-18 Kết hợp trung bình Kết hợp nhân Kết phát PH hoàn toàn PH phần 26.87% 44.89% Tổng 71.76% Phát (PH) lỗi Thiếu Sai Tổng 9.89% 18.35% 28.24% 31.02% 47.22% 50.89% 51.34% 51.34% 73.34% 88.66% 90.16% 90.79% 91.18% 9.04% 2.78% 3.55% 3.55% 3.14% 42.32% 41.44% 39.27% 39.45% 39.84% 17.62% 8.56% 6.29% 5.66% 5.68% 26.66% 11.34% 9.84% 9.21% 8.82% Bảng 2.2 So sánh kết nhận dạng công thức nội tuyến sở liệu Marmot phương pháp đề xuất phương pháp có (kết phát cao in đậm) Phương pháp Phương pháp [12] Đề xuất Phép chiếu RF Mạng AlexNet Mạng ResNet-18 Kết hợp trung bình Kết hợp nhân Phát Đúng Đúng phần 1.74% 28.87% Tổng số 30.61% Phát (PH) sai PH thiếu Sai 9.93% 59.46% Total 69.39% 11.05% 21.54% 22.68% 22.79% 22.90% 52.45% 77.79% 79.74% 79.85% 81.35% 8.36% 7.60% 5.59% 5.79% 5.40% 47.55% 22.21% 20.26% 20.15% 18.65% 41.40% 56.25% 57.06% 57.96% 58.45% 12 39.19% 14.61% 14.67% 14.36% 13.25% Bảng 2.3 So sánh hiệu phương pháp đề xuất phương pháp có sở liệu GTDB Phương pháp Dựa đồ thị + nhận dạng [22] Hệ thống Michiking [22] Phương pháp đề xuất IoU ≥ 0.5 94.36% 36.87% 50.17% IoU ≥ 0.75 94.17% 19.10% 43.19% Hình 2.6 Ví dụ minh họa phát công thức sở liệu GTDB Kết phát biểu diễn màu xanh, liệu sở liệu biểu diễn màu đỏ Bảng 2.1 2.2 thể kết phát cơng thức tốn học phương pháp đề xuất phương pháp có sở liệu Marmot Bảng 2.3 thể kết phát công thức phương pháp đề xuất phương pháp có sở liệu GTDB So với phương pháp phát truyền thống dựa xử lý ảnh trích chọn đặc trưng thủ cơng, phương pháp đề xuất cho kết cao đáng kể phát công thức Hiệu phát cao nhờ phương pháp đề xuất kết hợp hiệu mạng nơ ron tích chập phương pháp trích chọn đặc trưng dựa biến đổi FFT phép chiếu Phương pháp phát dựa đồ thị kết nhận dạng cho kết cao nhất, nhiên, để có kết nhận dạng số lượng lớn kí tự, phương pháp địi hỏi nhiều thời gian công sức 2.8 Tiểu kết chương Chương trình bày phương pháp nâng cao độ xác phát cơng thức tốn học dựa phương pháp kết hợp muộn phương pháp trích chọn đặc trưng thủ cơng mạng nơ ron tích chập Phương pháp đề xuất nâng cao độ xác phát cơng thức so với phương pháp trích chọn đặc trưng thủ cơng truyền thống Tuy vậy, độ xác phương pháp phụ thuộc độ xác q trình phân tích trang tài liệu Trong chương tiếp theo, phương pháp phát cơng thức tích hợp dựa mạng học sâu Faster R-CNN đề xuất để nâng cao độ xác phát cơng thức Các 13 kết phương pháp đề xuất công bố báo khoa học 1, 2, 3, 4, CHƯƠNG Phát công thức sử dụng biến đổi khoảng cách tối ưu mạng Faster R-CNN 3.1 Giới thiệu phương pháp phát công thức dựa biến đổi khoảng cách mạng Faster R-CNN Hình 3.1 Sơ đồ khối mô tả phát công thức dựa biến đổi khoảng cách mạng Faster R-CNN Chương trước trình bày phương pháp phát cơng thức tốn học tài liệu ảnh dựa hai bước chính: phân tích trang tài liệu kỹ thuật lai trích chọn đặc trưng thủ cơng mạng nơ ron tích chập Hiệu phương pháp phụ thuộc vào độ xác bước phân tích trang tài liệu Đối với tài liệu có cấu trúc phức tạp, phương pháp gặp nhiều lỗi phát công thức Để cải thiện độ xác phát cơng thức tài liệu có cấu trúc phức tạp, chương nghiên cứu đề xuất phương pháp phát cơng thức tích hợp dựa biến đổi khoảng cách (Distance Transform - DT) mạng nơ ron Faster R-CNN Biến đổi khoảng cách thực biến đổi từ ảnh tài liệu từ đen trắng sang ảnh màu Phương pháp biến đổi nhằm khai thác đặc tính khoảng cách kí tự cơng thức khác với khoảng cách kí tự văn thơng thường Sau đó, mạng Faster R-CNN thực phát cơng thức toán học ảnh thu sau biến đổi Mạng Faster R-CNN cho thấy hiệu phát xác so với mạng nơ ron khác Để nâng cao độ xác phát công thức mạng Faster R-CNN, luận án đề xuất chiến lược tối ưu thành phần mạng Faster R-CNN Hình 3.1 mơ tả bước phát cơng thức dựa biến đổi khoảng cách mạng Faster R-CNN Chi tiết bước tiếp tục mô tả phần chương 14 3.2 3.2.1 Phát công thức dựa biến đổi khoảng cách mạng Faster R-CNN Biến đổi ảnh dựa khoảng cách Ảnh tài liệu thường ảnh đen trắng Mục tiêu biến đổi ảnh dựa khoảng cách [14] biến đổi ảnh đen trắng thành ảnh xám Sau đó, kênh màu xám ghép lại để biến đổi từ ảnh xám thành ảnh màu RGB Phép chuyển đổi ảnh làm bật thông tin cơng thức tốn học Hơn nữa, mạng Faster R-CNN thiết kế để phát đối tượng ảnh màu, đó, chuyển đổi ảnh từ đen trắng sang ảnh màu giúp mạng Faster R-CNN phát cơng thức xác Với ảnh tài liệu có kích thước m × n, độ phức tạp thuật toán biến đổi ảnh dựa khoảng cách O(m × n) (a) Ví dụ chuyển đổi ảnh đen trắng sang ảnh RGB dựa độ đo Euclidean (b) Ví dụ chuyển đổi ảnh đen trắng sang ảnh RGB dựa độ đo City block Hình 3.2 Ví dụ ảnh thu sau áp dụng DT với độ đo Euclidean (a) độ đo City block (b) Kích thước ảnh hiển thị trục tọa độ x y Tỉ lệ màu ảnh thể biểu đồ màu sắc 3.2.2 Cấu trúc mạng Faster R-CNN phát công thức Sau ảnh chuyển đổi sang ảnh màu RBG, công thức phát cách tích hợp nhờ mạng nơ ron Faster R-CNN Cấu trúc mạng Faster R-CNN gồm hai mạng chính: mạng RPN (Region proposal network) mạng FCN (Fully connected detection network) Phần mô tả bước cài đặt, cấu hình tinh chỉnh mạng Faster R-CNN để phát cơng thức 15 Hình 3.3 Mơ hình cấu trúc mạng Faster R-CNN gồm hai mạng RPN FCN 3.2.2.1 Cấu hình mạng RPN Mạng RPN sử dụng để sinh vùng ứng cử viên cho công thức Đầu vào mạng RPN bảng kích thước n × n gồm đặc trưng ảnh Với vùng bảng đặc trưng, k vùng đề xuất trình phát đối tượng Cấu hình mặc định mạng RPN thiết lập với k=9 Luận án thực chuẩn hóa kích thước ảnh tài liệu đầu vào thống kê kích thước cơng thức ảnh Số lượng kích thước vùng đề xuất cho độ bao phủ vùng với cơng thức tối ưu Từ đó, mạng RPN tinh chỉnh để phát xác cơng thức ảnh tài liệu Kết cho thấy tham số k=15 k=12 xác định để tối ưu mạng RPN phát công thức độc lập công thức nội tuyến 3.2.2.2 Cấu trúc mạng FCN Các vùng đề xuất nhờ mạng RPN sau đưa vào mạng FCN để xác định xác vị trí cơng thức tốn học Mạng FCN sử dụng lớp softmax để phân loại công thức lớp Box Regression để tinh chỉnh vị trí cơng thức Trong luận án này, mạng Faster R-CNN phát triển dựa mạng Resnet-50 với 177 lớp Tỉ lệ học thiết lập với giá trị 0.001 giá trị max epochs trình huấn luyện thiết lập 10 Các giá trị kiểm tra thiết lập để mạng Faster R-CNN phát xác cơng thức 3.3 Kết thực nghiệm Bảng 3.1 So sánh hiệu phương pháp đề xuất phát công thức độc lập phương pháp khác sở liệu Marmot (Chỉ số cao in đậm) Phương pháp [12] FFT (chương 2) Kết hợp (chương 2) Phát Đúng 26.87% 31.02% 51.34% PH phần 44.89% 42.32% 39.84% Mơ hình đề xuất 84.80% 8.10% Phương pháp Tổng 71.76% 73.34% 91.18% Sai PH thiếu 9.89% 9.04% 3.14% Sai 18.35% 17.62% 5.68% Tổng 28.24% 26.66% 8.82% 92.90% 2.27% 4.83% 7.10% Kết so sánh phương pháp đề xuất phát công thức độc lập công thức nội tuyến phương pháp có sở liệu Marmot mô tả bảng 3.1 3.2 Kết so sánh sở liệu GTDB mô tả bảng 3.3 3.4 So 16 Bảng 3.2 So sánh hiệu phương pháp đề xuất phát công thức nội tuyến phương pháp khác sở liệu Marmot (Chỉ số cao in đậm) Phương pháp [12] Phép chiếu (chương 2) Kết hợp (chương 2) Phát Đúng 1.74% 11.05% 22.90% PH phần 28.87% 41.40% 58.45% Mơ hình đề xuất 75.95% 9.95% Phương pháp Tổng 30.61% 52.45% 81.35% Lỗi PH thiếu 9.93% 8.36% 5.40% Sai 59.46% 39.19% 13.25% Tổng 69.39% 47.55% 18.65% 85.90% 6.25% 8.20% 14.10% Bảng 3.3 So sánh hiệu phương pháp đề xuất phát công thức độc lập phương pháp khác sở liệu GTDB (Chỉ số cao in đậm) Phương pháp [12] FFT (chương 2) Kết hợp (chương 2) Phát Đúng 26.22% 30.86% 50.37% PH phần 44.87% 42.12% 39.14% Mơ hình đề xuất 83.79% 7.25% Phương pháp Tổng 71.09% 72.98% 89.51% Lỗi PH thiếu 9.91% 9.25% 3.16% Sai 19.00% 17.77% 7.33% Total 28.91% 27.02% 10.49% 91.04% 2.15% 6.81% 8.96% Bảng 3.4 So sánh hiệu phương pháp đề xuất phát công thức nội tuyến phương pháp khác sở liệu GTDB (Chỉ số cao in đậm) Phương pháp [12] Phép chiếu (chương 2) Kết hợp (chương 2) Phát Đúng 1.56% 10.48% 22.76% PH phần 28.67% 41.36% 57.44% Tổng 30.23% 51.84% 80.20% Lỗi PH thiếu 9.97% 8.26% 5.46% Sai 59.80% 39.90% 14.34% Total 69.77% 48.16% 19.80% Mơ hình đề xuất 75.20% 9.95% 85.15% 6.15% 8.70% 14.85% Phương pháp với phương pháp phát công thức dựa nhiều bước, phương pháp phát tích hợp cho độ xác cao kết phương pháp khơng phụ thuộc vào độ xác kỹ thuật phân tích trang tài liệu So với phương pháp phát sử dụng mạng Yolov3 SSD-512, phương pháp đề xuất cho kết tốt nhờ áp dụng phương pháp xử lý ảnh dựa khoảng cách tối ưu mạng Faster R-CNN Kết so sánh thể bảng 3.5 Bảng 3.5 So sánh hiệu phát công thức phương pháp đề xuất phương pháp khác sở liệu GTDB Phương pháp Đồ thị + nhận dạng [10] Sử dụng mạng SSD512 Sử dụng mạng Yolov3 Hệ thống Michiking [22] Mơ hình đề xuất Phát IoU ≥ 0.5 94.36% 83.14% 74.4% 36.87% 83.79% 17 Phát IoU ≥ 0.75 94.17% 75.29% 63.20% 19.10% 77.20% Hình 3.4 Ví dụ phát cơng thức sở liệu GTDB Công thức phát mô tả sở liệu biểu diễn màu xanh màu đỏ 3.4 Tiểu kết chương Chương trình bày phương pháp phát cơng thức tích hợp dựa biến đổi khoảng cách mạng Faster R-CNN So với phương pháp phát nhiều bước mơ tả chương 2, phương pháp tích hợp cho kết phát cao Kết phương pháp đề xuất công bố báo số CHƯƠNG Hệ thống phát nhận dạng công thức tài liệu ảnh 4.1 Tổng quan hệ thống Hình 4.1 Sơ đồ khối hệ thống phát nhận dạng cơng thức tốn học Trước đây, nghiên cứu có tập trung vào nhận dạng công thức phân vùng thủ công công thức ảnh chụp Chương giới thiệu hệ thống phát nhận dạng cơng thức tốn học tài liệu ảnh cho người sử dụng cuối Hệ thống phát triển gồm hai thành phần Phần thứ nhất, công thức phát tự động dựa mơ hình mạng Faster R-CNN đề xuất chương Sau đó, cơng thức phát nhận dạng nhờ mạng học sâu theo kiến trúc Encoder-Decoder, mạng WAP Đây kiến trúc mạng 18 có hiệu nhận dạng tốt công thức viết tay Luận án áp dụng phương pháp học chuyển giao để áp dụng tối ưu mạng cho nhận dạng công thức in So với phương pháp truyền thống thực nhận dạng công thức dựa kỹ thuật phân vùng, nhận dạng, phân tích cấu trúc kí tự tốn học, việc áp dụng mạng học sâu WAP cho độ xác cao hơn, tiết kiệm thời gian cơng sức Hình 4.1 mơ tả chi tiết hai thành phần hệ thống phát nhận dạng công thức 4.2 Nhận dạng cơng thức tốn học dựa mạng WAP Cấu trúc mạng WAP cho nhận dạng công thức gồm hai thành phần chính: thành phần Watcher trích chọn đặc trưng ảnh công thức thực nhờ mạng nơ ron tích chập FCN thành phần Parser phân tích, chuyển đổi từ vectơ đặc trưng thu thành dạng chuỗi thực mạng GRU (Gated Recurrent Unit) Kiến trúc mạng WAP minh họa hình 4.2 4.2.1 Thành phần trích chọn đặc trưng cơng thức (Watcher) Để thực chức trích chọn đặc trưng tự động ảnh công thức, mô hình WAP áp dụng mạng nơ ron tích chập FCN Với ảnh công thức đầu vào, mạng FCN tự động trích chọn đặc trưng biểu diễn vectơ đặc trưng Trong luận án này, ảnh công thức đầu vào ảnh xám chuẩn hóa kích thước để hệ thống xử lý ảnh cơng thức đa dạng, khác Hình 4.2 Kiến trúc mạng WAP 4.2.2 Thành phần phân tích, giải mã cơng thức (Parser) Sau trích chọn đặc trưng tự động nhờ thành phần Watcher, mạng WAP phân tích giải mã vectơ đặc trưng để thu chuỗi kí tự biểu diễn cơng thức tốn học định dạng Latex Để thực nhiệm vụ này, mạng GRU cải tiến mạng hồi quy nghiên cứu áp dụng Chức mạng GRU để biên dịch vị trí cơng thức thành kí tự ghép kí tự thu thành chuỗi Latex biểu diễn cơng thức Ngồi ra, cơng thức tốn học gồm hàng trăm kí tự biểu diễn dạng không gian hai chiều, để phân tích giải mã cơng thức tốt hơn, chế attention áp dụng cho thành phần Parser Cơ chế giúp mạng WAP tập trung cao vào số thành phần công thức tốn học Bên cạnh đó, thành phần Parser sử dụng coverage vectơ để đảm bảo công thức nhận dạng hồn tồn Trong q trình huấn luyện mạng WAP, tập từ vựng gồm 110 kí tự tốn học chuẩn bị thủ cơng Ngồi ra, tập hợp ảnh công thức mã Latex tương ứng công thức chuẩn bị thủ công cho huấn luyện mạng 19 Bảng 4.1 Đánh giá hiệu hệ thống phát nhận dạng công thức sở liệu Marmot Phương pháp Nhận dạng công thức (phân vùng thủ công) Nhận dạng công thức (phân vùng tự động) WER 51.28% 51.95% ExpRate 51.77% 45.50% Hình 4.3 So sánh hiệu nhận dạng cơng thức tốn học hệ thống khác 4.3 Kết thực nghiệm Hình 4.4 Ví dụ phát nhận dạng cơng thức trang tài liệu Hệ thống phát nhận dạng áp dụng huấn luyện thử nghiệm sở liệu Marmot Bảng 4.1 hiển thị kết nhận dạng cho cơng thức tốn học phân vùng tự động phân vùng thủ công sở liệu Marmot Hệ thống nhận dạng áp dụng cho công thức phân vùng thủ công chuẩn bị sẵn sở liệu Marmot công thức phân vùng tự động thực nhờ mạng Faster R-CNN chương So với công thức phân vùng thủ công, hệ thống tự động phân vùng phát công thức cho kết thấp kết phát sai ảnh hưởng tới kết nhận dạng Để đánh giá hiệu hệ thống, độ xác phát nhận dạng công 20 thức hệ thống đề xuất so sánh với hệ thống phổ biến như: Tesseract v4, Infty Reader v 3.2 Mathpix Hình 4.3 cho thấy độ xác hệ thống đề xuất cải tiến nhiều so với hệ thống có Tesseract v4, Infty Reader v 3.2 Mathpix phần mềm thương mại, thường xuyên huấn luyện với liệu công thức lớn, độ xác nhận dạng Mathpix tốt hệ thống thử nghiệm Hình 4.4 mơ tả ví dụ minh họa nhận dạng phát công thức trang tài liệu Với công thức ngắn, hệ thống cho kết nhận dạng cao Với công thức dài chứa nhiều kí tự, hệ thống cho kết nhận dạng chưa xác Nguyên nhân kết nhận dạng sai q trình phát chưa xác kí tự số kí tự khơng có liệu huấn luyện 4.4 Tiểu kết chương Chương trình bày hệ thống phát nhận dạng cơng thức tốn học dựa mạng học sâu Faster R-CNN WAP So với hệ thống truyền thống có, hệ thống đề xuất cho kết nhận dạng cao đáng kể Tuy vậy, tập cơng thức huấn luyện cịn hạn chế nên hiệu hệ thống cần tiếp tục cải tiến tương lai Kết chương trình bày cơng bố Kết luận hướng phát triển Kết luận Luận án nghiên cứu đề xuất giải pháp nâng cao độ xác phát nhận dạng cơng thức tốn học tài liệu ảnh Cụ thể, đóng góp luận án sau: (1) Luận án đề xuất phương pháp nâng cao độ xác phát công thức dựa kỹ thuật kết hợp muộn phương pháp trích chọn đặc trưng thủ cơng mạng nơ ron tích chập đại So với phương pháp trích chọn đặc trưng truyền thống, phương pháp đề xuất giúp cải thiện độ xác phát công thức (2) Để tiếp tục nâng cao độ xác phát cơng thức tài liệu có cấu trúc phức tạp, luận án đề xuất phương pháp phát dựa phép biến đổi ảnh dựa khoảng cách tối ưu mạng Faster R-CNN Việc biến đổi ảnh dựa khoảng cách nhằm làm bật khác hiển thị công thức so với văn thơng thường Bên cạnh đó, mạng Faster R-CNN tối ưu nhằm phát công thức xác (3) Sau nâng cao độ xác phát cơng thức, luận án phát triển hệ thống phát nhận dạng công thức tốn học Trong hệ thống này, cơng thức sau phát nhận dạng dựa vào mạng Encoder-Decoder Với cấu trúc mạng học sâu đại, tích hợp khả xử lý ảnh xử lý chuỗi, cơng thức phát nhận dạng xác so với phương pháp nhận dạng truyền thống 21 Hướng phát triển Trong thời gian tới, luận án tiếp tục nghiên cứu phát triển hoàn thiện sau: (1) Áp dụng tối ưu mạng học sâu nhằm nâng cao độ xác phát nhận dạng công thức (2) Nghiên cứu áp dụng kỹ thuật tiền xử lý ảnh, cho phép phương pháp đề xuất áp dụng với nhiều ảnh tài liệu đa dạng ảnh nghiêng, ảnh cong (3) Mở rộng phạm vi, số lượng công thức phát nhận dạng nhằm hỗ trợ người dùng ứng dụng thực tế có sử dụng thơng tin cơng thức toán học tài liệu ảnh thuận tiện 22 Tài liệu tham khảo [1] D.F.Chan and D.Yeung (2000) Mathematical expression recognition: A survey International Journal on Document Analysis and Recognition, 3.1, pp 3–15 [2] Muno F.A (2015) Mathematical expression recognition based on probabilistic grammar PhD Thesis, Technical University of Valencia, Spain [3] J.Wu et al (2019) Image-to-markup generation via paired adversarial learning Machine Learning and Knowledge Discovery in Databases, pp 18–34 doi:10.1007/978-3030-10925-7_2 [4] L.Lamport (1994) Latex: A document preparation system Addison-Wesley Professional, 2nd Edition [5] Redden J (2011) Elementary algebra textbook Saylor Foundation [6] Fateman R (December 1997) How to find mathematics on a scanned page Proceedings of SPIE - The International Society for Optical Engineering doi:10.1117/12.373482 [7] Young I.T et al (1995) Fundamentals of image processing Delft University of Technology [8] Papandreou A and Gatos B (2011) A novel skew detection technique on vertical projections International Conference on Document Analysis and Recognition [9] Zanibbi R and Blostein D (2012) Recognition and retrieval of mathematical expressions International Journal on Document Analysis and Recognition, 15.4, pp 331–357 [10] Degtyarenko I., Radyvonenko O., Bokhan K., and Khomenko V (2016) Text/shape classifier for mobile applications with handwriting input International Journal on Document Analysis and Recognition, 19.4, pp 369–379 [11] Lin X., Gao L., Tang Z., Lin X., and Hu X (March 2012) Performance evaluation of mathematical formula identification International Workshop on Document Analysis Systems doi:10.1109/das.2012.68 [12] Chu W and Liu F (2013) Mathematical formula detection in heterogeneous document images Proceeding of the International Conference on Technologies and Applications of Artificial Intelligence [13] Garain U (2009) Identification of mathematical expressions in document images International Conference on Document Document Analysis and Recognition [14] Xu D and Li H (2006) Euclidean distance transform of digital images in arbitrary dimensions Advances in Multimedia Information Processing - PCM 2006, pp 72–79 [15] Tran T.A., Na I.S., and Kim S.H (2016) Page segmentation using minimum homogeneity algorithm and adaptive mathematical morphology International Journal on Document Analysis and Recognition, 19.3, p 191–209 [16] Chen K et al (2017) Convolutional neural networks for page segmentation of historical document images International Conference on Document Analysis and Recognition [17] Oliveira S et al (2018) A generic deep-learning approach for document segmentation International Conference on Frontiers in Handwriting Recognition 23 [18] Lee H and Wang J (1997) Design of a mathematical expression understanding system Pattern Recognition Letters, 18.3, pp 289–298 [19] J.Toumit et al (1999) A hierarchical and recursive model of mathematical expressions for automatic reading of mathematical documents Proceedings of the Fifth International Conference on Document Analysis and Recognition September 1999 [20] Kacem A et al (2001) Automatic extraction of printed mathematical formulas using fuzzy logic and propagation of context International Journal on Document Analysis and Recognition, 4.2, pp 97–108 [21] Ohyama W et al (2019) Detecting mathematical expressions in scientific document images using a u-net trained on a diverse datase IEEE Access, 7, pp 144030 – 144042 [22] Mahdavi M et al (2019) Icdar 2019 crohme + tfd: Competition on recognition of handwritten mathematical expressions and typeset formula detection International Conference on Document Analysis and Recognition doi:10.1109/icdar.2019.00247 [23] Yamazaki S et al (2011) Embedding a mathematical ocr module into ocropus International Conference on Document Analysis and Recognition [24] He W et al (2016) Context-aware mathematical expression recognition: An end-to-end framework and a benchmark International Conference on Pattern Recognition (ICPR), pp 3246–3251 [25] J.Zhang et al (2017) Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition Pattern Recognition, 71, pp 196–206 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN [1] Bui Hai Phong, Thang Manh Hoang, Thi-Lan Le (2017), A new method for displayed mathematical expression detection based on FFT and SVM, 4th NAFOSTED Conference on Information and Computer Science (NICS), IEEE, Hanoi, Vietnam, ISBN: 978-1-53863210-9, DOI: 10.1109/NAFOSTED.2017.8108044, pp.90-96, 2017 [2] Bui Hai Phong, Thang Manh Hoang, Thi-Lan Le and Akkiko Aizawa (2019), Mathematical variable detection in PDF scientific documents, 11th Asian conference on intelligent information and database systems (ACIIDS), Springer, Cham, Indonesia, DOI: https://doi.org/10.1007/978-3-030-14802-7-60, ISBN: 978-3-030-14802-7, 2019 [3] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2019), Mathematical variable detection based on CNN and SVM, 2nd International Conference on Multimedia Analysis and Pattern Recognition (MAPR), ISBN: 978-1-7281-1829-1, DOI: 10.1109/MAPR.2019.8743543, pp 1-5, 2019 [4] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2019), A unified system for for mathematical expression detection in scientific document images , Korea-Vietnam International Joint Workshop on Communications and Information Sciences (KICS), ISBN: 97889-950043-7-1[93560], Hanoi, Viet Nam, pp.14-16, 2019 [5] Bui Hai Phong, Luong Tan Dat, Nguyen Thi Yen, Thang Manh Hoang and ThiLan Le (2020), A deep learning based system for mathematical expression detection and recognition in scientific document images, The 12th IEEE International Conference on Knowledge and Systems Engineering (KSE), ISBN:978-1-7281-3003-3, pp.85-90, 2020, DOI:10.1109/KSE.2019.8919461 [6] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2020), A hybrid method for mathematical expression detection in scientific document images, IEEE Access, vol 8, pp.83663 - 83684, 2020, ISSN: 2169-3536 (Print) 2169-3536 (Online), DOI: 10.1109/ACCESS.2020.2992067 (ISI, Q1, IF=4.098) [7] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2021), Mathematical variable detection in in scientific document images, International Journal of Computational Vision and Robotics, Vol 11, No 1, pp.66-89, 2021, ISSN online: 1752-914X, ISSN print: 1752-9131, DOI:10.1504/IJCVR.2021.111876 (SCOPUS) [8] Bui Hai Phong, Thang Manh Hoang and Thi-Lan Le (2021), An end-to-end framework for the detection of mathematical expressions in scientific document images, Expert Systems, Online ISSN:1468-0394, DOI: 10.1111/exsy.12800 (ISI, Q2, IF=2.587) ... trình kết hợp muộn phát công thức 2.6 Kỹ thuật hậu xử lý phát công thức Trong phát công thức, số công thức lớn thường bị tách thành nhiều dịng Do đó, nhằm nâng cao độ xác phát công thức, luận án áp... trưng thủ công phương pháp sử dụng mạng học sâu 1.2.1 Phát công thức dựa luật Trong nghiên cứu phát công thức tài liệu ảnh, luật đưa để phát công thức [6, 18] Các luật đưa dựa khác hình thái học, ... luận án nghiên cứu phương pháp nâng cao độ xác phát nhận dạng cơng thức tốn học tài liệu định dạng ảnh Giới thiệu toán phát nhận dạng cơng thức tốn học tài liệu định dạng ảnh Cơng thức tốn học sử