TRƯƠNG HOÀNG VINHHọcviênthực hiện: NGUYỄN VĂN BÂY Lớp: MCOM021ANgày sinh: 09/10/1999 Nơi sinh: Phú Quốc -KiênGiang Trang 5 LỜI CAM ĐOANTôi cam đoan rằng Đồ án "Kết hợp Học sâu và Xử lý
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
TP HỒ CHÍ MINH, NĂM 2023
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
TP HỒ CHÍ MINH, NĂM 2023
Trang 3Tôi tên là: NGUYỄN VĂN BẢY
Ngày sinh: 09/10/1999 Nơi sinh: Phú Quốc – Kiên Giang Chuyên ngành: Khoa học máy tính Mã học viên: 2184801011008
Tôi đồng ý cung cấp toàn văn thông tin đồ án tốt nghiệp hợp lệ về bản quyền cho Thư viện Trường Đại học Mở Thành phố Hồ Chí Minh Thư viện Trường Đại học Mở Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin đồ án tốt nghiệp vào hệ thống thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh
Ký tên
(Ghi rõ họ và tên)
_
Trang 4CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Ý KIÉN CHO PHÉP BẢO VỆ ĐỀ ÁN THẠC sĩ
Giảng viên hướng dẫn: TS TRƯƠNG HOÀNG VINH
Học viên thực hiện: NGUYỄN VĂN BÂY Lớp: MCOM021 A
Ngày sinh: 09/10/1999 Nơi sinh: Phú Quốc - Kiên Giang
Tên đề tài: Ket họp Học sâu và Xử lý ảnh trong trích xuất công thức toán học từ ảnh chụp điện thoại
Ý kiến của giáo viên hướng dẫn về việc cho phép học viên được bảo vệ đề án trước Hội đồng:
Thành phổ Hồ Chí Minh, ngày lĩ thảngM nám 20ỉC>
Nguôi nhận xét
TS Truong Hoàng Vinh
Trang 5LỜI CAM ĐOAN
Tôi cam đoan rằng Đồ án "Kết hợp Học sâu và Xử lý ảnh trong trích xuấtcông thức toán học từ ảnh chụp điện thoại" là bài nghiên cứu của chính tôi.Ngoại trừ những tài liệu tham khảo được trích dẫn trong đồ án này, tôicam đoan rằng toàn phần hay những phần nhỏ của đồ án này chưa từng được
sử dụng để nhận bằng thạc sĩ ở những nơi khác Không có sản phẩm/nghiêncứu nào của người khác được sử dụng trong đồ án này mà không được tríchdẫn theo đúng quy định
Đồ án này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại cáctrường đại học hoặc cơ sở đào tạo khác
Thành phố Hồ Chí Minh, năm 2023
Nguyễn Văn Bảy
Trang 6LỜI CẢM ƠN
Để bài nghiên cứu này có thể đạt được những kết quả nhất định, đó là sự
nỗ lực của không chỉ bản thân tôi mà còn có sự đóng góp, hỗ trợ, vận độngcủa gia đình, Thầy Cô, các đồng nghiệp và các bạn bè
Em xin được gửi lời cảm ơn chân thành nhất đến Tiến sĩ Trương HoàngVinh, là người đã dẫn dắt em trong suốt chặng đường nghiên cứu và cả trongcông việc từ khi còn là sinh viên Đại học Em cũng muốn gửi lời xin lỗi đếnThầy vì những kỳ vọng Thầy đặt ra cho cá nhân em, nhưng vì nhiều lý dokhách quan nên em không thể hoàn thành được một cách trọn vẹn
Em xin gửi lời cảm ơn đến các Thầy Cô ở Khoa Công nghệ thông tin nóichung và các Thầy Cô ở Văn phòng Khoa nói riêng cũng đã thúc giục và tạothêm nhiều động lực để em không rời bỏ mục tiêu ban đầu Cảm ơn các anhtrong tập thể lớp MCOM021A đã cùng nhau gắn bó trong 2 năm học vừaqua
Xin được cảm ơn gia đình, cảm ơn mẹ, chị, các anh trai đã luôn ủng hộ vàgóp sức cả về vật chất lẫn tinh thần cho đứa em nhỏ được tự do bước trêncon đường mình đã chọn, dù những kết quả có ra sao đi chăng nữa
Trang 7TÓM TẮT
Đồ án “Kết hợp Học sâu và Xử lý ảnh trong trích xuất công thức toán học
từ ảnh chụp điện thoại” tập trung phát triển giải pháp hiệu quả bằng việckết hợp những phương pháp xử lý ảnh tiên tiến với mô hình học sâu để tựđộng trích xuất chính xác các công thức toán học cho các ảnh chụp từ thiết
bị di động hoặc từ các tài liệu văn bản với độ nhiễu nền đa dạng
Đối với mục tiêu này, đồ án đã tiến hành mô phỏng toàn bộ quá trình triểnkhai bằng cách sử dụng một bộ dữ liệu tự tạo đa dạng, bao gồm hơn 2600ảnh chứa các công thức toán học được gắn nhãn LaTeX chính xác, với nhiềudạng biểu thức và ký hiệu toán học cơ bản, được viết trên nhiều bề mặt khácnhau
Trong giai đoạn tiền xử lý, hình ảnh được chuẩn hóa thông qua quá trìnhchuyển đổi sang ảnh đen trắng, loại bỏ nền và điều chỉnh kích thước ảnh đểtối ưu hóa việc trích xuất nội dung Tiếp theo, thông qua việc thử nghiệmvới nhiều phương pháp và mô hình học máy khác nhau, đồ án đã quyết định
sử dụng mô hình TrOCR, sự kết hợp tinh tế giữa kỹ thuật Nhận dạng ký tựquang học (OCR) và khả năng mạnh mẽ của mô hình Transformer
Kết quả ghi nhận từ đồ án đã minh chứng cho tính hiệu quả và tiềm năngcủa việc kết hợp giữa mô hình Transformer và OCR trong việc trích xuấtcông thức toán học từ ảnh, mở ra triển vọng rộng lớn cho những nghiên cứu
Trang 8và phát triển tiếp theo, nhằm hoàn thiện và nâng cao hiệu suất, hỗ trợ ngườidùng trong việc soạn thảo và xử lý công thức toán học.
Trang 9The project "Combining Deep Learning and Image Processing in ing mathematical formulas from phone photos" focuses on developing an ef-ficient solution by integrating advanced image processing techniques withdeep learning models to automatically extract accurate mathematical for-mulas from images captured from mobile devices or textual documents withdiverse background noise
extract-To achieve this goal, the project simulated the entire deployment process
by using a diverse self-created dataset, including over 2600 images ing accurately labeled LaTeX mathematical formulas, with various forms ofexpressions and basic mathematical symbols, written on different surfaces.During the preprocessing stage, the images were normalized through theprocess of conversion to black and white images, background removal, andimage size adjustment to optimize content extraction Subsequently, throughexperimentation with various methods and different machine learning models,the project decided to utilize the TrOCR model, a sophisticated combination
contain-of OCR techniques and the robust capabilities contain-of the Transformer model.The results obtained from the project have demonstrated the effectivenessand potential of the combination between the Transformer model and OCR
in extracting mathematical formulas from images, opening up vast prospects
Trang 10for further research and development, aiming to enhance and improve usersupport performance in composing and processing mathematical formulas.
Trang 11MỤC LỤC
1.1 Giới thiệu 1
1.2 Thách thức của nhiệm vụ 2
1.3 Tình hình nghiên cứu 3
1.4 Mục tiêu chi tiết của đồ án 9
1.5 Đóng góp của đồ án 10
Trang 121.6 Cấu trúc của đồ án 12
1.7 Phương pháp 12
1.8 Kết luận 13
2 Cơ sở lý thuyết 15 2.1 Biểu thức toán học và mã LaTeX 15
2.2 Xử lý ảnh 17
2.3 Trích xuất đặc trưng 18
2.3.1 Bộ mô tả đặc trưng HOG 19
2.3.2 Đặc trưng SIFT 20
2.4 Phân lớp 20
2.5 Học sâu 22
2.6 Nhận dạng ký tự quang học - OCR 23
2.7 Kết luận 23
3 Phương pháp đề xuất và kết quả thực nghiệm 25 3.1 Giới thiệu bộ dữ liệu 25
3.1.1 Tiền xử lý hình ảnh 27
3.1.2 Chia dữ liệu và gắn nhãn 30
3.2 Phương pháp thực nghiệm 31
3.2.1 Kiến trúc TrOCR 32
3.2.2 Các mô hình trong dòng TrOCR 35
3.2.3 Suy luận sử dụng TrOCR và HuggingFace 35
3.2.4 Giới hạn và cải thiện hiệu suất của TrOCR 37
3.2.5 Các thông số trong quá trình huấn luyện 37
3.3 Kết quả thực nghiệm 39
3.3.1 Quá trình huấn luyện 39
3.3.2 Kết quả huấn luyện 40
Trang 134 Kết luận và hướng phát triển 484.1 Kết luận và hạn chế 484.2 Hướng phát triển 49
Trang 14DANH MỤC HÌNH VÀ ĐỒ THỊ
1.1 Mô phỏng hệ thống trích xuất ME từ hình ảnh 2
1.2 Một số hình ảnh ME để biểu thị 2D trên mặt phẳng 3
1.3 Kiến trúc bộ mã hóa - giải mã được đề xuất của mạng lưới thần kinh sâu [1] 5
1.4 Cấu trúc mô đun FCE [2] 6
1.5 Cấu trúc mô đun SMP [2] 6
1.6 SLT (trên cùng) và OPT (dưới cùng) biểu diễn cho (a + b)2 [3] 7 1.7 Cây phân tích 3-best solution cho biểu thức đầu vào x2 x 3 + ⃗x và các biểu thức liên quan đến việc diễn giải các 3-best solution này [4] 8
1.8 Một ví dụ về trích xuất ME từ ảnh chụp trên giấy 10
2.1 Cấu trúc điển hình của CNN 21
3.1 Một số hình ảnh được gắn nhãn chính xác trong bộ dữ liệu 26
3.2 Một số ví dụ về dữ liệu đầu vào qua bước tiền xử lý 27
3.3 Mô tả các bước tiền xử lý hình ảnh ME đầu vào 27
3.4 Kiến trúc TrOCR cho nhận dạng HME 33
3.5 Suy luận TrOCR trên văn bản viết tay 38 3.6 Một số HME trong tập dữ liệu 500 ảnh ME chưa qua tiền xử lý 41
Trang 153.7 Kết quả huấn luyện dữ liệu chưa qua tiền xử lý 423.8 Một số trường hợp nhận dạng chưa đúng HME đầu vào (1) 423.9 Một số trường hợp nhận dạng chưa đúng HME đầu vào (2) 423.10 Một số HME trong tập dữ liệu 300 ảnh ME đơn giản được gắn
nhãn chính xác 433.11 Kết quả huấn luyện với 300 ảnh HME đơn giản 443.12 Một số trường hợp nhận dạng chính xác cho huấn luyện lần 1
với 300 ảnh HME 453.13 Một số HME trong tập dữ liệu 2600+ ảnh HME phức tạp được
gắn nhãn chính xác 453.14 Kết quả huấn luyện với 2600+ ảnh HME phức tạp 463.15 Một số trường hợp nhận dạng chính xác cho huấn luyện với
2600+ ảnh HME phức tạp 47
Trang 16DANH MỤC KÝ HIỆU
p(rk) : xác suất cường độ sáng
rk, nk : số pixel cường độ
L = H ds : Chu vi ký tự P dựa trên đường bao
H, W, C : Height, Width, Chanel của ảnh
Z = f (W ∗ X + b) : hàm kích hoạt phi tuyến f
Trang 17DANH MỤC VIẾT TẮT
2D-PCFG : Two-Dimensional Probabilistic Context-Free Grammar
AI : Artificial Intelligence
CER : Character Error Rate
CROHME : Competition on Recognition of Online Handwritten MathematicalExpressions
CNN : Convolutional Neural Network
FCE : Feature Correlation Enhancement
GPU : Graphic Processing Unit
HOG : Histograms of Oriented Gradients
HME : Handwritten Mathematical Expression
ILSVRC : ImageNet Large Scale Visual Recognition Challenge
LBP : Local Binary Patterns
LOS : Line-of-sight
ME : Mathematical Expression
MI2LS : Math Image to LaTeX Sequence
MSR : Mathematical Symbol Recognition
OCR : Optical Character Recognition
Trang 18RGB : Hệ màu RGB (Red, Green, Blue)
RNN : Recurrent Neural Network
SIFT : Scale-Invariant Feature Transform
SLR : Systematic Literature Review
SMP : Strip Multi-scale Pooling
SURF : Speeded Up Robust Feature
SVM : Support Vector Machine
TrOCR : Transformer-based Optical Character Recognition
Trang 19về đồ án, nêu bật những thách thức, trình bày tình hình nghiên cứu, tiếp đónói đến mục tiêu cũng như những đóng góp của đồ án này đối với thực tiễn
và phần cuối sẽ nêu rõ bố cục của đồ án
Công nghệ thông tin và trí tuệ nhân tạo (AI) đang phát triển mạnh mẽ,đóng vai trò quan trọng trong cuộc cách mạng công nghiệp 4.0 Việc pháttriển các ứng dụng AI đã khai mở tiềm năng trong nhiều lĩnh vực khác nhau,đồng thời tạo ra những đột phá trong việc giải quyết các vấn đề phức tạp,
từ đó nâng cao hiệu suất làm việc của con người Một trong những ứng dụngtiềm năng của AI là trích xuất nội dung từ ảnh và ME cũng không ngoại lệ.Việc nhận dạng và trích xuất các thành phần của ME từ ảnh đòi hỏi sự kếthợp giữa các kỹ thuật XLA và mô hình học sâu
Trang 20Hình 1.1: Mô phỏng hệ thống trích xuất ME từ hình ảnh
Đồ án được tiến hành với mục tiêu nghiên cứu và phát triển mô hình họcsâu tiên tiến, kết hợp với việc sử dụng các kỹ thuật XLA để nhận dạng vàtrích xuất các thành phần của ME từ ảnh chụp điện thoại (Hình 1.1) Môhình này được thiết kế với kỳ vọng đạt được độ chính xác cao và khả năngứng dụng rộng rãi trong việc trích xuất ME từ các nguồn ảnh khác nhau.Ứng dụng của việc trích xuất ME từ ảnh chụp điện thoại là vô cùng đadạng và có tiềm năng trong giáo dục, nghiên cứu cũng như các thực tiễnkhác Với việc sử dụng công cụ này, giảng viên, sinh viên hay các nhà nghiêncứu có thể dễ dàng chia sẻ, sao chép và sử dụng các ME mà không cần phải
gõ lại từng ký tự Điều này giúp tiết kiệm thời gian và công sức, đồng thờigiảm thiểu sai sót do việc soạn thảo không đúng hoặc đọc sai các ký tự toánhọc
Việc trích xuất ME từ ảnh chụp điện thoại đặt ra nhiều thách thức về
độ chính xác và hiệu suất Dựa theo kết quả phân tích của nghiên cứu do
Trang 21Kukreja và Sakshi thực hiện [5], sự mơ hồ và cấu trúc hai chiều (2D) của các
ME luôn là một thách thức trong nhiệm vụ nhận dạng Song song đó, cácthách thức khác có thể bao gồm sự đa dạng về font chữ, kích thước, chiềusáng, nhiễu và các yếu tố khác trong ảnh đầu vào Đồ án này được thực hiệnnhằm giải quyết những thách thức đó bằng cách kết hợp các kỹ thuật XLAvới một mô hình học sâu tiên tiến một cách hiệu quả
Hình 1.2: Một số hình ảnh ME để biểu thị 2D trên mặt phẳng
Trên thế giới hiện nay đã có nhiều công trình nghiên cứu về chủ đề nhậndiện ME, các kỹ thuật được sử dụng ngày càng hiện đại và phát huy đượcthế mạnh riêng, tuy vậy vẫn chưa thực sự triệt để bởi độ chính xác có thểcao nhưng dữ liệu đầu vào chưa được đa dạng, bởi ME có nhiều yếu tố ảnhhưởng đến tiến trình xử lý trích xuất Phần này sẽ là tổng quan về một sốcông trình nghiên cứu gần đây về chủ đề đang nhắc đến
Kukreja và Sakshi [5] đã trình bày tổng quan tài liệu có hệ thống (SLR)
về các mô hình máy học để nhận dạng ký hiệu toán học (MSR) Đánh giáphân tích 52 nghiên cứu cho đến năm 2021, tập trung vào các kỹ thuật nhậndạng, chỉ số độ chính xác, phân đoạn, trích xuất đặc trưng và bộ dữ liệuđược sử dụng Kết quả cho thấy Support Vector Machine (SVM) là kỹ thuật
Trang 22chiếm ưu thế nhất, tiếp theo là K-Nearest Neighbor và Convolutional NeuralNetworks (CNN) Những thách thức được xác định bao gồm nhu cầu về các
mô hình biểu diễn hiệu quả hơn, thiếu các quy tắc rõ ràng để phân đoạn kýhiệu, không có bộ dữ liệu chuẩn và số liệu đo lường độ chính xác cũng nhưcác vấn đề không rõ ràng trong bước tiền xử lý
Nghiên cứu của Wang và Liu [1] đã đề xuất một mô hình mạng nơ-ron sâugọi là Math Image to LaTeX Sequence (MI2LS) để trích xuất các hình ảnh
ME thành chuỗi LaTeX (Hình 1.3) [6] Mô hình giải quyết ba vấn đề chính:
bổ sung mã hóa vị trí dạng sóng cho các bản đồ đặc trưng ảnh để hiểu rõhơn về mối quan hệ không gian, sử dụng hàm mục tiêu trình tự dựa trênBLEU-score để hiểu tốt hơn mối quan hệ giữa các ký tự trong chuỗi LaTeX
và loại bỏ vấn đề thiên hướng thông qua việc huấn luyện theo phản hồi vònglặp Mô hình bao gồm một bộ mã hóa CNN, một bộ giải mã RNN và một cơchế chú ý mềm Kết quả thực nghiệm trên tập dữ liệu IM2LATEX-100K [7]cho thấy mô hình đạt hiệu suất vượt trội với điểm BLEU-score, khoảng cáchchỉnh sửa ảnh, tỷ lệ khớp chính xác và tỷ lệ khớp chính xác không có khoảngtrắng Mô hình cũng cho thấy tính ổn định hơn khi xử lý các chuỗi LaTeXdài hơn Quá trình huấn luyện được thực hiện theo quy trình đầu cuối và
mô hình tự động học cách phân đoạn các ký tự, hướng quét và ngữ pháp màkhông cần nhãn tường minh Phương pháp được đề xuất đạt độ chính xáccao trong việc dịch hình ảnh ME thành chuỗi LaTeX
Liu và cộng sự [2] đề xuất mô hình sàng lọc ảnh ME dựa trên tăng cườngtương quan đặc trưng Mô hình này bao gồm mô-đun tăng cường tương quantính năng (FCE - Hình 1.4) để cải thiện mối tương quan của các đặc trưng
ME, mô-đun tổng hợp đa tỷ lệ dải (SMP - Hình 1.5) để xử lý các kích thướchình ảnh không đồng nhất và tập trung vào các đặc trưng công thức ngang
và loss-function được cải thiện để cân bằng bộ dữ liệu Kết quả thực nghiệm
Trang 23Hình 1.3: Kiến trúc bộ mã hóa - giải mã được đề xuất của mạng lưới thầnkinh sâu [1]
cho thấy độ chính xác của mô hình đề xuất là 89,50%, vượt trội so với các
mô hình hiện có bấy giờ Mô hình cho phép sàng lọc các hình ảnh chứa các
ME, có thể tăng tốc độ tạo cơ sở dữ liệu các hình ảnh ME Tuy nhiên, cónhững hạn chế trong trường hợp các phần công thức nhỏ hoặc được nhúng,dẫn đến lỗi phân loại Trong tương lai sẽ tập trung vào việc cải tiến mô hình
và mở rộng cơ sở dữ liệu hình ảnh ME để truy xuất và nhận dạng tốt hơn.Nghiên cứu của Mahdavi và cộng sự [3] đã trình bày mô hình để nhận dạnghình ảnh ME từ các thành phần hoặc ký hiệu được kết nối với nhau, từ đóxây dựng biểu đồ line-of-sight (LOS - Hình 1.6) Họ đã sử dụng mật độ hìnhảnh với kỹ thuật Random Forrest để phát triển ở bước đầu, sau đó chuyểnđổi mật độ này thành Convolutional Neural Network (CNN) với nhánh thứhai để nắm bắt ngữ cảnh cho mỗi hình ảnh đầu vào Cấu trúc công thứcđược trích xuất dưới dạng cây bao trùm có hướng, từ đồ thị LOS có trọng
số bằng cách sử dụng thuật toán Edmonds Kết quả thu được cho các côngthức không có ô kẻ hoặc ma trận trong bộ dữ liệu InftyCDB-2 là 90,89% từ
Trang 24Hình 1.4: Cấu trúc mô đun FCE [2]
Hình 1.5: Cấu trúc mô đun SMP [2]
các thành phần, 93,5% từ các ký hiệu Khi sử dụng các công cụ từ cuộc thinhận dạng công thức viết tay CROHME [8], nghiên cứu này có thể biên dịchtất cả các lỗi nhận dạng ký hiệu và cấu trúc để phục vụ cho việc phân tích.Trong bài báo [4], Noya và cộng sự đã trình bày một đề xuất để tạo ra siêu
đồ thị từ việc phân tích n-best của ngữ pháp phi ngữ cảnh xác suất 2 chiều
Trang 25Hình 1.6: SLT (trên cùng) và OPT (dưới cùng) biểu diễn cho (a + b)2 [3]
(2D-PCFG) cho việc nhận dạng ME (Hình 1.7) Siêu đồ thị là một giao diệnhiệu quả giữa việc nhận dạng ME với hệ thống lập chỉ mục và tìm kiếm các
ME Cụ thể, bài báo đề xuất một thuật toán để tính toán các cây phân tích
cú pháp tốt nhất từ 2D-PCFG, một thuật toán để biểu diễn các cây phântích cú pháp tốt nhất bằng một biểu diễn gọn gàng dưới dạng siêu đồ thị,
và một khung công cụ hình thức để phát triển các thuật toán suy luận (bêntrong và bên ngoài) cùng các chiến lược chuẩn hóa siêu đồ thị Ngoài ra, một
số thí nghiệm sơ bộ đã được báo cáo để kiểm tra hiệu suất của các thuật toán
đề xuất Trong tương lai, họ có kế hoạch áp dụng kết quả này vào các vấn đềlập chỉ mục và tìm kiếm các ME trong các bộ sưu tập lớn của hình ảnh sốhóa
Tiếp nối trong bài báo [9], Noya và cộng sự tiếp tục sử dụng thuật toánhọc phân biệt để ước tính một 2D-PCFG để nhận dạng và truy xuất các ME.Thuật toán sử dụng tiêu chí H làm hàm mục tiêu và các phép biến đổi tăngtrưởng làm phương pháp tối ưu hóa Các kết quả thử nghiệm được trình bàybằng hai bộ dữ liệu: IM2LATEX và IBEM [10] Kết quả cho thấy thuật toán
đề xuất vượt trội so với phương pháp ước lượng dựa trên Viterbi cổ điểntrong nhận dạng ME Độ chính xác của mô hình giảm đối với các biểu thứcdài hơn, nhưng nó vượt trội trong việc tạo ra nhiều giả thuyết và phân tách
Trang 26Hình 1.7: Cây phân tích 3-best solution cho biểu thức đầu vào x2
x 3+ ⃗x và cácbiểu thức liên quan đến việc diễn giải các 3-best solution này [4]
các biểu thức lớn thành các biểu thức con chính xác Bài báo đề xuất cáchướng nghiên cứu trong tương lai về lập chỉ mục xác suất để tìm kiếm các
ME và nêu bật tiềm năng của mô hình trong các bộ sưu tập tài liệu khoa họcđược số hóa Các kết quả chứng minh tính hiệu quả của thuật toán được đềxuất và hiệu suất so sánh của nó với các mô hình khác trong nhận dạng ME.Công trình nghiên cứu về nhận diện ME đang có nhiều bước tiến quantrọng, sử dụng các kỹ thuật hiện đại như Support Vector Machine (SVM),K-Nearest Neighbor, và Convolutional Neural Networks (CNN) Tuy nhiên,vẫn còn nhiều thách thức như cần mô hình biểu diễn tốt hơn, quy tắc phânđoạn ký hiệu chưa rõ ràng, thiếu dữ liệu chuẩn và số liệu đo lường chính xác.Các nghiên cứu gần đây đã đề xuất các mô hình như MI2LS (Math Image toLaTeX Sequence), mô hình sàng lọc ảnh ME dựa trên tăng cường tương quanđặc trưng, mô hình nhận dạng ME thông qua biểu đồ line-of-sight (LOS),
và mô hình tạo siêu đồ thị từ ngữ pháp phi ngữ cảnh xác suất 2 chiều PCFG) Các mô hình này đã đạt hiệu suất tốt trong việc nhận dạng và tríchxuất các ME, tuy vậy vẫn cần cải thiện và mở rộng cơ sở dữ liệu hình ảnh
Trang 27(2D-ME Các phương pháp và kết quả nghiên cứu này chứng tỏ tính hiệu quả
và tiềm năng của các mô hình trong việc nhận dạng và truy xuất ME trongtương lai
Đồ án "Kết hợp Học sâu và XLA trong trích xuất ME từ ảnh chụp điệnthoại" nhằm mục đích xây dựng một mô hình có khả năng trích xuất các ME
từ ảnh chụp mà người dùng cung cấp Để đạt được mục tiêu này, đồ án tậptrung vào các nhiệm vụ chính sau:
Thứ nhất, nghiên cứu và vận dụng các kỹ thuật XLA tiên tiến để cải thiệnchất lượng hình ảnh đầu vào, loại bỏ nhiễu, chuẩn hóa kích thước và độ sángcủa ảnh nhằm tối ưu hóa khâu trích xuất thông tin Các phương pháp XLAnhư lọc nhiễu, làm mờ, quét ngưỡng, phân đoạn ảnh được nghiên cứu vàlựa chọn để sử dụng trong đồ án này
Thứ hai, huấn luyện các mô hình máy học sâu để nhận dạng và trích xuất
ME từ ảnh đã qua xử lý Các mạng nơ-ron như CNN, RNN được sử dụng kếthợp để học các đặc trưng của ký hiệu toán học và dự đoán chính xác chúng.Việc huấn luyện sử dụng tập dữ liệu lớn các công thức với nhãn chính xác.Thứ ba, xây dựng chức năng cơ bản để chụp/tải ảnh lên, trích xuất côngthức, hiển thị kết quả công thức dạng LaTeX trên màn hình
Thứ tư, khi mô hình đạt được kết quả nhất định, sẽ tiến hành tích hợp hệthống và hoàn thiện sản phẩm ứng dụng thử nghiệm ban đầu có khả năngtrích xuất được một số loại công thức cơ bản Quá trình tích hợp và thửnghiệm giúp hoàn thiện dần sản phẩm đến mức độ ổn định và chính xác cao.Phạm vi nghiên cứu của đồ án tập trung vào xây dựng mô hình trích xuất
ME từ các ảnh chụp ME vẽ tay trên giấy bằng điện thoại, cùng các ảnh ME
Trang 28vẽ tay trực tuyến trên thiết bị di động Các loại công thức được xem xét baogồm các phép tính cơ bản ở cấp tiểu học và trung học cơ sở, bao gồm các số
tự nhiên, các biến chữ thường gặp, các biểu thức tính toán cơ bản cũng như
so sánh, lũy thừa và biểu thức chứa căn Kết quả mong đợi là một mô hình
có chức năng trích xuất, chuyển đổi ME chính xác và hiệu quả
Hình 1.8: Một ví dụ về trích xuất ME từ ảnh chụp trên giấy
Đề tài "Kết hợp Học sâu và XLA trong trích xuất ME từ ảnh chụp điệnthoại" là một nỗ lực tích cực để ứng dụng XLA và học sâu vào lĩnh vực giáodục và nghiên cứu Dưới đây là một trình bày rõ hơn về tính khoa học vàtính thực tiễn của đề tài này
và tương tác của mô hình với dữ liệu mới, làm cho quá trình trích xuấtthông tin trở nên linh hoạt và hiệu quả
Trang 29Ngoài ra, tính khoa học của đề tài còn phản ánh qua việc sử dụng dữliệu tự xây dựng và gắn nhãn LaTeX chính xác Việc xây dựng dữ liệuhuấn luyện đã được gắn nhãn chính xác giúp mô hình học tốt và chínhxác hơn trong việc trích xuất ME Điều này làm tăng khả năng huấnluyện mô hình và đảm bảo tính chính xác cũng như độ tin cậy trongviệc nhận diện các thành phần của công thức Dữ liệu vẫn đang được mởrộng, được công khai sử dụng và đóng góp cho các công trình nghiên cứukhác trên github.
• Tính thực tế
Đồ án không chỉ mang lại giá trị khoa học mà còn thực sự hữu ích
và tiện lợi trong nhiều khía cạnh thực tiễn Sự ứng dụng của đồ án này
mở ra nhiều cơ hội và lợi ích trong cộng đồng học tập và nghiên cứu.Tiết kiệm thời gian và công sức là một trong những ưu điểm đángchú ý nhất của sản phẩm Học sinh và sinh viên không còn phải gặp khókhăn trong quá trình chép công thức từ sách vở hay bảng đen Khả năngtrích xuất và lưu trữ công thức từ ảnh giúp họ dễ dàng tra cứu và quản
lý thông tin học tập, tối ưu hóa quá trình nắm bắt kiến thức
Ứng dụng cũng đóng góp đáng kể vào công việc của giảng viên Việcnhanh chóng trích xuất công thức từ tài liệu giúp họ tiết kiệm thời gianchuẩn bị bài giảng, tập trung hơn vào việc truyền đạt kiến thức Đồngthời, sản phẩm hỗ trợ nghiên cứu khoa học bằng cách cung cấp công cụhiệu quả để trích xuất và phân tích thông tin từ tài liệu và báo cáo.Khả năng mở rộng ứng dụng trên nhiều nền tảng như web và di độngkhông chỉ làm tăng tính linh hoạt mà còn đảm bảo sự tiện ích cho đadạng người dùng Điều này thể hiện cam kết đối với sự tiến bộ công nghệ
và mong muốn hỗ trợ nhiều người nhất có thể
Trang 30Cuối cùng, sản phẩm không chỉ là một công cụ hữu ích trong việchọc tập và nghiên cứu mà còn đóng góp tích cực vào cộng đồng Việc hỗtrợ và tăng cường hoạt động học tập và nghiên cứu chính là mục tiêuquan trọng, và khả năng mở rộng trên nhiều nền tảng công nghệ hứa hẹnmang lại giá trị lâu dài cho cộng đồng người sử dụng.
Đồ án gồm có 4 chương, phần cuối có ghi rõ các tài liệu tham khảo kèmphụ lục:
Chương 1: Tổng quan về XLA và nhận dạng chữ viết
Chương 2: Cơ sở lý thuyết
Chương 3: Phương pháp đề xuất và kết quả thực nghiệm
Chương 4: Kết luận và hướng phát triển
Tài liệu tham khảo
Phụ lục
• Nghiên cứu lý thuyết về phương pháp tiền XLA, trích xuất đặc trưng:Trước khi bắt đầu quá trình nhận dạng, nghiên cứu sẽ tiến hành phân tích
về phương pháp tiền XLA như làm sạch ảnh, loại bỏ nhiễu, tăng cường
độ tương phản và sắc thái, cân bằng histogram, và xử lý biên Ngoài
ra, các phương pháp trích xuất đặc trưng như Histograms of OrientedGradients (HOG), Local Binary Patterns (LBP), hay các phương phápdựa trên Deep Learning cũng có thể được nghiên cứu và áp dụng
• Nghiên cứu phương pháp, cách thức để chuẩn hóa dữ liệu: Để đảm bảo
Trang 31tính nhất quán và đồng nhất trong dữ liệu, các phương pháp chuẩn hóađược áp dụng như chuẩn hóa độ sáng, chuẩn hóa kích thước, hoặc chuẩnhóa vị trí của văn bản trên ảnh Các kỹ thuật này giúp tăng cường tínhđồng nhất và đảm bảo rằng mô hình có thể nhận dạng dữ liệu một cáchchính xác.
• Xây dựng và phân tích đặc điểm bộ dữ liệu ME viết tay cùng các bướctiền XLA và chuẩn hóa kích thước: Trong quá trình xây dựng bộ dữ liệu,các bước tiền XLA và chuẩn hóa kích thước được áp dụng để đảm bảorằng tất cả các mẫu dữ liệu đều được xử lý một cách đồng nhất trướckhi đưa vào mô hình huấn luyện
• Đề xuất cách thức chia tập dữ liệu để huấn luyện, kiểm tra và hiệu đính:Quá trình chia tập dữ liệu thường được thực hiện theo tỉ lệ phù hợp đểđảm bảo rằng mô hình có thể được huấn luyện, kiểm tra và hiệu đínhmột cách hiệu quả Các phương pháp như chia theo tỷ lệ 80-20 hoặc
sử dụng kỹ thuật cross-validation có thể được đề xuất để đảm bảo tínhchính xác của mô hình
• Thực nghiệm và so sánh độ chính xác giữa các lần điều chỉnh: Sau khi đãxây dựng mô hình, quá trình thực nghiệm và so sánh giữa các lần điềuchỉnh được thực hiện để đánh giá hiệu suất của mô hình và các phươngpháp tiền xử lý được áp dụng Các chỉ số như độ chính xác, độ phủ, và
độ đo F1 thường được sử dụng để đánh giá hiệu suất của mô hình
Chương này đã tổng quan vấn đề nhận dạng chữ viết và ME thông qua sựkết hợp của máy học và XLA Tập trung vào mục tiêu, thách thức, và đóng
Trang 32góp thực tiễn của đồ án, từ đó xác định rõ hướng đi Chương tiếp theo sẽ bàn
về cơ sở lý thuyết của đồ án, giải thích các khái niệm, mô hình máy học, và
kỹ thuật XLA cơ bản, sẽ làm hiểu rõ hơn về cơ sở lý thuyết và khung nhìntổng quan, đồng thời dẫn dắt vào phần tiếp theo của nghiên cứu
Trang 33Chương 2
CƠ SỞ LÝ THUYẾT
Chương này đề cập đến một số cơ sở lý thuyết về các kỹ thuật, mô hình sửdụng trong đồ án Khởi đầu là giới thiệu về XLA, tiếp đó sẽ nói về trích xuấtđặc trưng, các kỹ thuật phân lớp, mô hình học sâu và trọng tâm là OCR
Hiệp hội Toán học Hoa Kỳ đã rất quan tâm đến TEX ngay từ những ngàyđầu tiên và đã tài trợ cho việc phát triển một số cải tiến để cải thiện khảnăng soạn thảo ME của LATEX [11] Các dự án LaTeX có soạn thảo ME cầntải gói ’amsmath’ cùng một vài điều chỉnh trong cài đặt, hành vi và một vàilệnh bổ sung Bên cạnh, nên sử dụng kèm với gói unicode-math để có trảinghiệm viết ME một cách tối ưu
Các ME thường sử dụng nhiều ký hiệu, ký tự và toán tử khác nhau đểbiểu diễn Đồ án sử dụng dữ liệu được gắn nhãn mã LaTeX chính xác, từ
đó thuận tiện cho việc chuyển đổi sang định dạng có thể chỉnh sửa được saubước trích xuất từ ảnh Bên dưới sẽ điểm qua những ký tự, ký hiệu được sửdụng trong đồ án
• Số: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
Trang 34• Các phép toán số học: Cộng (+); Trừ (-); Nhân (×); Chia (÷); Lũy thừa(x2 hoặc **)
• Dấu ngoặc đơn: ( và )
• Ký hiệu bằng: (=)
• Các ký hiệu khác nhau: Lớn hơn (>); Nhỏ hơn (<); Lớn hơn hoặc bằng(≥ ); Nhỏ hơn hoặc bằng (≤ ); Khác (̸= )
• Phân số: dấu gạch ngang phân số (/) để biểu diễn phép chia
• Căn số: Căn bậc hai (√);
• Các hàm số toán học:
- Các hàm lượng giác: sin; cos; tan; cot;
- Các hàm mũ: exp (hàm mũ); ln (logarit tự nhiên)
- Các hàm logarit: log (logarit); log10 (logarit cơ số 10)
• Các hằng số: π (pi, xấp xỉ 3,14159); e (số Euler, xấp xỉ 2,71828)
• Giá trị tuyệt đối: |x| (biểu diễn giá trị tuyệt đối của x)
• Giai thừa: ! (ví dụ, 5! biểu diễn giai thừa 5)
• Dấu phẩy (,) hoặc Dấu chấm thập phân (.) để phân tách các chữ số vàbiểu thị các vị trí thập phân
Đây là một số ký tự và ký hiệu phổ biến được sử dụng trong các ME.Chúng được dùng để biểu diễn các phép toán, phương trình và công thứctoán học khác nhau trong một ngữ cảnh một chiều (1D) Đề tài được giớihạn với những ký hiệu dùng trong sách giáo khoa toán học cấp trung học cơsở
Trang 352.2 Xử lý ảnh
Xử lý ảnh (XLA) là quá trình chuyển đổi nội dung sang dạng kỹ thuật số
từ hình ảnh và thực hiện một số thao tác nhất định để trích xuất các thôngtin có ích Hệ thống XLA thường xử lý tất cả hình ảnh dưới dạng tín hiệu2D, khi áp dụng một số phương pháp xử lý tín hiệu được xác định trước Có
5 loại XLA chính:
• Trực quan hóa với mục tiêu tìm đối tượng không thể tìm được trong ảnh
• Nhận dạng để có thể phân biệt hay phát hiện vật thể trong hình ảnh
• Làm sắc nét, phục hồi giúp cải thiện hình ảnh từ hình ảnh gốc
• Nhận dạng mẫu để đo được các mẫu khác nhau bao quanh các đối tượngtrong ảnh
• Truy xuất, để có thể tìm kiếm hình ảnh từ cơ sở dữ liệu lớn, nơi chứacác ảnh kỹ thuật số tương tự ảnh gốc
Trong lĩnh vực thị giác máy tính (TGMT), XLA đóng vai trò quan trọngtrong việc trích xuất thông tin hữu ích từ hình ảnh số Đối với bài toán nhậndạng ME viết tay (HME), XLA cung cấp các kỹ thuật tiền xử lý, phân đoạn,trích xuất đặc trưng và nhận dạng mẫu Cụ thể, các bước tiền xử lý baogồm: xử lý nhiễu, chuẩn hóa cường độ sáng với phương pháp histogram bìnhthường hóa: p(rk) = nk/n, trong đó p(rk) là xác suất cường độ sáng rk, nk là
số pixel cường độ rk, n là tổng số pixel Sau đó căn chỉnh ảnh dựa trên phântích hình học các điểm khóa (keypoint) bằng phương pháp như SIFT, SURF.Tiếp theo, phân đoạn ảnh được thực hiện để tách các ký tự, dựa trênngưỡng hoặc phương pháp phân chia và trộn (split and merge) Sau đó tríchchọn đặc trưng dựa trên hình thái học của toán học như diện tích, chu vi ký
Trang 36tự Cuối cùng, các thuật toán phân loại như SVM, KNN được huấn luyệntrên vectơ đặc trưng để nhận dạng từng ký tự trong công thức Kết quả đượckết hợp lại để giải mã nội dung HME ban đầu.
XLA có nhiều ứng dụng trong thực tế, đã được ứng dụng một cách rộngrãi trong nghiên cứu y học, điển hình là việc cho phép các kế hoạch điều trịđạt hiệu quả và chính xác hơn Hay trong công nghệ cảm biến giao thông,XKA giúp có thể tự động ghi lại biển số xe, phân biệt loại xe, theo dõi tốc độcủa người lái xe trên đường cao tốc và hơn thế nữa Mặt khác, XLA có thểđược sử dụng để khôi phục cũng như lấp vào các phần bị thiếu hay bị hỏngtrong ảnh Hoạt động này liên quan đến việc sử dụng những hệ thống XLA
đã được huấn luyện chuyên sâu với bộ dữ liệu ảnh hiện có để có thể tạo ranhiều phiên bản mới hơn của các bức ảnh cũ và bị hỏng
Như vậy, XLA cung cấp nền tảng quan trọng cho bài toán nhận dạngHME, góp phần nâng cao khả năng nhận diện của máy tính đối với ngôn ngữtoán học
Trích xuất đặc trưng (feature extraction) là bước quan trọng trong XLAnhằm biểu diễn dữ liệu ảnh gốc thành các đặc trưng có ý nghĩa và thuậntiện cho việc phân loại Các đặc trưng ảnh được trích xuất cần đảm bảo tínhphân biệt cao giữa các lớp đối tượng
Đối với bài toán nhận dạng ký tự viết tay, các đặc trưng cơ bản bao gồm:
• Đặc trưng hình thái: kích thước, hình dạng, diện tích, chu vi Ví dụ, tínhchu vi ký tự P dựa trên đường bao: L = H ds
• Đặc trưng cấu trúc: vị trí tương đối các thành phần cơ bản Ví dụ, vị trícủa vòng tròn trong ký tự O