Báo cáo này sẽ trình bày chỉ tiết các nội dung bao gồm: quá trình chuẩn bị và xử lý dữ liệu hình ảnh, huân luyện mô hình YOLO đê nhận diện vùng văn bản, và tích hợp OCR đề thực hiện tríc
Trang 1TRUONG DAI HOC THU DAU MOT VIEN DAO TAO CONG NGHE THONG TIN ,
SVTH: Bùi Anh Tin MSSV: 2124801030140 Phạm Văn Trường MSSV: 2024801030143 LỚP: D2IKTPM02
GVHD : Ts Nguyén Huynh Thanh Luan
BHNH DUONG _ 12/2024
Trang 2TRUONG DAI HOC THU DAU MOT VIEN DAO TAO CONG NGHE THONG TIN ,
CHUYEN DOI SO
THU DAU MOT
DO AN MON HOC HOC MAY UNG DUNG YOLOv8 NHAN ĐIỆN VĂN BẢN
SVTH: Bùi Anh Tín MSSV: 2124801030140 Phạm Văn Trường MSSV: 2024801030143 LỚP: D2IKTPM02
GVHD : Ts Nguyén Huynh Thanh Luan
BHNH DUONG _ 12/2024
Trang 3NHAN XET VA CHAM DIEM CUA GIANG VIEN
Họ và tên giảng viên: Ts Nguyễn Huỳnh Thành Luân
Đề tài: Ứng dụng Yolo nhận diện văn bản
Trang 4LỜI CÁM ƠN Trong suốt quá trinh học tập và thực hiện báo cáo môn học Học máy, chủng em
đã nhận được sự hướng dẫn tận tình và sự hỗ trợ quý báu từ thầy, nhờ đó mà báo cáo nảy có thể được hoàn thành một cách tốt nhất
Trước hết, chúng em xin bày tỏ lòng biết ơn sâu sắc đến thầy Nguyễn Huỳnh Thành Luân, giảng viên bộ môn Học máy Thầy không chỉ tận tâm giảng dạy và truyền đạt những kiến thức nền tảng, mả còn chia sẻ nhiều ứng dụng thực tiễn trong lĩnh vực này Qua sự hướng dẫn của thầy, chúng em đã có cơ hội mở rộng tầm hiểu biết, không chỉ về mặt chuyên môn mà còn về kỹ năng nghiên cứu, cũng như khả năng ứng dụng học máy vào thực tê
Chúng em hy vọng rằng nội dung của báo cáo này đã thể hiện được phan nao sw
nỗ lực và vận dụng hiệu quả những kiến thức đã học Tuy nhiên, chúng em cũng nhận thức rõ rằng không thê tránh khỏi những thiếu sót Vì vậy, chúng em rất mong nhận được những ý kiến đóng góp quý báu từ thầy/cô dé co thé cải thiện và hoàn thiện hơn
trong các nghiên cứu sau nảy
Một lần nữa, chúng em xin gửi lời cảm ơn chân thanh va sau sac nhat dén thay!
Trang 5LOI MO DAU Trong thời đại công nghệ 4.0, Hoc may (Machine Learning) va Tri tuệ nhân tạo
(AI) đã trở thành những lĩnh vực then chốt, góp phần cách mạng hóa nhiều ngành công nghiệp và giải quyết các bài toán phức tạp trong thực tiễn Một trong những ứng dụng
nội bật của Học máy là xử lý và nhận diện hình ảnh, cho phép máy tính có khả năng phân tích, nhận biết đối tượng và trích xuất thông tin từ đữ liệu hình ảnh một cách tự
động
Trong báo cáo này, chúng em tập trung nghiên cứu và phát triển đề tài "Ứng dụng YOLO và OCR để nhận diện và trích xuất văn bản từ hình ảnh" Đây là một bài toán có ý nephĩa thực tiễn cao trong lĩnh vực xử lý tải liệu tự động, hỗ trợ việc nhận điện văn bản từ hình ảnh một cách nhanh chóng và chính xác Đặc biệt, việc kết hợp
mô hình YOLO (You Only Look Once) để phát hiện vùng văn ban và sử dụng Tesseract OCR để trích xuất nội đung văn bản cho phép giải pháp có độ tin cậy và hiệu quả cao hơn
Báo cáo này sẽ trình bày chỉ tiết các nội dung bao gồm: quá trình chuẩn bị và
xử lý dữ liệu hình ảnh, huân luyện mô hình YOLO đê nhận diện vùng văn bản, và tích hợp OCR đề thực hiện trích xuất thông tin Bên cạnh lý thuyết, báo cáo còn mô tả các bước triển khai thực tế thông qua lập trình Python và các thư viện hỗ trợ như OpenCV, Tesseract OCR, và Py Torch
Chúng em hy vọng rằng thông qua đề tài này, các kiến thức về Học máy và xử
lý hình ảnh sẽ được vận dụng một cách hiệu quả, từ đó mở rộng tiêm năng ứng dụng vào các hệ thông tự động hóa trong đời sông và công việc
Bồ cục của báo cáo bao gồm:
Chương 1: Giới thiệu tổng quan
Chương 2: Xử ly dữ liệu
Chương 3: Mô hình văn trích xuất văn bản từ hình ảnh
Chương 4: Đề xuất huấn luyện và đánh giá mô hình
Chương 5: Kết luận và hướng phát triển
Trang 6MUC LUC
CHƯƠNG I GIỚI THIỆU TÔNG QUAN 5 c1 2221212111121 21121 2g rrrea 3 1.1 Tổng quan về để tải 5 - S1 2 121111211211 11222111121 12 21211221 cn ra 3 1.2 Lý do chọn để tài ác n1 T2 111211 112111121111111111 1111111111111 1H HA 3
IS ©°.:›8›::):1-/0i:.9.v6-ì 8:11): -ZỐAAAẢẢẶ 4 1.4 Thuật toán và mô hình sử dụng - 12c 12122211211 121 111111111111 101 12811111 cay 5 CHƯƠNG 2 XỬ LÝ DỮ LIỆU - 5.22 S1S11215155155151211111112111121111211212112111211111 1x6 § 2.1 Témg quan b6 dit HOU số 8 2.2 Tổng quan về xử lý đữ liệu - 25s 2111 111212211121121111121 21211112111 rrreg 9 PIN ‹ nu coi na'šŸiaadđiảảÝÝẢÁỀÉŸÝÁÊÝỶÝ 11
CHƯƠNG 3 MÔ HÌNH NHẬN DIỆN VÀ TRÍCH XUẤT VĂN BẢN TỪ HÌNH
ẢNH, Q202020 0001121 11111112111111111111111111111111111111111121 1111111211111 1111111111111 ra 13
3.2 Mô hỉnh 5 s1 S1211512115115111111211511111111111111121111211112111111121111211110121111 2 1x6 14 3.3 Xây dựng ứng dụng qua modEÌ c2: 2211221121111 11221 2811181111111 811 12111 kg 16 CHUONG 4 DE XUAT HUAN LUYỆN VÀ ĐÁNH GIÁ MÔ HÌNH 18
AL Huấn luyện mô hìỉnh 5 St 111 115E1E1511E11111111111 111.1111111 E111 EEE re 18 4.2 Đánh giá c2 1211211011121 1 1 11121 1 111 t1 111 112g 18 4.2.1 Quá trình huấn luyện 2 S111 E511 11211112111111111111111211111 111111 nn tr 18
' Non 20
CHƯƠNG 5 KÉT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5 2222221 5131252525255 552 22
51 Kết h1 83019 01010587 22
0 ni nh 22 TAI LIEU THAM KHẢO S 2121 22121111211112111111121111111112111112112121 11c se 24
Trang 7CHUONG 1 GIOI THIEU TONG QUAN
1.1 Tổng quan về đề tài
Với sự phát triển vượt bậc của trí tuệ nhân tạo (AT) và học sau (Deep Learning), nhiều ứng dụng nhận diện hình ảnh đã được triển khai rong rai, mang lai gia trị thực tiễn trong nhiều lĩnh vực như an ninh giám sát, chăm sóc sức khỏe, và tự động hóa quy trinh làm việc Trong đó, việc nhận diện và trích xuất văn bản từ hình ảnh là một trong những ứng dụng nỗi bật, có ý nghĩa quan trong trong quan ly tài liệu, xử lý thông tin,
và hỗ trợ các hệ thống tự động hóa hiện đại
Nhận diện văn bản là một bài toán phức tạp, do văn bản trong ảnh thường có nhiều đặc điểm khác nhau như kích thước, phông chữ, góc quay, điều kiện ánh sáng hoặc nhiễu môi trường Việc xây dựng một hệ thống hiệu quả đòi hỏi sự kết hợp của các thuật toán phát hiện đối tượng tiên tiến và công nghệ OCR (Optical Character Recognition) để trích xuất nội dung văn bản một cách chính xác
Trong đề tải này, chúng em tập trung ung dung YOLOv8 (You Only Look Once) - một mô hình mạng nơ-ron tích chập (CNN) nỗi tiếng trong nhận diện đối tượng - đề phát hiện vùng chứa văn bản trong hình ảnh Sau đó, kết hợp với Tesseract OCR để thực hiện trích xuất văn bản từ các vùng đã được phát hiện YOLOv8 nối bật với khả năng xử ly nhanh và chính xác, phủ hợp cho các bài toán yêu câu xử lý thời sian thực hoặc xử lý hàng loạt ảnh
Mục tiêu của dé tai là xây dựng một quy trình đầy đủ từ chuẩn bị dữ liệu, huấn luyện mô hình YOLO, đến triển khai hệ thống nhận diện và OCR văn bản Thông qua nghiên cứu nảy, chúng em mong muốn thể hiện được tiềm năng ứng dụng của AI trong các bài toán thực tiễn, đồng thời góp phần vào việc tự động hóa quy trình xử lý tài liệu và nâng cao hiệu suất làm việc trong nhiều lĩnh vực khác nhau
1.2 Lý do chọn đề tài
Bài toán nhận diện và trích xuất văn bản từ hình ảnh là một vấn đề có ý nghĩa thực tiễn quan trọng và mở ra nhiều tiềm năng ứng dụng trong các lĩnh vực khác nhau như lưu trữ tải liệu số hóa, quản lý văn bản tự động và xử lý thông tin thông minh Trong bối cảnh chuyên đôi số ngày cảng phát triển, nhu cầu số hóa các tài liệu giấy tờ
để lưu trữ và quản lý thông tin hiệu quả là vô cùng cấp thiết Một hệ thống có khả năng nhận điện nhanh chóng, chính xác các văn bản từ hình ảnh không chỉ giup nâng cao hiệu suất làm việc mà còn tự động hóa các quy trình xử lý dữ liệu, từ đó giảm thiểu sai sót so với phương pháp thủ công truyền thông Hệ thống này còn giúp tiết kiệm thời gian, công sức và chỉ phí, đồng thời tối ưu hóa việc lưu trữ và tra cứu thông tin
Tuy nhiên, bài toán nhận diện văn bản cũng đặt ra nhiều thách thức kỹ thuật lớn Các hình ảnh đầu vào thường có chất lượng không đồng đều, bị nhiễu, độ phan
giải thấp hoặc chụp dưới các góc độ không thuận lợi Bên cạnh đó, sự đa dạng về font
chữ, kích thước và ngôn ngữ cũng là một rào cản lớn đối với độ chính xác của hệ thong Vi vay, dé giải quyết hiệu quả bài toán này, cần có một mô hình mạnh mẽ vừa
3
Trang 8đảm bao tốc độ xử lý nhanh chóng vừa có khả năng nhận diện chính xác trong thời gian thực
Trong đề tải nảy, nhóm chúng em lựa chọn kết hợp YOLO (You Only Look
Once) — một mô hình học sâu noi bat trong viéc nhan dién đối tuong — va Tesseract OCR — công cụ trích xuất van ban tir hinh anh Cu thé, YOLO sẽ đảm nhiệm vai trò xác định chính xác vị trí các vùng chứa văn bản trong hinh anh, trong khi Tesseract OCR tiễn hành trích xuất nội dung văn bản từ các vùng đã được xác định Sự kết hợp giữa YOLO và Tesseract OCR không chỉ nâng cao tốc độ xử lý mà còn cải thiện đáng
kế độ chính xác của hệ thống, đáp ứng được yêu cầu về thời gian thực của bài toán Việc nghiên cứu và triển khai bài toán này không chỉ giúp nhóm sinh viên có cơ hội tìm hiểu và áp dụng các kiến thức về học sâu, xử lý ảnh và OCR, mà còn góp phân xây dựng một hệ thống có tính ứng dụng cao trong thực tiễn Kết quả của đề tài có thé
hỗ trợ tự động hóa các công việc như số hóa tài liệu, quản lý văn bản, giam thiêu công sức nhập liệu và nâng cao hiệu quả làm việc Với những ý nghĩa thiết thực đó, nhóm chúng em hy vọng răng dé tài sẽ mang lại giá trị khoa học và ứng dụng cụ thê, hướng đến việc giải quyết các bài toán thực tê trong đời sống và công việc
1.3 Công nghệ được sử dụng
1.3.1 Google Colab
Google Colab là một công cụ trực tuyên mạnh mẽ hồ trợ lập trinh Python va chạy các mô hỉnh học máy trên nền tảng đám mây Trong dự án này, nhóm sử dụng Google Colab dé huấn luyện mô hình YOLO và thực hiện trích xuất văn bản từ hình ảnh bằng Tesseract OCR Google Colab cung cấp môi trường tích hợp sẵn các thư viện học sâu như TensorFlow, PyTorch, OpenCV và khả năng sử dụng GPU miễn phí, giúp tăng tốc quá trình huấn luyện và xử ly dữ liệu Với øiao diện dễ sử dụng và tính linh hoạt cao, Google Colab giúp nhóm có thể lập trình, kiếm thử mô hình và xử lý đữ liệu một cách nhanh chóng mà không cần cấu hình phức tạp
Google Colaboratory
Trang 9Hinh 1.1: Google Colab 1.3.2 Ngôn ngữ Python
Python là ngôn ngữ lập trình chính trong dự án này nhờ vào tính đơn giản, khả năng mở rộng và hệ sinh thái thư viện phong phú Python được sử dụng để xây dựng toàn bộ quy trình nhận diện và trích xuất văn bản Các thư viện chính bao gồm OpenCV để tiền xử lý ảnh, YOLO để phát hiện và nhận diện các vùng chứa văn bản,
va Tesseract OCR để trích xuất nội dung văn bản từ các vùng đã phát hiện Việc sử dụng Python cho phép nhóm tích hợp các công cụ và mô hình một cách mượt mà,
đồng thời dễ dàng mở rộng vả bảo trì hệ thống trong tương lai
Hình 1.2: Python 1.4 Thuật toán và mồ hình sử dụng
Tesseract OCR là một công cụ nhận diện ký tự quang học mã nguồn mở mạnh
mẽ, được phát triển ban đầu bởi Hewlett-Packard và sau đó được cải tiến bởi Google Công cụ này có khả năng nhận diện và trích xuất văn bản từ hình ảnh, hỗ trợ hơn 100 ngôn ngữ và nhiều định dạng hình ảnh khác nhau như PNG, JPEG và TIFF
Việc cài đặt Tesseract có thể thực hiện thông qua gói nhị phân đã được xây dựng sẵn hoặc từ mã nguồn Đối với người dùng Windows, bạn có thê tải xuống trình cai dat tir UB Mannheim va thiét lập biến môi trường hệ thống để trỏ đến đường dẫn cài đặt Tesseract
Tesseract có thê được sử dụng từ dòng lệnh với cú pháp đơn giản, cho phép người đùng chỉ định tên tệp hình ảnh, ngôn ngữ OCR, chế độ động cơ OCR và chế độ phân đoạn trang Ngoài ra, Tesseract cũng có thê được tích hợp với Python thông qua thư viện pytesseract, giúp việc xử lý hỉnh ảnh và trích xuất văn bản trở nên dễ dàng hơn
Trang 10Mét trong nhitng diém mạnh cua Tesseract la kha nang huan luyén dé nhan dién các ngôn ngữ mới hoặc cải thiện độ chính xác cho các ngôn ngữ hiện có Qua trinh huấn luyện bao gồm việc tạo dữ liệu huấn luyện, tạo tệp box và sử dụng các công cụ như jTessBoxEditor để chỉnh sửa ký tự
Tesseract là một công cụ OCR linh hoạt và mạnh mẽ, phù hợp cho nhiều ứng dụng khác nhau Bằng cách hiểu rõ quy trình cài đặt, sử dụng và huấn luyện, bạn có thể tận dụng Tesseract để thực hiện các nhiệm vụ nhận diện văn bản một cách hiệu quả
1.35 YOLOv8n
Hinh 1.3: Tesseract OCR
YOLOv8 la mét mô hình học sâu mạnh mẽ và tiên tiễn, nỗi bật với khả năng nhận diện đối tượng nhanh chóng và chính xác trong các bài toán xử lý hình ảnh Khi kết hop voi Tesseract OCR, YOLOv8 co thể được sử dụng để nhận điện và trích xuất văn bản từ hình ảnh hoặc video, tạo thành một hệ thống toàn điện và hiệu quả trong các ứng dụng nhận dạng văn bản
YOLOv§ giúp phát hiện các đối tượng trong hình ảnh, bao gồm các vùng chứa văn bản, thông qua việc sử dụng các lớp mạng nơ-ron tích chập (CNN) đề phân tích các đặc trưng hình ảnh Khi YOLOv8 phát hiện các vùng chứa văn bản, những vùng này được cắt ra để Tesseract OCR tiếp tục xử lý và trích xuất văn bản từ chúng Tesseract OCR sau đó nhận diện các ký tự trong từng vùng văn bản đã được cắt ra và chuyên đổi chúng thành văn bản có thể chỉnh sửa
Quá trình này kết hợp sức mạnh của YOLOv§ trong việc phát hiện đối tượng với khả năng nhận dạng văn bản của Tesseract OCR, mang lại hiệu quả cao trong các ứng dụng yêu cầu nhận điện và trích xuất văn bản trong môi trường thực tế Nhờ vào YOLOv8, hé thống có thê hoạt động nhanh chóng và chính xác, phát hiện được các vùng chứa văn bản trone điều kiện ánh sáng khác nhau và với các góc độ khác nhau
6
Trang 11Tesseract OCR, sau khi nhan duoc cac vung van ban tr YOLOv8, có thể xử lý và chuyên đôi hình ảnh thành văn bản, giúp nâng cao độ chính xác trong việc trích xuất thông tin từ hình ảnh
Sự kết hợp này tạo ra một giải pháp hiệu quả cho việc nhận diện văn bản trong nhiều ứng dụng khác nhau, từ việc số hóa tài liệu, nhận dạng biến báo, đến phân tích văn bản trong video
Hình 1.4: YOLOv8
Trang 12CHUONG 2 XU LY DU LIEU
2.1 Tổng quan bộ dữ liệu
Dữ liệu hình ảnh đóng vai trò quan trọng trong việc xây dựng hệ thong nhan diện và trích xuất văn bản, đặc biệt là trong quá trình huấn luyện và đánh giá mô hình Trong dự án này, bộ dữ liệu được thu thập từ Roboflow, một nền tảng cung cấp các bộ
dữ liệu chất lượng cao và công cụ hỗ trợ tiền xử lý, đồng thời tích hợp với các mô hình học máy như YOLOv8 Bộ dữ liệu sử dụng trong dự án là Fall Detection Dataset, nhưng được điều chỉnh để phục vụ cho bài toán nhận diện và trích xuất văn bản từ
hình ảnh
Bộ dữ liệu bao gồm các hình ảnh vả video mô phỏng nhiều tình huống chứa văn bản
trong môi trường thực tế, với các đặc điểm nỗi bật sau:
Tình huỗng đa dạng: Bộ dữ liệu này không chỉ chứa các tinh huỗồng van ban
xuất hiện trong các bối cảnh khác nhau mà còn bao gồm các trường hợp văn bản được trình bảy ở nhiều kiểu dáng, kích thước, độ sáng vả phông nên khác nhau, giúp mô hình nhận diện được nhiều kiểu văn bản trong các tình huống đa dạng Môi trường
phong phú: Dữ liệu được thu thập trong các bối cảnh khác nhau, như trong nhà và ngoài trời, có sự thay đôi về điều kiện ánh sáng, góc quay và phông nên, giúp mô hình
trở nên linh hoạt hơn trone việc nhận diện văn bản ở nhiêu môi trường
Phân loại rõ ràng: Bộ dữ liệu được gan nhãn chính xác với các nhóm văn ban khác nhau, từ văn bản rõ ràng đến văn bản mờ hoặc bị che khuất Điều nảy tạo cơ sở vững chắc cho việc huấn luyện mô hình phân loại văn bản và cải thiện khả năng trích xuất chính xác
Tích hợp API Roboflow: Dữ liệu được tải xuống tự động thông qua API Roboflow, tôi
ưu hóa quá trình tải và tiền xử lý đữ liệu Việc sử dụng API giúp dễ dàng truy cập bộ
dữ liệu, giảm thiếu sự can thiệp thủ công và tôi ưu hóa quy trình huấn luyện mô hình
Tổ chức dữ liệu: Sau khi tải về, đữ liệu được tổ chức thành các thư mục rõ rang
theo nhãn Các thông tin như vi tri van ban trong khung hình và nhãn phân loại được
lưu dưới đạng tệp định đạng phù hợp như CSV hoặc JSON, giúp quá trình tiền xử lý
và huấn luyện trở nên hiệu quả hơn
Quá trình tiền xử lý bao gồm nhiều bước quan trọng như: chuyên đổi kích thước ảnh về kích thước cố định, chuân hóa dữ liệu để làm sạch và tối ưu hóa chất
lượng ảnh, và chuyển đổi nhãn văn bản sang định dạng YOLOv§ thích hợp, chẳng hạn như txt hoặc xml, giúp tích hợp đễ dàng vào mô hình nhận diện và trích xuất văn bản
Với bộ dữ liệu phong phú và được chuẩn bị kỹ lưỡng, hệ thống nhận diện và
trích xuất văn bản sử dụng YOLOv§ có khả năng đạt độ chính xác cao, giup tối ưu hóa
quá trình nhận diện văn bản và cải thiện hiệu quả trong các ứng dụng thực tế
Trang 13Hình 1.5: Khái quát về bộ dữ liệu 2.2 Tổng quan về xử lý dữ liệu
2.2.1 Làm sạch dữ liệu
Trong ứng dụng YOLOv8 đề nhận diện và trích xuất văn bản, việc làm sạch dữ
liệu đóng vai trò quan trọng để đảm bảo chất lượng và tính chính xác của mô hình
Quá trình này bao gôm các bước như loại bó dữ liệu không hợp lệ và xứ lý nhãn đề
chuẩn hóa thông tin đầu vào
Đầu tiên, cần loại bỏ các hình ảnh bị lỗi hoặc không đầy đủ thông tin nhãn Các hình ảnh không có văn bản rõ ràng, bị mờ hoặc có chất lượng quá thấp sẽ ảnh hưởng đến khả năng nhận diện của mô hình Ngoài ra, hình ảnh không chứa văn bản cần được loại bỏ để tránh làm sai lệch quá trình huấn luyện
Tiếp theo, nhãn của các văn bản cần được xử lý và chuẩn hóa Các thông tin
không đồng nhất, ví dụ như nhãn không rõ ràng về nội dung hoặc vị trí của văn bản
trong ảnh, sẽ được loại bỏ hoặc chỉnh sửa Mỗi văn bản sẽ được gắn nhãn chính xác về
vị trí và nội dung, p1úp mô hình học được cách nhận diện chính xác các văn ban trong
hình ảnh
Việc làm sạch và chuẩn hóa dữ liệu giúp mô hình YOLOv8 học hiệu quả hơn,
từ đó nâng cao khả năng nhận diện và trích xuất văn bản trong các tình huống thực tế,
đồng thời giảm thiểu sai sót và tối ưu hóa hiệu quả ứng dụng
Trang 142.2.2 Tiền xử lý hình ảnh
Chuyên đôi kích thước: Tắt cả hình ảnh được điều chỉnh về kích thước 640x640 pixel
để phù hợp với yêu cầu đầu vào của mô hình YOLOv8 Điều nảy giúp giảm thiêu độ phức tạp tính toán, đồng thời đảm bảo rằng hình ảnh không bị mắt quá nhiều thông tin quan trọng khi được sử dụng cho quá trình nhận điện văn bản
Chuan héa pixel: Gia tri pixel của ảnh được chuẩn hóa về phạm vi [0, 1] hoặc [-I, 1], giúp mô hình học hiệu quả hơn và tránh hiện tượng "điều chỉnh quá mức" trong quá trình huấn luyện Việc chuẩn hóa này giúp mô hình dễ đàng học các đặc trưng hỉnh ảnh và phân loại văn bản một cách chính xác
Tăng cường dữ liệu (Data Augmentation): Để cải thiện khả năng tông quát của mô hình và làm cho nó trở nên bền vững hơn trong các tình huống thực tê, các _kỹ thuật tăng cường dữ liệu được áp dụng Các phương pháp tăng cường đữ liệu bao gồm: Lật ảnh (Flip): Lật ngang ảnh giúp mô hình học được các kiểu văn bản từ các góc nhìn khác nhau, tắng cường sự đa dang của dữ liệu và siúp mô hình nhận diện văn ban ở nhiêu hướng khác nhau
Xoay ảnh (Rotation): Xoay ảnh một góc nhỏ, chẳng hạn +15 độ, giúp mô hình
nhận diện văn bản từ các góc nhìn đa dạng hơn Điều này đặc biệt hữu ích khi văn ban trong anh có thé xuât hiện ở nhiều sóc độ khác nhau
Điều chỉnh độ sáng (Briphtness Adjustment): Thay đổi độ sáng của ảnh giúp mô hình có thể nhận diện văn bản dưới các điều kiện ánh sáng khác nhau, chẳng hạn như trong bóng tối hoặc ánh sáng mạnh Điều nảy cũng cải thiện hiệu quả của Tesseract OCR khi trích xuất văn bản từ ảnh có độ sáng thay đổi
Zoom in/Zoom out: Thay đôi tỷ lệ khung hình giúp mô hình học được cách nhận điện các văn bản ở các mức độ phóng đại khác nhau Khi phóng đại hoặc thu nhỏ ảnh, mô hình YOLOv§8 có thể nhận điện được các văn bản ở nhiều kích thước và vị trí khác nhau
Sau khi YOLOv8 nhận diện được các văn bản trong ảnh, Tesseract OCR sẽ được sử dụng để trích xuất văn bản từ các vùng được nhận diện Việc tiền xử lý này giúp đảm
bảo rằng hình ảnh đầu vào cho cả YOLOv8 và Tesseract OCR luôn ở trạng thái tốt
nhất, từ đó tối ưu hóa khả năng nhận diện và trích xuất văn bản chính xác trong môi trường thực tế