Nghiên cứu phương pháp nhận dạng văn bản từ ảnh và ứng dụng trong phân loại văn bản

Lương Văn Nghĩa đã tận tâm hướng dẫn tôiqua những buổi trao đổi chuyên môn, học thuật và suốt thời gian được học tập vàthực hành dưới sự hướng dẫn của Thầy, tôi đã thu được rất nhiều kiế

Trang 1

TRẦN NGUYỄN MINH BẢO

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI

VĂN BẢN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG, 2024

Trang 2

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI

VĂN BẢN

Chuyên ngành: Khoa học máy tính

Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS LƯƠNG VĂN NGHĨA

ĐÀ NẴNG, 2024

Trang 3

LỜI CẢM ƠN

Tôi xin gửi đến Thầy Cô Khoa Công nghệ thông tin – Trường Khoa Học MáyTính, Đại Học Duy Tân, Đà Nẵng và Khoa Công Nghệ Thông Tin – Trường ĐạiHọc Phạm Văn Đồng, Quảng Ngãi lời biết ơn sâu sắc nhất, những người đã cùngvới tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho tôitrong thời gian học tập tại trường

Tôi xin chân thành cảm ơn TS Lương Văn Nghĩa đã tận tâm hướng dẫn tôiqua những buổi trao đổi chuyên môn, học thuật và suốt thời gian được học tập vàthực hành dưới sự hướng dẫn của Thầy, tôi đã thu được rất nhiều kiến thức bổ íchtrong nghiên cứu

Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã luôn là nguồn độngviên to lớn, giúp tôi vượt qua những khó khăn trong suốt quá trình học tập và thựchiện luận văn

Mặc dù đã rất cố gắng hoàn thiện luận văn với tất cả sự nỗ lực, tuy nhiên, dobước đầu đi vào thực tế, tìm hiểu và xây dựng luận văn trong thời gian có hạn, và

kiến thức còn gặp nhiều bỡ ngỡ, nên luận văn “NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN” chắc chắn sẽ không thể tránh khỏi những thiếu sót Tôi rất mong nhận

được sự quan tâm, thông cảm và những đóng góp quý báu của các Thầy Cô và cácbạn để luận văn này ngày càng hoàn thiện hơn

Sau cùng, tôi xin kính chúc các Thầy Cô dồi dào sức khỏe, niềm tin để tiếp tụcthực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau.Trân trọng!

HỌC VIÊN

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN” là công trình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của

giảng viên hướng dẫn khoa học

Các số liệu và kết quả nghiên cứu trong luận văn này là trung thực và khôngtrùng lặp với các luận văn khác

HỌC VIÊN

Trang 5

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

DANH MỤC CÁC HÌNH ẢNH v

MỞ ĐẦU 1

1.Lý do chọn đề tài 1

2.Mục tiêu nghiên cứu 2

3.Đối tượng và phạm vi nghiên cứu 2

4.Phương pháp nghiên cứu 2

Chương 1: TỔNG QUAN VỀ VĂN BẢN VÀ LÝ THUYẾT NHẬN DẠNG VĂN BẢN 3

1.1 LỊCH SỬ HÌNH THÀNH VĂN BẢN 3

1.1.1 Khái niệm văn bản 3

1.1.2 Phát minh ra văn bản 3

1.1.3 Các loại hình văn bản qua các thời kỳ 4

1.2 TỔNG QUAN LÝ THUYẾT NHẬN DẠNG VĂN BẢN 9

1.2.1.Giới thiệu 9

1.2.2.Mô hình tổng quát của một hệ thống nhận dạng văn bản 12

1.2.3.Các phương pháp nhận dạng văn bản 21

1.3 KẾT LUẬN CHƯƠNG 1 31

Chương 2 MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN THEO TRÍCH CHỌN ĐẶC TRƯNG 32

2.1 TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƯNG 32

2.1.1.Khái niệm chung 32

2.1.2.Đặc trưng bất biến 36

2.1.3.Khả năng khôi phục 36

2.2 MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO NHẬN DẠNG VĂN BẢN 37

Trang 6

2.2.1.Trích chọn đặc trưng từ ảnh đa cấp xám 37

2.2.2.Trích chọn đặc trưng từ ảnh nhị phân 38

2.2.3.Trích chọn đặc trưng từ biên ảnh 40

2.2.4.Trích chọn đặc trưng từ biểu diễn véc tơ 41

Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN 44

3.1 PHÁT BIỂU BÀI TOÁN PHÂN LOẠI VĂN BẢN 44

3.2 CHƯƠNG TRÌNH THỬ NGHIỆM 44

3.2.1.khai báo các thư viện 44

3.2.2.Xử lý dữ liệu đầu vào từ ảnh 45

3.2.3.nhận dạng văn bản từ ảnh và kết quả, phân loại văn bản 48

3.2.4.Đề xuất sau thử nghiệm 57

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 63

1.Kết luận 63

2.Hạn chế 63

3.Hướng phát triển 63

DANH MỤC TÀI LIỆU THAM KHẢO

QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)

Trang 7

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1: Mẫu văn bản khoảng năm 2.400 TCN (Lá thư tìm thấy ở Telloh, thành

Lagash, Lưỡng Hà) 3

Hình 1.2: Mẫu văn bản hình nêm viết trên đất sét 5

Hình 1.3: Mẫu văn bản khắc trên tường đá Ai cập cổ đại 6

Hình 1.4: Mẫu văn bản Trung hoa cổ đại được tìm thấy trên xương động vật, mai rùa,… 6

Hình 1.5: Mẫu văn bản Ấn độ cổ đại khắc trên đá 7

Hình 1.6: Mẫu văn bản Hy Lạp cổ đại 8

Hình 1.8: Ảnh gốc và ành sau khi đã được nhị phân hóa 13

Hình 1.9: Nhiễu đốm và nhiễu vệt 14

Hình 1.10: Chuẩn hóa kích thước ảnh các ký tự “A” và “P” 16

Hình 1.11: Ảnh gốc và ảnh sau khi làm trơn biên 17

Hình 1.12: Ảnh gốc và ảnh sau khi làm mảnh chữ 18

Hình 1.13: Hiệu chỉnh độ nghiêng của văn bản 18

Hình 1.14: Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ 19

Hình 1.15: Xác định khoảng cách giữa hai ký tự và giữa hai từ dựa trên histogram theo chiều thẳng dứng của dòng chữ 20

Hình 1.16: Mô hình nhận dạng văn bản rời rạc 29

Hình 3.1: Ảnh 1 46

Hình 3.2: Ảnh 2 47

Hình 3.3: Ảnh 3 48

Hình 3.4: “Ảnh 3” sau khi thực hiện kỹ thuật Nhị phân hóa ảnh 58

Hình 3.5: Ảnh 3 sau khi sử dụng KERAS 61

Hình 3.6: “Ảnh 3” khi thực hiện nhận dạng văn bản 62

Trang 8

MỞ ĐẦU

1 Lý do chọn đề tài

Công nghệ thông tin ngày càng phát triển và có vai trò hết sức quan trọngkhông thể thiếu trong cuộc sống hiện đại Con người ngày càng tạo ra những cỗmáy thông minh có khả năng tự nhận biết và xử lí được các công việc một cách tựđộng, phục vụ cho lợi ích của con người Trong những năm gần đây, một trongnhững bài toán nhận được nhiều sự quan tâm và tốn nhiều công sức nhất của lĩnhvực công nghệ thông tin, đó chính là bài toán nhận dạng Tuy mới xuất hiện chưalâu nhưng nó đã rất được quan tâm vì tính ứng dụng thực tế của bài toán cũng như

sự phức tạp của nó Nhận dạng văn bản là một lĩnh vực đã được quan tâm nghiêncứu và ứng dụng từ nhiều năm nay theo hai hướng chính:

- Nhận dạng văn bản chữ in: phục vụ cho công việc tự động hóa đọc tài liệu,tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp từ các nguồn tài liệu -Nhận dạng văn bản chữ viết tay: với những mức độ ràng buộc khác nhau vềcách viết, kiểu chữ phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn,phiếu ghi, bản thảo viết tay Nhận dạng văn bản viết tay được tách thành haihướng phát triển: nhận dạng văn bản viết tay trực tuyến (on-line) và nhận dạng vănbản viết tay ngoại tuyến (off-line)

Đến thời điểm này, bài toán nhận dạng văn bản chữ in vẫn còn là vấn đề tháchthức lớn đối với các nhà nghiên cứu Phương pháp trích chọn đặc trưng trong nhậndạng văn bản là việc tìm và chọn ra các đặc trưng đặc thù của mỗi văn bản, qua đó

là đầu vào cho quá trình nhận dạng Bên cạnh việc lựa chọn một thuật toán nhậndạng phù hợp thì việc tìm ra phương pháp trích chọn đặc trưng thích hợp sẽ nângcao độ chính xác và giảm thời gian nhận dạng cho toàn bộ hệ thống

Với sự hấp dẫn của bài toán và những thách thức còn đang ở phía trước, niềmđam mê công nghệ hiện đại và những ứng dụng thực tế tuyệt với của nó cùng khát

khao khám phá và chinh phục những tri thức mới mẻ, tôi đã chọn đề tài: “NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG

Trang 9

TRONG PHÂN LOẠI VĂN BẢN” làm đề tài nghiên cứu và bảo vệ luận văn tốt

Mục tiêu cụ thể:

Đề tài luận văn tập trung cho việc lựa chọn một số mẫu ảnh để tiến hành nhậndạng từ ảnh sang một văn bản, sau đó tiến hành phân loại văn bản theo các mức độtốt, xấu hay bị lỗi từ kết quả nhận dạng Đề xuất giải pháp khắc phục sau khi nhậndạng từ một mẫu ảnh bị lỗi

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu:

- Nghiên cứu các phương pháp phân loại văn bản, nhận dạng văn bản từ ảnh,các phương pháp trích chọn đặc trưng trong nhận dạng văn bản từ ảnh

- Chọn bộ dữ liệu đầu vào cho bài toán nhận dạng là các văn bản dạng ảnh(các hoá đơn (bill) bán hàng)

Phạm vi nghiên cứu: thực hiện nhận dạng văn bản từ ảnh, từ đó tiến hành thử

nghiệm phân loại văn bản sau nhận dạng

4 Phương pháp nghiên cứu

- Phương pháp phân tích và tổng hợp: phân tích đối tượng nghiên cứu để xâydựng mô hình và tổng hợp các yếu tố cấu thành trong nhận dạng văn bản

- Phương pháp thực nghiệm: thực hiện việc chạy thử nghiệm trên đoạn mãPython Sau đó thu thập kết quả nhận dạng văn bản từ 3 loại mẫu ảnh, tiến hànhphân loại, đánh giá các kết quả sau nhận dạng từ ảnh

Trang 10

Chương 1: TỔNG QUAN VỀ VĂN BẢN VÀ LÝ THUYẾT NHẬN DẠNG

VĂN BẢN

1.1 LỊCH SỬ HÌNH THÀNH VĂN BẢN

1.1.1 Khái niệm văn bản

Văn bản là thông tin thành văn được truyền đạt bằng ngôn ngữ hoặc ký hiệu,hình thành trong hoạt động của các cơ quan, tổ chức và được trình bày đúng thểthức, kỹ thuật theo quy định

1.1.2 Phát minh ra văn bản

Những dạng cổ xưa nhất của văn bản mang những yếu tố như ký tự viết tắtdựa trên những yếu tố tượng hình và tượng ý Đa phần các hệ thống văn bản có thểchia làm ba loại: tượng ý, tượng thanh và chia đoạn Tuy vậy, cả ba loại này đều tìmthấy ở bất kỳ hệ thống văn bản nào với mức độ cấu thành khác nhau và khiến việcxếp loại mỗi hệ văn bản trở nên khó khăn và nhiều mâu thuẫn

Hình 1.1: Mẫu văn bản khoảng năm 2.400 TCN (Lá thư tìm thấy ở Telloh, thành

Lagash, Lưỡng Hà)

Trang 11

Phát minh văn bản đầu tiên cùng lúc với sự ra đời của thời kỳ đồ đồng ởcuối thời đồ đá mới, thiên niên kỷ 4 TCN Người ta tin rằng hệ thống văn bản đầutiên của loài người ra đời cuối thiên niên kỷ 3 TCN tại vùng Sumer (Lưỡng Hà) ởdạng chữ hình nêm cổ xưa ở Triều đại Ur thứ ba Cùng thời gian đó, những dạngtiền văn bản Elamite phát triển thành văn bản Elamite có hàng lối (dạng văn bảnnày cho đến nay vẫn chưa giải mã được).

Sự phát triển của văn bản tượng hình Ai cập song song với những ký tựvùng Lưỡng Hà và không nhất thiết là độc lập với nhau Hệ thống tiền ký tự củangười Ai Cập tiến hóa thành những ký tự tượng hình cổ xưa vào khoảng 3.200 nămTCN và phổ biến rộng rãi ở giữa thiên niên kỷ 3 TCN

Ký tự của nền văn minh sông Ấn phát triển trong suốt thiên niên kỷ 3 cả ởdạng tiền văn bản hoặc dạng văn bản cổ xưa tuy vậy quá trình phát triển này tiếnnhanh hơn khi nền văn minh đi qua giai đoạn đỉnh điểm vào khoảng 1.900 nămTCN

Văn bản của người Trung Quốc có lẽ là không cùng nguồn gốc với các nềnvăn minh Trung Đông Từ hệ thống biểu tượng tiền văn bản ở cuối thời kỳ đồ đámới khoảng 6.000 năm TCN, văn bản Trung Quốc ra đời khoảng 1.500 năm TCNvào thời nhà Thương

Những hệ thống văn bản ở châu Mỹ (bao gồm nền văn minh Maya và Olmec)cũng có những nguồn xuất xứ độc lập

Phần lớn các hệ thống văn bản trên thế giới ngày này đều bắt nguồn từ Ai Cậphoặc Trung Quốc Có một vài ngoại lệ là hệ thống tượng ý của người Maya xuấthiện thế kỷ thứ 3 TCN và các ký tự tìm thấy trên đảo Phục Sinh

1.1.3 Các loại hình văn bản qua các thời kỳ

1.1.3.1 Văn bản thời đại đồ đồng

Văn bản hình nêm

Hệ thống văn bản nguyên thủy của người Sumer bắt nguồn từ những phiến đấtsét được sử dụng để chỉ tên đồ vật Cho đến cuối thiên niên kỷ 4 TCN, hệ thống này đãphát triển thành một phương pháp lưu lại các bản kê, sử dụng bút trâm đầu tròn ấn lên

Trang 12

tấm đất sét theo các góc khác nhau để ký hiệu con số Cách ghi này dần được gia tố cácbiểu tượng ghi bằng bút trâm sắc để chỉ ra cái gì được đếm Ghi chép sử dụng bút trâmđầu tròn và bút trâm đầu sắc, theo thời gian, được thay thế bằng bút trâm đầu hình nêm(vì thế mà có tên văn bản hình nêm) vào khoảng 2.700 – 2.500 năm TCN Ban đầu chỉ

có những ký hiệu ghi hình (xtôi chữ tượng hình) nhưng đã phát triển, đưa vào yếu tốngữ âm ở thời gian thế kỷ 29 TCN Chừng 2.600 năm TCN, văn bản hình nêm bắt đầuthể hiện âm tiết trong nhóm ngôn ngữ Sumer vùng Lưỡng Hà

Hình 1.2: Mẫu văn bản hình nêm viết trên đất sétCuối cùng, văn bản hình nêm trở thành hệ thống văn bản phổ biến ghi lại kýhiệu ghi hình, âm tiết và con số Kể từ thế kỷ 26 TCN, dạng văn bản này du nhậpvào ngôn ngữ Akkad (một ngôn ngữ trong nhóm Sumer) và các ngôn ngữ khác nhưHurria (ngôn ngữ được nói ở phía bắc Lưỡng Hà khoảng 2.300 năm TCN và gầnnhư biến mất 1.000 năm TCN) và Hittite (ngôn ngữ đã biến mất, đã từng được nói ởtrung tâm Tiểu Á từ 1.600 đến 1.100 năm TCN) Những ký tự tương tự còn đượctìm thấy trong ngôn ngữ Ugaritic (ngôn ngữ đã biến mất, từng được sử dụng ởUgarit, Syria) và Ba Tư cổ

Trang 13

Văn bản Ai Cập cổ đại

Văn bản đóng vai trò quan trọng trong việc duy trì đế chế Ai Cập, nơi mà đọc

và viết là đặc quyền của nhóm người có địa vị, quyền lực, được giáo dục để ghichép và giữ gìn văn bản Chỉ những người với xuất thân nhất định mới được đào tạo

để trở thành người ghi chép và giữ gìn văn bản

Hình 1.3: Mẫu văn bản khắc trên tường đá Ai cập cổ đại

Họ phục vụ trong đền thờ, quân đội và hệ thống hành chính của nhà vua(Pharaon) Hệ thống văn bản Ai Cập luôn phức tạp, khó học, nhưng trong nhiều thế

kỷ sau khi ra đời, chúng còn trở nên khó học hơn nhiều Chủ ý của thực tế này lànhằm duy trì đặc quyền của những người ghi chép và giữ gìn văn bản

Văn bản Trung Hoa

Hình 1.4: Mẫu văn bản Trung hoa cổ đại được tìm thấy trên xương động vật,

mai rùa,…

Trang 14

Ở Trung Quốc, các nhà sử học biết được rất nhiều điều về những Triều đạiTrung Hoa đầu tiên nhờ những văn bản còn sót lại Từ thời nhà Thương, đa sốnhững ghi chép này tìm thấy trên xương động vật hoặc bản ghi bằng đồng Nhữngvăn bản ghi trên mai rùa, qua phương pháp xác định tuổi bằng đồng vị carbon chothấy chúng được tạo ra từ khoảng 1.500 năm TCN Các nhà sử học phát hiện rarằng loại vật liệu được sử dụng có ảnh hưởng đến văn bản được ghi chép và cáchthức sử dụng chúng.

Có những phát hiện gần đây về các mai rùa có niên đại khoảng 6.000 nămTCN như các ký hiệu tìm thấy ở Jiahu, nhưng liệu chúng đã đủ phức tạp để đượccoi là văn bản hay chưa thì vẫn còn tranh cãi

Văn bản Ấn Độ

Hình 1.5: Mẫu văn bản Ấn độ cổ đại khắc trên đáNhững ký hiệu tìm thấy của nền văn minh sông Ấn thời đồ đồng giữa vẫnchưa giải nghĩa được Vẫn chưa rõ những ký hiệu này được xếp vào ký hiệu tiền ký

tự hay đó là một dạng văn bản biểu tượng-ngữ âm của các hệ thống văn bản thời kỳ

đồ đồng khác

1.1.3.2 Thời kỳ đồ sắt và sự ra đời hệ thống văn bản hoa

Bảng chữ cái Phoenicia là hệ thống tiền chữ cái Canaan được tiếp tục pháttriển ở thời kỳ đồ sắt (được cho là kế thừa từ sự chấm dứt của hệ thống này năm

Trang 15

1.050 TCN) Hệ thống chữ cái này đưa đến sự ra đời của chữ cái Aramaic và chữcái Hy Lạp; rồi thông qua người Hy Lạp, dẫn đến sự ra đời của các chữ cái Tiểu

Á và chữ cái Italic cổ (bao gồm tiếng Latin) vào thể kỷ 8 TCN Chữ cái Hy Lạp đưavào các ký hiệu nguyên âm Nhóm văn bản Brahmic của Ấn Độ có lẽ hình thành từthế kỷ 5 TCN từ những tiếp xúc với văn bản Aramaic

Hình 1.6: Mẫu văn bản Hy Lạp cổ đạiVăn bản Hy Lạp và Latin vào các thế kỷ đầu Công nguyên là phát tích củamột số hệ thống ký tự châu Âu như chữ cái Runes, chữ cái Gothic và chữ cáiCyrillic Trong khi đó, văn bản Aramaic là khởi nguồn của chữ cái Hebrew, chữ cáiSyriac và chữ cái Arabic; chữ cái nam Ả rập mang đến sự hình thành chữ cái Ge’ez.Cũng thời gian này (thế kỷ 4), văn bản Nhật Bản ra đời từ văn bản Trung Hoa

Trang 16

1.2 TỔNG QUAN LÝ THUYẾT NHẬN DẠNG VĂN BẢN

1.2.1 Giới thiệu

1.2.1.1 Lịch sử hình thành và sự cần thiết của khoa học nhận dạng

Từ giữa những năm 50 của thế kỷ XX, nhận dạng là một lĩnh vực có sức hấpdẫn rất lớn cho việc nghiên cứu và phát triển, thu hút nhiều nhà khoa học tham gianghiên cứu Những sản phẩm nhận dạng văn bản mang tính thương mại bắt đầuxuất hiện vào những năm 60 Một vài phương pháp nhận dạng đơn giản đã đượcđưa vào áp dụng Có thể kể một vài sản phẩm tiêu biểu là: IBM 1418, IBM 1428,IBM 1285, IBM 1287 của IBM, Facom 6399 của Fuitsu và H-852 của Hitachi Vàonhững năm 70, những tiến bộ về công nghệ cho phép chế tạo các máy quét laser giá

rẻ có chất lượng cao, một số phần mềm khác cũng được giới thiệu, được viết chủyếu trên nền FORTRAN, sản phẩm nâng cấp H8959 của Hitachi đã đạt tới độ chínhxác 100% nếu sử dụng mẫu chữ một người và thử nghiệm lại bằng chính nét chữcủa người đó Đặc biệt là trong những năm gần đây, cùng với sự bùng nổ các thiết

bị cảm ứng cầm tay, nhận dạng không chỉ còn là lĩnh vực nghiên cứu lý thuyết nữa

mà đã được ứng dụng rộng rãi trong thực tế cuộc sống Các bài toán nhận dạngđược nghiên cứu nhiều nhất hiện nay bao gồm nhận dạng các mẫu hình học (vântay, mặt người, hình khối,…), nhận dạng tiếng nói và nhận dạng văn bản Chúngđược áp dụng vào nhiều lĩnh vực như y học, dự báo thời tiết, dự báo cháy rừng, điềukhiển robot, Trong đó bài toán nhận dạng văn bản là bài toán có sức thu hút hơn

cả bởi sự bùng nổ các thiết bị cầm tay cảm ứng hiện nay

Bạn hãy tưởng tượng trong tương lai mà một máy tính không cần bàn phím.Thay vào đó tất cả các lệnh và dữ liệu được cho vào máy tính một cách rất tự nhiên:bằng văn bản Khi đó tất cả các công việc tẻ nhạt của con người chẳng hạn như đọckiểm tra trong hệ thống ngân hàng, phân loại thư trong hệ thống bưu chính đượcthay thế bằng máy móc Điều này chỉ có thể thực hiện được khi máy tính hiểu đượccác ký tự bạn viết trên văn bản đó, máy tính nhận dạng được các ký tự viết tay củabạn Đó là một thực tế để thấy được tiềm năng to lớn của lĩnh vực nhận dạng vănbản

Trang 17

Trong bối cảnh các thiết bị cảm ứng như smart phone, Ipad… ngày càng trởnên phổ biến, người ta có thể viết trực tiếp trên một màn hình tinh thể lỏng (LCD)hiển thị với một bút điện tử hay đơn đơn giản là ngón tay Màn hình là một ma trậnnhạy cảm ghi lại sự chuyển động của đầu bút trên bề mặt Quỹ đạo của các cây bútxuất hiện gần như ngay lập tức trên màn hình Nhận dạng văn bản dựa trên quỹ đạobút khi đó đóng vai trò quan trọng cho phép máy tính hiểu người viết muốn thựchiện thao tác gì, tập lệnh gì Việc nhận dạng văn bản trong trường hợp này có ưuthế hơn so với hình thức nhận dạng tiếng nói ở tính bảo mật.

Trong hệ thống ngân hàng, các biểu mẫu thuế tự động và máy đọc tự động lànhững ứng dụng rất hấp dẫn nhận dạng văn bản Loại ứng dụng này có đặc điểm sốlượng từ vựng sử dụng ít Các từ vựng khoảng 35 từ và số, như đơn vị tiền tệ….Nếu

sử dụng loại máy này sẽ tiết kiệm chi phí về thời gian và nhân lực Tuy nhiên nó đòihỏi một sự công nhận tỷ lệ rất cao mà đây vẫn là một trở ngại trong hệ thống nhậndạng văn bản

Trong các ứng dụng bưu chính, với đặc điểm sử dụng vốn từ vựng lớn, cóchứa tất cả đường phố, thành phố, quận huyện, và quốc gia tên Hiện nay, có tồn tạicác thiết bị tự động có thể sắp xếp thư dựa vào việc đọc mã zip Tuy nhiên trongnhiều trường hợp, một hoặc nhiều chữ số trong các mã zip được nhận dạng sai cóthể gây ra phân loại sai Để cải thiện hiệu suất của thiết bị phân loại, công nhận tênđường phố và thành phố nên được kết hợp với nhận dạng mã vùng

Một ứng dụng quan trọng của nhận dạng văn bản là sự sao chép của văn bảndạng văn bản cho phép máy tính có thể đọc được văn bản Rõ ràng, văn bản đượcviết bởi một cây bút và tờ giấy nhanh hơn và dễ dàng hơn nhiều nếu gõ từ bànphím, đặc biệt là đối với ngôn ngữ như Trung Quốc, Lào, Thái Lan… Các ứngdụng sao chép văn bản là rất lớn Ví dụ trong lưu trữ hệ thống để lưu trữ các tài liệulưu trữ hàng trăm năm tuổi, dữ liệu sẽ được quét thành các file ảnh và sau đó đượclưu trữ trong các thiết bị lưu trữ như đĩa cứng và đĩa CD ROM Tuy nhiên ngay cảđối với các tập tin hình ảnh định dạng tốt nhất, kích thước vẫn còn rất lớn so vớikích thước của một tập tin văn bản Với hệ thống sao chép văn bản tất cả các tài liệu

Trang 18

đầu tiên được quét và sau đó chuyển đổi và được lưu trữ trong các hình thức của cáctập tin văn bản, yêu cầu không gian ít hơn Một hệ thống như vậy đtôi lại lợi íchkinh tế rất lớn.

Rõ ràng, tất cả các ứng dụng trên phụ thuộc mạnh mẽ vào tính chính xác của

hệ thống nhận dạng Câu hỏi đặt ra là chúng ta đã xây dựng được một hệ thống đápứng được các nhu cầu thực tế đó chưa? Câu trả lời chúng ta đã có những hệ thốngnhận dạng tuy nhiên tính chính xác tuyệt đối vẫn còn cần thời gian nghiên cứu thêm Chỉ có một vài năm trước đây, nhận dạng văn bản dường như ngoài tầm với, ngàynay giấc mơ đã trở thành hiện thực thực Nhiều hệ thống nhận dạng ra đời với độchính xác cao đáp ứng được một số các nhu cầu cơ bản không đòi hỏi tính chínhxác tuyệt đối

1.2.1.2 Phân loại nhận dạng văn bản

Nhận dạng văn bản là lĩnh vực được nhiều nhà nghiên cứu quan tâm và chođến nay lĩnh vực này cùng đã đạt được nhiều thành tựu lớn lao cả về mặt lý thuyếtlẫn ứng dụng thực tế Lĩnh vực nhận dạng chữ được chia làm hai loại: Nhận dạngvăn bản chữ in và nhận dạng văn bản viết tay

1.2.1.3 Phong cách viết trong các hệ thống nhận dạng

Trong hệ thống nhận dạng một phong cách viết, các hệ thống được xây dựng

để nhận ra các văn bản của phong cách viết cụ thể Tỷ lệ nhận dạng của hệ thống là

vì thế cao cho đối với người viết đó và sẽ giảm xuống đáng kể cho những phongcách viết khác Trong hệ thống đa phong cách viết, các hệ thống được xây dựng đểnhận dạng với văn bản của hàng trăm phong cách viết khác nhau Do đó tỷ lệ nhậndạng đối với từng phong cách viết thấp hơn so với hệ thống đơn phong cách[1],[2].Tùy thuộc vào ứng dụng, hệ thống nhận dạng có thể được xây dựng dựa trên mộttrong hai cách trên Đối với một thiết bị cầm tay, sẽ tối ưu nếu chúng ta xây dựng hệthống đơn phong cách, trong khi đối với văn bản sao chép các ứng dụng hệ thống đaphong cách thực sự là một lựa chọn tốt hơn

Trang 19

1.2.2 Mô hình tổng quát của một hệ thống nhận dạng văn bản

Hình 1.7: Mô hình tổng quát hệ thống nhận dạng văn bản

1.2.2.1 Tiền xử lý

Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thống nhậndạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại Vì vậy,tùy thuộc vào chất lượng ảnh quét vào của từng văn bản cụ thể để chọn một hoặcmột vài chức năng trong khối này Nếu cần ưu tiên tốc độ xử lý và chất lượng củamáy quét tốt thì có thể bỏ qua giai đoạn này[4]

Khối tiền xử lý bao gồm một số chức năng:

Trang 20

“trắng”) và tất cả các giá trị bé hơn ngưỡng thành một giá trị độ sáng khác (“đen”)[5].

Hình 1.8: Ảnh gốc và ành sau khi đã được nhị phân hóa

Trang 21

Lọc nhiễu

Nhiễu là một tập các điểm sáng thừa, các phần tử ảnh mà giá trị của nó trội sovới các phần tử xung quanh Xét theo tần số, các phần tử nhiễu có tần số cao so vớicác điểm xung quanh Tuy nhiên, khái niệm trên chỉ mang tính tương đối[3]

Khử nhiễu là một vấn đề thường gặp trong nhận dạng, một công đoạn tiền xử

lý trong xử lý ảnh số, nhằm nâng cao chất lượng ảnh cho mắt con người hoặc đểphục vụ cho các công đoạn sau, xử lý tốt công đoạn này sẽ giúp cho các công đoạnsau tiến hành được dễ dàng hơn Nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễuđứt nét, nhiễu sạn, nhiễu cộng, nhiễu nhân, ) và cũng có nhiều phương pháp lọcnhiễu khác nhau.Tuy nhiên, tùy từng loại nhiễu mà ta nên sử dụng phương pháp lọcnhiễu nào cho phù hợp vì không phải phương pháp nào cũng có thể lọc được hết tất

cả các loại nhiễu[3]

Hình 1.9: Nhiễu đốm và nhiễu vệtMột số phương pháp lọc nhiễu phổ biến:

Lọc trung vị

Phương pháp lọc trung vị có hiệu qua khá cao và áp dụng được với nhiều loạiảnh có nhiễu khác nhau, nhất là nhiễu sạn, do nhiễu sạn có các phần tử của nhiễunhỏ nên xác xuất điểm nằm gần điểm nhiễu trở thành trung vị là rất cao, vì vậy, saukhi lọc, các điểm nhiễu hầu như sẽ được thay thế bởi thông tin của các điểm lân

Trang 22

cận Quá trình lọc nhiễu không làm ảnh hưởng nhiều tới ảnh gốc, ít làm mờ ảnh sovới các bộ lọc làm trơn tuyến tính Đặc biệt, phương pháp này đồng thời có thể lọctốt với cả 2 loại nhiễu xung đơn cực và lưỡng cực.

Nhưng vì thuật toán lọc nhiễu có độ phức tạp lớn nên nếu ảnh có kích thướclớn thì số phép toán sẽ khá lớn

Lọc trung bình

Với các ảnh nhiễu dàn đều trên toàn ảnh thi phương pháp này có khả năng làm

mờ nhiễu, giảm sự khác biệt về mức sáng giữa các điểm ảnh của ảnh gốc và cácđiểm ảnh bị nhiễu tác động

Phương pháp này gần giống phương pháp lọc hình học, tuy nhiên nó có ưuđiểm hơn là nó không làm mờ ảnh nhiều như lọc hình học

Phương pháp này lọc tốt đối với những ảnh bị nhiễu random như nhiễuGaussian hoặc nhiễu Uniform

Tuy nhiên, quá trình làm mờ nhiễu cũng đồng thời làm mờ ảnh, vì bộ lọc trungbình có xu hướng cân bằng cường độ sáng các điểm ảnh Cũng như bộ lọc Median,với các ảnh có kích thước lớn thì số phép toán phải thực hiện lớn

Bộ lọc trung bình có vai trò làm trơn ảnh có thể xtôi như bộ lọc thông cao,nhưng lại làm mờ đường biên của các đối tượng bên trong ảnh, và lọc nhiễu tiêukhông được tốt lắm

Trang 23

Lọc tốt đối với nhiễu muối ( như hình dưới đây), và các kiểu nhiễu khác như

là nhiễu Gaussian nhưng không hiệu quả đối với nhiễu tiêu

Lọc phi điều hòa

Phương pháp này tỏ ra khá hiệu quả đối với những vùng nhiễu đậm và vẫn giữđược chất lượng của ảnh

Nhược điểm là quá trình làm mờ nhiễu nhưng cũng làm mờ ảnh Điều nàyđược giải thích vì phương pháp này làm phân tán các các điểm nhiễu ra xungquanh Khi sử dụng phương pháp này cần phải biết trước nhiễu là tối hay sáng( nhiễu muối hay nhiễu tiêu) để chọn giá trị thuật toán cho phù hợp Nếu không kếtquả sẽ xấu đi rất nhiều Vì vậy cũng đồng nghĩa với việc là nó không thể lọc đồngthời cả 2 loại nhiễu muối và nhiễu tiêu trên một ảnh

Tóm lại, để khử các nhiễu với kích thước nhỏ (nhiễu đốm, nhiễu sạn,…), cóthể sử dụng các phương pháp lọc (lọc trung bình, lọc trung vị ) Tuy nhiên, với cácnhiễu vệt (hoặc các nhiễu có kích thước lớn) thì các phương pháp lọc tỏ ra kém hiệuquả, trong trường hợp này sử dụng phương pháp khử các vùng liên thông nhỏ tỏ ra

có hiệu quả hơn

Chuẩn hóa kích thước ảnh

Hình 1.10: Chuẩn hóa kích thước ảnh các ký tự “A” và “P”

Trang 24

Việc chuẩn hóa kích thước ảnh dựa trên việc xác định trọng tâm ảnh, sau đóxác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dưới, trái, phải củahình chữ nhật bao quanh ảnh Thông qua khoảng cách lớn nhất đó, có thể xác địnhđược một tỷ lệ co, giãn của ảnh gốc so với kích thước đã xác định, từ đó hiệu chỉnhkích thước ảnh theo tỷ lệ co, giãn này Như vậy, thuật toán chuẩn hóa kích thướcảnh luôn luôn đảm bảo được tính cân bằng khi co giãn ảnh, ảnh sẽ không bị biếndạng hoặc bị lệch.

Làm trơn biên chữ

Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ không còngiữ được dáng điệu trơn tru ban đầu mà hình thành các đường răng cưa giả tạo.Trong các trường hợp này, phải dùng các thuật toán làm trơn biên để khắc phục

Hình 1.11: Ảnh gốc và ảnh sau khi làm trơn biên

Trang 25

Đây là một bước quan trọng nhằm phát hiện khung xương của ký tự bằng cáchloại bỏ dần các điểm biên ngoài của các nét Tuy nhiên, quá trình làm mảnh chữ rấtnhạy cảm với việc khử nhiễu.

Hình 1.12: Ảnh gốc và ảnh sau khi làm mảnh chữ

Điều chỉnh độ nghiêng của văn bản

Do trang tài liệu quét vào không cẩn thận hoặc do sự cố in ấn, các hàng chữ bịlệch so với lề chuẩn một góc a, điều này gây khó khăn cho công đoạn tách chữ, đôikhi không thể tách được Trong những trường hợp như vậy, phải tính lại tọa độđiểm ảnh của các chữ bị sai lệch

Có nhiều kỹ thuật để điều chỉnh độ nghiêng, kỹ thuật phổ biến nhất dựa trên

cơ sở biểu đồ chiếu (projection profile) của ảnh tài liệu; một số kỹ thuật dựa trên cơ

sở các phép biến đổi Hough và Fourier

Trang 26

Hình 1.13: Hiệu chỉnh độ nghiêng của văn bản

Tách chữ theo chiều nằm ngang và thẳng đứng

Phương pháp này thường áp dụng cho chữ in Kích thước và kiểu chữ cố định,phải tuân theo một số quy định in ấn, các chữ phải nằm gọn trong một khung nênviệc cô lập một ký tự đơn có thể đồng nhất với việc tìm ra khung bao của chữ đó tại

vị trí của nó trong văn bản Tách chữ theo chiều nằm ngang và thẳng đứng là tìmmột hình chữ nhật có cạnh thẳng đứng và nằm ngang chứa trọn một ký tự ở bêntrong

Tách chữ dùng lược đồ sáng

Trang 27

Hình 1.14: Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữĐối với văn bản thì việc tìm đường phân cách giữa các dòng và các ký tựtrong văn bản thường rất khó khăn Trong trường hợp này, không thể tìm đườngphân cách theo nghĩa thông thường mà phải hiểu là đường phân cách với số điểmcắt hai dòng là ít nhất Khi đó phải xây dựng lược đồ sáng của các dòng chữ, từ đócác đoạn thấp nhất trên lược đồ chính là đường phân cách cần tìm (hình trên và hínhdưới)[7].

Hình 1.15: Xác định khoảng cách giữa hai ký tự và giữa hai từ dựa trên

histogram theo chiều thẳng dứng của dòng chữ

1.2.2.3 Trích chọn đặc trưng

Trang 28

Trích chọn đặc trưng đóng vai trò cực kỳ quan trọng trong một hệ thống nhậndạng Trong trường hợp đơn giản nhất, ảnh đa cấp xám hoặc ảnh nhị phân được sửdụng cho việc nhận dạng Tuy nhiên, trong hầu hết các hệ nhận dạng, để giảm độphức tạp và tăng độ chính xác của các thuật toán phân lớp thì đòi hỏi các đặc trưngđược trích chọn phải rút gọn lại càng nhỏ càng tốt nhưng vẫn phải đảm bảo đượcthông tin của ký tự Với mục tiêu này, một tập các đặc trưng được trích chọn chomỗi lớp sao cho có thể phân biệt được với các lớp khác.

1.2.2.4 Huấn luyện và nhận dạng

Đây là giai đoạn quan trọng nhất, giai đoạn này quyết định độ chính xác của

hệ thống nhận dạng Có nhiều phương pháp phân lớp khác nhau được áp dụng chocác hệ thống nhận dạng văn bản[6]

1.2.2.5 Hậu xử lý

Đây là công đoạn cuối cùng của quá trình nhận dạng Có thể hiểu hậu xử lý làbước ghép nối các kí tự đã nhận dạng thành các từ, các câu, các đoạn văn nhằm táihiện lại văn bản đồng thời phát hiện ra các lỗi nhận dạng sai bằng cách kiểm trachính tả dựa trên cấu trúc và ngữ nghĩa của các từ, các câu hoặc các đoạn văn Việcphát hiện ra các lỗi, các sai sót trong nhận dạng ở bước này góp phần đáng kể vàoviệc nâng cao chất lượng nhận dạng[7]

Cách đơn giản nhất để kết nối các thông tin ngữ cảnh là tận dụng một từ điển

để điều chỉnh các lỗi của hệ thống nhận dạng

1.2.3 Các phương pháp nhận dạng văn bản

Các phương pháp nhận dạng mẫu đã được nghiên cứu và áp dụng rộng rãi vàocác hệ nhận dạng đối tượng hình học trong các thập Camera Sensor Thu nhận Sốhóa Lưu trữ Phân tích ảnh Phát hiện và trích chọn đặc trưng Đối sánh, nhận dạng

Hệ quyết định Lưu trữ 6 kỷ qua có thể tích hợp theo các hướng tiếp cận sau: Tríchrút đặc trưng, đối sánh mẫu, thống kê, cấu trúc, mô hình Markov ẩn, mạng nơ ron

và SVM[5]

Trang 29

1.2.3.1 Phương pháp trích rút đặc trưng

Phương pháp trích rút đặc trưng là một trong những phương pháp cổ điển củanhận dạng Phương pháp này được thể hiện rõ nét trong nhận dạng các đối tượnghình học Thuật toán nhận dạng được thực hiện thông qua 2 bước chính[4]:

Bước 1: Trích chọn các đặc tính từ các mẫu hình học đầu vào Bởi vì chúng tachủ yếu quan tâm tới việc nhận dạng các mẫu hình học, hệ thống nhận dạng cũngdựa chủ yếu trên các thông tin về mặt hình học

Bước 2: Sử dụng logic mờ hoặc ước lượng toán học: Để vượt qua giới hạn về

sự không rõ ràng giữa các hình, phương pháp sử dụng logic mờ để kết hợp một độ

đo nào đó trong việc nhận dạng các hình

1.2.3.2 Đối sánh mẫu

Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyênmẫu (prototype) với nhau để nhận dạng ký tự hoặc từ Nói chung, toán tử đối sánhxác định mức độ giống nhau giữa hai vé tơ (nhóm các điểm, hình dạng, độ cong )trong một không gian đặc trưng Các kỹ thuật đối sánh có thể nghiên cứu theo bahướng sau:

Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp xám hoặc ảnh nhị phânđược so sánh trực tiếp với một tập mẫu chuẩn đã được lưu trữ Việc so sánh dựatheo một độ đo về sự tương đồng nào đó (chẳng hạn như độ đo Euclide) để nhậndạng Các kỹ thuật đối sánh này có thể đơn giản như việc so sánh một - một hoặcphức tạp hơn như phân tích cây quyết định Mặc dù phương pháp đối sánh trực tiếpđơn giản và có một cơ sở toán học vững chắc nhưng kết quả nhận dạng của nó cũngrất nhạy cảm với nhiễu

Các mẫu biến dạng và Đối sánh mềm: Một phương pháp đối sánh khác là sửdụng các mẫu biến dạng, trong đó một phép biến dạng ảnh được dùng để đối sánhmột ảnh chưa biết với một cơ sở dữ liệu ảnh đã biết

Ý tưởng cơ bản của đối sánh mềm là đối sánh một cách tối ưu mẫu chưa biếtvới tất cả các mẫu có thể mà các mẫu này có thể kéo giãn ra hoặc co lại Chỉ mộtkhông gian đặc trưng được thành lập, các véc tơ chưa biết được đối sánh bằng cách

Trang 30

sử dụng quy hoạch động và một hàm biến dạng.

Đối sánh giảm nhẹ: Đây là một kỹ thuật đối sánh ảnh ở mức độ tượng trưng,

kỹ thuật này sử dụng hình dáng đặc trưng cơ bản của ảnh ký tự Thứ nhất, các vùngđối sánh đã được nhận biết Sau đó, trên cơ sở một số vùng đối sánh được đánh giátốt, các phần tử của ảnh được so sánh với các vùng đối sánh này Công việc này đòihỏi một kỹ thuật tìm kiếm trong một không gian đa chiều để tìm cực đại toàn cụccủa một số hàm

Các kỹ thuật đối sánh mẫu chỉ áp dụng tốt đối với nhận dạng chữ in, còn đốivới văn bản thì các kỹ thuật này tỏ ra kém hiệu quả

1.2.3.3 Phương pháp tiếp cận cấu trúc

Cách tiếp cận của phương pháp này dựa vào việc mô tả đối tượng nhờ một sốkhái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượngngười ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung, Mỗi đối tượngđược mô tả như một sự kết hợp của các dạng nguyên thuỷ

Các quy tắc kết hợp các dạng nguyên thuỷ được xây dựng giống như việcnghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết định nhận dạng làquá trình phân tích cú pháp Phương pháp này đặt vấn đề để giải quyết bài toánnhận dạng chữ tổng quát Tuy vậy, cho đến nay còn nhiều vấn đề liên quan đến hệnhận dạng cú pháp chưa được giải quyết độc lập và chưa xây dựng được các thuậttoán phổ dụng Hiện nay, nhận dạng theo cấu trúc phổ biến là trích trọn các đặctrưng của mẫu học, phân hoạch bảng ký tự dựa trên các đặc trưng này, sau đó ảnhcần nhận dạng sẽ được trích chọn đặc trưng, sau đó so sánh trên bảng phân hoạch

để tìm ra ký tự có các đặc trưng phù hợp

Đối với nhận dạng văn bản rời rạc dựa theo cấu trúc xương và đường biên,công việc này đòi hỏi phải xây dựng các đặc trưng của chữ, đặc biệt là đặc trưng vềcác điểm uốn, điểm gấp khúc và đặc trưng của các nét Sau khi tiến hành công đoạntiền xử lý, công việc tách các nét được tiến hành thông qua các điểm chạc Sau đótrích chọn đặc trưng cấu trúc xương của chữ, mỗi nét đặc trưng bởi cặp chỉ số đầu

và cuối tương ứng với thứ tự của điểm chạc đầu và điểm chạc cuối Cuối cùng là

Trang 31

xây dựng cây tìm kiếm, dựa vào đặc trưng về cấu trúc xương và cấu trúc biên đểphân tập mẫu học thành các lớp Quá trình tìm kiếm để phân lớp được tiến hành quahai bước: Xác định lớp tương ứng với mẫu vào và tìm kiếm trong lớp đó mẫu nàogần giống với mẫu vào nhất

Các phương pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ được pháttriển theo hai hướng sau:

Phương pháp ngữ pháp (Grammatical Methods)

Giữa thập niên 1960, các nhà nghiên cứu bắt đầu xét các luật của ngôn ngữhọc để phân tích tiếng nói và văn bản Sau đó, các luật đa dạng của chính tả, từvựng và ngôn ngữ học đã được áp dụng cho các chiến lược nhận dạng Các phươngpháp ngữ pháp khởi tạo một số luật sinh để hình thành các ký tự từ một tập cáccông thức ngữ pháp nguyên thủy Các luật sinh này có thể kết nối bất kỳ kiểu đặctrưng thống kê và đặc trưng hình thái nào dưới một số cú pháp hoặc các luật ngữnghĩa Giống như lý thuyết ngôn ngữ, các luật sinh cho phép mô tả các cấu trúc câu

có thể chấp nhận được và trích chọn thông tin theo ngữ cảnh về văn bản bằng cách

sử dụng các kiểu ngữ pháp khác nhau

Trong các phương pháp này, việc huấn luyện được thực hiện bằng cách mô tảmỗi ký tự bằng một văn phạm Gi Còn trong pha nhận dạng thì chuỗi, cây hoặc đồthị của một đơn vị viết bất kỳ (ký tự, từ hoặc câu) được phân tích để quyết định vănphạm của mẫu đó thuộc lớp nào Các phương pháp ngữ pháp hầu hết được sử dụngtrong giai đoạn hậu xử lý để sửa các lỗi mà khối nhận dạng đã thực hiện sai

Phương pháp đồ thị (Graphical Methods)

Các đơn vị văn bản được mô tả bởi các cây hoặc các đồ thị Các dạng nguyênthủy của ký tự (các nét) được lựa chọn bởi một hướng tiếp cận cấu trúc Đối vớimỗi lớp, một đồ thị hoặc cây được thành lập trong giai đoạn huấn luyện để mô tảcác nét, các ký tự hoặc các từ Giai đoạn nhận dạng gán một đồ thị chưa biết vàomột trong các lớp bằng cách sử dụng một độ đo để so sánh các đặc điểm giống nhaugiữa các đồ thị

Trang 32

Có rất nhiều hướng tiếp cận khác nhau sử dụng phương pháp đồ thị, tiêu biểu

là hướng tiếp cận đồ thị phân cấp được dùng trong việc nhận dạng văn bản TrungQuốc và Hàn Quốc

1.2.3.4 Mạng nơron

Một mạng nơ ron được định nghĩa như một cấu trúc tính toán bao gồm nhiều

bộ xử lý “nơ ron” được kết nối song song chằng chịt với nhau Do bản chất songsong của các nơ ron nên nó có thể thực hiện các tính toán với tốc độ cao hơn so vớicác kỹ thuật phân lớp khác Một mạng nơ ron chứa nhiều nút, đầu ra của một nútđược sử dụng cho một nút khác ở trong mạng và hàm quyết định cuối cùng phụthuộc vào sự tương tác phức tạp giữa các nút Mặc dù nguyên lý khác nhau, nhưnghầu hết các kiến trúc mạng nơ ron đều tương đương với các phương pháp nhận dạngmẫu thống kê

Các kiến trúc mạng nơ ron có thể được phân thành hai nhóm chính: mạngtruyền thẳng và mạng lan truyền ngược Trong các hệ thống nhận dạng chữ, cácmạng nơ ron sử dụng phổ biến nhất là mạng perceptron đa lớp thuộc nhóm mạngtruyền thẳng và mạng SOM (Self Origanizing Map) của Kohonen thuộc nhómmạng lan truyền ngược

Mạng perceptron đa lớp được đề xuất bởi Rosenblatt được nhiều tác giả sửdụng trong các hệ nhận dạng văn bản Hầu hết các nghiên cứu phát triển nhận dạngvăn bản hiện nay đều tập trung vào mạng SOM SOM kết hợp trích chọn đặc trưng

và nhận dạng trên một tập lớn các ký tự huấn luyện Mạng này chứng tỏ rằng nótương đương với thuật toán phân cụm k-means

Với thuật toán đơn giản nhưng rất hiệu quả, cùng với thành công của mô hìnhnày trong các ứng dụng thực tiễn, mạng nơ ron hiện đang là một trong các hướngnghiên cứu của lĩnh vực học máy Mạng nơ ron tỏ ra phù hợp với các bài toán đốisánh, phân loại mẫu, xấp xỉ hàm, tối ưu hoá, lượng tử hoá véc tơ và phân hoạchkhông gian dữ liệu, trong khi các phương pháp truyền thống không đủ khả năng giảiquyết các vấn đề nêu trên một cách hiệu quả Đặc biệt trong các hệ thống nhận dạng

sử dụng mạng nơ ron đã đạt được tỉ lệ nhận dạng khá chính xác, có thể so sánh với

Trang 33

các phương pháp nhận dạng cấu trúc, thống kê,

Đặc trưng của mạng nơ ron phi tuyến

Một nơron có thể tính toán một cách tuyến tính hay phi tuyến Một mạngnơron cấu thành bởi các nơron phi tuyến thì cũng sẽ có tính phi tuyến Hơn nữa,điều đặc biệt là tính phi tuyến này được phân tán trên toàn mạng Tính phi tuyến làmột thuộc tính rất quan trọng, nhất là khi các cơ chế vật lý sinh ra các tín hiệu đầuvào (ví dụ tín hiệu tiếng nói) vốn là phi tuyến

Tính chất tương ứng đầu vào, đầu ra

Mặc dù khái niệm “học” (hay “huấn luyện”) chưa được bàn đến nhưng để hiểuđược mối quan hệ đầu vào-đầu ra của mạng nơron, chúng ta sẽ đề cập sơ qua vềkhái niệm này Một mô hình học phổ biến được gọi là “học có thầy” (hay “học cógiám sát”), liên quan đến việc thay đổi các trọng số liên kết của mạng nơron bằngviệc áp dụng một tập hợp các mẫu tích luỹ Mỗi một mẫu bao gồm một tín hiệu đầuvào và một đầu ra mong muốn tương ứng Các trọng số liên kết của mạng được biếnđổi sao cho có thể cực tiểu hoá sự sai khác giữa đầu ra mong muốn và đầu ra thực

sự của mạng theo một tiêu chuẩn thống kê thích hợp Sự tích luỹ của mạng được lặplại với nhiều ví dụ trong tập hợp cho tới khi mạng đạt tới một trạng thái ổn định mà

ở đó không có một sự thay đổi đáng kể nào của các trọng số liên kết Các ví dụ tíchluỹ được áp dụng trước có thể được áp dụng lại trong thời gian của phiên tích luỹnhưng theo một thứ tự khác Như vậy, mạng nơron học từ các ví dụ bằng cách xâydựng nên một tương ứng đầu vào - đầu ra cho vấn đề cần giải quyết

Tính chất thích nghi

Các mạng nơron có một khả năng mặc định là có thể biến đổi các trọng số liênkết tuỳ theo sự thay đổi của môi trường xung quanh Đặc biệt, một mạng nơron đãđược tích luỹ để hoạt động trong một môi trường xác định có thể được tích luỹ lạimột cách dễ dàng khi có những thay đổi nhỏ của các điều kiện môi trường

Tính chất đưa ra lời giải có bằng chứng

Trang 34

Trong ngữ cảnh phân loại mẫu, một mạng nơron có thể được thiết kế để đưa rathông tin không chỉ về mẫu được phân loại, mà còn về sự tin cậy của quyết định đãđược thực hiện Thông tin này có thể được sử dụng để loại bỏ các mẫu mơ hồ haynhập nhằng.

Tính chất chấp nhận sai sót

Một mạng nơron, được cài đặt dưới dạng phần cứng, vốn có khả năng chấpnhận lỗi, hay khả năng tính toán thô (chứ không nhạy cảm lỗi) Tức là, tính năngcủa mạng nơron chỉ thoái hoá (chứ không đổ vỡ) khi có những điều kiện hoạt độngbất lợi Ví dụ, nếu một nơron hay các liên kết kết nối của nó bị hỏng, việc nhậndạng lại một mẫu được lưu trữ sẽ suy giảm về chất lượng Tuy nhiên, do bản chấtphân tán của thông tin lưu trữ trong mạng nơron, sự hỏng hóc cũng được trải ra trêntoàn mạng Như vậy, về cơ bản, trong trường hợp này một mạng nơron sẽ thể hiệnmột sự thoái hoá về tính năng hơn là sự đổ vỡ trầm trọng

Khả năng cài đặt VLSI (Very-Large-Scale-Intergrated)

Bản chất song song đồ sộ của một mạng nơron làm cho mạng nơron đó rấtnhanh trong tính toán đối với một số công việc Đặc tính này cũng làm cho mộtmạng nơron có khả năng phù hợp trong việc cài đặt sử dụng kỹ thuật Very -large-scale-intergrated (VLSI) Kỹ thuật này cho phép xây dựng những mạch cứng tínhtoán song song quy mô lớn Chính vì vậy, ưu điểm nổi bật của VLSI là mang lạinhững phương tiện hữu hiệu để có thể xử lý được những hành vi có độ phức tạpcao

Tính chất đồng dạng trong phân tích và thiết kế[14]

Về cơ bản, các mạng nơron có tính chất chung như là các bộ xử lý thông tin.Điều này áp dụng cho tất cả các lĩnh vực có liên quan tới việc ứng dụng mạngnơron Đặc tính này thể hiện ở một số điểm như sau:

Các nơron, dưới dạng này hoặc dạng khác, biểu diễn một thành phần chungcho tất cả các mạng nơron

Trang 35

Tính thống nhất này đtôi lại khả năng chia sẻ các lý thuyết và các thuật toánhọc trong nhiều ứng dụng khác nhau của mạng nơron.

Các mạng tổ hợp (modular) có thể được xây dựng thông qua một sự tíchhợp các mô hình khác nhau

Banking: Bộ đọc séc và các tài liệu, tính tiền của thẻ tín dụng

Defense: Định vị - phát hiện vũ khí, dò mục tiêu, phát hiện đối tượng, nhậndạng nét mặt, các bộ cảm biến thế hệ mới, xử lý ảnh radar,

Electronics: Dự đoán mã tuần tự, sơ đồ chip IC, điều khiển tiến trình, phântích nguyên nhân hỏng chip, nhận dạng tiếng nói, mô hình phi tuyến

Entertainment: Hoạt hình, các hiệu ứng đặc biệt, dự báo thị trường

Financial: Định giá bất động sản, cho vay, kiểm tra tài sản cầm cố, đánh giámức độ hợp tác, phân tích đường tín dụng, chương trình thương mại qua giấy tờ,phân tích tài chính liên doanh, dự báo tỷ giá tiền tệ

Insurance: Đánh giá việc áp dụng chính sách, tối ưu hóa sản phẩm

1.2.3.5 Mô hình Markov ẩn (HMM - Hidden Markov Model)

HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh tiếntrình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát Mỗi chuỗi quansát được sinh ra bởi một chuỗi các phép chuyển trạng thái, bắt đầu từ trạng thái khởiđầu cho đến khi thu được trạng thái kết thúc Tại mỗi trạng thái thì một phần tử củachuỗi quan sát được phát sinh ngẫu nhiên trước khi chuyển sang trạng thái tiếptheo[11]

1.2.3.6 Máy véc tơ tựa (SVM)

Giới thiệu

Trang 36

Hiện nay, việc nhận dạng văn bản vẫn chưa có được một giải pháp tổng thể,các ứng dụng của nó cũng chỉ giới hạn trong phạm vi hẹp Các kết quả chủ yếu vềlĩnh vực này chỉ tập trung trên các tập dữ liệu chữ số viết tay chuẩn như USPS vàMNIST, bên cạnh đó cũng có một số công trình nghiên cứu trên các hệ chữ cáitiếng La tinh, Hy Lạp, Trung Quốc, Việt Nam tuy nhiên các kết quả đạt đượccũng còn nhiều hạn chế.

Các giải pháp tiếp cận để giải bài toán nhận dạng văn bản khá phong phú, một

số phương pháp học máy thường được áp dụng như: mô hình Markov ẩn, mạng nơron hay phương pháp máy véc tơ tựa (SVM - Support Vector Machines) Trong đóSVM được đánh giá là phương pháp học máy tiên tiến đang được áp dụng rộng rãitrong các lĩnh khai phá dữ liệu và thị giác máy tính SVM gốc được thiết kế để giảibài toán phân lớp nhị phân, ý tưởng chính của phương pháp này là tìm một siêuphẳng phân cách sao cho khoảng cách lề giữa hai lớp đạt cực đại Khoảng cách nàyđược xác định bởi các véc tơ tựa (SV - Support Vector), các SV này được lọc ra từtập mẫu huấn luyện bằng cách giải một bài toán tối ưu lồi[11]

Mô hình nhận dạng văn bản rời rạc

Trong phần này, sẽ tập trung xây dựng mô hình nhận dạng văn bản rời rạctheo phương pháp phân lớp SVM[14] Công việc được thực hiện theo hai bướcchính sau đây:

Bước 1: Xây dựng mô hình huấn luyện

Tập dữ liệu huấn luyện sau khi qua các khâu tiền xử lý và trích chọn đặc trưng

sẽ được đưa vào máy huấn luyện phân lớp SVM Sau khi kết thúc quá trình huấnluyện, hệ thống sẽ lưu lại giá trị các tham số của hàm quyết định phân lớp để phục

vụ cho việc nhận dạng sau này Quá trình huấn luyện tiêu tốn khá nhiều thời gian,tốc độ huấn luyện nhanh hay chậm tùy thuộc vào từng thuật toán huấn luyện, chiếnlược phân lớp SVM cũng như số lượng mẫu tham gia huấn luyện

Bước 2: Phân lớp nhận dạng

Dựa vào giá trị các tham số của hàm quyết định thu được ở Bước 1, một mẫumới x sau khi đã qua các khâu tiền xử lý và trích chọn đặc trưng sẽ được đưa vào

Tiêu đề	Nghiên Cứu Phương Pháp Nhận Dạng Văn Bản Từ Ảnh Và Ứng Dụng Trong Phân Loại Văn Bản
Tác giả	Trần Nguyễn Minh Bảo
Người hướng dẫn	TS. Lương Văn Nghĩa
Trường học	Trường Đại Học Duy Tân
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	Đà Nẵng

Định dạng
Số trang	73
Dung lượng	3,25 MB