1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài nghiên cứu khoa học toán ứng dụng

100 7,5K 7
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 100
Dung lượng 2,06 MB

Nội dung

đề tài nghiên cứu khoa học toán ứng dụng

Trang 2

1.3.2.1 Phương pháp ngữ pháp (Grammatical Methods): 27

1.3.2.2 Phương pháp đồ thị (Graphical Methods): 28

1.3.3 Mạng nơ ron 28

1.3.4 Các phương pháp thống kê 29

1.3.4.1 Nhận dạng phi tham số 29

1.3.4.2 Nhận dạng có tham số 30

1.3.4.3 Mô hình Markov ẩn (HMM - Hidden Markov Model) 30

1.3.5 Máy véc tơ tựa (SVM) 30

2.2.1 Siêu phẳng với khoảng cách lề cực đại 36

2.2.2 Tìm siêu phẳng tối ưu 38

2.4.1 Cực tiểu hóa rủi ro cấu trúc 48

2.4.2 Cực tiểu hóa rủi ro thực nghiệm 49

2.4.3 Cực tiểu hóa cận rủi ro 50

2.5.CÁCTHUẬTTOÁNHUẤNLUYỆNSVM 52

2.5.1 Thuật toán chặt khúc 52

2.5.2 Thuật toán phân rã 53

2.5.3 Thuật toán SMO 54

Trang 3

2.5.3.1 Tối ưu hai nhân tử Lagrange 54

2.5.3.2 Chọn hai nhân tử để tối ưu theo phương pháp heuristic 56

2.6.SVMĐALỚP 56

2.6.1 Chiến lược một chống một (OVO: One – versus – One) 56

2.6.2 Chiến lược một chống phần còn lại (OVR: One – versus – Rest) 57

2.6.3 Chiến lược phân cấp 57

2.7.ỨNGDỤNGSVMVÀOBÀITOÁNNHẬNDẠNGCHỮVIẾTTAYRỜIRẠC 58

3.1.2 Biểu đồ chiếu (Projection histograms) 66

3.1.3 Trích chọn theo chu tuyến (Contour Profile) 66

3.1.4 Trích chọn đặc trưng wavelet Haar 67

Trang 4

3.3.1 Rút gọn số chiều của các véc tơ đặc trưng 77

3.3.2 Cải tiến tốc độ của các máy phân lớp SVM 78

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ 90

TÀI LIỆU THAM KHẢO 91

Trang 5

DANH MỤC CÁC KÝ HIỆU, CỤM TỪ VIẾT TẮT Ký hiệu Thuật ngữ

KKT Karush-Kuhn-Tucker

MNIST bộ mẫu chữ số viết tay NIST - Viện Công nghệ và Tiêu chuẩn Quốc gia Hoa Kỳ (National Institute of Standard and Technology of the United States)

off-line ngoại tuyến on-line trực tuyến

Trang 6

SOM Self Origanizing Map

working set tập làm việc

Trang 7

DANH MỤC CÁC BIỂU BẢNG

Bảng 2.1 Kết quả thực nghiệm trên tập USPS 57

Bảng 2.2 Kết quả thực nghiệm trên tập MNIST 57

Bảng 2.3 Kết quả thực nghiệm với các hàm nhân khác nhau trên tập USPS 58

Bảng 2.4 Kết quả huấn luyện với hàm nhân Gausse 58

Bảng 2.5 Kết quả huấn luyện với kích thước cache khác nhau 59

Bảng 2.6 So sánh kết quả nhận dạng của SVM với các mô hình mạng nơ ron 59

Bảng 2.7 So sánh một số phương pháp phân lớp trên bộ dữ liệu MNIST 60

Bảng 3.1 Kết quả nhận dạng theo các loại đặc trưng khác nhau 67

Bảng 3.2 Kết quả nhận dạng trên các tập dữ liệu tiếng Việt viết tay rời rạc 74

Bảng 3.3 Kết quả nhận dạng trên tập dữ liệu TestData5 82

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Sơ đồ tổng quát của một hệ thống nhận dạng chữ viết tay 12

Hình 1.2 Nhị phân hóa ảnh 13

Hình 1.3 Nhiễu đốm và nhiễu vệt 14

Hình 1.4 Chuẩn hóa kích thước ảnh các ký tự “A” và “P” 14

Hình 1.5 (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên 15

Hình 1.6 Làm mãnh chữ 15

Hình 1.7 Hiệu chỉnh độ nghiêng của văn bản 16

Hình 1.8 Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ 16

Hình 1.9 Xác định khoảng cách giữa hai kí tự và giữa hai từ 17

Hình 2.1 Siêu phẳng tách tuyến tính 34

Hình 2.2 So sánh hiệu quả phân lớp giữa máy tuyến tính thông thường với SVM 34

Hình 2.3 Siêu phẳng tách hai lớp ‘o’ và ‘+’ 35

Hình 2.4 Phân lớp mềm 36

Hình 2.5 Ánh xạ dữ liệu vào không gian đặc trưng 42

Hình 2.6 Độ tin cậy VC tăng theo h 47

Hình 2.7 Họ hàm được chia làm các tập con theo chiều VC tăng dần 47

Hình 2.8 Không phải 3 điểm nào cũng tách được bởi đường thẳng 48

Hình 2.9 Với 3 điểm không thẳng hàng trong R2 thì luôn tách được 49

Hình 2.10 Mô hình nhận dạng chữ viết tay rời rạc 55

Hình 2.11 Chọn đặc trưng ma trận nhị phân 56

Hình 2.12 Các mẫu chữ viết tay trích từ tập các tập dữ liệu USPS và MNIST 57

Trang 9

Hình 3.1 Trích chọn đặc trưng trọng số vùng 62

Hình 3.2.Trích chọn các biểu đồ chiếu ngang, dọc và 2 đường chéo 63

Hình 3.3 Trích chọn các khối bên ngoài của chữ 63

Hình 3.4 Quá trình trích chọn đặc trưng 64

Hình 3.5 Dãy đặc trưng wavelet Haar 66

Hình 3.6 Kiến trúc của hệ nhận dạng chữ viết tay tiếng Việt 69

Hình 3.7 Một số nhiễu thường gặp khi quét ảnh 69

Hình 3.8 Chuẩn hóa ảnh 70

Hình 3.9 Chuẩn hóa các vùng liên thông 70

Hình 3.10 Các mẫu trích từ tập ký tự viết tay tiếng Việt 73

Hình 3.11 Độ sai lệch lề giữa siêu phẳng gốc và siêu phẳng đơn giản hóa 81

Trang 10

PHẦN MỞ ĐẦU

Tính cấp thiết của đề tài

Nhận dạng chữ là một lĩnh vực đã được quan tâm nghiên cứu và ứng dụng từ nhiều năm nay theo hai hướng chính:

Nhận dạng chữ in: phục vụ cho công việc tự động hóa đọc tài liệu, tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp từ các nguồn tài liệu •

Nhận dạng chữ viết tay: với những mức độ ràng buộc khác nhau về cách viết, kiểu chữ phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo viết tay Nhận dạng chữ viết tay được tách thành hai hướng phát triển: nhận dạng chữ viết tay trực tuyến (on-line) và nhận dạng chữ viết tay ngoại tuyến (off-line)

Đến thời điểm này, bài toán nhận dạng chữ in đã được giải quyết gần như trọn vẹn (sản phẩm FineReader 9.0 của hãng ABBYY có thể nhận dạng chữ in theo 20 ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu chứa hình ảnh, bảng và văn bản tiếng Việt với độ chính xác trên 98%, ) Tuy nhiên trên thế giới cũng như ở Việt Nam, bài toán nhận dạng chữ viết tay vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu Bài toàn này chưa thể giải quyết trọn vẹn vì nó phụ thuộc quá nhiều vào người viết và sự biến đổi quá đa dạng trong cách viết và trạng thái tinh thần của từng người viết Đặc biệt đối với việc nghiên cứu nhận dạng chữ viết tay tiếng Việt lại càng gặp nhiều khó khăn hơn do bộ ký tự tiếng Việt có thêm phần dấu, rất dễ nhầm lẫm với các nhiễu Vì vậy, đến thời điểm này có rất ít công trình công bố chính thức về các kết quả nghiên cứu nhận dạng chữ viết tay tiếng

các giải pháp hữu hiệu cho bài toán nhận dạng chữ viết tay tiếng Việt

Trang 11

Mục tiêu của luận án

được biết đến như một hướng tiếp cận phân lớp hiệu quả và đã được áp dụng thành công trong nhiều ứng dụng thực tiễn Vì vậy, mục tiêu của luận án là nghiên cứu phương pháp máy véc tơ tựa để ứng dụng vào bài toán nhận dạng chữ viết tay rời rạc (isolated handwritten character recognition) Từ nay về sau, trong luận án này sẽ sử dụng cụm từ viết tắt SVM thay cho thuật ngữ máy véc tơ tựa

Những đóng góp mới của luận án

Đề xuất mô hình hiệu quả cho bài toán nhận dạng chữ Việt viết tay rời rạc

dựa trên cơ sở phân lớp SVM ƒ

Đề xuất một giải pháp để tăng tốc độ nhận dạng chữ Việt viết tay rời rạc trên cơ sở rút gọn số chiều của các véc tơ đặc trưng đầu vào và áp dụng phương pháp tập thu gọn để giảm thiểu số véc tơ tựa nhằm tăng tốc độ phân lớp của SVM.

ƒ

Trang 12

Đề xuất một phương pháp trích chọn đặc trưng hiệu quả cho bài toán nhận dạng chữ viết tay rời rạc theo ý tưởng của phép biến đổi wavelet Haar và chứng minh được tính bất biến của đặc trưng theo phép biến đổi wavelet đối với ảnh ký tự đầu vào.

ƒ

Bố cục của luận án

Luận án được phân thành ba chương với cấu trúc như sau:

Chương 1: Tổng quan về nhận dạng chữ viết tay

Chương này giới thiệu tổng quan về tình hình nghiên cứu trong lĩnh vực nhận dạng chữ viết tay, mô hình tổng quát của một hệ nhận dạng chữ viết tay và một số phương pháp nhận dạng có thể áp dụng vào bài toán nhận dạng chữ viết tay

Chương 2: Máy véc tơ tựa (Support Vector Machines – SVM)

Chương này nghiên cứu sâu về lý thuyết SVM bao gồm: SVM tuyến tính, SVM phi tuyến, không gian đặc trưng và hàm nhân, lý thuyết chiều Vapnik – Chervonenkis (VC), các thuật toán huấn luyện SVM và áp dụng SVM vào bài toán nhận dạng chữ viết tay rời rạc với một số kết quả thực nghiệm trên các tập dữ liệu chữ số viết tay như USPS, MNIST

Chương 3: Áp dụng máy véc tơ tựa vào bài toán nhận dạng chữ Việt viết tay rời

rạc

chữ viết tay, đề xuất một mô hình hiệu quả cho bài toán nhận dạng chữ Việt viết tay

của véc tơ đặc trưng đầu vào và thu gọn số véc tơ tựa nhằm tăng tốc độ phân lớp của các SVM

Cuối cùng là phần kết luận và hướng nghiên cứu của luận án

Trang 13

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT TAY

Chương này giới thiệu khái quát về lĩnh vực nhận chữ viết, sơ đồ tổng quát của một hệ nhận dạng chữ viết tay và cuối cùng là phần tổng hợp các phương pháp

nhận dạng được áp dụng trong lĩnh vực nhận dạng chữ viết tay

1.1 GIỚI THIỆU

Nhận dạng chữ là lĩnh vực được nhiều nhà nghiên cứu quan tâm và cho đến nay lĩnh vực này cũng đã đạt được nhiều thành tựu lớn lao cả về mặt lý thuyết lẫn ứng dụng thực tế Lĩnh vực nhận dạng chữ được chia làm hai loại: Nhận dạng chữ in và nhận dạng chữ viết tay

Đến thời điểm này, nhận dạng chữ in đã được giải quyết gần như trọn vẹn Tuy nhiên, nhận dạng chữ viết tay vẫn đang là vấn đề thách thức lớn đối với các nhà

nghiên cứu Nhận dạng chữ viết tay được phân ra làm hai loại: nhận dạng chữ viết

tay on-line (trực tuyến) và nhận dạng chữ viết tay off-line (ngoại tuyến)

Nhận dạng chữ viết tay on-line được thực hiện trên cơ sở lưu lại các thông tin về nét chữ như thứ tự nét viết, hướng và tốc độ của nét viết trong quá trình nó đang viết Đây chính là cơ sở để máy tính nhận diện được các chữ cái, do đó việc nhận dạng không gặp quá nhiều khó khăn Một trong những sản phẩm nhận dạng chữ viết tay trực tuyến tiêu biểu nhất là hệ thống nhận dạng chữ viết tay rời rạc trực tuyến trên một trạm làm việc của IBM do H.S.M.Beigi, C.C.Tapert, M.Ukeison và C.G.Wolf ở phòng thực hành Watson IBM cài đặt [6] Ngược lại, đối với nhận dạng chữ viết tay off-line, dữ liệu đầu vào là ảnh văn bản được quét vào nên việc nhận dạng có độ khó cao hơn nhiều so với nhận dạng chữ viết tay on-line Do dữ liệu đầu vào là ảnh văn bản nên nhận dạng chữ viết tay off-line và nhận dạng chữ in

còn được gọi chung là nhận dạng chữ quang học (OCR - Optical Character

Recognition) Cho đến nay, việc giải bài toán nhận dạng chữ viết tay off-line vẫn

Trang 14

Khó khăn lớn nhất khi nghiên cứu bài toán nhận dạng chữ viết tay là sự biến thiên quá đa dạng trong cách viết của từng người Cùng một người viết nhưng đôi khi cũng có nhiều sự khác biệt trong cách viết tuỳ thuộc vào từng ngữ cảnh, kiểu viết của một người cũng có thể thay đổi theo thời gian hoặc theo thói quen Điều này gây ra nhiều trở ngại trong việc trích chọn đặc trưng cũng như lựa chọn mô hình nhận dạng

đối rộng, có liên quan đến nhiều lĩnh vực khác nhau Sau đây là một số lĩnh vực và mối liên hệ của chúng đối với nhận dạng chữ viết tay:

Xử lý ảnh (Image Processing): Các kỹ thuật xử lý ảnh được sử dụng trong các giai đoạn tiền xử lý, tách chữ và trích chọn đặc trưng Chẳng hạn như các thuật toán khử nhiễu, tìm xương, phát hiện biên, phân vùng ảnh

ƒ

Ngôn ngữ học và ngôn ngữ học tính toán (Linguistic and Computational Linguistic): Các kiến thức về ngữ pháp đóng vai trò quan trọng trong công đoạn hậu xử lý, nâng cao độ chính xác cho các hệ thống nhận dạng chữ viết ƒ

Hiện nay, trên thế giới cũng như ở Việt Nam, các kết quả thu được từ việc nghiên cứu nhận dạng chữ viết tay vẫn còn hạn chế hoặc chỉ ứng dụng được trong

Trang 15

1.2 MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY

Ảnh văn bản quét vào

Tiền xử lýTách chữ

Trích chọn đặc trưng

Huấn luyện và nhận dạng

Hình 1.1 Sơ đồ tổng quát của một hệ thống nhận dạng chữ viết tay

Hậu xử lý

Định hướng tập trung nghiên cứu của luận án

Văn bản được nhận dạng

Trang 16

Về cơ bản, một hệ nhận dạng chữ viết tay bao gồm năm khối công việc chính (hình 1.1) Luận án chỉ tập trung nghiên cứu hai khối công việc chính: trích chọn đặc trưng và huấn luyện/nhận dạng

1.2.1 Tiền xử lý

dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại Vì vậy, tùy thuộc vào chất lượng ảnh quét vào của từng văn bản cụ thể để chọn một hoặc một vài chức năng trong khối này Nếu cần ưu tiên tốc độ xử lý và chất lượng của máy quét tốt thì có thể bỏ qua giai đoạn này Khối tiền xử lý bao gồm một số chức năng: Nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản

1.2.1.1 Nhị phân hóa ảnh

Nhị phân hóa ảnh là một kỹ thuật chuyển ảnh đa cấp xám sang ảnh nhị phân Trong bất kỳ bài toán phân tích hoặc nâng cao chất lượng ảnh nào, nó cũng cần thiết để xác định các đối tượng quan trọng Nhị phân hóa ảnh phân chia ảnh thành 2 phần: phần nền và phần chữ Hầu hết các phương pháp nhị phân hóa ảnh hiện nay đều lựa chọn một ngưỡng thích hợp theo cường độ sáng của ảnh và sau đó chuyển tất cả các giá trị độ sáng lớn hơn ngưỡng đó thành một giá trị độ sáng (ví dụ “trắng”) và tất cả các giá trị bé hơn ngưỡng thành một giá trị độ sáng khác (“đen”)

Hình 1.2 Nhị phân hóa ảnh

1.2.1.2 Lọc nhiễu

Nhiễu là một tập các điểm sáng thừa trên ảnh Khử nhiễu là một vấn đề thường gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễu đứt nét )

Trang 17

Hình 1.3 Nhiễu đốm và nhiễu vệt

Để khử các nhiễu đốm (các nhiễu với kích thước nhỏ), có thể sử dụng các phương pháp lọc (lọc trung bình, lọc trung vị ) Tuy nhiên, với các nhiễu vệt (hoặc các nhiễu có kích thước lớn) thì các phương pháp lọc tỏ ra kém hiệu quả, trong trường hợp này sử dụng phương pháp khử các vùng liên thông nhỏ tỏ ra có hiệu quả hơn

1.2.1.3 Chuẩn hóa kích thước ảnh

Hình 1.4 Chuẩn hóa kích thước ảnh các ký tự “A” và “P”

Việc chuẩn hóa kích thước ảnh dựa trên việc xác định trọng tâm ảnh, sau đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dưới, trái, phải của hình chữ nhật bao quanh ảnh Thông qua khoảng cách lớn nhất đó, có thể xác định được một tỷ lệ co, giãn của ảnh gốc so với kích thước đã xác định, từ đó hiệu chỉnh kích thước ảnh theo tỷ lệ co, giãn này Như vậy, thuật toán chuẩn hóa kích thước ảnh luôn luôn đảm bảo được tính cân bằng khi co giãn ảnh, ảnh sẽ không bị biến dạng hoặc bị lệch

Trang 18

1.2.1.6 Làm mảnh chữ

Đây là một bước quan trọng nhằm phát hiện khung xương của ký tự bằng cách loại bỏ dần các điểm biên ngoài của các nét Tuy nhiên, quá trình làm mảnh chữ rất nhạy cảm với việc khử nhiễu Hiện nay có nhiều phương pháp làm mảnh chữ, các thuật toán tìm xương có thể tham khảo ở [28]

Hình 1.6 Làm mảnh chữ

1.2.1.7 Điều chỉnh độ nghiêng của văn bản

Do trang tài liệu quét vào không cẩn thận hoặc do sự cố in ấn, các hàng chữ bị lệch so với lề chuẩn một góc α, điều này gây khó khăn cho công đoạn tách chữ, đôi khi không thể tách được Trong những trường hợp như vậy, phải tính lại tọa độ điểm ảnh của các chữ bị sai lệch

sở biểu đồ chiếu (projection profile) của ảnh tài liệu; một số kỹ thuật dựa trên cơ sở các phép biến đổi Hough và Fourier; một số kỹ thuật hiệu chỉnh độ nghiêng khác có thể tìm thấy trong [28]

Trang 19

Hình 1.7 Hiệu chỉnh độ nghiêng của văn bản

1.2.2 Khối tách chữ

Khối này có nhiệm vụ tách từng ký tự ra khỏi văn bản Chỉ khi nào văn bản được tách và cô lập đúng từng ký tự đơn ra khỏi tổng thể văn bản thì hệ thống mới có thể nhận dạng đúng ký tự đó Sau đây là một số phương pháp tách chữ thông dụng:

1.2.2.1 Tách chữ theo chiều nằm ngang và thẳng đứng

Phương pháp này thường áp dụng cho chữ in Khác với chữ viết tay, kích thước và kiểu chữ cố định, phải tuân theo một số quy định in ấn, các chữ phải nằm gọn trong một khung nên việc cô lập một ký tự đơn có thể đồng nhất với việc tìm ra khung bao của chữ đó tại vị trí của nó trong văn bản Tách chữ theo chiều nằm ngang và thẳng đứng là tìm một hình chữ nhật có cạnh thẳng đứng và nằm ngang chứa trọn một ký tự ở bên trong

1.2.2.2 Tách chữ dùng lược đồ sáng

Hình 1.8 Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ

Trang 20

Đối với chữ viết tay thì việc tìm đường phân cách giữa các dòng và các ký tự trong văn bản thường rất khó khăn Trong trường hợp này, không thể tìm đường phân cách theo nghĩa thông thường mà phải hiểu là đường phân cách với số điểm cắt hai dòng là ít nhất Khi đó phải xây dựng lược đồ sáng của các dòng chữ, từ đó các đoạn thấp nhất trên lược đồ chính là đường phân cách cần tìm (hình 1.8 và 1.9)

Hình 1.9 Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo chiều thẳng đứng của dòng chữ

1.2.3 Trích chọn đặc trưng

dạng Trong trường hợp đơn giản nhất, ảnh đa cấp xám hoặc ảnh nhị phân được sử dụng cho việc nhận dạng Tuy nhiên, trong hầu hết các hệ nhận dạng, để giảm độ phức tạp và tăng độ chính xác của các thuật toán phân lớp thì đòi hỏi các đặc trưng được trích chọn phải rút gọn lại càng nhỏ càng tốt nhưng vẫn phải đảm bảo được thông tin của ký tự Với mục tiêu này, một tập các đặc trưng được trích chọn cho mỗi lớp sao cho có thể phân biệt được với các lớp khác Một số phương pháp trích chọn đặc trưng tương đối tốt đối với nhận dạng chữ viết tay có thể tham khảo trong [27,28] Có hàng trăm phương pháp trích chọn đặc trưng cho ảnh văn bản, nhưng chung quy lại, các phương pháp này được gom lại thành ba nhóm chính sau:

1.2.3.1 Biến đổi toàn cục và khai triển chuỗi

Một tín hiệu liên tục thường chứa nhiều thông tin và chúng có thể sử dụng làm các đặc trưng cho mục đích phân lớp Các đặc trưng được trích chọn cũng có thể đúng đối với việc xấp xỉ các tín hiệu liên tục thành các tín hiệu rời rạc Một cách để

Trang 21

biểu diễn một tín hiệu là sử dụng một tổ hợp tuyến tính của một dãy các hàm đơn giản hơn Các hệ số của tổ hợp tuyến tính cung cấp một tri thức giải mã vừa đủ, chẳng hạn như các phép biến đổi hoặc khai triển chuỗi Một số biến dạng khác như các phép dịch chuyển và phép quay là bất biến dưới các phép biến đổi toàn cục và khai triển chuỗi Sau đây là một số phương pháp biến đổi và khai triển chuỗi thường được áp dụng trong lĩnh vực nhận dạng chữ:

Biến đổi Fourier: Một trong những tính chất nổi bật nhất của phép biến đổi

Fourier là khả năng nhận dạng các ký tự có sự thay đổi về các tư thế khác nhau, các phép biến đổi này đã được áp dụng để nhận dạng ký tự theo nhiều cách khác nhau [29,30]

Biến đổi Wavelet: Phép biến đổi này là một dãy các kỹ thuật khai triển cho phép

mô tả đặc trưng của ảnh ở các mức độ khác nhau Các công đoạn tách chữ thành các ký tự hoặc từ được mô tả bằng các hệ số wavelet theo các mức độ khác nhau đối với từng giải pháp Sau đó các hệ số wavelet được chuyển qua một máy phân lớp để phục vụ cho việc nhận dạng [31,32]

Phương pháp mô men: Theo phương pháp này, ảnh gốc sẽ được thay thế bằng

một tập các đặc trưng vừa đủ của để nhận dạng các đối tượng bất biến đối với các

khai triển đặc trưng vì ảnh gốc có thể xây dựng lại một cách đầy đủ từ các hệ số mô men.

Khai triển Karhunent-Loeve: Việc khai triển này nhằm phân tích các véc tơ riêng

để rút gọn số chiều của tập đặc trưng bằng cách tạo ra các đặc trưng mới là tổ hợp tuyến tính của các đặc trưng gốc Đây chỉ là một phép biến đổi tối ưu trong một số giới hạn nào đó của việc nén thông tin [34] Khai triển Karhunent-Loeve được dùng trong một số bài toán nhận dạng mẫu như nhận dạng mặt người, nó cũng được sử dụng trong hệ thống OCR của Viện Công nghệ và Tiêu chuẩn Quốc gia Hoa Kỳ (NIST – National Institute of Standards and Technology of the United States) Vì việc khai triển này đòi hỏi phải sử dụng các thuật toán có khối lượng tính toán rất lớn nên việc sử dụng các đặc trưng Karhunent-Loeve trong các bài toán nhận dạng

Trang 22

chữ không được phổ biến rộng rãi Tuy nhiên, để tăng tốc độ tính toán cho các máy phân lớp, các đặc trưng này trở nên thiết thực hơn cho các hệ nhận dạng chữ trong những năm gần đây

1.2.3.2 Đặc trưng thống kê

hình dáng của chữ Mặc dù các kiểu đặc trưng này không thể xây dựng lại ảnh gốc, nhưng nó được sử dụng để thu nhỏ số chiều của tập đặc trưng nhằm tăng tốc độ và giảm thiểu độ phức tạp tính toán Sau đây là một số đặc trưng thống kê thường dùng để biểu diễn ảnh ký tự:

Phân vùng (zoning): Khung chứa ký tự được chia thành một vài vùng chồng nhau

hoặc không chồng nhau Mậc độ của các điểm ảnh trong các vùng khác nhau được phân tích và tạo thành các đặc trưng [22,23,24]

Các giao điểm và khoảng cách: Một đặc trưng thống kê phổ biến là số giao điểm

giữa chu tuyến của chữ với một đường thẳng theo một hướng đặc biệt nào đó Trong [35], khung chứa ký tự được phân chia thành một tập các vùng theo các hướng khác nhau và sau đó các dãy đen trong mỗi vùng được mã hóa bởi các số lũy thừa của 2 Tương tự như vậy, khoảng cách từ biên của khung chứa ảnh tới điểm đen đầu tiên của chu tuyến chữ trên cùng một dòng quét cũng được sử dụng như những đặc trưng thống kê [24]

Các phép chiếu: Các ký tự có thể được biểu diễn bằng cách chiếu các giá trị mức

xám của từng điểm lên trên các dòng theo các hướng khác nhau Các đặc trưng này tạo ra dãy tín hiệu một chiều từ ảnh hai chiều [22,23,24]

Đặc trưng hướng: Các ký tự bao gồm các nét chữ, các nét này là các đoạn thẳng

có hướng, các cung hoặc các đường cong Hướng của các nét đóng vai trò quan trọng trong việc so sánh sự khác nhau giữa các ký tự Các ký tự được mô tả như các véc tơ mà các phần tử của nó là các giá trị thống kê về hướng Để trích chọn các đặc trưng này, góc định hướng của nét chữ phải được phân chia thành một số vùng cố định và số các đoạn của nét chữ trong mỗi vùng góc được chọn như một giá trị

Trang 23

đặc trưng Vì vậy, tập các số lượng của các đoạn định hướng sẽ tạo thành một biểu đồ được gọi là biểu đồ hướng và các đặc trưng về biểu đồ hướng có thể gọi chung là đặc trưng hướng Các ảnh ký tự được phân rã thành các mặt phẳng định hướng và một độ đo khoảng cách được tính giữa các mặt phẳng đó với mẫu của mỗi lớp Hướng nét chữ cục bộ của một ký tự có thể được xác định bằng nhiều cách khác nhau: hướng của xương, phân đoạn nét chữ, mã hóa chu tuyến, hướng đạo hàm [28] Hiện nay, các đặc trưng mã hóa chu tuyến và hướng đạo hàm được áp dụng rộng rãi vì chúng dễ cài đặt và xấp xỉ bất biến với sự biến đổi đa dạng của các nét chữ

1.2.3.3 Đặc trưng hình học và hình thái

Các tính chất cục bộ và toàn cục khác nhau của các ký tự có thể được biểu diễn bằng các đặc trưng hình học và hình thái Các kiểu đặc trưng này cũng có thể giải mã một số tri thức về cấu trúc của đối tượng ảnh hoặc có thể cung cấp một số tri thức như sắp xếp các thành phần để tạo ra đối tượng Các loại đặc trưng này có thể phân thành các nhóm sau:

Trích chọn và đếm các cấu trúc hình thái: trong nhóm đặc trưng này, một cấu

trúc đã xác định được tìm kiếm trong một ký tự hoặc một từ Số lượng vị trí hoặc quan hệ vị trí của các cấu trúc trong ký tự này tạo thành các đặc trưng biểu diễn ký tự Thông thường, các cấu trúc nguyên thủy (các đoạn thẳng, các cung) là các nét tạo ra ký tự Các ký tự và các từ có thể được mô tả bằng cách trích chọn và đếm nhiều loại đặc trưng về hình thái như các điểm cực đại và cực tiểu, các điểm chóp trên và chop dưới của một ngưỡng nào đó, mở rộng cho các điểm trái, phải, trên, dưới và các giao điểm, các điểm nhánh, điểm cuối đoạn thẳng, hướng của một nét từ một điểm đặc biệt, các điểm cô lập đã tạo nên các ký tự [36,37]

Đo và xấp xỉ các tính chất hình học: trong nhiều công trình nghiên cứu [38,39],

các ký tự được biểu diễn bằng độ đo của các đại lượng hình học như tỷ số giữa chiều rộng và chiều cao của hộp chứa ký tự, quan hệ khoảng cách giữa hai điểm, so sánh độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa và chữ thường của các từ, độ dài từ Một độ đo tiêu biểu rất quan trọng nữa là độ cong hoặc thay

Trang 24

đổi độ cong [40] Các đại lượng hình học đo được có thể xấp xỉ bởi một tập các đặc trưng hình học vừa đủ và thuận tiện hơn [41]

Đồ thị và cây: Đầu tiên, các từ hoặc các ký tự được phân chia thành một tập các

đối tượng nguyên thủy như các nét, các điểm chạc Sau đó, các thành phần nguyên thủy được thay thế bằng các thuộc tính hoặc các đồ thị liên quan [42] Có hai loại đặc trưng ảnh được mô tả bằng đồ thị Loại thứ nhất sử dụng các tọa độ của hình dáng ký tự [43] Loại thứ hai là một đặc trưng trừu tượng, các nút của đồ thị tương ứng với các nét chữ và các cạnh của đồ thị tương ứng với các mối quan hệ giữa các nét chữ [44] Cây cũng có thể dùng để biểu diễn các từ và các ký tự với một tập các đặc trưng theo một quan hệ phân cấp [45]

nhị phân hóa ảnh đa cấp xám có thể xóa đi một số thông tin quan trọng của các ký tự Trong trường hợp này, cũng có một số công trình nghiên cứu để trích chọn các đặc trưng trực tiếp từ các ảnh đa cấp xám [46]

Cuối cùng, mục đích chính của việc trích chọn đặc trưng là lựa chọn một tập đặc trưng phục vụ cho việc phân lớp sao cho hệ thống nhận dạng đạt độ chính xác cao nhất với số lượng phần tử được trích chọn ít nhất

Luận án chỉ tập trung nghiên cứu một số đặc trưng thống kê và đặc trưng wavelet cho bài toán nhận dạng chữ Việt viết tay rời rạc

1.2.4 Huấn luyện và nhận dạng

Đây là giai đoạn quan trọng nhất, giai đoạn này quyết định độ chính xác của hệ thống nhận dạng Có nhiều phương pháp phân lớp khác nhau được áp dụng cho các hệ thống nhận dạng chữ viết tay Các phương pháp này sẽ được phân tích cụ thể trong phần 1.3.

1.2.5 Hậu xử lý

Đây là công đoạn cuối cùng của quá trình nhận dạng Có thể hiểu hậu xử lý là bước ghép nối các kí tự đã nhận dạng thành các từ, các câu, các đoạn văn nhằm tái hiện lại văn bản đồng thời phát hiện ra các lỗi nhận dạng sai bằng cách kiểm tra

Trang 25

chính tả dựa trên cấu trúc và ngữ nghĩa của các từ, các câu hoặc các đoạn văn Việc phát hiện ra các lỗi, các sai sót trong nhận dạng ở bước này góp phần đáng kể vào việc nâng cao chất lượng nhận dạng

điều chỉnh các lỗi của hệ thống nhận dạng Ý tưởng cơ bản này dựa trên cơ sở đánh vần kiểm tra đầu ra của hệ thống nhận dạng và cung cấp một số khả năng cho các đầu ra của máy nhận dạng khi các đầu ra này không nằm đúng vị trí trong từ điển [47] Việc kiểm tra lỗi chính tả phù hợp với một số ngôn ngữ như Anh, Pháp, Đức, Việt Nam,

Mô hình ngôn ngữ thống kê N-Grams đã được áp dụng khá thành công trong việc kiểm tra chính tả ở công đoạn hậu xử lý của các hệ thống nhận dạng chữ viết và các hệ thống nhận dạng tiếng nói [48,49] Trong mô hình N-Grams, mỗi từ chỉ phụ thuộc vào n từ đứng trước, giả thiết này rất quan trọng trong việc huấn luyện mô hình vì nó làm giảm đáng kể độ phức tạp của bài toán học mô hình ngôn ngữ từ tập dữ liệu huấn luyện

1.3 CÁC PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIẾT TAY

các hệ thống nhận dạng chữ viết tay Các phương pháp này có thể được tích hợp trong các hướng tiếp cận sau: Đối sánh mẫu, thống kê, cấu trúc, mạng nơ ron và SVM

1.3.1 Đối sánh mẫu

Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyên mẫu (prototype) với nhau để nhận dạng ký tự hoặc từ Nói chung, toán tử đối sánh xác định mức độ giống nhau giữa hai vé tơ (nhóm các điểm, hình dạng, độ cong ) trong một không gian đặc trưng Các kỹ thuật đối sánh có thể nghiên cứu theo ba hướng sau:

Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp xám hoặc ảnh nhị phân được

so sánh trực tiếp với một tập mẫu chuẩn đã được lưu trữ Việc so sánh dựa theo một

Trang 26

độ đo về sự tương đồng nào đó (chẳng hạn như độ đo Euclide) để nhận dạng Các kỹ thuật đối sánh này có thể đơn giản như việc so sánh một – một hoặc phức tạp hơn như phân tích cây quyết định [50,51] Mặc dù phương pháp đối sánh trực tiếp đơn giản và có một cơ sở toán học vững chắc nhưng kết quả nhận dạng của nó cũng rất nhạy cảm với nhiễu

Các mẫu biến dạng và Đối sánh mềm: Một phương pháp đối sánh khác là sử

dụng các mẫu biến dạng, trong đó một phép biến dạng ảnh được dùng để đối sánh một ảnh chưa biết với một cơ sở dữ liệu ảnh đã biết [52]

với tất cả các mẫu có thể mà các mẫu này có thể kéo giãn ra hoặc co lại Chỉ một không gian đặc trưng được thành lập, các véc tơ chưa biết được đối sánh bằng cách sử dụng quy hoạch động và một hàm biến dạng [53,54]

Đối sánh giảm nhẹ: Đây là một kỹ thuật đối sánh ảnh ở mức độ tượng trưng, kỹ

thuật này sử dụng hình dáng đặc trưng cơ bản của ảnh ký tự Thứ nhất, các vùng đối sánh đã được nhận biết Sau đó, trên cơ sở một số vùng đối sánh được đánh giá tốt, các phần tử của ảnh được so sánh với các vùng đối sánh này Công việc này đòi hỏi một kỹ thuật tìm kiếm trong một không gian đa chiều để tìm cực đại toàn cục của một số hàm [55]

chữ viết tay thì các kỹ thuật này tỏ ra kém hiệu quả

1.3.2 Phương pháp tiếp cận cấu trúc

khái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung,… Mỗi đối tượng được mô tả như một sự kết hợp của các dạng nguyên thuỷ

nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết định nhận dạng là quá trình phân tích cú pháp [57,58] Phương pháp này đặt vấn đề để giải quyết bài

Trang 27

toán nhận dạng chữ tổng quát Tuy vậy, cho đến nay còn nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưa xây dựng được các thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúc phổ biến là trích trọn các đặc trưng của mẫu học, phân hoạch bảng ký tự dựa trên các đặc trưng này, sau đó ảnh cần nhận dạng sẽ được trích chọn đặc trưng, sau đó so sánh trên bảng phân hoạch để tìm ra ký tự có các đặc trưng phù hợp

Đối với nhận dạng chữ viết tay rời rạc dựa theo cấu trúc xương và đường biên, công việc này đòi hỏi phải xây dựng các đặc trưng của chữ, đặc biệt là đặc trưng về các điểm uốn, điểm gấp khúc và đặc trưng của các nét Sau khi tiến hành công đoạn tiền xử lý, công việc tách các nét được tiến hành thông qua các điểm chạc Sau đó trích chọn đặc trưng cấu trúc xương của chữ, mỗi nét đặc trưng bởi cặp chỉ số đầu và cuối tương ứng với thứ tự của điểm chạc đầu và điểm chạc cuối Cuối cùng là xây dựng cây tìm kiếm, dựa vào đặc trưng về cấu trúc xương và cấu trúc biên để phân tập mẫu học thành các lớp Quá trình tìm kiếm để phân lớp được tiến hành qua hai bước: Xác định lớp tương ứng với mẫu vào và tìm kiếm trong lớp đó mẫu nào gần giống với mẫu vào nhất [62,63]

triển theo hai hướng sau:

1.3.2.1 Phương pháp ngữ pháp (Grammatical Methods):

Giữa thập niên 1960, các nhà nghiên cứu bắt đầu xét các luật của ngôn ngữ học để phân tích tiếng nói và chữ viết Sau đó, các luật đa dạng của chính tả, từ vựng và ngôn ngữ học đã được áp dụng cho các chiến lược nhận dạng Các phương pháp ngữ pháp khởi tạo một số luật sinh để hình thành các ký tự từ một tập các công thức ngữ pháp nguyên thủy Các luật sinh này có thể kết nối bất kỳ kiểu đặc trưng thống kê và đặc trưng hình thái nào dưới một số cú pháp hoặc các luật ngữ nghĩa [56,57,58] Giống như lý thuyết ngôn ngữ, các luật sinh cho phép mô tả các cấu trúc câu có thể chấp nhận được và trích chọn thông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiểu ngữ pháp khác nhau [59]

Trang 28

Trong các phương pháp này, việc huấn luyện được thực hiện bằng cách mô tả

thị của một đơn vị viết bất kỳ (ký tự, từ hoặc câu) được phân tích để quyết định văn phạm của mẫu đó thuộc lớp nào Các phương pháp ngữ pháp hầu hết được sử dụng trong giai đoạn hậu xử lý để sửa các lỗi mà khối nhận dạng đã thực hiện sai [60,61]

1.3.2.2 Phương pháp đồ thị (Graphical Methods):

thủy của ký tự (các nét) được lựa chọn bởi một hướng tiếp cận cấu trúc Đối với mỗi lớp, một đồ thị hoặc cây được thành lập trong giai đoạn huấn luyện để mô tả các nét, các ký tự hoặc các từ Giai đoạn nhận dạng gán một đồ thị chưa biết vào một trong các lớp bằng cách sử dụng một độ đo để so sánh các đặc điểm giống nhau giữa các đồ thị

hướng tiếp cận đồ thị phân cấp được dùng trong việc nhận dạng chữ viết tay Trung Quốc và Hàn Quốc [62,63]

1.3.3 Mạng nơ ron

Một mạng nơ ron được định nghĩa như một cấu trúc tính toán bao gồm nhiều bộ xử lý “nơ ron” được kết nối song song chằng chịt với nhau Do bản chất song song của các nơ ron nên nó có thể thực hiện các tính toán với tốc độ cao hơn so với các kỹ thuật phân lớp khác Một mạng nơ ron chứa nhiều nút, đầu ra của một nút được sử dụng cho một nút khác ở trong mạng và hàm quyết định cuối cùng phụ thuộc vào sự tương tác phức tạp giữa các nút Mặc dù nguyên lý khác nhau, nhưng hầu hết các kiến trúc mạng nơ ron đều tương đương với các phương pháp nhận dạng mẫu thống kê [26,27]

truyền thẳng và mạng lan truyền ngược Trong các hệ thống nhận dạng chữ, các mạng nơ ron sử dụng phổ biến nhất là mạng perceptron đa lớp thuộc nhóm mạng

Trang 29

truyền thẳng và mạng SOM (Self Origanizing Map) của Kohonen thuộc nhóm mạng lan truyền ngược

Mạng perceptron đa lớp được đề xuất bởi Rosenblatt [64] được nhiều tác giả sử dụng trong các hệ nhận dạng chữ viết tay [65,66] Hầu hết các nghiên cứu phát triển nhận dạng chữ viết tay hiện nay đều tập trung vào mạng SOM [67] SOM kết hợp trích chọn đặc trưng và nhận dạng trên một tập lớn các ký tự huấn luyện Mạng này chứng tỏ rằng nó tương đương với thuật toán phân cụm k-means

Với thuật toán đơn giản nhưng rất hiệu quả, cùng với thành công của mô hình này trong các ứng dụng thực tiễn, mạng nơ ron hiện đang là một trong các hướng nghiên cứu của lĩnh vực học máy Mạng nơ ron tỏ ra phù hợp với các bài toán đối sánh, phân loại mẫu, xấp xỉ hàm, tối ưu hoá, lượng tử hoá véc tơ và phân hoạch không gian dữ liệu, trong khi các phương pháp truyền thống không đủ khả năng giải quyết các vấn đề nêu trên một cách hiệu quả Đặc biệt trong các hệ thống nhận dạng sử dụng mạng nơ ron đã đạt được tỉ lệ nhận dạng khá chính xác, có thể so sánh với các phương pháp nhận dạng cấu trúc, thống kê, …

1.3.4 Các phương pháp thống kê

Hầu hết các kỹ thuật thống kê đều dựa trên cơ sở ba giả thuyết chính sau:

1 Phân bố của tập đặc trưng là phân bố Gausse hoặc trong trường hợp xấu nhất là phân bố đều

2 Có các số liệu thống kê đầy đủ có thể dùng cho mỗi lớp

i∈{1, ,n} mà tập đặc trưng này đại diện cho mỗi lớp mẫu riêng biệt

nhận dạng chữ:

1.3.4.1 Nhận dạng phi tham số

Phương pháp này sử dụng để tách các lớp mẫu dọc theo các siêu phẳng được xác định trong một siêu không gian đã cho Phương pháp phân lớp phi tham số

Trang 30

được đánh giá tốt nhất chính là thuật toán phân lớp k-láng giềng gần nhất (k-NN) và thuật toán này được áp dụng rộng rãi trong lĩnh vực nhận dạng chữ viết [68] Phương pháp này không đòi hỏi những thông tin ưu tiên về dữ liệu Một mẫu đầu vào được phân lớp bằng cách sử dụng cụm, mà trung tâm của cụm là khoảng cách cực tiểu từ mẫu đến tất cả các cụm khác

1.3.4.2 Nhận dạng có tham số

Từ những thông tin ưu tiên phù hợp về các ký tự trong dữ liệu huấn luyện, phương pháp này có khả năng thu đuợc một mô hình tham số đối với mỗi ký tự Các tham số của mô hình này dựa trên cơ sở một số xác suất thu được, các ký tự được phân lớp theo một số luật quyết định, chẳng hạn như phương pháp Bayes [69]

1.3.4.3 Mô hình Markov ẩn (HMM - Hidden Markov Model)

HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh tiến trình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát Mỗi chuỗi quan sát được sinh ra bởi một chuỗi các phép chuyển trạng thái, bắt đầu từ trạng thái khởi đầu cho đến khi thu được trạng thái kết thúc Tại mỗi trạng thái thì một phần tử của chuỗi quan sát được phát sinh ngẫu nhiên trước khi chuyển sang trạng thái tiếp theo Các trạng thái của HMM được xem là ẩn bên trong mô hình vì tại mỗi thời điểm chỉ nhìn thấy các kí hiệu quan sát còn các trạng thái cũng như sự chuyển đổi trạng thái được vận hành ẩn bên trong mô hình [70]

tay ở mức từ [71,72,73,74,75]

1.3.5 Máy véc tơ tựa (SVM)

SVM là một phương pháp máy học tiên tiến đã có nhiều thành công không chỉ trong các lĩnh vực khai phá dữ liệu mà còn trong lĩnh vực nhận dạng Trong những năm gần đây, SVM được đánh giá là một trong những phương pháp phân lớp có độ chính xác cao nên nó đã được áp dụng rộng rãi trong các bài toán nhận dạng chữ viết tay [16,22,23] Chi tiết về phương pháp này sẽ được trình bày ở chương 2

Trang 31

1.3.6 Kết hợp các kỹ thuật nhận dạng

thể áp dụng đối với các hệ nhận dạng chữ viết tay Tất cả các phương pháp trên đều có những ưu điểm và nhược điểm riêng Vấn đề đặt ra là các phương pháp trên có thể kết hợp với nhau theo một cách nào đó để nâng cao chất lượng nhận dạng hay không? Nhiều công trình nghiên cứu kiến trúc phân lớp theo ý tưởng kết hợp các phương pháp phân lớp đã nêu trên Các hướng tiếp cận kiến trúc kết hợp để phân lớp có thể chia thành ba nhóm sau: Kiến trúc tuần tự, kiến trúc song song và kiến trúc lai ghép

1.3.6.1 Kiến trúc tuần tự

Kiến trúc này chuyển kết quả đầu ra của một máy phân lớp thành đầu vào của máy phân lớp tiếp theo Có bốn chiến lược cơ bản được sử dụng trong kiến trúc tuần tự, đó là dãy, chọn lựa, boosting và thác nước

đầu vào có thể thuộc về các lớp đó Số lớp có thể thu gọn tại mỗi giai đoạn sinh ra nhãn của mẫu ở giai đoạn cuối cùng [76]

nhóm ký tự gần giống nhau Các nhóm này tiếp tục được phân lớp ở các giai đoạn sau đó theo một cây phân cấp Tại mỗi mức của cây, nhánh con cùng mẹ là giống nhau theo một độ đo nào đó Vì vậy, các máy phân lớp thực hiện phân lớp từ thô đến tinh dần trong các nhóm nhỏ [77]

Đối với chiến lược boosting, mỗi máy phân lớp điều khiển một số lớp, các máy phân lớp ở phía trước không thể điều khiển được các lớp của các máy phân lớp ở phía sau [79]

Cuối cùng, trong chiến lược thác nước, các máy phân lớp được kết nối từ đơn giản đến phức tạp Các mẫu không thỏa mãn ở một mức độ tin cậy nào đó thì phải thông qua một máy phân lớp mạnh hơn trong một giới hạn nào đó của các đặc trưng hoặc các chiến lược nhận dạng khác [78]

Trang 32

1.3.6.2 Kiến trúc song song

Kiến trúc này kết nối kết quả của các thuật toán phân lớp độc lập bằng cách sử dụng nhiều phương pháp khác nhau Trong số các kiến trúc này, tiêu biểu nhất là phương pháp bỏ phiếu [80] và luật quyết định Bayes [81]

1.3.6.3 Kiến trúc lai ghép

Kiến trúc này là một sự lai ghép giữa hai kiến trúc tuần tự và song song Ý tưởng chính là kết hợp các điểm mạnh của cả hai kiến trúc trên và chặn bớt những khó khăn trong việc nhận dạng chữ viết

dạng:

được phát triển cho chữ viết tay Trung Quốc Hệ thống này sử dụng mười lớp đặc trưng như các đặc trưng về hình dáng bên ngoài, các đặc trưng về mật độ nét bút và các đặc trưng về hướng nét bút Đầu tiên, một nhóm các máy phân lớp phân chia toàn bộ các ký tự thành một số nhóm nhỏ hơn, vì vậy số lượng mẫu cần xử lý trong mỗi bước tiếp theo giảm đi đáng kể Sau đó, phương pháp phân lớp ký tự đa mức được đề xuất với năm mức phục vụ cho quyết định phân lớp cuối cùng Trong mức thứ nhất, một phân bố Gausse được lựa chọn để sử dụng cho việc lựa chọn một số mẫu nhỏ hơn từ một vài nhóm Từ mức thứ hai đến mức thứ năm, các hướng tiếp cận đối sánh được sử dụng với các đặc trưng khác nhau để nhận dạng

Trong [83] Srihari và các cộng sự đã đề xuất một hướng tiếp cận song song cho việc nhận dạng bản thảo viết tay ở mức từ, họ kết hợp ba thuật toán: đối sánh mẫu, phân lớp cấu trúc và phân lớp hỗn hợp giữa thống kê - cấu trúc Các kết quả nhận được từ ba thuật toán trên được kết nối lại theo một trình tự thích hợp Kết quả cho thấy tốc độ nhận dạng tăng lên đáng kể

Một phương pháp lai ghép được đánh giá cao do nhóm nghiên cứu của IBM đề xuất [77] đã kết hợp mạng nơ ron và các phương pháp đối sánh mẫu trong một chiến lược nhận dạng đầy đủ các ký tự (chữ hoa, chữ thường, chữ số và các ký tự

Trang 33

đặc biệt) Đầu tiên, máy phân lớp đa mạng hai giai đoạn (TSMN - two-stage multinetwork) nhận biết ba nhóm: chữ hoa, chữ thường và chữ số TSMN bao gồm một dãy các mạng chuyên dụng, mỗi mạng được thiết kế để nhận dạng một tập con của toàn bộ tập ký tự Một máy tiền phân lớp và một bộ phận lựa chọn mạng được sử dụng để kích hoạt các mạng chuyên dụng cần dùng Sau đó, sử dụng máy phân lớp đối sánh mẫu để đối sánh mẫu đầu vào với các mẫu trong ba nhóm đã lựa chọn bởi máy phân lớp TSMN Các khoảng cách đối sánh mẫu được dùng để chọn lại mạng nếu như TSMN không đảm bảo về quyết định nhận biết của nó

1.4 KẾT LUẬN

Chương này đã giới thiệu một cách tổng quan về lĩnh vực nhận chữ viết Cho đến nay các kết quả nghiên cứu nhận dạng chữ viết tay vẫn còn hạn chế, các ứng dụng chủ yếu chỉ tập trung ở một số lĩnh vực hẹp Đặc biệt có rất ít kết quả liên quan đến nhận dạng chữ viết tay tiếng Việt, các kết quả nghiên cứu cũng chỉ tập trung vào chữ Việt viết tay on-line [25], một số các công trình nghiên cứu khác ở dạng các đề tài luận văn tốt nghiệp đại học hoặc cao học, tiêu biểu như luận văn tốt nghiệp đại học, cao học về nghiên cứu nhận dạng chữ viết tay tiếng Việt của Nguyễn Thị Minh Ánh ở Đại học Quốc gia Hà nội Vì vậy, luận án sẽ tập trung nghiên cứu các giải pháp cho bài toán nhận dạng chữ Việt viết tay rời rạc

tay như HMM, mạng nơ ron, k-láng giềng gần nhất, luật quyết định Bayes, SVM Trong số các kỹ thuật này thì SVM được đánh giá là phương pháp có độ chính xác phân lớp cao và phương pháp luận của nó được xây dựng dựa trên một nền tảng toán học rất chặt chẽ Vì vậy, chương tiếp theo của luận án sẽ tập trung nghiên cứu về lý thuyết SVM để áp dụng cho bài toán nhận dạng chữ viết tay tiếng Việt

Trang 34

CHƯƠNG 2: PHƯƠNG PHÁP MÁY VÉC TƠ TỰA (SVM - SUPPORT VECTOR MACHINES)

Chương này nghiên cứu một số vấn đề cơ bản của SVM: phân lớp tuyến tính với siêu phẳng tối ưu, sử dụng hàm nhân để phân lớp gián tiếp thông qua không gian đặc trưng với số chiều cao hơn trong phân lớp phi tuyến, lý thuyết chiều VC (Vapnik – Chervonenkis), một số thuật toán huấn luyện SVM như thuật toán chặt khúc, thuật toán phân rã, thuật toán SMO (Sequential Minimal Optimization) và một số chiến lược SVM cho bài toán phân đa lớp Cuối cùng là phần nghiên cứu ứng dụng SVM vào bài toán nhận dạng chữ viết tay rời rạc trên các tập dữ liệu chữ số viết tay USPS (United States Postal service) và bộ mẫu chữ số viết tay MNIST của Viện Công nghệ và Tiêu chuẩn Quốc gia Hoa Kỳ (National Institute of Standard and Technology of the United States)

2.1 GIỚI THIỆU

của Vapnik và Lerner (1963), Vapnik và Chervonenkis (1964) Cơ sở của SVM dựa trên nền tảng của lý thuyết học thống kê và lý thuyết chiều Vapnik Chervonenkis (VC) đã được phát triển qua 3 thập kỷ bởi Vapnik và Chervonenkis [9,10] Lý thuyết này bắt đầu có những bước phát triển mạnh mẽ về mặt ứng dụng kể từ những năm cuối của thập niên 1990 (Burges, 1996 [84]; Osuma, 1997 [85]; Platt, 1998 [13]) và từ đó đến nay nó đã trở thành một công cụ khá mạnh trong nhiều lĩnh vực như: nhận dạng chữ viết [16,22,23], nhận dạng mặt người [85]

Trong những năm gần đây, SVM được biết đến như một hướng tiếp cận phân lớp hiệu quả và đang được áp dụng rộng rãi trong nhiều ứng dụng thực tế Ưu điểm của SVM là khả năng phân lớp với độ chính xác cao, điều này được đảm bảo bởi các tính chất của siêu phẳng tối ưu và cách sử dụng hàm nhân Tuy nhiên, tốc độ phân

Trang 35

lớp của SVM bị đánh giá là chậm hơn so với các phương pháp phân lớp khác Trong quá trình phân lớp, SVM phải duyệt qua tất cả các véc tơ tựa để so sánh với mẫu cần nhận dạng, khi số véc tơ tựa tăng thì tốc độ phân lớp cũng giảm xuống tương ứng

siêu phẳng tối ưu trong không gian đặc trưng để cực đại khoảng cách giữa hai lớp mẫu huấn luyện trong bài toán phân lớp nhị phân Như vậy, việc huấn luyện SVM tương đương với việc giải bài toán tối ưu với số lượng các biến là l và số các tham

phức tạp hơn trong cả hai mặt: không gian nhớ để lưu trữ và độ phức tạp tính toán Hơn nữa, siêu phẳng tối ưu lại nằm trong không gian đặc trưng với số chiều cao hơn dựa trên cơ sở lựa chọn hàm nhân Mà việc lựa chọn hàm nhân phù hợp cho từng ứng dụng cụ thể buộc người sử dụng SVM phải thử nghiệm nhiều lần huấn luyện với các loại hàm nhân khác nhau tương ứng với các giá trị tham số khác nhau của chúng Mặt khác, mục đích của việc huấn luyện SVM là lọc ra các mẫu huấn luyện có tham gia vào việc tạo siêu phẳng đồng thời loại bỏ các mẫu không liên

quan, các mẫu có tham gia tạo ra siêu phẳng được gọi là các véc tơ tựa (SV -

Support Vector) Có nhiều thuật toán huấn luyện SVM, các thuật toán chặt khúc và

thuật toán phân rã [2] đã phân tích bài toán quy hoạch toàn phương (QP - Quadratic Programing) ban đầu thành một dãy các bài toán QP nhỏ hơn Các thuật toán này đã chứng tỏ rằng có thể giải các bài toán với kích thước vượt quá khả năng lưu trữ của bộ nhớ máy tính Thuật toán SMO [4] có thể xem là trường hợp cá biệt của thuật toán phân rã, trong mỗi lần lặp SMO giải một bài toán QP với kích thước là hai bằng giải pháp phân tích, vì vậy không cần phải giải bài toán tối ưu Các thuật toán này đã được cài đặt trong hầu hết các phần mềm SVM mã nguồn mở hiện nay

2.2 SVM TUYẾN TÍNH

Trang 36

SVM đầu tiên được xây dựng thông qua bài toán phân lớp nhị phân, bài toán

trên thành hai lớp Có nhiều thuật toán để giải bài toán này, chẳng hạn như thuật toán Perceptron của Rosenblatt [64], thuật toán tách biệt tuyến tính của Fisher [26], SVM [9] Phần này sẽ trình bày một số ý tưởng cơ bản của SVM cho bài toán phân lớp nhị phân

2.2.1 Siêu phẳng với khoảng cách lề cực đại

Định nghĩa 2.1: Khoảng cách đại số của một mẫu huấn luyện (xi,yi) tới siêu phẳng {x∈RD | f(x)=wT.x+b=0} là

fx yiiyixib

cần một khoảng cách đại số càng rộng càng tốt, tức là giải pháp của bài toán luôn

thì việc phân lớp trên mẫu (x

(w ) 0

yx + >b i,yi) là chính xác Vì vậy, một khoảng cách đại số rộng thể hiện việc phân lớp chính xác và đáng tin cậy Tuy nhiên đối với phân lớp tuyến tính, khoảng cách đại số chưa phải là một thước đo độ tin cậy tốt Chẳng hạn như nếu thay w bởi 2w và b bởi 2b thì hàm quyết định phân lớp

của w và b, có thể tạo ra khoảng cách đại số với độ rộng tùy ý mà không làm thay

hình học, đây chính là khoảng cách Euclide từ một điểm tới siêu phẳng

Trang 37

Định nghĩa 2.2: Khoảng cách hình học của một mẫu huấn luyện (xi,yi) tới siêu phẳng {x∈RD | f(x)=wT.x+b=0} là

luyện phân lớp Như vậy, với các mẫu đầu vào nằm trong phạm vi đã được học

thông thường hay SVM Tuy nhiên, với một mẫu đầu vào nằm ngoài phạm vi được

nhưng SVM thì vẫn phân lớp đúng Bằng trực giác có thể thấy rằng máy phân lớp

Trang 38

Hình 2.2 So sánh hiệu quả phân lớp giữa máy tuyến tính thông thường với SVM

Cụ thể hơn, trong hình 2.3 giả sử tất cả các mẫu cần phân lớp đều có nhiễu so với các mẫu huấn luyện Ví dụ, cho mẫu huấn luyện (x,y), tạo ra các mẫu cần phân lớp theo công thức (x+Δx,y), trong đó Δx được giới hạn bởi r > 0 Rõ ràng nếu tách tập huấn luyện theo khoảng cách lề δ > r thì sẽ phân lớp chính xác tất cả các mẫu Điều này giải thích tại sao siêu phẳng với khoảng cách lề cực đại có khả năng phân lớp tốt nhất

Hình 2.3 Siêu phẳng tách hai lớp ‘o’ và ‘+’ Nếu siêu phẳng có khoảng cách lề δ và giới hạn nhiễu r < δ thì siêu phẳng vẫn tách được chính xác các mẫu bị nhiễu

2.2.2 Tìm siêu phẳng tối ưu

Đối với dữ liệu khả tách tuyến tính, thuật toán huấn luyện đơn giãn chỉ là tìm

Trang 39

mất tính tổng quát, giả sử tất cả các mẫu huấn luyện đều có khoảng cách đại số lớn hơn hoặc bằng hằng số δ = 1, tức là

|| ||w Vì vậy, có thể tìm siêu phẳng với khoảng cách

Từ đó, bài toán tìm siêu phẳng tối ưu có thể phát biểu lại như sau:

1min w w

Các mẫu này được gọi là các véc tơ tựa, chỉ có chúng mới tham gia vào việc xác

định siêu phẳng tối ưu, còn các mẫu khác có thể loại bỏ

2.2.3 Phân lớp mềm

Hình 2.4 Phân lớp mềm

Trang 40

Máy phân lớp với khoảng cách lề cực đại ở phần trên chỉ áp dụng được đối với các tập dữ liệu khả tách tuyến tính, còn thực tế thì thường gặp các tập dữ liệu không khả tách tuyến tính Để xây dựng một máy phân lớp với khoảng cách lề cực đại phù hợp với các loại dữ liệu bị nhiễu, cần phải nới lõng ràng buộc của (2.9)

Lagrange đều không xuất hiện trong bài toán đối ngẫu của Wolfe [14] Khi đó, bài toán tìm siêu phẳng tối ưu được phát biểu lại như sau:

1min w w

iw b

⎛⎞+ ⎜ ξ

min w w2

iw b

sao cho thỏa mãn ràng buộc (2.10) và (2.11)

2.3.4 Giải bài toán tối ưu

Ngày đăng: 26/10/2012, 16:45

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Kiếm, Nguyễn Hồng Sơn, Đào Minh Sơn, “Ứng dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động”, Kỷ yếu hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, 2001, tr. 560-567 Sách, tạp chí
Tiêu đề: Ứng dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động”, "Kỷ yếu hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin
[3] Lê Hoài Bắc, Lê Hoàng Thái, “Neural Network &amp; Genetic Algorithm in Application to Handwritten Character Recognition”, Tạp chí Tin học và Điều khiển học, Tập 17, số 4, 2001, tr. 57-65 Sách, tạp chí
Tiêu đề: Neural Network & Genetic Algorithm in Application to Handwritten Character Recognition”, "Tạp chí Tin học và Điều khiển học
[4] Nguyễn Thị Thanh Tân, Ngô Quốc Tạo, “Một cấu trúc mạng nơ ron thích hợp cho việc nhận dạng chữ số viết tay”, Kỷ yếu hội thảo FAIR03, NXB KH&amp;KT Hà Nội, 2004, tr. 200-210 Sách, tạp chí
Tiêu đề: Một cấu trúc mạng nơ ron thích hợp cho việc nhận dạng chữ số viết tay”, "Kỷ yếu hội thảo FAIR03
Nhà XB: NXB KH&KT Hà Nội
[5] Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học và Điều khiển học, Tập 22, số 2, 2006, tr. 141-154.Tiếng Anh Sách, tạp chí
Tiêu đề: Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng”, "Tạp chí Tin học và Điều khiển học
[6] T.Fujisaki, H.S.M.Beigi, C.C.Tappert, M.Ukelson and C.G.Wolf, “Online Recognition of Unconstrained Handprinting: A stroke-based”, From Pixels Features III: Frontiers in Handwriting Recognition, S.Impedovo and J.C.Simon (eds.), 1992, pp. 297-312 Sách, tạp chí
Tiêu đề: Online Recognition of Unconstrained Handprinting: A stroke-based”, "From Pixels Features III: Frontiers in Handwriting Recognition
[7] J.C.Simon and O.Baret, “Cursive Words Recognition”, From Pixels Features III: Frontiers in Handwriting Recognition, S.Impedovo and J.C.Simon (eds.), 1992, pp. 241-260 Sách, tạp chí
Tiêu đề: Cursive Words Recognition”, "From Pixels Features III: Frontiers in Handwriting Recognition
[8] J.J.Hull, J.Favata, V.Govindaraju and S.N.Srihari, “Combination of segmentation-based and Wholistic Handwritten Word Recognition Algorithms”, From Pixels Features III: Frontiers in Handwriting Recognition, S.Impedovo and J.C.Simon (eds.), 1992, pp. 261-272 Sách, tạp chí
Tiêu đề: Combination of segmentation-based and Wholistic Handwritten Word Recognition Algorithms”, "From Pixels Features III: Frontiers in Handwriting Recognition
[11] J. Friedman., “Another Approach to Polychotomous Classifications”, Technical report, Stanford university, US, 1996 Sách, tạp chí
Tiêu đề: Another Approach to Polychotomous Classifications”, "Technical report
[12] Christopher J. C. Burges, “A Tutorial on Support Vector Machines for Pattern Recognition”, Data Mining and Knowledge Discovery, ISSN:1384-5810, Vol.2, No. 2, 1998, pp. 121-167 Sách, tạp chí
Tiêu đề: A Tutorial on Support Vector Machines for Pattern Recognition”, "Data Mining and Knowledge Discovery
[13] J. Platt, “Fast Training of Support Vector Machines Using Sequential Minimal Optimization”, In Advences in Kernel Methods - Support Vector Learning, pp Sách, tạp chí
Tiêu đề: Fast Training of Support Vector Machines Using Sequential Minimal Optimization”", In Advences in Kernel Methods - Support Vector Learning
[14] Nello Cristianini and John Shawe-Taylor, “An Introduction to Support Vector Machines and other kernel-based learning methods”, Cambridge University Press, 2000 Sách, tạp chí
Tiêu đề: An Introduction to Support Vector Machines and other kernel-based learning methods”, "Cambridge University Press
[15] J. Platt, N. Cristianini and J. Shawe-Taylor, “Large Margin DAGs for Multiclass Classification”, In Advances in Neural Information Processing Systems, volume 2, pp. 547-553, 2000 Sách, tạp chí
Tiêu đề: Large Margin DAGs for Multiclass Classification”, "In Advances in Neural Information Processing Systems
[16] T. Joachims, “Making large-Scale Support Vector Machine Learning Practical”, in Advances in Kernel Methods - Support Vector Learning, B.Schửlkopf and C. Burges and A. Smola (ed.), MIT-Press, Cambridge, MA, 1998 Sách, tạp chí
Tiêu đề: Making large-Scale Support Vector Machine Learning Practical”, in" Advances in Kernel Methods - Support Vector Learning
[17] R. Collobert and S. Bengio, “Svmtorch: Support Vector Machines for Large- scale Regression Problems”, The Journal of Machine Learning Research, Vol.1, 2001, pp 143 – 160 Sách, tạp chí
Tiêu đề: Svmtorch: Support Vector Machines for Large-scale Regression Problems”, "The Journal of Machine Learning Research
[18] J. X. Dong, A. Krzyzak and C. Y. Suen, “A Fast SVM Training Algorithm”, International Journal of Pattern Recognition and Artificial Intelligence, vol Sách, tạp chí
Tiêu đề: A Fast SVM Training Algorithm”, "International Journal of Pattern Recognition and Artificial Intelligence
[19] Chih-Chung Chang and Chil-Jen Lin, “LIBSVM: a Library for Support Vector Machines”, National Taiwan University, 2004 Sách, tạp chí
Tiêu đề: LIBSVM: a Library for Support Vector Machines”, "National Taiwan University
[20] Nguyen, D.D., Ho, T.B., A Bottom-up Method for Simplifying Support Vector Solutions, IEEE Transactions on Neural Networks, Vol.17, No. 3, 2006, pp.792-796 Sách, tạp chí
Tiêu đề: A Bottom-up Method for Simplifying Support Vector Solutions
[21] Viola, P., Jones, M., “Rapid object detection using a boosted cascade of simple features”, Proc. Intl. Conf. on Computer Vision and Pattern Recognition (CVPR), Volume 1, pp. 511–518 , 2001 Sách, tạp chí
Tiêu đề: Rapid object detection using a boosted cascade of simple features”, "Proc. Intl. Conf. on Computer Vision and Pattern Recognition (CVPR)
[22] Gorgevik D., Cakmakov D., “An Efficient Three-Stage Classifier for Handwritten Digit Recognition”, Proceedings of 17 Int. Conference on Pattern Recognition, ICPR2004th, Vol. 4, pp. 507-510, IEEE Computer Society, Cambridge, UK, 23-26 August 2004 Sách, tạp chí
Tiêu đề: An Efficient Three-Stage Classifier for Handwritten Digit Recognition”, "Proceedings of 17 Int. Conference on Pattern Recognition, ICPR2004"th
[23] Cakmakov D., Gorgevik D., “Handwritten Digit Recognition Using Classifier Cooperation Schemes”, Proceedings of the 2nd Balkan Conference in Informatics, BCI 2005, pp. 23-30, Ohrid, November 17-19, 2005 Sách, tạp chí
Tiêu đề: Handwritten Digit Recognition Using Classifier Cooperation Schemes”, "Proceedings of the 2nd Balkan Conference in Informatics

HÌNH ẢNH LIÊN QUAN

HMM Hidden Markov Model (Mô hình Markov ẩn) kernel hàm nhân  - đề tài nghiên cứu khoa học toán ứng dụng
idden Markov Model (Mô hình Markov ẩn) kernel hàm nhân (Trang 5)
1.2. MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY - đề tài nghiên cứu khoa học toán ứng dụng
1.2. MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY (Trang 15)
Hình 1.1. Sơ đồ tổng quát của một hệ thống nhận dạng chữ viết tay. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.1. Sơ đồ tổng quát của một hệ thống nhận dạng chữ viết tay (Trang 15)
Hình 1.3. Nhiễu đốm và nhiễu vệt. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.3. Nhiễu đốm và nhiễu vệt (Trang 17)
Hình 1.3.  Nhiễu đốm và nhiễu vệt. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.3. Nhiễu đốm và nhiễu vệt (Trang 17)
Hình 1.5. (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.5. (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên (Trang 18)
Hình 1.6. Làm mảnh chữ. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.6. Làm mảnh chữ (Trang 18)
Hình 1.5. (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.5. (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên (Trang 18)
Hình 1.6. Làm mảnh chữ. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.6. Làm mảnh chữ (Trang 18)
Hình 1.7. Hiệu chỉnh độ nghiêng của văn bản. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.7. Hiệu chỉnh độ nghiêng của văn bản (Trang 19)
Hình 1.8. Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.8. Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ (Trang 19)
Hình 1.8. Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.8. Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ (Trang 19)
Hình 1.7. Hiệu chỉnh độ nghiêng của văn bản. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.7. Hiệu chỉnh độ nghiêng của văn bản (Trang 19)
Hình 1.9. Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo chiều thẳng đứng của dòng chữ - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.9. Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo chiều thẳng đứng của dòng chữ (Trang 20)
Hình 1.9. Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo  chiều thẳng đứng của dòng chữ - đề tài nghiên cứu khoa học toán ứng dụng
Hình 1.9. Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo chiều thẳng đứng của dòng chữ (Trang 20)
Định nghĩa 2.2: Khoảng cách hình học của một mẫu huấn luyện (xi,yi) tới siêu phẳng {x∈ RD | f(x)=wT.x+b=0} là  - đề tài nghiên cứu khoa học toán ứng dụng
nh nghĩa 2.2: Khoảng cách hình học của một mẫu huấn luyện (xi,yi) tới siêu phẳng {x∈ RD | f(x)=wT.x+b=0} là (Trang 37)
Hình 2.1. Siêu phẳng tách tuyến tính. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.1. Siêu phẳng tách tuyến tính (Trang 37)
Hình 2.2. So sánh hiệu quả phân lớp giữa máy tuyến tính thông thường với SVM. Cụ thể hơn, trong hình 2.3 giả sử tất cả các mẫu cần phân lớp đều có nhiễ u so  với các mẫu huấn luyện - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.2. So sánh hiệu quả phân lớp giữa máy tuyến tính thông thường với SVM. Cụ thể hơn, trong hình 2.3 giả sử tất cả các mẫu cần phân lớp đều có nhiễ u so với các mẫu huấn luyện (Trang 38)
Hình 2.3. Siêu phẳng tách hai lớp ‘o’ và ‘+’. Nếu siêu phẳng có khoảng cách lề δ và giới hạn nhiễu r &lt; δ thì siêu phẳng vẫn tách được chính xác các mẫu bị nhiễu - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.3. Siêu phẳng tách hai lớp ‘o’ và ‘+’. Nếu siêu phẳng có khoảng cách lề δ và giới hạn nhiễu r &lt; δ thì siêu phẳng vẫn tách được chính xác các mẫu bị nhiễu (Trang 38)
Hình 2.2. So sánh hiệu quả phân lớp giữa máy tuyến tính thông thường với SVM. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.2. So sánh hiệu quả phân lớp giữa máy tuyến tính thông thường với SVM (Trang 38)
Hình 2.3. Siêu phẳng tách hai lớp ‘o’ và ‘+’. Nếu siêu phẳng có khoảng cách lề δ và  giới hạn nhiễu r &lt; δ thì siêu phẳng vẫn tách được chính xác các mẫu bị nhiễu - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.3. Siêu phẳng tách hai lớp ‘o’ và ‘+’. Nếu siêu phẳng có khoảng cách lề δ và giới hạn nhiễu r &lt; δ thì siêu phẳng vẫn tách được chính xác các mẫu bị nhiễu (Trang 38)
Hình 2.4. Phân lớp mềm. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.4. Phân lớp mềm (Trang 39)
Hình 2.4. Phân lớp mềm. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.4. Phân lớp mềm (Trang 39)
Hình 2.5. Ánh xạ dữ liệu vào không gian đặc trưng. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.5. Ánh xạ dữ liệu vào không gian đặc trưng (Trang 45)
Hình 2.5. Ánh xạ dữ liệu vào không gian đặc trưng. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.5. Ánh xạ dữ liệu vào không gian đặc trưng (Trang 45)
Hình 2.6. Độ tin cậy VC tăng theo h. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.6. Độ tin cậy VC tăng theo h (Trang 50)
Hình 2.6. Độ tin cậy VC tăng theo h. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.6. Độ tin cậy VC tăng theo h (Trang 50)
Ví d ụ: Trong không gian R2, dimVC của họ các đường thẳng là 3 (hình 2.9). - đề tài nghiên cứu khoa học toán ứng dụng
d ụ: Trong không gian R2, dimVC của họ các đường thẳng là 3 (hình 2.9) (Trang 52)
Hình 2.9. Với 3 điểm không thẳng hàng trong R 2  thì luôn tách được bởi đường thẳng. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.9. Với 3 điểm không thẳng hàng trong R 2 thì luôn tách được bởi đường thẳng (Trang 52)
Ph ần này sẽ áp dụng phương pháp phân lớp SVM để xây dựng mô hình nhận dạng chữ viết tay rời rạc (hình 2.10) - đề tài nghiên cứu khoa học toán ứng dụng
h ần này sẽ áp dụng phương pháp phân lớp SVM để xây dựng mô hình nhận dạng chữ viết tay rời rạc (hình 2.10) (Trang 58)
Hình 2.10. Mô hình nhận dạng chữ viết tay rời rạc. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.10. Mô hình nhận dạng chữ viết tay rời rạc (Trang 58)
B ước 2: Tìm hình chữ nhậ tR bé nhất chứa các điểm đen trên ảnh.  Bước 3: Lấy vùng ảnh I nằm trong hình chữ nhật R - đề tài nghiên cứu khoa học toán ứng dụng
c 2: Tìm hình chữ nhậ tR bé nhất chứa các điểm đen trên ảnh. Bước 3: Lấy vùng ảnh I nằm trong hình chữ nhật R (Trang 59)
Hình 2.11. Chọn đặc trưng ma trận nhị phân. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.11. Chọn đặc trưng ma trận nhị phân (Trang 59)
Hình 2.12. Các mẫu chữ số viết tay trích từ tập các tập dữ liệu USPS và MNIST. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 2.12. Các mẫu chữ số viết tay trích từ tập các tập dữ liệu USPS và MNIST (Trang 60)
Tiếp tục thử nghiệm các hàm nhân khác nhau cho mô hình SVM với các tham số C=10, Cache=1000 (bảng 2.3) - đề tài nghiên cứu khoa học toán ứng dụng
i ếp tục thử nghiệm các hàm nhân khác nhau cho mô hình SVM với các tham số C=10, Cache=1000 (bảng 2.3) (Trang 61)
Bảng 2.3. Kết quả thực nghiệm với các hàm nhân khác nhau trên tập USPS. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.3. Kết quả thực nghiệm với các hàm nhân khác nhau trên tập USPS (Trang 61)
Bảng 2.3. Kết quả thực nghiệm với các hàm nhân khác nhau trên tập USPS. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.3. Kết quả thực nghiệm với các hàm nhân khác nhau trên tập USPS (Trang 61)
Bảng 2.4. Kết quả huấn luyện với hàm nhân Gausse. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.4. Kết quả huấn luyện với hàm nhân Gausse (Trang 61)
Bảng 2.5. Kết quả huấn luyện với kích thước cache khác nhau. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.5. Kết quả huấn luyện với kích thước cache khác nhau (Trang 62)
Bảng 2.5 cho thấy chất lượng của thuật toán huấn luyện SVM cũng phụ thuộc  vào kích thước của cache - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.5 cho thấy chất lượng của thuật toán huấn luyện SVM cũng phụ thuộc vào kích thước của cache (Trang 62)
Bảng 2.5. Kết quả huấn luyện với kích thước cache khác nhau. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.5. Kết quả huấn luyện với kích thước cache khác nhau (Trang 62)
Bảng 2.7. So sánh một số phương pháp phân lớp trên bộ dữ liệu MNIST. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.7. So sánh một số phương pháp phân lớp trên bộ dữ liệu MNIST (Trang 63)
Bảng 2.7. So sánh một số phương pháp phân lớp trên bộ dữ liệu MNIST. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 2.7. So sánh một số phương pháp phân lớp trên bộ dữ liệu MNIST (Trang 63)
Hình 3.1. Trích chọn đặc trưng trọng số vùng. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.1. Trích chọn đặc trưng trọng số vùng (Trang 65)
Hình 3.2.Trích chọn các biểu đồ chiếu ngang, dọc và 2 đường chéo. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.2. Trích chọn các biểu đồ chiếu ngang, dọc và 2 đường chéo (Trang 66)
Hình3.3. Trích chọn các khối bên ngoài của chữ. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.3. Trích chọn các khối bên ngoài của chữ (Trang 66)
Hình 3.2.Trích chọn các biểu đồ chiếu ngang, dọc và 2 đường chéo. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.2. Trích chọn các biểu đồ chiếu ngang, dọc và 2 đường chéo (Trang 66)
Bảng 3.1. Kết quả nhận dạng theo các loại đặc trưng khác nhau. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 3.1. Kết quả nhận dạng theo các loại đặc trưng khác nhau (Trang 70)
Bảng 3.1. Kết quả nhận dạng theo các loại đặc trưng khác nhau. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 3.1. Kết quả nhận dạng theo các loại đặc trưng khác nhau (Trang 70)
Hình 3.6. Kiến trúc của hệ nhận dạng chữ viết tay tiếng Việt - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.6. Kiến trúc của hệ nhận dạng chữ viết tay tiếng Việt (Trang 72)
Hình 3.6. Kiến trúc của hệ nhận dạng chữ viết tay tiếng Việt - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.6. Kiến trúc của hệ nhận dạng chữ viết tay tiếng Việt (Trang 72)
Bước 1: Xác định các vùng liên thông trên ảnh (Hình 3.8). - đề tài nghiên cứu khoa học toán ứng dụng
c 1: Xác định các vùng liên thông trên ảnh (Hình 3.8) (Trang 73)
Bước 2: Sắp xếp các vùng liên thông theo thứ tự từ trên xuống (hình 3.8b). - đề tài nghiên cứu khoa học toán ứng dụng
c 2: Sắp xếp các vùng liên thông theo thứ tự từ trên xuống (hình 3.8b) (Trang 73)
Hình 3.9. Chuẩn hóa các vùng liên thông. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.9. Chuẩn hóa các vùng liên thông (Trang 73)
Hình 3.8. Chuẩn hóa ảnh: (a) Ảnh gốc, (b) Xác định các vùng liên thông và đánh thứ  tự các vùng liên thông - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.8. Chuẩn hóa ảnh: (a) Ảnh gốc, (b) Xác định các vùng liên thông và đánh thứ tự các vùng liên thông (Trang 73)
Hình 3.10. Các mẫu trích từ tập ký tự viết tay tiếng Việt. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.10. Các mẫu trích từ tập ký tự viết tay tiếng Việt (Trang 76)
Hình 3.10. Các mẫu trích từ tập ký tự viết tay tiếng Việt. - đề tài nghiên cứu khoa học toán ứng dụng
Hình 3.10. Các mẫu trích từ tập ký tự viết tay tiếng Việt (Trang 76)
Kết quả thực nghiệ mở bảng 1 cho thấy tập TestData2 cho độ chính xác cao hơn nhiều so với tập TestData1 - đề tài nghiên cứu khoa học toán ứng dụng
t quả thực nghiệ mở bảng 1 cho thấy tập TestData2 cho độ chính xác cao hơn nhiều so với tập TestData1 (Trang 77)
Bảng 3.3. Kết quả nhận dạng trên tập dữ liệu TestData5. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 3.3. Kết quả nhận dạng trên tập dữ liệu TestData5 (Trang 85)
Bảng 3.3. Kết quả nhận dạng trên tập dữ liệu TestData5. - đề tài nghiên cứu khoa học toán ứng dụng
Bảng 3.3. Kết quả nhận dạng trên tập dữ liệu TestData5 (Trang 85)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w