1. Trang chủ
  2. » Luận Văn - Báo Cáo

041_Nghiên cứu và ứng dụng trích chọn đặc trưng trong nhận dạng chữ viết tay tiếng Việt

2 1K 14
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 2
Dung lượng 305,68 KB

Nội dung

- 12 - NGHIÊN CỨU ỨNG DỤNG TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT Đinh Việt Cường MSSV: 0121815 Email: dvcuong83@yahoo.com Cán bộ hướng dẫn: TS. Nguyễn Việt Hà 1. Giới thiệu Ngoài những khó khăn chung của bài toán nhận dạng chữ viết tay, nhận dạng chữ viết tay tiếng Việt còn có những khó khăn do đặc thù của tiếng Việt đem lại. Hệ thống dấu của tiếng Việt khiến cho số lượng kí tự là rất lớn trong đó có những nhóm kí tự rất giống nhau khó phân biệt (các kí tự có dấu xuất phát từ cùng một nguyên âm chỉ khác nhau phần dấ u). Điều này khiến cho hiệu quả nhận dạng là rất thấp khi chúng ta chỉ nhận dạng tất cả các kí tự trong một lần (nhận dạng một cấp). Để khắc phục những khó khăn này, em đề xuất giải pháp: nhận dạng nhiều cấp bằng cách chia tập kí tự ra thành nhiều nhóm (mỗi nhóm gồm các kí tự gần giống nhau) đồng thời áp dụng phương pháp trích ch ọn đặc trưng phù hợp cho từng nhóm kí tự để nâng cao chất lượng nhận dạng. 2. Tổng quan về trích chọn đặc trưng Trích chọn đặc trưng là việc tìm chọn ra các đặc trưng đặc thù của mỗi ảnh. Các đặc trưng này có thể là các đặc trưng về mật độ điểm ảnh, mức xám trung bình của các điểm ảnh biên ảnh [1]. Trong bài toán nhận dạng, trích chọn đặc trưng thường là bước đứng trước bước nhận dạng đứng sau bước tiền xử lý. Nó có tác dụng chọn ra các đặc tr ưng tiêu biểu của ảnh đầu vào (sau khi đã được qua bước tiền xử lý) từ đó cung cấp các đặc trưng này cho bước nhận dạng để xử lý. Trích chọn đặc trưng không những làm giảm kích thước mẫu đầu vào mà còn làm tăng độ chính xác của hệ nhận dạng nói chung. Có nhiều phương pháp trích chọn đặc trưng có thể áp dụng cho bài toán nhận dạng, tuy nhiên có 3 phương pháp chính thường được sử dụng đó là: trích chọn đặc trưng theo hướng, trích chọn đặc trưng theo cấu trúc trích chọn đặc trưng theo tính lồi lõm [2]. Một cách tương ứng, các phương pháp này lấy ra đặc trưng của ảnh theo nhiều cấp độ nhìn nhận khác nhau: từ một điểm ảnh, một vài điểm ảnh tới rất nhiều điểm ảnh (có thể trải trên toàn bộ ảnh). Dựa trên đặc thù c ủa mỗi bài toán nhận dạng, chúng ta cần sử dụng phương pháp trích chọn đặc trưng phù hợp để việc nhận dạng đạt được hiệu quả cao nhất. 3. Trích chọn đặc trưng áp dụng cho bài toán Theo giải pháp được đề ra trong phần giới thiệu, chúng ta cần tiến hành các bước: phân loại kí tự thành các nhóm sau đó với mỗi nhóm áp dụng phương pháp trích chọn đặc trưng phù hợp. Phân loại kí tự: Việc phân nhóm các kí tự tiếng Việt viết thường được thực hiện dựa trên quy tắc: các kí tự gần giống nhau, dễ gây nhầm lẫn thì sẽ được phân về một nhóm. Theo quy tắc này các kí tự có d ấu xuất phát từ cùng một chữ cái có phần thân giống nhau, chỉ khác nhau phần dấu nên ta sẽ xếp vào một nhóm; đối với các kí tự không có dấu, các kí tự có cấu trúc hình học tương tự như nhau cũng được xếp chung vào một nhóm, ví dụ (nhóm chữ r s, nhóm chữ d đ…). Trích chọn đặc trưng áp dụng cho các nhóm: Để nâng cao chất lượng cho hệ nhận dạng nhiều cấp tương ứng với bả ng phân nhóm kí tự, việc trích chọn đặc trưng cho ảnh đầu vào cần đạt được những mục tiêu sau: • Khi cần xếp kí tự vào một nhóm, trích chọn đặc trưng cần lấy ra các đặc trưng của kí tự là đặc điểm chung của nhóm. Các đặc trưng này là đại diện cho mỗi nhóm (các kí tự trong nhóm đều có) khác với đặc trưng chung của các nhóm khác. • Khi cần phân biệt các kí tự trong cùng một nhóm, trích chọn đặc trưng chỉ có nhiệm vụ chọn ra những đặc trưng đặc thù cho mỗi kí tự trong nhóm bỏ qua những đặc trưngđặc điểm chung của nhóm. Do đó, với từng nhóm kí tự ở mỗi cấp nhận dạng chúng ta cần tìm ra phương pháp trích chọn đặc trưng cho phù hợp. Để có thể áp dụng - 13 - cho các hệ nhận dạng khác nhau (bằng mô hình mạng neuron, SVM, hay Markov,…), một cách tổng quát nhất chúng ta cần tiến hành trích chọn đặc trưng cho các nhóm sau: • Trích chọn đặc trưng cho nhóm 0 (ở cấp nhận dạng đầu tiên) có nhiệm vụ tìm ra những đặc trưngđặc thù của mỗi nhóm con sau nó để xác định xem kí tự đầu vào thuộc về nhóm nào trong các nhóm con này. • Trích chọn đặc trưng cho các nhóm kí tự có dấu cùng gốc: nhiệm vụ củ a trích chọn đặc trưng trong phần này là tập trung đến phần dấu của kí tự, tìm ra đặc trưng trên phần dấu để phân biệt các dấu. Khi đã phân biệt được dấu, chúng ta sẽ phân biệt được cả kí tự. • Trích chọn đặc trưng cho các nhóm kí tự không dấu: có nhiệm vụ tìm ra những đặc trưng riêng của các kí tự trong cùng một nhóm. 4. Thực nghiệm Do chưa có cơ sở dữ liệu kí tự viết tay tiếng Việt chuẩn nào nên cùng với việc xây dựng hệ thống thực nghiệm, chúng em đã tiến hành thu thập cơ sở dữ liệu theo các tiêu chuẩn sau (đây cũng chính là phạm vi của bài toán mà chúng em đang giải quyết): • Kiểu chữ “đứng” theo nghĩa không quá nghiêng về bên trái hoặc phải. • Chữ viết không thiếu hoặc thừa nét, dấu được đặt chuẩn theo quy định của tiếng Việt. Để kiểm tra tính hiệu quả của các phương pháp trích chọn đặc trưng, chúng ta thường phải sử dụng mô hình nhận dạng. Mô hình nhận dạng được em sử dụng trong các thực nghiệm ở đây là mạng neuron. (việc nghiên cứu cài đặt mạng neuron được thực hiện bởi một thành viên khác trong nhóm) Thực nghiệm 1: Thực nghiệm khẳng định tính hiệu quả của việc trích chọn đặc trưng Dùng một mạng neuron để nhận dạng tất cả các kí tự viết tay tiếng Việt. Cố định số lần huấn luyện mạng là 30, tập mẫu học gồm 10000 mẫu tập test là 5000 mẫu. Tiến hành hai thực nghiệm sau: Thực nghiệm thứ nhất (1) chúng ta không trích chọn đặc trưng cho ảnh đầu vào trước khi mạ ng neuron nhận dạng thực nghiệm thứ hai (2) chúng ta dùng phương pháp GSC (kết hợp của 3 phương pháp trên) để trích chọn đặc trưng cho ảnh đầu vào. Kết quả thực nghiệm được thể hiện trong bảng 4.1: P 2 TCĐT % đúng (train) TG nhận dạng % đúng (test) (1) 85.72 ~ 31 giây 76.40 (2) 91.20 ~ 20 giây 81.12 Từ kết quả thực nghiệm trên ta thấy việc trích chọn đặc trưng không những làm giảm thời gian nhận dạng mà còn nâng cao rất nhiều độ chính xác của việc nhận dạng (từ 76.4% lên 81.12 %). Thực nghiệm 2: Thực nghiệm khẳng định hiệu quả của việc phân nhóm Trong thực nghiệm này, việc phân nhóm kí tự được tiến hành ứng với mỗi nhóm kí tự đó ta áp dụng một ph ương pháp trích chọn đặc trưng phù hợp (bằng cách tiến hành nhiều thực nghiệm khác để lựa chọn). Tỷ lệ nhận dạng đúng trên tập test là 95.8% cao hơn rất nhiều so với khi ta không phân nhóm kí tự (81.12%). Ngoài ra chúng em (em hai thành viên khác trong nhóm) cũng đã cài đặt được hệ thống thực nghiệm chung cho bài toán Nhận dạng đoạn văn bản viết tay tiếng Việt nét liền thu được kết quả ban đầu rất khả quan. 5. Kết luận Sau quá trình nghiên cứu về trích chọn đặc trưng bài toán nhận dạng chữ viết tay tiếng Việt, em đã đề xuất một giải pháp khắc phục được những khó khăn của bài toán cài đặt được hệ thực nghiệm nhận dạng chữ viết tay tiếng Việt với tỷ lệ nhận dạng đúng khá cao (95.8%) dựa trên việc phân nhóm kí tự áp dụng trích chọn đặc trưng phù hợp cho mỗ i nhóm. Đây là một tỷ lệ cao so với các hệ nhận dạng chữ viết tayViệt Nam hiện nay. Trong thời gian tới em sẽ tiếp tục mở rộng phạm vi của bài toán hướng tới phát triển các ứng dụng thực tế như nhận dạng các bảng kê khai tiếng Việt. 6. Tài liệu tham khảo [1] William K. Pratt Digital Image Processing, 2001. [2] Sargur N. Srihari Gradient-Based contour encoding for character recognition, Pattern Recognition, 1996. . - 12 - NGHIÊN CỨU VÀ ỨNG DỤNG TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT Đinh Việt Cường MSSV: 0121815 Email:. được sử dụng đó là: trích chọn đặc trưng theo hướng, trích chọn đặc trưng theo cấu trúc và trích chọn đặc trưng theo tính lồi lõm [2]. Một cách tương ứng,

Ngày đăng: 06/10/2013, 18:20

HÌNH ẢNH LIÊN QUAN

cho các hệ nhận dạng khác nhau (bằng mô hình mạng neuron, SVM, hay Markov,…), mộ t cách  tổng quát nhất chúng ta cần tiến hành trích chọn  đặc trưng cho các nhóm sau:  - 041_Nghiên cứu và ứng dụng trích chọn đặc trưng trong nhận dạng chữ viết tay tiếng Việt
cho các hệ nhận dạng khác nhau (bằng mô hình mạng neuron, SVM, hay Markov,…), mộ t cách tổng quát nhất chúng ta cần tiến hành trích chọn đặc trưng cho các nhóm sau: (Trang 2)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w