- 12 - NGHIÊN CỨUVÀỨNGDỤNGTRÍCHCHỌNĐẶCTRƯNGTRONGNHẬNDẠNGCHỮVIẾTTAYTIẾNGVIỆT Đinh Việt Cường MSSV: 0121815 Email: dvcuong83@yahoo.com Cán bộ hướng dẫn: TS. Nguyễn Việt Hà 1. Giới thiệu Ngoài những khó khăn chung của bài toán nhậndạngchữviết tay, nhậndạngchữviếttaytiếngViệt còn có những khó khăn do đặc thù của tiếngViệt đem lại. Hệ thống dấu của tiếngViệt khiến cho số lượng kí tự là rất lớn trong đó có những nhóm kí tự rất giống nhau và khó phân biệt (các kí tự có dấu xuất phát từ cùng một nguyên âm chỉ khác nhau phần dấ u). Điều này khiến cho hiệu quả nhậndạng là rất thấp khi chúng ta chỉ nhậndạng tất cả các kí tự trong một lần (nhận dạng một cấp). Để khắc phục những khó khăn này, em đề xuất giải pháp: nhậndạng nhiều cấp bằng cách chia tập kí tự ra thành nhiều nhóm (mỗi nhóm gồm các kí tự gần giống nhau) đồng thời áp dụng phương pháp trích ch ọn đặctrưng phù hợp cho từng nhóm kí tự để nâng cao chất lượng nhận dạng. 2. Tổng quan về trích chọnđặctrưngTríchchọnđặctrưng là việc tìm vàchọn ra các đặctrưngđặc thù của mỗi ảnh. Các đặctrưng này có thể là các đặctrưng về mật độ điểm ảnh, mức xám trung bình của các điểm ảnh và biên ảnh [1]. Trong bài toán nhận dạng, tríchchọnđặctrưng thường là bước đứng trước bước nhậndạngvàđứng sau bước tiền xử lý. Nó có tác dụngchọn ra các đặc tr ưng tiêu biểu của ảnh đầu vào (sau khi đã được qua bước tiền xử lý) từ đó cung cấp các đặctrưng này cho bước nhậndạng để xử lý. Tríchchọnđặctrưng không những làm giảm kích thước mẫu đầu vào mà còn làm tăng độ chính xác của hệ nhậndạng nói chung. Có nhiều phương pháp tríchchọnđặctrưng có thể áp dụng cho bài toán nhận dạng, tuy nhiên có 3 phương pháp chính thường được sử dụng đó là: tríchchọnđặctrưng theo hướng, tríchchọnđặctrưng theo cấu trúc vàtríchchọnđặctrưng theo tính lồi lõm [2]. Một cách tương ứng, các phương pháp này lấy ra đặctrưng của ảnh theo nhiều cấp độ nhìn nhận khác nhau: từ một điểm ảnh, một vài điểm ảnh tới rất nhiều điểm ảnh (có thể trải trên toàn bộ ảnh). Dựa trên đặc thù c ủa mỗi bài toán nhận dạng, chúng ta cần sử dụng phương pháp tríchchọnđặctrưng phù hợp để việc nhậndạng đạt được hiệu quả cao nhất. 3. Tríchchọnđặctrưng áp dụng cho bài toán Theo giải pháp được đề ra trong phần giới thiệu, chúng ta cần tiến hành các bước: phân loại kí tự thành các nhóm và sau đó với mỗi nhóm áp dụng phương pháp tríchchọnđặctrưng phù hợp. Phân loại kí tự: Việc phân nhóm các kí tự tiếngViệtviết thường được thực hiện dựa trên quy tắc: các kí tự gần giống nhau, dễ gây nhầm lẫn thì sẽ được phân về một nhóm. Theo quy tắc này các kí tự có d ấu xuất phát từ cùng một chữ cái có phần thân giống nhau, chỉ khác nhau phần dấu nên ta sẽ xếp vào một nhóm; đối với các kí tự không có dấu, các kí tự có cấu trúc hình học tương tự như nhau cũng được xếp chung vào một nhóm, ví dụ (nhóm chữ r và s, nhóm chữ d và đ…). Tríchchọnđặctrưng áp dụng cho các nhóm: Để nâng cao chất lượng cho hệ nhậndạng nhiều cấp tương ứng với bả ng phân nhóm kí tự, việc tríchchọnđặctrưng cho ảnh đầu vào cần đạt được những mục tiêu sau: • Khi cần xếp kí tự vào một nhóm, tríchchọnđặctrưng cần lấy ra các đặctrưng của kí tự là đặc điểm chung của nhóm. Các đặctrưng này là đại diện cho mỗi nhóm (các kí tự trong nhóm đều có) và khác với đặctrưng chung của các nhóm khác. • Khi cần phân biệt các kí tự trong cùng một nhóm, tríchchọnđặctrưng chỉ có nhiệm vụ chọn ra những đặctrưngđặc thù cho mỗi kí tự trong nhóm và bỏ qua những đặctrưng là đặc điểm chung của nhóm. Do đó, với từng nhóm kí tự ở mỗi cấp nhậndạng chúng ta cần tìm ra phương pháp tríchchọnđặctrưng cho phù hợp. Để có thể áp dụng - 13 - cho các hệ nhậndạng khác nhau (bằng mô hình mạng neuron, SVM, hay Markov,…), một cách tổng quát nhất chúng ta cần tiến hành tríchchọnđặctrưng cho các nhóm sau: • Trích chọnđặctrưng cho nhóm 0 (ở cấp nhậndạng đầu tiên) có nhiệm vụ tìm ra những đặctrưng là đặc thù của mỗi nhóm con sau nó để xác định xem kí tự đầu vào thuộc về nhóm nào trong các nhóm con này. • Trích chọnđặctrưng cho các nhóm kí tự có dấu cùng gốc: nhiệm vụ củ a trích chọnđặctrưng trong phần này là tập trung đến phần dấu của kí tự, tìm ra đặctrưng trên phần dấu để phân biệt các dấu. Khi đã phân biệt được dấu, chúng ta sẽ phân biệt được cả kí tự. • Trích chọnđặctrưng cho các nhóm kí tự không dấu: có nhiệm vụ tìm ra những đặctrưng riêng của các kí tự trong cùng một nhóm. 4. Thực nghiệm Do chưa có cơ sở dữ liệu kí tự viếttaytiếngViệt chuẩn nào nên cùng với việc xây dựng hệ thống thực nghiệm, chúng em đã tiến hành thu thập cơ sở dữ liệu theo các tiêu chuẩn sau (đây cũng chính là phạm vi của bài toán mà chúng em đang giải quyết): • Kiểu chữ “đứng” theo nghĩa không quá nghiêng về bên trái hoặc phải. • Chữviết không thiếu hoặc thừa nét, dấu được đặt chuẩn theo quy định của tiếng Việt. Để kiểm tra tính hiệu quả của các phương pháp tríchchọnđặc trưng, chúng ta thường phải sử dụng mô hình nhận dạng. Mô hình nhậndạng được em sử dụngtrong các thực nghiệm ở đây là mạng neuron. (việc nghiên cứuvà cài đặt mạng neuron được thực hiện bởi một thành viên khác trong nhóm) Thực nghiệm 1: Thực nghiệm khẳng định tính hiệu quả của việc tríchchọnđặctrưngDùng một mạng neuron để nhậndạng tất cả các kí tự viếttaytiếng Việt. Cố định số lần huấn luyện mạng là 30, tập mẫu học gồm 10000 mẫu và tập test là 5000 mẫu. Tiến hành hai thực nghiệm sau: Thực nghiệm thứ nhất (1) chúng ta không tríchchọnđặctrưng cho ảnh đầu vào trước khi mạ ng neuron nhậndạngvà thực nghiệm thứ hai (2) chúng ta dùng phương pháp GSC (kết hợp của 3 phương pháp trên) để tríchchọnđặctrưng cho ảnh đầu vào. Kết quả thực nghiệm được thể hiện trong bảng 4.1: P 2 TCĐT % đúng (train) TG nhậndạng % đúng (test) (1) 85.72 ~ 31 giây 76.40 (2) 91.20 ~ 20 giây 81.12 Từ kết quả thực nghiệm trên ta thấy việc tríchchọnđặctrưng không những làm giảm thời gian nhậndạng mà còn nâng cao rất nhiều độ chính xác của việc nhậndạng (từ 76.4% lên 81.12 %). Thực nghiệm 2: Thực nghiệm khẳng định hiệu quả của việc phân nhóm Trong thực nghiệm này, việc phân nhóm kí tự được tiến hành vàứng với mỗi nhóm kí tự đó ta áp dụng một ph ương pháp tríchchọnđặctrưng phù hợp (bằng cách tiến hành nhiều thực nghiệm khác để lựa chọn). Tỷ lệ nhậndạngđúng trên tập test là 95.8% cao hơn rất nhiều so với khi ta không phân nhóm kí tự (81.12%). Ngoài ra chúng em (em và hai thành viên khác trong nhóm) cũng đã cài đặt được hệ thống thực nghiệm chung cho bài toán Nhậndạng đoạn văn bản viếttaytiếngViệt nét liền và thu được kết quả ban đầu rất khả quan. 5. Kết luận Sau quá trình nghiên cứu về tríchchọnđặctrưngvà bài toán nhậndạngchữviếttaytiếng Việt, em đã đề xuất một giải pháp khắc phục được những khó khăn của bài toán và cài đặt được hệ thực nghiệm nhậndạngchữviếttaytiếngViệt với tỷ lệ nhậndạngđúng khá cao (95.8%) dựa trên việc phân nhóm kí tự và áp dụngtríchchọnđặctrưng phù hợp cho mỗ i nhóm. Đây là một tỷ lệ cao so với các hệ nhậndạngchữviếttay ở Việt Nam hiện nay. Trong thời gian tới em sẽ tiếp tục mở rộng phạm vi của bài toán và hướng tới phát triển các ứngdụng thực tế như nhậndạng các bảng kê khai tiếng Việt. 6. Tài liệu tham khảo [1] William K. Pratt Digital Image Processing, 2001. [2] Sargur N. Srihari Gradient-Based contour encoding for character recognition, Pattern Recognition, 1996. . - 12 - NGHIÊN CỨU VÀ ỨNG DỤNG TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT Đinh Việt Cường MSSV: 0121815 Email:. được sử dụng đó là: trích chọn đặc trưng theo hướng, trích chọn đặc trưng theo cấu trúc và trích chọn đặc trưng theo tính lồi lõm [2]. Một cách tương ứng,