041_Nghiên cứu và ứng dụng mạng Neutron trong nhận dạng chữ viết tay tiếng Việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	2
Dung lượng	311,85 KB

Nội dung

- 8 - NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NEUTRON TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT Nguyễn Thị Minh Ánh MSV: 0121792 Email: giandon103@yahoo.com Cán bộ hướng dẫn: TS. Nguyễn Việt Hà 1. Giới thiệu Nhận dạng chữ viết tay tiếng Việt là một bài toán khó và cho tới nay chưa có một lời giải trọn vẹn nào. Trong bài toán này, chúng ta không những phải đương đầu với những khó khăn chung của chữ viết tay mà còn phải giải quyết những khó khăn riêng đặc thù của tiếng Việt, đó là: số lượng kí tự rất lớn do hệ thống dấu tiếng Việt đem lại và việ c hình thành nhiều nhóm kí tự rất giống nhau, khó phân biệt. Để khắc phục những khó khăn này, em đề xuất giải pháp: chia tập hợp kí tự tiếng Việt thành nhiều nhóm và xây dựng mô hình đa mạng neuron tương ứng để nhận dạng. 2. Tổng quan về mạng neuron Mạng neuron (neural network) là mạng các phần tử (neuron) kết nối với nhau thông qua các liên kết (trọng số liên kết) để thực hiện một công việc cụ thể nào đó. Để mạng thực hiện được nhiệm vụ này chúng ta cần huấn luyện nó bằng cách hiệu chỉnh bộ tham số mạng (trọng số liên kết và ngưỡng tại mỗi neuron) trong quá trình mạng học sao cho phù hợ p với yêu cầu của bài toán. Mạng neuron được ứng dụng nhiều trong các bài toán phân loại mẫu (điển hình là nhận dạng) bởi ưu điểm nổi trội của nó là dễ cài đặt cùng với khả năng học và tổng quát hoá rất cao. 3. Phân nhóm kí tự Việc phân nhóm kí tự có thể dựa trên trực quan: những kí tự nào mà mắt thường dễ nhầm lẫn, khó phân biệt thì cho vào cùng một nhóm. Tuy nhiên, nếu làm như vậy, vô tình chúng ta đã áp đặt mạng neuron phải phân biệt theo cách nhìn nhận của con người. Cho nên tốt nhất là để mạng neuron tự thực hiện công việc này. Ý tưởng phân nhóm này có thể thực hiện được theo phương pháp sau: • Dùng một mạng neuron để nhận dạng tất cả các kí tự. • Trong quá trình huấn luyện và test mạng, ghi lại số lần mạng phân biệt nhầm từng cặp hai kí tự với nhau. • Nếu số lần nhầm lẫn lớn hơn một ngưỡng nào đó thì xếp hai kí tự này vào cùng một nhóm. • Sau khi phân nhóm lần thứ nhất, chúng ta có thể tiếp tục chia nhỏ hơn đối với những nhóm có số lượng phần tử lớ n bằng cách lấy một ngưỡng khác (lớn hơn ngưỡng ở lần phân nhóm trước). 4. Mô hình đa mạng neuron áp dụng cho bài toán Cấu trúc của hệ thống đa mạng neuron được xác định dựa trên cấu trúc của bảng phân nhóm kí tự. Mỗi mạng neuron tương ứng với một nhóm có nhiều hơn một kí tự. Hệ thống đa mạng gồm một vài lớp mạng, mỗi lớp lại có thể gồm nhiều mạng. Trong đó, lớp thứ nhất có duy nhất một mạng, mạng này có nhiệm v ụ phân loại kí tự đầu vào về một trong các nhóm tương ứng. Ứng với mỗi nhóm kí tự có nhiều hơn một phần tử ở lớp thứ nhất là một mạng neuron ở lớp mạng thứ hai. Tương tự như vậy, chúng ta xác định được các mạng neuron ở lớp thứ ba,… cho đến khi không còn nhóm kí tự nào có nhiều hơn một phần tử. Như vậy một cách đệ quy chúng ta có thể xây dựng được hệ thống đa mạng tương ứng với một phân nhóm kí tự cho trước. Hệ thống đa mạng làm việc theo quy trình nhận dạng sau: Ảnh của kí tự (đầu vào) được đưa qua mạng neuron ở lớp đầu tiên. Mạng này sẽ thực hiện việc phân loại (lan truyền xuôi tín hiệu đầu vào lần lượt qua các lớp neuron của mạng) để xác định xem đầu vào thuộc nhóm kí tự con nào. Nếu nhóm này chỉ gồm một kí tự thì kết thúc việc nhận dạng và trả kết quả (là kí tự đó) ra đầu ra. Ngược lại, nếu nhóm này có nhiều hơn một kí tự thì mạng neuron ứng với nhóm kí tự đó sẽ được kích hoạt. Nhiệm vụ của mạng này tương tự như mạng trước và quá trình tiếp tục cho tới khi nhận được kết quả ở đầu ra. - 9 - Việc huấn luyện hệ thống có thể thực hiện theo hai phương pháp là huấn luyện tuần tự (huấn luyện theo lô) và huấn luyện song song. Huấn luyện tuần tự: sau khi có bảng phân nhóm kí tự, xây dựng hệ thống đa mạng tương ứng với sự phân nhóm đó. Với mỗi mẫu trong tập mẫu học, dạy mạng thứ nhất sao cho nó phân loại đúng mẫ u đấy. Sau đó huấn luyện mạng tương ứng ở lớp mạng thứ hai để nó cũng phân loại đúng mẫu này. Tiếp tục như vậy với tất cả các mạng liên quan tới mẫu đầu vào cho tới khi ta nhận được kết quả mong muốn ở đầu ra. Huấn luyện song song: sau khi có bảng phân nhóm kí tự, tiến hành cài đặt và huấn luyện song song các mạng đơn ứ ng với từng nhóm để mạng phân loại đúng các kí tự thuộc nhóm này. Sau khi huấn luyện xong các mạng (thu được bộ tham số phù hợp cho từng mạng), ta cần ghép các mạng lại theo đúng cấu trúc của phân nhóm kí tự để có hệ thống đa mạng cuối cùng. Đây là hệ thống đã được huấn luyện. Nhận xét: với phương pháp huấn luyện theo lô, tuy thời gian tiến hành có lâu hơn như ng chúng ta không cần phải chọn ra những tập mẫu học riêng cho từng mạng và cũng không phải ghép các mạng lại sau khi huấn luyện. Hơn thế nữa, khi có mẫu kí tự mới, việc học mẫu mới này sẽ đơn giản hơn so với phương pháp huấn luyện song song. Do đó, khi cài đặt hệ thống thực nghiệm, em chọn phương pháp huấn luyện theo lô. 5. Thực nghiệm Do chưa có cơ sở dữ liệu kí tự viết tay tiếng Việt chuẩn nào nên cùng với việc xây dựng hệ thống thực nghiệm, chúng em đã tiến hành thu thập cơ sở dữ liệu theo các tiêu chuẩn sau (đây cũng chính là phạm vi của bài toán mà chúng em đang giải quyết): • Kiểu chữ “đứng” theo nghĩa không quá nghiêng về bên trái hoặc phải. • Chữ viết không thiếu hoặc thừa nét, dấu được đặt chuẩn theo quy định của tiếng Việt. Thực nghiệm đầu tiên là phân nhóm kí tự theo phương pháp được nêu trong mục 3 để đề xuất một vài bảng phân nhóm kí tự ở các lần học khác nhau của mạng neuron. Sau đó xây dựng hệ thống đa mạng tương ứng với các bảng phân nhóm kí tự này và tiến hành thực nghiệm để tìm ra phân nhóm tốt nhất (theo nghĩa: tỷ lệ nhận dạ ng đúng của hệ thống đa mạng tương ứng là cao nhất). Bảng dưới đây cho thấy tỷ lệ nhận dạng đúng khi không phân nhóm kí tự (1) và khi có phân nhóm kí tự (2) trong thực nghiệm với 10.000 mẫu ở tập mẫu học và 5.000 mẫu ở tập thử nghiệm. Hệ nhận dạng % train đúng % test đúng (1) 80.47 76.40 (2) 96.42 91.62 Kết quả ở bảng trên chứng tỏ giải pháp mà em đề xuất là giải pháp hiệu quả đối với bài toán nhận dạng chữ viết tay tiếng Việt (91.62% là rất lớn so với 76.40%). Ngoài ra, sau khi lựa chọn phương pháp trích chọn đặc trưng phù hợp cho từng nhóm kí tự, tỷ lệ nhận dạng đúng của hệ thống tăng từ 91.62% lên tới 95.20% (đây là giải pháp nhằm nâng cao hi ệu quả nhận dạng của hệ thống đa mạng do một thành viên khác trong nhóm đề xuất khi chúng em thực hiện đề tài chung Nhận dạng đoạn văn bản viết tay tiếng Việt nét liền). Bên cạnh đó, chúng em đã cài đặt được hệ thực nghiệm chung Nhận dạng đoạn văn bản viết tay tiếng Việt nét liền và thu được những kết quả ban đầu rất khả quan. 6. Kết luận Sau quá trình nghiên cứu về mạng neuron và bài toán nhận dạng chữ viết tay tiếng Việt, em đã đề xuất một giải pháp khắc phục được những khó khăn của bài toán và cài đặt được hệ thực nghiệm nhận dạng chữ viết tay tiếng Việt bằng mô hình đa mạng neuron với tỷ lệ nhận dạng đúng khá cao (95.20%). Đây là một tỷ lệ cao so với các hệ nhận dạ ng chữ viết tay ở Việt Nam hiện nay. Tuy nhiên, vẫn còn những hạn chế đối với hệ thống này đó là tiêu chuẩn thu thập cơ sở dữ liệu huấn luyện còn khắt khe. Do đó, để hệ thống có thể ứng dụng trong thực tế cần phải nới lỏng hơn nữa các tiêu chuẩn này. Trong thời gian tới em sẽ tiếp tục mở rộng ph ạm vi của bài toán và hướng tới phát triển các ứng dụng thực tế như nhận dạng các bảng kê khai tiếng Việt. Tài liệu tham khảo [1] Jain , Artificial Neural Networks A Tutorial, IEEE 1996. . - 8 - NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NEUTRON TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT Nguyễn Thị Minh Ánh MSV: 0121792 Email:. dạng chữ viết tay tiếng Việt bằng mô hình đa mạng neuron với tỷ lệ nhận dạng đúng khá cao (95.20%). Đây là một tỷ lệ cao so với các hệ nhận dạ ng chữ viết

Ngày đăng: 06/10/2013, 18:20

Xem thêm

041_Nghiên cứu và ứng dụng mạng Neutron trong nhận dạng chữ viết tay tiếng Việt