Nhận dạng chữ số và chữ cái viết tay tiếng Việt sử dụng mạng neuron

Một phần của tài liệu 042_Tom tat khoa luan tot nghiep K47CNPM.pdf (Trang 48 - 50)

- 4 1tiế n hành khi chúng ta đ ã xây d ự ng đựợ c

3.Nhận dạng chữ số và chữ cái viết tay tiếng Việt sử dụng mạng neuron

tiếng Việt sử dụng mạng neuron

Mạng neuron nhân tạo là một mạng các đơn vị xử lý đơn giản (các neuron) liên kết với nhau bằng cách truyền tín hiệu cho nhau trên các kết nối cĩ trọng số. Trọng số của các kết nối được hiệu chỉnh thơng qua quá trình huấn luyện mạng. Mơ hình mạng neuron được chúng tơi sử dụng để nhận dạng chữ số và chữ cái viết tay tiếng Việt vì tính linh hoạt, khả năng học và khả năng tổng quát hĩa của nĩ.

Mạng neuron nhiều lớp truyền thẳng (Multi-

thường gặp nhất trong họ các mạng neuron truyền xuơi. Mơ hình mạng này cũng được sử dụng nhiều để giải quyết bài tốn nhận dạng chữ số và chữ cái viết tay. Nhiều nghiên cứu và thực nghiệm đã chỉ ra rằng huấn luyện mạng MLP với phương pháp học cĩ giám sát sử dụng thuật tốn Lan truyền ngược sai số cĩ hiệu quả đối với bài tốn phân loại mẫu nĩi chung và bài tốn nhận dạng chữ số, chữ cái viết tay nĩi riêng [2].

Chữ cái tiếng Việt được xây dựng trên cơ sở các chữ cái La-tinh và các dấu. Khi cắt từ tiếng Việt ra thành các chữ cái riêng lẻđể nhận dạng, ta thu được 89 chữ cái viết thường, 89 chữ cái viết hoa, ngồi ra cịn cĩ 10 chữ số. Như vậy số lượng chữ cái trong tiếng Việt là rất lớn, nhiều chữ cái rất giống nhau, chỉ khác nhau về dấu. Thay vì chỉ dùng một mạng neuron duy nhất, sử dụng một hệ thống các mạng neuron liên kết với nhau sẽđem lại hiệu quả nhận dạng cao hơn [1]. Nhiệm vụ của mỗi mạng neuron trong mơ hình đa mạng là phân chia một nhĩm các ký tự thành các nhĩm con. Mỗi nhĩm con sau đĩ lại được mạng neuron ở lớp kế tiếp phân nhĩm. Cứ tiếp tục như vậy cho đến khi mỗi nhĩm con chỉ cịn một ký tự. Như vậy mỗi mạng neuron chỉ phải phân nhĩm ký tự đầu vào của nĩ vào một số lượng nhỏ các nhĩm, gánh nặng “nhớ” đặc điểm của các ký tựđược chia sẻ cho các mạng.

4. Thực nghiệm

Tiến hành thực nghiệm phân tích 20 phiếu đăng ký dự thi. Thời gian trung bình để xử lý một phiếu là 10 giây. Như vậy trong mỗi giờ đồng hồ chương trình xử lý được trung bình là 360 phiếu. Trong số 2.000 ơ điền thơng tin trên các phiếu, bĩc tách trọn vẹn được ký tự trong 1.980 ơ, 16 ơ bị điền sai qui tắc chỉ bĩc tách được phần ký tự nằm trọn vẹn trong ơ, cịn lại 4 ơ bị nhiễu do chất lượng ảnh kém. Để huấn luyện mạng neuron nhận dạng chữ số viết tay chúng tơi sử dụng cơ sở dữ liệu MNIST với 60.000 mẫu. Do đặc trưng dùng để phân loại là tồn bộ 28x28 điểm ảnh nên chất lượng nhận dạng chưa cao. Các chữ số bị nhận dạng nhầm do cĩ hình dạng tương tự nhau, hoặc do cách viết làm thay đổi hình dạng chữ số. Để tăng chất lượng nhận dạng chữ số cần phải sử dụng thêm các đặc trưng theo hướng hình học, theo cấu cấu trúc, theo tính lồi lõm, đồng thời

thực hiện các nghiên cứu về chuẩn hĩa cách viết.

5. Kết luận

Qua quá trình nghiên cứu và thực hiện đề tài, chúng tơi đã xây dựng được module phân tích phiếu đăng ký thi với độ tin cậy cao, Xây dựng được module nhận dạng chữ số viết tay với kết quả nhận dạng tương đối tốt. Trong tương lai chúng tơi sẽ cải thiện chất lượng của những phần đã làm được, xây dựng thêm module nhận dạng chữ viết tay tiếng Việt và lắp ghép các module thành một ứng dụng hồn chỉnh cĩ khả năng nhập dữ liệu tự động thay cho cán bộ nhập hồ sơ dự thi.

Tài liệu tham khảo

[1] Nguyễn Thị Minh Ánh, Nghiên cứu và ứng dụng mạng neuron trong nhận dạng chữ viết tay tiếng Việt, Khĩa luận tốt nghiệp đại học 2005. [2] Duda, R. O., Hart, P. E., Stork, D. G.,

Pattern Classification, Wiley.

[3] Gonzalez, R. C., Woods, R. E., Digital Image Processing, Prentice Hall, 2002.

[4] Jung, C. R., Schramm, R. ,“Rectangle detection based on a windowed Hough transform”, 2004.

MƠ HÌNH DỰĐỐN RỦI RO VÀ QUẢN LÝ RỦI RO CỦA DỰ ÁN PHẦN MỀM Nguyễn Thị Minh Tâm Cán bộ hướng dẫn: TS. Nguyễn Việt Hà Nguyễn Thị Minh Tâm Cán bộ hướng dẫn: TS. Nguyễn Việt Hà

MSV: 0220279

Email: tamk47ca@yahoo.com

1. Giới thiệu

Phân tích và quản lý rủi ro trong phát triển phần mềm ảnh hưởng lớn đến thành cơng của một dự án phần mềm. Để tăng hỗ trợ cho nhà quản trị dự án, khĩa luận này đề xuất một hướng tiếp cận mới cho phân tích và quản lý rủi ro phần mềm – dựa trên mơ hình lập luận theo tình huống (Case Based Reasoning – CBR) để xây dựng mơ hình dự đốn rủi ro và quản lý rủi ro của dự án phần mềm. Mơ hình này dự đốn rủi ro và quản lý rủi ro của một dự án đang phát triển bằng cách tìm kiếm dự án tương tựđã hồn thành và hiệu chỉnh danh sách rủi ro của dự án đĩ. Để kiểm chứng chất lượng của mơ hình đề

xuất, khĩa luận đã xây dựng một chương trình thực nghiệm và đánh giá kết quả thực nghiệm.

Một phần của tài liệu 042_Tom tat khoa luan tot nghiep K47CNPM.pdf (Trang 48 - 50)