Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,15 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đinh Việt Cường NGHIÊN CỨU VÀ ỨNG DỤNG TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: TS Nguyễn Việt Hà HÀ NỘI - 2005 VIETNAM NATIONAL UNIVERSITY, HANOI COLLEGE OF TECHNOLOGY Dinh Viet Cuong STUDYING AND APPLYING FEATURE EXTRACTION TO VIETNAMESE HANDWRITTING RECOGNITION GRADUATION THESIS Major field: Information Technology Supervisor: Nguyen Viet Ha, Dr.Eng HANOI – 2005 Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV LỜI CẢM ƠN Lời em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Nguyễn Việt Hà, người tận tình hướng dẫn giúp đỡ em suốt trình em nghiên cứu thực đề tài Em xin bày tỏ lòng biết ơn tới thầy, cô giáo trường đại học Công Nghệ, ĐHQGHN truyền đạt kiến thức cho em cung cấp điều kiện tốt để em học tập tốt suốt năm học đại học Tôi xin cảm ơn bạn sinh viên khóa K46, đặc biệt hai thành viên cịn lại nhóm nghiên cứu Nhận dạng đoạn văn viết tay tiếng Việt nét liền bạn Nguyễn Thị Minh Ánh Ngơ Trí Hồi, cho tơi ý kiến đóng góp giá trị thực đề tài Hà nội, ngày 3/6/2005 Đinh Việt Cường Trang i Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV TĨM TẮT Trích chọn đặc trưng phần quan trọng thiếu hệ thống nhận dạng, đặc biệt hệ nhận dạng chữ viết tay Chức tìm thơng tin hữu ích có ảnh đầu vào, từ giúp nâng cao chất lượng hệ nhận dạng, đồng thời giảm thời gian tính tốn Do tầm quan trọng trích chọn đặc trưng trên, nội dung khóa luận đề cập tới lý thuyết trích chọn đặc trưng, số phương pháp thường gặp, từ áp dụng vào toán nhận dạng chữ viết tay tiếng Việt Trong toán nhận dạng chữ viết tay tiếng Việt, đặc điểm dấu vấn đề khó khăn nhất, khơng làm tăng số lượng kí tự mà cịn làm cho nhiều kí tự có hình dáng gần giống (chỉ khác phần dấu) Giải pháp sử dụng trích chọn đặc trưng đưa là: phân tập hợp kí tự thành nhóm, nhóm gồm kí tự gần giống Trong nhóm, áp dụng phương pháp trích chọn đặc trưng phù hợp để làm bật đặc trưng riêng kí tự, từ giúp cho việc phân biệt kí tự trở nên dễ dàng Hiệu giải pháp chứng minh qua phần thực nghiệm với kết nhận khả quan (95.80%) CSDL gồm 30.000 mẫu chữ viết tay tiếng Việt Từ khoá: feature extraction, hand-writing character recognition, Vietnamese hand-writing character recognition Trang ii Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV ABSTRACT Feature extraction plays an important role in recognition system especially in hand-writing recognition system Its function is to extract useful information from input image Thus, by using feature extraction, we can improve the accuracy of recognition and reduce the computing cost From this awareness, the main purpose of this thesis is to introduce some basic theories about feature extraction, its popular methods, and to show its application in Vietnamese hand-writing recognition system The accent system is the most difficult problem in Vietnamese alphabet It not only increases the number of different characters, but also causes some confusion as characters have similar appearance The solution to this problem by using feature extraction is: classifying similar characters into groups In each group, we use suitable feature extraction method to stand out specific characteristics of each character, so it is easier to distinguish these characters The effectiveness of this solution was proved by experiment with 30.000 patterns of Vietnamese handwriting characters The rate of successful recognition is very competitive (95.80%) Keywords: feature extraction, hand-writing Vietnamese hand-writing character recognition Trang iii character recognition, Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV MỤC LỤC LỜI CẢM ƠN i TÓM TẮT ii ABSTRACT iii MỤC LỤC iv DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU vii Chương GIỚI THIỆU 1.1 Tình hình chung nhận dạng chữ viết 1.2 Xác định toán 1.3 Nội dung cấu trúc khoá luận Chương TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƯNG 2.1 Các khái niệm 2.1.1 Đặc trưng ảnh – Image Features 2.1.2 Trích chọn đặc trưng nói chung – Feature Extraction 2.1.3 Đôi nét lịch sử nghiên cứu trích chọn đặc trưng áp dụng toán nhận dạng 2.2 Vai trò trích chọn đặc trưng tốn nhận dạng 10 2.3 Một số phương pháp trích chọn đặc trưng 12 2.3.1 Trích chọn đặc trưng theo hướng hình học 13 2.3.2 Trích chọn đặc trưng theo cấu trúc 17 2.3.3 Trích chọn đặc trưng theo tính lồi lõm 21 2.3.4 Phương pháp trích chọn đặc trưng GSC 25 Chương TRÍCH CHỌN ĐẶC TRƯNG ÁP DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT 26 3.1 Khó khăn giải pháp đề xuất 26 Trang iv Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV 3.2 Phân nhóm kí tự quan điểm đặc trưng ảnh 27 3.3 Trích chọn đặc trưng áp dụng cho nhóm 29 3.3.1 Phân đoạn kí tự 30 3.3.2 Trích chọn đặc trưng áp dụng cho nhóm 32 3.3.3 Trích chọn đặc trưng áp dụng cho nhóm kí tự có dấu 34 3.3.4 Trích chọn đặc trưng áp dụng cho nhóm kí tự khơng dấu 37 3.4 Nhận xét 38 Chương THỰC NGHIỆM 39 4.1 Môi trường thực nghiệm 39 4.2 Xây dựng sở liệu 39 4.2.1 Cơ sở liệu chữ viết tay tiếng Việt 39 4.2.2 Tập mẫu thử cho hệ nhận dạng chung 42 4.3 Cài đặt thực nghiệm phương pháp trích chọn đặc trưng 43 4.3.1 Cài đặt phương pháp trích chọn đặc trưng 43 4.3.2 Thực nghiệm khẳng định hiệu trích chọn đặc trưng 44 4.3.3 Thực nghiệm để tìm pp trích chọn đặc trưng phù hợp cho nhóm 46 4.3.4 Đánh giá 50 4.4 Thực nghiệm hệ thống nhận dạng chung 50 4.4.1 Thiết kế cài đặt hệ thống 50 4.4.2 Kết thực nghiệm đánh giá 53 Chương KẾT LUẬN 56 5.1 Các kết đạt 56 5.2 Hướng nghiên cứu, phát triển 56 Phụ lục A - MỘT SỐ THUẬT NGỮ ANH - VIỆT 58 Phụ lục B - MỘT SỐ KẾT QUẢ THAM KHẢO 59 TÀI LIỆU THAM KHẢO 60 Trang v Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ hệ nhận dạng đoạn văn viết tay tiếng Việt Hình 2.1 Ảnh ban đầu ảnh sau bao 14 Hình 2.2 Mặt nạ Sobel theo hai hướng X Y 14 Hình 2.3 Ảnh chia làm 4*4 phần 16 Hình 2.4 Kết thu tìm đặc trưng hướng cho phần thứ ảnh 16 Hình 2.5 Hướng lượng tử thành 12 giá trị 17 Hình 2.6 Vị trí tương đối điểm ảnh X tám điểm ảnh lân cận 17 Hình 2.7 Số điểm đen vùng 21 Hình 2.8 Số điểm đen liên tục theo chiều thẳng đứng, ngang 22 Hình 2.9 Ví dụ điểm lồi, lõm lỗ trống có ảnh 24 Hình 3.1 Sự giống chữ khơng dấu viết tay 28 Hình 3.2 Biểu đồ tần suất theo chiều ngang kí tự đường quan trọng 30 Hình 3.3 Ảnh ban đầu ảnh sau phân đoạn chữ ặ 32 Hình 3.4 Ảnh ban đầu ảnh sau phân đoạn chữ ể 32 Hình 3.5 Phần trích chọn đặc trưng cho chữ 37 Hình 4.1 Giao diện chương trình thao tác với sở liệu 40 Hình 4.2 Giao diện hệ nhận dạng đoạn văn 52 Hình 4.3 Ảnh đoạn văn đầu vào thứ 53 Hình 4.4 Ảnh đoạn văn đầu vào thứ hai 54 Trang vi Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV DANH MỤC BẢNG BIỂU Bảng 2.1 Các luật đặc trưng theo cấu trúc điểm ảnh 18 Bảng 3.1 Phân nhóm kí tự tiếng Việt quan điểm đặc trưng ảnh 28 Bảng 3.2 Phân nhóm kí tự tiếng Việt sau tách bỏ vùng dấu rời 33 Bảng 4.1 Kết thực nghiệm với chữ viết tay tiếng Việt 45 Bảng 4.2 Kết qủa thực nghiệm với chữ số viết tay MNIST 45 Bảng 4.3 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 47 Bảng 4.4 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.1 47 Bảng 4.5 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.5.2 48 Bảng 4.6 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.8 48 Bảng 4.7 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.12 49 Bảng 4.8 Phương pháp trích chọn đặc trưng phù hợp với nhóm 49 Bảng 4.9 Kết nhận dạng ứng với đoạn văn đầu vào hình 4.3, 4.4 54 Trang vii Chương Giới thiệu Chương GIỚI THIỆU 1.1 Tình hình chung nhận dạng chữ viết Nhận dạng toán xuất cách lâu thu hút nhiều quan tâm, nghiên cứu nhà khoa học Đặc biệt vài thập niên gần đây, thúc đẩy trình tin học hoá lĩnh vực, toán nhận dạng khơng cịn dừng lại mức độ nghiên cứu mà trở thành lĩnh vực để áp dụng vào thực tế Các toán nhận dạng nghiên cứu nhiều tập trung vào nhận dạng mẫu hình học (vân tay, mặt người, hình khối …), nhận dạng tiếng nói nhận dạng chữ viết Chúng ứng dụng nhiều lĩnh vực y học, dự báo thời tiết, dự báo cháy rừng, …., lĩnh vực tự động hoá điều khiển robot, điều khiển thiết bị giọng nói, …Trong số toán nhận dạng này, nhận dạng chữ viết ứng dụng phổ biến Nhận dạng chữ viết áp dụng q trình tự động hố cơng việc văn phịng nhập liệu, lưu trữ văn bản, sách báo, phân loại thư tín, …, cơng việc nhàm chán địi hỏi nhiều thời gian người Nhận dạng chữ (optical character recognition) chia thành hai khía cạnh nhận dạng chữ in nhận dạng chữ viết tay Bài toán nhận dạng chữ in giải gần trọn vẹn giới Việt Nam Hệ nhận dạng chữ in dựa mơ hình mạng neuron bốn lớp hai tác giả J Wang J.S.N Jean giới thiệu [12] có tỷ lệ nhận dạng xác đạt tới 99.75% Đây tỷ lệ gần tối đa hệ nhận dạng nhanh chóng áp dụng vào nhiều ứng dụng Các sản phẩm ứng dụng khác có ý nghĩa thực tế lớn kể đến sản phẩm FineReader hãng AABYY nhận dạng 20 thứ tiếng khác nhau, sản phẩm OmniPage hãng ScanSoft nhận dạng chữ in tiếng Anh,… Việt Nam, có sản phẩm VNDOCR Viện Công nghệ thông tin nhận dạng chữ in tiếng Việt với độ xác tới 99% Nhận dạng chữ viết tay thực qua hai hình thức nhận dạng online nhận dạng offline Nhận dạng online có nghĩa máy tính nhận dạng chữ viết lên hình viết Đối với hệ nhận dạng Trang Chương Thực nghiệm riêng, loại bỏ phần dấu, lấy đặc trưng phần gốc kí tự đưa vào hệ nhận dạng o Thực nghiệm không tách dấu kí tự mang dấu, tồn kí tự đưa vào nhận dạng Với thực nghiệm, thử với phương pháp trích chọn đặc trưng khác Cơ sở liệu dùng để thử chứa tồn kí tự, cố định số mẫu học 5.000, số mẫu tập test 3.000 Tỷ lệ phân loại tập test thể bảng 4.3 Bảng 4.3 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm Phương pháp PP1 PP2 PP3 PP4 PP5 PP6 Không tách dấu 94.80 94.70 95.00 95.10 95.10 95.30 Có tách dấu 97.90 97.80 98.20 98.10 98.20 98.70 Việc tách dấu kí tự giúp cho kết phân loại nhóm tăng lên rõ rệt: từ 95% kết cao khơng tách dấu kí tự lên 98.7% có tách dấu kí tự Hơn nữa, với nhóm 0, PP6 (phương pháp GSC) cho kết phân loại cao Vì ta tiến hành tách dấu kí tự chọn phương pháp trích chọn đặc trưng GSC cho nhóm Kết thực nghiệm chứng tỏ lý thuyết phương pháp trích chọn đặc trưng áp dụng cho nhóm hồn tồn đắn Với nhóm 0.1, ta cần chọn sở liệu tập mẫu chứa kí tự có dấu a, á, à, ạ, ã, ả, ă, ắ, ằ, ặ, ẵ, ẳ, â, ấ, ầ, ậ, ẫ, ẩ Với nhóm ta lấy đặc trưng cho phần dấu kí tự mà khơng tính đến phần gốc chung a (trong nhóm phần dấu có kí tự có hai lớp dấu) Tiến hành thực nghiệm với 1.500 mẫu tập train 1.000 mẫu tập test ta nhận tỉ lệ phân loại tập test là: Bảng 4.4 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.1 Phương pháp PP1 PP2 PP3 PP4 PP5 PP6 Số mẫu 972 973 984 995 981 982 % (test) 97.20 97.3 98.40 99.50 98.1 98.20 Trang 47 Chương Thực nghiệm Với nhóm 0.1 ta nên dùng PP4 (kết hợp trích chọn đặc trưng ảnh theo hướng hình học tính lồi lõm) Với nhóm 0.5.2, ta cần chọn sở liệu tập mẫu chứa kí tự ư, ứ, ừ, ự, ữ, Với nhóm ta trích chọn đặc trưng cho phần dấu kí tự nhận dạng phần dấu (phần dấu nhóm gồm lớp dấu) Tiến hành thực nghiệm với 1.500 mẫu tập huấn luyện 1.000 mẫu tập test ta nhận tỉ lệ phân loại tập test là: Bảng 4.5 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.5.2 Phương pháp PP1 PP2 PP3 PP4 PP5 PP6 Số mẫu 976 978 979 981 988 982 % (test) 97.60 97.80 97.90 98.10 98.80 98.20 Với nhóm 0.5.2 ta nên dùng PP5 (kết hợp trích chọn đặc trưng theo hướng theo cấu trúc) Với nhóm 0.8, ta cần chọn sở liệu tập mẫu chứa kí tự m n p Tiến hành thực nghiệm với 1.000 mẫu tập huấn luyện 800 mẫu tập test ta nhận tỉ lệ phân loại tập test là: Bảng 4.6 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.8 Phương pháp PP1 PP2 PP4 PP5 PP6 Số mẫu 782 780 784 788 784 % (test) 97.75 97.50 98.00 98.50 98.00 Với nhóm 0.8 ta nên dùng PP5 (phương pháp trích chọn đặc trưng ảnh theo hướng hình học theo cấu trúc) Với nhóm 0.12, ta cần chọn sở liệu tập mẫu chứa kí tự c x v t Tiến hành thực nghiệm với 1.300 mẫu tập huấn luyện 1000 mẫu tập test ta nhận tỉ lệ phân loại tập test là: Trang 48 Chương Thực nghiệm Bảng 4.7 Kết nhận dạng với pp trích chọn đặc trưng cho nhóm 0.12 Phương pháp PP1 PP2 PP6 PP5 PP4 Số mẫu 975 967 996 982 980 % (test) 97.50 96.70 99.60 98.20 98.00 Với nhóm 0.12 ta nên dùng PP6 (phương pháp GSC: kết hợp phương pháp trích chọn đặc trưng ảnh theo hướng hình học, theo cấu trúc theo tính lồi lõm) Tiến hành thực nghiệm tương tự với nhóm kí tự khác, chúng tơi thu kết cuối sau: Bảng 4.8 Phương pháp trích chọn đặc trưng phù hợp với nhóm Mạng 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.10 0.11 0.12 0.3.1 0.3.2 0.5.1 0.5.2 PP 4 5 5 2 6 6 5 Như vậy, ta lựa chọn phương pháp trích chọn đặc trưng phù hợp cho nhóm kí tự Tiến hành thực nghiệm hệ nhận nhiều cấp mơ hình đa mạng neuron tương ứng với bảng phân nhóm 3.1 Với 10.000 mẫu huấn luyện 5.000 mẫu tập test (giống điều kiện thực nghiệm cho kết bảng 4.1): kết nhận dạng tập test 4790/5000 tức 95.80% Kết tiến lớn so với tỉ lệ 81.12% thu bảng 4.1 không phân nhóm kí tự sử dụng phương pháp trích chọn đặc trưng GSC Ngồi tiến hành thực nghiệm với hệ nhận dạng nhiều cấp mô hình đa mạng neuron tương ứng với bảng phân nhóm 3.1, sử dụng phương pháp trích chọn đặc trưng cho tất nhóm (phương pháp GSC) Tỷ lệ nhận dạng thu tập test 93.2% (nhận dạng 4660/5000 kí tự) Rõ ràng tỷ lệ cao nhiều so với khơng phân nhóm kí tự (81.12%) nhỏ nhiều so với 95.80% ta dùng phương pháp trích chọn đặc trưng cho nhóm kí tự Kết luận: việc phân tập hợp kí tự thành nhóm kí tự có dấu, khơng dấu, … áp dụng phương pháp trích chọn đặc trưng ảnh phù hợp với Trang 49 Chương Thực nghiệm nhóm kí tự cho phép ta nâng cao tỉ lệ nhận dạng hệ nhận dạng lên nhiều (từ 81.12% khơng phân nhóm 93.2% có phân nhóm dùng phương pháp trích chọn đặc trưng lên đến 95.8%) Điều chứng tỏ giải pháp mà đưa chương hồn tồn tin tưởng việc nâng cao chất lượng hệ nhận dạng kí tự 4.3.4 Đánh giá Ta kết luận rằng: việc phân nhóm kí tự áp dụng phương pháp trích chọn đặc trưng phù hợp với nhóm kí tự cho hệ thống nhận dạng nhiều cấp (cụ thể mơ hình đa mạng neuron) thực giải pháp hiệu việc nâng cao chất lượng nhận dạng hệ nhận dạng kí tự viết tay tiếng Việt Tỷ lệ nhận dạng 95.80% chữ viết tay tiếng Việt có dấu kết cao so với tình hình chung So sánh kết với số kết tham khảo tác giả khác (xem Phụ lục B), thấy giải pháp mà đề giải pháp đáng tin cậy để tiếp tục mở rộng hồn thiện chương trình 4.4 Thực nghiệm hệ thống nhận dạng chung 4.4.1 Thiết kế cài đặt hệ thống Hệ nhận dạng chung hệ thống tích hợp từ module thành phần có giao diện thân thiện với người sử dụng Đầu vào hệ nhận dạng chung file ảnh đoạn văn viết tay tiếng Việt (thu cách scan màu, chế độ 300dpi) đầu file text chứa đoạn văn bản, kết trình nhận dạng Các module xây dựng cách độc lập Đầu vào đầu module xác định có thống module Trong trình phát triển, việc thay đổi cách cài đặt module không ảnh hưởng đến module khác Cụ thể, hệ thống nhận dạng chung gồm module sau: • Module tiền nhận dạng: module có chức tách đoạn văn đầu vào thành dòng, từ Như đầu vào module ảnh đoạn văn đầu ảnh từ tách từ đoạn văn Trang 50 Chương Thực nghiệm • Module nhận dạng kí tự: có chức nhận dạng kí tự Đầu vào module ảnh kí tự đầu kí tự tương ứng nhận dạng Module gồm hai thành phần tập hợp phương pháp trích chọn đặc trưng ảnh hệ thống đa mạng neuron Mỗi mạng neuron hệ thống đa mạng gọi đến phương pháp trích chọn đặc trưng phù hợp với nhóm kí tự mà phân loại (nhận dạng) Việc cài đặt cách: gán cho phương pháp trích chọn đặc trưng ảnh nhãn, bổ sung thêm thành phần nhãn vào lớp NeuralNet, khởi tạo mạng tham chiếu đến phương pháp trích chọn đặc trưng tương ứng • Module nhận dạng từ: module có chức nhận dạng từ Đầu vào module nhận dạng từ ảnh từ sau cắt từ đoạn văn đầu từ sau nhận dạng thể dạng text Module gồm ba thành phần Thành phần thứ cắt ảnh đầu vào thành kí tự Việc cắt đưa nhiều phương án cắt khác Sau cắt, ảnh kí tự chuyển qua thành phần thứ hai module nhận dạng kí tự để nhận dạng Sau thành phần thứ ba module phân tích ngữ cảnh kiểm tra tính “tối ưu” ký tự sau từ nhận để xác định phương án cắt tốt • Module hậu xử lý: module có chức ghép từ nhận dạng thành câu, đoạn văn nhằm tái lại đoạn văn đầu vào Sau tổ chức lưu đoạn văn thu thành file text (.doc, txt, rtf) File text đầu hệ thống nhận dạng Lưu ý: Tài liệu thiết kế cài đặt hệ thống đính kèm với chương trình Chúng ta tham khảo kỹ chi tiết cài đặt module qua tài liệu Giao diện hệ thống nhận dạng đoạn văn thể hình 4.2 Trang 51 Chương Thực nghiệm Hình 4.2 Giao diện hệ nhận dạng đoạn văn • (1): nạp file chứa liệu hệ nhận dạng kí tự huấn luyện (cấu trúc đa mạng, tham số mạng, phương pháp trích chọn đặc trưng ảnh áp dụng cho mạng) dạng nhập vào đường dẫn tìm chọn từ trình duyệt • (2): nạp file ảnh đầu vào dạng nhập vào đường dẫn tìm chọn từ trình duyệt • (5) (8): nhập đường dẫn tên file text chứa đoạn văn thu sau nhận dạng • (6) (9): nhập đường dẫn tên file chứa file ảnh biểu diễn nhát cắt đoạn văn đầu vào • (7): vùng text chứa đoạn văn thu sau nhận dạng Người dùng xem kết trực tiếp • (3): nhận dạng file lựa chọn • (4): dừng hệ thống (thoát) Trang 52 Chương Thực nghiệm 4.4.2 Kết thực nghiệm đánh giá Tiến hành thực nghiệm Hệ nhận dạng đoạn văn với 21 trang văn thu thập, nhận kết sau: • Số trang nhận dạng là: 6/21 (Trang nhận dạng trang mà tất từ, kí tự nhận dạng đúng) • Số từ nhận dạng là: 2934/3150 (≈93,14%) • Số kí tự nhận dạng là: ≈ 12096/12600 (96%) Có thể nói kết ban đầu khả quan, xem kết sở để so sánh với kết chúng tơi cải tiến chương trình mở rộng phạm vi tốn Hình 4.3 4.4 ví dụ ảnh đoạn văn đầu vào Hình 4.3 Ảnh đoạn văn đầu vào thứ Trang 53 Chương Thực nghiệm Hình 4.4 Ảnh đoạn văn đầu vào thứ hai Kết nhận dạng tương ứng với hai ảnh thể bảng 4.9 Bảng 4.9 Kết nhận dạng ứng với đoạn văn đầu vào hình 4.3, 4.4 Kết ứng với ảnh hình 4.3 Kết ứng với ảnh hình 4.4 quê hương chùm khế bước tới đèo ngang bóng xế tà cho trèo hái ngáy cỏ chen đá chen hoa đoàn kết đoàn kết đai đoàn kết dứng chân ghé lại trời non nước thành cõng thành cơng đại thành cơng mảnh tình riêng ta với ta Nhận xét: từ kết nhận dạng thu bảng 4.9 ta thấy: • Hệ thống nhận dạng xác từ mà dấu viết rõ ràng, tiêu chuẩn thu thập sở liệu dùng để huấn luyện mạng neuron Số kí tự nhận dạng 182/186 kí tự, số từ nhận dạng 50/54 từ Nguyên nhân dẫn đến nhận dạng sai từ: dừng (dứng), ngày (ngáy), đại (đai), công (cõng) thân dấu từ đặt chưa xác Rõ ràng dấu huyền từ ngày dừng hình 4.3 4.4 viết gần giống dấu sắc, dấu nặng từ đại thứ hình 4.3 đặt chữ đ chữ a bị sau cắt từ thành kí tự, cịn dấu ^ chữ cơng hình 4.3 viết giống dấu ngã Bản thân khó xác định xác từ khơng nằm văn cảnh tương ứng Vì vậy, để hệ thống nhận dạng hiệu hơn, tiếp tục cải tiến chương trình theo Trang 54 Chương Thực nghiệm hướng: module trích chọn đặc trưng ảnh, ý nhiều tới đặc điểm đường nét (thanh, đậm) độ nghiêng dấu theo đặc điểm chữ viết tay người Việt Nam để giúp mạng neuron nhận dạng xác kí tự mang dấu Trang 55 Chương Kết luận Chương KẾT LUẬN 5.1 Các kết đạt Qua q trình nghiên cứu thực khóa luận, nhận thấy đạt số kết sau: • Cài đặt thành cơng số phương pháp trích chọn đặc trưng là: trích chọn đặc trưng theo hướng, theo cấu trúc theo tính lồi lõm Ưu điểm phương pháp kết hợp với mơ hình nhận dạng khác để giải toán nhận dạng khác như: nhận dạng chữ số, nhận dạng chữ cái, nhận dạng chữ in hay nhận dạng chữ viết tay Do vậy, ta hồn tồn tái sử dụng phương pháp để áp dụng cho tốn nhận dạng khác • Đề giải pháp thích hợp để giải vấn đề dấu chữ tiếng Việt Giải pháp phân lớp kí tự tiếng Việt áp dụng phương pháp trích chọn đặc trưng phù hợp với lớp kí tự Với việc sử dụng giải pháp này, tỉ lệ nhận dạng thu khả quan (95.80 %) Đây kết cao so với tình hình chung nhận dạng chữ tiếng Việt • Nắm bắt giai đoạn cần thực tiến hành nhận dạng đoạn văn Từ chúng tơi cài đặt module thành phần tích hợp hệ thống nhận dạng chung Nhìn chung hệ thống làm việc hiệu với đoạn văn viết theo tiêu chuẩn đề 5.2 Hướng nghiên cứu, phát triển Bên cạnh kết đạt được, khóa luận cịn số vấn đề chưa giải như: thử nghiệm phương pháp trích chọn đặc trưng kí tự viết tay tiếng Việt thường tiêu chuẩn đặt với kí tự cịn nhiều Do vậy, thời gian tới, tiến hành mở rộng phạm vi toán, nghiên cứu thử nghiệm phương pháp trích chọn đặc trưng để nhận dạng đồng thời kí tự viết tay tiếng Việt viết thường, viết hoa chữ số Đây việc làm cần thiết có ý nghĩa nhằm phục vụ cho mục tiêu chung chúng tơi thời gian tới, là: xây dựng hệ thống ứng dụng thực Trang 56 Chương Kết luận thực tế nhận dạng kê khai tiếng Việt phiếu dự thi thí sinh, hồ sơ nhân viên, …Việc nhận dạng kê tiếng Anh dùng phương pháp liệt kê chữ sau cho người kê khai bơi đen trịn tương ứng với chữ cái, nhiên với tiếng Việt có hệ thống dấu nên làm tốn nhiều diện tích khơng khả thi Do vậy, việc nhận dạng kê khai tiếng Việt phải liên quan tới việc nhận dạng chữ tiếng Việt bao gồm chữ viết hoa, viết thường số Tuy nhiên, giới hạn tốn cách kí tự viết vào ô (giống với cách điền thông tin phiếu dự thi đại học Việt Nam) Như vậy, giảm bớt trường hợp dính chữ đồng thời chữ viết tuân theo chuẩn Với giải pháp trên, hướng phát triển nhận dạng kê khai tiếng Việt khả thi hồn tồn áp dụng vào thực tiễn Trang 57 Phụ lục A - Một số thuật ngữ Anh-Việt trích chọn đặc trưng Phụ lục A - MỘT SỐ THUẬT NGỮ ANH - VIỆT Thuật ngữ Giải nghĩa Image Feature Đặc trưng ảnh Feature Extraction Trích chọn đặc trưng ảnh đầu vào Feature Vector vector đặc trưng ảnh thu sau q trình trích chọn đặc trưng Feature Space Tập hợp khả có vector đặc trưng Histogram Biểu đồ tần suất ảnh Gradient Feature Extraction Trích chọn đặc trưng theo hướng Structural Feature Extraction Trích chọn đặc trưng theo cấu trúc Concavity Feature Extraction Trích chọn đặc trưng theo tính lồi lõm Pattern Mẫu (ảnh kí tự cần nhận dạng) Handwritten characters Chữ viết tay Handwritten numbers Chữ số viết tay Handwritting recognition Nhận dạng chữ viết tay Optical character recognition Nhận dạng kí tự Vietnamese handwritting recognition Nhận dạng chữ viết tay tiếng Việt Trang 58 Phụ lục B - Một số kết tham khảo Phụ lục B - MỘT SỐ KẾT QUẢ THAM KHẢO Nhóm tác giả Hệ nhận dạng Kết (%) Nguyễn Thị Thanh Tân- Viện công nghệ Chữ viết tay tiếng Việt thông tin Việt Nam khơng dấu 93.00 Nhóm tác giả thuộc trường Buffalo, Mỹ Chữ viết tay tiếng Anh 97.00 Nhóm tác giả thuộc trường đại học Kent, Chữ viết tay tiếng Anh Anh 96.00 Chữ viết tay tiếng Anh 95.00 Chữ số viết tay 98.00 Nhóm tác giả thuộc trường đại học Concordia, Montreal Chữ số viết tay 98.30 Burges C J C., Ben J I., Denker J S., LeCun Y., Nohl C R Chữ số viết tay 82.7 Yanikoglu B A., Sandon P A (Các kết tham khảo trích dẫn từ tài liệu [3], [12]) Trang 59 Tài liệu tham khảo TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1] Lương Mạnh Bá, Nguyễn Thanh Thủy, “Nhập Môn Xử Lý Ảnh Số”, Nhà xuất Khoa Học Kỹ Thuật, 1999 [2] Hoàng Kiếm, Nguyễn Hồng Sơn, Đào Minh Sơn, “Ứng dụng mạng Nơron nhân tạo hệ thống xử lý biểu mẫu tự động”, Kỷ yếu hội nghị kỷ niệm 25 năm thành lập Viện Công Nghệ Thông Tin, 2001 [3] Nguyễn Thị Thanh Tân, “Nhận dạng chữ viết tay hạn chế dựa mơ hình mạng Nơron kết hợp với thống kê ngữ cảnh”, Luận văn thạc sỹ, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội, 2004 Tài liệu tham khảo tiếng Anh [4] Favata J., Govindaraju V., Srihari S.N., Hull J.J., Ho T.K., “Combination of segmentation-based and wholistic handwritten word recognition algoriths ”, From Pixel to Features III Frontiers in Handwriting Recognition, 1992, 261-72 [5] Favata J.T, Srikantan G., “A multi feature / resolution Approach to handprinted Digit and Character Recognition”, CEDAR, State University of New York at Buffalo, USA [6] Fujisaki T., Beigi H.S.M., Tappert C.C., Ukelson M., Wolf C.G., “Online recognition of unconstrained handprinting: A stroke-based system and its evaluation”, From Pixel to Features III Frontiers in Handwriting Recognition, 1992, 297-312 [7] Jussi Tohka, “Introduction to Pattern Recognition”, Tampere University of Technology [8] Lam S.W., Srikantan G., Srihari S.N., “Gradient-based contour encoding for character recognition”, Pattern Recognition, vol 29, no 7, 1996 Trang 60 Tài liệu tham khảo [9] Pratt K., “Digital Image Processing: PIKS inside, Third Edition”, John Wiley, Inc, 513-15 [10] Russ C., “The Image Processing Handbook, Third Edition”, CRC Press, 443-46 [11] Simon J.C., Baret O., “Cursive Words Recognition”, From Pixel to Features III Frontiers in Handwriting Recognition, 1992, 241-60 [12] Wang J., Jean J.S.N., “Multi-Resolution Neural Network for Omnifont Character Recognition”, IEEE International Conference on Neural Network, 1993 [13] NIPS 2003 Workshop on Feature Extraction http://www.nips.cc/Conferences/2003 [14] http://www1.cs.columbia.edu/~ljtang/research.htm Trang 61 ... định chất lượng nhận dạng hệ thống Việc nhận dạng kí tự lớp tốn nhận dạng chữ viết tay, nhận dạng kí tự viết tay tiếng Việt Để khắc phục khó khăn chữ viết tay, đặc biệt chữ viết tay tiếng Việt... độ xác tới 99% Nhận dạng chữ viết tay thực qua hai hình thức nhận dạng online nhận dạng offline Nhận dạng online có nghĩa máy tính nhận dạng chữ viết lên hình viết Đối với hệ nhận dạng Trang Chương... Nghiên cứu ứng dụng trích chọn đặc trưng nhận dạng chữ viết tay TV TĨM TẮT Trích chọn đặc trưng phần quan trọng thiếu hệ thống nhận dạng, đặc biệt hệ nhận dạng chữ viết tay Chức tìm thơng tin hữu