Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
0,92 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN HẢI PHÒNG 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO NHẬN DẠNG CHỮ VIẾT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ Thơng tin HẢI PHÒNG - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO NHẬN DẠNG CHỮ VIẾT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Giáo viên hướng dẫn: PGS TS Ngô Quốc Tạo Sinh viên thực hiện: Nguyễn Sơn Hà Mã số sinh viên: 1351010034 HẢI PHÒNG - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG CỘNG HÒA XA HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -o0o - NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Sinh viên: Nguyễn Sơn Hà Lớp: CT1301 Thông tin Mã SV: 1351010034 Ngành: Cơng nghệ Tên đề tài:Tìm hiểu số phương pháp trích chọn đặc trưng cho nhận dạng chữ viết NHIỆM VỤ ĐỀ TÀI Nội dung yêu cầu cần giải nhiệm vụ đề tài tốt nghiệp a Nội dung - Giới thiệu trích chọn đặc trưng:Đặc trưng bất biến,khả khơi phục - Trích chọn đặc trưng từ ảnh đa cấp xám:Đối sánh mẫu,mẫu biến dạng,biến đổi ảnh Unitar,bất biến hình học,bất biến Zenite - Trích chọn đặc trưng từ ảnh nhị phân:Đối sánh mẫu,mẫu biến dạng,biến đổi ảnh Unitar,bất biến hình học - Trích chọn đặc trưng từ biên ảnh:Chiếu nghiêng,tách vùng,xấp xỉ đường cong,mơ tả Fourier - Trích chọn đặc trưng từ biểu diễn véc tơ: Đối sánh mẫu,mẫu biến dạng,đặc trưng rời rạc,biểu diễn đồ thị,biểu diễn Fourier b Các yêu cầu cần giải - Hiểu nội dung trích chọn đặc trưng theo đối sánh - Viết xong đồ án - Cài đặt thử nghiệm chương trình trích đặc trưng CÁN BỘ HƯỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Người hướng dẫn thứ nhất: Họ tên: Ngơ Quốc Tạo Học hàm, học vị: Phó giáo sư Tiến sĩ Cơ quan công tác: Viện Công nghệ thông tin,Viện Hàn Lâm Khoa học Công nghệ Viêt Nam Nội dung hướng dẫn: Người hướng dẫn thứ hai: Họ tên: Học hàm, học vị: Cơ quan công tác: Nội dung hướng dẫn: Đề tài tốt nghiệp giao ngày….tháng….năm 2019 Yêu cầu phải hoàn thành trước ngày….tháng….năm 2019 Đã nhận nhiệm vụ: Đ.T.T.N Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Cán hướng dẫn Đ.T.T.N Nguyễn Sơn Hà PGS TS Ngơ Quốc Tạo Hải Phịng, ngày tháng .năm 2019 HIỆU TRƯỞNG GS.TS.NGƯT Trần Hữu Nghị Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phịng PHẦN NHẬN XÉT TĨM TẮT CỦA CÁN BỘ HƯỚNG DẪN Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp: Đánh giá chất lượng đề tài tốt nghiệp (so với nội dung yêu cầu đề nhiệm vụ đề tài tốt nghiệp) Cho điểm cán hướng dẫn: (Điểm ghi số chữ) Ngày .tháng .năm 2019 Cán hướng dẫn (Ký, ghi rõ họ tên) Nguyễn Sơn Hà - CT1301 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN BIỆN ĐỀ TÀI TỐT NGHIỆP Đánh giá chất lượng đề tài tốt nghiệp (về mặt sở lý luận, thuyết minh chương trình, giá trị thực tế) Cho điểm cán phản biện (Điểm ghi số chữ) Ngày .tháng .năm 2019 Cán chấm phản biện (Ký, ghi rõ họ tên) Nguyễn Sơn Hà - CT1301 LỜI CẢM ƠN Trước tiên em xin bày tỏ trân trọng lòng biết ơn thầy giáo PGS.TS Ngơ Quốc Tạo- Trưởng phịng Nhận dạng Cơng nghệ tri thức,Viện Công nghệ thông tin,Viện Hàn Lâm Khoa Học Công nghệ Việt Nam Trong suốt thời gian làm đồ án tốt nghiệp, thầy dành nhiều thời gian q báu để tận tình bảo, hướng dẫn, định hướng cho em thực đồ án Em xin cảm ơn thầy cô giáo Trường Đại học Dân lập Hải phòng giảng dạy trình học tập, thực hành, làm tập, giúp em hiểu thấu đáo nội dung học tập hạn chế cần khắc phục việc học tập, nghiên cứu thực đồ án Em xin cảm ơn bạn bè thành viên gia đình tạo điều kiện tốt nhất, động viên, cổ vũ suốt trình học tập đồ án tốt nghiệp Do thời gian kiến thức có hạn nên khơng tránh khỏi thiếu sót định Em mong nhận đóng góp q báu thầy cơ! Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm 2019 Sinh viên Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phịng MỤC LỤC LỜI CÁM ƠN DANH MỤC HÌNH DANH MỤC CÁC KÝ HIỆU, CỤM TỪ VIẾT TẮT PHẦN MỞ ĐẦU TÓM TẮT ĐỀ TÀI CHƯƠNG TỔNG QUAN VỀ CHỮ VIẾT VÀ LÝ THUYẾT NHẬN DẠNG 1.1 GIỚI THIỆU 1.2 MƠ HÌNH TỔNG QT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 Tiền xử lý Khối tách chữ : 13 Trích chọn đặc trưng: 14 Huấn luyện nhận dạng : 14 Hậu xử lý : 14 1.3 CÁC PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIẾT TAY 15 1.3.1 Đối sánh mẫu: 15 1.3.2 Phương pháp tiếp cận cấu trúc: 16 1.3.3 Mạng nơ ron 17 1.3.4 Mơ hình Markov ẩn (HMM - Hidden Markov Model) : 20 1.3.5 Máy véc tơ tựa (SVM) : 21 1.3.6 Kết hợp kỹ thuật nhận dạng : 23 1.3.7 Kết luận 24 CHƯƠNG 2: TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƯNG VÀ MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT 25 2.1 Trích chọn đặc trưng 25 2.1.1 Biến đổi toàn cục khai triển chuỗi 25 2.1.2 Đặc trưng thống kê 26 2.1.3 Đặc trưng hình học hình thái 27 2.2 Đặc trưng bất biến 28 2.3 Khả khôi phục 29 2.4 Trích chọn đặc trưng từ ảnh đa cấp xám 29 2.4.1 Giới thiệu 29 2.4.2 Đối sánh mẫu 30 2.4.3 Mẫu biến dạng 30 Nguyễn Sơn Hà - CT1301 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng 2.4.2 Đối sánh mẫu Chúng ta không nhận thức hệ thống OCR sử dụng mẫu phù hợp với hình ảnh xám Tuy nhiên, kể từ mẫu phù hợp hình ảnh chuẩn kỹ thuật xử lý, bao gồm hoàn chỉnh Trong mẫu phù hợp với bước tính khai thác bỏ hồn tồn hình ảnh sử dụng "vector" Trong giai đoạn công nhận, biện pháp mẫu TJ hình ảnh Z tính tốn Các thơng số Tk, có biện pháp tương tự cao nhất, xác định tương đồng quy định ngưỡng, sau hình ảnh gán nhãn lớp k Ngược lại, nhân vật cịn lại khơng phân loại Trong trường hợp biện pháp đồng dạng, mẫu T k có biện pháp đồng dạng thấp xác định mức quy định, đối tượng dán lớp nhãn k 2.4.3 Mẫu biến dạng Mẫu biến dạng sử dụng rộng rãi nhiều công nhận đối tượng Các mẫu sử dụng xương nhân vật Nó khơng phải rõ ràng cách vị trí ban đầu mẫu chọn Nếu tất vị trí có hình ảnh xét xử, thời gian tính tốn ngăn cấm 2.4.4 Biến đổi ảnh Unitar Trong mẫu phù hợp, tất điểm ảnh hình ảnh xám sử dụng biến đổi Unitar để hình ảnh giảm số lượng tính bảo quản hầu hết thơng tin hình dạng Trong khoảng thời gian chuyển đổi, điểm ảnh xếp điểm ảnh với mức cao sử dụng tính Biến đổi Unitar phải áp dụng để có ước tính phương sai điểm ảnh khơng gian chuyển đổi Các tính lấy từ biến đổi Unitar không bất biến , hình ảnh đầu vào phải luân chuyển đến định hướng tiêu chuẩn xoay ký tự xảy Hơn nữa, hình ảnh đầu vào có xác kích thước tương tự , đó, rộng tái lấy mẫu cần thiết kích thước khác đơn biến đổi không chiếu sáng bất biến , Fourier chuyển đổi hình ảnh giá trị gốc tỷ lệ thuận với giá trị điểm ảnh trung bình đầu vào hình ảnh , tính bị xóa để có sang Ness bất biến Cho tất biến đổi đơn , nghịch đảo chuyển đổi tồn , hình ảnh nhân vật ban đầu xây dựng lại Nguyễn Sơn Hà - CT1301 30 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng 2.4.5 Bất biến Zenite Zernike khoảnh khắc sử dụng số tác giả cho nhận dạng ký tự nhị phân rắn ký tự 2.5 Trích chọn đặc trưng từ ảnh nhị phân: 2.5.1 Giới thiệu Một ảnh raster nhị phân thu toàn cầu binarization địa phương thích nghi đầu vào hình ảnh xám Trong nhiều trường hợp ,các phân đoạn đối tượng thực đơn giản cách cách ly thành phần kết nối Tuy nhiên , cho hình ảnh khó khăn, số đối tượng chạm vào chồng chéo đối tượng in khác khác Một vấn đề khác xảy đối tượng phân mảnh thành hai nhiều thành phần kết nối, vấn đề giảm nhẹ phần cách chọn phương pháp thích nghi tốt , Trier Taxt tốt phương pháp binarization địa phương thích ứng cịn khơng dẫn đến đối tượng bị lập hồn tồn Phương pháp phân đoạn đối tượng cảm động Westall Narasimha ,Fujisawa điều tra Tuy nhiên , phương pháp giả định đối tượng xuất chuỗi nội dung có định hướng biết đến Trong đồ thủy văn) , ví dụ, số đối tượng chạm vào chồng chéo lên đường , ký tự liên lạc từ dòng văn Một phương pháp dựa xám tích hợp phân khúc Phương pháp cho tốt hiệu suất, kể từ thông tin thu topo - bước phân tích đồ họa sử dụng phân chia ảnh nhị phân Bước phân khúc xử lý xoay đối tượng đối tượng chạm vào từ văn khác dây Đại diện raster nhị phân đối tượng đơn giản hóa đại diện xám chức chụp ảnh Z ( x, y) có hai giá trị ( nói , 1) thay , nói 256 giá trị màu xám cấp có nghĩa tất phương pháp phát triển cho màu xám - đại diện quy mô áp dụng cho nhị phân rắn raster đại diện tốt Vì , khơng lặp lại mô tả đầy đủ phương pháp , chỉ đơn giản hóa tính tốn volved cho phương pháp khai thác tính Nói chung , bất biến để chiếu sáng khơng cịn phù hợp , invariances khác Một ảnh nhị phân rắn chuyển đổi sang khác quan đại diện , chẳng hạn đường viền ngồi char phận cơng tác , cấu hình đường viền , xương tính chiết xuất từ đại diện tốt Với mục đích thiết kế Nguyễn Sơn Hà - CT1301 31 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng OCR hệ thống , mục tiêu việc chuyển đổi để bảo vệ thơng tin liên quan hình loại bỏ số thông tin không cần thiết 2.5.2 Biến đổi ảnh Unitar NIST dựa hình thức hệ thống nhận dạng tay-in sử dụng Karhunen-Loeve chuyển đổi để trích xuất tính từ đại diện raster nhị phân Hiệu tuyên bố tốt, hệ thống OCR có sẵn phạm vi cơng cộng 2.5.3 Bất biến hình học Một hình ảnh nhị phân coi trường hợp đặc biệt hình ảnh màu xám cấp với Z (x, y) = cho điểm ảnh in ấn Z (zi, Yl) = cho điểm ảnh 2.6 Trích chọn đặc trưng từ biên ảnh: 2.6.1 Giới thiệu Đường cong đường viền bên ngồi khép kín ảnh đường cong tuyến tính piecewise khép kín qua trung tâm tất điểm ảnh mà bốn kết nối đến bên ngồi khơng có điểm ảnh khác Sau đường cong, điểm ảnh truy cập trong, nói, ngược kim đồng hồ trật tự đường cong truy cập vào điểm ảnh cạnh hai lần địa điểm mà đối tượng rộng điểm ảnh dòng phận đường thẳng từ tâm điểm ảnh tới láng giêng 2.6.2 Tách vùng Kimura Shridhar sử dụng phân vùng đường viền đường cong Trong khu vực, phân đoạn đường đồng mức được- tween pixel lân cận nhóm lại theo định hướng: ngang (0 °), thẳng đứng (90 °) hai đường chéo định hướng (45, 135 °) Số đoạn đường định hướng tính Takahashi sử dụng biểu đồ định hướng từ khu vực, sử dụng theo chiều dọc, ngang đường chéo lát khu vực thêm vào bên đường viền thực biểu đồ Hơn nữa, Takahashi xác định điểm cong cao dọc theo hai đường viền bên bên Đối với điểm, giá trị độ cong, tiếp tuyến đường viền vị trí khu, điểm trích xuất thời gian mạng lưới thường xuyên sử dụng khu vực Khi đường cong đường viền gần với biên giới khu vực, thay đổi nhỏ đường viền cong dẫn đến thay đổi lớn khai thác tính Họ cố gắng để bù đắp cho điều cách sử dụng biên giới mờ Điểm gần biên giới khu vực cho Nguyễn Sơn Hà - CT1301 32 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng giá trị thành viên mờ để hai bốn khu vực thành viên mờ giá trị số tiền cho 2.6.3 Xấp xỉ đường cong: Trên đường viền nhân vật bên áp gần đường cong hai điểm dừng với chức Sau , hai Đường cong thơng số đường cong sử dụng tính Xấp xỉ đường cong đường viền bên với đường cong spline, mà sau làm nhẵn trơn spline đường cong chia thành phần M -chiều dài đường cong Đối với phần , độ cong trung bình tính cơng thức xác định Ngồi ra, khoảng cách từ arithme - tic nghĩa điểm uốn cong để N điểm khoảng cách đường viền đo cách nhân rộng spline đường cong xấp xỉ nhân vật để tiêu - kích thước Sở NN & PTNT trước tính đánh giá , tính trở thành kích thước bất biến Các tính dịch bất biến tự nhiên, phụ thuộc vào quay 2.6.4 Mô tả Fourier: Trước Kuhl ,Giardina Lin Hwang, mô tả Fourier khác phát triển Zahn ,Roskies Granlund .Trong Zahn Roskies ,các góc cạnh khác nhau-là nghiệm 2.7 Trích chọn đặc trưng từ biểu diễn véc tơ: 2.7.1 Giới thiệu Một số lượng áp đảo thuật toán mỏng tồn số nghiên cứu đánh giá gần cho manh mối để họ giá trị bất lợi Nhiệm vụ quyền thường liên quan đến thỏa hiệp , muốn điểm ảnh rộng xương tám kết nối với chi nhánh giả nút di dời , số loại mạnh mẽ để luân chuyển tiếng ồn đồng thời nhanh chóng dễ dàng thực thuật toán mỏng dường ứng cử viên tốt, thực việc phức tạp Một biểu đồ đối tượng bắt nguồn từ xương xấp xỉ với số đường thẳng phân đoạn điểm giao Vịng cung sử dụng cho phần cong xương Nguyễn Sơn Hà - CT1301 33 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng Phương pháp hữu ích chí tốt có sẵn phương pháp khơng thể bảo tồn hình dạng phận làm việc hình ảnh 2.7.2 Đối sánh mẫu Mẫu phù hợp dạng tinh khiết khơng phù hợp cho xương đối tượngvật, nhỏ 2.7.3 Mẫu biến dạng Mẫu biến dạng sử dụng Burr Wakahara công nhận nhân vật skel - etons Trong cách tiếp cận Wakahara , mẫu de - hình thành số bước nhỏ , gọi affine địa phương biến đổi ( LAT ) để phù hợp với mơ hình đầu vào ứng cử viên Số lượng kiểu chuyển đổi trước trận đấu thu được sử dụng không giống - biện pháp ity mẫu đầu vào mẫu 2.7.4 Đặc trưng rời rạc Từ nhân vật mỏng , tính sau trích xuất: < 1,82 s số lượng vòng , số lượng T- khớp , số lượng X - khớp , số lượng uốn cong điểm, chiều rộng chiều cao tỷ lệ kèm theo hình chữ nhật ;sự diện dấu chấm bị cô lập , tổng số lượng thiết bị đầu cuối số lượng thiết bị đầu cuối bốn hướng N , S , W E , số lượng bán vòng tròn bốn hướng , số lượng giao cắt theo chiều dọc trục ngang , tương ứng, trục đặt trung tâm lực hấp dẫn Người ta sử dụng giao cắt với nhiều chồng dịng tính , thực tế , điều thực đầu OCR hệ thống , tl ) Tuy nhiên , tính làm không dẫn đến hệ thống nhận dạng mạnh mẽ , số lượng dịng chồng tăng lên, tính kết mạnh mẽ với thay đổi phông chữ ( dùng cho máy ký tự in ) biến đổi hình dạng nhân vật văn phong cách (ký tự viết tay ) 2.7.5 Biểu diễn Fourier Các phương pháp mô tả Fourier cho đường nét nhân vật sử dụng cho xương nhân vật đồ thị nhân vật , kể từ xương đồ thị qua để tạo thành đường cong đóng cửa ,nhấn mạnh biểu đồ nhân vật với hai dịng kết thúc , khơng có nút khơng có vịng, , đồ thị với nút giao vịng, tất mơ tả có giá trị khác khơng Nguyễn Sơn Hà - CT1301 34 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phịng Các đặc tính cho phép quay kích thước bất biến tính tìm thấy , trường hợp nhân vật mà xảy khác loại với có vector tính khác Giải pháp trước phân loại đồ thị ký tự vào ba loại sau sử dụng phân loại riêng cho loại Nguyễn Sơn Hà - CT1301 35 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 3.1 Giới thiệu Trong luận văn hạn chế mặt thời gian độ phức tạp nhận dạng chữ viết tay tiếng Việt hạn chế mô nhận dạng ký tự viết tay tiếng Việt rời rạc trực tuyến Các ký tự tiếng Việt gồm ký tự không dấu {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, X, Y} ký tự có dấu {Ă, Â, À, Ả, Ã, Á, Ạ, Ằ, Ẳ, Ẵ, Ắ, Ặ, Ầ, Ẩ, Ẫ, Ấ, Ậ, Ê, È, Ẻ, Ẽ, É, Ẹ, Ề, Ể, Ễ, Ế, Ệ, Ì, Ỉ, Ĩ, Í, Ị, Ô, Ơ, Õ, Ỏ, Õ, Ó, Ọ, Ồ, Ổ, Ỗ, Ố, Ộ, Ờ, Ở, Ỡ, Ớ, Ợ, Ư, Ù, Ủ, Ũ, Ö, Ụ, Ừ, Ử, Ữ, Ứ, Ự, Ỳ, Ỷ, Ỹ, Ý, Ỳ} Chương trình nhận dạng ký tự viết tay người sử dụng vẽ chúng, chức tương tự nhận dạng ký tự viết tay sử dụng thiết bị cầm tay PDA (Personal Digital Assistant ) Chương trình gồm giao diện đơn giản cho phép người sử dụng dùng chuột vẽ ký tự cần nhận dạng tiến hành nhận dạng Khi vẽ ký tự có hình chữ nhật xung quanh ký tự đó.Mục đích hình chữ nhật để cắt khoảng trắng không liên quan đến ký tự làm cho chương trình có khả khơng cần quan tâm đến vị trí ký tự viết Ta vẽ ký tự giữa, trên, hay vị trí khác chương trình có khả nhận dạng Các bước giải tốn sử dụng trích chọn đặc trưng nhận dạng chữ viết: - Xây dựng giao diện vẽ - Xử lý liệu (phân tích ảnh) - Xây dựng Chương trình - Nhận dạng chữ viết 3.2 Xây dựng giao diện vẽ - Xây dựng giao diện đồ họa, cho phép người sử dụng dùng chuột vẽ ký tự cần nhận dạng Nguyễn Sơn Hà - CT1301 36 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phịng - Tìm giới hạn trên, giới hạn dưới, trái, phải ký tự sau vẽ - Cắt bỏ tất khoảng trắng xung quanh ký tự vẽ thu ảnh có hồn toàn ký tự Như quy xử lý ảnh có ký tự, khơng quan tâm ký tự vẽ vị trí nào: bên hay dưới, bên trái hay bên phải Hình 2.2 Quá trình tìm giới hạn ký tự - Thực lấy mẫu xuống ảnh ký tự cách ánh xạ ký tự vào lưới có kích thước 10*10 Bằng cách ta quy ký tự kích thước cố định, khơng cần quan tâm đến kích thước ký tự vẽ vào to hay nhỏ Hình 2.3 Quá trình lấy mẫu xuống 3.3 Xử lý liệu (phân tích ảnh) Q trình phân tích ảnh q trình tìm đặc tính ký tự.Các điểm ảnh giá trị đầu vào cho trình huấn luyện trình kiểm tra Quá trình phân tích dựa việc nhận dạng từ ảnh người sử dụng vẽ vào Nguyễn Sơn Hà - CT1301 37 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phịng phương pháp tìm điểm đen RGB(0,0,0) điểm trắng RGB(255,255,255) Kết thu ma trận điểm ảnh Sau ma trận ánh xạ thành vector đầu vào có kích thước 100 phần tử.Trước đưa vào mạng vector xử lý làm điểm ảnh thành vector gồm phần tử 0.5 -0.5 Hình 2.4 Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị - Ký tự: Chứa chữ mẫu dùng để trích chọn - Giá trị: Lưu trữ giá trị chữ mẫu dùng để trích chọn - Nhận dạng: Vùng để vẽ chữ lên - Tập mẫu: Chứa chữ mẫu dùng để trích chọn - Tải mẫu: Tải tập chữ mẫu tạo sẵn file: TapMau.xml - Thêm chữ: Ghi lại tập chữ mẫu vào file: TapMau.xml - Trích chọn đặc trưng:Trích chọn đặc trưng trọng số vùng chữ viết - Xóa chữ: Xóa chữ mẫu chọn khỏi file TapMau.xml - Nhận dạng: Nhận dạng chữ vẽ vào - Thông tin: Giới thiệu sơ chương trình Chúng ta tải tập chữ từ file tạo sẵn TapMau.xml cách nhấn nút “Tải mẫu” tự nhập mẫu để trích chọn cách vẽ chữ vào vùng vẽ ký tự nhấn “Thêm chữ”, có hộp thoại nhắc bạn đánh vào chữ tương ứng để nhận dạng chữ tương ứng với chữ vừa vẽ Nguyễn Sơn Hà - CT1301 38 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng Sau nhập xong tập mẫu nhấn nút “Trích chọn đặc trưng” Q trình trích chọn hồn thành, thực nhận dạng chữ cách vẽ chữ nhấn “Nhận dạng” Khi chữ hiển thị lưới kích thước 10*10 Có thể xóa chữ xóa mẫu tập mẫu cách chọn chữ cần xóa nhấn nút “Xóa chữ” 3.4 Kết nhận dạng - Để nhận dạng chữ ta vẽ chữ cần nhận dạng vào vùng vẽ chữ (vùng chữ nhật màu trắng, bên phần “Nhận dạng”) - Ký tự đồng thời hiển thị lưới kích 10*10 (vùng vng màu xanh, bên phải giao diện chương trình) - Nhấn nút nhận dạng - Chữ nhận dạng tương ứng với chữ cần nhận dạng vẽ hiển thị hình 3.5 Đánh giá, nhận xét Chương trình nhận dạng với độ xác cao.Nếu chữ nhận dạng chưa xác ta thêm mẫu trích chọn lại cho chữ đến nhận dạng chữ xác Nếu chữ gần giống nhận dạng dễ lẫn sang trích chọn ta thêm mẫu tương ứng với chữ đến đạt tỷ lệ nhận dạng cao Chương trình nhận dạng xác với chữ không dấu đến 96%, chữ có dấu độ xác lớn 85%.Đối với chữ có dấu độ xác giảm so với trường hợp khơng có dấu trường hợp chữ khác ít, nên số lượng mẫu trích chọn cho các chữ có dấu cần nhiều Để nhận dạng nhiều kiểu viết khác tập mẫu cho chữ phải có nhiều dạng phong phú, tương ứng với cách viết mà người sử dụng viết Q trình huấn luyện giải khía cạnh phức tạp tốn nhận dạng chữ viết tay đa dạng chữ viết tay, đặc biệt chữ viết tay tiếng Việt Như chương trình minh họa cho nhận dạng chữ viết tay tiếng Việt trực tuyến đạt mục tiêu toán phức đặt Nghiên cứu trích chọn đặc trưng hướng nghiên cứu mẻ có nhiều hứa hẹn Nguyễn Sơn Hà - CT1301 39 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng Với hướng tiếp cận áp dụng cho giải toán nhận dạng chữ viết tay tiếng Việt trực tuyến vốn phức tạp đặc điểm: - Chữ viết tay trực tuyến phải thêm phần tạo giao diện để vẽ chữ, so với việc nhập đầu vào file ảnh chữ viết tay - Chữ viết tay hình dạng chữ phong phú đa dạng phụ thuộc nhiều vào người viết, người có cách viết khác - Chữ viết tay tiếng Việt có số lượng lớn, lớn nhiều so với chữ theo chuẩn khác Ví dụ: chuẩn tiếng Việt có 89 ký tự gồm ký tự khơng dấu có dấu, chuẩn tiếng Anh gồm 26 ký tự không dấu Mặt khác ký tự lại giống nên dễ nhầm lẫn trình nhận dạng Như giải toán phải đáp ứng yêu cầu: - Giải phức tạp việc xử lý liệu đầu vào - Giải việc xử lý khối lượng liệu lớn - Giải độ chuẩn xác trình nhận dạng - Giải mức độ tổng quát, đa dạng, phong phú q trình xây dựng trích chọn để đạt độ xác cao nhận dạng Chương trình thử nghiệm xây dựng ngơn ngữ C# sử dụng Visual Studio 2012 Nguyễn Sơn Hà - CT1301 40 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phịng Một số giao diện chương trình Hình 2.5.Giao diện chương trình Hình 2.6.Giao diện chương trình sau nhận dạng chữ viết xong Nguyễn Sơn Hà - CT1301 41 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phịng Hình 2.7.Giao diện thêm chữ viết Hình 2.8 Giá trị vùng nhận dạng Nguyễn Sơn Hà - CT1301 42 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng KẾT LUẬN A Kết đạt được: Trong trình nghiên cứu hoàn thành báo cáo đồ án tốt nghiệp “Tìm hiểu số phương pháp trích chọn đặc trưng cho nhận dạng chữ viết”, em thu nhận thêm nhiều kiến thức nhận thấy trích chọn đặc trưng cho nhận dạng chữ viết lĩnh vực rộng lớn ứng dụng mạnh mẽ Hơn cịn nhiều vấn đề mà cần khám phá Trong đề tài em cố gắng tìm hiểu nghiên cứu tổng quan lý thuyết nhận dạng chữ viết phương pháp trích chọn đặc trưng cho việc nhận dạng chữ viết Cài đặt thử nghiệm chương trình trích đặc trưng cho việc nhận dạng chữ không dấu Do thời gian thực hạn chế kiến thức hạn chế nên em nghiên cứu số lý thuyết trích chọn đặc trưng Còn nhiều lý thuyết kỹ thuật em chưa tìm hiểu, khai thác ứng dụng vào toán thực tế Mặc dù cố gắng, song lực trình độ có hạn nên q trình thực thực tập em khơng tránh khỏi thiếu sót Kính mong thầy cô bạn quan tâm giúp đỡ bảo để chương trình em hồn thiện B Hướng phát triển tương lai Trong thời gian tới em cố gắng tiếp tục nghiên cứu, tìm hiểu thêm số kiến thức trích chọn đặc trưng cho việc nhận dạng chữ viết nói riêng lý thuyết nhận dạng nói chung Nguyễn Sơn Hà - CT1301 43 Đồ án tốt nghiệp Trường ĐH Dân Lập Hải Phòng TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Kiếm, Nguyễn Hồng Sơn, Đào Minh Sơn, “Ứng dụng mạng nơron nhân tạo hệ thống xử lý biểu mẫu tự động”, Kỷ yếu hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, 2001, tr 560-567 [2] Bùi Minh Trí, “Quy hoạch tốn học”, Nhà xuất Khoa học kỹ thuật, Hà nội, 2006 [3] Lê Hoài Bắc, Lê Hoàng Thái, “Neural Network & Genetic Algorithm in Application to Handwritten Character Recognition”, Tạp chí Tin học Điều khiển học, Tập 17, số 4, 2001, tr 57-65 [4] Nguyễn Thị Thanh Tân, Ngô Quốc Tạo, “Một cấu trúc mạng nơ ron thích hợp cho việc nhận dạng chữ số viết tay”, Kỷ yếu hội thảo FAIR03, NXB KH&KT Hà Nội, 2004, tr 200-210 [5] Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa mơ hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học Điều khiển học, Tập 22, số 2, 2006, tr 141-154 [5.1] Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai, “Ứng dụng SVM cho toán phân lớp nhận dạng”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ ba nghiên cứu, phát triển ứng dụng Công nghệ thông tin Truyền thông (ICT.rda’06), nhà xuất Khoa học Kỹ thuật, Hà nội, trang 393-400, 2021/05/2006 [5.2] Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai, “Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt”, Tạp chí Cơng nghệ Thơng tin Truyền thông, ISSN 0866-7039, kỳ 3, số 20, 10-2008, tr 36-42 [5.3] Phạm Anh Phương, “Áp dụng số chiến lược SVM đa lớp cho toán nhận dạng chữ viết tay hạn chế”, Tạp chí khoa học Đại học Huế, ISSN 18591388, số 45, 2008, tr 109-118 [5.4] Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa mơ hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học Điều khiển học, Tập 22, số 2, 2006, tr 141-154 Tiếng Anh [6] ivind Due Trier, Anil K.Jain, Feature Extraction methods for character recognition:Survey,Pattern Recognition 29(4):641-662(1996) [7] Mark S, Nixon Alberto S Aguado, Feature Extraction & Image Processing,2 Edition from Mark Nixon, Alberto S Aguato ISBN-9780080556727, 2002 Nguyễn Sơn Hà - CT1301 nd 44 ... quan trích chọn đặc trưng số phương pháp trích chọn đặc trưng cho nhận dạng chữ viết Chương nghiên cứu tổng quan trích chọn đặc trưng số phương pháp trích chọn đặc trưng cho nhận dạng chữ viết. Giới... TRÍCH CHỌN ĐẶC TRƯNG VÀ MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT 2.1 Trích chọn đặc trưng Trích chọn đặc trưng đóng vai trị quan trọng hệ thống nhận dạng Trong trường hợp... Thêm chữ: Ghi lại tập chữ mẫu vào file: TapMau.xml - Trích chọn đặc trưng :Trích chọn đặc trưng trọng số vùng chữ viết - Xóa chữ: Xóa chữ mẫu chọn khỏi file TapMau.xml - Nhận dạng: Nhận dạng chữ