Nhận dạng chữ in nói chung và nhận dạng chữ in tiếng Việt nói riêng đã và đang là bài toán thu hút được nhiều sự quan tâm và nghiên cứu. Vì vậy đồ án này em xin tìm hiểu một phần trong mảng này.Bài toán nhận dạng chữ in Tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạn ảnh thành các kí tự, Nhận dạng kí tự và hậu xử lý.Với bài toán nhận dạng chữ in tiếng Việt có sự khó khăn do hệ thống có dấu mũ của các kí tự, làm tăng số kí tự cần nhận dạng, cũng như khó khăn trong việc nhận dạng kí tự vì các kí tự có đặc điểm khá giống nhau, đồng thời tăng khả năng giao nhau giữa các dòng. Để giải quyết vấn đề này, trong đồ án này, tôi sử dụng phương pháp tách dòng dựa vào khoảng trắng.Đồ án gồm có 5 chương với bố cục như sau:Chương 1: Giới thiệu.Chương 2: Cơ sở lý thuyết cho phân đoạn ảnh và thuật toán nhận dạng kí tự.Chương 3: Phân đoạn ảnh cho nhận dạng kí tự.Chương 4: Bộ nhận dạng kí tựChương 5: Thực nghiệm
Lời cam đoan LỜI CAM ĐOAN Tôi xin cam đoan đồ án tốt nghiệp “Nhận dạng kí tự chữ in hoa Tiếng Việt” công trình nghiên cứu thân Các số liệu, kết nghiên nêu đồ án trung thực không chép y nguyên từ công trình khác Tôi xin chịu trách nhiệm đồ án Đà Nẵng, tháng 5/2014 Người viết Mục lục MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC HÌNH VẼ .5 DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT Mở đầu Chương GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Nội dung nghiên cứu đồ án .11 CHƯƠNG 13 CƠ SỞ LÝ THUYẾT CHO PHÂN ĐOẠN ẢNH VÀ THUẬT TOÁN NHẬN DẠNG KÍ TỰ 13 2.1 Giới thiệu chương 13 2.3.4 Các hàm hiển thị ảnh Matlab [6] 15 2.3.5 Các hàm khác sử dụng đề tài [6] 16 2.4.2 Xử lý triệt nhiễu nâng cao chất lượng ảnh [6] 18 2.4.3 Chuẩn hóa kích thước ảnh 19 2.5 Phương pháp nhận dạng kí tự .20 2.5.1 Đối sánh mẫu 21 2.6.3 Thuật toán PCA 25 CHƯƠNG 3: 27 PHÂN ĐOẠN ẢNH CHO NHẬN DẠNG VĂN BẢN 27 3.1 Giới thiệu chương 27 3.3 Tách dòng 27 3.3.1 Ý tưởng 27 Mục lục 3.3.2 Ưu nhược điểm phương pháp 27 3.4 Tách từ 29 3.4.1 Ý tưởng 29 3.4.2 Thuật toán 29 3.5 Tách kí tự 30 3.5.1 Ý tưởng 30 3.5.2 Thuật toán 30 3.6 Xác định giới hạn xác cho kí tự 31 3.6.1 Xác định giới hạn giới hạn kí tự 31 3.6.2 Xác định giới hạn phải giới hạn trái kí tự 32 3.7 Ánh xạ kí tự ảnh vào ma trận giá trị .32 3.7.1 Chuẩn hóa kích thước kí tự 32 Chương 4: 34 BỘ NHẬN DẠNG KÍ TỰ 34 4.1 Giới thiệu chương 34 4.2 Thuật toán PCA sử dụng cho nhận dạng kí tự.[4] 34 4.3 Các bước để nhận dạng văn kí tự 36 4.4 Kết luận chương 37 Chương 39 THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ CHƯƠNG TRÌNH NHẬN DẠNG KÍ TỰ CHỮ IN HOA TIẾNG VIỆT 39 5.1 Giới thiệu 39 5.2 Môi trường thực nghiệm 39 5.3 Thực nghiệm với phân đoạn ảnh .39 5.3.1 Tách dòng .40 5.3.2 Tách từ 40 5.3.3 Tách kí tự 41 Mục lục 5.4 Thực nghiệm với nhận dạng kí tự 41 Nhận xét: 44 PHỤ LỤC 48 Danh mục hình vẽ DANH MỤC HÌNH VẼ Hình 1.1 Sơ đồ khối hệ nhận dạng văn Tiếng Việt 10 Hình 2.1 : Không gian màu RGB 14 Hình 2.2 ví dụ chuyển ảnh RGB sang ảnh đa mức xám sau ảnh nhị phân 18 Hìnhh 2.3 Ví dụ nhiễu đốm 19 Hình 2.4 Ảnh sau áp dụng lọc trung vị .19 Hình 2.5 Kí tự A sau chuẩn hóa với kích thước 15x10 20 Hình 2.6: Minh họa PCA :phép chiếu lên trục tọa độ khác cho cách nhìn khác liệu 22 Hình 2.7 Minh họa PCA : tìm cá trụ tọa độ cho liệu có độ biến thiên cao 23 Hình 2.8 Các bước thực PCA 26 29 Hình 3.1 Mô kết tách dòng 29 Hình 3.2 Ví dụ cho thuật toán tách từ 30 Hình 3.3 Mô tả vị trí vết cắt kí tự 31 Hình 3.4 Mô tả giới hạn giới hạn kí tự 32 Hình 4.2 Các bước thực nhận dạng kí tự .37 Hình 5.1 Minh họa cho trình tách dòng 40 Hình 5.2 Ảnh mẫu kí tự in hoa Tiếng Việt font chữ Arial 42 Hình 5.3 Ví dụ ảnh văn để nhận dạng 43 Hinh 5.4 Văn sau nhận dạng xong .43 Danh mục bảng biểu DANH MỤC BẢNG BIỂU Bảng 2.1 Các hàm xử lý hình ảnh khác Matlab .16 Bảng 2.2: Các phương pháp nội suy .20 Bảng 5.1 Kết thực nghiệm tách dòng .40 Bảng 5.2 Kết thực nghiệm tách từ 41 Bảng 5.3 Kết thực nghiệm nhận dạng kí tự 44 Danh mục từ viết tắt DANH MỤC TỪ VIẾT TẮT ORC: Optical Character Recognition PCA: Principal Component Analysis RGB: red-green-blue PEL: Picture Element SVM: support vector machine Mở đầu Mở đầu Nhận dạng chữ in nói chung nhận dạng chữ in tiếng Việt nói riêng toán thu hút nhiều quan tâm nghiên cứu Vì đồ án em xin tìm hiểu phần mảng Bài toán nhận dạng chữ in Tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạn ảnh thành kí tự, Nhận dạng kí tự hậu xử lý Với toán nhận dạng chữ in tiếng Việt có khó khăn hệ thống có dấu mũ kí tự, làm tăng số kí tự cần nhận dạng, khó khăn việc nhận dạng kí kí tự có đặc điểm giống nhau, đồng thời tăng khả giao dòng Để giải vấn đề này, đồ án này, sử dụng phương pháp tách dòng dựa vào khoảng trắng Đồ án gồm có chương với bố cục sau: Chương 1: Giới thiệu Chương 2: Cơ sở lý thuyết cho phân đoạn ảnh thuật toán nhận dạng kí tự Chương 3: Phân đoạn ảnh cho nhận dạng kí tự Chương 4: Bộ nhận dạng kí tự Chương 5: Thực nghiệm Em xin chân thành cảm ơn cô Bùi Thị Minh Tú tận tình hướng dẫn, cung cấp tài liệu đồng thời động viên thời gian em nghiên cứu hoàn thành đồ án Trong thời gian thực đồ án, có nhiều cố gắng đồ án tránh khỏi thiếu sót Kính mong thầy cô tận tình bảo góp ý để đồ án hoàn thiện Em xin chân thành cảm ơn! Chương Chương GIỚI THIỆU 1.1 Đặt vấn đề Nhận dạng kí tự quang học (ORC-Optical Character Recognition) toán chuyển hình ảnh chữ viết tay đánh máy (thường quét máy scanner) thành văn tài liệu Do toán nhiều vấn đề chưa giải cách triệt để, vấn đề tốc độ xử lý, độ xác Và nhận nhiều quan tâm nghiên cứu, đặc biệt cho Tiếng Việt Nhận dạng văn áp dụng trình tự động hóa công việc văn phòng nhập liệu, lưu trữ văn bản, sách báo, phân loại thư tín,…, công việc đòi hỏi thời gian người Hiện có nhiều báo đề cập đến toán nhận dạng kí tự quang học, nhằm cải tiến phương pháp phân đoạn ảnh, nhận dạng Song chưa giải cách triệt để vấn đề khó khăn toán thường gặp phải Đặc biệt việc nhận dạng kí tự Tiếng Việt, gặp nhiều khó khăn, tính riêng biệt Tiếng Việt: số kí tự nhiều, kí tự lại có dấu… Nên toán thu hút quan tâm, nghiên cứu nhằm giải khó khăn Một số hệ nhận dạng văn áp dụng nhiều vào ứng dụng FineReader hãng AABBYY, OmmiPage hãng ScanSoft dùng để nhận dạng văn tiếng Anh… VNDOCR Viện công nghệ thông tin cho văn tiếng Việt Bài toán nhận dạng văn thực qua ba giai đoạn chính: phân đoạn ảnh, nhận dạng từ hậu xử lý Trong đồ án xin sâu vào nghiên cứu công đoạn nhận dạng từ Bên cạnh kết hợp với phân đoạn ảnh để xây dựng thành hệ thống nhận dạng văn hoàn thiện Bài toán mà nghiên cứu thực qua giai đoạn mô tả hình sau Chương Văn sau scan Phân đoạn ảnh Bộ nhận dạng Bộ hậu xử lý Văn nhận dạng Hình 1.1 Sơ đồ khối hệ nhận dạng văn Tiếng Việt Đầu vào hệ thống nhận dạng hình ảnh scan từ văn tiếng Việt Đầu nhận dạng, văn chỉnh sửa Để xử lý điều hệ thống nhận dạng trải qua giai đoạn sau đây: Phân đoạn ảnh: Giai đoạn có nhiệm vụ loại bỏ nhiễu nhằm nâng cao chất lượng hình ảnh đầu vào Sau thực việc tách đoạn, tách dòng, tách từ, tách kí tự Bộ nhận dạng kí tự: Đầu vào giai đoạn ảnh kí tự, đầu kí tự nhận dạng Thông thường phần sử dụng thuật toán học máy đối sánh mẫu Bộ hậu xử lý: Tổng hợp kí tự nhận dạng hiển thị lên cho người dùng Đồng thời phần có nhiều nghiên cứu hệ thống đưa nhiệm vụ điều chỉnh nhận dạng sai dùng từ điển mô hình ngôn ngữ 10 Chương • Tìm đặc tính tiêu biểu đối tượng cần nhận dạng mà không cần phải xác định thành phần mối quan hệ thành phần • PCA kết hợp với nhiều phương pháp khác để mang lại hiệu nhận dạng cao như: mạng Noron, SVM (Mô hình máy học)… Nhược điểm • PCA phân loại theo chiều phân bố lớn tập vector Tuy nhiên, chiều phân bố lớn lúc mang lại hiệu tốt cho toán nhận dạng Đây nhược điểm PCA • PCA nhạy cảm với nhiễu 38 Chương Chương THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ CHƯƠNG TRÌNH NHẬN DẠNG KÍ TỰ CHỮ IN HOA TIẾNG VIỆT 5.1 Giới thiệu Sau tìm hiểu lý thuyết thuật toán trình nhận dạng Chương giúp ta phân tích, đánh giá kết nhận sau trình nhận dạng kết thúc; qua tìm hướng phát triển đề tài nâng cao khả nhận dạng Chương chạy mô đánh giá hoạt động nhận dạng kí tự đồng thời đánh giá kết nhận dạng văn Nội dung chương bao gồm phần sau: Kết thực nghiệm, nhận xét đánh giá phân đoạn ảnh Kết thực nghiệm, nhận xét đánh giá nhận dạng kí tự Kết thực nghiệm, nhận xét đánh giá chương trình nhận dạng văn Nhận xét, đánh giá trình thực 5.2 Môi trường thực nghiệm Đa phần chương trình xử lý ảnh thường viết C++ C# với trình biên dịch chuyên dùng cho xử lý ảnh OpenCV Tuy nhiên kiến thức chương trình hạn chế, nên đồ án này, sử dụng phần mềm mô Matlab 2013 Matlab 2013 có hỗ trợ số hàm sẵn có phục vụ cho trình xử lý ảnh Trong đồ án này, xây dựng function phục vụ cho bước là: phân đoạn ảnh nhận dạng kí tự 5.3 Thực nghiệm với phân đoạn ảnh Đối với nhận dạng văn ảnh văn thu nhập qua máy scanner hay máy ảnh điều kiện sáng tốt, không số trường hợp nhận dạng khác Ví dụ nhận dạng khuôn mặt, hành động, biển số xe… điều kiện đặc thù phải nhận dạng điều kiện sáng khác Công nghệ ngày tiên tiến nên trình thu nhập ảnh qua máy scanner, hay máy ảnh cho chất lượng tốt Các máy scanner cho ảnh đầu có tượng nhiễu thấp, chủ yếu nhiễu đốm Nên lọc nhiễu khử dễ dàng Vì nhận dạng văn in hoa tiếng Việt, không xét đến điều kiện ánh sáng 39 Chương 5.3.1 Tách dòng Hình 5.1 Minh họa cho trình tách dòng Điều kiện thực hiện: Tôi thực nghiệm phân tách 10 văn gồm 100 dòng, văn dòng có kích thước chữ Các dòng tách sai trường hợp: • Một dòng bị tách thành dòng: dòng chứa mũ kí tự dòng chứa kí tự • Các dòng bị gộp lại với tạo thành dòng Kết thực nghiệm: Tách dòng kết thực nghiệm xác 98/100 dòng Tỉ lệ xác 98% Số văn Số dòng Số dòng tách Tỉ lệ (%) 10 100 98 98 Bảng 5.1 Kết thực nghiệm tách dòng Nhận xét: • Tỉ lệ xác cao • Các dòng tách sai bị nhiễu khâu in ấn văn tạo thành vết mực đen nên dẫn đến tách sai dòng • Văn bị nhiễu trình thu thập liệu xử lý nhiễu gần triệt để 5.3.2 Tách từ Điều kiện thực nghiệm: Tôi thực nghiệm phân tách 10 văn gồm 100 dòng 742 từ, văn dòng có kích thước chữ Kết thực nghiệm: 40 Chương Văn Số từ Số từ tách Tỉ lệ (%) 83 82 98,79518 59 58 98,30508 76 74 97,36842 70 70 100 79 78 98,73418 70 68 97,14286 82 77 93,90244 72 69 95,83333 74 70 94,59459 10 77 71 92,20779 742 717 96,63073 Tổng cộng Bảng 5.2 Kết thực nghiệm tách từ Nhận xét: • Tỉ lệ xác trình tách từ chấp nhận • Thuật toán tách từ dựa vào khoảng trống nhiều khuyết điểm • Các từ với kí tự I thường dẫn đến tách sai từ Nguyên nhân khoảng cách kí tự I kí tự liền kề lớn so với kí tự khác, dẫn đến lớn giá trị trung bình khoảng trắng thuật toán 5.3.3 Tách kí tự Việc tách kí tự thực xác Tuy nhiên số lỗi xảy với từ chứa kí tự A, Â, Ă, Y Do tính thẩm mỹ nên kí tự với kí tự xung quanh gần khoảng trống Điều dẫn đến tách kí tự Ví dụ số từ không tách được: VA, TĂNG, THÂY, THÂT, CÂY… 5.4 Thực nghiệm với nhận dạng kí tự Đầu vào nhận dạng kí tự ảnh kí tự sau tách từ văn cần nhận dạng Các kí tự so sánh với mẫu thông qua thuật toán PCA để tìm kí tự thích hợp 41 Chương Trong đồ án này, sử dụng font chữ Arial để nhận dạng kí tự Thông qua font chữ ta mô nguyên lý làm việc thấy kết dễ dàng Do đặc thù font đơn giản, chân nét nên việc nhận dạng xác Thông thường văn hành chính, giấy tờ quan trọng cần nhận dạng người ta dùng font Arial phông chữ đơn giản để dễ dàng nhận dạng Ví dụ: giấy tờ xuất nhập hàng hóa cục bưu viết font Arial, cỡ chữ 30, in đâm, màu đỏ, … Để phát triển cho nhiều font khác xin đề xuất tăng số mẫu kí tự font chữ khác cần nhận dạng, sử dụng thuật phân loại để phân loại font khác nhận dạng nhiều font A, Ă, Â, B, C, D, Đ, E, Ê, G, H, I, K, L, M, N, O, Ô, Ơ, P, Q, R, S, T, U, Ư, V, X, Y Hình 5.2 Ảnh mẫu kí tự in hoa Tiếng Việt font chữ Arial Tiền hành thực nghiệm nhận dạng kí tự với kí tự riêng biệt bảng chữ ta rút số nhận xét sau Nhận xét: • Kí tự Q thường bị nhầm lẫn với kí tự O, phân đuôi kí tự Q nhỏ so vơi kích thước chuẩn 15x10 • Kí tự R có khả bị nhầm với P • Kí tự C có khả bị nhầm với O • Kí tự Ă có khả bị nhầm với  • Các kí tự có độ xác cao là: A, B, D, E, G, H, I, K, L, M, N, O, Ơ, Ô, P, S, T, U, Ư, V, X, Y Độ xác kí tự gần 100% • Các kí tự thường bị nhầm lẫn khác phục hậu xử lý kết xác 5.5 Thực nghiệm với chương trình nhận dạng văn Điều kiện thực nghiệm: Tôi thực nghiệm phân tách 10 văn gồm 100 dòng 742 từ, văn dòng có kích thước chữ 42 Chương Hình 5.3 Ví dụ ảnh văn để nhận dạng Chương trình sau chạy, kí tự ghi vào file text, kết thúc ta nhận file text chứa văn sau nhận dạng sau: ANH EM MĂT TRƠI*#*ĐÂT NƯƠC HO HANG*#*CON NGƯƠI THIÊN NHIÊN*#*NGUYÊN CÔNG LI NH*#*MĂT TRƠI CO TUÔI THO NĂM TY NĂM*#*TRI ĐÂT CO TUÔI THO BÔN TY NĂM*#*CON NGUOI LA SINH WT THÔNG MINH NHÂT*#*CHI HĂNG CHU CUÔI*#*C ĐA QUAN NƯƠC C CAU LA TÊU*#*SÔNG LA CHO ĐÂU CHI NHÂN RIÊNG MINH*#* Hinh 5.4 Văn sau nhận dạng xong Kết thực nghiệm: Văn Số kí tự Số kí tự Tỉ lệ (%) 274 256 93,43066 203 196 96,55172 43 Chương 244 238 97,54098 230 218 94,78261 265 260 98,11321 235 227 96,59574 292 275 94,17808 253 245 96,83794 272 254 93,38235 10 257 244 94,94163 2525 2413 95,56436 Tổng cộng Bảng 5.3 Kết thực nghiệm nhận dạng kí tự Nhận xét: • Ta thấy chữ bị nhận dạng nhầm không tách kí tự TRAI, VÂT, CÂY, VA,… • Các kí hiệu *#* tương ứng kết thúc dòng văn Các sai sót chỉnh sửa hậu xử lý trước đưa văn xác • Kết nhận dạng kí tự có độ xác 95%, chấp nhận Tuy nhiên cần phải cải thiện nhiều 5.6 Kết luận chương Nhận dạng kí tự in hoa Tiếng Việt nhận dạng 29 kí tự in hoa Tiếng Việt gồm: A, Ă, Â, B, C, D, Đ, E, Ê, G, H, I, K, L, M, N, O, Ô, Ơ, P, Q, R, S, T, U, Ư, V, X, Y Qua thực nghiệm, nhận thấy kí tự Q O, C O, R P thường bị nhầm lẫn với nhau, kí tự khác có độ xác cao 44 Chương Chương trình test có thời gian đáp ứng nhanh, kết nhận có độ xác 90% Hệ thống số hạn chế tách từ tách kí tự gián tiếp làm giảm khả nhận dạng hệ thống Cần áp dụng kĩ thuật tốt để làm tăng khả tách từ tách kí tự, tăng độ xác lên 90% 45 Kết luận hướng phát triển đề tài Kết luận Hướng phát triển đề tài Trong đồ án này, trình bày lý thuyết phân đoạn ảnh, nhận dạng kí tự Từ áp dụng vào toán nhận dạng chữ in hoa tiếng Việt Qua mô thực nghiệm: • Quá trình tách dòng cho kết xác 98% • Quá trình tách từ cho kết xác 96% • Quá trình tách kí tự nhận dạng cho kết xác 95,5% Kết mô bước đầu chấp nhận với độ xác 95% Thuật toán tách dòng cho độ xác tốt; thuật toán tách từ, tách kí tự có độ xác tương đối; cần cải tiến khắc phục thêm Trong tương lai, tiếp tục nghiên cứu phát triển để nâng cao chất lượng hệ thống độ xác tốc độ; cải thiện trình tách kí tự để đạt độ xác Từng bước nghiên cứu xây dựng hệ thống nhận dạng kí tự tiếng việt gồm tất chữ thường in hoa dấu kí tự đặc biệt khác Qua mở rộng nghiên cứu thực nghiệm văn tiếng Việt hoàn chỉnh 46 Tài liệu tham khảo Tài liệu tham khảo [1] Nguyễn Hoàng Hải-Nguyễn Khắc Kiểm, “Lập trình Matlab”, NXB Khoa học kỹ thuật [2] Học viện công nghệ bưu viễn thông, “Xử lý ảnh” ( cho sinh viên hệ đào tạo từ xa), Hà Nội-2006 [3] Ngô Văn Sỹ (Đại học Bách Khoa Đà Nẵng), “Nhận dạng kí tự quang học mạng noron”, tạp chí khoa học công nghệ, đại học Đà Nẵng số 4(27).2008 [4] Jonathon Shlens, “A Tutorial on Principal Component Analysis”, Center for Neural Science, New York University New York city, Systems Neurobiology Laboratory( Dated: April 22, 2009, version 3.01) [5] http://vi.wikipedia.org/wiki [6] mathworks.com 47 Phụ lục PHỤ LỤC Code chương trình %chương trinh chinh de nhan dang van ban function [kitu,K]=test(stt) str=int2str(stt); str=strcat('D:\kaka\anhtest\',str,'.jpg'); I=imread(str); I = rgb2gray(I); I = medfilt2 (I, [3 3]); threshold = graythresh(I);%lay nguong cua I img = im2bw(I,threshold); img = medfilt2 (img, [3 3]); imshow(img); [m n]=size(img) fid=fopen('D:\kaka\xuat\a.txt','w'); %phan dong [top, bottom]=phandong(img); for i=1:size(top,2) dong=imcrop(img,[ top(i) size(img,2) bottom(i)-top(i)]); %phan ki tu [left, right]=phankitu(dong); s=0; t=0; for x=1:size(left,2) s=right(x)-left(x)+s; if (x+1)[...]... thuật toán được sử dụng trong bộ nhận dạng kí tự cũng như nắm rõ cụ thể thuật toán PCA được sử dụng cụ thể cho nhận dạng kí tự như thế nào Chương này gồm các phần như sau: Ưu nhược điểm của thuật toán PCA Thuật toán PCA cho nhận dạng kí tự Kết luận chương Đồ án này sẽ tiến hành nhận dạng kí tự in hoa tiếng Việt Như chúng ta đều biết kí tự in hoa tiếng Việt gồm có 29 kí tự như sau: A, Ă, Â, B, C, D,... kĩ thuật nhận dạng đơn giản dựa trên cơ sở đối sánh các nguyên mẫu với nhau để nhận dạng Các kĩ thuật đối sánh mẫu chỉ áp dụng tốt đối với nhận dạng chữ in, còn đối với chữ viết tay thì các kĩ thuật này tỏ ra kém hiệu quả Kết quả của nó cũng tỏ ra nhạy cảm với nhiễu Vì tính đơn giản, thời gian đáp ứng nhanh, hiệu quả cho nhận dạng kí tự in hoa Tiếng Việt Nên đồ án nhận dạng kí tự in hoa Tiếng Việt này,... được sử dụng cho nhận dạng kí tự. [4] Hình 4.1 Các bước chính thực hiện PCA 34 Chương 4 Phân tích thành phần chính ( Principal COmponnent Analysis) gọi ta tắt là PCA là thuật toán nhận dạng dựa trên những nét tổng thể của kí tự Ta sẽ áp dụng thuật toán này để thực hiện nhận dạng kí tự in hoa giống với kí tự in hoa cho trước làm mẫu Ban đầu ta có một tập ảnh tất cả các kí tự in hoa Tiếng Việt làm mẫu gọi... thực hiện các nội dung đó, và áp dụng nó vào bài toán nhận dạng văn bản chữ in tiếng Việt. Trong giai đoạn nhận dang kí tự, trong đồ án này tôi đề xuất sử dụng thuật toán PCA 1.3 Một số ứng dụng của nhận dạng kí tự Trong an ninh và bảo mật, nhận dạng kí tự quang học được áp dụng vào nhận dạng biển số xe, giúp quá trình lưu trữ cũng như xác nhận thông tin về chiếc xe mang biển số một cách nhanh chóng Qua... bộ phân đoạn ảnh là một ảnh văn bản cần nhận dạng Đầu ra sẽ là chuỗi vector tương ứng với các kí tự trong văn bản Các vector này lần lượt được đưa vào bộ nhận dạng để nhận dạng kí tự Bộ nhận dạng sẽ so sánh đánh giá với kí tự mẫu để đưa ra kí tự giống nhất Tiếp tục chương 4 sẽ giúp tìm hiểu về thuật toán nhận dạng kí tự 33 Chương 4 Chương 4: BỘ NHẬN DẠNG KÍ TỰ 4.1 Giới thiệu chương Chương này nhằm... đưa vào tách kí tự 3.5 Tách kí tự Tách kí tự là giai đoạn quan đoạn quan trọng, việc tách kí tự chính xác sẽ là bước thuận lợi để nhận dạng kí tự và truy xuất văn bản 3.5.1 Ý tưởng Để tách kí tự ta cũng sẽ dựa vào các khoảng trắng giữa các kí tự Với kí tự viết tay và một số từ thì việc tách kí tự gặp khó khăn đối với ý tưởng này Tuy nhiên đồ án chỉ dừng lại đối với kí tự in hoa tiếng việt thì thuật... thiệu thuật toán nhận dạng cho bộ nhận dạng kí tự Nội dung chương gồm các phần chính sau: - Không gian màu RGB - Cơ bản về xử lý ảnh - Cơ sở lý thuyết cho phân đoạn ảnh - Phương pháp nhận dạng kí tự - Cơ sở lý thuyết của Kĩ thuật PCA 2.2 Không gian màu RGB Đầu vào của hệ thống nhận dạng là một ảnh RGB, do được scan hoặc chụp từ văn bản cần nhận dạng Nhưng phân đoạn ảnh và nhận dạng kí tự thì thực hiện... về cơ sở lý thuyết và các kĩ thuật trong nhận dạng kí tự chúng ta sẽ lần lượt đi vào các chương sau: Chương 2: Cơ sở lý thuyết cho phân đoạn ảnh và thuật toán nhận dạng kí tự Chương 3: Phân đoạn ảnh cho nhận dạng kí tự Chương 4: Bộ nhận dạng kí tự Chương 5: Thực nghiệm 12 Chương 2 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT CHO PHÂN ĐOẠN ẢNH VÀ THUẬT TOÁN NHẬN DẠNG KÍ TỰ 2.1 Giới thiệu chương Trong chương này,... cũng thấy rằng để xây dựng được hệ thống nhận dạng thì có hai công đoạn quan trọng nhất: Phân đoạn ảnh và Xây dựng bộ nhận dạng kí tự Trong đồ án này tôi đi vào nghiên cứu bộ nhận dạng kí tự và một số khâu trong bộ phân đoạn ảnh 1.2 Nội dung nghiên cứu của đồ án Bài toán thực hiện trong đồ án này là bài toán nhận dạng chữ in tiếng Việt ứng dụng trong quá trình tự động hóa các công việc văn phòng Bài... kí tự tới vector Vị trí chứa min(S) tương ứng với vị trí kí tự nhận dạng được trong tập huấn luyện toántìm đầubức ra ảnh trong tập huấn luyện giống với bức ảnh H Vậy là ta đãTính có thể hay xác định đó có phải là bức ảnh kí tự hay không Tuy nhiên ảnh H phải có cùng tự huấn luyện kích thước vớiChuyển những từ bứcSTT ảnhsang trongkítập 4.3 Các bước để nhận dạng văn bản kí tự Các bước để nhận dạng kí tự: