Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
1,6 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: TS Lê Anh Cường HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Lời cảm ơn Lời em xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Anh Cường, người không hướng dẫn em tận tình suốt năm học thời gian làm luận văn Mà người khơi dậy em lịng u nghề, u Cơng Nghệ Thông Tin Đồng thời Thầy người giúp em nhìn thấy đường riêng Một lần xin nói lời cảm ơn với Thầy Em xin bày tỏ lòng biết ơn tới thầy, cô giáo Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN Các thầy cô dạy bảo, dẫn chúng em tạo điều kiện tốt cho chúng em học tập suốt trình học đại học đặc biệt thời gian làm khố luận tốt nghiệp Tơi xin cảm ơn bạn sinh viên lớp K50CB trường Đại học Công nghệ bạn lớp KHMT, giúp đỡ tơi suốt q trình học tập Cuối xin gửi tới bố mẹ tồn thể gia đình lịng biết ơn tình cảm u thương Hà Nội, ngày 22 tháng năm 2009 Bùi Thế Hân i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Tóm tắt Nhận dạng chữ in nói chung nhận dạng chữ in tiếng Việt nói riêng toán thu hút nhiều quan tâm nghiên cứu Bài toán nhận dạng chữ in tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạn ảnh, nhận dạng kí tự hậu xử lý Trong luận văn tập trung chủ yếu vào giai đoạn Phân đoạn ảnh, nhằm đưa cải tiến để đẩy nhanh tốc độ xử lý Đồng thời sử dụng môdul nhận dạng để xây dựng thành hệ thống hồn chỉnh Với tốn nhận dạng chữ tiếng Việt có khó khăn hệ thống dấu tiếng Việt làm số kí tự cần nhận dạng tăng lên nhiều, đồng thời làm tăng khả giao dòng, ký tự Để giải vấn đề đó, khóa luận chúng tơi sử dụng phương pháp tách dòng dựa vào khoảng trắng, thành phần liên thông Trong phần thực nghiệm luận văn, thực nghiệm văn với nhiều cỡ chữ font chữ khác Kết việc phân đoạn ảnh nhận dạng tương đối tốt, chấp nhận Từ khóa: Xác định góc nghiêng văn bản, Tách dịng văn bản, Thành phần liên thơng, Biểu đồ Histogram, Mạng Neural, Nhận dạng kí tự quang học, trích trọn đặc trưng ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân MỤC LỤC Chương Giới thiệu 1.1 Đặt vấn đề .1 1.2 Nội dung nghiên cứu khóa luận 1.3 Cấu trúc khóa luận Chương Cơ sở lý thuyết cho phân đoạn ảnh 2.1 Khái niệm ảnh số 2.2 Nhị phân hóa 2.3 Biểu đồ sắc thái hình ảnh (Histogram) 2.4 Thành phần liên thông 2.4.1 Khái niệm điểm lân cận .9 2.4.2 Thành phần liên thông: Liên thông bốn liên thông tám Chương Phân đoạn ảnh cho nhận dạng văn 11 3.1 Tiền xử lý ảnh 11 3.1.1 Nhị phân hóa 11 3.1.2 Lọc nhiễu 11 3.1.3 Xoay lại ảnh 12 3.2 Tách đoạn .14 3.3 Tách dòng 14 3.3.1 Tách dòng dựa vào đường kẻ ngang 14 3.3.2 Tách dịng dựa vào thành phần liên thơng 15 3.3.3 Tách dòng dựa vào khoảng trắng dòng .16 3.4 Tách từ 17 3.4 Tách ký tự 18 Chương Trích chọn đặc trưng 20 4.1 Khái niệm 20 4.1.1 Đặc trưng ảnh – Image Features .20 4.1.2 Trích chọn đặc trưng – Feature Extraction .20 4.2 Vai trị trích chọn đặc trưng 20 4.3 Một số phương pháp trích chọn đặc trưng .21 4.3.1 Phương pháp trích chọn đặc trưng GSC 21 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân 4.3.1 Trích chọn đặc trưng theo hướng hình học .22 4.3.2 Trích chọn đặc trưng theo cấu trúc 25 4.3.3 Trích chọn đặc trưng theo tính lồi lõm .27 Chương 5: Phân lớp mơ hình học máy 30 5.1 Cấu trúc hoạt động mạng neuron 30 5.1.1 Cấu trúc hoạt động neuron .30 5.1.2 Cấu trúc hoạt động mạng neuron 31 5.1.3 Hàm truyền 33 5.2 Quá trình huấn luyện mạng thuật tốn học mạng 34 5.2.1 Mạng neuron toán phân loại mẫu 34 5.2.2 Đặc trưng mạng neuron .34 5.2.3 Các phương pháp huấn luyện mạng 34 5.2.4 Mạng lan truyền ngược nhiều tầng (Back-propagation Neural Network) .35 5.3 Ứng dụng mô hình nhận dạng cho tiếng Việt 38 5.3.1 Khó khăn giải pháp đề xuất cho nhận dạng kí tự 38 5.3.2 Phân nhóm kí tự 40 Chương Thực nghiệm 42 6.1 Môi trường thực nghiệm .42 6.2 Thực nghiệm phân đoạn ảnh 42 6.2.1 Tách dòng 42 6.2.3 Tách từ 43 6.2.4 Tách ký tự .43 6.2.5 Thực nghiệm nhận dạng 44 Chương 7: Kết Luận 45 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Danh mục hình vẽ Hình 1.1 Sơ đồ hệ nhận dạng văn tiếng Việt Hình 2.1 Ví dụ q trình lấy mẫu Hình 2.2: Ví dụ chuyển ảnh đa mức xám sang ảnh nhị phân .6 Hình 2.3 ví dụ chuyển ảnh nhị phân .7 Hình 2.4 Minh họa biểu đồ Histogram ngang Hình 2.5a: Ví dụ lân cận bốn Hình 2.5b: Ví dụ lân cận tám Hình 2.6: Hai ví dụ thành phần liên thơng 4-connected Hình 2.7: Hai ví dụ thành phần liên thông .10 Hình 3.1 Ví dụ nhiễu đốm 11 Hình 3.2 Ảnh sau áp dụng lọc trung vị 12 Hình 3.3: Histogram văn không nghiêng 13 Hình 3.4: Histogram văn nghiêng 13 Hình 3.5 Ví dụ minh họa cắt đoạn 14 Hình 3.6: Các đường đặc trưng dòng văn 15 Hình 3.7: Biểu đồ phân cách ngưỡng 18 Hình 3.8: Các vị trí xác, vị trí cắt nhập nhằng 19 Hình 5.1: Mố hình phi tuyến neuron 31 Hình 5.3 Mạng neuron hai lớp 36 Hình 5-4 : Hình ảnh kí tự chia làm phần 40 Hinh 5-5:ảnh gốc .40 Hình 5-6: Ảnh cắt 41 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Hình 6.1: Minh họa tách dòng văn 42 Hình 6.2: Minh họa cắt từ 43 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Danh mục bảng biểu Bảng 4.1 Các luật đặc trưng theo cấu trúc điểm ảnh .25 Bảng 5-1 Một số hàm truyền 33 Bản 6.1 Kết thực nghiệm tách từ 43 Bảng 6.2 Kết thực nghiệm tách từ 43 Bảng 6.3 Kết thực nghiệm tách từ 44 vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương I: Giới thiệu Bùi Thế Hân Chương Giới thiệu 1.1 Đặt vấn đề Nhận dạng kí tự quang học (OCR – Optical Character Recognition) tốn chuyển hình ảnh chữ viết tay chữ đánh máy (thường quét máy scanner) thành văn tài liệu Do tốn cịn nhiều vấn đề chưa giải cách triệt để, vấn đề tốc độ xử lý, độ xác tách từ, hay độ xác nhận dạng Và nhận nhiều quan tâm nghiên cứu, đặc biệt cho tiếng Việt Nhận dạng văn áp dụng q trình tự động hố cơng việc văn phòng nhập liệu, lưu trữ văn bản, sách báo, phân loại thư tín, …, cơng việc đòi hỏi nhiều thời gian người Hiện có nhiều báo đề cập đến tốn nhận dạng kí tự quang học, nhằm cải tiến phương pháp phân đoạn ảnh, nhận dạng Song chưa giải cách triệt để vấn đề khó khăn tốn thường gặp phải Đặc biệt việc nhận dạng kí tự tiếng Việt, gặp nhiều khó khăn, tính riêng biệt tiếng Việt: Số kí tự nhiều, kí tự lại có dấu…Nên tốn cịn thu hút quan tâm, nghiên cứu nhằm giải vấn đề khó khăn tốn cách triệt để Một số hệ nhận nhận dạng văn áp dụng nhiều vào ứng dụng FineReader hãng AABBYY, OmmiPage hãng Scansoft dùng để nhận dạng văn tiếng Anh,… VNDOCR Viện công nghệ thông tin cho văn tiếng Việt Bài toán nhận dạng văn thực qua ba giai đoạn chính: Phân đoạn ảnh, nhận dạng từ hậu xử lý Trong luận văn sâu vào nghiên cứu cải tiến công đoạn phân đoạn ảnh Bên cạnh kết hợp với mơ đun nhận dạng [3] để xây dựng thành hệ thống nhận dạng văn hồn thiện Bài tốn mà nghiên cứu thực qua giai đoạn mơ tả hình I.1.1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 5:Phân lớp mơ hình học máy Bùi Thế Hân Hình 5-3 Cấu trúc chung mạng neuron Các nút lớp khuất lớp chủ động Nghĩa chúng thay đổi liệu Hình III.2.1 Các biến : X11,X12…X115 giữ giá trị để đánh giá Lấy ví dụ, chúng giá trị pixel từ ảnh, mẫu từ tín hiêụ audio, giá thị trường chứng khốn Chúng thuật toán khác giống phân loại xác định ung thư, bán kính, độ sáng, góc cạnh Mỗi giá trị lớp vào nhân đôi gửi cho tất nút khuất Nó gọi cấu trúc kết nối liền Như hình III.2.1 giá trị đưa vào nút khuất nhân với weight, số định trước chương trình.Các giá trị vào qua weight sau cộng vào để tạo số đơn Chúng hình biểu tượng ∑ Trước rời khỏi nút, số qua hàm toán học phi tuyến sigmoid Nó đường cong hình chữ "s" giới hạn ngõ nút Đầu vào cho sigmoid giá trị -∞ +∞, giá trị 1.Giá trị 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 5:Phân lớp mơ hình học máy Bùi Thế Hân từ lớp khuất tái biểu đồ luồng (III.2-1) biến :X21,X22,X23 X24 Vừa truớc đó, giá trị nhân đôi đặt vào lớp Các nút chủ động lớp kết hợp chỉnh sửa liệu để tạo giá trị mạng X31 X32 Mạng neuron có số lớp bất kỳ, số nút lớp Hầu hết ứng dụng sử dụng cấu trúc lớp với tối đa vài trăm nút Lớp khuất thường có cỡ khoảng 10% lớp vào Trong ứng dụng xác định mục tiêu, lớp thường cần nút Ngõ nút thường có ngưỡng để đưa số dương hay âm có mặt hay vắng mặt mục tiêu liệu truyền vào 5.1.3 Hàm truyền Có nhiều hàm truyền dùng mạng neuron Việc lựa chọn hàm truyền phù hợp với toán thường tiến hành qua thực nghiệm Trong bảng đây, dùng công thức y = f(x) để biểu diễn hàm truyền Bảng 5-2 Một số hàm truyền Tên hàm truyền Đồ thị Miền giá trị với x