Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
1,59 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊNCỨUVỀNHẬNDẠNGCHỮINTIẾNGVIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊNCỨUVỀNHẬNDẠNGCHỮINTIẾNGVIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2009 Nghiêncứunhậndạngchữintiếngviệt Bùi Thế Hân i Lời cảm ơn Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Anh Cường, người đã không chỉ hướng dẫn em tận tình trong suốt năm học và thời gian làm luận văn. Mà còn là người đã khơi dậy trong em lòng yêu nghề, yêu Công Nghệ Thông Tin. Đồng thời Thầy cũng là người giúp em nhìn thấy con đường đi của riêng mình. Một lần nữa xin được nói lời cảm ơn với Thầy. Em xin bày tỏ lòng biết ơn tới các thầy, cô giáo trong Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN. Các thầy cô đã dạy bảo, chỉ dẫn chúng em và luôn tạo điều kiện tốt nhất cho chúng em học tập trong suốt quá trình học đại học đặc biệt là trong thời gian làm khoá luận tốt nghiệp. Tôi xin cảm ơn các bạn sinh viên lớp K50CB trường Đại học Công nghệ và các bạn trong lớp KHMT, đã giúp đỡ tôi trong suốt quá trình học tập. Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm yêu thương. Hà Nội, ngày 22 tháng 5 năm 2009 Bùi Thế Hân Nghiêncứunhậndạngchữintiếngviệt Bùi Thế Hân ii Tóm tắt Nhậndạngchữin nói chung và nhậndạngchữintiếngViệt nói riêng đã và đang là những bài toán thu hút nhiều sự quan tâm và nghiên cứu. Bài toán nhậndạngchữintiếngViệt gồm ba công đoạn chủ yếu: Phân đoạn ảnh, nhậndạng kí tự và hậu xử lý. Trong luận văn này tôi tập trung chủ yếu vào giai đoạn Phân đoạn ảnh, nhằm đưa ra những cải tiến để đẩy nhanh tốc độ xử lý. Đồng thời chúng tôi cũng sử dụng môdul nhậndạng để xây dựng thành một hệ thống hoàn chỉnh. Với bài toán nhậndạngchữtiếngViệt có sự khó khăn do hệ thống dấu tiếngViệt làm số kí tự cần nhậndạng tăng lên rất nhiều, đồng thời làm tăng khả năng giao nhau giữa các dòng, các ký tự. Để giải quyết vấn đề đó, trong khóa luận này chúng tôi sử dụng phương pháp tách dòng dựa vào khoảng trắng, thành phần liên thông. Trong phần thực nghiệm của luận văn, chúng tôi cũng thực nghiệm các văn bản với nhiều cỡ chữ và font chữ khác nhau. Kết quả của việc phân đoạn ảnh và nhậndạng là tương đối tốt, có thể chấp nhận được. Từ khóa: Xác định góc nghiêng văn bản, Tách dòng văn bản, Thành phần liên thông, Biểu đồ Histogram, Mạng Neural, Nhậndạng kí tự quang học, trích trọn đặc trưng. Nghiêncứunhậndạngchữintiếngviệt Bùi Thế Hân iii MỤC LỤC Chương 1 Giới thiệu 1 1.1 Đặt vấn đề 1 1.2 Nội dung nghiêncứu của khóa luận 3 1.3 Cấu trúc khóa luận 3 Chương 2 Cơ sở lý thuyết cho phân đoạn ảnh 5 2.1 Khái niệm ảnh số 5 2.2 Nhị phân hóa 6 2.3 Biểu đồ sắc thái của hình ảnh (Histogram) 8 2.4 Thành phần liên thông 8 2.4.1 Khái niệm điểm lân cận 9 2.4.2 Thành phần liên thông: Liên thông bốn và liên thông tám 9 Chương 3 Phân đoạn ảnh cho nhậndạng văn bản 11 3.1 Tiền xử lý ảnh 11 3.1.1 Nhị phân hóa 11 3.1.2 Lọc nhiễu 11 3.1.3 Xoay lại ảnh 12 3.2 Tách đoạn 14 3.3 Tách dòng 14 3.3.1 Tách dòng dựa vào các đường kẻ ngang 14 3.3.2 Tách dòng dựa vào thành phần liên thông 15 3.3.3 Tách dòng dựa vào khoảng trắng giữa các dòng 16 3.4 Tách từ 17 3.4 Tách ký tự 18 Chương 4 Trích chọn đặc trưng 20 4.1 Khái niệm cơ bản 20 4.1.1 Đặc trưng ảnh – Image Features 20 4.1.2 Trích chọn đặc trưng – Feature Extraction 20 4.2 Vai trò của trích chọn đặc trưng 20 4.3 Một số phương pháp trích chọn đặc trưng 21 4.3.1 Phương pháp trích chọn đặc trưng GSC 21 Nghiêncứunhậndạngchữintiếngviệt Bùi Thế Hân iv 4.3.1 Trích chọn đặc trưng theo hướng hình học 22 4.3.2 Trích chọn đặc trưng theo cấu trúc 25 4.3.3 Trích chọn đặc trưng theo tính lồi lõm 27 Chương 5: Phân lớp và mô hình học máy 30 5.1 Cấu trúc hoạt động của mạng neuron 30 5.1.1 Cấu trúc và hoạt động của một neuron 30 5.1.2 Cấu trúc và hoạt động của mạng neuron 31 5.1.3 Hàm truyền 33 5.2 Quá trình huấn luyện mạng và các thuật toán học mạng 34 5.2.1 Mạng neuron và bài toán phân loại mẫu 34 5.2.2 Đặc trưng của mạng neuron 34 5.2.3 Các phương pháp huấn luyện mạng 34 5.2.4 Mạng lan truyền ngược nhiều tầng (Back-propagation Neural Network) 35 5.3 Ứng dụng mô hình nhậndạng cho tiếngViệt 38 5.3.1 Khó khăn và giải pháp đề xuất cho nhậndạng kí tự 38 5.3.2 Phân nhóm kí tự 40 Chương 6 Thực nghiệm 42 6.1 Môi trường thực nghiệm 42 6.2 Thực nghiệm về phân đoạn ảnh 42 6.2.1 Tách dòng 42 6.2.3 Tách từ 43 6.2.4 Tách ký tự 43 6.2.5 Thực nghiệm nhậndạng 44 Chương 7: Kết Luận 45 Nghiêncứunhậndạngchữintiếngviệt Bùi Thế Hân v Danh mục hình vẽ Hình 1.1 Sơ đồ hệ nhậndạng văn bản tiếng Việt. 2 Hình 2.1 Ví dụ về quá trình lấy mẫu 5 Hình 2.2: Ví dụ chuyển ảnh đa mức xám sang ảnh nhị phân 6 Hình 2.3 ví dụ về chuyển ảnh nhị phân 7 Hình 2.4 Minh họa biểu đồ Histogram ngang. 8 Hình 2.5a: Ví dụ lân cận bốn 9 Hình 2.5b: Ví dụ lân cận tám 9 Hình 2.6: Hai ví dụ về thành phần liên thông 4-connected 9 Hình 2.7: Hai ví dụ về thành phần liên thông 8 10 Hình 3.1 Ví dụ về nhiễu đốm 11 Hình 3.2 Ảnh sau khi áp dụng lọc trung vị. 12 Hình 3.3: Histogram của một văn bản không nghiêng. 13 Hình 3.4: Histogram của văn bản nghiêng 13 Hình 3.5 Ví dụ minh họa cắt đoạn 14 Hình 3.6: Các đường đặc trưng của một dòng văn bản 15 Hình 3.7: Biểu đồ phân cách của ngưỡng. 18 Hình 3.8: Các vị trí chính xác, vị trí cắt nhập nhằng. 19 Hình 5.1: Mố hình phi tuyến của một neuron 31 Hình 5.3 Mạng neuron hai lớp 36 Hình 5-4 : Hình ảnh kí tự được chia làm 3 phần. 40 Hinh 5-5:ảnh gốc 40 Hình 5-6: Ảnh cắt 41 Nghiêncứunhậndạngchữintiếngviệt Bùi Thế Hân vi Hình 6.1: Minh họa tách dòng văn bản 42 Hình 6.2: Minh họa cắt từ. 43 Nghiêncứunhậndạngchữintiếngviệt Bùi Thế Hân vii Danh mục bảng biểu Bảng 4.1 Các luật về đặc trưng theo cấu trúc của điểm ảnh 25 Bảng 5-1. Một số hàm truyền 33 Bản 6.1 Kết quả thực nghiệm tách từ 43 Bảng 6.2 Kết quả thực nghiệm tách từ 43 Bảng 6.3 Kết quả thực nghiệm tách từ 44 Chương I: Giới thiệu Bùi Thế Hân 1 Chương 1 Giới thiệu 1.1 Đặt vấn đề Nhậndạng kí tự quang học (OCR – Optical Character Recognition) là một bài toán chuyển các hình ảnh của chữviết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. Do bài toán vẫn còn nhiều vấn đề chưa được giải quyết một cách triệt để, như vấn đề về tốc độ xử lý, độ chính xác của tách từ, hay độ chính xác của nhận dạng. Và vì vậy vẫn nhận được nhiều sự quan tâm nghiên cứu, đặc biệt cho tiếng Việt. Nhậndạng văn bản được áp dụng trong quá trình tự động hoá các công việc văn phòng như nhập liệu, lưu trữ văn bản, sách báo, phân loại thư tín, …, những công việc đòi hỏi nhiều thời gian của con người. Hiện nay cũng có rất nhiều bài báo đề cập đến bài toán nhậndạng kí tự quang học, nhằm cải tiến các phương pháp phân đoạn ảnh, nhận dạng. Song vẫn chưa giải quyết một cách triệt để những vấn đề khó khăn của bài toán thường gặp phải. Đặc biệt là đối với việc nhậndạng các kí tự tiếng Việt, gặp rất nhiều khó khăn, do tính riêng biệt của tiếng Việt: Số kí tự nhiều, các kí tự lại có dấu…Nên bài toán vẫn còn thu hút được sự quan tâm, nghiêncứu nhằm giải quyết những vấn đề khó khăn của bài toán một cách triệt để. Một số hệ nhậnnhậndạng văn bản đã và đang được áp dụng rất nhiều vào ứng dụng như FineReader của hãng AABBYY, OmmiPage của hãng Scansoft được dùng để nhậndạng các văn bản tiếng Anh,… VNDOCR của Viện công nghệ thông tin cho các văn bản tiếng Việt. Bài toán nhậndạng văn bản được thực hiện qua ba giai đoạn chính: Phân đoạn ảnh, nhậndạng từ và hậu xử lý. Trong luận văn này chúng tôi đi sâu vào nghiêncứu cải tiến công đoạn phân đoạn ảnh. Bên cạnh đó kết hợp với mô đun nhậndạng [3] để xây dựng thành một hệ thống nhậndạng văn bản hoàn thiện. Bài toán mà chúng tôi đangnghiêncứu được thực hiện qua các giai đoạn như mô tả trong hình I.1.1. [...]... nghiêncứu của khóa luận Bài toán thực hiện trong khóa luận này là bài toán nhậndạngchữintiếngViệt ứng dụng trong quá trình tự động hóa các công việc văn phòng Bài toán này gồm 3 công đoạn chủ yếu Nhưng trong khoá luận này tập trung chủ yếu vào việc nghiên cứu cải tiến ứng dụng phân đoạn ảnh vào nhậndạng văn bản tiếng Việt: giải pháp và các thực nghiệm Đồng thời cũng nghiên cứu lý thuyết cơ bản về. .. thiệu Bùi Thế Hân Văn bản sau khi scan Bộ phân đoạn ảnh Bộ nhậndạng Bộ hậu xử lý Văn bản được nhậndạng Hình 1.1 Sơ đồ hệ nhậndạng văn bản tiếngViệt Đầu vào của hệ thống nhậndạng của chúng ta là một hình ảnh scan từ một văn bản tiếngViệt Đầu ra là một bản đã được nhận dạng, văn bản này có thể chỉnh sửa Để xử lý được điều này hệ thống nhậndạng của chúng ta sẽ trải qua giai đoạn sau đây: 1 Phân đoạn... khác, cũng như của toàn bộ hệ thống Chúng tôi nghiên cứu đánh giá một số phương pháp được sử dụng để thực hiện các nội dung đó, và áp dụng nó vào bài toán nhậndạng văn bản chữintiếngViệt Trong giai đoạn nhậndang kí tự, trong luận văn này chúng tôi đề xuất sử dụng mô hình mạng neuron cho việc nhậndạng 1.3 Cấu trúc khóa luận Các phần còn lại của khóa luận có cấu trúc như sau: Chương 2 trình bày... thống nhậndạng thì có hai công đoạn quan trọng nhất: Phân đoạn ảnh và Xây dựng bộ nhận 2 Chương I: Giới thiệu Bùi Thế Hân dạng kí tự Trong luận văn này chúng tôi đi vào nghiên cứu và cải tiến các phương pháp nhằm nâng cao chất lượng của giai đoạn phân đoạn ảnh Đồng thời chúng tôi cũng sử dụng lại các bộ nhậndạng kí tự có sẵn, để xây dựng lên một hệ thống nhậndạng văn bản hoàn chỉnh 1.2 Nội dung nghiên. .. dòng, tách từ, tách kí tự 2 Bộ nhậndạng kí tự: Đầu vào của giai đoạn này là ảnh của một kí tự, đầu ra là kí tự nhậndạng được Thông thường trong phần này sử dụng một thuật toán học máy hoặc một bộ đối sánh mẫu 3 Bộ hậu xử lý: Tổng hợp các kí tự nhậndạng được và hiển thị lên cho người dùng Đồng thời trong phần này có nhiều nghiên cứu và hệ thống đưa nhiệm vụ điều chỉnh nhậndạng sai dùng từ điển hoặc... Chương 3: Phân đoạn ảnh cho nhậndạng văn bản Bùi Thế Hân Ta nhận thấy, với mỗi dòng văn bản chúng ta có thể chia làm 3 vùng dựa vào bốn đường cơ bản là : Top_Line, Bottom_Line, X_Line, Base_Line Hình 3.6: Các đường đặc trưng của một dòng văn bản Bước 1:Ý tưởng chính của phương pháp này là dựa trên nhận xét các điểm đen tập trung chủ yếu trong khoảng đường Base_line và X_Line Các đường này thì có số... Phương pháp này tỏ ra rất hiệu quả với loại bài toán nhậndạng khi số mẫu đầu vào là đa dạng do vậy rất phù hợp khi áp dụng vào bài toán nhậndạngchữtiếngViệt Dựa trên sự kết hợp giữa phương pháp trích chọn đặc trưng GSC và thuật toán nhậndạng là mạng Neural Nhóm tác giả trên đã xây dựng thực tế hệ thống chuyên nhậndạng các địa chỉ thư ở bưu điện ở Mỹ và cho kết quả khá khả quan 97% 4.3.1 Trích chọn... base-line đến x-line, số điểm đen trên mỗi đường vẫn nhỏ hơn giá trị trung bình Có thể khắc phục lỗi này bằng cách gọi đệ qui với các vùng chứa các dòng ngắn Phương pháp cũng sẽ gây lỗi nếu gặp dòng toàn chữin hoa (không tồn tại 4 đường đặc trưng như trên), và khó áp dụng đối với văn bản tiếngviệt vì tiếngviệt có thêm các dấu nên nhiều trường hợp giá trị x-line tìm được lại chính là top line, kết quả... các phương pháp trích chọn đặc trưng cho tiếngViệt Chương 5: Trình các mô hình học máy và ứng dụng các mô này vào nhậndạngtiếngViệt Chương 6: trình bày về các kết quả thực nghiệm của quá trình thu thập cơ sở dữ liệu, trong quá trình phân đoạn ảnh và kết quả thực nghiệm của hệ thống nhậndạng sau khi đã ghép nối các thành phần lại với nhau Chương 7: Kết luận 4 Chương 2:Cơ sở lý thuyết cho phân đoạn... cho nhậndạng văn bản 3.1 Tiền xử lý ảnh Đầu vào của quá trình xử lý ảnh là các ảnh gốc ban đầu, thu được qua scanner Do cách ảnh ban đầu thường có chất lượng thấp do ảnh hưởng của nhiễu, do bị nghiêng, có thể bị đứt nét nên để tăng chất lượng nhậndạng ta cần phải có một quá trình tiền xử lý ảnh để nâng cao chất lượng ảnh đầu vào trước khi đưa vào nhậndạng 3.1.1 Nhị phân hóa Đầu vào ban đầu của hệ nhận . ngày 22 tháng 5 năm 2009 Bùi Thế Hân Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân ii Tóm tắt Nhận dạng chữ in nói chung và nhận dạng chữ in tiếng Việt nói riêng đã và đang là những bài. nghiệm nhận dạng 44 Chương 7: Kết Luận 45 Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân v Danh mục hình vẽ Hình 1.1 Sơ đồ hệ nhận dạng văn bản tiếng Việt. 2 Hình 2.1 Ví dụ về quá. Hinh 5-5:ảnh gốc 40 Hình 5-6: Ảnh cắt 41 Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân vi Hình 6.1: Minh họa tách dòng văn bản 42 Hình 6.2: Minh họa cắt từ. 43 Nghiên cứu nhận dạng