Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản

56 2.2K 3
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Ngày nay, công nghệ thông tin đang trên đà phát triển, thế giới đang phát triển mạnh mẽ với xu hướng toàn cầu hóa công nghệ thông tin, theo đó có rất nhiều ứng dụng tin học hiện đại được ra đời trong rất nhiều lĩnh vực: giáo dục, giải trí, kinh tế, y tế… Tin học được áp dụng rộng rãi trong đời sống. Tổng quan về xử lý ảnh và các phương pháp tiền xử lý ảnh Tìm hiểu các phương pháp tách ảnh ký tự từ ảnh văn bản Tìm hiểu ngôn ngữ lập trình matlab Xây dựng chương trình tách ảnh ký tự từ ảnh văn bản

Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản MỤC LỤC 1 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản DANH SÁCH CÁC HÌNH VẼ 2 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản DANH SÁCH CÁC BẢNG BIỂU 3 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản DANH SÁCH CÁC TỪ VIẾT TẮT STT TỪ VIẾT TẮT TỪ HOÀN CHỈNH 1 ĐH Đại học 2 CĐ Cao đẳng 3 CNTT Công nghệ thông tin 4 XLA Xử lý ảnh 4 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1. Lý do chọn đề tài Ngày nay, công nghệ thông tin đang trên đà phát triển, thế giới đang phát triển mạnh mẽ với xu hướng toàn cầu hóa công nghệ thông tin, theo đó có rất nhiều ứng dụng tin học hiện đại được ra đời trong rất nhiều lĩnh vực: giáo dục, giải trí, kinh tế, y tế… Tin học được áp dụng rộng rãi trong đời sống. Với những người dùng máy tính thường phải làm việc với hàng chồng tài liệu dưới dạng giấy hoặc file PDF, đôi khi cần chuyển toàn bộ nội dung của một quyển sách trên giấy hoặc một bài báo trên giấy in vào máy tính dưới dạng file word với đầy đủ nội dung và hình ảnh như trên giấy. Cách làm thế nào? Thông thường thì mọi người phải gõ lại từng trang giấy đó và như vậy đây quả là công việc rất mất thời gian. Nếu scan tất cả các trang sách vào máy tính dưới dạng file hình ảnh thì cũng rất bất tiện và không thể chỉnh sửa thêm bớt, copy được nội dung trong bài viết đó sang file word hoặc dạng soạn thảo khác. Xuất phát từ nhu cầu thực tế đó, các nhà nghiên cứu đã tìm ra một giải pháp chực kỳ thuận tiện là chụp lại hoặc scan tất cả những tài liệu đó rồi chuyển từ dạng ảnh sang văn bản bằng quá trình nhận dạng chữ. Hiện nay trên thị trường công nghệ đã có một số sản phẩm phầm mềm nhận dạng rất tốt như: - VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau nhưng phải có điều kiện là văn bản thuần - FineReader hỗ trợ nhận dạng 179 ngôn ngữ (nhưng rất tiếc chưa có ngôn ngữ tiếng Việt); - Phần mềm ABBYY là phần mềm xuất hiện sau các sản phẩm trên thị trường và dù mới chỉ là thế hệ sản phẩm đầu tiên hỗ trợ tiếng Việt đang được đánh giá là giải pháp nhận dạng tiếng Việt chính xác và toàn diện tại Trung tâm Thông tin - thư viện Đại học Quốc Gia Hà Nội. 5 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Tuy nhiên để có được một chương trình nhận dạng thuần Việt và đạt được kết quả tốt nhất cần phải trải qua nhiều quá trình nghiên cứu và cải thiện. Trong đó bước đầu và quan trọng nhất là xử lý ảnh đầu vào. Xuất phát từ những lý do trên tôi đã quyết định lựa chọn đề tài “Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản” làm đồ án tốt nghiệp của mình. 1.2. Mục tiêu của đề tài Mục tiêu của đề tài là: - Tổng quan về xử lý ảnh và các phương pháp tiền xử lý ảnh - Tìm hiểu các phương pháp tách ảnh ký tự từ ảnh văn bản - Tìm hiểu ngôn ngữ lập trình matlab - Xây dựng chương trình tách ảnh ký tự từ ảnh văn bản 1.3. Giới hạn và phạm vi của đề tài Đề tài nghiên cứu tổng quan về ảnh số, ảnh tài liệu, trong đó có ảnh văn bản; về các phương pháp, kỹ thuật, quá trình xử lý ảnh văn bản. Nghiên ứu tổng quan về công cụ lập trình matlab. Đây là công cụ được phát triển từ C++ ứng dụng rộng rãi và thuận lợi cho việc xử lý ảnh, tự động hóa. Đề tài xây dựng chương trình xử lý ảnh văn bản bằng công cụ lập trình matlab nhằm phục vụ cho bài toán lớn là nhận dạng chữ. 1.4. Nội dung thực hiện của đề tài Hiện tại trên thị trường có nhiều phần mềm nhận dạng chữ, tiêu biểu trong đó có ABBYY, tuy nhiên các phần mềm đó vẫn còn tồn tại một số mặt hạn chế như: chưa nhận dạng được chính xác một số văn bản có cấu trúc phức tạp, chưa khắc phục được những ảnh văn bản có kèm theo nhiễu xuất hiện trong quá trình scan, chụp hoặc do nhiều lý do khách quan khác. Nhận dạng là một bài toán lớn, khó mang tầm nghiên cứu quốc tế, đòi hỏi rất nhiều thời gian và công sức, vì vậy tác giả đề xuất thực hiện 6 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản nghiên cứu lý thuyết và xây dựng bước đầu quan trọng của quá trình nhận dạng chữ: Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản. Nội dung thực hiện/nghiên cứu cụ thể như sau: - Nghiên cứu tổng quan về xử lý ảnh và bài toán xử lý ảnh văn bản. - Nghiên cứu quá trình xử lý ảnh văn bản. - Khảo sát một số hệ thống xử lý ảnh văn bản hiện có trên thị trường. - Xây dựng chương trình tách ảnh ký tự từ ảnh văn bản bằng matlab. - Thử nghiệm chương trình và đưa ra kết quả thử nghiệm. - Kiểm thử chương trình. 1.5. Phương pháp tiếp cận - Cách tiếp cận: Tìm hiểu các chương trình nhận dạng chữ hiện có trên thị trường. - Sử dụng phương pháp nghiên cứu: o Phương pháp đọc tài liệu; o Phương pháp phân tích mẫu; o Phương pháp thực nghiệm. 7 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1. Tổng quan về xử lý ảnh và bài toán xử lý ảnh văn bản 2.1.1. Khái niệm ảnh số Ảnh số được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ - được coi là những thành tố của bức ảnh và thường được biết đến dưới tên gọi pixels. Máy tính hay máy in sử dụng những ô vuông nhỏ này để hiển thị hay in ra bức ảnh. Để làm được điểu đó máy tính hay máy in chia màn hình, trang giấy thành một mạng lưới chứa cấc ô vuông, sau đó sử dụng các giá trị chứa trong file ảnh để quyết định màu sắc, độ sáng tối củ từng pixel trong mạng lưới đó - ảnh số được hình thành. Việc kiểm soát, định ra địa chỉ theo mạng như trên được gọi là bit mapping và ảnh số được gọi là bit – maps. Hình 2- 1: Ví dụ về quá trình lấy mẫu 8 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Một bức ảnh số hóa a[m, n] gồm m hàng và n cột, phần giao giữa một hàng và một cột được gọi là điểm ảnh (Pixel). Giá trị mỗi điểm ảnh được gán cho một số nguyên biễu diễn màu sắc tại điểm ảnh đó. Như vậy, ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật. 2.1.2. Ảnh nhị phân Ảnh nhị phân là ảnh số mà trong đó giá trị mỗi điểm ảnh có thể nhận một trong hai giá trị 0 hoặc 1. Quá trình phân đoạn ảnh yêu cầu đầu vào phải là ảnh nhị phân, trong khí đó ảnh đầu vào của hệ thống là một ảnh đa mức xám, chính vì vậy mà cần phải thực hiện chuyển ảnh đa mức xám sang ảnh nhị phân để thực hiện phân đoạn. Vị dụ ảnh nhị phân hóa: Hình 2- 2: Ảnh nhị phân 9 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản 2.1.3. Một số khái niệm cơ bản a) Điểm ảnh – pixel Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng. Để có thể xử lý ảnh bằng máy tính cần phải tiến hành số hóa ảnh. Trong quá trình số hóa, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hóa thành phần giá trị mà về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau. Trong quá trình này người ta sử dụng khái niệm Pixel – phần tử ảnh. Như vậy, một ảnh là một tập hợp các pixel. b) Mức xám – gray level Mức xám của điểm ảnh là cường độ ánh sáng của nó được gán bằng giá trị số tại điểm đó. Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (mức 256 là phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám. Mức xám dùng 1 byte để biểu diễn: 2 8 = 256 mức, tức là từ 0 đến 255). c) Ảnh đen trắng Là ảnh có hai màu đen, trắng (không chứa các màu khác) với mức xám ở các điểm ảnh có thể là khác nhau. d) Ảnh màu Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu: 2 8*3 = 2 24 = 16,7 triệu màu. 10 [...]... P, và các điểm: • N1(x+1, y); N2(x-1, y); N3(x, y+1); N4(x, y-1); N5(x-1, y-1); N6(x-1, y+1); N7(x+1, y-1); N8(x+1, y+1) được gọi là lân cận tám: 11 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản 12 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Hình 2- 3: Ví dụ về lận cận 4 Hình 2- 4: Ví dụ về lân cận 8 2.1.4 Tổng quan về ảnh văn bản. .. ảnh chụp từ không trung (chương trình đo đạc từ máy bay, vệ tinh và các ảnh vũ trụ) hoặc xử lý các ảnh trong y học (chụp ảnh cắt lát, ảnh siêu âm, …) Một ứng dụng khác của việc biến đổi ảnh là mã hóa ảnh, trong đó các ảnh được xử lý để rồi lưu trữ hoặc truyền đi 16 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Các phương pháp nhận dạng ảnh được sử dụng khi xử lý tế báo,... nối dấu vào ký tự đi cùng nó, ở đây ta xem như một ký tự sẽ bao gồm cả dấu của nó, bước thứ hai sắp xếp các ký tự mới tìm được từ trái qua phải, sau đó thống kê khoảng cách giữa các ký tự và dựa vào phương pháp của Otsu để xác định 31 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản khoảng cách giữa các từ, cuối cùng là dựa trên khoảng cách tìm được, nối các ký tự với nhau... bản Trang ảnh văn bản được đề cập ở đây là các file ảnh số hóa thu được bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax, file ảnh này được lưu giữ trong máy tính 13 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Ảnh văn bản có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng như TIF, BMP, PCX… và ảnh này được... đơn vị của điểm ảnh) 2.2.2 Tách khối văn bản a) Đặt vấn đề Phân tích bố cục văn bản là một bước tiền xử lý đặc biệt quan trọng các hệ thống OCR Đây là quá trình chia nhỏ ảnh văn bản thành ảnh các khối thuần nhất, có nghĩa là, các khối này chỉ chứa một loại thông tin, hoặc là text, hoặc là 22 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản ảnh, hoặc là bảng…Trong nhiều... ngưỡng đối với từng dòng riêng biệt Nếu như vậy ta phải xác định lại ngưỡng nhiều lần, để giảm điều này như trên phải thêm vào giai đoạn tách thành các vùng văn bản Các vùng văn bản này có cỡ chữ thường là giống nhau Để tách được từ, sử dụng phương pháp tìm miền liên thông của các pixel đen của từ 33 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Các từ được ngăn cách... xử lý ảnh nói chung b Tổng quan quá trình xử lý ảnh văn bản Sơ đồ nguyên lý của một hệ thống tự động phân tích văn bản (xử lý ảnh) như sau: Thu nhận Tiền xử Phân đoạn Biểu diễn Nhận dạng ảnh lý ảnh ảnh và mô tả và nội suy Cơ sở tri thức Hình 2- 6: Sơ đồ nguyên lý hệ thống xử lý ảnh văn bản Thu nhận ảnh (Image Acquisition): • Ảnh được thu từ nhiều nguồn khác nhau:máy ảnh, máy quay phim, máy quét, ảnh. .. đoạn xử lý phía sau 25 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Hình 2-7: Ví dụ mình họa cắt đoạn Để tách thành các đoạn (hay các vùng ảnh) chúng ta sử dụng 2 đặc trưng: Khoảng cách trắng giữa các đoạn sẽ lớn hơn khoảng cách trắng giữa các dòng, lùi đầu dòng của dòng kế tiếp 2.2.3 Tách dòng văn bản a) Đặt vấn đề Thuật toán xác định bố cục văn bản thực chất là tìm. .. tiếp cận đầu tiên, cách này đi từ các 23 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản thành phần liên thông nhỏ để tìm ra các ký tự, rồi tìm đến các từ sau đó là các dòng, từ các dòng này sẽ tìm được các khối Mô tả phương pháp Phương pháp tách khối được tóm tắt như sau: Bước thứ nhất tiến hành tách khối theo phương ngang trong đó có sử dụng một số tham số đã được xác... vừa tìm thấy, tăng x lên (x++) và tiếp tục thực hiện lại bước 4 • Xác định giới hạn phải của ký tự (xác định giá trị x) 35 Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản Bắt đầu từ giới hạn trên – đỉnh của ký tự (top_character), giới hạn trái của ký tự (left_charactor, top_character) Quét theo chiều thẳng ứng đến giới hạn dưới của dòng - Nếu khi quét hết chiều ứng,

Ngày đăng: 16/10/2014, 12:51

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH SÁCH CÁC HÌNH VẼ

  • DANH SÁCH CÁC BẢNG BIỂU

  • DANH SÁCH CÁC TỪ VIẾT TẮT

  • CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI

    • 1.1. Lý do chọn đề tài

    • 1.2. Mục tiêu của đề tài

    • 1.3. Giới hạn và phạm vi của đề tài

    • 1.4. Nội dung thực hiện của đề tài

    • 1.5. Phương pháp tiếp cận

    • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

      • 2.1. Tổng quan về xử lý ảnh và bài toán xử lý ảnh văn bản

        • 2.1.1. Khái niệm ảnh số

        • 2.1.2. Ảnh nhị phân

        • 2.1.3. Một số khái niệm cơ bản

          • a) Điểm ảnh – pixel

          • b) Mức xám – gray level

          • e) Biên

          • f) Láng giềng

          • g) Vùng liên thông

          • 2.1.4. Tổng quan về ảnh văn bản

            • a. Cấu trúc vật lý

            • b. Cấu trúc logic

            • 2.1.5. Tổng quan về bài toán xử lý ảnh văn bản

              • a. Giới thiệu về xử lý ảnh văn bản

              • b. Tổng quan quá trình xử lý ảnh văn bản

Tài liệu cùng người dùng

Tài liệu liên quan