nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu

80 545 0
nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN MINH AN NGHIÊN CỨU MỘT SỐ KỸ THUẬT HIỆU CHỈNH FORM TÀI LIỆU Luận văn Thạc sỹ Công nghệ Thông tin ĐỒNG NAI, 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN MINH AN NGHIÊN CỨU MỘT SỐ KỸ THUẬT HIỆU CHỈNH FORM TÀI LIỆU Chuyên ngành: Công nghệ Thông tin Mã số: 60.48.02.01 Luận văn Thạc sỹ Công nghệ Thông tin Người hướng dẫn khoa học: PGS. TS ĐỖ NĂNG TOÀN ĐỒNG NAI, 2013 LỜI CẢM ƠN Trước hết tôi xin gởi lời cảm ơn chân thành tới thầy PGS.TS Đỗ Năng Toàn, người thầy hướng dẫn khoa học, định hướng nghiên cứu và tận tình hướng dẫn cho tôi trong suốt quá trình làm luận văn. Nếu không có thầy, tôi khó có thể hoàn thành luận văn này. Bên cạnh đó, tôi cũng muốn gửi lời cảm ơn đến các thầy cô đang làm việc tại khoa Công nghệ Thông tin trường Đại học Lạc Hồng đã quan tâm chỉ bảo và trực tiếp giảng dạy lớp cao học khóa 3. Tôi xin chân thành cảm ơn Ban giám hiệu trường THCS Phú Mỹ Hưng đã tạo điều kiện thuận lợi và hỗ trợ cho tôi trong việc thu thập số liệu của trường để phục vụ cho nhu cầu luận văn. Cuối cùng, tôi xin cảm ơn gia đình và bạn bè, đặc biệt là thành viên của lớp CHK3 – Đại học Lạc Hồng - những người đã luôn ủng hộ và động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn. Nguyễn Minh An LỜI CAM ĐOAN Tôi xin cam đoan luận văn: “Nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu” là kết quả quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc. Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và có tính kế thừa, phát triển từ các tài liệu, tạp chí, các công trình nghiên cứu đã được công bố, các website, … Các phương pháp nêu trong luận văn được rút ra từ những cơ sở lý luận và quá trình nghiên cứu tìm hiểu của tác giả. Đồng Nai, tháng 06 năm 2013 Tác giả Nguyễn Minh An TÓM TẮT LUẬN VĂN Một tệp tin ảnh sau khi scan để nhận dạng thành văn bản số thì giai đoạn tiền xử lí như lọc nhiễu, hiệu chỉnh độ nghiêng, hiệu chỉnh độ lệch là nhu cầu cần thiết. Về kỹ thuật lọc nhiễu, luận văn giời thiệu các kỹ thuật lọc tuyến tính và phi tuyến tính. Hiệu chỉnh độ dịch chuyển giới thiệu kỹ thuật so sánh histogram. Về phương pháp khử nghiêng, luận văn tìm hiểu các phương pháp phân tích hình chiếu, biến đổi Hough, phân tích láng giềng và phép toán hình thái. Các thuật toán nghiên cứu trong luận văn được áp dụng vào hiệu chỉnh form điểm tại trường THCS Phú Mỹ Hưng và bước đầu thu được những kết quả nhất định. MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN TÓM TẮT LUẬN VĂN MỤC LỤC PHẦN MỞ ĐẦU - 1 - Chƣơng 1: KHÁI QUÁT FORM TÀI LIỆU VÀ BÀI TOÁN HIỆU CHỈNH FORM TÀI LIỆU - 4 - 1.1. Khái quát về Form tài liệu - 4 - 1.1.1. Form tài liệu là gì? - 4 - 1.1.2. Phân loại form tài liệu - 4 - 1.1.2.1. Ảnh trắng, đen - 4 - 1.1.2.2. Ảnh màu - 4 - 1.2. Thu nhận và biểu diễn form tài liệu - 5 - 1.2.1. Thu nhận form tài liệu - 5 - 1.2.2. Cấu trúc Form tài liệu - 5 - 1.2.2.1. Mào đầu tệp(Header) - 5 - 1.2.2.2. Dữ liệu nén (Data Compression) - 5 - 1.2.2.3. Bảng màu (Palette color) - 5 - 1.2.3. Một số phương pháp biểu diễn Form tài liệu - 5 - 1.2.3.1. Mã loạt dài (Run – Length code) - 5 - 1.2.3.2. Mã xích (Chain Code) - 6 - 1.2.3.3. Mã tứ phân (Quad Tree Code) - 7 - 1.3. Bài toán hiệu chỉnh Form tài liệu - 7 - 1.3.1. Một số vấn đề trong hiệu chỉnh form tài liệu - 7 - 1.3.2. Một số cách tiếp cận trong hiệu chỉnh form tài liệu - 7 - 1.3.2.1. Nhiễu form tài liệu - 7 - 1.3.2.2. Khử nhiễu - 8 - Chƣơng 2: HIỆU CHỈNH FORM TÀI LIỆU - 15 - 2.1 Độ dịch chuyển của form tài liệu - 15 - 2.1.1 Giới thiệu - 15 - 2.1.2 Phát hiện độ dịch chuyển của form tài liệu - 16 - 2.1.3 Hiệu chỉnh độ dịch chuyển form tài liệu - 17 - 2.1.3.1 Phương pháp thứ nhất - 19 - 2.1.3.2 Phương pháp thứ hai - 20 - 2.2 Độ nghiêng của form tài liệu - 22 - 2.2.1 Giới thiệu - 22 - 2.2.2 Một số thuật toán và phát hiện góc nghiêng văn bản - 23 - 2.2.2.1 Thuật toán dựa vào phân tích hình chiếu (Projection Profile) . - 23 - 2.2.2.2 Các thuật toán dựa vào biến đổi Hough (Hought Transform) - 28 - 2.2.2.3 Các thuật toán phân tích láng giềng (nearest Neighbour Clustering) - 35 - 2.2.2.4 Phương pháp dùng phép toán hình thái - 41 - Chƣơng 3: CHƢƠNG TRÌNH THỬ NGHIỆM - 48 - 3.1. Bài toán - 48 - 3.2. Phân tích bài toán - 48 - 3.2.1. Module File - 49 - 3.2.2. Module Basic - 50 - 3.2.3. Module Filter - 51 - 3.2.4. Module Skew Detection - 51 - 3.3. Một số kết quả hiệu chỉnh form tài liệu - 52 - PHẦN KẾT LUẬN - 60 - TÀI LIỆU THAM KHẢO PHỤ LỤC (Một số định dạng form tài liệu) P.1. Định dạng ảnh IMG P.2. Định dạng ảnh PCX P.3. Định dạng ảnh TIFF P.4. Định dạng ảnh GIF P.5. Định dạng ảnh Bitmap DANH MỤC HÌNH, BẢNG Hình 1.1. Ảnh nhị phân và các biểu diễn mã loạt dài tương ứng. -6- Hình 1.2: Minh hoạ mã xích -7- Hình 1.3. Các toán tử gờ sai phân. -12- Hình 1.4. Sơ đồ bộ lọc thông cao. -13- Hình 1.5. Một số nhân chập trong lọc thông cao. -13- Hình 1.6. Bảng điểm qua lọc thông cao -14- Hình 2.1. Bảng điểm bị dịch chuyển sau khi scan. -15- Hình 2.2. Mô hình histogram dọc của bảng điểm mẫu. -16- Hình 2.3. Mô hình histogram dọc của bảng điểm cần nhận dạng. -16- Hình 2.4. Mô hình histogram của bảng điểm mẫu và bảng điểm cần nhận dạng được xếp trên cùng một trục tọa độ. -17- Hình 2.5. Ảnh mẫu và ảnh cần nhận dạng. -19- Hình 2.6. Mô hình histogram dọc của bảng điểm mẫu. -20- Hình 2.7. Mô hình histogram ngang của bảng điểm cần nhận dạng. -20- Hình 2.8. Mô hình histogram của bảng điểm mẫu và bảng bảng điểm cần nhận dạng được xếp trên cùng một trục tọa độ. -21- Hình 2.9. Ảnh sau khi scan bị nghiêng -22- Hình 2.10. Cấu trúc của dòng văn bản. -23- Hình 2.11. Phép chiếu ngang và chiếu dọc của trang tài liệu. -24- Hình 2.12. Phép chiếu dọc của dòng văn bản. -24- Hình 2.13. Phép chiếu dọc của dòng văn bản. -24- Hình 2.14. Đường thẳng Hough trong toạ độ cực. -33- Hình 2.15. Biến đổi Hough phát hiện góc nghiêng. -34- Hình 2.16. Các đối tượng trên ảnh. -36- Hình 2.17. Phân cụm các đối tượng. -36- Hình 2.18. NNC của hình có K=2, (b)K=3, (c)K  4. -39- Hình 2.19. Ảnh (d)đường kết nối với K=2 (e)đường kết nối với K=3 (f)đường kết nối với K  4. -39- Hình 2.20. Các điểm left most bottom và bottom most left của thành phần liên thông 42- Hình 2.21. Những khoảng góc nghiêng khác nhau được sử dụng để ước lượng góc nghiêng phù hợp cho phần tử cấu trúc. -44- Hình 2.22. Một thành phần liên thông dài với hệ tọa độ ảnh -45- Hình 3.1 Sơ đồ khối -48- Hình 3.2. Giao diện chương trình thử nghiệm -49- Hình 3.3. Giao diện Module file -50- Hình 3.4. Giao diện Module Basic -50- Hình 3.5. Giao diện Module Filter -51- Hình 3.6 Giao diện Module Skew Detection -52- Hình 3.7. Bảng điểm sau khi scan chưa được xử lí -53- Hình 3.8. Bảng điểm sau khi chuyển sang ảnh xám -53- Hình 3.9. Bảng điểm sau khi chuyển nhị phân -54- Hình 3.10. Bảng điểm sau khi được lọc trung bình không gian -54- Hình 3.11. Bảng điểm sau khi được lọc thông thấp -55- Hình 3.12. Bảng điểm sau khi được lọc đồng hình -55- Hình 3.13. Phát hiện độ nghiêng bảng điểm bằng Hough -56- Hình 3.14. Phát hiện độ nghiêng bảng điểm bằng phân tích láng giềng -56- Hình 3.15. Phát hiện độ nghiêng bảng điểm bằng phân tích hình chiếu -57- Hình 3.16. Hình sau khi thực hiện phép quay -57- Hình 3.17. File hình được lưu lại sau khi thực hiện phép quay -58- Bảng 1.1. Bảng so sánh kết quả áp dụng các thuật toán vào hiệu chỉnh độ nghiêng bảng điểm -59- - 1 - PHẦN MỞ ĐẦU 1. Lý do thực hiện đề tài Với sự phát triển như vũ bão của ngành công nghệ thông tin, hiện nay, hầu hết các lĩnh vực đều có sự hiện diện của máy tính điện tử: từ việc tự động hóa các công việc văn phòng đến việc điều khiển robot, thám hiểm vũ trụ, Cùng theo sự phát triển đó, nhận dạng và xử lí ảnh là một lĩnh vực ngày càng nhiều các nhà khoa học quan tâm. Các công việc được lưu trữ theo lối cổ truyền như giấy, gỗ, vải,… chứa đựng một lượng lớn tri thức của nhân loại lại không có độ bền vĩnh cửu, khó xử lí và lưu trữ. Song song đó, các tài liệu như: sách, báo, văn bản, biểu mẫu,… khi lưu trữ phải tốn nhiều thời gian và tiền bạc cho việc nhập các tài liệu đó. Vậy, sao chúng ta không nghĩ đến việc dùng máy scan để quét các tài liệu đó vào máy tính và dùng các kỹ thuật xử lí ảnh để chúng thành các văn bản một cách tự động? Một giải pháp đó là xây dựng một hệ thống nhận dạng chữ, trong các tấm ảnh chứa chữ và các đối tượng đồ họa cần tách và chuyển thành dạng trang văn bản, mở và xử lí được trên các trình soạn thảo văn bản. Để hoạt động tốt, nhận dạng các tài liệu với độ chính xác cao, thì hệ thống cần phải tự động nâng cao chất lượng hình ảnh của form tài liệu, hiệu chỉnh góc nghiêng, hiệu chỉnh độ dịch chuyển, … của form tài liệu. Thực tế bản thân em là một giáo viên tin học, em nhận thấy nhu cầu tại đơn vị rất cần việc chuyển từ dữ liệu giấy sang dữ liệu số để lưu trữ các hồ sơ văn phòng tại đơn vị là cần thiết. Song song đó, xuất phát từ ý tưởng: các bài kiểm tra, bài thi của học sinh nếu được dùng máy scan để quét vào máy tính và thông qua một hệ thống nhận dạng và xử lý chuyển các bài kiểm tra từ văn bản giấy sang văn bản số. Đồng thời, ta xây dựng một hệ thống nhằm so sánh nội dung bài kiểm tra, bài thi với đáp án có sẵn và hệ thống sẽ đưa ra các phương án chấm bài cho học sinh thì việc tự động hóa công việc chấm bài cho học sinh sẽ giúp đỡ giáo viên một phần rất đáng kể. Nhưng để làm được việc trên, một ảnh tài liệu sau khi đưa vào máy tính từ các thiết bị như: scanner, camera,…sẽ bị nhiễu, bị nghiêng hay bị lệch do nhiều cách, có thể là do để giấy vào máy quét hay máy fax không chính xác hay ảnh tài liệu có phương ngang có thể bị quét theo phương dọc do kích thước máy quét không đủ,… [...]... bản, biểu mẫu số  Tìm hiểu nghiên cứu tài liệu, tìm hiểu các thông tin trên Internet về các kỹ thuật xử lý ảnh và form tài liệu  Nghiên cứu phương pháp Histogram chỉnh độ dịch chuyển của form tài liệu  Nghiên cứu thuật toán Hough hiệu chỉnh góc nghiêng của form tài liệu  Thực nghiệm: sử dụng các thuật toán hiệu chỉnh form tài liệu để xây dựng chương trình hiệu chỉnh độ dịch chuyển và độ nghiêng của... quát form tài liệu và bài toán hiệu chỉnh form tài liệu: chương này đề cập đến các khái niệm cơ bản về form tài liệu, cách thu nhận, biểu diễn form tài liệu và một số phương pháp hiệu chỉnh form tài liệu Chƣơng 2: Hiệu chỉnh form tài liệu: trong chương này đề cập đến phương pháp phát hiện và hiệu chỉnh độ lệch form tài liệu bằng thuật toán Histogram Đồng thời còn nêu phương pháp phát hiện và hiệu chỉnh. ..-2- Do đó một ảnh tài liệu cần phải dùng một số kỹ thuật hiệu chỉnh ảnh như hiệu chỉnh độ lệch, hiệu chỉnh độ nghiêng,… trước khi tiến hành nhận dạng và xử lý các ảnh tài liệu này Xuất phát từ ý tưởng trên, luận văn sẽ nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu nhằm giúp cho việc nhận dạng các tài liệu đạt chất lượng cao Sau khi hoàn thành luận văn, em sẽ tiếp tục học tập và nghiên cứu để phát... chỉnh độ nghiêng form tài liệu bằng các phương pháp phân tích hình chiếu, biến đổi Hough, phân tích láng giềng, phép toán hình thái Chƣơng 3: Chƣơng trình thử nghiệm: tiến hành xây dựng chương trình thừ nghiệm hiệu chỉnh độ lệch và độ nghiêng form tài liệu -4- Chƣơng 1: KHÁI QUÁT FORM TÀI LIỆU VÀ BÀI TOÁN HIỆU CHỈNH FORM TÀI LIỆU 1.1 Khái quát về Form tài liệu 1.1.1 Form tài liệu là gì? Form tài liệu. .. chuyển từ phiếu điểm văn bản giấy sang phiếu điểm số  Tìm hiểu tổng quan về xử lí ảnh và form tài liệu  Nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu như hiệu chỉnh độ dịch chuyển, hiệu chỉnh độ nghiêng,…  Thiết kế, phát triển chương trình thử nghiệm hiệu chỉnh độ dịch chuyển và độ nghiêng của phiếu điểm thi  Xây dựng báo cáo sơ bộ và hoàn chỉnh báo cáo 4 Phƣơng pháp thực hiện  Khảo sát thực... tài liệu 1.3.1 Một số vấn đề trong hiệu chỉnh form tài liệu Hiệu chỉnh form tài liệu là một bước quan trọng, là tiền đề cho quá trình nhận dạng ảnh được chính xác Khi scan form tài liệu thì có thể bị nhiễu, mờ không sắc nét hoặc cần làm rõ các chi tiết như đường biên hay tài liệu bị nghiêng, bị lệch,…Mục đích chính của việc hiệu chỉnh form tài liệu là làm nổi bật một số đặc tính như thay đổi độ tương... thay đổi độ tương phản, lọc nhiễu, nổi biên, làm trơn, hiệu chỉnh độ lêch, hiệu chỉnh độ nghiêng,… 1.3.2 Một số cách tiếp cận trong hiệu chỉnh form tài liệu 1.3.2.1 Nhiễu form tài liệu Nhiễu do nhiều nguyên nhân: quá trình quét form tài liệu, quá trình sao chép, sự thoái hóa theo thời gian, Nhiễu sẽ làm ảnh hưởng lớn đến kết quả nhận dạng form tài -8- liệu Thực tế có rất loại nhiễu nhưng thường người ta... hiện một số thao tác hiệu chỉnh như lọc nhiễu và chuyển sang ảnh nhị phân rồi mới hiệu chỉnh độ nghiêng, công đoạn cuối mới nhận dạng bảng điểm Bất kỳ một tài liệu giấy khi đưa vào máy tính đều bị nghiêng với một góc nào đó do trong quá trình quét tài liệu hay là copy Điều này sẽ làm ảnh hưởng đến quá trình phân tích tài liệu và nhận dạng các ký tự trong tài liệu Vì vậy, phát hiện và hiệu chỉnh góc nghiêng... form tài liệu, nhưng chưa có một công trình nghiên cứu nào phát triển chuyên sâu và đầy đủ các kỹ thuật hiệu chỉnh form tài liệu để từ đó có thể giúp em phục vụ việc xây dựng hệ thống chấm điểm các bài kiểm tra tự luận một cách tự động 2 Mục tiêu đề tài: Nghiên cứu một số kỹ thuật hiệu chỉnh độ dịch chuyển và độ nghiêng của phiếu điểm, phục vụ cho quá trình nhập điểm thi tự động nhờ máy quét -3- 3 Nội... lưu trữ như một ảnh đa cấp xám Nên không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ -5- 1.2 Thu nhận và biểu diễn form tài liệu 1.2.1 Thu nhận form tài liệu Đây là công bước đầu tiên trong quá trình xử lí form tài liệu nhưng nó có tính quyết định đến độ phân giải, chất lượng màu, dung lượng bộ nhớ của form tài liệu nên việc lựa chọn các thiết bị thu nhận cần quan tâm . toán hiệu chỉnh Form tài liệu - 7 - 1.3.1. Một số vấn đề trong hiệu chỉnh form tài liệu - 7 - 1.3.2. Một số cách tiếp cận trong hiệu chỉnh form tài liệu - 7 - 1.3.2.1. Nhiễu form tài liệu. sang phiếu điểm số.  Tìm hiểu tổng quan về xử lí ảnh và form tài liệu.  Nghiên cứu một số kỹ thuật hiệu chỉnh form tài liệu như hiệu chỉnh độ dịch chuyển, hiệu chỉnh độ nghiêng,…  Thiết. nghiệm hiệu chỉnh độ lệch và độ nghiêng form tài liệu. - 4 - Chƣơng 1: KHÁI QUÁT FORM TÀI LIỆU VÀ BÀI TOÁN HIỆU CHỈNH FORM TÀI LIỆU 1.1. Khái quát về Form tài liệu 1.1.1. Form tài liệu

Ngày đăng: 17/12/2014, 23:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan