Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
4,21 MB
Nội dung
GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh ẬN VĂN TỐT NGHIỆP TÌM HIỂU “CƠNG NGHỆ NHẬN DẠNG HÌNH ẢNH” GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh Trước tiên, em xin gửi lời cảm ơn tới Khoa CNTT – trường Cao Đẳng Kinh tế Công nghệ Tp.HCM tạo điều kiện cho em hội thực luận văn tốt nghiệp Qua báo cáo này, em xin chân thành cảm ơn : Thầy Trần Đức Hy, người trực tiếp hướng dẫn em thời gian thực báo cáo luận văn tốt nghiệp Cảm ơn thầy tạo điều kiện thuận lợi để em hoàn thành tốt báo cáo Cảm ơn thầy tận tình bảo, hướng dẫn giải đáp vướng mắc trình nghiên cứu đề tài… Các chị Ban thư kí khoa CNTT tạo điều kiện cho em hoàn thành tốt luận thời gian qua GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh Các anh chị hai phịng Xử lí liệu Công nghệ phần mềm thuộc Trung tâm thống kê tin học- Cục Thống Kê Tp.HCM giúp đỡ em nhiều trình nghiên cứu đề tài Anh Nguyễn Quang Trung, Phó phịng Xử lí thơng tin, Trung tâm Tin học thống kê khu vực II – Cục Thống kê Tp.HCM, người hướng dẫn em việc tìm hiểu “Công nghệ nhận dạng hỉnh ảnh ứng dụng việc nhập lưu trữ liệu” Cũng xin cám ơn bạn Nguyễn Thiện Lâm, Nguyễn Đức Tuấn bạn Lê Quang Đức chia sẻ khó khăn kinh nghiệm q trình nghiên cứu thực luận văn Cuối em xin gửi tới cha mẹ, cô em lời cảm ơn, biết ơn chân thành Cảm ơn cha mẹ, cô tạo điều thuận lợi giúp hồn thành tốt việc học ! GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh CÁC NỘI DUNG CHÍNH CHƯƠNG MỞ ĐẦU CHƯƠNG CƠNG NGHỆ NHẬN DẠNG HÌNH ẢNH CHƯƠNG CƠNG NGHỆ NHẬN DẠNG KÍ TỰ QUANG HỌC [OCR] CHƯƠNG HƯỚNG PHÁT TRIỂN GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh MỞ ĐẦU LÝ DO LỰA CHỌN ĐỀ TÀI KẾT QUẢ CỤ THỂ ĐẠT ĐƯỢC GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh LÝ DO Ngày nay, kể người không chuyên nhiều nghe nói đến cơng nghệ nhận dạng hình ảnh qua quảng cáo, giới thiệu sản phẩm công nghệ số, sản phẩm kĩ thuật cao(Hi-Tech) Chúng ta q quen thuộc với dịng máy ảnh quảng bá có tích hợp cơng nghệ nhận diện hình ảnh(nhận diện khn mặt, nụ cười, ánh mắt…), dịng máy Laptop(máy tính xách tay) có tích hợp cơng nghệ nhận diện khn mặt, hay dấu vân tay nhằm phục vụ cho chế bảo mật… GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh KẾT QUẢ CỤ THỂ ĐẠT ĐƯỢC Đã hiểu cách tổng quan : Công nghệ Tiếp cận khái niêm mạng Nơ-ron ứng dụng nhậnNơ-ron dạng, Cơng nghệ ngược nhận dạng nóikí mạng lan truyền tronghình nhậnảnh dạng Cơng nghệ nhận dạng kí tự Quang học tự chung quang học… (OCR) nói riêng Trong q trình nghiên cứu đề tài, em ơn lại số kiến thức môn Xác suất thống kê định bắt khái lý minh luậtNắm Bayer…;được hiểuqt thêm vềquy mơntrình “Tríxử thơng ảnh, nhận nhân tạo”, …dạng ảnh, quy trình số hóa liệu, tài liệu… Tiếp cận sử dụng hai phần mềm nhận dạng kí tự : Demo) Accent Tiếp cận 4.0 với (phiên sốbản thuật tốn điển hình sử dụng VNDOCR Capture 7.5; sử dụng tính nhận dạng kí tự nhận dạng quang học phần mềm ứng dụng văn phòng Microsoft Office ( phiên 2003 profesional ) GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh MẠNG NƠ-RON LAN TRUYỀN NGƯỢC Thuật học lan truyền ngược phát triển quan trọng mạng nơron.Thuật toán áp dụng cho mạng nhiều lớp truyền thẳng (FeedForward) gồm phần tử xử lý với hàm kích hoạt liên tục Các mạng kết hợp với thuật toán học lan truyền ngược gọi mạng lan truyền GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh CÔNG NGHỆ NHẬN DẠNG KÍ TỰ QUANG HỌC [OCR] LỊCH SỬ PHÁT TRIỂN SỐ HĨA TÀI LIỆU LÀ GÌ ? LỢI ÍCH CỦA SỐ HĨA TÀI LIỆU NHẬN CÁC QUY DẠNG HỆ TRÌNH DEMO KÍ NHẬN SỐ TỰ DẠNG HĨA QUANG CHỮ HỌC [OCR] GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh SỐ HĨA TÀI LIỆU LÀ GÌ ? Là việc chuyển đổi loại tài liệu lưu trữ phương tiện thông thường (tài liệu in, viết tay, hình ảnh, âm thanh, Microfilm, ) sang dạng liệu số để từ dễ dàng ứng dụng Tin học công tác lưu trữ, quản lý, vận chuyển khai thác GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh LỢI ÍCH CỦA VIỆC SỐ HĨA DỮ LIỆU Tiết kiệm khơng gian lưu trữ; Dễ dàng vận chuyển; Khả truy xuất liệu nhanh; Độ bền tính an tồn cao hơn; Có thể hiệu chỉnh, sửa chữa cần thiết; Chi phí giảm so với phương pháp truyền thống; Dễ dàng ứng dụng cơng nghệ đại q trình ứng dụng khai thác GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh NHẬN DẠNG KÍ TỰ QUANG HỌC Nhận dạng ký tự quang học (Optical Character Recognition, viết tắt OCR), loại phần mềm máy tính tạo để chuyển hình ảnh chữ viết tay chữ đánh máy (thường quét máy scanner) thành văn tài liệu OCR hình thành từ lĩnh vực nghiên cứu nhận dạng mẫu, trí tuệ nhân tạo, machine vision Hệ thống nhận dạng yêu cầu phải huấn luyện với mẫu ký tự cụ thể Các hệ thống "thông minh" với độ xác nhận dạng cao hầu hết phông chữ trở nên phổ biến GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh CÁC HỆ NHẬN DẠNG CHỮ Bài toán nhận dạng chữ toán lớn quan tâm từ lâu Bài toán phân thành nhánh lớn: Nhận dạng chữ in để phục vụ cho công tác đọc tự động văn bản, đẩy nhanh việc nhập thông tin vào máy Nhận dạng chữ viết tay với font chữ khác nhau, phục vụ cho ứng dụng đọc xử lý hoá đơn, văn bản,v, ,v Về chế, hệ thống nhận dạng chữ thường gồm khối chính, phù hợp với giai đoạn xử lý sau: - Khối xử lý sơ bộ; - Khối tách chữ; - Khối nhận dạng chữ; - Khối phục hồi chữ (hoàn thiện nội dung hình thức, chữa lỗi, v, v GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh CÁC HỆ NHẬN DẠNG CHỮ S Văn scanner File nén -File Tách vùng chữ khỏi văn Tách ký tự khỏi từ Học kiểu chữ Nhận dạng chữ File ASCII máy Lưu trữ văn Tìm kiếm văn File làm việc Xử lý sơ Sơ đồ tổng quát hệ thống nhận dạng chữ viết Trình bày lại văn theo gốc GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh QUY TRÌNH SỐ HĨA TÀI LIỆU GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh QUY TRÌNH SỐ HĨA TÀI LIỆU tra Các máy Kiểm Xtrata Chuần bị Quét Chứng thực chủ Server *** tài liệu *** nhận dạng chứng thực *** *** Số hóa kí tự kiểm tra Vùng chuẩn bị giấy tờ Phân liệu quang học loại *** giấy *** *** *** sửa lỗi *** Nhập Phân loại Làm liệu ảnh Tạo nhóm File Lớp *** *** *** nhập liệu loại *** Mã lớp thơng *** Xem lại đăng kí thường *** mẫu Tổ chức ảnh *** OCR/ICR/ chứng thực file nhập OMR CSDL *** *** *** Đọc mã Thiết lập Xác nhận vạch gốc e-mail QC / Quét lại Chương trình Tạo PDF *** Chỉ tạo ảnh file PDF *** Tạo ảnh chữ file PDF Máy chủ Phát tán *** Chuyển đổi định dạng File *** Nén anh *** Xuất liệu *** Xuất file PDF văn nhận dạng đầy đủ GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh DEMO VnDocR 4.0 (Demo Version) Microsoft Office Document Imaging ( MODI ) Accent Capture 7.5 GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh KẾT LUẬN ĐÁNH GIÁ KẾT QUẢ HƯỚNG PHÁT TRIỂN GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh HƯỚNG PHÁT TRIỂN Hiện công nghệ Tổng Cục Thống Kê Việt Nam ứng dụng vào việc nhập số liệu Tổng điều tra Dân Số - Nhà Ở năm 2009 Việc triển khai cịn thơng tin bí mật, đợt tới, Trung tâm Tin học Thống kê – Cục Thống Kê thành phố Hồ Chí Minh cần tuyển khoảng 50 người phục vụ cho việc tiến hành công nghệ này, tương lai, Trung tâm cần tuyển hàng trăm người để triển khai ứng dụng rộng rãi Các phiếu điều tra dùng cho tổng điều tra năm thiết kế đặc biệt, chất lượng giấy cao, có vùng đánh dấu phục vụ cho việc quét tài liệu xác định vùng thơng tin xác cần lấy GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh CẢM ƠN CÁC THẦY CÔ VÀ CÁC BẠN ĐÃ QUAN TÂM THEO DÕI GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh ... kiện cho em hội thực luận văn tốt nghiệp Qua báo cáo này, em xin chân thành cảm ơn : Thầy Trần Đức Hy, người trực tiếp hướng dẫn em thời gian thực báo cáo luận văn tốt nghiệp Cảm ơn thầy tạo điều... lợi để em hoàn thành tốt báo cáo Cảm ơn thầy tận tình bảo, hướng dẫn giải đáp vướng mắc trình nghiên cứu đề tài… Các chị Ban thư kí khoa CNTT tạo điều kiện cho em hoàn thành tốt luận thời gian... giúp hồn thành tốt việc học ! GVHD : Thầy Trần Đức Hy SVTH : Vũ Linh CÁC NỘI DUNG CHÍNH CHƯƠNG MỞ ĐẦU CHƯƠNG CƠNG NGHỆ NHẬN DẠNG HÌNH ẢNH CHƯƠNG CƠNG NGHỆ NHẬN DẠNG KÍ TỰ QUANG HỌC [OCR]