TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN - - ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: ỨNG DỤNG THỊ GIÁC MÁY TÍNH TRONG BÀI TỐN TRÍCH XUẤT THƠNG TIN TỪ CHỨNG MINH THƢ VÀ CĂN CƢỚC CÔNG DÂN Giảng viên HD : Ths Nguyễn Văn Thắng Lớp : CNTT3-K11 MSV : 1141460204 SV thực : Nguyễn Văn Lƣơng Hà Nội 2020 MỤC LỤC MỤC LỤC MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ CÔNG NGHỆ SỬ DỤNG 1.1Machine learning 1.2Mạng nơ-ron (Neural network) 1.2.1 Kh 1.2.2 Cấ 1.2.3 Ph 1.2.4 M 1.3Deep learning 1.3.1 Đị 1.3.2 Cơ 1.3.3 Đi Chƣơng 2: CƠ SỞ LÝ THUYẾT 2.1Thị giác máy tính (Computer vision) 2.1.1 Ph 2.1.2 Kh 2.1.3 Ph 2.2Mạng nơ-ron tích chập (CNN) 2.2.1 Gi 2.2.2 M 2.3Mạng Unet 2.3.1 Gi 2.4Mạng CRAFT(Character Region Awa nhận diện vùng ký tự cho nhận diện ký tự) 2.4.1Giới 2.4.2Kiến 2.5Tensorflow 2.5.1Giới 2.5.2Lịch 2.5.3Cấu t 2.6Tesseract 2.6.1Giới 2.6.2Quá 2.6.3Chức Chƣơng 3: ỨNG DỤNG MẠNG HỌC SÂU VÀ THỊ GIÁC MÁY TÍNH TRONG BÀI TỐN TRÍCH XUẤT THƠNG TIN TỪ CHỨNG MINH THƢ VÀ CĂN CƢỚC CÔNG DÂN 3.1Mơ hình sử dụng 3.2Tiền xử lý liệu 3.3Huấn luyện mơ hình 3.4Một số kết thu đƣợc KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Những kết báo cáo Những điều cần cải thiện Hƣớng phát triển báo cáo TÀI LIỆU THAM KHẢO DANH MỤC HÌNH ẢNH H nh 1-1: Trợ lý ảo Alexa Amazon H nh 1-2: Minh hoạ mạng nơ ron 14 H nh 1-3: deep learning, machine learning AI 16 H nh 2-1:Phân nhóm ảnh 19 H nh 2-2: Khoanh vùng đối tượng 20 H nh 2-3: Khoanh vùng đối tượng phân vùng đối tượng 21 H nh 2-4: Khoanh vùng đối tượng, semantic segmentation instance segment 22 H nh 2-5: Phân vùng đối tượng ô tô tự hành 22 H nh 2-6: Phân vùng đối tượng y học 23 H nh 2-7: bước nhận dạng 24 H nh 2-8: Mơ h nh mạng nơ-ron tích chập 25 H nh 2-9: Mô h nh mạng Unet 26 Hình 2-10: Mơ h nh mạng CRAFT 28 Hình 2-11: Region Score Affinity Score 29 H nh 2-12: Mức độ phổ biến thư viện tensorflow 30 H nh 2-13: Tensorflow 31 H nh 2-14: Hệ thống phân cấp tensorflow 31 H nh 2-15: Thư viện tesseract 32 H nh 3-1: Mô h nh ứng dụng toán 35 H nh 3-2: Chi tiết mô h nh mạng unet sử dụng toán 36 H nh 3-3: Dữ liệu đánh nhãn kỳ vọng thu 37 Hình 3-4: Lớp encoder VGG-16 38 Hình 3-5: Lớp encoder VGG-16 tiếp 39 Hình 3-6:Flatten 40 Hình 3-7: Xác định vùng chứng minh thư 41 Hình 3-8: Xác định vùng chứng minh thư (Tiếp) 41 Hình 3-9: Xác định vùng chứng minh thư (Tiếp) 42 Hình 3-10: Xác định vùng ký tự chứng minh thứ 43 Hình 3-11: Xác định vùng ký tự chứng minh thư (Tiếp) 44 Hình 3-12:Xác định vùng ký tự cước công dân 45 STT 7 MỞ ĐẦU Ngày với phát triển ngày mạnh mẽ trí tuệ nhân tạo Nó đem lại ứng dụng to lớn nhiều lĩnh vực khác xử lý ngôn ngữ tự nhiên, tự động hố, thị giác máy tính,… Trí tuệ nhân tạo ngày trờ thành phần thiếu sống Sự tồn phát triển doanh nghiệp, quan, tổ chức nhà nước,…Khơng thể thiếu trợ giúp trí tuệ nhân tạo Trong việc thu nhận xử lý thông tin với khối lượng ngày lớn, nhiều lúc với việc thủ công không đem lại hiệu mong muốn, lại tốn nhiều công sức thời gian Nhằm đem lại nhanh chóng xác, giảm thiểu công sức người Em chọn đề tài “ỨNG DỤNG THỊ GIÁC MÁY TÍNH TRONG BÀI TỐN TRÍCH XUẤT THÔNG TIN TỪ CHỨNG MINH THƢ VÀ CĂN CƢỚC CÔNG DÂN” để nghiên cứu viết báo cáo Để mô tả tr nh nghiên cứu, t m hiểu, báo cáo chia thành chương với nội dung sau: Chƣơng 1: Tổng quan công nghệ sử dụng Chƣơng 2: Cở sở lý thuyết Chƣơng 3: Ứng dụng mạng học sâu thị giác máy tính tốn trích xuất thơng tin từ chứng minh thư cước công dân 8 Chương 1: TỔNG QUAN VỀ CÔNG NGHỆ SỬ DỤNG 1.1 Machine learning Những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), cụ thể Machine Learning (Học Máy Máy Học) lên chứng cách mạng công nghiệp lần thứ tư (1 - động nước, - lượng điện, - cơng nghệ thơng tin) Trí Tuệ Nhân Tạo len lỏi vào lĩnh vực đời sống mà khơng nhận Xe tự hành Google Tesla, hệ thống gợi ý nhạc Spotify, hệ thống tự tag khuôn mặt ảnh Facebook, trợ lý ảo Siri Alexa Apple Amazon, hệ thống cửa hàng không nhân viên Amazon, hệ thống gợi ý phim Netflix, máy chơi cờ vây AlphaGo Google DeepMind, …, vài ứng dụng AI/Machine Learning H nh 1-1: Trợ lý ảo Alexa Amazon Machine learning (ML) nghiên cứu khoa học thuật tốn mơ h nh thống kê mà hệ thống máy tính sử dụng để thực hiệu nhiệm vụ cụ thể mà không cần sử dụng hướng dẫn rõ ràng, thay vào dựa vào tập mẫu suy luận Nó xem tập hợp trí tuệ nhân tạo Các thuật tốn học máy xây dựng mơ h nh toán học liệu mẫu, gọi " liệu huấn luyện ", để đưa dự đốn định mà khơng lập tr nh rõ ràng để thực nhiệm vụ Thuật toán học máy sử dụng nhiều ứng dụng, chẳng hạn lọc email, hỗ trợ người đưa định, xử lý thông tin tự động Học máy có liên quan chặt chẽ với thống kê tính tốn , tập trung vào việc đưa dự đốn máy tính Nghiên cứu tối ưu hóa tốn học cung cấp phương pháp, lý thuyết lĩnh vực ứng dụng cho lĩnh vực học máy Thị giác máy tính lĩnh vực nghiên cứu học máy, tập trung vào thuật tốn xử lý thơng tin từ ảnh, âm Trong ứng dụng m nh vấn đề kinh doanh, học máy gọi phân tích dự đốn Học máy có liên quan mật thiết đến thống kê, v hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận xếp vào loại tốn NP-khó, v phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lý Học máy có áp dụng rộng rãi bao gồm máy truy t m liệu, hệ thống hỗ trợ định, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng khốn, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, dịch tự động, chơi trị chơi cử động rơ-bốt (robot locomotion) Các thuật toán học máy thường chia thành nhóm lớn 10 Học có giám sát (supervise learning) Học không giám sát (unsupervise learning) Trong học có giám sát thuật tốn xây dựng từ tập mẫu bao gồm liệu đầu vào đầu kỳ vọng Ví dụ: tốn xác định vật có ảnh, lúc liệu cho thuật tốn học có giám sát bao gồm ảnh đầu vào với đầu tương ứng đánh nhãn tên vật có ảnh Một nhánh nhỏ khác học có giám sát học bán giám sát Học bán giám sát thuật toán xây dựng tập liệu mà phần liệu đầu vào khơng có nhãn Các thuật tốn phân loại thuật tốn hồi quy kiểu học có giám sát Các thuật toán phân loại sử dụng đầu bị giới hạn tập hợp giá trị giới hạn Đối với thuật toán xác định bệnh y khoa, đầu vào hồ sơ bệnh án bệnh nhân đầu tên bệnh tên nhóm bệnh bệnh nhân Đối với thuật toán xác định bệnh ung thư, đầu dự đoán " bị ung thư " "không bị ung thư", biểu thị giá trị Boolean sai Các thuật toán hồi quy đặt tên cho đầu liên tục chúng, có nghĩa chúng có giá trị phạm vi Ví dụ giá trị liên tục nhiệt độ, độ ẩm, kích thước giá vật thể Trong học tập khơng giám sát , thuật tốn xây dựng mơ h nh tốn học từ tập hợp liệu chứa đầu vào khơng có nhãn đầu mong muốn Các thuật tốn học tập khơng giám sát sử dụng để t m cấu trúc liệu, phân nhóm phân cụm điểm liệu Học tập khơng giám sát khám phá mẫu liệu nhóm đầu vào thành danh mục, học tập tính Giảm kích thước tr nh giảm số lượng "tính năng" đầu vào tập hợp liệu ... 2.6.2Quá 2.6.3Chức Chƣơng 3: ỨNG DỤNG MẠNG HỌC SÂU VÀ THỊ GIÁC MÁY TÍNH TRONG BÀI TỐN TRÍCH XUẤT THƠNG TIN TỪ CHỨNG MINH THƢ VÀ CĂN CƢỚC CÔNG DÂN 3.1Mơ hình sử dụng 3.2Tiền xử lý liệu... xác, giảm thiểu công sức người Em chọn đề tài ? ?ỨNG DỤNG THỊ GIÁC MÁY TÍNH TRONG BÀI TỐN TRÍCH XUẤT THƠNG TIN TỪ CHỨNG MINH THƢ VÀ CĂN CƢỚC CÔNG DÂN” để nghiên cứu viết báo cáo Để mô tả tr nh... công nghệ sử dụng Chƣơng 2: Cở sở lý thuyết Chƣơng 3: Ứng dụng mạng học sâu thị giác máy tính tốn trích xuất thơng tin từ chứng minh thư cước công dân 8 Chương 1: TỔNG QUAN VỀ CÔNG NGHỆ SỬ DỤNG