(TIỂU LUẬN) báo cáo môn học PROJECT 1 đề tài NHẬN DIỆN CHỨNG MINH THƯ NHÂN dân

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Viện Công Nghệ Thơng Tin Truyền Thơng BÁO CÁO MƠN HỌC PROJECT ĐỀ TÀI: NHẬN DIỆN CHỨNG MINH THƯ NHÂN DÂN GVHD: Nguyễn Bình Minh Mã Lớp: 699556 Họ tên: Đỗ Hoàng Việt MSSV: 20183665 NỘI DUNG Chương I: Nhiệm vụ mơn học, giới thiệu tốn Chương II: Công cụ sử dụng Ngơn ngữ lập trình Python I Đơn giản phù hợp Có nhiều Frameworks thư viện hỗ trợ Cộng đồng hỗ trợ lớn Pytorch II Khái niệm Ưu điểm Nhược điểm CHƯƠNG III: Cơ sở lý thuyết Cropper Single Shot Detection VGG16 CHƯƠNG IV: Kết đánh giá CHƯƠNG I Nhiệm vụ môn học, giới thiệu toán Xử lý ảnh lĩnh vực mang tính khoa học cơng nghệ Nó nghành khoa học mẻ so với nhiều nghành khoa học khác tốc độ phát triển nhanh, kích thích trung tâm nghiên cứu, ứng dụng, đặc biệt máy tính chun dụng riêng cho Xử lý ảnh ứng dụng rộng rãi nhiễu lĩnh vực khoa học công nghệ, chẳng hạn thị giác máy tính, rơ bốt, tìm kiếm tài liệu ảnh, hỗ trợ chẩn đốn hình ảnh y học, giải trí, … Nhiệm vụ em môn project nhận diện trích xuất thơng tin từ ảnh chụp chứng minh nhân dân cách dễ dàng theo trường tên, ngày tháng năm sinh, quê quán, số CMT, giới tính, ngày cấp… giúp việc khai thác thơng tin nhanh chóng, xác, tiết kiệm thời gian Ở phần việc em thực gồm: cropper chứng minh thư nhân dân từ ảnh Nhiệm vụ cropper từ input (image) xác định góc chứng minh nhân dân sau cắt chứng minh nhân dân khỏi image Mục đích làm cho việc xác định trường thông tin phần Detector trở nên dễ dàng hơn.Ở đây, phương pháp em sử dụng detection model SSD (Singel Shot Detection), với feature extractor VGG-16 CHƯƠNG II: Công cụ sử dụng I Ngơn ngữ lập trình Python Python ngơn ngữ lập trình bậc cao Python hỗ trợ module gói( packages), khuyến khích chương trình module hóa tái sử dụng mã Trình thơng dịch Python thư viện chuẩn mở rộng có sẵn dạng mã nguồn mở miễn phí cho tất tảng phân phối tự Một số ưu điểm python: Đơn giản phù hợp - Python cung cấp mã ngắn gọn dễ đọc: cú pháp đơn giản, rõ ràng sử dụng khơng nhiều từ khóa, ý nghĩa câu lệnh dễ hiểu, suy đốn ý nghĩa kể chưa biết Python - Python vừa lập trình theo hướng thủ tục, vừa lập trình hướng đối tượng Hỗ trợ module hỗ trợ gói - Python có tương thích cao: chương trình phần mềm viết python chạy nhiều tảng hệ điều hành khác bao gồm Windows, MAC OS Linux Có nhiều Frameworks thư viện hỗ trợ Nhắc đến xử lý ảnh không nhắc đến thư viện opencv với nhiều hàm hỗ trợ Và thật may mắn, opencv có hỗ trợ Python với cú pháp ngắn gọn dễ hiểu mà chứa đầy đủ tính sẵn có Ngồi Python cịn hỗ trợ số thư viện có ích sau: NumPy: thư viện tính tốn hiệu cao, đặc biệt tính tốn ma trận 2D hay tensor nhiều chiều Matplotlib: thư viện hỗ trợ trực quan hóa liệu mạnh mẽ Math: thư viện cung cấp đầy đủ cơng thức tốn học hàm mũ, hàm logarit, … Cộng đồng hỗ trợ lớn Trong khảo sát dành cho nhà phát triển 2018 Stack Overflow, Python nằm top 10 ngơn ngữ lập trình phổ biến nhất, điều có nghĩa bạn dễ dàng tìm kiếm trợ giúp từ cộng đồng gặp vấn đề việc lập trình Thực tế cộng đồng Python phát triển nhanh toàn cầu Có diễn đàn Python trao đổi tích cực kinh nghiệm lập trình II Pytorch Khái niệm PyTorch framework xây dựng dựa python cung cấp tảng tính tốn khoa học phục vụ lĩnh vực Deep learning Pytorch tập trung vào khả chính: Một thay cho thư viện numpy để tận dụng sức mạnh tính tốn GPU Một platform Deep learning phục vụ nghiên cứu, mang lại linh hoạt tốc độ Ưu điểm: Mang lại khả debug dễ dàng theo hướng interactively, nhiều nhà nghiên cứu engineer dùng pytorch tensorflow đánh giá cáo pytorch vấn đề debug visualize Hỗ trợ tốt dynamic graphs Được phát triển đội ngũ Facebook Kết hợp API cấp cao cấp thấp Nhược điểm: Vẫn chưa hoàn thiện việc deploy, áp dụng cho hệ thống lớn, framework đời trước tensorflow Ngồi document từ pytorch cịn hạn chế nguồn tài liệu bên tutorials hay câu hỏi stackoverflow CHƯƠNG III: Cơ sở lý thuyết Cấu trúc tốn nhận diện trích xuất thông tin từ ảnh chụp chứng minh nhân dân gồm components: - Cropper - Detector - Reader Cropper Nhiệm vụ cropper từ input (image) xác định góc chứng minh nhân dân sau cắt chứng minh nhân dân khỏi image Mục đích làm cho việc xác định trường thông tin phần Detector trở nên dễ dàng hơn.Ở đây, phương pháp em sử dụng detection model SSD (Single Shot Detection), với feature extractor VGG-16 Single Shot Detection: - Là kiến trúc thuộc toán Object Detection - Kiến trúc mơ hình: - SSD nhận đầu vào ảnh ground truth boxes ( offsets label bounding boxes) suốt trình huấn luyện - SSD dựa tiến trình lan truyền thuận kiến trúc chuẩn (VGG16 : pre-trained model) để tạo khối feature map output chiều giai đoạn sớm - Sau đó, thêm vào lớp để tiến hành nhận diện vật thể phần Extra Feature Layer - Các layer mơ hình SSD: + + Input layer: ảnh có kích thước 300*300*3 Conv5_3 layer: sử dụng kiến trúc VGG16 cho output conv4_3 layer feature map có kích thước 38*38*512 - Ở feature map, ta áp dụng phép biến đổi: Áp dụng convolutional layer để thu output layer đầu thu Conv6 có kích thước 19*19*1024 Áp dụng classifier để nhận diện vật thể feature map Mỗi feature map cell gắn với tập bounding box mặc định với số chiều tỉ lệ khác Các Priors lựa chọn tay Phương pháp cho phép SSD tạo bounding box cho kiểu đầu vào mà khơng u cầu phase pre-trained cho việc tạo priors Với tập b bounding box mặc định cho feature map cell c classes cho việc phan loại Với feature map có kích thước f = m x n, SSD tính f x b x (4+c) giá trị cho feature map - Quá trình áp dụng classifier lên feature map tương tự với layer Conv7, Conv8_2, Conv_9, Conv10_2, Conv11_2 - SSD cần dự đoán 8732 bounding box output nên phần hậu xử lí, cần sử dụng thêm thuật tốn Non-Maximum Maxpression để loại bỏ bounding box dư thừa - Loss function kết hợp thành phần tương ứng với chức SSD: Confidence Loss: thành phần tính tốn tỉ lệ rơi vào class mà bounding box tính tốn Độ đo cross-entropy sử dụng để đo thành phần Location Loss: Thành phần ước lượng sai lêch thực tế bounding box so với tập liệu mẫu L2-Norm sử dụng - Multibox Prior IoU: Trong MultiBox, khái niệm sử dụng priors , bounding box tính tốn trước với kích thước cố định tuân theo phân phối gần với phân phối bounding box mẫu Trong thực tế, priors lựa chọn tỉ lệ Intersection/Union (IoU) lớn ngưỡng 0.5 Giá trị IoU 0.5 chưa đủ tốt điểm bắt đầu tương đối ổn cho thuật cho giải thuật bounding box regression (chính việc học tham số mạng) - điểu thực tiết kiệm thời gian đem lại kết tốt nhiều so với việc bắt đầu vị trí ngẫu nhiên Do MultiBox bắt đầu với priors prediction khởi tạo với mục đích hồi quy gần với bounding box thực VGG-16 - VGG16 model CNN K Simonyan A Zisserman đề xuất Mơ hình đạt độ xác 92,7% ImageNet, tập liệu 14 triệu hình ảnh thuộc 1000 lớp Đây mơ hình tiếng nộp cho ILSVRC2014 Nó cải tiến AlexNet cách thay kernel-sized filters lớn (11 lớp chập thứ hai, tương ứng) nhiều kernel-sized filters × - Kiến trúc VGG16: Đầu vào cho lớp cov1 ảnh màu có kích thước 224 x 224 x Hình ảnh chuyển qua chồng lớp convolutional, lọc sử dụng với trường tiếp nhận nhỏ: × (là kích thước nhỏ để nắm bắt khái niệm trái / phải, lên / xuống, trung tâm ) Trong cấu hình, sử dụng × convolution filters Có lớp max pooling sử dụng theo sau số lớp conv Max pooling thực có kích thước × pixel, với stride Ba lớp Fully-connected dùng sau lớp conv (có độ sâu khác kiến trúc khác nhau): hai lớp có 4096 kênh lớp, lớp thứ ba thực phân loại ILSVRC 1000 chiều chứa 1000 kênh (một cho 10 lớp học) Lớp cuối lớp soft-max.Các lớp conv FC sử dụng thêm ReLU activation CHƯƠNG IV: Kết đánh giá *Nhận xét: số lượng data nên model chưa học nhiều, việc detect label chưa thực tốt 11 ... gian Ở phần việc em thực gồm: cropper chứng minh thư nhân dân từ ảnh Nhiệm vụ cropper từ input (image) xác định góc chứng minh nhân dân sau cắt chứng minh nhân dân khỏi image Mục đích làm cho việc... Detector - Reader Cropper Nhiệm vụ cropper từ input (image) xác định góc chứng minh nhân dân sau cắt chứng minh nhân dân khỏi image Mục đích làm cho việc xác định trường thông tin phần Detector... pytorch cịn hạn chế nguồn tài liệu bên tutorials hay câu hỏi stackoverflow CHƯƠNG III: Cơ sở lý thuyết Cấu trúc tốn nhận diện trích xuất thơng tin từ ảnh chụp chứng minh nhân dân gồm components: -

Định dạng
Số trang	13
Dung lượng	1,63 MB