1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Giải pháp khôi phục ảnh biển số xe ở Việt Nam

62 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giải pháp khôi phục ảnh biển số xe ở Việt Nam
Tác giả Nguyen Tran Toan
Người hướng dẫn TS. Le Thanh Sach
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2018
Thành phố TP. HCM
Định dạng
Số trang 62
Dung lượng 55,89 MB

Nội dung

Nhiều trườnghợp chưa đáp ứng được nhu câu thấy rõ biến số xe trong điều tra hình sự.Điều nay làm phát sinh nhu cau cần phải có một giải pháp khôi phục ảnh biênsố xe.. Bên cạnh đó, giải p

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC BACH KHOA

NGUYEN TRAN TOAN

GIAI PHAP KHOI PHUC ANH BIEN SO XE O

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRUONG ĐẠI HOC BACH KHOA - ĐHQG - HCM

Cán bộ hướng dẫn khoa học : TS Lê Thành Sách

Cán bộ cham nhận xét 1: PGS TS Lê Hoàng Thái

Cán bộ cham nhận xét 2: TS Nguyễn Hỗ Mẫn Rang

Luận văn thạc sĩ được bảo vệ tại Trường Dai hoc Bách Khoa, ĐHQG Tp.HCM ngày 26 tháng l2 năm 2018.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 PGS TS Quản Thanh Thơ2 TS Phạm Hoàng Anh3 PGS TS Lê Hoang Thái

4 TS Nguyễn Hồ Mẫn Rang5 TS Nguyễn An Khương

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý

chuyên ngành sau khi luận văn đã được sửa chữa (nêu có).

CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA KH&KTMT

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIEM VỤ LUẬN VAN THẠC SĨHọ tên học viên: NGUYEN TRAN TOAN MSHV: 1570750Ngày, tháng, năm sinh: 06/6/1989 Nơi sinh: TP.Hồ Chí MinhNgành: Khoa học máy tính Mã số : 60.48.01.01

I TEN DE TÀI: Giải pháp khôi phục ảnh biển số xe ở Việt Nam.H NHIỆM VỤ VÀ NỘI DUNG:

1 Nghién cứu một sô phương pháp siêu phân giải ảnh biên sô xe dựa trên học sâu, phântích uu, nhược điểm.

2 Đề xuất và hiện thực phương pháp siêu phân giải ảnh biển số xe dựa trên mạng

Trang 4

LỜI CÁM ƠN

Em xin chân thành cảm ơn thầy TS Lê Thành Sách, người đã địnhhướng nghiên cứu và tận tình hướng dẫn em trong quá trình làm luận văn Emxin chân thành cảm ơn quý thây cô trong khoa Khoa học và Kỹ thuật máy tínhđã tận tình giảng dạy, truyền đạt những kiến thức cũng như kinh nghiệm vôcùng quý gia trong những nam học vừa qua Em xin cam ơn gia đình, bạn bèđã bên cạnh và động viên em trong quá trình làm luận văn dé có được kết quảnhư ngày hôm nay Xin cảm ơn Nguyễn Xuân Thành và Doãn Kỳ Ấn đã chiasẻ một sô ảnh và video cho tập dữ liệu.

Trang 5

TÓM TẮT

Trong những năm trở lại đây, camera an ninh ở Việt Nam được lắp đặtngay càng nhiều Tuy nhiên, đa số chất lượng camera còn thấp Nhiều trườnghợp chưa đáp ứng được nhu câu thấy rõ biến số xe trong điều tra hình sự.Điều nay làm phát sinh nhu cau cần phải có một giải pháp khôi phục ảnh biênsố xe Với sự phát triển mãnh mẽ của phương pháp học sâu sử dụng mạng nơ-ron tích chap, luận văn nghiên cứu áp dụng phương pháp này đối với vấn désiêu phân giải ảnh Qua khảo sát và nghiên cứu, luận văn dé xuất cải tiếnMang Day đặc thang dư làm giải pháp khôi phục ảnh biên số xe ở Việt Nam.Kết quả đạt được tương đối khả quan và có thé áp dụng thực tế

Trang 6

In recent years, more and more security cameras in Vietnam have beendeployed However, most of these cameras’ quality is low Many cases do notmeet the need to see license plate number clearly in the criminal investigation,which leads to a demand for recovering low-resolution license plate images.With the rapid growth of deep convolutional neural networks, this thesisapplies these method to the image super resolution problem Through relatedworks and own research, this thesis proposes to improve the Residual DenseNetwork as a solution to recover license plate images in Vietnam The resultsare quite satisfactory and can be applied in practice.

Trang 7

LỜI CAM ĐOANTôi cam đoan luận văn này là do chính tôi thực hiện, các số liệu và kếtquả thí nghiệm nêu trong luận văn là đúng sự thật và chưa từng được công bố;ngoài ra mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn vàcác thông tin trích dẫn đã được chỉ rõ nguồn gốc.

TP.HCM, ngày O1 tháng 12 năm 2018

NGƯỜI VIẾT

Nguyễn Trần Toàn

Trang 8

MỤC LỤC

CHUONG I: GIỚI THIEU DE TAL ¿2-6 E228 +E+E+E+E£E+E+EeEersrresree |

I.1 GIỚI thiIỆU: 1111001011012 1111111110111 11 1111111111 nhu l1.2 Mục tiêu nghiÊn CỨU: - G300 0S ng và |1.3 Đôi tượng và giới hạn nghiên cỨU: - - 2: - + 2+2+£+s+£zezxzeerszxes 21.3.1 Đối tượng nghiên CỨU: 2 2- + +52 £E+E+E£EE£E+E+EvEE£ErEeErrkrkrrre 21.3.2 Giới hạn nghiÊn CỨU: - << 3009 ng và 21.4 Ý nghĩa khoa học và thực tiỂn: - +: 522cc E221 E22 re 21.5 BO cục của luận VĂN: - tk 11111111 111 E11 H1 11111111 nưyo 3CHƯƠNG II: CƠ SỞ LÝ THUYET - 55:5 ccxcsrterrirrrrrrrrrrrrrrrrrien 42.1 Ảnh biến số xe ở Việt Nam: - - c1 E111 21 19111 1E SE HE ng 42.1 Biến đôi hình HOC? - tt Bề SE E111 51 11111 1 11H ng, 62.2 Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): 7

CHƯƠNG III: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 10

3.1 Siêu phân giải ảnh sử dụng mạng nơ-ron tích chập điểm ảnh phụ hiệuquả (ESPCN - Efficient Sub-Pixel Convolutional neural Network): 103.2 Mang thang du sau cai tién cho siéu phan giai anh (EDSR - EnhancedDeep residual Super- Resolution network): «che se 133.3 Mang chiéu ngược sâu day đặc (DDBPN - Dense Deep Back-ProjectionNetworks): cccccceeseeccceccseesccceesuseeecceceeeeeccceessaeeecceseeauseeeceessaescceeeeuaeeeeeeeas 183.4 Mang dày đặc thang du (RDN - Residual Dense Network) 21

CHƯƠNG IV: PHƯƠNG PHAP DE XUẤTT ccccccccsrccerrrree 26

4.1 Mang RDN cải tiễn (ERDN): ooe.ceeeeececsecececscseeeesessesececscsestevesssesseeeeneee 264.2 Hàm lỗi trung bình lỗi LI theo ký tự: - 5 c+c+ccxeeseeeecee 28

Trang 9

CHUONG V: THÍ NGHIIỆM - Gv 2151 1151515111111 1111k 305.1 Môi trường thí nghiỆm: - - - 5G 111 vn ng, 30"h6 ốäảẽäăă 305.1.2 Cau hình máy chạy thí nghiệm: - ¿2-25 2+2+x+zzcczszxee 355.2 Phương pháp đánh giá kết quả: - + - 52 2+E+E+££E+E+EzEerszrerered 365.2.1 Đánh giá dựa trên tỉ số tín hiệu đỉnh trên nhiễu (PSNR - PeakSignal-to-Noise RafIO): cọ HH nh krt 365.2.2 Đánh giá dựa trên chỉ s6 tuong tu cau trúc (SSIM - StructuralSIMIÏAFIẨY): HH HH ng kh 365.2.3 Đánh giá dựa trên kết quả nhận dạng biển số xe: 375.3 Kết quả thí nghiỆm: - +: + 2 SE SE2E£E£EEE£EEEEEEEEEEEEEEEEEEErrrrreei 37

CHUONG VI: KẾT LUẬN VA HƯỚNG PHAT TRIEN - 43

6.1 KẾT LUẬN: 6 9191111915191 11 1 E1 E111 1111111101111 T1 kg, 436.2 Hướng phát trIỂn: - + 2 S219 EEEEE212 2121212121212 111 ck 43510888 02 24 4- - 44

CAC TAP DU LIEU DUNG TRONG SIEU PHAN GIẢI ANH 44

DANH MỤC TÀI LIEU THAM KHẢO - 5-6 tt EeEeEeEeeseeesesed 47

Trang 10

DANH MỤC CÁC HÌNH

Hình 1: Anh LR (a) và anh HR tương ứng (b) ¿2 2 +s+x+EzxzEerrezszxez |Hình 2: Mô hình học cơ bản - - - << 211 11 111111111111 1111111111111 11k 2Hình 3: Biển số ô tô trong ƯỚC - ¿52 SE SE2E*ESEEEE2E2EEEEEEEEEEErErkrkrrrred 4Hình 4: Biển số ô tô nước ngoài -¿- - 5222 S E221 212121 EEEEErEerrred 4Hình 5: Biên số mô tô trong nước Hình 6: Biển số mô tô nước ngoài 4Hình 7: Ảnh chụp biến số mô tô trong nước +2 + + ++s+s+£zzezxzeecsẻ 5Hình 8: Ảnh chụp biến số mô tô trong nước đăng ký trước ngày 01/6/2014 5Hình 9: Các ảnh LR với kích thước khác nhau (đã phóng to) và ảnh HR tương"52.4 ỖỒỀÖbÖ 5Hình 10: Minh họa biến đối phối cảnh 525252 2£2E2E+Ez£szEzrreered 6Hình 11: Minh họa biến đối phối cảnh với ảnh biển sỐ xe - 7Hình 12: Một kiến trúc điển hình của CÌNN - sex vEeEersrresrsrred 7Hình 13: Ví dụ phép tính tích chập - C31199 11 re 8Hình 14: Kiến trúc mang ESPON o ceccscccsccscsscsesesesscsesesessesesssessesssesessessseeeeees 10Hình 15: Mô tả lớp tích chập điểm ảnh phụ . - 52 2 5+2+<2 22522 10Hình 16: Kết quả khôi phục các ảnh 335094, 384022 trong tap BSD500 với tilệ phóng dai là 3 G1112 vn HH ng nh 11Hình 17: Kiến trúc tông quát mạng EDSR - 2-2222 2+s+e+zzczcxez 13Hình 18: Khôi thang dư trong mang EDSR .c.c.cecccscesesseesesesseseseseseesesesees 14Hình 19: Lớp tăng mẫu trong mang EDSR cccccecccecscsesescsesesescseseseseseeen 14Hình 20: Minh họa phương pháp Tự kết hợp hình học (Geometric Self-EnsembÌ€) - - TS Q1 S11 n1 SH TT ng cv ch 15Hình 21: Kết quả khôi phục ảnh 34 trong tập Urban100 của mang EDSR 16Hình 22: Kiến trúc mạng DDBPN ¿5-5522 E2 2E E2 Errrrrrke 18Hình 23: Cau trúc của khối chiếu lên và chiéu xuống trong mang DDBPN 19Hình 24: Kết quả khôi phục ảnh 253027 trong tập B100 (hình trên) và ảnh040 trong tập Urban100 (hình dưới) của mạng DIDBPN 20Hình 25: Kiến trúc tông quát mạng RDN - - 2 2+x+ezcccszesrererees 2IHình 26: Kiến trúc của khối dày đặc thang dư trong mang RDN 22

Trang 11

Hình 27: Minh họa nối theo kênh các ban đồ đặc trưng trong kết nối dày đặc.¬ 22Hình 28: Phân Hợp nhất đặc trưng dày đặc trong mang RDN 23Hình 29: Phan Tang mẫu trong mạng RDN - 222252 2+s+£+zzczcse2 23Hình 30: Kết quả khôi phục ảnh 96 và 99 trong tập Urban100 của mang RDN.¬ 24Hình 31: Minh họa biến đối ảnh LR về cùng kích thước dùng các phép nộisuy thông dụng như Nearest Neighbor, Bicubic dé làm đầu vào cho mạng900 26Hình 32: Mang RDN cải tiễn cho van đề siêu phân giải ảnh biển số xe 27Hình 33: Minh họa kích thước của luồng dữ liệu trong mang RDN (hình trên)và RDN cải tiến (hình dưới) ¿5-5 s2 SE 3 11115 11112121111 11x 27Hình 34: Ký tự X và K chiếm phan lớn nên ảnh hưởng đến kết quả khôi phục.¬ 28Hình 35: Minh họa các thành phan trong hàm lỗi MLA . - 29Hình 36: Một cặp ảnh LR - HR vuông thực 7 30Hình 37: Một cặp anh LR - HR chữ nhật thực 1n 30Hình 38: Minh họa cách tạo ảnh vuông thực 7n 31Hình 39: Minh họa cách tạo anh chữ nhật thực tẾ ¿-¿ se sesxsxsx2 31Hình 40: Từ trái qua là anh HR chữ nhật thực tế, anh LR chữ nhật mô phỏngvà ảnh LR chữ nhật thực tế của biên số 18-F5 0280 ¿5c ccscsesesxsx2 32Hình 41: Minh họa cách tạo ảnh LR vuông m6 phỏng ««« «<< s- 32Hình 42: Minh họa ảnh HR mô phỏng làm ảnh mục tiêu, ảnh chữ nhật có kíchthước 69x48 điểm ảnh, ảnh vuông có kích thước 69x69 ««ssss: 33Hình 43: Số lượng mỗi ký tự trong tập huấn luyện và kiểm tra 33Hình 44: Số lượng mỗi ký tự theo vị trí của KY tự -scecscscsscecs¿ 34Hình 45: Minh họa cách nhận dạng biển số xe từ ảnh khôi phục 37Hình 46: So sánh khôi phục một số ảnh vuông . - 25 +2 25+: 39Hình 47: Tỉ lệ khôi phục đúng theo ký tự của mang RDN cải tiến 40Hình 48: Tỉ lệ khôi phục đúng theo ký tự của mạng RDN cải tiễn dùng hàm000017 40

Trang 12

Hình 49: Tỉ lệ số lượng ảnh theo số ký tự khôi phục đúng trên số ký tự củabiển số xe áp dụng mang RDN cải tiễn dùng hàm lỗi MLI 41Hình 50: Ti lệ khôi phục sai của từng KY tỰ -.- SH ke, 42Hình 51: Các ảnh 0001, 0100, 0801 và 0820 trong tập DIV2K 44Hình 52: Cac anh trong tap Sets eee cccccceeeessessnneeeceeeessesenaeeceeceeeseenaaeees 45Hình 53: Các ảnh tên “ppt3”, “zebra”, “baboon”, “barbara” trong tập Set14.45Hinh 54: Cac anh tén “302008”, “69015”, “78004”, “182053” trong tap B100.

Hình 56: Anh tên “119082” va “253027” trong tập BSD300 46

Trang 13

DANH MỤC CÁC BANG

Bảng 1: Kết quả đánh giá của mạng ESPCN dùng chỉ số PSNR (đB) lãiBang 2: Kết quả đánh giá ESPCN với một số ảnh chữ nhật 12Bang 3: Kết quả đánh giá ESPCN với một số ảnh vuông - 12Bảng 4: Kết quả đánh giá của mạng EDSR dùng chỉ số PSNR (dB) và SSIM

eee ỐAỐÃ ä.A A Ee eet ta aaEEEE SESE 16

Bang 5: Kết quả đánh giá EDSR với một số ảnh chữ nhật 17Bảng 6: Kết quả đánh giá EDSR với một số ảnh vuông - 17Bang 7: Kết quả đánh giá DDBPN với tập Benchmark: - 5-5: 19Bang 8: Kết quả đánh giá DDBPN với một số anh chữ nhật 20Bang 9: Kết quả đánh giá DDBPN với một số ảnh vuông . 2IBảng 10:Két quả đánh giá RDN với tập Benchmark 2 - 2 55+: 24Bảng 11: Kết quả đánh giá RDN với một số ảnh chữ nhật 25Bảng 12: Kết quả đánh giá RDN với một số ảnh vuông - -: 25Bảng 13: Kết quả đánh giá với ảnh chữ nhật - ¿2-5 2 25s+2+cce>se2 37Bang 14: Kết quả đánh giá với ảnh VUONG c.ceceeecceeeeeseseseseseesessseeeseseseeees 38Bảng 15: Ap dụng mạng ERDN 69 với tập huấn luyện chỉ có ảnh thực và tậphuấn luyện day đủ ảnh thực - ảnh mô phỏng +2 + 2 2+s+£+££z+s+2 4]

Trang 14

EDSRESPCNfps

HRLR

MSEPSNR

RDNReLU

SRSSIM

DANH MUC CAC CHU VIET TAT

Dense Deep Back-Projection Networks [5]Enhanced Deep residual Super- Resolution network [2]Efficient Sub-Pixel Convolutional neural Network [3]frame per second

High ResolutionLow ResolutionMean Square root ErrorPeak Signal-to-Noise Ratio - Ti số tín hiệu đỉnh trênnhiễu, thể hiện sai số giữa ảnh khôi phục được với ảnh

sốc, giá trị càng lớn thì chất lượng ảnh khôi phục được

càng gan với ảnh gốc.Residual Dense Network [7]Rectified Linear Units

Super ResolutionStructural SIMIlarty - Chi sỐ tương tự cầu trúc, giá trịcàng gan | thé hiện hai ảnh càng giỗng nhau về cấu trúc

[8]

Trang 15

CHUONG I: GIỚI THIỆU DE TÀI

1.1 Giới thiệu:Các vụ án hình sự xảy ra, camera an ninh khu phố, camera giao thônghoặc camera của các hộ dân hai bên đường may mắn ghi lại được hình ảnhbiển số xe của đối tượng phạm tội nhưng ảnh có kích thước nhỏ, độ phân giảithấp, hoặc mờ làm mắt thường khó nhìn thấy rõ số Dé hỗ trợ công tác điềutra cũng như củng cô chứng cứ sau nay, can có giải pháp khôi phục hình ảnhbiến số xe giúp mắt thường có thé dé dàng đọc 16 số

Các giải thuật siêu phân giải anh (SR - Super Resolution) đã được ápdụng nhằm khôi phục ảnh biển số xe có độ phân giải cao (HR - HighResolution) từ ảnh biển số xe có độ phân giải thấp (LR - Low Resolution)

095.66

(b)(a)

Hinh 1: Anh LR (a) va anh HR tuong ung (b).Trong vai nam tro lai day, phuong phap hoc sau (Deep Learning) da phattrién mạnh mẽ, được áp dụng vào lĩnh vực xử lý ảnh và đạt được một số thànhtựu nhất định (vi dụ như nhận dạng ảnh [4],[9], siều phân giải ảnh [2],[7])

Bên cạnh đó, giải pháp khôi phục ảnh biên số xe còn có thé tích hợp vàohệ thong phát hiện, nhận dạng biến số xe, giúp tăng khả năng phát hiện, nhậndạng biển số xe trong một số trường hợp ảnh nhỏ, mờ

Xuất phát từ nhu câu trên, luận văn này dé xuất giải pháp áp dụng cácgiải thuật học sâu làm giải thuật SR dé khôi phục ảnh biên số xe tại Việt Namvà nghiên cứu đánh giá tính kha thi của giải pháp nay.

1.2 Mục tiêu nghiên cứu:Do ảnh biên số xe đa dang, ảnh được chụp xa, gần khác nhau, nhiều gócchụp khác nhau từ các loại hệ thong camera khác nhau Nên khó có thé tim raphương pháp rút trích đặc trưng hiệu quả cho tất cả Đối với mạng học sâu,

Trang 16

qua quá trình học sẽ tìm ra các bộ lọc đặc trưng phù hợp với tập huấn luyện.Đề tài kỳ vọng với tập dữ liệu đủ lớn sẽ học được mối quan hệ ƒ giữa ảnh LRvà HR.

1.3 Đối tượng và giới hạn nghiên cứu:1.3.1 Đối tượng nghiên cứu:

Dựa trên mục tiêu nghiên cứu Đề tài tập trung nghiên cứu các đối tượngchính sau: cấu trúc và dữ liệu ảnh biển số xe ở Việt Nam, các phương phápsiêu phân giải ảnh dựa trên học sâu và các công cụ hỗ trợ hiện thực trên nềntang Python.

1.3.2 Giới hạn nghiên cứu:

Đề tài tập trung vào thu thập và phân tích biển số mô tô trong nước do sốlượng đối tượng phạm tội sử dụng mồ tô là phần lớn, chủ yếu các biến số xexuất hiện tại thành phố Hồ Chí Minh do số lượng phạm pháp hình sự chiếm tilệ cao so với cả nước, dân số đa phần nhập cư nên hình ảnh biến số xe cũngđa dạng Anh LR dau vào là ảnh có kích thước không nhỏ hon 23x16 điểmảnh.

1.4 Y nghĩa khoa học và thực tiễn:Về mặt khoa học, kết quả nghiên cứu có thé làm co sở cho những nghiêncứu tiếp theo vệ siêu phân giải hình ảnh hoặc phát hiện, nhận dạng biên sô xe.

Về mặt thực tiễn, kết quả nghiên cứu có thé giải quyết được phan nàonhu câu thực tế đã trình bày trong phân giới thiệu

Trang 17

1.5 B6 cục của luận văn:Chương I: Giới thiệu đề tài.Giới thiệu chung về đề tài, mục đích, đối tượng và giới hạn nghiên cứu,ý nghĩa khoa học và thực tiễn của đề tài.

Chương II: Cơ sở lý thuyết.Chương HI: Cac công trình nghiên cứu liên quan.Khảo sát các công trình nghiên cứu về siêu phân giải ảnh áp dụng học

Chương IV: Phương pháp đề xuất.Mô tả thiết kế kiến trúc mạng nơ-ron tích chập dé xuất và hiện thực.Chương V: Thí nghiệm.

Nêu ra môi trường chuẩn bị cho thí nghiệm, phương pháp thí nghiệm vàđánh giá kết quả thí nghiệm

Chương VI: Kết luận và hướng phát triển.Khăng định lại vẫn đề, những đóng góp chính của luận văn và hướngphát triển trong tương lai

Trang 18

CHUONG II: CƠ SỞ LÝ THUYET

2.1 Anh bién số xe ở Việt Nam:Biên số xe ở Việt Nam bao gồm biển số ô tô, ro moóc, sơmi rơmoóc (gọitat là ô tô), mô tô, máy kéo, xe máy điện của t6 chức, cá nhân trong nước vànước ngoài Nội dung biên số có khác nhau với mỗi loại xe Về hình dáng thì

có hai loại là biển số dài và biển số ngăn; về kích thước thì biển số mô tô, xe

máy điện chỉ có biến số ngắn với kích thước 190 x 140mm; các loại xe khácbiển số dài có kích thước 470 x 110mm, biên số ngắn là 280 x 200mm (theoThông tư quy định về đăng ký xe” Các hình sau minh họa về biển số xe ởViệt Nam.

Bién so dai Biên sô ngăn

Hình 3: Biên so 6 tô trong nước.

80- 4412 NG -02 |nomm 280-441

NG -02 200 mm

470 mm \

; ; 280 mm

Biên sô dài Biên sô ngăn

Hình 4: Biên số ô tô nước ngoài

Trang 19

08732

Hình 7: Ảnh chụp biến số mô tô trong nước.Ngoài ra, các biên số xe trong nước đăng ký trước ngày 01/6/2014 sẽ cóhàng dưới 4 ký tự như minh họa trong hình.

5478

HT)

Hình 8: Ảnh chụp biến số mô tô trong nước đăng ký trước ngày

01/6/2014.Về nội dung biến số mô tô trong nước, ký tự thứ nhất và thứ hai (từ đâyquy ước được tính từ trái qua phải và từ trên xuống dưới) là số ký hiệu địaphương nam trong khoảng 11 đến 99; ký tự thứ ba là chữ nằm trong bang chữcái tiếng Anh trừ các chữ I, J, O, Q, W; ky tự thứ tư là chữ hoặc số tự nhiên;các ký tự còn lại là sô tự nhiên.

Ảnh biến số mô tô trong nước thu được từ các hệ thống camera giaothông, an ninh của các tô chức, cá nhân trên địa bàn TP Hỗ Chí Minh có kíchthước khoảng từ 52x37 điểm ảnh trở lên thì mắt thường có thé dé dàng đọcđược các ký tự Ảnh biến số mà mắt thường khó đọc được có kích thướckhoảng từ 29x20 điểm ảnh trở xuống

95 b6

paw

¬

23x15 29x20 54x39Hình 9: Cac anh LR với kích thước khác nhau (đã phóng to) va anh HR

tương ứng.

Trang 20

2.1 Biến doi hình học:Biến đổi hình học làm thay đổi mối quan hệ không gian giữa các điểmảnh trong một ảnh Trong luận văn sử dụng phép biến đổi phối cảnh(Perspective transform) để biến đổi các ảnh chụp biến số xe với nhiều gócnhìn khác nhau, kích thước khác nhau về chung một góc nhìn chính diện vàsử dụng để tạo ảnh mô phỏng.

Phép biến đổi phối cảnh biến đối một điểm có tọa độ (x,y) sang tọa độ(x’,y’) theo công thức sau:

v

(4,0) (0.0) (4.0)

X ¥Hình 10: Minh hoa biến đổi phối cảnh

Trang 21

Đôi với ảnh biên sô xe, người dùng chon thủ công bôn điêm tương Ứngbon góc của biên sô xe Giải hệ phương trình tính ra ma trận biên đôi Apdụng theo công thức (1) ma trận vừa tính được với các diém năm trong khuônviên của biên sô sẽ được két qua như Hình 11.

Hình 11: Minh họa biến đối phối cảnh với ảnh bién số xe

2.2 Mạng nơ-ron tích chap (Convolutional Neural Network - CNN):

Mạng nơ-ron tích chập là một lớp thuộc mạng nơ-ron nhân tạo trong lĩnhvực học máy, mà trong những năm gan đây rat được quan tâm bởi cộng đồngnghiên cứu không chỉ thị giác máy tính mà ca những lĩnh vực khác khi ứng

dụng của nó đạt được kết quả rất tốt

\ \

Tích chập Giảm mâu \

Tich chap

Hình 12: Một kiến trúc điển hình của CNNỈ!

CNN được chia thành nhiêu giai đoạn O mỗi giai đoạn, đâu vào và ra là

những tập các ma trận được gọi là ban đô đặc trưng Môi ban đô đặc trưng thêhiện một đặc trưng nào đó được rút trích từ moi vi trí trên đầu vào Môi giaiđoạn thường gồm các lớp: lớp tích chập, lớp phi tuyến, lớp tong hợp Trong

Trang 22

Hình 12 là kiến trúc điển hình của CNN gồm hai giai đoạn theo sau cùng làmột mô-dun phân lớp.

Lớp tích chập có trọng tâm chính là phép tính tích chập, một trongnhững phép tính co bản được sử dụng thường xuyên trong xử lý ảnh Một sốtác vụ như làm mờ, giảm mẫu déu có thé thực hiện thông qua phép tính tíchchập với công thức tính tích chập trong miễn rời rạc như sau:

(f xw)[x,y] = S Sm nt w[x —m,y—n] (2)

m=—-0 r=—co

Trong đó, fla anh đầu vào được tích chập với bộ lọc w Ví dụ sau minhhọa kết quả tính tích chập giữa một ảnh xám kích thước 4x4 (đã thêm giá trịbiên bằng 0) với bộ lọc 3x3, bước trượt là 1:

0|0|0 0|00|1 3l4|0ols 510 -9 |-9 | 0 |18

0|9|10|11|12|0 +1 |-1 |¬1 3516 |-6|-1

0 |16|is|14|13|l0o| * Jalsa — l146|-6|6|47

0|0|0|0|0|0 -1 |-1 |-1 94 |60| 5167

Hình 13: Ví dụ phép tính tích chập.Dé thuận tiện, lớp tích chập với những tham số chính được viết tắt làConv (Cin,Cousk.S,p) Trong đó, cin là số kênh đầu vào, Cou, là số kênh đầu ra, klà kích thước của bộ lọc, s là bước trượt, p là kích thước biên thêm vào Cáclớp tích chập có thê được đặt nối tiếp nhau lúc đó số kênh đầu vào lớp sau làsố kênh đâu ra lớp trước, ở lớp thứ nhất số kênh vào là số kênh của ảnh Cáchtính với đầu vào 7 va dau ra O được mô tả bởi công thức:

Cin0 = by +) Wjuxl,, — = (ss Coue) (3)

Ví dụ: Lớp tích chập Conv(c¡n=l,c¿u=6,k=(3,3),s=l p=1) với đầu vào là1 ảnh xám kích thước 5x5, ảnh sẽ được tích chập lần lượt với 6 bộ lọc kích

Trang 23

thước 3x3 và sinh ra 6 ảnh xám kích thước 5x5 Trọng sô của các bộ lọc đượckhởi tạo ngâu nhiên và sẽ được học qua quá trình huan luyện Môi bộ lọc sẽphát hiện ra một đặc trưng nào đó tại mọi vi trí trên đâu vào, tức là biêt đượcđặc trưng đó khớp tại vi trí nào trên anh.

Lớp phi tuyến đảm bảo tính phi tuyến cho mô hình Hiện thực thườngthấy sử dụng hàm kích hoạt Tinh chỉnh các don vi tuyến tính (ReLU -Rectified Linear Units) chuyền giá trị âm về 0

Lớp tổng hop (Pooling): hiện thực thường thay là lấy giá trị lớn nhấthoặc trung bình theo từng cửa số nhỏ (2x2 hoặc 3x3), cửa số được trượt trêntrên mỗi bản đồ đặc trưng với bước trượt lớn hơn 1 Điều này giúp mạng nơ-ron đáp ứng với những thay đối vị trí nhỏ của đặc trưng

Cuối cùng là mô-đun phân lớp bao gồm một hoặc nhiều lớp kết nối dayđủ (Fully connected - FC), trong đó lớp FC cuối thê hiện điểm số của các lớpcan phân loại (nếu là bài toán phân lớp) Sau cùng thong qua hàm softmax décó được xác suất của mỗi lớp cần phân loại Softmax là hàm chuẩn hóa mộtvector z có K chiêu thành một phân bố xác suất (mỗi phan tử có giá tri trongkhoảng [0,1] va tông các phân tử bang 1), cho bởi công thức:

eZ2Ø(Z); = SE c7 với j=l, K (4

Qua quá trình học, CNN sẽ tìm ra các bộ lọc đặc trưng phù hợp với tậphuấn luyện Do đó ta không can phải thiết kế phương pháp rút trích đặc trưngmột cách thủ công Nhưng ngoài các tham số mà CNN có thể học qua quátrình huấn luyện thì vẫn còn nhiều tham số khác mà người thiết kế mạng nơ-ron phải quyết định (được gọi là các siêu tham số) Ví dụ như số lượng cáclớp tích chập, ReLU, Pooling, kích thước bộ lọc, số kênh đầu ra, tỉ lệ học(learning rate), huấn luyện bao nhiêu epoch, Tuy nhiên với ưu điểm là cócác tham số được “chia sẻ” giúp số lượng tham số không bị bùng nỗ khi thêmvào nhiêu lớp như mạng nơ-ron thông thường Và cùng với sự phát triển củacác phần cứng hỗ trợ tính toán như GPU và các ffamework học sâu thì việcthiết kế và hiện thực CNN trở nên dễ dàng và hiệu quả hơn bao giờ hết

Trang 24

CHƯƠNG III: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1 Siêu phân giải ảnh sử dung mạng no-ron tích chập điểm ảnh phụ

hiệu quả (ESPCN - Efficient Sub-Pixel Convolutional neural Network):W Shi và cộng sự thiết kế một mạng nơ-ron tích chập”! áp dụng cho vanđê siêu phân giải ảnh như hình sau:

n¡ kênh n; kênh

——>

ReLU

op tich chap diém anh hu

Hình 14: Kiến trúc mạng ESPCN"! bao gôm / lớp tích chập nối tiếp

nhau, theo sau cùng là lớp trộn điểm ảnh.Trong Hình 14, /-1 lớp tích chập dau để rút trích đặc trưng sau đó là lớptích chập điểm ảnh phụ gồm lớp tích chập thứ / (không kèm ReLU) và lớptrộn điểm ảnh sẽ tong hợp các bản đồ đặc trưng và hình thành nên ảnh HRđâu ra Lớp trộn điểm ảnh thực hiện phép trộn điểm ảnh sắp xếp lại các phầntử của “ ma trận kích thước W x H thành một ma trận rW x rH, r là tỉ lệphóng đại (minh hoạ như Hình 14).

Đầu vào kích thước ae 1 kênh kích thước W x rH

Trang 25

Trong thí nghiệm của bài báo sử dụng tỉ lệ phóng đại r=3; số lớp tíchchập /=3; lớp Convl có 64 bộ lọc kích thước 5x5, lớp Conv2 có 32 bộ lọckích thước 3x3, lớp Conv3 có z“=9 bộ lọc kích thước 3x3, độ dài bước trượtvà giá trị biên của mỗi lớp được chọn để kích thước đâu ra băng đâu vào Tácgiả bài báo huấn luyện mạng với 50.000 ảnh chọn ngẫu nhiên từ tập dữ liệu

flo

ImageNet"” và kết qua đánh giá với các tập dữ liệu (mô ta trong Phụ lục) nhưhình và bảng sau:

Bảng 1: Kết quả đánh giá của mạng ESPCN dùng chỉ số PSNR (dB)

Tập dữ liệu Tile | Bicubic | ESPCN

phóng đạiSet5 3 30.39 33.13Setl4 3 27.54 2949BSD300 3 27.21 28.54BSD500 3 27.26 28 64SuperTexture 3 25.40 26.70Set5 4 28.42 30.90Setl4 4 26.00 27.73BSD300 4 25.96 27.06BSD500 4 25.97 27.07SuperTexture 4 23.97 25.07

Hình 16: Kết quả khôi phục các ảnh 335094, 384022 trong tập BSD500 với tỉ

lệ phóng đại là 3.

II

Trang 26

Áp dụng với dữ liệu biển số xe ở Việt Nam, tập dữ liệu như mô tả trongmục 5.1.1 Dữ liệu:, câu hình mạng với thông số như thí nghiệm của bài báo,các ảnh đầu vào được biến đổi về cùng kích thước, với anh chữ nhật là 46x32,ảnh vuông là 48x48, kết quả đạt:

PSNR | SSIM|_ Số ảnh và số biển số khôi phục đúngẢnh chữ nhật | 8.85 | 0.27 | 1/1194(0.08%) 1/249 (0.40%)Ảnh vuông 7.99 | 0.13 | 0/1194 (0.00%) 0/249 (0%)

Hai bảng sau trình bay một số ảnh khôi phục với mang ESPCN (ảnh dauvào đã được phóng to dùng nội suy Bicubic để dễ so sánh):

Bảng 2: Kết quả đánh giá ESPCN với một số ảnh chữ nhật

Bảng 3: Kết quả đánh giá ESPCN với một số ảnh vuông

Anh đâu vàoKích thước (pixel)

Trang 27

Kết quả cho thay các chỉ số PSNR và SSIM đều rất thấp, các ảnh khôiphục không có ký tự nào được làm rõ Tuy nhiên phương pháp này có một sốưu diém mà đã được các nghiên cứu sau này tiệp thu và phát triên.

Thứ nhất, phương pháp này tìm đặc trưng ngay trên ảnh LR, khác vớinghiên cứu khác lấy đầu vào là ảnh LR được phóng to dùng các phép nội suythông dụng như Bicubic Điều này giúp giảm phân nào khối lượng tính toán.Thứ hai, hiện thực lớp tích chập điểm ảnh phụ với phép trộn điểm ảnh có thờigian huấn luyện và khôi phục ảnh rất nhanh

3.2 Mạng thặng dư sâu cải tiến cho siêu phân giải ảnh (EDSR Enhanced Deep residual Super- Resolution network):

-B Lim và cộng sự kế thừa va phát triển các khối thang du trong mangResNetf” và lớp tích chập điểm ảnh phụ trong mạng ESPCN để thiết kế nên

natch z ¬= k Rca A sae 9 2

một kién trúc cải tiễn cho van đề siêu phân giải ảnh!”

ResBlock

Hình 17: Kiến trúc tông quát mạng EDSR.Trong Hình 17, Conv | và Conv 2 là các lớp tích chập với F bộ lọc kíchthước 3x3, bước trượt là 1, thêm | biên với giá trị 0; ResBlock là các khốithang dư, có B khối; Upsample là lớp tăng mau; Conv 3 là lớp tích chập có bộlọc kích thước 3x3, bước trượt là 1, thêm 1 biên với giá trị 0, số bộ loc bằngsố kênh màu của ảnh đầu ra

Trong Hình 18, Conv là lớp tích chap với F bộ lọc kích thước 3x3, bướctrượt là 1, thêm 1 biên với giá trị 0; ReLU là lớp phi tuyến với hàm kích hoạtReLU; Mult là lớp nhân ma trận với số vô hướng 0,1; dau + sau cùng là phépcộng diém với diém giữa đầu vào của khôi với dau ra của lớp Mult.

13

Trang 28

Hình 18: Khối thang dư trong mạng EDSR.

Pixel Shuffle

Hình 19: Lớp tăng mẫu trong mang EDSR.Lớp tăng mẫu trong mạng EDSR chính là lớp tích chập điểm ảnh phụtrong mạng ESPCN Trong Hình 19, Conv là lớp tích chập với 1 F bộ lọc kíchthước 3x3, bước trượt là 1, thêm | biên với giá tri 0; lớp PixelShuffle trộnđiểm ảnh từ zˆF kênh kích thước H x W thành F kênh kích thước rH x rW, r làtỉ lệ phóng đại.

B Lm và cộng sự huấn luyện mang EDSR với tập dữ liệu DIV2K vađánh giá với tập Benchmark như mô tả trong Phụ lục, trong đó:

Tập huấn luyện: Sử dụng 800 ảnh của tập huấn luyện trong tập DIV2K.Tập xác thực: Sử dụng 10 ảnh (ảnh số 0801 đến 0810) của tập xác thựctrong tập DIV2K.

Tập kiểm tra: Sử dụng 100 ảnh của tập xác thực trong tập DIV2K, và cáctập trong tập Benchmark.

Quá trình huấn luyện, với mỗi ảnh LR chọn ngẫu nhiên một mảnh(patch) có kích thước 48 x 48 dé lam dau vao, va anh HR cũng chon motmanh vi tri tuong ung dé làm mục tiêu, có kích thước 96x96 hoặc 144x144hoặc 192x192 tương ứng với tỉ lệ phóng đại 2 hoặc 3 hoặc 4.

14

Trang 29

Làm giàu dữ liệu với các phép xoay một góc 90”, lật theo chiêu ngang,lật theo chiều dọc Với mỗi cặp LR-HR áp dụng ngẫu nhiên nhỏ hơn 50% mỗiphép trên.

Quá trình kiểm tra, không chọn mảnh mà chỉ cắt ảnh HR để tỉ lệ kíchthước ảnh HR trên kích thước ảnh LR bằng với tỉ lệ phóng đại

Các thông số được lựa chọn: số khối thặng dư B=32, số bộ lọc F=256,mức độ học: 10% và giảm 1⁄2 sau mỗi 150 epoch, huấn luyện 300 epoch với

đầu vào là bộ 16 ảnh, hàm lỗi L1 với công thức: L = - ||I — fi],Trong đó,

Ila một bộ các anh mục tiêu;Ï là một bộ các ảnh khôi phục được;N là số lượng phan tử trong một bộ.B Lim và cộng sự đề xuất phương pháp Tự kết hợp hình học (GeometricSelf-Ensemble) để nâng cao chất lượng ảnh đâu ra Trong quá trình kiểm tra,mỗi ảnh đầu vào được xoay và lật thành bộ 8 ảnh, qua mạng siêu phân giảicho ra 8 ảnh, sau đó bién đổi ngược các phép xoay và lật tương ứng, cuốicùng trung bình cộng 8 ảnh đầu ra để có được ảnh đầu ra cuối cùng

Anh Xoay Xoay Xoay 8 đầu rađầu vao 90° 180° 270°

“` giai

Biến đổi ngược va

trung bình cộng

Hình 20: Minh hoa phương pháp Tự kết hợp hình hoc (Geometric

Self-Ensemble).

15

Trang 30

Bảng 4: Kết quả đánh giá của mạng EDSR dùng chỉ số PSNR (dB) và SSIM

(EDSR+ là EDSR sử dụng kỹ thuật Tự kết hợp hình học).Dataset Scale Bicubic EDSR EDSR+

x2 | 33.66/0.9299 | 38.1170.9601 | 38.20/0.9606

Set5 x3 | 3039/0.8682 | 34.65/0.9282 | 34.76/ 0.9290

x4 | 2842/0.8104 | 32.46/0.8968 | 32.62/0.8984

x2 | 30.2470.8688 | 33.92/0.9195 | 34.02/0.9204Sel4 | x3 | 27.55/0.7742 | 30.52/0.8462 | 30.66/0.8481

Trang 31

Áp dụng với dữ liệu biển số xe ở Việt Nam, kết quả đạt:

PSNR | SSIM|_ Số ảnh và số biến số khôi phục đúngẢnh chữ nhật | 18.69 | 0.92 | 468/1194 (39.20%) | 181/249 (72.69%)Ảnhvuông | 17.01 | 0.89 | 436/1194 (36.52%) | 173/249 (69.48%)

Hai bang sau trình bày một số anh khôi phục với mạng EDSR.Bảng 5: Kết quả đánh giá EDSR với một số ảnh chữ nhật

Anh đâu vàoKích thước (pixel)

15.33 /0.88

37-21200.94

29-L9029.04

29-L9029.04

Bang 6: Kết qua đánh giá EDSR với một số ảnh vuông

Anh đâu vàoKích thước (pixel)

13.71 /0.82

47-E1200.94

16.84 / 0.90

é9-L.508.64

9.23 / 0.59

23-C5279.04

12.50/0.81

Anh tham khao 47-K147-K1

29-L9029.04

29-L9029.04

Kết quả cho thấy chất lượng ảnh khôi phục được cải thiện rất nhiều so

với mạng ESPCN Do áp dụng hiệu quả các khối thặng dư trong thiết kế Bêncạnh đó, kiên trúc mạng dê hiệu và dê hiện thực Tuy nhiên độ chính xác củacác ký tự trong biển số khôi phục được vẫn còn thấp

17

Ngày đăng: 08/09/2024, 22:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[12] R.Timofte et al. “NTIRE 2017 challenge on single image super- resolution: Methods and results,” in Proc. CVPRW, 2017, pp. 1110-1121 Sách, tạp chí
Tiêu đề: NTIRE 2017 challenge on single image super-resolution: Methods and results
[13] M. Bevilacqua et al. “Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding,” in Proc. British Machine Vision Conference (BMVC), 2012, pp. 135.1-135.10 Sách, tạp chí
Tiêu đề: Low-Complexity Single-Image Super-Resolutionbased on Nonnegative Neighbor Embedding
[14] R. Zeyde et al. “On single image scale-up using sparse-representations,”in Proc. International Conference on Curves and Surfaces, 2010, pp.711-730 Sách, tạp chí
Tiêu đề: On single image scale-up using sparse-representations
[15] D. Martin et al. “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in Proc. International Conference on Computer °Vision, 2001, vol. 2, pp. 416-423 Sách, tạp chí
Tiêu đề: A database of human segmented natural images and itsapplication to evaluating segmentation algorithms and measuringecological statistics
[16] J. B. Huang et al. “Single image super-resolution from transformed self- exemplars,” in Proc. CVPR, 2015, pp. 5197-5206 Sách, tạp chí
Tiêu đề: Single image super-resolution from transformed self-exemplars