(Luận văn thạc sĩ hcmute) nhận dạng các đối tượng tham gia giao thông dùng mạng nơron học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SỸ TRẦN QUỐC TOẢN NHẬN DẠNG CÁC ÐỐI TUỢNG THAM GIA GIAO THÔNG DÙNG MẠNG NORON HỌC SÂU NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203 S K C0 Tp Hồ Chí Minh, tháng 04/2018 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TRẦN QUỐC TOẢN NHẬN DẠNG CÁC ĐỐI TƯỢNG THAM GIA GIAO THÔNG DÙNG MẠNG NƠRON HỌC SÂU NGÀNH: KỸ THUẬT ĐIỆN TỬ Tp Hồ Chí Minh, tháng 04/2018 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TRẦN QUỐC TOẢN NHẬN DẠNG CÁC ĐỐI TƯỢNG THAM GIA GIAO THÔNG DÙNG MẠNG NƠRON HỌC SÂU NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203 Hướng dẫn khoa học: TS: LÊ MỸ HÀ Tp Hồ Chí Minh, tháng 04/2018 Luan van i Luan van Luan van %Ӝ*,È2'Ө&9¬ĈҤ27Ҥ2 75ѬӠ1*ĈҤ,+Ӑ&6Ѭ3+Ҥ0.Ӻ7+8Ұ7 7+¬1+3+Ӕ+Ӗ&+Ë0,1+ 3+,ӂ81+Ұ1;e7/8Ұ19Ă17+Ҥ&6Ӻ 'jQKFKRJLҧQJYLrQSKҧQELӋQ 7rQÿӅWjLOXұQYăQWKҥFVӻ 1KұQGҥQJFiFÿӕLWѭӧQJWKDPJLDJLDRWK{QJGQJPҥQJUѫURQOӑFVkX 7rQWiFJLҧ 75Ҫ148Ӕ&72Ҧ1 MSHV: 1580717 Ngành: ӻWKXұWÿLӋQWӱ Khóa: 2015 Ĉӏnh Kѭӟng: ӬQJGөQJ +ӑYjWrQQJѭӡLSKҧQELӋQ 3*6767UҫQ&{QJ+QJ &ѫTXDQF{QJWiF +ӑF9LӋQ&{QJ1JKӋ%ѭX&KtQK9LӉQ7K{QJFѫVӣWҥL7S+ӗ&Kt0LQK ĈLӋQWKRҥLOLrQKӋ 0903918043 ,é.,ӂ11+Ұ1;e7 9ӅKuQKWKӭF NӃWFҩXOXұQYăQ &ҩXWU~FOXұQYăQWUuQKEj\KӧSOêÿҫ\ÿӫ/XұQYăQWәFKӭFWKjQK4FKѭѫQJWKӇKLӋQTXD55 trang 17 tài OLӋXWKDPNKҧRJӗP &KѭѫQJ17әQJTXDQ &KѭѫQJ2&ѫVӣOêWKX\ӃW &KѭѫQJ3ÈSGөQJPҥQJQѫURQWtFKFKұSWURQJYLӋFQKұQGҥQJFiFÿӕLWѭӧQJWKDPJLDJLDRWK{QJ &KѭѫQJ4.ӃWOXұQYjKѭӟQJSKiWWULӇQ Trình bày: 7UuQKEj\VҥFKÿҽS 9ӅQӝLGXQJ 2.1 Nh̵n xét v͉ÀбǡÙǡЛЛǡïЪOX̵QYăQ 7UuQKEj\QӝLGXQJU}UjQJVҥFKÿҽS 2.2 Nh̵±¯ЮуоЦÀРЪМпрк×¯ï¯а ЮпСлфÀЮ 7iFJLҧWUtFKGүQWjLOLӋXWKDPNKҧRÿҫ\ÿӫ 2.3 Nh̵±Ыͭc tiêu nghiên cͱu, ph˱˯ng pháp nghiên cͱu s͵ dͭng LVTN 3KѭѫQJSKiSQJKLrQFӭXFӫDWiFJLҧ .KҧRViWFiFF{QJWUuQKNKRDKӑFOLrQTXDQ 7KӵFKLӋQP{SKӓQJSKkQWtFKÿiQKJLi 2.4 Nh̵n xét T͝ng quan cͯ¯͉ tài ĈӅ[XҩW[k\GӵQJPӝWP{KuQKFҩXWU~F&11VPӟLYjWLӃQKjQKKXҩQOX\ӋQPҥQJWUrQQKLӅXWұSGӳOLӋX NKiFQKDXÿӇWӕLѭXP{KuQKNLӃQWU~FPҥQJYjÿһFELӋWWiFJLҧVӁKXҩQOX\ӋQPҥQJYӟLGӳOLӋXOj%LF\FOH &DU'RJ0RWRELNH3HRSOHÿӇӭQJGөQJYjRYLӋFQKұQGҥQJFiFÿӕLWѭӧQJWKDPJLDJLDRWK{QJ 2.5 С±¯͉ n͡ƬНрнп ĈӅWjLFyWtQKOêWKX\ӃWPөFWLrXFKtQKOj[k\GӵQJPӝWP{KuQKNLӃQWU~F&11'HPRP{KuQKFyNKҧ QăQJSKiWKLӋQQKұQGҥQJÿ~QJFiFÿӕLWѭӧQJWKDPJLDJLDRWK{QJWURQJKuQKҧQKKRһFYLGHR 2.6 С±¯͉ kh̫£ͱng dͭǡахЭͯ¯͉ tài ĈӅWjLFyWKӇGQJOjPWjLOLӋXWKDPNKҧRFKRFiFKӑFYLrQNKyDVDX Luan van 2.7 Lu̵£ОЯуǡефз¿ȋ͇t sót t͛n t̩i): /ӛLFKtQKWҧWUDQJ II CÁC VҨ0ӄ CҪN LÀM RÕ &iFFkXK͗LFͯDJL̫QJYLrQSK̫QEL͏Q &kXKӓL 17URQJÿӅWjLQj\WҥLVDRWiFJLҧÿLVkXYjRP{KuQKPҥQJQѫURQWtFKFKұS±&RQYROXWLRQ1HXUDO1HWZRUN – CNN ? 27rQÿӅWjLWKHR4X\ӃWÿӏQKNKiFYӟLWrQKLӋQQD\" Hình 8/ѭXÿӗTXiWUuQKKXҩQOX\ӋQ+uQK3 100LQKKӑDFiFEѭӟFWtQKFiFOӟS&11OjFӫDWiFJLҧ KD\DLÿӅ[XҩW" 2.6.2 Mạng nơron tích chập (Convolutional Neural Networks – CNNs) Mơ hình mạng nơ ron nhân tạo truyền thẳng (feedforward neural network) đời áp dụng nhiều toán nhận dạng Tuy nhiên mạng nơron truyền thẳng tốt liệu hình ảnh Chính liên kết đầy đủ tạo nên hạn chế cho mơ hình Dữ liệu hình ảnh có kích thước lớn, ảnh xám có kích thước 32×32 (pixels) cho vector đặc trưng có 1024 chiều, cịn ảnh màu kích thước 3072 chiều Điều có nghĩa cần tới 3072 trọng số nối lớp vào node lớp ẩn Số lượng trọng số nhân rộng số lượng node lớp ẩn tăng lên, số lượng lớp ẩn tăng lên Như với ảnh nhỏ (32×32) cần đến mơ hình đồ sộ Điều khiến cho việc thao tác với ảnh có kích thước lớn trở nên khó khăn Một điều việc liên kết cách đầy đủ điểm ảnh vào node mạng dư thừa phụ thuộc lẫn điểm ảnh xa không nhiều mà chủ yếu phụ thuộc điểm lân cận với Dựa tư tưởng mạng nơ-ron tích chập (Convolutional Neural Network) đời với kiến trúc khác so mạng truyền thẳng Thay tồn ảnh nối với node có phần cục ảnh nối đến node lớp (Local connectivity) Dữ liệu hình ảnh thơng qua lớp mơ hình “học” đặc trưng để tiến hành phân lớp cách hiệu Về mơ hình mạng nơ-ron tích chập bao gồm lớp sau: lớp Convolutional, lớp ReLU, lớp Pooling, lớp Fully Connected Sự xếp số lượng thứ tự lớp tạo mơ hình khác phù hợp cho tốn khác 28 Luan van Hình 2.30: Mơ hình CNNs Trong suốt trình huấn luyện, CNNs tự động học thông số cho filter Ví dụ tác vụ phân lớp ảnh, CNNs cố gắng tìm thơng số tối ưu cho filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features Layer cuối dùng để phân lớp ảnh CNNs có tính bất biến tính kết hợp cục (Location Invariance and Compositionality) Với đối tượng, đối tượng chiếu theo gốc độ khác (translation, rotation, scaling) độ xác thuật tốn bị ảnh hưởng đáng kể Pooling layer cho bạn tính bất biến phép dịch chuyển (translation), phép quay (rotation) phép co giãn (scaling) Tính kết hợp cục cho ta cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thơng qua convolution từ filter Đó lý CNNs cho mơ hình với độ xác cao Cũng giống cách người nhận biết vật thể tự nhiên Ta phân biệt chó với mèo nhờ vào đặc trưng từ mức độ thấp (có chân, có đi) đến mức độ cao (dáng đi, hình thể, màu lơng) 2.7 Chi tiết lớp mơ hình CNNs 2.7.1 Lớp Convolutional Lớp nơi thể tư tưởng ban đầu mạng nơ-ron tích chập Thay kết nối tồn điểm ảnh, lớp sử dụng lọc (filters) có kích thước nhỏ so với ảnh (thường 3×3 5×5) áp vào vùng ảnh tiến hành tính tích chập filter giá trị điểm ảnh vùng cục 29 Luan van Bộ filter [12] dịch chuyển theo giá trị bước trượt (stride) chạy dọc theo ảnh qt tồn ảnh Hình 2.31: Kết chập Hình 2.32: Kết chập thứ 30 Luan van Hình 2.33: Kết chập hết ảnh ngõ vào Nguồn: https://www.youtube.com/watch?v=FrKWiRv254g Hình 2.34: Kết chập với filter thứ 31 Luan van Ta sử dụng filter để tính tích chập ngõ vào có nhiêu ảnh ngõ sau lớp tích chập Hình 2.35: Các trọng số kết nối vào neural Như với neural lớp ngõ sau tích châp ta tính 3*3 = trọng số, cộng thêm bias tất 10 tham số cho neural Vậy ngõ lớp tích chập có neural nhân lên nhiêu lần Đối với ảnh ngõ vào ảnh RGB ta nhân thêm với Sử dụng filter ta nhân thêm nhiêu Như với ảnh 64×64 filter 5×5, ta có kết ảnh có kích thước 64×64 (với điều kiện thêm padding vào ảnh gốc 32 Luan van để tính tích chập cho trường hợp filter quét biên cạnh) kết tích chập filter ảnh Với filter lớp ta có nhiêu ảnh tương ứng mà lớp trả truyền vào lớp Các trọng số filter ban đầu khởi tạo ngẫu nhiên học dần q trình huấn luyện mơ hình Padding = Hình 2.36: Kích thước ngõ lớp Convolution Cơng thức tính ngõ tích chập: Trong đó: 𝑊−𝐹+2𝑃 𝑆 +1 W: kích thước ma trận chập F: kích thước kernel P: Padding (mặc định 0) S: Stride (mặc định 1) 2.7.2 Lớp ReLU (Rectified Linear Unit) Lớp thường cài đặt sau lớp Convolutional Lớp sử dụng hàm kích hoạt f(x) = max(0, x) Nói cách đơn giản, lớp có nhiệm vụ chuyển toàn giá trị âm kết lấy từ lớp Convolutional thành giá trị Ý nghĩa cách cài đặt tạo nên tính phi tuyến cho mơ hình Tương tự mạng truyền thẳng, việc xây dựng dựa phép biến đổi tuyến tính khiến việc xây dựng đa tầng đa lớp trở nên vơ nghĩa Có nhiều cách để khiến mơ hình trở nên phi tuyến sử dụng hàm kích hoạt sigmoid, tanh, … hàm f(x) = max(0, x) dễ cài đặt, tính tốn nhanh mà hiệu 33 Luan van Hình 2.37: Hàm kích hoạt ReLU 2.7.3 Lớp Pooling Lớp sử dụng cửa sổ trượt [13] quét qua toàn ảnh liệu, lần trượt theo bước trượt (stride) cho trước Khác với lớp Convolutional, lớp Pooling không tính tích chập mà tiến hành lấy mẫu (subsampling) Khi cửa sổ trượt ảnh, có giá trị xem giá trị đại diện cho thông tin ảnh vùng (giá trị mẫu) giữ lại Các phương thức lấy phổ biến lớp Pooling MaxPooling (lấy giá trị lớn nhất), MinPooling (lấy giá trị nhỏ nhất) AveragePooling (lấy giá trị trung bình) Xét ảnh có kích thước 64×64 lớp Pooling sử dụng filter có kích thước 2×2 với bước trượt stride = 2, phương pháp sử dụng MaxPooling Filter duyệt qua ảnh, với lần duyệt có giá trị lớn giá trị nằm vùng cửa sổ 2×2 filter giữ lại đưa đầu Hình 2.308: Cách hoạt động hàm Maxpooling 34 Luan van Như sau qua lớp Pooling, ảnh giảm kích thước xuống cịn 32×32 (kích thước chiều giảm lần) Hình 2.39: Kích thước ngõ lớp Pooling Cơng thức tính ngõ pooling: Trong đó: 𝑊−𝐹 𝑆 +1 W: kích thước ma trận pooling F: kích thước kernel S: Stride Lớp Pooling có vai trị giảm kích thước liệu Với ảnh kích thước lớn qua nhiều lớp Pooling thu nhỏ lại nhiên giữ đặc trưng cần cho việc nhận dạng (thông qua cách lấy mẫu) Việc giảm kích thước liệu làm giảm lượng tham số, tăng hiệu tính tốn góp phần kiểm sốt tượng q khớp (overfitting) 2.7.4 Lớp FC (Fully Connected) Lớp tương tự với lớp mạng nơ-ron truyền thẳng, giá trị ảnh liên kết đầy đủ vào node lớp Sau ảnh xử lý rút trích đặc trưng từ lớp trước đó, liệu ảnh khơng cịn q lớn so với mơ hình truyền thẳng nên ta sử dụng mơ hình truyền thẳng để tiến hành nhận dạng Tóm lại, lớp fully-connected đóng vai trị mơ hình phân lớp tiến hành dựa liệu xử lý lớp trước 35 Luan van Input: Các neural ngõ lớp Maxpooling cuối ngõ vào lớp Full Connected Hình 2.40: Lớp kết nối đầy đủ neural từ lớp lại với 36 Luan van Chương ÁP DỤNG MẠNG NƠ RON TÍCH CHẬP TRONG VIỆC NHẬN DẠNG CÁC ĐỐI TƯỢNG THAM GIA GIAO THÔNG 3.1 Sơ đồ khối Chia liệu huấn luyện Mơ hình CNN Dữ liệu training Dữ liệu huấn luyện Dữ liệu test Nhận dạng Dự đốn đối tượng Hình 3.1 : Sơ đồ khối 3.1.1 Dữ liệu huấn luyện Tác giả thực huấn luyện nhiều tập liệu khác với kích thước 64x64  Dữ liệu tự tạo tên T_01 Tác giả download mạng loại liệu để huấn luyện mạng cho việc nhận dạng đối tượng tham gia giao thông sau: Bicycle, Car, Dog, Motobike, People Mỗi đối tượng có 300 hình ảnh 37 Luan van Bicycle Car Dog Motorbike People Hình 3.2 : Dữ liệu đối tượng tham gia giao thông  Dữ liệu chuẩn [14] Caltech-101 thu thập Fei-Fei Li, Marco Andreetto, and Marc 'Aurelio Ranzato Caltech-101 có tấc 101 đối tượng, tác giả chọn ngẫu nhiên loại đối tượng để thực huấn luyện Airplanes Bathtub Billiards 38 Luan van Faces Leopards Hình 3 : Một số hình ảnh Caltech-101  Dữ liệu chuẩn Cifar-10 Cifar-10 có tấc 10 loại [15] đối tượng, tác giả chọn loại ngẫu nhiên Deer, Dog, Frog, Ship, Cat Hình : Một số hình ảnh Cifar-10 Nguồn https://www.cs.toronto.edu/~kriz/cifar.html  Dữ liệu Matlab Dữ liệu có tên MerchData DigitDataset [16] Cap 39 Luan van Cube Playing Card Screwdriver Torch Hình : Một số hình ảnh tập liệu Merch Hình : Một số hình ảnh tập liệu DigitDataset 40 Luan van 3.1.2 Chia liệu huấn luyện Tác giả thực chia liệu huấn luyện thành phần liệu training (70%) liệu test (30%) 3.1.3 Xây dựng mơ hình CNN Từ lớp (mục 2.7) tác giả xây dựng nên mơ hình CNN ứng dụng vào nhận dạng đối tượng tham gia giao thông xây dựng tất gồm 15 lớp, có lớp Convolution, lớp ReLU, lớp Maxpooling lớp Fully Connected Output gồm loại Hình : Mơ hình CNN việc nhận dạng đối tượng tham gia giao thông Một mạng nơ-ron tích chập hình thành cách ghép lớp nêu lại với Mơ hình bắt đầu với lớp Convolutional Lớp ReLU thường cài đặc sau lớp Convolutional chí kết hợp hai lớp thành lớp Các lớp Convolutional hay Pooling tùy theo kiến trúc mà ta muốn xây dựng Cuối lớp Fully-Connected để tiến hành phân lớp  Lớp convolution sử dụng 32 filter kích thước 5x5 với stride (mặc định), padding để chập với ảnh gốc  Lớp Maxpooling ba lớp sử dụng ma trận 3x3 với stride padding (mặc định) để giảm kích thước lớp convolution  Lớp convolution thứ hai giống lớp convolution sử dụng 32 filter kích thước 5x5 với stride padding  Lớp convolution thứ ba sử dụng 64 filter kích thước 5x5 với stride padding  Lớp Fully connected sử dụng 64 nơ ron để tiến hành phân lớp 41 Luan van 3.1.4 Nhận dạng Sau hoàn thành việc huấn luyện ta tiến hành phân loại đối tượng thành loại 3.1.5 Dự đoán đối tượng Ta tiến hành kiểm tra lại mạng cách đưa ảnh vào mạng tiến hành dự đoán đối tượng dựa vào phân loại 42 Luan van ... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TRẦN QUỐC TOẢN NHẬN DẠNG CÁC ĐỐI TƯỢNG THAM GIA GIAO THÔNG DÙNG MẠNG NƠRON HỌC SÂU NGÀNH: KỸ THUẬT ĐIỆN TỬ... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TRẦN QUỐC TOẢN NHẬN DẠNG CÁC ĐỐI TƯỢNG THAM GIA GIAO THÔNG DÙNG MẠNG NƠRON HỌC SÂU NGÀNH: KỸ THUẬT ĐIỆN TỬ... layer mạng, filter sử dụng nhận dạng đối tượng khác Phương pháp nhận dạng sử dụng kỹ thuật CNN đề tài tác giả nhận dạng đối tượng ảnh video, ảnh video đối tượng tham gia giao thơng: Bicycle, Dog,