BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Dương Xuân Huy PHÂN LỚP ĐỒNG PHỤC SINH VIÊN DÙNG MÔ HÌNH HỌC SÂU Chuyên ngành Khoa học máy tính Mã số 8 48 01 01 LUẬN VĂN THẠC SĨ KH[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Dương Xuân Huy PHÂN LỚP ĐỒNG PHỤC SINH VIÊN DÙNG MƠ HÌNH HỌC SÂU Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HOC: PGS.TS LÊ HOÀNG THÁI Thành phố Hồ Chí Minh - 2019 Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan cơng trình nghiên cứu thân tôi, hướng dẫn khoa học Thầy PGS.TS Lê Hồng Thái (Khoa Cơng nghệ Thơng tin, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Thành phố Hồ Chí Minh) Các thơng tin số liệu luận văn có nguồn gốc rõ ràng, cụ thể, trích dẫn theo quy định hành Tôi xin cam đoan nội dung kết luận văn xuất phát từ công sức q trình lao động, nghiên cứu hồn tồn trung thực, khách quan Tp Hồ Chí Minh, tháng 12 năm 2019 Tác giả Dương Xuân Huy Lời cám ơn Lời đầu tiên, xin gửi lời cám ơn sâu sắc đến thầy PGS.TS Lê Hồng Thái (Khoa Cơng nghệ Thơng tin, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Thành phố Hồ Chí Minh) hướng dẫn luận văn phát triển định hướng Tôi xin cám ơn thầy ThS Trần Sơn Hải (Khoa Công nghệ Thông tin, Trường Đại học Sư Phạm Thành phố Hồ Chí Minh) góp cơng sức hướng dẫn, hỗ trợ đồng chí Ban Chấp hành Đoàn Trường, Ban Chấp hành đoàn khoa Giáo dục Tiểu học, Giáo dục Mầm non, Giáo dục Đặc Biệt, Công nghệ Thông tin Trường Đại học Sư phạm Thành phố Hồ Chí Minh bỏ nhiều thời gian hỗ trợ việc thu thập, kiểm tra gán nhãn liệu để thực đề tài luận văn Tôi gửi lời cám ơn chân thành đến quý Thầy/ Cô giảng dạy môn ngành Khoa học máy tính khóa K28 cung cấp kiến thức quý báu làm tảng trình học tập nghiên cứu Đồng thời, xin gửi lời cám ơn đến quý Thầy/Cô Ban Chủ nhiệm khoa Công nghệ Thơng tin q Thầy/Cơ phịng Sau Đại học Trường Đại học Sư phạm Thành phố Hồ Chí Minh hỗ trợ, tạo điều kiện thuận lợi cho suốt thời gian qua Trong trình thực tìm hiểu nghiên cứu đề tài, tơi gặp nhiều khó khăn q Thầy/Cơ hỗ trợ, động viên để tơi hồn thành tốt Luận văn Cuối cùng, tơi xin bày tỏ lịng biết ơn đến gia đình, bạn bè động viên, hỗ trợ vật chất lẫn tinh thần suốt trình học tập nghiên cứu thực luận văn Chân thành cám ơn quý vị Tác giả Dương Xuân Huy MỤC LỤC Trang Lời cam đoan Lời cảm ơn Mục lục Danh mục thuật ngữ viết tắt Danh mục bảng biểu Danh mục hình vẽ CHƯƠNG TỔNG QUAN 1.1 Khái quát đồng phục sinh viên 1.2 Bài toán phân lớp đồng phục sinh viên 1.3 Mục tiêu hướng đến toán 1.4 Hướng tiếp cận giải pháp cho toán CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 10 2.1 Hệ thống phân lớp hình ảnh 10 2.1.1 Bài toán phân lớp 10 2.1.2 Các kỹ thuật phân lớp 12 2.1.3 Các tiêu chuẩn đánh giá 23 2.2 Kỹ thuật phân lớp ảnh dùng Convolutional Neural Network 23 2.2.1 Kiến trúc mơ hình CNN 26 2.2.2 Một số kiến trúc CNN thông dụng 33 2.2.3 Tập liệu đầu vào cho mơ hình CNN 41 2.2.4 Độ đo đánh giá mơ hình 42 CHƯƠNG MƠ HÌNH CNN CHO PHÂN LỚP ĐỒNG PHỤC SINH VIÊN CÁC KHOA CỦA TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HCM 46 3.1 Tiền xử lý ảnh chuẩn hóa liệu 46 3.2 Đề xuất mô hình CNN 49 3.3 Q trình huấn luyện mơ hình phân lớp hình ảnh 53 CHƯƠNG THỰC NGHIỆM VÀ BÀN LUẬN 55 4.1 Cơ sở liệu 55 4.2 Môi trường thực nghiệm 58 4.3 Quá trình thực nghiệm 59 4.4 Kết thực nghiệm 59 4.4.1 Tỉ lệ tập huấn luyện kiểm tra 59 4.4.2 Kích thước ảnh đầu vào 65 4.4.3 Tăng thêm số lượng ảnh đầu vào 68 4.4.4 Tổng kết kết thực nghiệm 73 CHƯƠNG KẾT LUẬN VÀ KHUYẾN NGHỊ 75 5.1 Kết luận 75 5.2 Kiến nghị 76 TÀI LIỆU THAM KHẢO 77 DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT Chữ viết tắt Nguyên mẫu Diễn giải CNN Convolutional Neural Networks Mạng nơ-ron tích chập NN Neural Networks Mạng nơ-ron SVM Support Vector Machine Máy vector hỗ trợ KNN K-Nearest Neighbor K Láng giềng gần ReLU Rectified Linear Unit Hàm kích hoạt ReLU GPU Graphics Processing Unit Bộ xử lý đồ họa CONV Covolutional layer Tầng tích chập POOL Pooling layer Tầng giảm số chiều FC Fully connected layer Tầng kết nối đầy đủ DANH MỤC CÁC BẢNG BIỂU Bảng 4.1 Thống kê số lượng dung lượng tập ảnh đồng phục sinh viên 56 Bảng 4.2 Thống kê số liệu tập liệu đầu vào 58 Bảng 4.3 Thống kê kết thực nghiệm thay đổi tỉ lệ phân bố tập liệu 64 Bảng 4.4 Thống kê kết thực nghiệm với kích thước ảnh đầu vào 68 Bảng 4.5 Thống kê kết thực nghiệm với liệu tăng thêm 70 Bảng 4.6 Thống kê kết thực nghiệm huấn luyện 300 lần với liệu tăng thêm 71 DANH MỤC HÌNH VẼ Hình 1.1 Đồng phục sinh viên số khoa trực thuộc Trường Đại học Sư phạm Thành phố Hồ Chí Minh Hình 1.2 Chương trình Perfect Student Đồn Trường triển khai Hình 1.3 Ảnh sinh viên mặc đồng phục đăng tải mạng xã hội Hình 1.4 Mô tả đồng phục số khoa nhiều đặc điểm gần giống Hình 1.5 Minh họa vấn đề phân lớp đồng phục sinh viên Hình 1.6 Các bước thực tốn phân lớp đồng phục dùng mơ hình CNN Hình 2.1 Mơ tả tốn phân lớp toán phân cụm 11 Hình 2.2 Thuật tốn K-Mean với vùng liệu 13 Hình 2.3 Phân vùng đối tượng SVM với đường thẳng (trái), siêu phẳng (phải) 16 Hình 2.4 Mơ tả nhiều siêu phẳng phân chia tập liệu thành vùng 17 Hình 2.5 Biểu diễn mơ hình phân lớp 19 Hình 2.6 Minh họa mơ hình nơ-ron thần kinh 20 Hình 2.7 Mơ hình tốn học mô tả cấu trúc nơ-ron 21 Hình 2.8 Mơ hình mạng nơ-ron 22 Hình 2.9 Bộ liệu chữ ký số MNIST 25 Hình 2.10 Bộ liệu hình ảnh với 10 phân lớp CIFAR-10 [11] 25 Hình 2.11 Một mơ hình CNN với thành phần 26 Hình 2.12 Một số lọc Kernel xử lý ảnh 29 Hình 2.13 Tích chập lọc vào ảnh với stride = 29 Hình 2.14 Tích chập lọc vào ảnh với stride = có thêm padding 30 Hình 2.15 Minh họa tầng Pooling với pooling window = stide = 32 Hình 2.16 Mơ hình CNN với tầng FC cho kết dự đoán phân lớp 33 Hình 2.17 Mơ hình LeNet-1 34 Hình 2.18 Mơ hình LeNet-4 34 Hình 2.19 Mơ hình LeNet-5 34 Hình 2.20 Mơ hình VGG-16 36 Hình 2.21 Mơ tả q trình xử lý mơ hình VGG-16 37 Hình 2.22 Mơ tả residual block 38 Hình 2.23 Cấu trúc ResNet 34 ResNet 50 39 Hình 2.24 Mơ tả qui trình tính tốn ResNet 50 39 Hình 2.25 Biểu diễn mơ hình DenseNet 40 Hình 2.26 Số lượng liên kết tầng DenseNet 40 Hình 2.27 Biểu đồ Confusion-Matrix với phân lớp 43 Hình 3.1 Minh họa số ảnh thu thập tập liệu đồng phục sinh viên 47 Hình 3.2 Mơ tả giai đoạn chuẩn hóa hình ảnh 49 Hình 3.3 Cấu trúc mơ hình CNN q trình thực nghiệm thay đổi tỉ lệ tập huấn luyện kiểm tra 51 Hình 3.4 Minh họa mơ hình CNN đề xuất cho tốn phân lớp đồng phục 52 Hình 4.1 Mơ tả số hình ảnh sau tổng hợp chuẩn hóa 56 Hình 4.2 Mơ tả trình áp dụng phép biến đổi ảnh gốc 57 Hình 4.3 Mơi trường thực nghiệm 58 Hình 4.4 Kết thực nghiệm chia liệu theo tỉ lệ 10-90 61 Hình 4.5 Kết thực nghiệm chia liệu theo tỉ lệ 20-80 62 Hình 4.6 Kết thực nghiệm chia liệu theo tỉ lệ 30-70 62 Hình 4.7 Kết thực nghiệm chia liệu theo tỉ lệ 50-50 63 Hình 4.8 Kết thực nghiệm thay đổi tỉ lệ phân bố tập liệu 65 Hình 4.9 Cấu trúc mơ hình thay đổi kích thước tập ảnh đầu vào 66 Hình 4.10 Kết mơ hình sử dụng tập ảnh đầu vào 50 x 75 pixel 66 Hình 4.11 Kết mơ hình sử dụng tập ảnh đầu vào 100 x 150 pixel 67 Hình 4.12 Kết mơ hình sử dụng tập ảnh đầu vào 150 x 225 pixel 67 Hình 4.13 Kết thực nghiệm với liệu tăng thêm kích thước 50 x75 69 Hình 4.14 Kết thực nghiệm với liệu tăng thêm kích thước 150x225 70 Hình 4.15 Tổng hợp kết sau huấn luyện 100 lần với liệu tăng thêm 71 Hình 4.16 Tổng hợp kết sau huấn luyện 300 lần với liệu tăng thêm 72 Hình 4.17 Huấn luyện 300 lần với liệu tăng thêm kích thước 50 x 75 72 64 luyện thứ 384/400 giá trị đạt mốc thấp 0.34659 Con số cao gấp rưỡi so với tỉ lệ đầu mà ta phân bổ Có thể nhận thấy gia tăng số lượng hình ảnh tập kiểm tra chất lượng mơ hình giảm Điều tất nhiên số lượng hình ảnh tập huấn luyện giảm nhiều, mơ hình khơng huấn luyện nhiều cho kết tốt Tác giả tiến hành thực nghiệm từ tỉ lệ 10 – 90 đến tỉ lệ 90 – 10 lập biểu đồ số giá trị mơ hình q trình thực nghiệm Ngồi giá trị phân tích trên, độ xác mơ hình dùng hình ảnh từ tập liệu kiểm tra tốc độ xử lý lưu lại để đối chiếu Bảng 4.3 Thống kê kết thực nghiệm thay đổi tỉ lệ phân bố tập liệu Tỉ lệ tập kiểm tra Model_Loss Thời điểm Test_Accuracy 10 % 0.20254 358/400 92.0792 20 % 0.17033 379/400 93.3168 30 % 0.20737 364/400 93.8944 40 % 0.23423 400/400 90.9542 50 % 0.34659 384/400 92.3687 60 % 0.4612 308/400 89.5128 70 % 0.29931 387/400 90.5099 80% 0.44836 291/400 85.1921 90% 1.10426 94/100 63.326 65 120 100 80 60 40 20 10% 20% 30% 40% Test Accuracy 50% 60% 70% 80% 90% Model Loss Hình 4.8 Kết thực nghiệm thay đổi tỉ lệ phân bố tập liệu Biểu đồ hình ảnh phần thể kết bước thực nghiệm cách thay đổi tỉ lệ phân chia tập liệu huấn luyện tập liệu tập huấn Rõ rang ta thấy số lượng hình ảnh tiêu chí thiết yếu với việc sử dụng mơ hình CNN để huấn luyện đặc trưng hình ảnh Song dù số lượng hình ảnh nhiều hay tỉ lệ phân bố cho tập liệu huấn luyện kiểm tra phải hợp lý, tỉ lệ nên chọn từ 20 đến 30 phần trăm toàn tập liệu Với kết thực nghiệm này, tác sử dụng tỉ lệ 30 – 70 để tiếp tục thử nghiệm bước sau 4.4.2 Kích thước ảnh đầu vào Tập liệu gốc sau thu thập chuẩn hóa kích thước 1000 x 1500 pixel để đảm bảo tính quán liệu Sở dĩ tác giả khơng chuẩn hóa kích thước nhỏ để phù hợp với mơ hình huấn luyện với CNN để thử nghiệm với nhiều kích thước khác nha Tại lần thử nghiệm tác giả sử dụng kích thước ảnh giảm dần 150 x 225 pixel, 100 x 150 pixel 50 x 75 pixel Mỗi lần thực nghiệm, tác giả sử dụng ảnh 1000 x 1500 đưa kích thước đề xuất để giữ nguyên chất lượng hình ảnh, không bị đặc trưng giảm tỉ lệ ảnh nhiều lần Tỉ lệ phân bố tập liệu nêu 30 – 70 (lúc tập huấn luyện có 1411 ảnh cịn lại 606 ảnh cho tập kiểm tra) 66 Hình 4.9 Cấu trúc mơ hình thay đổi kích thước tập ảnh đầu vào Quan sát thay đổi giá trị đầu vào tang CONV – POOL – DropOut Kích thước ảnh lớn độ dài vector trải lớn gấp nhiều lần so với tầng sau Ta tiến hành kiểm tra độ lỗi kết phân lớp mơ hình với kích thước tập liệu ảnh đầu vào Hình 4.10 Kết mơ hình sử dụng tập ảnh đầu vào 50 x 75 pixel Như phân tích trên, với tập liệu ảnh đầu vào 50 x 75 pixel, độ lỗi mô hình giảm dần qua lần huấn luyện kết qua 400 lần huấn luyện 67 tốt với 20% Tuy nhiên biên độ giảm độ lỗi với tập liệu gần tạo thành góc 45 độ, kết cho khả quan Hình 4.11 Kết mơ hình sử dụng tập ảnh đầu vào 100 x 150 pixel Với tập ảnh đầu vào lớn lần huấn luyện đầu tiên, biến thiên độ lỗi mịn hơn, khơng tăng giảm liên tục nhiều kích thước 50 x 75 pixel Ở khoảng từ lần huấn luyện thứ 200/400 độ lỗi mơ hình giảm đến ngưỡng 50% tới đây, khơng tiếp tục giảm mạnh mà giao động nhẹ Độ lỗi tối ưu mô hình sau 400 lần huấn luyện đạt mức 0.41682, thấp gấp đôi so với thử nghiệm với kích thước 50 x 75 pixel Giá trị đạt lần huấn luyện thứ 304/400, thấy độ lỗi mơ hình bão hịa gần 100 lần huấn luyện khơng cải thiện Hình 4.12 Kết mơ hình sử dụng tập ảnh đầu vào 150 x 225 pixel 68 Với lần huấn luyện này, kết có mơ hình khơng khả quan so với kích thước 100 x 150 pixel Cũng qua 200 lần huấn luyện giảm độ lỗi tới ngưỡng gần 50%, chí tiếp tục huấn luyện thêm khơng cải thiện Bảng 4.4 Thống kê kết thực nghiệm với kích thước ảnh đầu vào Kích thước Model_Accuracy Model_Loss Test_Accuracy Time cost 50 x 75 0.9404 0.20737 93.8944% 708s 100 x 150 0.9915 0.41682 89.7690% 2707s 150 x 225 1.0000 0.53224 84.8185% 6247s Qua thực nghiệm với kích thước ta nhận thấy với mơ hình học sâu CNN, không thiết phải sử dụng hình ảnh q lớn đạt kết phân lớp tốt Thông qua nhân chập, đặc trưng ảnh rút trích sau cường hóa tầng max-pooling nên kích thước ảnh khơng thay đổi q nhiều kết không bị ảnh hưởng nhiều Tuy nhiên xét góc độ khác, số lượng hình ảnh dùng cịn ít, mơ hình chưa huấn luyện kỹ nên kết chưa phải điểm kết Do nêu, tác giả sử dụng số kỹ thuật xử lý ảnh để tăng thêm số lượng hình ảnh cho tập huấn luyện Trong phần liệu tăng thêm sử dụng 4.4.3 Tăng thêm số lượng ảnh đầu vào Số lượng hình ảnh đầu vào ln vấn đề quan tâm với kỹ thuật phân lớp hình ảnh CNN Các kỹ thuật xử lý ảnh áp dụng để gia tăng đáng kể số lượng hình ảnh đầu vào cho tập huấn luyện Như nêu, tác giả sử dụng phép biến đổi ảnh để có tập ảnh đầu vào có 12000 ảnh chia thành phân lớp Số lượng ảnh đầu vào gia tăng dấn đến thời gian xử lý máy tính dài với lần huấn luyện Do giai đoạn đầu tác giả giảm bớt số lần huấn luyện xuống 100 lần tiếp tục thử nghiệm với kích thước trước 69 Hình 4.13 Kết thực nghiệm với liệu tăng thêm kích thước 50 x75 Với gia tăng số lượng ảnh cho tập huấn luyện, mơ hình CNN có thay đổi rõ rệt Sự biến thiên độ lỗi bước thực nghiệm tương đối mịn so với giai đoạn chưa tăng thêm số lượng ảnh, độ lỗi có chiều hướng giảm dần qua lần huấn luyện Chỉ với 100 lần huấn luyện, mơ hình đạt kết phân lớp với độ xác 90% độ lỗi giảm xuống mức 20% Độ lỗi ghi nhận lần thứ 100/100 tối ưu với giá trị 0.18078, thấp huấn luyện 400 lần giai đoạn trước Với cải thiện kết lần huấn luyện thứ 100 này, mơ hình cịn học nhiều lần kết khả quan 70 Hình 4.14 Kết thực nghiệm với liệu tăng thêm kích thước 150x225 Khác với chưa sử dụng tập liệu ảnh tăng thêm, với số lượng ảnh lớn nhiều, kích thước ảnh đầu vào cho kết tốt Cũng giống với dùng kích thước tập đầu vào 50x75 pixel, độ lỗi mơ hình CNN với kích thước 150x225 pixel giảm dần qua 100 lần huấn luyện Độ lỗi ghi nhận lần thứ 100/100 tối ưu với giá trị 0.02508, chí kết cịn cao dùng kích thước 50x75 pixel Ta tiến hành so sánh kết sử dụng kích thước 50 x 75, 100 x 150, 150 x 225 pixel với tập ảnh đầu vào tăng thêm cách phép biến đổi hình ảnh qua 100 lần huấn luyện Bảng 4.5 Thống kê kết thực nghiệm với liệu tăng thêm Kích thước Model_Accuracy Model_Loss Test_Accuracy Time cost 50 x 75 0.9464 94.4368% 0.1808 1060s 71 100 x 150 0.9809 0.0502 98.7882% 5550s 150 x 225 0.9906 0.02508 98.7882% 9557s 0.9464 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.944368 0.987882 0.9809 0.9906 0.987882 0.1808 50x75 pixel Model_Accuracy 0.0502 0.02508 100 x 150 pixel 150 x 225 pixel Model_Loss Test_Accuracy Hình 4.15 Tổng hợp kết sau huấn luyện 100 lần với liệu tăng thêm Qua biểu đồ hình ảnh minh họa ta thấy với kích thước khác nhau, độ xác mơ hình huấn luyện kiểm thử đạt kết khả quan xấp xỉ khoảng từ 94% đến 99%, cụ thể giá trị thấp với kích thước 50x75 pixel 94.64%, cao với kích thước 150x225 pixel 99.06% Khi kích thước ảnh nhỏ 50x75 pixel độ xác phân lớp thấp gần 5% so với độ xác phân lớp với kích thước lớn Chỉ cịn giá trị model_loss có khác biệt rõ rệt Đây tiêu chí để ta lựa chọn kích thước đầu vào cho tập huấn luyện Tuy nhiên sau 100 lần huấn luyện, theo biên độ thay đổi giá trị khả mơ hình cịn có khả thiện nữa, luận văn đề xuất tiếp tục tiến hành thực nghiệm với 300 lần huấn luyện Bảng 4.6 Thống kê kết thực nghiệm huấn luyện 300 lần với liệu tăng thêm Kích thước Model_Accuracy Model_Loss Test_Accuracy Time cost 50 x 75 0.9809 0.03648 99.2289% 3173s 100 x 150 0.9967 0.01230 99.5594% 12535s 150 x 225 0.9979 0.01630 99.2289% 42853s 72 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.9809 0.992289 0.9967 0.995594 0.992289 0.9979 0.03648 0.0123 0.0163 50x75 pixel 100 x 150 pixel 150 x 225 pixel Model_Accuracy Model_Loss Test_Accuracy Hình 4.16 Tổng hợp kết sau huấn luyện 300 lần với liệu tăng thêm Hình 4.17 Huấn luyện 300 lần với liệu tăng thêm kích thước 50 x 75 Với lần thử nghiệm với 300 lần huấn luyện, mô cho kết rõ nét Độ lỗi mơ hình gần tiến giá trị 0, tương đối bão hịa khơng thể đạt giá trị tuyệt đối cải thiện lớn Trong 100 lần huấn luyện độ lỗi giảm mạnh đến khoảng 0.2 từ sau giảm qua lần huấn luyện cập nhật trọng số Giá trị hàm lỗi sau 300 lần huấn luyện 0.03648, giảm gần lần huấn luyện 100 lần So sánh kết huấn luyện 300 lần với kích thước tập ảnh đầu vào, ta thấy độ xác mơ hình tập xấp xỉ nhau, độ lỗi 73 cải thiện đáng kể Đó so sánh dựa kết quả, nhìn nhận góc độ suất mơ hình ta thấy mơ hình huấn luyện với kích thước nhỏ tốt Một lần huấn luyện với tập ảnh có kích thước 50 x 75 pixel trung bình khoảng 10s, với tập ảnh có kích thước 100 x 150 pixel khoảng 42s 142s tập ảnh có kích thước 150 x 225 pixel Xét tổng quan kể hiệu suất suất mô hình ta nên lựa chọn mức độ trung bình đáp ứng tiêu chí tập ảnh có kích thước 100 x 150 pixel 4.4.4 Tổng kết kết thực nghiệm Sau trình thực nghiệm mơ hình CNN với khối xử lý bao gồm tầng Convolution, tầng Max-Pooling, tầng DropOut tầng Fully Connected với tỉ lệ phân chia liệu gốc phương pháp Hold-Out 1/3 cho tập kiểm tra 2/3 cho tập huấn luyện, kết phân lớp tốt đạt 93.8944% tập liệu gốc 2017 ảnh 99.5594% tập liệu ảnh tăng thêm 12102 ảnh Với liệu ảnh thu thập được, tác giả đưa trực tiếp ảnh vào mơ hình CNN để huấn luyện Việc làm ảnh hưởng đến kết phân lớp mơ hình Với mục đích phân lớp đồng phục, ảnh liệu chia làm phần, phần ảnh chứa áo đồng phục sinh viên mặc phần ảnh khung cảnh xung quanh Khơng loại trừ tường hợp có phần ảnh tương đồng nhau, trình huấn luyện, mơ hình CNN học ln đặc trưng ảnh đặc trưng gây nhiễu dẫn đến số ảnh có phần giống bị đưa phân lớp Việc giải thích cho kết cao mơ hình CNN thực nghiệm, để kết phân lớp xác hơn, ta kết hợp sử dụng kỹ thuật nhận diện vùng ảnh áo đồng phục để việc huấn luyện đặc trưng tập trung Dựa kết thực nghiệm đưa số bàn luận với liệu có khối lượng khơng q đồ sộ tỉ lệ phân bố số lượng ảnh cho tập liệu huấn luyện phải đủ lớn việc huấn luyện nhiều thường tỉ lệ tốt giao động từ khoảng 70 - 80% toàn tập liệu 74 Với mơ hình học sâu CNN việc sử dụng hình ảnh kích thước nhỏ giúp mạng rút trích nhiều đặc trưng tồn cục số đặc trưng tốt bị ưu điểm tốc độ huấn luyện nhanh, sử dụng hình ảnh có kích thước lớn hơn, nhiều chi tiết mơ hình rút trích nhiều đặc trưng tốt bỏ bỏ lỡ số đặc trưng tồn cục Khơng cần q quan trọng kích thước ảnh, tùy thuộc vào hồn cảnh sử dụng yêu cầu thực tế để lựa chọn, khơng có kích thước gọi phù hợp với trường hợp Với toán phân lớp hình ảnh dùng phương pháp mạng nơ-ron tích chập CNN, liệu thành phần quan trọng Tuy nhiên CNN cho kết khả quan với liệu không lớn Bên cạnh để phát huy điểm mạnh CNN tập liệu lớn, ta sử dụng số biện pháp tăng thêm ảnh Data Augmentation để tăng thêm số lượng hình ảnh cho phần huấn luyện Với ý tưởng sơ khai phương pháp học sâu, số lượng liệu nhiều, mơ hình huấn luyện kỹ kết phân tích cao Nhưng khơng phải mà ta phải xây dựng mơ hình CNN đồ sộ qua nhiều tầng xử lý, mơ hình cồng kềnh thời gian khả thực thi khó khăn, vất vả Do phải xây dựng cấu trúc mơ hình CNN hợp lý, vừa phải, dựa đặc điểm liệu yêu cầu đặt 75 CHƯƠNG KẾT LUẬN VÀ KHUYẾN NGHỊ Kết luận Luận văn nghiên cứu toán phân lớp hình ảnh, kỹ thuật phân lớp bản, tiêu chí để đánh giá hiệu kỹ thuật phân lớp ảnh độ xác, độ lỗi, thời gian huấn luyện Tập trung nghiên cứu kỹ kỹ thuật phân lớp CNN, mơ hình CNN phổ biến phù hợp cho toán phân lớp ảnh Luận văn tìm hiểu mơ hình hố tốn phân lớp hình ảnh đồng phục sinh viên với nguồn ảnh thu thập từ trình sinh hoạt thường ngày sinh viên trường tiếp cận giải tốn mơ hình CNN, kỹ thuật phân lớp ảnh tiên tiến Đây toán phân lớp màu với đầu vào hình ảnh chụp thiết bị ghi điện thoại, máy ảnh chuẩn hố tỉ lệ ảnh để làm đầu vào cho mơ hình CNN Luận văn tiến hành thu thập liệu hình ảnh đồng phục sinh viên khoa Giáo dục Tiểu học, Giáo dục Mầm non, Giáo dục Đặc biệt Công nghệ Thông tin trực thuộc Trường Đại học Sư phạm Thành phố Hồ Chí Minh Tập liệu gồm có 2017 hình ảnh đồng phục tiền xử lý tỉ lệ 2:3 gán nhãn Ban Chấp hành Đoàn Thanh niên khoa, Ban Chấp hành Đồn Trường Luận văn đề xuất mơ hình CNN với khối xử lý bao gồm tầng Convolution, tầng Max-Pooling, tầng DropOut tầng Fully Connected cho phân lớp loại hình ảnh đồng phục sinh viên khoa: đồng phục khoa Giáo dục Tiểu học, đồng phục khoa Giáo dục Mầm non, đồng phục khoa Giáo dục Đặc biệt đồng phục khoa Công nghệ Thông tin Luận văn thực nghiệm mô hình CNN liệu ảnh thu thập từ sinh viên học tập khoa Giáo dục Tiểu học, Giáo dục Mầm non, Giáo dục Đặc biệt Công nghệ Thông tin trực thuộc Trường Đại học Sư phạm Thành phố Hồ Chí Minh Kết thực nghiệm trình bày chương cho thấy tính khả thi mơ hình đề xuất Ngồi ra, luận văn làm rõ tính đề tài Kết nghiên cứu sử dụng trước mắt nội Trường Đại học Sư phạm Thành phố Hồ Chí Minh với liệu tổng hợp trực tiếp từ sinh viên trường 76 Kiến nghị Về mặt lý thuyết, tiến hành nhiều thực nghiệm để từ tìm quy luật xác định kiến trúc tham số tối ưu mơ hình CNN cho tốn phân lớp đồng phục sinh viên thay nay, luận văn phải tiến hành nhiều thực nghiệm để xác định tỉ lệ phân chia tập liệu (train, test, validation), kích thước ảnh đầu vào, số epoch huấn luyện tối ưu Kết hợp thêm kỹ thuật nhận diện vùng ảnh áo đồng phục để kết phân lớp xác Mở rộng việc phân lớp từ loại đến 22 loại để ứng với số lượng đồng phục sinh viên 22 khoa Trường Đại học Sư phạm Thành phố Hồ Chí Minh đơn vị khác có sử dụng đồng phục riêng ví dụ Trung tâm Ngoại ngữ sử dụng đồng phục riêng cho đội ngũ gác thi tiếng anh theo khung ngoại ngữ bậc dùng cho người Việt Nam Về mặt ứng dụng, xây dựng thành API (hướng dịch vụ người dùng) cung cấp thực tế, xây dựng sản phẩm hoàn chỉnh cho tảng di động (Android, IOS, …) mơi trường điện tốn đám mây Kết nghiên cứu mở rộng với nhiều liệu hơn, hướng đến việc áp dụng vào hệ thống camera giám sát để phát đối tượng sinh viên trình hoạt động khuôn viên trường, điểm danh sinh viên lớp học, phòng họp, hội thảo 77 TÀI LIỆU THAM KHẢO [1] Cổng thông tin điện tử Trường Đại học Sư phạm Thành phố Hồ Chí Minh https://hcmue.edu.vn/vi/ [2] Cổng thơng tin điện tử Đồn Thanh niên – Hội Sinh viên Việt Nam Trường Đại học Sư phạm Thành phố Hồ Chí Minh http://doantn.hcmue.edu.vn/ [3] Deng, J., Dong, W., Socher, R., Li, L J., Li, K., & Fei-Fei, L (2009, June) Imagenet: A large-scale hierarchical image database In 2009 IEEE conference on computer vision and pattern recognition (pp 248-255) IEEE [4] Nath, S S., Mishra, G., Kar, J., Chakraborty, S., & Dey, N (2014, July) A survey of image classification methods and techniques In 2014 International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT) (pp 554-557) IEEE [5] Shin, H C., Roth, H R., Gao, M., Lu, L., Xu, Z., Nogues, I., & Summers, R M (2016) Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning IEEE transactions on medical imaging, 35(5), 1285-1298 [6] Dehariya, V K., Shrivastava, S K., & Jain, R C (2010, November) Clustering of image data set using k-means and fuzzy k-means algorithms In 2010 International Conference on Computational Intelligence and Communication Networks (pp 386-391) IEEE [7] Ghosh, A K (2006) On optimum choice of k in nearest neighbor classification Computational Statistics & Data Analysis, 50(11), 3113-3123 [8] Cherkassky, V., & Mulier, F (1999) Vapnik-Chervonenkis (VC) learning theory and its applications IEEE Transactions on Neural Networks, 10(5), 985-987 [9] Hsu, K L., Gupta, H V., & Sorooshian, S (1995) Artificial neural network modeling of the rainfall‐runoff process Water resources research, 31(10), 2517-2530 [10] Deng, L (2012) The MNIST database of handwritten digit images for machine learning research [best of the web] IEEE Signal Processing Magazine, 29(6), 141-142 78 [11] Krizhevsky, A., Nair, V., & Hinton, G (2014) The CIFAR-10 dataset online: http://www cs toronto edu/kriz/cifar html, 55 [12] Wei, G., Li, G., Zhao, J., & He, A (2019) Development of a LeNet-5 Gas Identification CNN Structure for Electronic Noses Sensors, 19(1), 217 [13] He, S., Liang, G., Chen, F., Wu, X., & Feng, W (2018, December) Object Recognition and 3D Pose Estimation Using Improved VGG16 Deep Neural Network in Cluttered Scenes In Proceedings of the International Conference on Information Technology and Electrical Engineering 2018 (p 27) ACM [14] He, K., Zhang, X., Ren, S., & Sun, J (2016) Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 770-778) [15] Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K Q (2017) Densely connected convolutional networks In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 4700-4708) [16] Soekarno, I., Hadihardaja, I K., & Cahyono, M (2014, August) A study of hold-out and k-fold cross validation for accuracy of groundwater modeling in tidal lowland reclamation using extreme learning machine In 2014 2nd International Conference on Technology, Informatics, Management, Engineering & Environment (pp 228-233) IEEE [17] Lewis, H G., & Brown, M (2001) A generalized confusion matrix for assessing area estimates from remotely sensed data International Journal of Remote Sensing, 22(16), 3223-3235 [18] A T Vo, H S Tran and T H Le, "Advertisement image classification using convolutional neural network," 2017 9th International Conference on Knowledge and Systems Engineering (KSE), Hue, 2017, pp 197-202 [19] Kieu, P N., Tran, H S., Le, T H., Le, T., & Nguyen, T T (2018, November) Applying Multi-CNNs model for detecting abnormal problem on chest x-ray images In 2018 10th International Conference on Knowledge and Systems Engineering (KSE) (pp 300-305) IEEE