Sau quá trình thực nghiệm bằng mô hình CNN với 5 khối xử lý chính bao gồm 4 tầng Convolution, 4 tầng Max-Pooling, 4 tầng DropOut và 2 tầng Fully Connected với tỉ lệ phân chia bộ dữ liệu gốc bằng phương pháp Hold-Out 1/3 cho tập kiểm tra và 2/3 cho tập huấn luyện, kết quả phân lớp tốt nhất đạt 93.8944% đối với tập dữ liệu gốc 2017 ảnh và 99.5594% đối với tập dữ liệu ảnh được tăng thêm 12102 ảnh.
Với bộ dữ liệu ảnh thu thập được, tác giả đã đưa trực tiếp những ảnh này vào mô hình CNN để huấn luyện. Việc này có thể làm ảnh hưởng đến kết quả phân lớp của mô hình. Với mục đích phân lớp đồng phục, ảnh dữ liệu có thể chia làm 2 phần, phần ảnh chứa áo đồng phục sinh viên đang mặc và phần ảnh nền khung cảnh xung quanh. Không loại trừ tường hợp có những phần nền của các ảnh tương đồng nhau, trong quá trình huấn luyện, mô hình CNN đã học luôn những đặc trưng của ảnh này và đó là những đặc trưng gây nhiễu dẫn đến một số ảnh có phần quá nền giống nhau đã bị đưa về cùng phân lớp. Việc này có thể giải thích cho kết quả cao của mô hình CNN đã thực nghiệm, để kết quả phân lớp chính xác hơn, ta có thể kết hợp sử dụng các kỹ thuật nhận diện vùng ảnh áo đồng phục để việc huấn luyện đặc trưng được tập trung hơn.
Dựa trên kết quả thực nghiệm có thể đưa ra một số bàn luận rằng với bộ dữ liệu có khối lượng không quá đồ sộ thì tỉ lệ phân bố số lượng ảnh cho tập dữ liệu huấn luyện phải đủ lớn để cho việc huấn luyện được nhiều hơn và thường tỉ lệ tốt nhất giao động từ khoảng 70 - 80% toàn tập dữ liệu.
Với mô hình học sâu như CNN thì việc sử dụng hình ảnh kích thước nhỏ sẽ giúp mạng rút trích được nhiều đặc trưng toàn cục nhưng một số đặc trưng tốt có thể bị mất nhưng ưu điểm là tốc độ huấn luyện nhanh, trong khi sử dụng hình ảnh có kích thước lớn hơn, nhiều chi tiết hơn thì mô hình sẽ rút trích được nhiều đặc trưng tốt nhưng bỏ có thể bỏ lỡ một số đặc trưng toàn cục. Không cần quá quan trọng về kích thước của ảnh, tùy thuộc vào hoàn cảnh sử dụng và yêu cầu thực tế để lựa chọn, không có kích thước nào được gọi là phù hợp với mọi trường hợp cả.
Với bài toán phân lớp hình ảnh dùng phương pháp mạng nơ-ron tích chập CNN, thì dữ liệu là một thành phần khá quan trọng. Tuy nhiên CNN vẫn cho kết quả khá khả quan với những bộ dữ liệu không quá lớn. Bên cạnh đó để phát huy điểm mạnh của CNN trên những tập dữ liệu lớn, ta có thể sử dụng một số biện pháp tăng thêm ảnh Data Augmentation để tăng thêm số lượng hình ảnh cho phần huấn luyện.
Với ý tưởng sơ khai là một phương pháp học sâu, số lượng dữ liệu càng nhiều, mô hình càng được huấn luyện kỹ thì kết quả phân tích sẽ càng cao. Nhưng không phải vì thế mà ta phải xây dựng một mô hình CNN đồ sộ qua nhiều tầng xử lý, mô hình càng cồng kềnh thì thời gian và khả năng thực thi càng khó khăn, vất vả hơn. Do đó phải xây dựng một cấu trúc mô hình CNN hợp lý, vừa phải, dựa trên đặc điểm của bộ dữ liệu và yêu cầu đặt ra.
CHƯƠNG 5.KẾT LUẬN VÀ KHUYẾN NGHỊ Kết luận
Luận văn đã nghiên cứu về bài toán phân lớp hình ảnh, các kỹ thuật phân lớp cơ bản, các tiêu chí để đánh giá hiệu năng của kỹ thuật phân lớp ảnh về độ chính xác, độ lỗi, thời gian huấn luyện. Tập trung nghiên cứu kỹ hơn về kỹ thuật phân lớp bằng CNN, các mô hình CNN phổ biến phù hợp cho bài toán phân lớp ảnh.
Luận văn tìm hiểu và mô hình hoá bài toán phân lớp hình ảnh đồng phục sinh viên với nguồn ảnh được thu thập từ trong quá trình sinh hoạt thường ngày của sinh viên trong trường và tiếp cận giải quyết bài toán bằng mô hình CNN, một trong những kỹ thuật phân lớp ảnh tiên tiến hiện nay. Đây là một bài toán phân lớp màu với đầu vào là hình ảnh được chụp bằng các thiết bị ghi hình như điện thoại, máy ảnh và được chuẩn hoá tỉ lệ ảnh để có thể làm đầu vào cho mô hình CNN.
Luận văn đã tiến hành thu thập bộ dữ liệu hình ảnh đồng phục sinh viên của 4 khoa Giáo dục Tiểu học, Giáo dục Mầm non, Giáo dục Đặc biệt và Công nghệ Thông tin trực thuộc Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Tập dữ liệu này gồm có 2017 hình ảnh đồng phục đã được tiền xử lý về tỉ lệ 2:3 và được gán nhãn bởi Ban Chấp hành Đoàn Thanh niên của các khoa, Ban Chấp hành Đoàn Trường.
Luận văn đã đề xuất được mô hình CNN với 5 khối xử lý chính bao gồm 4 tầng Convolution, 4 tầng Max-Pooling, 4 tầng DropOut và 2 tầng Fully Connected cho phân lớp 4 loại hình ảnh đồng phục sinh viên khoa: đồng phục khoa Giáo dục Tiểu học, đồng phục khoa Giáo dục Mầm non, đồng phục khoa Giáo dục Đặc biệt và đồng phục khoa Công nghệ Thông tin. Luận văn đã thực nghiệm mô hình CNN trên bộ dữ liệu ảnh thu thập được từ chính các sinh viên đang học tập tại các khoa Giáo dục Tiểu học, Giáo dục Mầm non, Giáo dục Đặc biệt và Công nghệ Thông tin trực thuộc Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Kết quả thực nghiệm như đã trình bày trong chương 4 cho thấy tính khả thi của mô hình đề xuất.
Ngoài ra, luận văn đã làm rõ được tính mới của đề tài. Kết quả nghiên cứu có thể được sử dụng trước mắt trong nội bộ Trường Đại học Sư phạm Thành phố Hồ Chí Minh với bộ dữ liệu được tổng hợp trực tiếp từ các sinh viên trong trường.
Kiến nghị
Về mặt lý thuyết, tiến hành nhiều thực nghiệm hơn để từ đó tìm ra quy luật xác định kiến trúc và các tham số tối ưu của mô hình CNN cho bài toán phân lớp đồng phục sinh viên thay vì như hiện nay, luận văn phải tiến hành nhiều thực nghiệm để xác định tỉ lệ phân chia tập dữ liệu (train, test, validation), kích thước ảnh đầu vào, số epoch huấn luyện tối ưu. Kết hợp thêm các kỹ thuật nhận diện vùng ảnh áo đồng phục để kết quả phân lớp chính xác hơn.
Mở rộng việc phân lớp từ 4 loại đến 22 loại để ứng với số lượng đồng phục sinh viên 22 khoa của Trường Đại học Sư phạm Thành phố Hồ Chí Minh và các đơn vị khác có sử dụng đồng phục riêng ví dụ như Trung tâm Ngoại ngữ sử dụng đồng phục riêng cho đội ngũ gác thi tiếng anh theo khung ngoại ngữ 6 bậc dùng cho người Việt Nam.
Về mặt ứng dụng, xây dựng thành API (hướng dịch vụ người dùng) cung cấp thực tế, xây dựng sản phẩm hoàn chỉnh hơn cho các nền tảng di động (Android, IOS, …) hoặc các môi trường điện toán đám mây.
Kết quả nghiên cứu có thể mở rộng ra với nhiều dữ liệu hơn, có thể hướng đến việc áp dụng vào các hệ thống camera giám sát để phát hiện đối tượng sinh viên trong quá trình hoạt động tại khuôn viên trường, điểm danh sinh viên trong các lớp học, phòng họp, hội thảo.
TÀI LIỆU THAM KHẢO
[1]. Cổng thông tin điện tử Trường Đại học Sư phạm Thành phố Hồ Chí Minh
https://hcmue.edu.vn/vi/
[2]. Cổng thông tin điện tử Đoàn Thanh niên – Hội Sinh viên Việt Nam Trường Đại học Sư phạm Thành phố Hồ Chí Minh http://doantn.hcmue.edu.vn/
[3]. Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition (pp. 248-255). IEEE.
[4]. Nath, S. S., Mishra, G., Kar, J., Chakraborty, S., & Dey, N. (2014, July). A survey of image classification methods and techniques. In 2014 International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT) (pp. 554-557). IEEE.
[5]. Shin, H. C., Roth, H. R., Gao, M., Lu, L., Xu, Z., Nogues, I., ... & Summers, R. M. (2016). Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning. IEEE transactions on medical imaging, 35(5), 1285-1298.
[6]. Dehariya, V. K., Shrivastava, S. K., & Jain, R. C. (2010, November). Clustering of image data set using k-means and fuzzy k-means algorithms. In 2010 International Conference on Computational Intelligence and Communication Networks (pp. 386-391). IEEE.
[7]. Ghosh, A. K. (2006). On optimum choice of k in nearest neighbor classification. Computational Statistics & Data Analysis, 50(11), 3113-3123.
[8]. Cherkassky, V., & Mulier, F. (1999). Vapnik-Chervonenkis (VC) learning theory and its applications. IEEE Transactions on Neural Networks, 10(5), 985-987.
[9]. Hsu, K. L., Gupta, H. V., & Sorooshian, S. (1995). Artificial neural network modeling of the rainfall‐runoff process. Water resources research, 31(10), 2517-2530.
[10]. Deng, L. (2012). The MNIST database of handwritten digit images for machine learning research [best of the web]. IEEE Signal Processing Magazine, 29(6), 141-142.
[11]. Krizhevsky, A., Nair, V., & Hinton, G. (2014). The CIFAR-10 dataset. online: http://www. cs. toronto. edu/kriz/cifar. html, 55.
[12]. Wei, G., Li, G., Zhao, J., & He, A. (2019). Development of a LeNet-5 Gas Identification CNN Structure for Electronic Noses. Sensors, 19(1), 217.
[13]. He, S., Liang, G., Chen, F., Wu, X., & Feng, W. (2018, December). Object Recognition and 3D Pose Estimation Using Improved VGG16 Deep Neural Network in Cluttered Scenes. In Proceedings of the International Conference on Information Technology and Electrical Engineering 2018 (p. 27). ACM.
[14]. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
[15]. Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4700-4708).
[16]. Soekarno, I., Hadihardaja, I. K., & Cahyono, M. (2014, August). A study of hold-out and k-fold cross validation for accuracy of groundwater modeling in tidal lowland reclamation using extreme learning machine. In 2014 2nd International Conference on Technology, Informatics, Management, Engineering & Environment (pp. 228-233). IEEE.
[17]. Lewis, H. G., & Brown, M. (2001). A generalized confusion matrix for assessing area estimates from remotely sensed data. International Journal of Remote Sensing, 22(16), 3223-3235.
[18]. A. T. Vo, H. S. Tran and T. H. Le, "Advertisement image classification using convolutional neural network," 2017 9th International Conference on Knowledge and Systems Engineering (KSE), Hue, 2017, pp. 197-202.
[19]. Kieu, P. N., Tran, H. S., Le, T. H., Le, T., & Nguyen, T. T. (2018, November). Applying Multi-CNNs model for detecting abnormal problem on chest x-ray images. In 2018 10th International Conference on Knowledge and Systems Engineering (KSE) (pp. 300-305). IEEE.