1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các kỹ thuật tăng cường dữ liệu trong huấn luyện các mô hình mạng nhân chập

69 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 5,33 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC LÊ THỊ THU HƯƠNG NGHIÊN CỨU CÁC KỸ THUẬT TĂNG CƯỜNG DỮ LIỆU TRONG HUẤN LUYỆN CÁC MƠ HÌNH MẠNG NHÂN CHẬP LUẬN VĂN THẠC SĨ MÁY TÍNH THANH HĨA, NĂM 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC LÊ THỊ THU HƯƠNG NGHIÊN CỨU CÁC KỸ THUẬT TĂNG CƯỜNG DỮ LIỆU TRONG HUẤN LUYỆN CÁC MÔ HÌNH MẠNG NHÂN CHẬP LUẬN VĂN THẠC SĨ MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn khoa học: PGS TS Phạm Thế Anh THANH HÓA, NĂM 2022 Danh sách Hội đồng đánh giá luận văn Thạc sỹ khoa học (Theo Quyết định số 30/QĐ- ĐHHĐ ngày 06 tháng 01 năm 2022 Hiệu trưởng Trường Đại học Hồng Đức) Học hàm, học vị Cơ quan Chức danh Họ tên Công tác Hội đồng PGS.TS Vũ Việt Vũ Chủ tịch HĐ TS Nguyễn Văn Hậu UV, Phản biện TS Nguyễn Đình Cơng UV, Phản biện PGS.TS Trần Đăng Hưng Uỷ viên TS Nguyễn Thế Cường Uỷ viên, Thư ký Xác nhận Người hướng dẫn Học viên chỉnh sửa theo ý kiến Hội đồng Ngày tháng năm 2022 PGS.TS Phạm Thế Anh LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân, khơng trùng lặp với khóa luận, luận văn, luận án cơng trình nghiên cứu cơng bố Các kết nghiên cứu kết luận luận văn trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Thanh Hoá, ngày 12 tháng năm 2022 Người cam đoan Lê Thị Thu Hương LỜI CẢM ƠN Luận văn kết trình học tập, nghiên cứu Nhà trường kết hợp với nỗ lực cố gắng thân Đạt kết này, tơi xin bày tỏ lịng biết ơn chân thành đến: Quý Thầy, Cô giáo Trường Đại học Hồng Đức truyền đạt kiến thức, nhiệt tình giúp đỡ cho tơi năm học vừa qua Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc đến Thầy giáo, PGS.TS.Phạm Thế Anh - người hướng dẫn khoa học - dành nhiều thời gian quý báu để giúp đỡ suốt trình nghiên cứu, thực luận văn Ban Giám hiệu, cán giáo viên Trường THPT Đào Duy Từ tạo điều kiện giúp đỡ tơi hồn thành khóa học năm vừa qua Cuối cùng, xin chân thành cảm ơn gia đình, bạn bè động viên giúp đỡ tơi q trình thực luận văn Xin gửi lời chúc sức khỏe chân thành cảm ơn! Thanh Hoá, ngày 12 tháng năm 2022 Tác giả luận văn Lê Thị Thu Hương MỤC LỤC LỜI CAM ĐOAN…………………………………………………………….i LỜI CẢM ƠN i- MỤC LỤC .iii DANH MỤC TỪ VIẾT TẮT……………………………………………….vi DANH MỤC CÁC BẢNG vii DANH MỤC HÌNH ẢNH viiii MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nghiên cứu Đối tượng, phạm vi nghiên cứu - Các mơ hình mạng nơ ron nhân chập học sâu - Các kỹ thuật tăng cường liệu, tối ưu mạng - Các toán dị tìm đối tượng, tập liệu huấn luyện Benchmark - Các kỹ thuật kỹ thuật tăng cường liệu, tối ưu mạng - Ứng dụng vào toán nhận dạng biển số xe giao thông .3 Nội dung nghiên cứu Phương pháp nghiên cứu .3 Dự kiến kết đạt Chương GIỚI THIỆU 1.1 Vai trò liệu 1.2 Tổng quan xử lý ảnh ứng dụng .7 1.2.1 Khái niệm ảnh số, điểm ảnh xử lý ảnh .7 1.2.2 Các thành phần hệ thống xử lý ảnh 1.2.3 Các phương pháp tiền xử lý liệu ảnh 1.2.3.1 Lọc nhiễu ảnh .9 1.2.3.2 Phân vùng ảnh (image segmentation) 10 1.2.3.3 Nén ảnh (image compression) 11 1.2.4 Các ứng dụng xử lý ảnh 11 1.3 Thu nhận biểu diễn ảnh .12 1.3.1 Các thiết bị thu nhận ảnh .12 1.3.2 Hệ thống thu nhận số hóa ảnh 12 1.3.3 Q trình lấy mẫu lượng tử hóa 13 1.3.4 Biểu diễn ảnh 14 1.3.5 Giới thiệu số loại ảnh 16 Kết luận Chương 17 Chương TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 19 2.1 Học sâu mạng nhân chập 19 2.2 Các kỹ thuật tăng cường liệu (Data Augmentation) 21 2.2.1 Biến đổi ngẫu nhiên giá trị màu ảnh .22 2.2.2 Biến đổi hình học (Cropping and resizing, rotation) 22 2.3 Kỹ thuật CutOut .23 2.2.4 Kỹ thuật MixUp 23 2.2.5 Kỹ thuật CutMix 24 2.2.6 Kỹ thuật Mosaic 24 2.3 Các mạng CNN tiêu biểu cho toán phân lớp 25 2.3.1 Mạng AlexNet .25 2.3.2 Mạng VGG16 26 2.4 Các mạng CNN tiêu biểu cho toán phát đối tượng 28 2.4.1 Mạng R-CNN, Fast R-CNN, Faster R-CNN .28 2.4.2 Mạng SSD YOLO 30 Kết luận Chương 32 Chương THỰC NGHIỆM VÀ XÂY DỰNG ỨNG DỤNG 34 3.1 Giới thiệu toán nhận dạng biển số xe .34 3.2 Lựa chọn cách tiếp cận toán .35 3.3 Dữ liệu huấn luyện 36 3.4 Lựa chọn kỹ thuật tăng cường liệu .37 3.4.1 Kỹ thuật biến đổi ngẫu nhiên thành phần màu (độ sáng, độ tương phản, độ bảo hòa, sắc màu) 37 3.4.2 Kỹ thuật biến đổi ngẫu nhiên giá trị điểm ảnh (Random pixel value scaling) 38 3.4.3 Kỹ thuật CutOut 39 3.4.4 Kỹ thuật nhân ngẫu nhiên (Data cloning by random crop) 40 3.4.5 Kỹ thuật huấn luyện Coarse-to-Fine 40 3.5 Thực nghiệm đánh giá kết 42 3.5.1 Mơ hình tiêu chuẩn 42 3.5.1.1 Các tham số cấu hình .42 3.5.1.2 Kết thử nghiệm 43 3.5.2 Mơ hình tăng cường 45 3.5.2.1 Các tham số cấu hình .45 3.5.2.2 Kết thử nghiệm 46 Kết luận Chương 48 KẾT LUẬN VÀ KIẾN NGHỊ 49 TÀI LIỆU THAM KHẢO 51

Ngày đăng: 17/07/2023, 23:45

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] Hoàng Văn Dũng (2018), Giáo trình Nhận dạng và Xử lý ảnh, NXB Khoa học và Kỹ thuật.Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình Nhận dạng và Xử lý ảnh
Tác giả: Hoàng Văn Dũng
Nhà XB: NXB Khoahọc và Kỹ thuật.Tiếng Anh
Năm: 2018
[4] A. G. Howard (2013), “Some improvements on deep convolutional neural network based image classification”, arXiv preprint arXiv,1312.5402, 2013 Sách, tạp chí
Tiêu đề: Some improvements on deep convolutional neuralnetwork based image classification”, "arXiv preprint arXiv
Tác giả: A. G. Howard
Năm: 2013
[7] A. Berg, J. Deng, and L. Fei-Fei(2010), Large scale visual recognition challenge 2010,www.imagenet.org/challenges Sách, tạp chí
Tiêu đề: Large scale visual recognitionchallenge 2010
Tác giả: A. Berg, J. Deng, and L. Fei-Fei
Năm: 2010
[9] Bochkovskiy, A., Wang, C.Y., Liao, H.Y.M. (2020), “Yolov4: optimal speed and accuracy of object detection”, arXiv, 2004.10934v1 [cs.CV] Sách, tạp chí
Tiêu đề: Yolov4: optimalspeed and accuracy of object detection”, "arXiv
Tác giả: Bochkovskiy, A., Wang, C.Y., Liao, H.Y.M
Năm: 2020
[10] Bredies, K., Holler, M. (2012), “A total variation-based JPEG decompression model”, SIAM Journal on Scientific Computing ,5(1), 366–393 Sách, tạp chí
Tiêu đề: A total variation-based JPEGdecompression model”, "SIAM Journal on Scientific Computing
Tác giả: Bredies, K., Holler, M
Năm: 2012
[11] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh (2020), “CSPNet: A new backbone that can enhance learning capability of cnn”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop) Sách, tạp chí
Tiêu đề: CSPNet: A newbackbone that can enhance learning capability of cnn”
Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh
Năm: 2020
[12] DeVries, T., Taylor, “G.W.: Improved regularization of convolutional neural networks with cutout”, arXiv,1708.04552 [cs.CV] Sách, tạp chí
Tiêu đề: G.W.: Improved regularization of convolutionalneural networks with cutout”, "arXiv
[13] Girshick, R., Donahue, J., Darrell, T., Malik (2014), “J.: Rich feature hierarchies for accurate object detection and semantic segmentation”, In: 2014 IEEE Conference on Computer Vision and Pattern Recognition, pp. 580–587 Sách, tạp chí
Tiêu đề: J.: Rich featurehierarchies for accurate object detection and semantic segmentation”,"In: 2014 IEEE Conference on Computer Vision and PatternRecognition
Tác giả: Girshick, R., Donahue, J., Darrell, T., Malik
Năm: 2014
[14] Girshick, R.: Fast R-cnn (2015), In: 2015 IEEE International Conference on Computer Vision (ICCV), pp. 1440–1448 Sách, tạp chí
Tiêu đề: In: 2015 IEEE InternationalConference on Computer Vision (ICCV)
Tác giả: Girshick, R.: Fast R-cnn
Năm: 2015
[15] Hsu, G.S., Chen, J.C., Chung, Y.Z (2013), “Application-oriented license plate recognition”, IEEE Transactions on Vehicular Technology, 62(2), 552–561. DOI 10.1109/TVT.2012.2226218 Sách, tạp chí
Tiêu đề: Application-oriented licenseplate recognition”, "IEEE Transactions on Vehicular Technology
Tác giả: Hsu, G.S., Chen, J.C., Chung, Y.Z
Năm: 2013
[16] J. B. MacQueen (1967), "Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability", Berkeley, University of California Press, 1:281-297 Sách, tạp chí
Tiêu đề: Some Methods for classification and Analysisof Multivariate Observations, Proceedings of 5th Berkeley Symposiumon Mathematical Statistics and Probability
Tác giả: J. B. MacQueen
Năm: 1967
[17] Joseph Redmon and Ali Farhadi (2018), “YOLOv3: An incremental improvement” , arXiv preprint arXiv, 1804.02767 Sách, tạp chí
Tiêu đề: YOLOv3: An incrementalimprovement” , "arXiv preprint arXiv
Tác giả: Joseph Redmon and Ali Farhadi
Năm: 2018
[18] K. Simonyan and A. Zisserman (2014), “Very deep convolutional networks for large-scale image recognition,” arXiv, 1409.1556 [cs.CV], 09 Sách, tạp chí
Tiêu đề: Very deep convolutionalnetworks for large-scale image recognition,” "arXiv
Tác giả: K. Simonyan and A. Zisserman
Năm: 2014
[19] K. He, X. Zhang, S. Ren, and J. Sun (2016), “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770–778 Sách, tạp chí
Tiêu đề: Deep residual learning forimage recognition",” in 2016 IEEE Conference on Computer Vision andPattern Recognition (CVPR)
Tác giả: K. He, X. Zhang, S. Ren, and J. Sun
Năm: 2016
[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun (2015),“Spatial pyramid pooling in deep convolutional networks for visual recognition”, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 37(9):1904–1916 Sách, tạp chí
Tiêu đề: Spatial pyramid pooling in deep convolutional networks for visualrecognition”, "IEEE Transactions on Pattern Analysis and MachineIntelligence (TPAMI)
Tác giả: Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
Năm: 2015
[21] Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S (2017), “ Feature pyramid networks for object detection”, In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 936–944 (2017). DOI: 10.1109/CVPR.106 Sách, tạp chí
Tiêu đề: Feature pyramid networks for object detection”, "In: 2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR)
Tác giả: Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S (2017), “ Feature pyramid networks for object detection”, In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 936–944
Năm: 2017
[22] Lin, T., Goyal, P., Girshick, R., He, K., Dollar (2017), “P.: Focal loss for dense object detection”, In: 2017 IEEE International Conference on Computer Vision (ICCV), pp.2999–3007 (2017). DOI 10.1109/ICCV.324 Sách, tạp chí
Tiêu đề: P.: Focal loss fordense object detection"”, In: 2017 IEEE International Conference onComputer Vision (ICCV)
Tác giả: Lin, T., Goyal, P., Girshick, R., He, K., Dollar (2017), “P.: Focal loss for dense object detection”, In: 2017 IEEE International Conference on Computer Vision (ICCV), pp.2999–3007
Năm: 2017
[23] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg (2016), “A.C.: Ssd: Single shot multibox detector”, In: European Conference on Computer Vision (ECCV), pp. 21–37 Sách, tạp chí
Tiêu đề: A.C.: Ssd: Single shot multibox detector"”, In: EuropeanConference on Computer Vision (ECCV)
Tác giả: Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg
Năm: 2016
[24] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov(2014), "Dropout: A Simple Way to Prevent Neural Networks from Overfitting", Journal of Machine Learning Research, 15(56):1929−1958, 2014 Sách, tạp chí
Tiêu đề: Dropout: A Simple Way to PreventNeural Networks from Overfitting
Tác giả: Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov
Năm: 2014
[8]ApacheMXNetlibrary,https://mxnet.apache.org/versions/1.5.0/tutorials/gluon/data_augmentation.html Link

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w