Bài viết trình bày mối quan hệ giữa số lượng bản đồ đặc trưng và hiệu suất của mạng CNN; Đề xuất/cải tiến một mô hình bằng cách xây dựng một lớp mới gọi là “Reduced Dimension” để giảm số lượng bản đồ đặc trưng trên các mạng CNN.
MỐI QUAN HỆ GIỮA SỐ LƯỢNG BẢN ĐỒ ĐẶC TRƯNG VÀ HIỆU SUẤT CỦA MẠNG CNN Phùng Thị Thu Trang1 Tóm tắt: Mạng thần kinh tích chập (Convolutional neural network - CNN) đạt thành tựu to lớn thị giác máy tính Các mơ hình sử dụng CNN thiết kế để ngày sâu hơn, sử dụng nhiều đồ đặc trưng để trích xuất nhiều tính từ hình ảnh đầu vào Trong cơng việc này, chúng tơi đề xuất/cải tiến mơ hình cách xây dựng lớp gọi “Reduced Dimension” để giảm số lượng đồ đặc trưng mạng CNN Công việc giúp cho mô hình nhẹ chi phí tính tốn Kết thử nghiệm số kiến trúc mạng khác cho thấy “Lớp giảm kênh” hoạt động tốt mơ hình sử dụng kĩ thuật sử dụng kết nối tắt đồng ResNet Từ khóa: Học sâu, Mạng thần kính tích chập, Lớp giảm kênh, Thị giác máy tính Giới thiệu Học máy, đặc biệt học sâu, đạt thành tựu to lớn nhiều lĩnh vực gần Các mơ hình xây dựng dựa mạng thần kinh tích chập đạt hiệu suất cao Ví dụ, Alex cộng [1] xây dựng mạng có tên AlexNet giành chiến thắng thi nhận dạng đối tượng (ImageNet) với độ xác 57% top1 80.3% top-5 vào năm 2012 Trong năm tiếp theo, nhiều mơ hình biến thể dựa CNN, ZFNet [2] năm 2013, GoogleNet [3] năm 2014, VGGNet [4] năm 2014, ResNet [5] năm 2015, giành chiến thắng thi Ngồi phân loại hình ảnh, CNN thường áp dụng cho nhiều toán xử lý ảnh thi giác máy tính phát đa đối tượng, thích hình ảnh, phân đoạn hình ảnh Tuy nhiên, mơ hình liệt kê xây dựng với số tham số lớn chi phí tính tốn phức tạp Ví dụ, vào năm 2012 mạng AlexNet sử dụng 60 triệu tham số 727 triệu phép tính (727 triệu FLOP – FLOP sử dụng theo báo [8]) Năm 2014, VGG Net sử dụng 138 triệu tham số xấp xỉ 30 tỷ phép tính Với số lượng lớn tham số chi phí tính tốn mơ hình gặp khó khăn lớn chạy với thời gian thực thiết bị nhúng mà khơng có GPU hỗ trợ Do đó, xây dựng mơ hình nhẹ yếu tố quan trọng với chi phí tính tốn thấp mơ hình nhẹ dễ dàng chạy thời gian thực thiết bị nhúng Hơn nữa, mơ hình nhẹ đạt độ xác xấp xỉ mơ hình sâu Gần đây, có số mơ hình nhẹ cơng bố MobileNet [6], MobileNet V2 [7], ShuffleNet [8], ShuffleNet V2 [9], v.v Trong báo này, chúng tơi trình bày cách tiếp cận để giảm số lượng tham số chi phí tính tốn mơ hình CNN Chúng tiến hành thử nghiệm với 1 ThS., Trường ĐH Thái Nguyên 106 Phùng Thị Thu Trang loại mạng phổ biến sử dụng gần là: CNN bản, Depthwise CNN Residual CNN Kết thử nghiệm cho thấy số lượng tham số FLOPs giảm gấp , , độ xác đạt gần tương tự lần so với mơ hình gốc Đóng góp chúng tơi báo là: (1) Đề xuất tầng mang tên Reduced Dimension có tác dụng làm giảm số lượng tham số FLOPs (2) Qua phân tích đánh giá, chúng tơi thấy Reduced Dimension Layer thích hợp với kiến trúc mạng ResNet, hiệu suất mơ hình giảm không đáng kể tốc độ thực nhanh nhiều lần Phần lại báo tổ chức sau: Phần cung cấp đánh giá công việc liên quan Cách tiếp cận đề xuất phần bao gồm mô tả chi tiết tầng Reduced Dimension mơ hình sử dụng để thử nghiệm Kết thử nghiệm, so sánh phân tích trình bày phần kết luận đưa phần Các cơng trình liên quan Alexnet đề xuất vào năm 2012 Alex krizhesky cộng [1] Trong năm đó, AlexNet giành chiến thắng thi ImageNet với tỷ lệ lỗi top thấp 11% so với mơ hình vị trí thứ hai AlexNet xây dựng dựa kiến trúc mạng LeNet thay sử dụng hàm kích hoạt tanh, tác giả đề xuất hàm kích hoạt ReLU để có tốc độ hội tụ nhanh xác Sau thành công AlexNet, ZFNet [2] giành chiến thắng vào năm 2013 với tỷ lệ lỗi xác thực top 16,5% ZFNet cải thiện từ AlexNet cách sử dụng kích thước lọc 7 stride = lớp tích chập thứ thay kích thước lọc 11 11 stride = Alexnet VGGNet xuất Karen Simonyan Andrew Zisserman [4], VGGNet sử dụng lọc 3 thay kích thước lớn hơn, giúp giảm số lượng tham số sử dụng mơ hình Tuy nhiên, VGGNet coi mơ hình lớn với số lượng tham số 138 triệu 144 triệu tương ứng với VGG-16 VGG-19 Không giống VGGNet, GoogleNet (Inception v1) sử dụng lọc kích thước 11, kĩ thuật sử dụng để giảm kích thước mạng hạn chế tắc nghẽn tính tốn mạng Ngồi ra, khối Inception áp dụng GoogleNet giúp cho mơ hình tìm hiểu nhiều đặc tính khác từ kích cỡ khác Khi kiến trúc mạng ngày trở nên sâu hơn, trình huấn luyện mơ hình trở nên khó khăn vấn đề vanishing gradient Resnet [5] mạng sâu với tối đa 152 lớp mô hình giành chiến thắng thi ImageNet năm 2015 Để giải vấn đề vanishing gradient, ResNet sử dụng kỹ thuật kết nối tắt đồng (skip connection shortcut connection) Kỹ thuật giúp mơ hình khơng so với mơ hình nơng Hơn nữa, với kỹ thuật này, lớp nhận nhiều thông tin trực tiếp từ lớp thấp nên điều chỉnh trọng lượng hiệu Khác với ResNet, lớp có đầu vào thêm từ lớp trước đó, Densenet, lớp có 107 Mối quan hệ số lượng đồ đặc trưng đầu vào bổ sung từ tất lớp trước Bằng việc nhận tất đồ đặc trưng từ tất lớp trước đó, mạng Densenet kiến trúc mỏng gọn hơn, tức số lượng kênh Do đó, mạng Densenet cho hiệu tính tốn hiệu nhớ cao SENet [10] đề xuất với việc sử dụng khối queeze-and-excitation (SE) kiến trúc mạng, SENET giành chiến thắng thi ImageNet năm 2017 với tỉ lệ lỗi top-5 3,79% Có thể thấy sau năm, mơ hình thiết kế ngày phức tạp hơn, sâu nhiều tham số nhằm mục đích tìm hiểu thêm đặc trưng từ hình ảnh đầu vào Điều dẫn đến mơ hình trở nên cồng kềnh khó để triển khai thiết bị nhúng chạy thời gian thực Năm 2017, AG Howard cộng đề xuất mơ hình gọi MobileNet [6] Thay sử dụng tích chập thơng thường, mơ hình MobileNet sử dụng tích chập Depthwise Pointwise, phương pháp tích chập này, số lượng phép tính giảm đến lần so với tích chập thơng thường với kích thước hạt nhân 33 Một phiên MobileNet có tên MobileNet v2 [7] đề xuất Mark Sandler cộng năm 2018 Với việc sử dụng tích chập Depthwise Pointwise kết hợp với kỹ thuật kết nối tắt đồng nhất, MobileNet v2 cho kết tốt so với MobileNet nhiều tốn khác thị giác máy tính ShuffleNet [8] mơ hình nhẹ lấy ý tưởng từ q trình hốn đổi vị trí kênh sử dụng tích chập nhóm 11 để hạn chế số lượng phép tính tốn ShuffleNet có số lượng FLOP thấp nhiều so với MobileNet độ xác tương đương Phương pháp đề xuất Trong phần này, chúng tơi trình bày phương pháp để giảm số lượng tham số FLOPS cho mơ hình CNN 3.1 Tầng Reduced Dimension Thơng thường, đầu lớp tích chập tổng quát thường tensor có kích thước B H W D B batch size H; W; D chiều cao, chiều rộng kích thước lớp đầu (Sau trải qua lớp batch normalization hàm kích hoạt giai đoạn này, kích thước khơng đổi) Nó gọi đồ đặc trưng hình ảnh đầu vào Gọi khối tích chập bao gồm lớp tích chập, lớp batch normalization lớp kích hoạt Tầng reduced dimension lớp áp dụng sau lớp lớp kích hoạt khối nhằm mục đích giảm chiều D tensor trước vào lớp Hình Tầng Reduced Dimension tích chập 108 Phùng Thị Thu Trang Hình ví dụ tầng reduced dimension trong kích thước chiều D giảm nửa Cách thức hoạt động tầng reduced dimension mô tả sau: Đầu tiên, chia đồ đặc trưng thành nhóm, nhóm có số lượng đặc trưng m ví dụ m = {2; 4; 8; 16; …} (trong hình 1, chúng tơi chọn m=2) Sau đó, nhóm áp dụng phép toán sau: {max, add, average} để gộp m ma trận đặc trưng nhóm lại thành ma trận đặc trưng Hình mơ tả ví dụ phép tốn max nhóm gồm Hình Phép toán max tầng ma trận đặc trưng Reduced Dimension Giả sử, đầu vào tâng tích chập H W D, sử dụng D’ lọc tầng tích chập với lọc có kích thước kernel k x k đầu tầng tích chập có kích thước H W D’ (chúng giả sử sử dụng zero padding để chiều H W không đổi qua tâng tích chập) Vậy số lượng tham số sử dụng tầng tích chập là: (1) Và chi phí tính tốn cho tầng tích chập là: (2) Tuy nhiên áp dụng tầng reduced dimension trước vào tầng tích chập kích thước đầu vào tầng tích chập giảm m lần, lúc số lượng tham số cần sử dụng tầng tích chập là: (3) Chi phí tính tốn cho tầng tích chập giảm m lần cơng thức (4) (4) Chi phí tính tốn cho tầng reduced dimension tính sau: Do nhóm m ma trận đặc trưng lại thành nhóm nên có D/m nhóm Với nhóm, cần áp dụng phép tính max, add average H W m lần Do đó, chi phí tính tốn cho tầng reduced dimension Layer công thức (5) (5) Lấy (4) cộng với (5) so sánh với (2) có: 109 Mối quan hệ số lượng đồ đặc trưng (6) Một câu hỏi đặt lúc là: “Nếu gộp đồ đặc trưng lại với thơng qua tầng reduced dimension có ảnh hưởng đến khả học tập độ xác mơ hình khơng?” Đây câu hỏi hiển nhiên quan sát cách trực quan thấy số lượng đồ đặc trưng cho độ xác giảm Cũng giống MobileNet [6], lớp tích chập thay tích chập Depthwise Pointwise, số lượng phép tính giảm đi, mạng xảy tượng thắt cô chai độ xác mơ hình thường giảm khơng đáng kể so với sử dụng tích chập thơng thường tốc độ mơ hình lại cải thiện lên nhiều lần Tương tự MobileNet, với mơ hình sử dụng tầng reduced dimension số lượng đồ đặc trưng bị giảm đi, đồ đặc trưng phải mang nhiều thông tin (Hình 2) nên gây khó khăn trình học tập lớp 3.2 Kiến trúc mơ hình Để đánh giá hiệu tầng reduced dimension, tiến hành xây dựng ba mơ hình với ba phương pháp phổ biến bao gồm: tích chập thơng thường, tích chập depthwise (trong MobileNet) tích chập residual (trong ResNet) Để thuận tiện việc trình bày kiến trúc mơ hình, chúng tơi gộp tầng BN ReLU lại với ba loại tích chập ba mơ hình thành khối đặt tên tương ứng conv_block, DW_block res_block Hình Kiến trúc khối mơ hình Hình Bảng mơ tả chi tiết ba mơ hình mà chúng tơi sử dụng Trong đó, conv_block(n), DW_block(n) res_block(n) tức lớp tích chập nhóm có số lượng lọc n Giá trị s=2 tức stride=2 (s=2) trường hợp khơng có s=2 mặc định lớp tích chập có stride=1 MaxPool(2,2) tức tầng MaxPooling có pool size = stride = Mơ hình gọi mơ hình basic, mơ hình tầng thiết kế cách xen kẽ conv_block maxpooling, cuối tầng global average pooling tầng fully connected (FC) với hàm kích hoạt softmax để đưa dự đốn phân lớp Mơ hình mobile xây dựng dựa tích chập depthwise and pointwise [6] Hai phép tích chập với tầng BN ReLU nhóm thành 110 Phùng Thị Thu Trang DW_block Trong DW_block nhận số lọc tương ứng 32, 64, 128 DW_block lặp lại ba lần Tích chập depthwise lần lặp có stride=2 s=2 xuất khối Tương tự mơ hình Mobile, mơ hình Res sử dụng res_block có số lượng lọc 32, 64 128 res_block lặp lại ba lần Lớp tích chập lần lặp có stride=2 Đối với mơ hình basic, mobile res có sử dụng thêm tầng reduced dimension, áp dụng reduced dimension trước tầng convolution khối trừ conv_block(32) đầu mô hình Các thơng số khác mơ hình giữ nguyên Bảng Bảng Kiến trúc ba mơ hình Mơ hình Basic Conv_block(32) MaxPool(2,2) Conv_block(64) MaxPool(2,2) Conv_block(128) MaxPool(2,2) Global AVE FC Mơ hình Mobie Conv_block(32) DW_block(32) DW_block(64, s=2) DW_block(64) DW_block(128, s=2) DW_block(128) Global AVE FC Mơ hình Res Conv_block(32) res_block(32) res_block(64, s=2) res_block(64) res_block(128, s=2) res_block(128) Global AVE FC Thử Nghiệm 4.1 Bộ liệu thiết lập Để đánh giá hiệu tầng reduced dimension ba mơ hình trên, tiến hành thử nghiệm liệu CIFAR-100 Bộ liệu CIFAR-100 bao gồm 60000 ảnh với độ phân giải 32 32 ứng với 100 lớp, lớp chứa 6000 ảnh Bộ liệu CIFAR-100 xây dựng Alex Krizhevsky cộng năm 2009 [13] Trong liệu này, có 50,000 ảnh sử dụng để huấn luyện 10,000 ảnh sử dụng để kiểm thử Tất mơ hình sử dụng không sử dụng tầng reduced dimension huấn luyện với hàm tối ưu Adam Tỷ lệ học tập thiết lập 0.001 giảm 10 lần không cải thiện giá trị lỗi tập validation Các hình ảnh liệu chia thành nhiều batch với kích thước batch gồm 32 ảnh Các kỹ thuật tăng liệu áp dụng trình huấn luyện bao gồm: lật ảnh, dịch chuyển ảnh theo chiều ngang, dịch chuyển ảnh theo chiều dọc xoay hình ảnh Tất mơ hình huấn luyện với 20 epochs độ xác tính tập ảnh thử nghiệm 4.2 Kết phân tích Bảng 2, mơ tả độ xác ba mơ hình Basic, Mobile Res sử dụng không sử dụng tầng reduced dimension Trong đó, ta thấy áp dụng tầng reduced dimension độ xác mơ hình bị giảm đi, nhiên mơ hình khác 111 Mối quan hệ số lượng đồ đặc trưng giảm độ xác khác Như mơ hình Basic, độ xác bị giảm tới 6.18% m=2 tới 23.54% m=8 Với mơ hình Res độ xác giảm 0.89% với m=2 9.13% với m=8 Có thể thấy rằng, reduced dimension hoạt động tốt mơ hình sử dụng kết nối tắt đồng So sánh phép toán sử dụng tầng reduced dimension, ta thấy độ xác phép tốn chênh lệch khơng q nhiều Cụ thể, với m=8 chênh lệch độ xác phép tốn max phép toán average 5.29% Bảng So sánh kết ba mơ hình sử dụng khơng sử dụng tầng reduced dimension Không sử dụng reduced dimension Add, m=2 Max, m=2 Average, m=2 Add, m=4 Max, m=4 Average, m=4 Add, m=8 Max, m=8 Average, m=8 Mơ hình Basic Mơ hình Mobile Mơ hình Res 54.02% 62.17% 67.71% 44.99% 47.84% 45.81% 39.82% 39.94% 37.31% 28.48% 30.48% 25.19% 56.77% 55.35% 53.80% 49.11% 44.72% 46.89% 36.65% 35.81% 37.89% 66.82% 66.48% 65.45% 61.01% 61.43% 62.14% 58.58% 55.81% 56.22% Bảng trình bày số lượng tham số sử dụng FLOP mơ hình Trong ta thấy với m tăng số lượng tham số tham số FLOP mơ hình giảm Bảng So sánh số lượng tham số FLOP ba mơ hình sử dụng khơng sử dụng reduced dimension Khơng sử dụng reduced dimension m=2 m=4 m=8 Mơ hình Basic Số lượng FLOP tham số (triệu) Mơ hình Mobile Số lượng FLOP tham số (triệu) Mơ hình Res Số lượng FLOP tham số (triệu) 106,820 10.35 78,340 10.74 1,100,132 162.79 54,340 28,100 14,980 5.62 3.25 2.07 48,180 33,100 25,560 6.5 4.37 3.31 565,604 298,340 164,708 82.58 42.47 22.41 Với số lượng tham số FLOP nhỏ hơn, mơ hình sử dụng reduced dimension dễ dàng chạy thời gian thực thiết bị nhúng mà khơng có GPU hỗ trợ 112 Phùng Thị Thu Trang Kết luận Trong báo này, chúng tơi trình bày phương pháp gọi tầng reduced dimension giúp giảm số lượng tham số FLOP mơ hình CNN Tầng reduced dimension hoạt động cách gộp ma trận đặc trưng nhóm lại với thành ma trận đặc trưng Chúng đề xuất ba phép toán gộp ma trận đặc trưng bao gồm: max, average add Thử nghiệm tầng reduced dimension ba mơ hình với ba loại kiến trúc khác cho thấy gộp nhiều ma trận đặc trưng lại với độ xác mơ hình ngày giảm Kết thử nghiệm cho thấy reduced dimension hoạt động tốt mơ hình có sử dụng kết nối tắt đồng Trong tương lai, chúng tơi cải thiện tầng reduced dimension để có kết tốt nhiều kiến trúc khác mạng CNN Ngồi ra, chúng tơi thử nghiệm reduced dimension số toán khác lĩnh vực thị giác máy tính [1] [2] [3] [4] [5] [6] [7] [8] [9] TÀI LIỆU THAM KHẢO A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural infor-mation processing systems, 2012, pp 1097–1105 M D Zeiler and R Fergus, “Visualizing and understanding convolu-tional networks,” in European conference on computer vision Springer,2014, pp 818– 833 C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke, and A Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp 1–9 K Simonyan and A Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014 K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp 770–778 A G Howard, M Zhu, B Chen, D Kalenichenko, W Wang, T Weyand, M Andreetto, and H Adam, “Mobilenets: Efficient convo-lutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017 M Sandler, A Howard, M Zhu, A Zhmoginov, and L.-C Chen, “Mobilenetv2: Inverted residuals and linear bottlenecks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp 4510–4520 X Zhang, X Zhou, M Lin, and J Sun, “Shufflenet: An extremely effi-cient convolutional neural network for mobile devices,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp 6848–6856 N Ma, X Zhang, H.-T Zheng, and J Sun, “Shufflenet v2: Practical guidelines for 113 Mối quan hệ số lượng đồ đặc trưng efficient cnn architecture design,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp 116–131 [10] A Krizhevsky, G Hinton et al., “Learning multiple layers of features from tiny images,” 2009 Title: RELATIONSHIP BETWEEN FEATURE MAPS AND PERFORMANCE ON CNN PHUNG THI THU TRANG Thai Nguyen University Abstract: Convolutional neural network (CNN) has achieved great achievements in computer vision Models that use CNN are designed to be deeper and deeper, using more featured maps to extract more features from the input image In this work, we propose/improve a model by building a new layer called “Reduced Dimension” to reduce the number of feature maps on CNNs This work makes the model shallower and less computational cost Experiment results on some different network architectures show that “Reduced Dimension” works well on models that use skip connection technology such as ResNet Keywords: Deep learning, Convolutional neural network, Reduced dimension, Computer vision 114 ... trọng lượng hiệu Khác với ResNet, lớp có đầu vào thêm từ lớp trước đó, Densenet, lớp có 107 Mối quan hệ số lượng đồ đặc trưng đầu vào bổ sung từ tất lớp trước Bằng việc nhận tất đồ đặc trưng. .. 58.58% 55.81% 56.22% Bảng trình bày số lượng tham số sử dụng FLOP mơ hình Trong ta thấy với m tăng số lượng tham số tham số FLOP mơ hình giảm Bảng So sánh số lượng tham số FLOP ba mơ hình sử... thức (5) (5) Lấy (4) cộng với (5) so sánh với (2) có: 109 Mối quan hệ số lượng đồ đặc trưng (6) Một câu hỏi đặt lúc là: “Nếu gộp đồ đặc trưng lại với thông qua tầng reduced dimension có ảnh hưởng