Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
3,64 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Mơ hình học sâu số tốn thị giác máy tính PHÙNG TRỌNG HIẾU Hieu.PT202937M@sis.hust.edu.vn Ngành: Tốn Tin Chuyên ngành: Toán Tin Giảng viên hướng dẫn: TS Bùi Xn Diệu Bộ mơn: Tốn Viện: Tốn ứng dụng Tin học HÀ NỘI, 08/2022 Chữ ký GVHD Lời cảm ơn Để hoàn thành luận văn này, lời xin chân thành cảm ơn thầy giáo hướng dẫn TS Bùi Xuân Diệu thầy giáo TS Lê Chí Ngọc, hai người theo sát hỗ trợ tơi suốt q trình nghiên cứu đề tài luận văn Tôi xin chân thành cảm ơn anh, chị thuộc phòng AI Research Công Ty TNHH PIXTA Vietnam cho lời khuyên quý báu với hỗ trợ trang thiết bị công nghệ Tôi xin chân thành cảm ơn! Tóm tắt nội dung luận văn Trong cơng trình này, ta nghiên cứu tốn với tên gọi Extractive Tags Summarization (ETS) Mục tiêu giải tốn ETS thu gọn danh sách thẻ tương ứng với ảnh giữ khả đại diện thẻ cho ảnh Các mơ hình học sâu sử dụng để hình thành nên giải pháp nhằm giải tốn Ngồi ra, ta tìm hiểu hàm mát; vấn đề để giảm ảnh hưởng cân liệu hay cách thiết kế mơ hình sử dụng hàm mát phụ trợ nghiên cứu cách kỹ lưỡng Bên cạnh đó, chiến lược huấn luyện mơ hình sử dụng học tự giám sát mổ xẻ để tận dụng nguồn liệu chưa gán nhãn khổng lồ sẵn có Cuối cùng, tốn ETS mở rộng cho dạng liệu video với cải tiến mặt giải pháp dành riêng dạng liệu Sinh viên thực (Ký ghi rõ họ tên) Mục lục Giới thiệu toán Cơ sở lý thuyết 2.1 Mạng nơ-ron nhân tạo 2.2 Mạng nơ-ron tích chập 2.2.1 Kiến trúc mạng nơ-ron tích chập 2.3 Mạng nơ-ron Transformer 2.3.1 Cơ chế Attention 2.3.2 Kiến trúc mạng nơ-ron Transformer 2.4 Hệ hỗn hợp chuyên gia 2.5 Học tự giám sát Mơ hình đề xuất 3.1 Mơ hình sở 3.2 Kiến trúc mơ hình 3.2.1 Thành phần Tag Embedder 3.2.2 Thành phần Image Feature Extractor 3.2.3 Thành phần Multi-Head Attention 3.2.4 Thành phần Transformer Encoder 3.2.5 Thành phần Gating Mechanism 3.3 Kết so sánh mơ hình 3.4 Hàm mát 3.4.1 Vấn đề cân liệu 3.4.2 Hàm mát phụ trợ 3.5 Dữ liệu 3.5.1 Bộ liệu công khai 3.5.2 Bộ liệu quy mô lớn không công khai 3 4 10 11 12 15 16 16 17 17 17 18 18 19 20 20 21 22 22 23 3.6 3.7 Các thí nghiệm 3.6.1 Vấn đề với phần tử ngoại lai việc tăng cường liệu 3.6.2 Chiến lược học tự giám sát Cấu hình huấn luyện Mở rộng toán cho liệu video 4.1 Trích xuất đặc trưng cho video 4.1.1 3D ConvNet 4.1.2 R3D 4.1.3 R(2+1)D 4.1.4 CSN 4.1.5 SlowFast 4.1.6 TSM 4.2 Chiến lược lựa chọn khung hình 4.2.1 Giai đoạn huấn luyện 4.2.2 Giai đoạn kiểm định 4.3 Lựa chọn mơ hình trích xuất đặc trưng cho video 4.3.1 Vòng sơ loại 4.3.2 Lựa chọn cuối 4.4 Các cải tiến 4.4.1 Thuật toán tối ưu AdamW thay cho SGD 4.4.2 Hàm mát Co-distillation Kết luận 23 23 25 26 29 29 29 30 30 32 34 35 39 39 39 40 41 41 42 42 42 45 Chỉ mục 47 Tài liệu tham khảo 51 Danh mục hình vẽ 2.1 Mạng nơ-ron nhân tạo 2.2 Sử dụng lọc để trích đặc trưng 2.3 Quá trình trượt lọc dọc theo chiều rộng chiều cao ảnh 2.4 Max Pooling 2.5 Scaled Dot-Product Attention [48] 2.6 Multi-Head Attention [48] 2.7 Kiến trúc mạng nơ-ron Transformer [48] 12 3.1 Mơ hình đề xuất [37] 15 3.2 Từ trái sang phải: (a) Mơ hình sở sử dụng đặc trưng thẻ (TF-t), (b) mơ hình sở sử dụng đặc trưng kết hợp từ ảnh thẻ tương ứng (TF-it), (c) kiến trúc MAGNeto [37] 16 3.3 So sánh giá trị F1 mơ hình [37] 20 3.4 So sánh giá trị F1 hai hàm mát BCE BCEDice [37] 21 3.5 Không sử dụng sử dụng hàm mát phụ trợ [37] 21 3.6 Chiến lược huấn luyện bao gồm pha huấn luyện trước với chiến lược học tự giám sát (bên phải) pha tinh chỉnh với chiến lược học có giám sát (bên trái) [37] 25 Lớp tích chập 2D so với lớp tích chập 3D [44] 30 4.1 4.2 Một vài kiến trúc mạng thặng dư (Residual Network) cho toán phân lớp video (a) R2D mạng ResNet 2D; (b) MCx mạng ResNet trộn lẫn lớp tích chập 2D 3D (hình minh họa MC3); (c) rMCx phiên ngược MCx (hình minh họa rMC3); (d) R3D mạng ResNet 3D; (e) R(2+1)D mạng ResNet với lớp tích chập (2+1)D [46] 31 4.3 Khối tích chập 3D khối tích chập (2+1)D (được minh họa với kênh chiều sâu) [46] 31 4.4 Group Convolution [45] 32 4.5 Bottleneck Block Channel-Separated Bottleneck Block [45] 33 4.6 Kiến trúc mơ hình SlowFast [10] (Lối cao tần hạ tần với kết nối bên.) 35 4.7 (a) Chi phí độ trễ TSM việc di chuyển liệu (b) Residual TSM đạt độ xác cao so với Inplace TSM [27] 37 4.8 Temporal Shift Module (TSM) [27] 38 4.9 Residual TSM cho hiệu tốt In-place TSM In-place TSM thực việc dịch chuyển trước lớp tích chập (hoặc Residual Block) Residual TSM hợp thông tin thời gian bên nhánh Residual [27] 38 4.10 Nhận dạng hành động video với TSM [27] 38 4.11 (a) Giai đoạn huấn luyện mô hình, (b) giai đoạn sử dụng mơ hình cho việc dự đoán 43 Danh mục bảng biểu 3.1 3.2 4.1 4.2 Các thành phần Gating Mechanism (Dữ liệu truyền theo chiều từ xuống.) 19 Bảng so sánh số với cấu hình huấn luyện khác 24 So sánh mô hình số tốn phân lớp video So sánh mơ hình số toán ETS vii 41 41 Chương GVHD: TS Bùi Xuân Diệu Giai đoạn huấn luyện mô hình minh họa Hình 4.11 (a) Để đưa dự đốn cuối cùng, kết đầu hai luồng lấy giá trị trung bình (Hình 4.11 (b)) BCEDiceLoss Sum Outputs #2 Outputs #1 Sigmoid Sigmoid Sigmoid Linear Linear Linear Linear Transformer Encoder Transformer Encoder Transformer Encoder Transformer Encoder Outputs #1 Sigmoid Nx Final Outputs BCEDiceLoss MSELoss/ L1Loss Nx Mx Average Outputs #2 Mx Multi-Head Attention Multi-Head Attention Video Feature Extractor Tag Embedder Video Feature Extractor Tag Embedder Video Tags Video Tags (a) (b) Hình 4.11: (a) Giai đoạn huấn luyện mơ hình, (b) giai đoạn sử dụng mơ hình cho việc dự đoán HVTH: Phùng Trọng Hiếu 43 20BTOANTIN Chương HVTH: Phùng Trọng Hiếu GVHD: TS Bùi Xuân Diệu 44 20BTOANTIN Chương Kết luận Trong luận văn này, trình bày tốn Extractive Tags Summarization (ETS) với việc đề xuất giải pháp sử dụng mô hình Học sâu để giải tốn Giải pháp đề xuất cấu thành chủ yếu mạng nơ-ron tích chập, mạng nơ-ron Transformer kỹ thuật liên quan đến Mixture of Experts Ngồi ra, tơi trình bày chiến lược học tự giám sát để tận dụng lượng liệu lớn có sẵn chưa có nhãn nhằm tăng khả tổng quát hóa mơ hình Bên cạnh giải tốn ETS với đầu vào ảnh, đồng nhóm nghiên cứu đề xuất mở rộng toán với đầu vào video Kèm theo vài cải tiến mặt kiến trúc thuật toán tối ưu để phù hợp với dạng liệu Trong tương lai, muốn tập trung vào chế ánh xạ từ không gian vectơ thẻ sang không gian vectơ ảnh; cơng trình dừng lại việc sử dụng lớp Multi-Head Attention giải pháp tạm thời Ngoài ra, vấn đề cân tần suất xuất thẻ liệu điều cần phải lưu tâm nghiên cứu tới 45 Chương HVTH: Phùng Trọng Hiếu GVHD: TS Bùi Xuân Diệu 46 20BTOANTIN Chỉ mục A Abstractive Summarization Action Recognition in Videos Activation Function Additive Attention Artificial Neural Network Attention 7–9, Audio Signal Processing Co-distillation Computer Vision Content-based Attention Convolutional Layer Convolutional Neural Network Cross-Entropy 38 11 42 42 D Decoder 11 Deep Learning Depthwise Convolution 32, 33 Depthwise Separable Convolution 32 Dice 20 Dot-Product Dot-Product Attention 8, B Batch-norm 17 BCE 20, 21 BCE-Dice 20, 21, 42 Binary Cross-Entropy 20 Bottleneck Block 33 Bottleneck Residual Block 30, 33 toán dịch ngơn ngữ 13 tốn nhận dạng hành động video 38 toán phát đối tượng ảnh 13 toán phân lớp ảnh 32 toán phân đoạn ảnh 20 đồ đặc trưng 6, 18 giải mã 11 mã hóa 10, 11 E Element-wise Multiplication Encoder ETS 2, 3, 12, 13, 15, 18, 22, 26, 29, 40, 41, 45 Extractive Summarization Extractive Tags Summarization 45 19 10 25, 2, C F Channel Channel-Separated Bottleneck Block 33 quy hóa 32, 42 Feature Map Feed-forward Network Fully Connected Layer 47 10 10 Chương GVHD: TS Bùi Xuân Diệu L G Gating Mechanism 15, 18, 19, 21, 25, 42 Giá trị 9, 10 Global Average Pooling 17, 35 GPU 8, 27 Graphical Processing Unit Group Convolution 32 Language Translation 13 Lateral Connection 34 LayerNorm 11 Linear Regression liên kết bên 34 lớp giải mã 11 lớp hồi quy 10 lớp kết nối đầy đủ H 10, 12, 17, 19, 35 lớp mã hóa Hard-Attention hàm kích hoạt 3, hệ hỗn hợp chuyên gia 11 học không giám sát 13 Học máy Học sâu 1–3, 8, 15, 45 học tự giám sát 12, 13, 24, 25, 45 hồi quy tuyến tính lớp tích chập 10, 18 4–7, 17, 29, 30, 32, 33, 36–38 lớp tích chập 3D 29, 30, 32 lớp tổng hợp 4, 6, M Machine Learning Masks I Max Pooling Image Feature Extractor 17, Image Processing Image Segmentation In-place TSM Interaction-Preserved Channel-Separated Bottleneck Block Interaction-Reduced Channel-Separated Bottleneck Block Intra-Attention ip-CSN ir-CSN 26 20 37 HVTH: Phùng Trọng Hiếu Mean Squared Error 42 Mixture of Experts 11, 45 MoE 11, 12 MSE 42 Multi-Head Attention 10, 16–18, 26, 27, 45 33 Multi-Head Self-Attention Máy học 10, 11 mã hóa vị trí 33 33 33 11 mạng nơ-ron hồi quy mạng nơ-ron nhân tạo 7, 8, 11 mạng nơ-ron Transformer 3, 7, 10, 11, 45 mạng nơ-ron truyền thẳng 27 K Keys Khóa KL Divergence kênh kết nối thặng dư 11 10, 11, mạng nơ-ron tích chập 3, 4, 8, 10, 11, 17, 29, 32, 35, 38, 45 9, 10 42 11 mạng nơ-ron tích chập 3D 29, 30, 32, 33, 35 Mặt nạ 48 11, 13 20BTOANTIN Chương GVHD: TS Bùi Xuân Diệu N Natural Language Processing Tag-adding 23, 24, 26 Tag-dropping 23, 24, 26 Temporal Pooling 35 Tensor 17 Text Summarization thuật toán tối ưu Adam 42 thuật toán tối ưu AdamW 42 thuật toán tối ưu SGD 27, 42 thị giác máy tính Transformer Encoder 16, 18, 19, 23, 26 Truy vấn 9, 10 tóm tắt trích xuất tóm tắt trừu tượng tóm tắt văn tế bào Magnocellular 34 tế bào Parvocellular 34 O Object Detection Overfitting 13 P Pooling Layer Positional Encoding 11 Q Queries khớp R Recurrent Neural Network Regularization Residual Block Residual Connection Residual TSM 32 30, 38 11 37 U Unsupervised Learning S V Scaled Dot-Product Attention 8–10 Self-Attention 8, 10, 23 Self-supervised Learning 12 Soft-Attention Stochastic Gradient Descent 27 Values HVTH: Phùng Trọng Hiếu X xử lý ngôn ngữ tự nhiên 17, 25 xử lý âm xử lý ảnh T Tag Embedder 13 17, 26 49 4, 7, 11, 4 20BTOANTIN Chương HVTH: Phùng Trọng Hiếu GVHD: TS Bùi Xuân Diệu 50 20BTOANTIN Tài liệu tham khảo [1] J Ba, J Kiros, and G Hinton, “Layer normalization,” Jul 2016 [2] D Bahdanau, K Cho, and Y Bengio, Neural machine translation by jointly learning to align and translate, 2014 [Online] Available: http://arxiv.org/abs/1409.0473 [3] J Cheng, L Dong, and M Lapata, “Long short-term memory-networks for machine reading,” CoRR, vol abs/1601.06733, 2016 arXiv: 1601 06733 [Online] Available: http : / / arxiv org / abs / 1601 06733 [4] F Chollet, “Xception: Deep learning with depthwise separable convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp 1251–1258 [5] T.-S Chua, J Tang, R Hong, H Li, Z Luo, and Y.-T Zheng, “Nuswide: A real-world web image database from national university of singapore,” in CIVR, Santorini, Greece., 2009 [6] D.-A Clevert, T Unterthiner, and S Hochreiter, “Fast and accurate deep network learning by exponential linear units (elus),” arXiv preprint arXiv:1511.07289, 2015 [7] A Derrington and P Lennie, “Spatial and temporal contrast sensitivities of neurones in lateral geniculate nucleus of macaque.,” The Journal of physiology, vol 357, no 1, pp 219–240, 1984 [8] J Devlin, M.-W Chang, K Lee, and K Toutanova, “Bert: Pretraining of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018 51 Chương GVHD: TS Bùi Xuân Diệu [9] M Drozdzal, E Vorontsov, G Chartrand, S Kadoury, and C Pal, “The importance of skip connections in biomedical image segmentation,” in Deep Learning and Data Labeling for Medical Applications, G Carneiro, D Mateus, L Peter, et al., Eds., Cham: Springer International Publishing, 2016, pp 179–187, ISBN: 978-3-319-469768 [10] C Feichtenhofer, H Fan, J Malik, and K He, “Slowfast networks for video recognition,” in Proceedings of the IEEE/CVF international conference on computer vision, 2019, pp 6202–6211 [11] D J Felleman and D C Van Essen, “Distributed hierarchical processing in the primate cerebral cortex.,” Cerebral cortex (New York, NY: 1991), vol 1, no 1, pp 1–47, 1991 [12] L Fidon, W Li, L C Garcia-Peraza-Herrera, et al., “Generalised wasserstein dice score for imbalanced multi-class segmentation using holistic convolutional networks,” in Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, A Crimi, S Bakas, H Kuijf, B Menze, and M Reyes, Eds., Cham: Springer International Publishing, 2018, pp 64–76, ISBN: 978-3-319-75238-9 [13] S Gidaris, P Singh, and N Komodakis, “Unsupervised representation learning by predicting image rotations,” arXiv preprint arXiv:1803.07728, 2018 [14] R Goyal, S Ebrahimi Kahou, V Michalski, et al., “The" something something" video database for learning and evaluating visual common sense,” in Proceedings of the IEEE international conference on computer vision, 2017, pp 5842–5850 [15] A Graves, G Wayne, and I Danihelka, “Neural turing machines,” CoRR, vol abs/1410.5401, 2014 arXiv: 1410.5401 [Online] Available: http://arxiv.org/abs/1410.5401 [16] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” in CVPR, 2016, pp 770–778 HVTH: Phùng Trọng Hiếu 52 20BTOANTIN Chương GVHD: TS Bùi Xuân Diệu [17] A G Howard, M Zhu, B Chen, et al., “Mobilenets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017 [18] D H Hubel and T N Wiesel, “Receptive fields and functional architecture in two nonstriate visual areas (18 and 19) of the cat,” Journal of neurophysiology, vol 28, no 2, pp 229–289, 1965 [19] S Ioffe and C Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” arXiv preprint arXiv:1502.03167, 2015 [20] F Isensee, J Petersen, A Klein, et al., “Nnu-net: Self-adapting framework for u-net-based medical image segmentation,” CoRR, vol abs/1809.10486, 2018 arXiv: 1809 10486 [Online] Available: http : / / arxiv org/abs/1809.10486 [21] R A Jacobs, M I Jordan, S J Nowlan, and G E Hinton, “Adaptive mixtures of local experts,” Neural computation, vol 3, no 1, pp 79–87, 1991 [22] S Ji, W Xu, M Yang, and K Yu, “3d convolutional neural networks for human action recognition,” IEEE transactions on pattern analysis and machine intelligence, vol 35, no 1, pp 221–231, 2012 [23] D P Kingma and J Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014 [24] A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” Advances in neural information processing systems, vol 25, 2012 [25] Z Lan, M Chen, S Goodman, K Gimpel, P Sharma, and R Soricut, “Albert: A lite bert for self-supervised learning of language representations,” arXiv preprint arXiv:1909.11942, 2019 [26] Y LeCun, Y Bengio, et al., “Convolutional networks for images, speech, and time series,” The handbook of brain theory and neural networks, vol 3361, no 10, p 1995, 1995 HVTH: Phùng Trọng Hiếu 53 20BTOANTIN Chương GVHD: TS Bùi Xuân Diệu [27] J Lin, C Gan, and S Han, “Tsm: Temporal shift module for efficient video understanding,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp 7083–7093 [28] M Lin, Q Chen, and S Yan, “Network in network,” arXiv preprint arXiv:1312.4400, 2013 [29] Y Liu, M Ott, N Goyal, et al., “Roberta: A robustly optimized bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019 [30] M Livingstone and D Hubel, “Segregation of form, color, movement, and depth: Anatomy, physiology, and perception,” Science, vol 240, no 4853, pp 740–749, 1988 [31] I Loshchilov and F Hutter, “Decoupled weight decay regularization,” arXiv preprint arXiv:1711.05101, 2017 [32] M Luong, H Pham, and C D Manning, “Effective approaches to attention-based neural machine translation,” CoRR, vol abs/1508.04025, 2015 arXiv: 1508 04025 [Online] Available: http : / / arxiv org/abs/1508.04025 [33] A L Maas, A Y Hannun, A Y Ng, et al., “Rectifier nonlinearities improve neural network acoustic models,” in Proc icml, Citeseer, vol 30, 2013, p [34] F Milletari, N Navab, and S Ahmadi, “V-net: Fully convolutional neural networks for volumetric medical image segmentation,” in 2016 Fourth International Conference on 3D Vision (3DV), 2016, pp 565– 571 [35] V Nair and G E Hinton, “Rectified linear units improve restricted boltzmann machines,” in Icml, 2010 [36] M Noroozi and P Favaro, “Unsupervised learning of visual representations by solving jigsaw puzzles,” in ECCV, Springer, 2016, pp 69–84 [37] H T Phung, A T Vu, T D Nguyen, et al., “Magneto: An efficient deep learning method for the extractive tags summarization problem,” arXiv preprint arXiv:2011.04349, 2020 HVTH: Phùng Trọng Hiếu 54 20BTOANTIN Chương GVHD: TS Bùi Xuân Diệu [38] M L di Scandalea, C S Perone, M Boudreau, and J Cohen-Adad, “Deep active learning for axon-myelin segmentation on histology data,” CoRR, vol abs/1907.05143, 2019 arXiv: 1907.05143 [Online] Available: http://arxiv.org/abs/1907.05143 [39] N Shazeer, A Mirhoseini, K Maziarz, et al., “Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,” arXiv preprint arXiv:1701.06538, 2017 [40] G Song and W Chai, “Collaborative learning for deep neural networks,” Advances in neural information processing systems, vol 31, 2018 [41] N Srivastava, G Hinton, A Krizhevsky, I Sutskever, and R Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” J Mach Learn Res., vol 15, no 1, 1929–1958, Jan 2014, ISSN: 1532-4435 [42] C H Sudre, W Li, T Vercauteren, S Ourselin, and M Jorge Cardoso, “Generalised dice overlap as a deep learning loss function for highly unbalanced segmentations,” in Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, M J Cardoso, T Arbel, G Carneiro, et al., Eds., Cham: Springer International Publishing, 2017, pp 240–248, ISBN: 978-3319-67558-9 [43] S A Taghanaki, Y Zheng, S Kevin Zhou, et al., “Combo loss: Handling input and output imbalance in multi-organ segmentation,” Computerized Medical Imaging and Graphics, vol 75, pp 24 –33, 2019, ISSN: 0895-6111 DOI: https : / / doi org / 10 1016 / j compmedimag.2019.04.005 [Online] Available: http://www sciencedirect.com/science/article/pii/S0895611118305688 [44] D Tran, L Bourdev, R Fergus, L Torresani, and M Paluri, “Learning spatiotemporal features with 3d convolutional networks,” in Proceedings of the IEEE international conference on computer vision, 2015, pp 4489–4497 HVTH: Phùng Trọng Hiếu 55 20BTOANTIN Chương GVHD: TS Bùi Xuân Diệu [45] D Tran, H Wang, L Torresani, and M Feiszli, “Video classification with channel-separated convolutional networks,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp 5552–5561 [46] D Tran, H Wang, L Torresani, J Ray, Y LeCun, and M Paluri, “A closer look at spatiotemporal convolutions for action recognition,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2018, pp 6450–6459 [47] D C Van Essen and J L Gallant, “Neural mechanisms of form and motion processing in the primate visual system,” Neuron, vol 13, no 1, pp 1–10, 1994 [48] A Vaswani, N Shazeer, N Parmar, et al., “Attention is all you need,” in Advances in Neural Information Processing Systems 30, I Guyon, U V Luxburg, S Bengio, et al., Eds., Curran Associates, Inc., 2017, pp 5998–6008 [Online] Available: http://papers nips.cc/paper/7181-attention-is-all-you-need.pdf [49] K Xu, J Ba, R Kiros, et al., “Show, attend and tell: Neural image caption generation with visual attention,” in Proceedings of the 32nd International Conference on Machine Learning, F Bach and D Blei, Eds., ser Proceedings of Machine Learning Research, vol 37, Lille, France: PMLR, 2015, pp 2048–2057 [Online] Available: http://proceedings.mlr.press/v37/xuc15.html [50] S E Yuksel, J N Wilson, and P D Gader, “Twenty years of mixture of experts,” IEEE transactions on neural networks and learning systems, vol 23, no 8, pp 1177–1193, 2012 [51] R Zhang, P Isola, and A A Efros, “Colorful image colorization,” in ECCV, Springer, 2016, pp 649–666 [52] X Zhang, X Zhou, M Lin, and J Sun, “Shufflenet: An extremely efficient convolutional neural network for mobile devices,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp 6848–6856 HVTH: Phùng Trọng Hiếu 56 20BTOANTIN Chương GVHD: TS Bùi Xuân Diệu [53] W Zhu, Y Huang, L Zeng, et al., “Anatomynet: Deep learning for fast and fully automated whole-volume segmentation of head and neck anatomy,” Medical Physics, vol 46, no 2, pp 576–589, 2019 DOI : 10.1002/mp.13300 eprint: https://aapm.onlinelibrary wiley.com/doi/pdf/10.1002/mp.13300 [Online] Available: https : / / aapm onlinelibrary wiley com / doi / abs / 10 1002/mp.13300 HVTH: Phùng Trọng Hiếu 57 20BTOANTIN ... sánh số với cấu hình huấn luyện khác 24 So sánh mơ hình số toán phân lớp video So sánh mơ hình số tốn ETS vii 41 41 Chương Giới thiệu toán. .. toán Thuật ngữ Học máy (Machine Learning), hay Máy học ngày xuất nhiều tác phẩm, cơng trình nghiên cứu thuộc nhiều lĩnh vực khác Có thể thấy, nhà khoa học cố gắng đưa Máy học vào giải toán mà trước... triển khai thuật tốn cổ điển hay chí chưa có thuật toán Một tập Máy học, bao gồm giải pháp sử dụng mơ hình Học sâu (Deep Learning) chí cịn nhà khoa học, hay người thực hành đặc biệt quan tâm, dành