6 Kết Luận
2.12 Kiến trúc khối residual block []
ResNet là một mạng CNN bao gồm nhiều Residual Block nhỏ tạo thành. Hiện tại có rất nhiều biến thể của ResNet, với tên theo sau là số lớp kiến trúc mạng. 2.3.2 Inception-v3
Với các mạng CNN thông thường, khi thiết kế ta bắt buộc phải xác định trước các tham số của lớp convolution như: kernel size, padding, strides, ... Và thường rất khó để xác định trước tham số nào sẽ phù hợp, ví dụ như chúng ta nên chọn kernel size bằng (1x1), (3x3) hoặc (5x5) sẽ tốt hơn. Để giải quyết vấn đề trên, các nhà nghiên cứu của Google đã đề xuất mạng Inception vào năm 2014. Một mạng Inception hoàn chỉnh bao gồm nhiều Inception module kết hợp lại với nhau.
Ý tưởng của Inception module rất đơn giản, thay vì sử dụng một lớp con- volution với tham số kernel size cố định, ta hoàn toàn có thể sử dụng cùng lúc nhiều lớp convolution với các tham sốkernel size khác nhau (1x1, 3x3, 5x5, 7x7, ...) và sau đó tổng hợp lại các đầu ra với nhau. Ở thời điểm hiện tại, có ba phiên bản của mạng Inception, các phiên bản sau thường có một vài điểm cải tiến so với phiên bản trước để cải thiện độ chính xác.
Một điểm thú vị của inception module chính là việc giảm các trọng số học rất đáng kể, bằng việc sử dụngkernel có kích thước là (1x1) cho mỗi lớp convolution. Chính kernel này giúp ta có thể điều khiển số lượng channel theo mong muốn, và chính số lượng channel này bằng với số lượng trọng số cần học của module, mà không cần thêm bất kỳ trọng số nào khác, như đã đề cập ở phần đầu của phần này.
Tổng quan tình hình nghiên cứu
Chương này trình bày các công trình liên quan được chúng tôi tìm hiểu trong quá trình nghiên cứu thực hiện đề tài. Các công trình này chứa các kỹ thuật và các ứng dụng có liên quan đến nội dung mà chúng tôi nghiên cứu, hoặc được chúng tôi ứng dụng vào nghiên cứu này.
Ngày nay, với sự hỗ trợ từ sức mạnh phần cứng, Convolution Neural Network - CNN cùng với học sâu là một phương pháp hiệu quả nhất trong việc trích đặc trưng từ ảnh. Kế thừa từ việc này, hầu hết các công trình liên quan đến đề tài đều sử dụng CNN và học sâu để trích đặc trưng, đặc biệt là sử dụng các pretrain model (resnet [11], inception [12]). Sau đó kết hợp những đặc trưng này với những phương pháp học máy hoặc học sâu để tạo nên mô hình hoàn chỉnh cho việc truy tìm đối tượng dựa vào thuộc tính. Trong những năm gần đây đã có nhiều nguyên cứu về việc nhận dạng thuộc tính của đối tượng và mang lại kết quả cao, các hướng tiếp cận của các nghiên cứu trên có thể chia làm bốn hướng chính: holistic, relation based, attention based, part based.