3 Kiến trúc VGG-16

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 49 - 54)

Được phát triển năm 2014, là một biến thể sâu hơn nhưng lại đơn giản hơn so với kiến trúc convolution (từ gốc: convolutional structure) thường thấy ở CNN Kiến trúc như hình dưới, có thể thấy số mặc dù các lớp cao hơn được đơn giản hóa so với LeNet, AlexNet … thu gọn về kích thước nhưng số lượng lại lớn hơn, sâu hơn.

Bởi vì một cách dễ dàng nhất để cải thiện độ chính xác của mạng đó là gia tăng kích thước của mạng thơng qua độ sâu của chúng. Từ kiến trúc mạng VGG-16 [23] ta có thể thấy những cải tiến so với AlexNet:

+ Kiến trúc VGG-16 sâu hơn, bao gồm 13 layers tích chập 2 chiều (thay vì 5 so với AlexNet) và 3 layers fully connected.

+ Lần đầu tiên trong VGG-16 chúng ta xuất hiện khái niệm về khối (block) là những kiến trúc giống nhau lặp lại. Kiến trúc khối đã khởi nguồn cho một dạng kiến trúc hình mẫu rất thường gặp ở các mạng CNN trở về sau.

+ VGG-16 cũng là kiến trúc đầu tiên thay đổi thứ tự của các block khi xếp nhiều layers CNN + max pooling thay vì xen kẽ một layer CNN + max pooling. Các layers CNN sâu hơn có thể trích xuất đặc trưng tốt hơn so với chỉ 1 layers CNN.

+ VGG-16 chỉ sử dụng các bộ lọc kích thước nhỏ 3x3 thay vì nhiều kích thước bộ lọc như AlexNet. Kích thước bộ lọc nhỏ sẽ giúp giảm số lượng tham số cho mơ hình mà mang lại hiệu quả tính toán hơn. VD: Nếu sử dụng 2 bộ lọc kích thước 3 x 3 trên một featurs map (là output của một layer CNN) có độ sâu là 3 thì ta sẽ cần n_filters x kernel_size x kernel_size x n_channels = 2 x 3 x 3 x 3 = 54 tham số. Nhưng nếu sử dụng 1 bộ lọc kích thước 5 x 5 sẽ cần 5 x 5 x 3 = 75 tham số. Vì 2 bộ lọc 3 x 3 vẫn mang lại hiệu quả hơn so với 1 bộ lọc 5 x 5.

Mạng VGG-16 sâu hơn so với AlexNet và số lượng tham số của nó lên tới 138 triệu tham số. Ngoài ra còn một phiên bản nữa của VGG-16 là VGG-19 tăng cường thêm 3 layers về độ sâu.

2.5.4. Kiến trúc Inception (GoogleLeNet)

Vào năm 2014, các nhà nghiên cứu của google đã đưa ra mạng Inception [23] tham dự cuộc thi ImageNet 2014.

Kiến trúc này đã giải quyết một câu hỏi lớn trong mạng CNN đó là sử dụng kernel_size với kích thước bao nhiêu thì hợp lý. Các kiến trúc mạng nơ-ron trước đó đều sử dụng các bộ lọc với đa dạng các kích thước 11x11, 5x5, 3x3 cho tới nhỏ nhất là 1x1. Mơ hình này khá đặc biệt, khơng hoàn toàn là các lớp layer nối tiếp gối đầu lên nhau như các mạng trên. Mạng gồm các đơn vị gọi là “inception cell” - thực hiện convolution 1 input với nhiều filter khác nhau rồi tổng hợp lại, theo nhiều nhánh. Việc cùng kết hợp đồng thời các kernel này vào cùng một module có thể mang lại hiệu quả đó chính là kiến trúc khối Inception.

Để tiết kiệm tính toán, các convolution kích thước 1x1 được sử dụng để giảm chiều sâu chanel của input. Với mỗi 1 cell, sử dụng các 1x1, 3x3, 5x5 filter để extract các feature từ input.

Dưới đây là dạng 1 cell.

Các nhà nghiên cứu đã thử thay các filter 3x3, 5x5 bằng các filter lớn hơn như 7x7, 11x11. Có hiệu quả hơn về việc trích xuất các đặc trưng, tuy nhiên đánh đổi lại là thời gian tính toán lâu hơn rất nhiều. Người ta cũng nhận ra rằng 1 filter 5x5 có thể thay bằng 2 filter 3x3 nối nhau, hiệu quả tương đương nhưng tiết kiệm được tính toán rất lớn.

Dưới đây là kiến trúc mạng Inception

Mạng được xây dựng từ việc ghép các inception cell lại với nhau.

Hình 2.18: Mơ hình Kiến trúc Inception

Inception có một đặc điểm khá hay là có thêm 2 output phụ. Người ta tin rằng hai output phụ này không quá ảnh hưởng tới chất lượng của mạng trong khi train những epoch đầu. Nó giúp cho việc train diễn ra nhanh hơn khi tối ưu những layer đầu dựa vào các output phụ (trong những epoch đầu). Có thể nghĩ đơn giản rằng trong những epoch đầu, các layer càng gần cuối càng ít được tối ưu ngay, do đó chưa cần thiết phải tối ưu ngay. Sau một thời gian tối ưu các layer đầu rồi mới tối ưu các layer tiếp theo dựa vào final input. Việc này cải thiện khả năng tính toán và tốc độ train khá nhiều.

Hiện nay, Inception liên tục được cải tiến và đã cho ra nhiều phiên bản, Inception V1 (5 triệu tham số), Inception V3 (23 triệu tham sơ), Inception V4.

Ngoài ra cịn có những kiến trúc ResNet-50 (2015), sử dụng kết nối tắt để ánh xạ các đầu vào từ những layer trước đó tới những layer sau. Là kiến trúc mạng rất sâu nhưng có số tham số nhỏ hơn nhờ kế thừa những kỹ thuật từ GoogleNet; Kiến trúc DenseNet (2016), là bước phát triển tiếp theo cua ResNet khi kế thừa kiến trúc khối và phát triển kết nối tắt theo một mạng lưới dày đặc.

Trên đây là điểm qua một số mạng CNN phổ biến dược sử dụng trong bài toán Image Classification. Trong thực tế, việc sử dụng kết hợp nhiều phương pháp khác nhau thường sẽ cho hiệu quả tốt hơn.

2.6. Kết luận

Hiện nay, mạng nơ-ron tích chập CNN ngày càng trở nên phổ biến và thường được dùng trong các kiến trúc học sâu (deep learning), mang lại nhiều thành công trong các bài toán trí tuệ nhân tạo: thị giác máy tính, xử lý ngơn ngữ tự nhiên. Cơ sở lý thuyết mạng nơ-ron tích chấp CNN trong chương này được áp dụng đề x́t mơ hình hệ thống hiệu quả trong việc trích xuất các đặc trưng dữ liệu đầu vào một cách tự động, để phân loại ảnh và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa sẽ được trình bày trong các chương tiếp theo.

Xây dựng Domain ontology MƠ HÌNH PHÂN LỚP HÌNH ẢNH CNN Dữ liệu ảnh huấn luyện Xây dựng mơ hình phân lớp ảnh CNN Mơ hình CNN Phân lớp và tạo chỉ mục ảnh Chỉ mục ảnh theo chủ đề: Animals, flowers, vehicles,..

Truy vấn ảnh theo “Từ khóa”/”ảnh”

Câu truy vấn

SPARQL (ngữ nghĩa) Tìm kiếm Kết quả truy vấn ảnh CSDL ảnh MƠ HÌNH TRUY VẤN ẢNH

Pha huấn luyện

Domain ontology

CHƯƠNG 3

ĐỀ XUẤT MƠ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP TÌM KIẾM THEO NGỮ NGHĨA

3.1. Kiến trúc của hệ thống

Trong nghiên cứu này, hệ thống tìm kiếm ảnh sẽ khơng hỗ trợ tìm kiếm theo dạng ngơn ngữ tự nhiên mà chỉ hỗ trợ người dùng tìm theo từ khóa hoặc nội dung ảnh truy vấn theo những chủ đề ảnh đã định trước. Tìm theo nội dung ở đây có nghĩa là nhãn của mỗi ảnh sẽ được gán dựa trên nội dung của ảnh thơng qua mơ hình phân lớp CNN.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 49 - 54)

Tải bản đầy đủ (PDF)

(85 trang)