Mơ hình Kiến trúc Inception

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 52 - 54)

Inception có một đặc điểm khá hay là có thêm 2 output phụ. Người ta tin rằng hai output phụ này không quá ảnh hưởng tới chất lượng của mạng trong khi train những epoch đầu. Nó giúp cho việc train diễn ra nhanh hơn khi tối ưu những layer đầu dựa vào các output phụ (trong những epoch đầu). Có thể nghĩ đơn giản rằng trong những epoch đầu, các layer càng gần cuối càng ít được tối ưu ngay, do đó chưa cần thiết phải tối ưu ngay. Sau một thời gian tối ưu các layer đầu rồi mới tối ưu các layer tiếp theo dựa vào final input. Việc này cải thiện khả năng tính toán và tốc độ train khá nhiều.

Hiện nay, Inception liên tục được cải tiến và đã cho ra nhiều phiên bản, Inception V1 (5 triệu tham số), Inception V3 (23 triệu tham sơ), Inception V4.

Ngoài ra cịn có những kiến trúc ResNet-50 (2015), sử dụng kết nối tắt để ánh xạ các đầu vào từ những layer trước đó tới những layer sau. Là kiến trúc mạng rất sâu nhưng có số tham số nhỏ hơn nhờ kế thừa những kỹ thuật từ GoogleNet; Kiến trúc DenseNet (2016), là bước phát triển tiếp theo cua ResNet khi kế thừa kiến trúc khối và phát triển kết nối tắt theo một mạng lưới dày đặc.

Trên đây là điểm qua một số mạng CNN phổ biến dược sử dụng trong bài toán Image Classification. Trong thực tế, việc sử dụng kết hợp nhiều phương pháp khác nhau thường sẽ cho hiệu quả tốt hơn.

2.6. Kết luận

Hiện nay, mạng nơ-ron tích chập CNN ngày càng trở nên phổ biến và thường được dùng trong các kiến trúc học sâu (deep learning), mang lại nhiều thành công trong các bài toán trí tuệ nhân tạo: thị giác máy tính, xử lý ngơn ngữ tự nhiên. Cơ sở lý thuyết mạng nơ-ron tích chấp CNN trong chương này được áp dụng đề x́t mơ hình hệ thống hiệu quả trong việc trích xuất các đặc trưng dữ liệu đầu vào một cách tự động, để phân loại ảnh và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa sẽ được trình bày trong các chương tiếp theo.

Xây dựng Domain ontology MƠ HÌNH PHÂN LỚP HÌNH ẢNH CNN Dữ liệu ảnh huấn luyện Xây dựng mơ hình phân lớp ảnh CNN Mơ hình CNN Phân lớp và tạo chỉ mục ảnh Chỉ mục ảnh theo chủ đề: Animals, flowers, vehicles,..

Truy vấn ảnh theo “Từ khóa”/”ảnh”

Câu truy vấn

SPARQL (ngữ nghĩa) Tìm kiếm Kết quả truy vấn ảnh CSDL ảnh MƠ HÌNH TRUY VẤN ẢNH

Pha huấn luyện

Domain ontology

CHƯƠNG 3

ĐỀ XUẤT MƠ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP TÌM KIẾM THEO NGỮ NGHĨA

3.1. Kiến trúc của hệ thống

Trong nghiên cứu này, hệ thống tìm kiếm ảnh sẽ khơng hỗ trợ tìm kiếm theo dạng ngơn ngữ tự nhiên mà chỉ hỗ trợ người dùng tìm theo từ khóa hoặc nội dung ảnh truy vấn theo những chủ đề ảnh đã định trước. Tìm theo nội dung ở đây có nghĩa là nhãn của mỗi ảnh sẽ được gán dựa trên nội dung của ảnh thơng qua mơ hình phân lớp CNN.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 52 - 54)

Tải bản đầy đủ (PDF)

(85 trang)