Trích chọn đặc trưng

Một phần của tài liệu (LUẬN văn THẠC sĩ) sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ (Trang 39 - 40)

Chương 3 MƠ HÌNH BÀI TỐN

3.2. Phát hiện đối tượng

3.2.2. Trích chọn đặc trưng

Q trình trích chọn đặc trưng được thực hiện trên các phân vùng được đề cử, với vector đặc trưng 4096 chiều sử dụng Caffe, một Deep Learning

Framework của trung tâm nghiên cứu thuộc trường đại học Berkeley.

Các vector đặc trưng cho vùng đề cử được tính tốn thơng qua q trình lan truyền ngược qua 5 lớp mạng neural nhân chập CNN, 2 lớp kết nối đầy đủ, và lớp cuối cùng là lớp nhãn, u cầu dữ liệu ảnh đầu vào có kích thước 227 × 227

điểm ảnh RGB (Hình minh hoạ 3-1), do đó dữ liệu ảnh trong phân vùng đó cần

phải được chuyển đổi cho phù hợp, vì vậy mọi dữ liệu ảnh sẽ được chuẩn hố về kích thước 227x227 điểm ảnh.

Hình 3-4. Kiến trúc của mạng neural nhân chập CNN [16].

Kích thước của dữ liệu ảnh đầu vào khơng cố định, phụ thuộc vào kích thước của đối tượng, việc chuẩn hoá lại dữ liệu về kích thước cố định sẽ kéo theo vấn

đề mất mát thông tin, ta không thể cắt nhỏ được dữ liệu ảnh vì như thế giống như

lược bỏ bộ phận đối tượng, trong nhận dạng đối tượng là không được khả thi, vì

thế để đơn giản hố vấn đề chúng ta buộc phải co giãn chiều cao và chiều rộng

của đối tượng về kích thước chuẩn 227x227 điểm ảnh, điều này làm mất mát thông

tin, cụ thể hình ảnh đối tượng sẽ bị biến dạng, tuy nhiên khơng ảnh hưởng tới nội dung tồn cục của dữ liệu ảnh đối tượng.

Hình 3-5. Mẫu huấn luyện biến dạng[9].

Hình 3-2 là thí dụ cho thấy một vài mẫu huấn luyện ngẫu nhiên từ tập dữ liệu VOC 2007. Hình ảnh đối tượng bị biến dạng tuy nhiên vẫn giữ được nội dung

toàn cục của đối tượng.

Một phần của tài liệu (LUẬN văn THẠC sĩ) sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ (Trang 39 - 40)

Tải bản đầy đủ (PDF)

(64 trang)