Chương 3 MƠ HÌNH BÀI TỐN
3.2. Phát hiện đối tượng
3.2.2. Trích chọn đặc trưng
Q trình trích chọn đặc trưng được thực hiện trên các phân vùng được đề cử, với vector đặc trưng 4096 chiều sử dụng Caffe, một Deep Learning
Framework của trung tâm nghiên cứu thuộc trường đại học Berkeley.
Các vector đặc trưng cho vùng đề cử được tính tốn thơng qua q trình lan truyền ngược qua 5 lớp mạng neural nhân chập CNN, 2 lớp kết nối đầy đủ, và lớp cuối cùng là lớp nhãn, u cầu dữ liệu ảnh đầu vào có kích thước 227 × 227
điểm ảnh RGB (Hình minh hoạ 3-1), do đó dữ liệu ảnh trong phân vùng đó cần
phải được chuyển đổi cho phù hợp, vì vậy mọi dữ liệu ảnh sẽ được chuẩn hố về kích thước 227x227 điểm ảnh.
Hình 3-4. Kiến trúc của mạng neural nhân chập CNN [16].
Kích thước của dữ liệu ảnh đầu vào khơng cố định, phụ thuộc vào kích thước của đối tượng, việc chuẩn hoá lại dữ liệu về kích thước cố định sẽ kéo theo vấn
đề mất mát thông tin, ta không thể cắt nhỏ được dữ liệu ảnh vì như thế giống như
lược bỏ bộ phận đối tượng, trong nhận dạng đối tượng là không được khả thi, vì
thế để đơn giản hố vấn đề chúng ta buộc phải co giãn chiều cao và chiều rộng
của đối tượng về kích thước chuẩn 227x227 điểm ảnh, điều này làm mất mát thông
tin, cụ thể hình ảnh đối tượng sẽ bị biến dạng, tuy nhiên khơng ảnh hưởng tới nội dung tồn cục của dữ liệu ảnh đối tượng.
Hình 3-5. Mẫu huấn luyện biến dạng[9].
Hình 3-2 là thí dụ cho thấy một vài mẫu huấn luyện ngẫu nhiên từ tập dữ liệu VOC 2007. Hình ảnh đối tượng bị biến dạng tuy nhiên vẫn giữ được nội dung
toàn cục của đối tượng.