Tạo tập ảnh huấn luyện và kiểm tra

Một phần của tài liệu Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh (Trang 40 - 44)

Tổng số đối tượng trong hệ thống là bốn bao gồm: "Chair", "Table", "Computer" và "Telephone" mà bộ phận của các đối tượng được tô màu khác nhau. Mỗi đối tượng đặt trong tấm ảnh 64×64.

Một đối tượng có đầy đủ hoặc một vài bộ phận của nó như trong Bảng 5-1 và Hình 5- 2 . Một đối tượng được xem là hướng đa bộ phận nếu nó có nhiều hơn một bộ phận kết hợp trong khi là hướng đơn bộ phận nếu nó có duy nhất một bộ phận.

Bảng 5-1: Danh sách hướng đa ảnh và đơn ảnh của các đối tượng

Đối tượng Hướng đa bộ phận Hướng đơn bộ phận

Computer

Case + Monitor Case + Keyboard Monitor + Keyboard Case + Monitor + Keyboard

Case Keyboard Monitor Chair Face + 4 Legs Face + Back Back + 4 Legs Face + Back + 4 Legs

Face Back Leg1 (Front-Left) Leg2 (Front-Right) Leg3 (Back-Left) Leg4 (Back-Right) Table

Face + 4 Legs Face

Leg1 (Front-Left) Leg2 (Front-Right) Leg3 (Back-Left) Leg4 (Back-Right) Telephone Hand + Base Hand + Button Base + Button

Hand + Base + Button

Hand Base Button

Ảnh đa bộ phận

Ảnh đơn bộ phận

Hình 5-2: Một ví dụ về hướng đa và đơn bộ phận của đối tượng "Computer"

Ứng với mỗi ảnh đa bộ phận hoặc đơn bộ phận, chúng tôi đặt nó vào trong không gian 3D và sử dụng phương pháp quay quanh trọng tâm [3] để tạo tập ảnh như Hình 5-3. Cụ thể, đối tượng được quay 3600 trên trục Oy trong khi camera được di chuyển từ 00 đến 450 trên trục xOy cùng lúc. Mỗi tấm ảnh được tạo ra được xem như một đặc trưng liên tục theo thời gian của đối tượng. Một ví dụ mẫu về tập ảnh phát sinh được thể hiện trong Hình 5-4.

Hình 5-4: Xoay đối tượng "Table" quanh trọng tâm.

(F: chỉ số khung ảnh; O: độ quay của đối tượng; C: di chuyển của camera)

Kết quả đầu ra chứa 200 khung ảnh liên tục. Chúng tôi chia kết quả đầu ra này thành hai tập ảnh sao cho 500 ảnh có chỉ số ảnh lẻ thuộc về tập ảnh kiểm tra trong khi những ảnh còn lại (chỉ số chẵn) thuộc về tập ảnh huấn luyện.

Đối với tập ảnh huấn luyện, tất cả các đối tượng bao gồm đa bộ phận và đơn bộ phận được di chuyển đến trọng tâm ảnh và chuyển thành màu nhị phân (trắng – đen) như Hình 5-5. Tập ảnh này sẽ được huấn luyện bởi mạng HTM.

Hình 5-5: Di chuyển bộ phận “Computer” về trọng tâm và đổi thành màu nhị phân

Một phần của tài liệu Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh (Trang 40 - 44)