Mô hình của các tác giả trong [3] sử dụng tính hướng không gian – đối tượng (SBN- OBN), tức thể hiện tính hướng đối tượng xảy ra sau tính hướng không gian trong sự tập trung thị giác. Cơ bản, đó là một sự kết nối của hai mạng trí nhớ thời gian phân cấp hướng không gian (HTM-SBN) và trí nhớ thời gian phân cấp hướng đối tượng (HTM- OBN) để nhận dạng các đối tượng. Mạng HTM-SBN được huấn luyện với tập ảnh các đối tượng có đầy đủ bộ phận và được dùng để nhận dạng những đối tượng ứng viên. Ứng với mỗi đối tượng, có một mạng HTM-OBN được huấn luyện để nhận dạng các bộ phận của đối tượng tương ứng. Khi một đối tượng được đưa vào mô hình, ảnh sẽ được nhận dạng thông qua HTM-SBN để tìm các ứng viên đối tượng. Sau đó, các HTM-OBN của những ứng viên đối tượng được áp dụng để nhận dạng những bộ phận riêng lẻ của đối tượng. Kết quả trung bình của tất cả các bộ phận nhận dạng được dùng như là kết quả nhận dạng của đối tượng. Nếu đối tượng nào có điểm cao nhất thì được xem như là kết quả đầu ra của hệ thống. Hình 5-1 minh họa kiến trúc mô hình như sau:
Chúng tôi chỉ ra hai vấn đề cũng như các phương án đề xuất cải tiến cho mô hình trên.
Vấn đề 1: Làm thế nào để nhận dạng một đối tượng trong một ảnh đã được huấn luyện
nếu đối tượng đó được dịch chuyển đến một vị trí nào đó trong ảnh?
Cơ bản một hệ thống chỉ có thể nhận diện một ảnh được huấn luyện mà đối tượng được đặt tại một vị trí xác định. Tuy nhiên, nếu đối tượng được di chuyển đến một vị trí bất kì trong ảnh thì hệ thống không thể nhận dạng được nó trừ khi nó được huấn luyện tại những vị trí được dịch chuyển tới.
Phương pháp giải quyết là đối tượng được di chuyển đến vị trí nơi mà nó gần nhất được huấn luyện. Đầu tiên, mạng HTM huấn luyện ảnh có đối tượng nhận dạng được đặt tại trọng tâm của ảnh. Khi một tấm ảnh được đưa vào hệ thống, đối tượng chưa nhận dạng sẽ được tách và di chuyển xung quanh trọng tâm của ảnh trong một bán kính định trước. Những tấm ảnh được tạo ra bởi việc di chuyển sẽ được nhận dạng thông qua mạng HTM. Cuối cùng, ảnh nào có giá trị nhận dạng cao nhất sẽ được xem là kết quả.
Vấn đề 2: Làm thế nào để nhận dạng được nhiều đối tượng trong ảnh cùng một lúc? Ví
dụ đối tượng một ảnh vừa có ghế và bàn cùng lúc?
Khả năng của hướng đối tượng là có thể tìm được những ứng viên của các bộ phận dựa vào những bộ phận được huấn luyện. Khi một đối tượng được đưa vào hệ thống thì nó được tách ra thành nhiều bộ phận dựa vào màu sắc. Mỗi bộ phận được nhận dạng thông qua các mạng HTM-OBN để tìm ra những ứng viên của mạng với khả năng cao nhất. Sau đó, chúng được kết hợp với nhau để tạo nên những đối tượng có thể. Cuối cùng, những đối tượng này được kiểm tra thông qua việc sử dụng các mạng HTM-SBN tương ứng.
Đề xuất mô hình
Dựa vào các phân tích về các vấn đề cũng như giải pháp của mô hình SBN-OBN, chúng tôi đề xuất hai mô hình được trình bày ở phần dưới. Đó là mô hình OBN-SBN và mô hình OBN-HSBN.
Mô hình OBN-SBN: sự tập trung xảy ra theo thứ tự tính hướng đối tượng trước tính hướng không gian.
Mô hình OBN-HSBN: sự tập trung xảy ra theo tính hướng đối tượng trước tính hướng không gian. Bên cạnh đó, sự tập trung được thể hiện qua mô hình top-down bằng việc sử dụng cây trí thức hướng không gian phân cấp (Hierarchical Space- Based Network) do chúng tôi đề xuất.