Theo hướng tiếp cận này, để máy tính nhận thức hay hiểu được tiếng nĩi thực chất là xây dựng được mạng quan hệ giữa tín hiệu tiếng nĩi với thơng tin về các sự vật hiện tượng thu được từ các giác quan khác. Từ đĩ, chúng tơi đề xuất một mơ hình nhận thức tiếng nĩi thơng qua việc học mối liên kết giữa tiếng nĩi với hình ảnh là hai kênh thu nhận thơng tin chính ở con người.
Tín hiệu âm thanh của một lớp trừu tượng nào đĩ sẽ được nhận thức bởi một số bởi một số đặc trưng nhất định. Tương tự vậy, các tín hiệu hình ảnh của cùng một lớp trừu tượng cũng sẽ được nhận thức bởi một số đặc trưng chung nhất định nào đĩ. Và nhận thức tiếng nĩi là quá trình xây dựng được mạng quan
hệ giữa các đặc trưng này. Trong mơ hình học mối quan hệ giữa tín hiệu tiếng nĩi và hình ảnh, chúng tơi sử dụng đặc trưng SIFT cho cả tín hiệu tiếng nĩi và hình ảnh. Trong mơ hình ánh xạ giữa tín hiệu tiếng nĩi và hình ảnh chúng tơi đề xuất sử dụng mạng tích chập để trích chọn đặc trưng của tiếng nĩi dựa trên phổ tần số, và trích chọn đặc trưng hình ảnh trực tiếp.
Hình 4.7 mơ phỏng quá trình nhận thức tiếng nĩi. Khi tín hiệu tiếng nĩi được hệ thính giác thu nhận, các tín hiệu này được các giác quan xử lý để biến đổi thành các đặc trưng tần số tương ứng. Các tần số đạt được năng lượng nhất định sẽ kích thích các sợi sinh học và truyền một xung điện đến vùng vỏ não thính giác sơ cấp để thu nhận đặc trưng phổ tần số theo thời gian của tín hiệu tiếng nĩi. Các thơng tin này, sau đĩ sẽ tạo các thơng tin liên kết giữa các đặc trưng này để biểu diễn tín hiệu tiếng nĩi ở vùng não liên kết thính giác. Đồng thời với quá trình này, tín hiệu hình ảnh cũng được hệ thị giác thu nhận và các đặc trưng của tín hiệu hình ảnh lưu trữ ở vũng vỏ não thị giác sơ cấp, vùng vỏ não liên kết thị giác. Tiếp theo, cả hai luồng thơng tin này sẽ truyền tín hiệu tới vùng vỏ não liên kết đa giac quan để tạo liên kết giữa các đặc trưng thu được.