41 Output Phân loại với đầu ra 1.000 lớp
7.5.2. Mô hình suy diễn mối liên kết
Mục tiêu của mô hình này là tạo kết nối tiềm ẩn giữa hình ảnh (visual) và văn bản mô tả (textual). Tức là cần tạo được mối liên kết giữa những thành phần đối tượng trong ảnh với các cụm từ keyword/phrase trong đoạn văn bản mô tả về bức ảnh đó. Đầu vào của mô hình là một ảnh và một đoạn văn bản mô tả ảnh tương ứng với đầu ra là giá trị thể hiện mức độ liên kết giữa chúng.
Đầu tiên ảnh được đưa vào mạng R-CNN để phát hiện các đối tượng riêng lẻ. Mô hình R-CNN đã được huấn luyện trên tập dữ liệu ImageNet[66]. Sẽ lựa chọn ra tối đa 19 vùng đối tượng có hệ số tỷ lệ nhận dạng cao nhất cùng với ảnh gốc được biểu diễn trong không gian 500 chiều, nghĩa là đặc trưng của mỗi đối tượng được biểu diễn trong không gian 500 chiều. Như vậy, kết quả của bước này là 20 vectors 500 chiều thể hiện thông tin cho mỗi ảnh (1 ảnh gốc và 19 vùng đối tượng trong đó). Bước tiếp theo là thông tin về văn bản mô tả. Văn bản cũng được phân tích và đưa các từ (cụm từ) vào cùng không gian đa mô hình này. Việc xử lý được thực hiện bằng cách sử dụng mạng BRNN. Từ mức cao nhất, nó phục vụ việc minh họa thông tin về ngữ cảnh của các từ (cụm từ) trong văn bản đưa vào. Tiếp theo, từ thông tin biểu diễn đối tượng trong bức ảnh và thông tin thể hiện ngữ nghĩa các từ trong văn bản mô tả, cả hai thông tin này đều được biểu diễn cùng không gian, độ tương tự giữa các phần tử tương ứng của chúng được tính bằng phép toán tích trong (inner product).