CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG CNN VÀ RETINANET
2.2. GIỚI THIỆU VỀ RETINANET
2.2.1. Mạng Kim Tự Tháp tính năng (FPN)
Theo truyền thống, trong thị giác máy tính, các kim tự tháp hình ảnh được làm bằng lơng vũ đã được sử dụng để phát hiện các đối tượng có tỷ lệ khác nhau trong một hình ảnh. Kim tự tháp hình ảnh bằng lơng vũ là những kim tự tháp đặc trưng được xây dựng dựa trên kim tự tháp hình ảnh. Điều này có nghĩa là người Tơi sẽ lấy một hình ảnh và lấy mẫu thành hình ảnh có độ phân giải thấp hơn và kích thước nhỏ hơn (do đó, tạo thành một kim tự tháp).
Các tính năng được thiết kế thủ cơng sau đó được trích xuất từ mỗi lớp trong kim tự tháp để phát hiện các đối tượng [1]. Điều này làm cho quy mô kim tự tháp ln bất biến. Tuy nhiên, q trình này địi hỏi nhiều tính tốn và bộ nhớ. Với sự ra đời của học sâu, các tính năng được thiết kế thủ cơng này đã được thay thế bằng CNN. Sau đó, bản thân kim tự tháp được bắt nguồn từ cấu trúc phân cấp hình chóp vốn có của CNN. Trong kiến trúc CNN, kích thước đầu ra của bản đồ đối tượng giảm sau mỗi khối liên tiếp của các phép tốn tích hợp và tạo thành một cấu trúc hình chóp.
Hình 2.10. Sự khác nhau của kiến trúc Kim Tự Tháp
Đã có nhiều kiến trúc khác nhau sử dụng cấu trúc kim tự tháp (Hình 2.3). (A) kim tự tháp hình ảnh đặc trưng, như tơi đã thảo luận, là tính tốn chun sâu. (b) Bản đồ đối tượng (tỷ lệ) đơn đã được sử dụng để phát hiện nhanh hơn. Mặc dù chúng rất chắc chắn và nhanh chóng, các kim tự tháp vẫn cần thiết để có kết quả chính xác nhất. (c) Hệ thống phân cấp đối tượng địa lý hình chóp đã được sử dụng bởi các mơ hình như máy dị ảnh đơn, nhưng nó
khơng sử dụng lại các bản đồ đối tượng địa lý nhiều tỷ lệ từ các lớp khác nhau. (d) Mạng Kim tự tháp tính năng (FPN) bù đắp cho những thiếu sót trong các biến thể này. FPN tạo ra một kiến trúc với ngữ nghĩa phong phú ở mọi cấp độ vì nó kết hợp các tính năng mạnh về ngữ nghĩa có độ phân giải thấp với các tính năng yếu về ngữ nghĩa có độ phân giải cao. Điều này đạt được bằng cách tạo ra một con đường từ trên xuống với các kết nối bên với các lớp phức hợp từ dưới lên.
Đường dẫn từ trên xuống, đường dẫn từ dưới lên và các kết nối bên sẽ được hiểu rõ hơn trong phần tiếp theo khi tôi xem xét kiến trúc RetinaNet. RetinaNet kết hợp FPN và thêm mạng con phân loại và hồi quy để tạo mơ hình phát hiện đối tượng.