Kiến trúc mạng ALM [5]

Một phần của tài liệu Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát (Trang 34 - 36)

6 Kết Luận

3.4 Kiến trúc mạng ALM [5]

nhau đối với mỗi thuộc tính. Chính vì những lý do trên nhóm tác giả đã đề xuất Channel Attention để có thể học được tỷ lệ này cho từng thuộc tính khác nhau.

STN: Là một cách để tự động làm giàu dữ liệu bằng cách học các thông số của ma trận Affine Transformation. Trong ma trận này nhóm tác giả chỉ học hai thông số như trong công thức bên dưới: tỉ lệ (sx, sy) và tịnh tiến (tx, ty) .

    xsi ys i 0     =   sx 0 tx 0 sy ty       xti yt i 1     (3.1) Sau khi được lan truyền đến cuối mạng theo bốn nhánh, tại điểm cuối của những nhánh này đều dùng hàm mất mát (loss function) và được kết hợp theo cách sau đây. Li( ˆyi, y) = − 1 M M X m=1 γm(ymlog(σ( ˆyim)) + (1−ym)log(1−σ( ˆyim))) (3.2) L= 4 X i=1 Li (3.3) Trong đó: • M là số thuộc tính. • γm =e−am trọng số mất mát cho từng thuộc tính.

• am là xác suất thuộc tính có trong tập dữ liệu.

Ưu điểm: Kết hợp hài hòa giữa đặc trưng toàn cục và cục bộ với nhau. ALM đã tập trung tốt vào những vùng cần học. Hơn thế nữa, STN cũng tự động làm giàu dữ liệu, tự động thích nghi với những ngoại cảnh khác nhau. Chính những

điều này, làm tăng độ chính xác trong quá trình suy luận của mô hình. Đây cũng là công trình đứng thứ hai về độ chính xác trong những năm gần đây của bài toán này.

Nhược điểm: Phần Channel Attention, hiện tại nhóm tác giả sử dụng riêng lẻ cho từng kênh trên từng thuộc tính, vì vậy dẫn đến khi số lượng thuộc tính của tập dữ liệu mở rộng hoặc tăng cao, thì các trọng số cần học của mô hình rất lớn, dẫn đến chi phí tính toán và huấn luyện tăng cao.

3.3 Relation based

Thông thường các thuộc tính của một đối tượng sẽ có mối tương quan nhất định với nhau. Ví dụ: Nếu chúng ta biết một người nào đó có nữ, thì khả năng họ có tóc dài rất cao. Ngược lại nếu người đó là nam thì phần lớn họ sẽ không mặc váy. Các mối tương quan này chúng ta hoàn toàn có thể biểu diễn bằng một tỷ lệ xác suất có điều kiện. Chính sự biểu diễn này, nhóm tác giả Zhao-Min Chen, Xiu-Shen Wei, Peng Wang and Yanwen Guo [6] đã nảy sinh ý tưởng kết hợp GCN với những đặc trưng được rút trích từ pretrain để tạo thành một mô hình (ML-GCN) phân loại có tính chính xác cao. Đây cũng là hướng tiếp cận mới của bài toán nhận dạng các thuộc tính cho ảnh nói chung. Mặc dù công trình này sử dụng các tập dữ liệu khác với tập dữ liệu liên quan đến bài toán cần giải quyết, nhưng ý tưởng này cũng có thể áp dụng cho việc truy tìm đối tượng dựa vào thuộc tính.

Cấu trúc mạng ML-GCN gồm hai phần: trích đặc trưng từ pretrain và GCN. Phần trích đặc trưng hoàn toàn tương tư như những bài báo đã khảo sát trước, nhóm tác giả đã sử dụngresnet101 để lấy những đặc trưng ẩn. Với những bài báo khác, sau khi lấy được đặc trưng từ pretrain sẽ lan truyền qua lớpfully-connected, với kích thước đầu ra đúng bằng với số lượng thuộc tính có trong tập dữ liệu. Còn đối với ML-GCN, những đặc trưng ẩn này sẽ được dot product với đầu ra của GCN.

Để biểu diễn đồ thị, trước tiên phải xây dựng được các đỉnh và ma trận liền kề hay được gọi trong bài báo là correlation matrix. Các đỉnh ở đây là các thuộc tính trong tập dữ liệu, được chuyển đổi dưới dạng vector. Nhóm tác giả sử dụng GloVe [14] để biến đổi các thuộc tính như: person, surfboard, ... thành các vector

cột. Xây dựng correlation matrix được dựa vào tập dữ liệu, các đỉnh được liên kết với nhau bằng một tỉ lệ xác suất có điều kiện. Ví dụ, để tính cạnh nối từ đỉnh person đến đỉnh suftboard thì cần tính xác suất Psurf board|Pperson. Việc tính xác suất này khá đơn giản, chỉ cần tìm tất của các hình chứa thuộc tính person, trong đó có bao nhiêu hình chứa surfboard, sau đó chia tỉ lệ với nhau.

Sau khi đã xây dựng được cấu trúc của một đồ thị, tiếp theo nhóm tác giả đã sử dụng công thức dưới đây để tính convolution của một đồ thị.

Hl+1 =h( ˆAHlWl) (3.4) Trong đó:

• Wl là ma trận chuyển đổi, cũng chính là ma trận trọng số học của một đồ thị. Aˆ là correlation matrix đã được chuẩn hóa.

• h(.) là hàm kích hoạt - LeakyRELU.

• Hl+1 là những đặc trưng của đỉnh được cập nhật.

Đầu ra của GCN phải có cùng kích thước với những đặc trưng được trích từ pretrain, để có thể dot product với nhau. Và cuối cùng được lan truyền đến hàm mất mát để tính sai số giữa giá trị thực và giá trị dự báo.

Một phần của tài liệu Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát (Trang 34 - 36)

Tải bản đầy đủ (PDF)

(73 trang)