Trong một số kịch bản ứng dụng, cấu trúc liên kết của một mạng lưới camera và thông tin theo vết không có sẵn, đặc biệt là khi các camera có khoảng cách xa và môi trường đông đúc . Ví dụ, chỉ các bức ảnh chụp nhanh các đối tượng thay vì các dấu vết chụp bởi camera khác nhau có sẵn . Trong trường hợp này lý luận không gian-thời gian là không khả thi hoặc chính xác để theo dõi nhiều camera. . Trong những năm gần đây, rất nhiều công trình nghiên cứu (Nakajima 2003, Bird 2005, Javed 2005) đã được thực hiện trên các đối tượng phù hợp như xe và người đi bộ quan sát trong các bức ảnh khác nhau chỉ sử dụng thông tin hình ảnh mà không có lập luận về không-thời gian . Người ta cho rằng các quan sát của một người đi bộ được chụp trong cùng một ngày và do đó quần áo hoặc hình dạng của người đó không thay đổi nhiều Vấn đề này được gọi là xác định lại đối tượng. Nghiên cứu xác định lại đối tượng một cách riêng biệt từ theo dõi đa camera giúp hiểu rõ hơn về khả năng của đối tượng phù hợp sử dụng các tính năng trực quan đơn lẻ. Một khi nó đã được nghiên cứu tốt, nó có thể được tích hợp với tình trạng không gian và thời gian ở giai đoạn sau có thể lọc những đối tượng được khớp. Tái xác định Đối tượng là rất khó khăn. Cùng một đối tượng trong các khung nhìn camera khác nhau trải qua biến đổi đáng kể về độ phân giải, ánh sáng, tư thế và điểm nhìn . Vì các đối tượng được chụp bởi camera giám sát thường có kích thước nhỏ và rất nhiều chi tiết
hình ảnh như các thành phần trên khuôn mặt không thể phân biệt trong hình ảnh. Ví dụ về các quan sát người đi bộ trong các khung nhìn camera khác nhau được thể hiện trong Hình 1.9 . Sự nhập nhằng tăng khi số lượng các đối tượng được phân biệt tăng lên . Vì vậy, các tính năng và các số liệu khoảng cách được sử dụng để nối phạm vi ảnh cần được phân biệt và thô với những biến thể liên camera.
Đặc trưng cho việc tái xác định đối tượng
Sự xuất hiện của các đối tượng thường được đặc trưng trong ba khía cạnh, màu sắc, hình dạng và kết cấu. Chúng được đánh giá ở phần dưới đây . Một loại đơn trong số tính năng này không đủ mạnh để chụp được sự khác biệt tinh tế của tất cả các cặp của các đối tượng . Chúng thường được kết hợp và có trọng số khác nhau tùy theo năng phân biệt của chúng.
(1) Đặc trưng về màu sắc
Biểu đồ màu sắc của toàn bộ khu vực ảnh được sử dụng rộng rãi như các tính năng toàn cầu để nối các đối tượng trên các khung nhìn camera vì chúng rõ ràng trong các thay đổi của trạng thái và điểm nhìn (Orwell 1999; Krumm 2000; . Mittal và Davis 2003). Tuy nhiên, chúng cũng có những điểm yếu như là chúng rất nhạy cảm với sự thay đổi của điều kiện ánh sáng và các thiết lập trắc quang (độ sáng) của camera và khả năng phân biệt của chúng không đủ cao để phân biệt một số lượng lớn các đối tượng . Không gian màu sắc khác nhau như RGB, Lab, HSV và Log RGB đã được nghiên cứu và so sánh trong (Wang 2007). Bằng cách loại bỏ các thành phần ánh sáng trong không gian màu HSV, các biến đổi màu sắc trên các bức ảnh có thể được giảm đáng kể. Không gian màu RGB - Log ít nhạy cảm với biến đổi trắc quang. Nó tính toán các dẫn xuất định hướng đầu tiên của thuật toán về màu sắc, chủ yếu là các tỷ lệ màu sắc lân cận. Màu sắc của một điểm ảnh được hình thành như là sản phẩm của sự phản quang tình cờ và albedo (suất phân chiếu) bề mặt . Từ những chiếu sáng duy trì không đổi ở các khu vực cục bộ, tỷ lệ của màu sắc lân cận có thể loại bỏ một cách hiệu quả các thành phần ánh sáng. Mittal và Davis (2003) áp dụng các mô hình màu Gaussian để giải quyết các sự tương tự của chế độ màu giữa các khung hình camera. Các bất biến màu sắc khác (Cheng và Piccardi 2006; Slater và Healey 1996; Weijer và Schmid 2006) cũng đc đề xuất. Để tăng cường khả năng phân biệt, vùng hình ảnh của một đối tượng được phân chia
thành các khu vực cục bộ, biểu đồ màu trong khu vực cục bộ được tính và nối như các tính năng để nối đối tượng (Park 2006).
(2) Đặc trưng hình dạng
Histogram of Oriental Gradients (HOG) (Dalal và Triggs 2005; . Wang 2007; Schwartz và Davis 2009) mô tả các hình dạng cục bộ bằng cách chụp các cạnh và các cấu trúc cong/nghiêng. HOG tính toán biểu đồ định hướng dốc trong các tế bào được đặt trên một mạng lưới dày đặc và trải qua chuẩn hóa trắc quang cục bộ. HOG khá mạnh để quay và dịch chuyển các bộ phận đối tượng. Hình dạng ngữ cảnh được đề xuất bởi Belongie (2002) mô tả cả cấu trúc hình dạng toàn cầu và cấu trúc hình dạng cục bộ. Nó được sử dụng trong phân vùng cơ thể con người thành cấu tạo lại nhận diện người bằng việc học trong từ điển hình dạng (Wang 2007). Ngoài ra còn có các mô hình khác (Agarwal và Triggs 2006; Carneiro và Lowe 2006) đề xuất để mô tả cấu hình địa lý số liệu của các bộ phận cục bộ khác nhau của các đối tượng.
(3) Đặc trưng kết cấu - Texture
Nhiều bộ lọc, chẳng hạn như bộ lọc Gabor và các ngân hàng lọc tuyến tính trực tuyến khác (Winn 2005; . Varma và Zisserman 2005; . Leung và Malik 1999); mô tả cục bộ như SIFT (Lowe 2004), SIFT màu sắc (Abdel- Hakim và Farag 2006), mẫu nhị phân cục bộ (Local binary pattern - LBP) (Ojala 2002), đã được đề xuất để đặc tả kết cấu cục bộ và chúng có thể được áp dụng cho tái xác định đối tượng (Hamdoun 2008). Các bộ lọc hoặc mô tả có thể được áp dụng cho các điểm tính năng thưa thớt hoặc trên một mạng lưới dày đặc. Phản ứng của chúng thường được lượng tử hóa thành các từ ngữ trực quan theo một cuốn từ điển trực quan trước khi học. Một tập hợp các bộ lọc tuyến tính được đề xuất bởi Winn và cộng sự được thể hiện trong Hình 1.9 (c), nó kết hợp Gaussian, Laplacian của Gaussian và các dẫn xuất đầu tiên của Gaussian trong không gian màu Lab. Nhãn của những từ trực quan lượng tử với thiết lập này của bộ lọc (banks) được thể hiện trong Hình 1.9 (d) . Với các túi đặc trưng (bag of features), biểu đồ histogram của từ những trực quan của toàn bộ khu vực hình ảnh được sử dụng như đặc trưng cho nối đối tượng. Tuy nhiên, đặc trưng này là không đủ để phân biệt. Ví dụ, nó không thể phân biệt được một người mặc một chiếc áo khoác màu trắng và quần màu xanh với một mặc một chiếc áo khoác màu xanh và quần trắng . Do đó, nhiều đặc trưng hơn được đề xuất để chụp được sự phân bố không gian của từ trực quan . Mặt khác, các đặc trưng
được đề xuất phải bất biến để các thay đổi của tư thế và điểm nhìn khi mã hóa các thông tin không gian . Wang (2007) đề xuất hình và bối cảnh xuất hiện trong đó tính toán việc đồng xảy ra của từ hình dạng và từ hình ảnh (shape word and visual word). Nó phân đoạn đối tượng biến dạng thành các phần L sử dụng bối cảnh hình dạng và một từ điển hình học . Sử dụng một hạt nhân không gian, trong đó phân vùng các miền hình ảnh vào M tiểu vùng, như thể hiện trong Hình 1.9 (e), nó mô hình phân bố không gian của từ trực quan tương đối liên quan với mỗi bộ phận của đối tượng. Khi hạt nhân không gian được đặt trên một phần đối tượng, biểu đồ Histogram của các từ trực quan trong tiểu vùng của hạt nhân không gian được tính toán . Các biểu đồ LM được sử dụng như các tính năng trực quan cho các đối tượng phù hợp . Ngoài ra còn có các tính năng khác như correlograms (Huang 1997) và tương quan (Savarese 2006) để nắm bắt được xuất hiện đồng thời của các từ trực quan trong hạt nhân không gian.
Trong Hình 1.9: (a) Mạng với 3 camera. (b) Hình ảnh của người đi bộ quan sát trong ba khung nhìn camera. Họ được lựa chọn từ các số liệu được đưa ra trong (Wang et al., 2007). (c) Một bộ lọc được đề xuất trong (Winn et al., 2005). (d) Nhãn (chỉ ra bởi các màu sắc khác nhau) khi áp dụng bộ lọc đề xuất. (e) Ví dụ của một hạt nhân không gian. (f) Khi sử dụng hạt nhân không gian, các phần khác nhau của một người (mặt và tay) sẽ cho biểu đồ khác nhau từ hình ảnh thu được. Chúng có thể được sử dụng như là các đặc trưng phân biệt phù hợp với đối tượng. (g) Tái xác định lại đối tượng dựa trên mẫu cơ bản
Nghiên cứu việc tái xác định đối tượng
Việc chuyển đổi trắc quang giữa hai khung nhìn camera có thể được nghiên cứu. Javed và cộng sự (2005), Prosser và cộng sự (2008) tìm hiểu các chức năng chuyển sáng (BTFs) và chức năng chuyển sáng tích hợp hai chiều (CBTF), ánh xạ màu quan sát thấy trong một camera tới một camera khác, từ các ví dụ đào tạo được thu thập từ một cặp khung nhìn camera và độ tương tự đã được biết đến. Porikli (2003) và Porikli và cộng sự (2003) đề xuất một chức năng không tham số để mô hình biến dạng màu sắc giữa các khung nhìn camera sử dụng phân tích ma trận tương quan và lập trình động. Gilbert và Bowden (2006) từng bước cùng nhau tìm hiểu các ánh xạ màu sắc và quá trình chuyển đổi không gian-thời gian giữa các khung nhìn camera. Nó không yêu cầu dán nhãn thủ công các mẫu đào tạo tương quan. Hai loại chuyển biến này hỗ trợ và bổ sung lẫn nhau trong suốt quá trình học
Một số phương pháp nghiên cứu các số liệu tương tự / khoảng cách hoặc chọn một tập con tối ưu các tính năng để nối các vùng hình ảnh quan sát được trong các bức ảnh khác nhau. Schwartz và Davis (2009) đề xuất một Cách tiếp cận là chiếu chiều cao đến một không gian tiềm ẩn biệt thức chiều thấp bởi Partial Least Squares reduction (Wold, 1985). Nó có trọng số rõ ràng để phân biệt tốt nhất các quan sát của một đối tượng với những đối tượng khác trong lược đồ một – nhiều. Lin và Davis (2008) nghiên cứu sự khác biệt của các cặp khác nhau trong phân biệt một cặp người. Người ta cho rằng một tính năng có thể là rất quan trọng để phân biệt hai đối tượng rất giống nhau nhưng không có hiệu quả cho các đối tượng khác. Do đó nó dễ dàng hơn để đào tạo các tính năng khác nhau trong một lược đồ đôi. Tuy nhiên, hai cách trên yêu cầu tất cả các đối tượng cần được xác định lại có mẫu trong tập đào tạo . Nếu một đối tượng mới được tái xác nhận ở giai đoạn thử nghiệm,
không gian tiềm ẩn phân biệt hoặc sự khác biệt phải được đào tạo lại. Zheng và cộng sự (2011) đề xuất một mô hình so sánh khoảng cách liên quan theo xác xuất. Nó công thức hoá xác nhận lại đối tượng như vấn đề nghiên cứu khoảng cách và tối đa hóa xác suất mà một cặp nối đúng có khoảng cách nhỏ hơn so với một cặp nối sai. Các số liệu khoảng cách nghiên cứu có thể chung hoá để đối tượng bên ngoài tập huấn luyện. Trong (Gray và Tao, 2008;. Prosser và cộng sự, 2010), việc thúc đẩy và RankSVM được sử dụng để chọn một tập hợp con tối ưu các tính năng để nối đối tượng trên các khung nhìn camera . Shan và cộng sự (2005, 2008) đề xuất một cách tiếp cận không có giám sát để tìm hiểu phương pháp đo lường viền khác nhau để nối phương tiện.