Nhận dạng hình dạng dựa trên tìm kiếm ANN

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 44 - 46)

6. Cấu trúc luận án

1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN

Sử dụng kiến trúc mạng DCNN chúng ta đã phát hiện ra được lớp của đối tượng cần truy vấn mà nó thuộc vào và xác định vị trí chính xác của chúng trong từng frame của video. Tuy nhiên yếu điểm của mạng này là mới chỉ xác định được có tồn tại hay không tồn tại lớp đối tượng truy vấn trong các frame mà chưa thể hiểu được đối tượng tìm thấy. Để nhận dạng và mô tả chính xác hình thái, tư thế hay hình dạng của đối tượng tìm thấy (trở thành đối tượng truy vấn) chúng ta cần tiếp tục phân lớp đối tượng này vào các lớp hình thái, tư thế, hình dạng. Để giải quyết bài toán này, tận dụng các vector đặc trưng trích chọn

Tập ảnh đối tượng Trích chọn đặc trưng Mô hình lập chỉ mục Tập vector đặc trưng Vector đặc trưng truy vấn Xử lý offline Xử lý online ID tìm thấy

được trong quá trình dò tìm đối tượng, luận án đề xuất giải pháp dựa trên việc đối sánh vector đặc trưng (hình 1.9).

Tuy nhiên, khi kích thước tập dữ liệu đối sánh càng nhiều(lên đến hàng triệu bản ghi) và số chiều lớn (có thể lên đến hàng nghìn chiều) thì thời gian đối sánh là một vấn đề quan trọng cần phải giải quyết, đặc biệt là đối với ứng dụng yêu cầu thời gian thực như xử lý video. Để tối ưu hóa thời gian đối sánh mẫu, các vector đặc trưng thường được lập chỉ mục (feature indexing) nhằm tăng tốc độ đối sánh trên cơ sở dữ liệu các bản mẫu. Mục tiêu của việc lập chỉ mục là sắp xếp, tổ chức lại cơ sở dữ liệu các bản mẫu, và xây dựng các thuật toán đối sánh hiệu quả sao cho quá trình đối sánh chỉ cần thực hiện trên một phần nhỏ các bản mẫu tiềm năng mà không cần phải duyệt trên toàn bộ cơ sở dữ liệu.

Xuất phát từ ý tưởng nêu trên, cũng như kết quả nghiên cứu ưu, nhược điểm của các giải thuật lập chỉ mục, luận án phát triển kỹ thuật đối sánh mẫu dựa trên phương pháp lập chỉ mục lượng tử tích đề các PQ, một trong những giải pháp hiệu quả cho việc mã hóa đặc trưng và tìm kiếm ANN. Tìm kiếm ANN cho hiệu quả cao với cấu trúc file đảo ngược đa chiều (multiple inverted file structure), một danh sách ngắn dựa trên bảng tra cứu và phương pháp tính khoảng cách bất đối xứng. PQ đã được chứng minh là có nhiều ưu điểm nhất so với các phương pháp khác và hoạt động rất hiệu quả cho nhiều cơ sở dữ liệu đặc trưng.

Sau sự thành công của kỹ thuật PQ, nhiều tác giả đã đề xuất các cải tiến PQ, điển hình là tối ưu hóa PQ (optimized product quantization - OPQ) [24] và tối ưu hóa cục bộ PQ (local optimization product quantization - LOPQ) [41]. Ý tưởng chính của kỹ thuật OPQ là tối ưu hóa quá trình phân hoạch không gian của PQ sao cho các không gian con có thể mô tả tốt nhất/chính xác nhất các phân bố thuộc về bản chất bên trong của dữ liệu. Mặc dù OPQ cho kết quả tốt hơn PQ nhưng nó lại không hiệu quả trong trường hợp dữ liệu hình thành các

phân bố đa mô hình (mutli-model distribution). Do vậy, kỹ thuật LOPQ tiếp tục tối ưu hóa kỹ thuật OPQ bằng cách áp dụng tư tưởng của OPQ cho các phân bố hay cụm cục bộ của dữ liệu thay vì thực hiện trên toàn bộ dữ liệu. Dù đã được cải tiến nhiều nhưng tất các các kỹ thuật PQ ở trên đều có chung nhược điểm đó là chi phí bộ nhớ và thời gian khá cao khi huấn luyện các codebooks.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 44 - 46)

Tải bản đầy đủ (PDF)

(138 trang)