Xây dựng mô hình đặc trưng bất biến tỉ lệ

Một phần của tài liệu Nghiên cứu bài toán bám sát đối tượng bị che khuất trong video (Trang 51 - 53)

5. Ý nghĩa khoa học và thực tiễn

2.1.3. Xây dựng mô hình đặc trưng bất biến tỉ lệ

Đặc trƣng đƣợc trích chọn trong SIFT là các điểm đặc biệt (keypoint), các điểm này kèm theo các mô tả về nó và một véc tơ lấy keypoint làm điểm gốc. Có bốn giai đoạn chính đƣợc thực hiện trong thuật toán để trích xuất các điểm đặc biệt và các đặc trƣng của nó bao gồm:

 Dò tìm cực trị trong không gian đo (Scale-space Extrema Detection): Bƣớc đầu tiên này sẽ áp dụng hàm sai khác Gaussian (DoG) để tìm ra các điểm có khả năng làm điểm đặc trƣng tiềm năng (candidate keypoints), đó là những đểm rất ít phụ thuộc (bất biến) vào sự thu phóng ảnh và xoay ảnh.

 ọc và trích xuất các điểm đặc biệt (Keypoint localization): Từ những điểm tiềm năng ở trên sẽ lọc và lấy ra tập các điểm đặc trƣng tốt nhất (keypoints).

đặc trƣng sẽ đƣợc gán cho một hoặc nhiều hƣớng dựa trên hƣớng gradient của ảnh. Mọi phép toán xử lý ở các bƣớc sau này sẽ đƣợc thực hiện trên những dữ liệu ảnh mà đã đƣợc biến đổi tƣơng đối so với hƣớng đã gán, so với kích cỡ và vị trí của mỗi điểm đặc trƣng. Nhờ đó, tạo ra một sự bất biến trong các phép xử lý này.

 Bộ mô tả điểm đặc trƣng (Keypoint Description): Các hƣớng gradient cục bộ đƣợc đo trong ảnh có kích cỡ cụ thể nào đó trong vùng lân cận với mỗi điểm đặc trƣng. Sau đó, chúng sẽ đƣợc biểu diễn thành một dạng mà cho phép mô tả các tầng quan trọng của quá trình bóp méo hình dạng cục bộ và sự thay đổi về độ sáng.

Tập các điểm đặc biệt thu đƣợc thƣờng phụ thuộc rất ít vào các phép biến đổi cơ bản nhƣ xoay, phóng to, thu nhỏ, tăng giảm cƣờng độ sáng… vì vậy có thể xem đây là các đặc trƣng mang tính cục bộ của ảnh. Để đối sánh và nhận dạng hai ảnh thì ta tìm tập keypoint giống nhau trong hai ảnh, dựa vào hƣớng và tỉ lệ để có thể biết đối tƣợng trong ảnh gốc đã xoay, thu phóng bao nhiêu so với ảnh đem đối sánh. Cách tiếp cận của thuật toán này dựa vào điểm bất biến cục bộ của ảnh, chúng đƣợc trích xuất ra, đƣợc định hƣớng và mô tả sao cho hai keypoint ở hai vùng khác nhau thì khác nhau. Tuy nhiên một yếu tố ảnh hƣởng không nhỏ đến tốc độ xử lý thuật toán là số lƣợng các keypoint đƣợc lấy ra là không nhỏ. Trung bình một ảnh kích thƣớc 500 × 500 pixels thì sẽ trích xuất đƣợc khoảng 2000 điểm (số lƣợng điểm này phụ thuộc vào tùy từng ảnh và tham số lọc khác nhau).

Số lƣợng các điểm đặc trƣng có một tầm quan trọng trong vấn đề nhận dạng đối tƣợng, để nhận dạng một đối tƣợng nhỏ trong một ảnh chứa tập hợp các đối tƣợng hỗn độn thì cần ít nhất 3 điểm đặc trƣng giống nhau để phát hiện và và bóc tách đối tƣợng [1], [2].

Một phần của tài liệu Nghiên cứu bài toán bám sát đối tượng bị che khuất trong video (Trang 51 - 53)