Phân tích yêu cầu và thu thập dữ liệu

Một phần của tài liệu Nghiên cứu bài toán bám sát đối tượng bị che khuất trong video (Trang 55 - 58)

5. Ý nghĩa khoa học và thực tiễn

3.2.Phân tích yêu cầu và thu thập dữ liệu

trong quá trình theo dõi đối tƣợng trong camera giám sát. Kỹ thuật phát hiên và bám sát đối tƣợng bị che khuất trong video đƣợc phân tích và đánh giá hiệu quả nhất trong nhiều trƣờng hợp bị che khuất đó là kỹ thuật dựa trên đặc trƣng bất biến cục bộ SIFT. Trong phần này, luận văn lựa chọn kỹ thuật cài đặt cho bài toán phát hiện và báo sát đối tƣợng bị che khuất là kỹ thuật SIFT đƣợc trình bày ở chƣơng 2.

Dữ liệu thử nghiệm cho bài toán phát hiện và bám sát đối tƣợng bị che khuất trong luận văn lựa chọn: tập dữ liệu đầu vào là tập dữ liệu video có đối tƣợng bị thay đổi về độ chiếu sáng, góc nhìn, tỉ lệ, bị che khuất một phần v.v. Trong chƣơng trình bộ dữ liệu thử nghiệm là các dữ liệu video về đối tƣợng bị che khuất, để quan sát rõ hơn quá trình bám sát đối tƣợng. Luận văn thử nghiệm trên dữ liệu bài toán nhƣ mô tả ở phần 3.1.

Để có thể phân biệt keypoint này với keypoint khác (2 keypoint) cần gán cho mỗi keypoint một descriptor, 2 keypoint khác nhau thì phải có descriptor khác nhau (descriptor là chuỗi số gồm 128 số (vector 128 chiều).

Đầu vào: ảnh hoặc video có chứa đối tƣợng bị che khuất Đầu ra: keypoint của đối tƣợng bị che khuất

Các bƣớc của kỹ thuật SIFT đƣợc mô tả lại ngắn gọn nhƣ sau:

1. Phát hiện các điểm cực trị (Scale-Space extrema detection): Bƣớc đầu tiên là tìm ra các điểm có khả năng làm điểm đặc trƣng tiềm năng, đó là những đểm rất ít phụ thuộc (bất biến) vào sự thu phóng ảnh và xoay ảnh.

2. Định vị các điểm đặc trƣng (keypoint localization): Từ những điểm tiềm năng ở trên sẽ lọc và lấy ra tập các điểm đặc trƣng tốt nhất (keypoints).

3. Xác định hƣớng cho các điểm đặc trƣng (Orientation assignment): Mỗi điểm đặc trƣng sẽ đƣợc gán cho một hoặc nhiều hƣớng dựa trên hƣớng

gradient của ảnh. Mọi phép toán xử lý ở các bƣớc sau này sẽ đƣợc thực hiện trên những dữ liệu ảnh mà đã đƣợc biến đổi tƣơng đối so với hƣớng đã gán, kích cỡ và vị trí của mỗi điểm đặc trƣng. Nhờ đó, tạo ra một sự bất biến trong các phép xử lý này.

4. Mô tả các điểm đặc trƣng (Keypoint descriptor): Các hƣớng gradient cục bộ đƣợc đo trong ảnh có kích cỡ cụ thể nào đó trong vùng lân cận với mỗi điểm đặc trƣng.

Tập các điểm đặc biệt thu đƣợc thƣờng phụ thuộc rất ít vào các phép biến đổi cơ bản nhƣ xoay, phóng to, thu nhỏ, tăng giảm cƣờng độ sáng, vì vậy có thể xem đây là các đặc trƣng mang tính cục bộ của ảnh. Để đối sánh và nhận dạng hai ảnh thì ta tìm tập keypoint giống nhau trong hai ảnh, dựa vào hƣớng và tỉ lệ để có thể biết đối tƣợng trong ảnh gốc đã xoay, thu phóng bao nhiêu so với ảnh đem đối sánh.

Kỹ thuật này dựa vào điểm bất biến cục bộ của ảnh, chúng đƣợc trích xuất ra, đƣợc định hƣớng và mô tả sao cho hai keypoint ở hai vùng khác nhau thì khác nhau. Tuy nhiên một yếu tố ảnh hƣởng không nhỏ đến tốc độ thuật toán là số lƣợng các keypoint đƣợc lấy ra là không nhỏ. Trung bình một ảnh kích thƣớc 500 x 500 pixels thì sẽ trích xuất đƣợc khoảng 1000 điểm (số lƣợng điểm này phụ thuộc vào tùy từng ảnh và tham số lọc khác nhau). Số lƣợng các điểm đặc trƣng có một tầm quan trọng trong vấn đề nhận dạng đối tƣợng, để nhận dạng một đối tƣợng nhỏ trong một ảnh chứa tập hợp các đối tƣợng hỗn độn thì cần ít nhất 3 điểm đặc trƣng giống nhau để phát hiện và và bóc tách đối tƣợng.

Đối với vấn đề xây dựng một cơ sở dữ liệu ảnh và thực hiện nhận dạng đối tƣợng bất kì thì ban đầu thƣờng sử dụng SIFT để tạo một hệ dữ liệu các đặc trƣng (keypoints) đƣợc trích xuất từ dữ liệu ảnh gốc. Sau đó với mỗi ảnh

đối tƣợng đem nhận dạng ta dùng giải thuật SIFT trích xuất tập đặc trƣng từ ảnh và đem đối sánh với hệ dữ liệu đặc trƣng để tìm ra tập keypoint giống nhau, từ đó nhận dạng đối tƣợng trong cơ sở dữ liệu ảnh ban đầu. Tuy nhiên việc đối sánh này cần chi phí đối sánh rất lớn đối với cơ sở dữ liệu ảnh có số lƣợng lớn hoặc video có dung lƣợng lớn.

Một phần của tài liệu Nghiên cứu bài toán bám sát đối tượng bị che khuất trong video (Trang 55 - 58)