Thiết kế hệ thống

Chương 5: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 5.1 Phân tích

5.3 Thiết kế hệ thống

Với các phân tích như trên hệ thống “tìm kiếm đối tượng trong file video” sẽ được thiết kế như sau:

Hoạt động:

Input: file avi, đối tượng cần tìm kiếm, ngưỡng

Output: các frame có chứa các đối tượng giống đối tượng cho trước Về cơ bản thuật toán của hệ thống sẽ được mô tả theo như lưu đồ sau:

Các bước thực hiện thuật toán:

Bắt đầu Duyệt hết các frame Kết thúc yes yes no no - File video - Đối tượng cần tìm - Ngưỡng

Duyệt lần lượt các frame trong đoạn video

Thêm frame vào danh sách kết quả Phân tích

histogram dòng cột Xác định độ đo tượng tự theo mô

hình CVA

So sánh với ngưỡng

Bước 1:

- Đọc file video đầu vào. - Đọc ảnh chứa đối tượng. - Chọn đối tượng cần tìm kiếm.

- Lựa chọn các tham số cho mô hình CVA. - Đề xuất ngưỡng.

Bước 2:

- Duyệt qua từng frame của file video.

- Với mỗi frame thực hiện phân vùng, chọn vùng chứa đối tượng.

Bước 3:

- Tiến hành phân tích histogram, so sánh với đối tượng truy vấn.

- Nếu đáp ứng được ngưỡng cho trước => đưa đối tượng vào tập đối tượng ứng viên và ngược lại.

Bước 4:

- Trong tập các đối tượng ứng viên thực hiện phân tích so sánh với ảnh truy vấn theo mô hình CVA.

- Xác định độ đo tương tự và so sánh với ngưỡng. - Cơ chế điều chình ngưỡng .

- Kết nạp frame hiện tại vào tập frame kết quả nếu đáp ứng được ngưỡng và ngược lại.

Bước 5:

- Thu được tập kết quả.

- Kết hợp với đánh giá của người sử dụng để rút ra các điều chình cần thiết. Một số điều kiện tiền đề trong trường hợp của đồ án:

+ Dữ liệu đầu vào sẽ là một file video và một file ảnh, yêu cầu phải có kích thước giống nhau.File ảnh có thể chính là một frame trong file video, điều này đảm bảo chất lượng của file video và chất lượng ảnh đầu vào là như nhau, đáp ứng tính đồng nhất của dữ liệu đầu vào.Hơn nữa nó còn cho phép đảm bảo rằng ít nhất trong

kết quả trả về của hệ thống phải chứa chính frame được trích ra đó, đây cũng là một cơ sở để tạo ngưỡng đề nghị.

+ Sau khi đã có một ảnh đầu vào, hệ thống phải cho phép người sử dụng chọn lựa các đối tượng trong đó một cách tùy ý, đương nhiên vùng mà ngưởi sử dụng chọn ra đó phải chứa ít nhất một đối tượng , hơn nữa phải chọn sao cho tầm ảnh hưởng của nền trong vùng đó là nhỏ nhất, nghĩa là đối tượng phải chiếm đa số trong vùng đó.Ngoài ra đối tượng cũng phải được chọn sao cho về màu sắc đối tượng phải đặc biệt nổi bật so với nền mà đối tượng nằm trên đó nghĩa là phải có được một sự phân biệt rõ ràng giữa các pixel trong ảnh thuộc về vật với các pixel thuộc về nền.Nếu không làm tốt vấn đề này có thể sẽ dẫn đến hậu quả là thay vì thực hiện tìm kiếm đối tượng hệ thông sẽ bị chuyển hướng lạm dụng sang thực hiện với nền.Điều này sẽ làm sụp đổ hoàn toàn hoạt động của hệ thống.

Hình 5.7 – khoanh vùng đối tượng

+ Đặc thù của file video là một chuỗi các khung hình diễn ra liên tiếp có mối liên hệ với nhau về mặt nội dung theo các dòng sự kiện diễn biến theo thời gian.Mỗi dòng sự kiện đó sẽ ánh xạ thành một phân đoạn của file video.Trong từng phân đoạn đó, các đối tượng xuất hiện sẽ mang tính bảo toàn cao và xuất hiện theo một chuỗi diễn biến nào đó.Tận dụng điều này, việc tìm kiếm có thể thực hiện chia nhỏ cho từng phân đoạn nhất định, ứng với từng phân đoạn, hệ thống sẽ thực hiện tùy biến các tham số để có được một kết quả mong muốn trong từng trường hợp cụ thể.

Nếu nhìn nhận kỹ thuật một cách khái quát, có thể hình dung quá trình so sánh là quá trình tìm kiếm các pixel tương ứng giữa hai ảnh của hai đối tượng được kỳ vọng là giống nhau.Đặc trưng cho pixel trong ảnh số, về mặt không gian, là vị trí của chúng (location) trong ảnh, được thể hiện bằng một cặp số (x,y) cho biết vị trí của pixel về chiều ngang và chiều dọc so với tọa độ gốc là góc trái trên của ảnh.Bởi vì đối tượng

không phải là bất biến, cùng đối tượng nhưng ở từng thời điểm, từng vị trí lại có một sự sai khác nhất định.Cũng như vậy các pixel tương ứng của hai đối tượng giống nhau hầu như không nằm cùng vị trí mà nó đã có sự dịch chuyển sang một vị trí khác thậm chí còn có một sự sai khác nhất định về màu.

Với những phân tích như trên, mô hình CVA ứng dụng trong đồ án này sẽ được thiết kế như sau:

+ Đối tượng tìm kiếm sẽ được khoanh vùng từ một ảnh cho trước (đề nghị được trích ra từ một frame của file video)

+ Tham số s được đặt bằng 5 nghĩa là dự đoán trước đối tượng đó sẽ được tìm kiếm trong các frame với độ dịch chuyển cho phép là 5 pixel.Hay nói cách khác mỗi pixel của đối tượng bạn đầu sẽ được tìm kiếm trong phạm vi bán kính 121 pixel.

+ Tham số ε dùng trong chọn láng giềng được đặt là 2 như vậy tập láng giềng sẽ bao gồm 25 pixel bao quanh mỗi pixel được tìm kiếm.

+ Tham số m là số lượng các pixel láng giềng ngẫu nhiên được trích ra từ tập 121 láng giềng được đặt là 5.Đây là một con số đủ nhỏ để đẩy nhanh tốc đến tốc độ tính toán nhưng vẫn đảm bảo tính đầy đủ kết quả thu về.

+ Tham số δ được đặt là 0 trong trường hợp thử nghiệm chương trình với một đoạn video lý tưởng (quay trực tiếp màn hình máy tính), và đặt bằng 12 trong trường hợp thử nghiệm với một đoạn video thực tế.Đây là con số đã được điều chỉnh trong quá trình thử nghiệm hệ thống.

+ Tham số M được đặt là 50, nghĩa là với mỗi pixel x sẽ thực hiện lựa chọn 50 lần ngẫu nhiên các láng giềng.Số lượng này đủ lớn để đáp ứng tính toàn vẹn về mặt cấu trúc của đối tượng.

Phương pháp Histogram dòng,cột

Mô hình Cognitive Visual Attention (CVA)