Phân tích nội dung video

MỤC LỤC

CObject, cha của tất cả các lớp

Cho trước con trỏ CObject đến lớp suy diễn từ chúng, tiện ích thông tin kiểm tra kiểu run - time cho phép chương trình biết được tên lớp của đối tượng cũng như các thông tin khác. Đặc trưng thứ ba mà CObject thêm vào các lớp suy diễn của chúng là trợ giúp kiểm tra lỗi Hàm thành phần ảo AssertValid của CObject yêu cầu đối tượng thực hiện kiểm tra tính hợp lý trên chính nó (trạng thái bên trong của đối tượng) nhờ một dãy toán tử xen, tách ( >> hay << ).

Các lớp đối tượng trực quan

Lớp CGdiObject được sử dụng như lớp cơ sở của các đối tượng GDI như bút, chổi tô và cọ chữ, cùng với các lớp suy diễn từ CGdiObject như CPen, CBrush, và CFont biễu diễn chính các đối tượng.

Các hàm AfxXxx

MFC trợ giúp hai loại ứng dụng tài liệu/quan sát Loại thứ nhất là ứng dụng ghép nối đơn tài liệu (Single-Document Interface - SDI), chúng chỉ cho phép mở một tài liệu một lần Loại thứ hai là ứng dụng ghép nối đa tài liệu (Multiple-Document Interface - MDI), cho phép mở hai hay nhiều tài liệu đồng thời. Trong khi mục đích duy nhất của đối tượng tài liệu là lưu trữ dữ liệu ứng dụng, các đối tượng quan sát có hai mục đích: biểu diễn dữ liệu tài liệu trên màn hình và chuyển đổi đầu vào từ người sử dụng thành các lệnh thao tác tài liệu - trừ các thông điệp chuột và bàn phím, chúng chuyển đối đối tượng tài liệu như các thông điệp lệnh.

Bảng 1.1 - Một số hàm AfxXxx
Bảng 1.1 - Một số hàm AfxXxx

CÁC PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ ĐO TƯƠNG TỰ TRONG XỬ LÝ ẢNH

    Đây là một phương pháp dựa trên đặc trưng hết sức cơ bản của ảnh số đó là đặc trưng màu, do đó nó đáp ứng được yêu cầu về độ chính xác trên phương diện màu sắc.Ưu điểm lớn nhất của phương pháp này là dễ cài đặt, dễ hiểu phù hợp cho các tìm hiểu ban đầu về vấn đề xác định độ đo tương tự giữa hai ảnh số.Tuy nhiên nó có một nhược điểm là có độ chính xác không cao mà trong nhiều trường hợp kết quả thu được không thể đánh giá được một các trực quan (đây là điều kiện tiên quyết trong thao tác với ảnh số) .Việc cài đặt phương pháp này trong các ứng dụng là hết sức dễ dàng, chính vì lẽ đó nên nó được được khai thác và sử dụng trong các ứng dụng xử lý ảnh từ rất lâu.Trong giai đoạn hiện nay với sự phát triển mạnh mẽ của xử lý ảnh cũng như sự hỗ trợ mạnh mẽ của các thiết bị tiên tiến phương pháp này đã trở nên ko còn phù hợp nữa, nó đòi hỏi phải có một phương pháp phức tạp hơn và đem lại độ chính xác cao hơn. Định nghĩa: một đồ thị (graph) là một cấu trúc biểu diễn liện hệ dữa các dữ kiện với nhau.Bao gồm tập hợp các node V={Vi}i=1:N và tập hợp các liên kết E={Eij}i≠j giữa các node gọi là các cung, độ đo di của một node la số lượng các cung nối với node đó.Khi đó một trọng số eij được gán cho mỗi cung, trong trường hợp đồ thị vô hướng thì eij = eji .Một cây (tree) là một đồ thị không có kết nối vòng tròn.Một spanning tree T của một đồ thị trọng số G(V,E) được kết nối từ các đồ thị con G(V,E) sao cho: (i) chứa tất cả các node của G(V,E) và (ii) không chứa vòng.MST là một cây khung chứa (N-1) cung, sao cho tổng trọng số các cung là nhỏ nhất.

    Hình 4.1 - Tập hàng xóm ở vị trí x giống với vị trí y
    Hình 4.1 - Tập hàng xóm ở vị trí x giống với vị trí y

    PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

    Phân tích .1 Đặt vấn đề

    Ở đây có hai vấn đề lớn cần giải quyết đó là nhận thức đối tượng và so sánh đối tượng.Nhận thức đối tượng quá trình tìm hiểu các thông tin về đối tượng bao gồm các đặc trưng về màu, về hình dáng, kết cấu v.v..để cuối cùng hình thành lên một định nghĩa chính xác về đối tượng đó giúp phân biệt với các đối tượng khác sao cho bảo đảm tính cá biết của đối tượng.Ví dụ như đối tượng là một bông hoa về mặt hình dáng thường bao gồm một đoạn dài (cuống) nằm trên là một vòng tròn (cánh hoa), kết hợp với đó là màu xanh của cuống và các màu đỏ, vàng của cánh hoa v.v..quá trình này phải được thực hiện hết sức cẩn thận vì rất dễ xảy ra hiện tượng nhầm lẫn hay hiểu sai về đối tượng, lý do là đối tượng thường được lồng ghép bởi rất nhiều chi tiết, đôi khi các đối tượng khác nhau lại chứa đựng các chi tiết giống nhau hoặc bản thân cỏc chi tiết đú cũng khụng được phõn biệt rừ ràng.Tiếp theo, sau khi đó nhận thức được đối tượng chúng ta tiến hành so sánh các đối tượng với nhau, chính vì lý do là đối tượng có rất nhiều thông tin nên vấn đề só sanh các đối tượng trở nên rất khó khăn. Một vấn đề hết sức quan trọng khác trong bài toán này đó là vấn đề xác định ngưỡng.Đây là một yếu tố có ảnh hưởng trực tiếp đến hiệu quả của quá trình tìm kiếm.Nếu ngưỡng được chọn lựa phù hợp thì không những làm tăng hiệu suất của quá trình tìm kiếm mà còn giảm rất nhiều các chi phí không cần thiết phát sinh trong quá trình tìm kiếm.Ngưỡng ở đây không phải là một con số cố định, hoặc có thể rút ra chung cho tất cả các bài toán thuộc lớp này, ngưỡng phải được xác định tùy theo từng điều kiện cụ thể của mỗi bài toán, ngưỡng được quyết định bởi bản thân đối tượng tìm kiếm (về kích thước, màu sắc, phân bố kết cấu..) và bản thân đoạn video, nếu đoạn video có chất lượng cao đảm bảo khả năng tìm kiếm đối tượng với độ chính xác cao thì ngưỡng có thể được đẩy lên cao, nhưng ngược lại với các đoạn video chất lượng thấp hoặc chịu ảnh hưởng rất nhiều của nhiễu môi trường không thể kiểm soát thì ngưỡng cần phải được đẩy xuống.

    Kỹ thuật đề xuất

    Như vậy lại có một vấn đề mới đặt ra trong trường hợp này là nếu ngưỡng bị đẩy xuống thấp quá rất dễ gây hiểu lầm, có nghĩa là quá trình tìm kiếm đã chở nên bớt khắt khe hơn, khi đó đối tượng được coi là giống nhau đã không được kiểm soát kỹ làm cho kết quả thu về có thể không theo được mong muốn, trường hợp nảy chỉ có thể đáp ứng được tính đủ của quá trình tìm kiếm nhưng lại gây lên sự dư thừa thông tin.Để giải quyết vấn đề này cần phải có thêm sự kết hợp của một số ký thuật hỗ trợ khác chẳng hạn như lọc nhiễu trước khi xử lý, hoặc phối hợp hỗ trợ của con người. Kỹ thuật này có thể được môt tả ngắn gọn lại như sau: có hai vùng ảnh A, B cần đem so sánh với nhau.Với mỗi pixel x trên ảnh A chọn ra một tập ngẫu nhiên n láng giềng Sx nằm trong vùng láng giềng ε, để so sánh với x trên B cũng chọn ngẫu nhiên các điểm y tương ứng cùng với vùng láng giềng của nó Sy sau tiến hành so sanh 2 vùng láng giềng này cho nhau theo một ngưỡng δ nào đó.Kết quả của phép so sánh A, B thu được qua quá trình tính toán như trên với một số lượng đủ lớn pixel x trong A (chi tiết xin xem thêm phần 4.2).

    Hình 5.2 -  pixel x và các tập láng giềng
    Hình 5.2 - pixel x và các tập láng giềng

    Thiết kế hệ thống

    + Sau khi đã có một ảnh đầu vào, hệ thống phải cho phép người sử dụng chọn lựa các đối tượng trong đó một cách tùy ý, đương nhiên vùng mà ngưởi sử dụng chọn ra đó phải chứa ít nhất một đối tượng , hơn nữa phải chọn sao cho tầm ảnh hưởng của nền trong vùng đó là nhỏ nhất, nghĩa là đối tượng phải chiếm đa số trong vùng đó.Ngoài ra đối tượng cũng phải được chọn sao cho về màu sắc đối tượng phải đặc biệt nổi bật so với nền mà đối tượng nằm trên đó nghĩa là phải có được một sự phân biệt rừ ràng giữa cỏc pixel trong ảnh thuộc về vật với cỏc pixel thuộc về nền.Nếu không làm tốt vấn đề này có thể sẽ dẫn đến hậu quả là thay vì thực hiện tìm kiếm đối tượng hệ thông sẽ bị chuyển hướng lạm dụng sang thực hiện với nền.Điều này sẽ làm sụp đổ hoàn toàn hoạt động của hệ thống. + Đặc thù của file video là một chuỗi các khung hình diễn ra liên tiếp có mối liên hệ với nhau về mặt nội dung theo các dòng sự kiện diễn biến theo thời gian.Mỗi dòng sự kiện đó sẽ ánh xạ thành một phân đoạn của file video.Trong từng phân đoạn đó, các đối tượng xuất hiện sẽ mang tính bảo toàn cao và xuất hiện theo một chuỗi diễn biến nào đó.Tận dụng điều này, việc tìm kiếm có thể thực hiện chia nhỏ cho từng phân đoạn nhất định, ứng với từng phân đoạn, hệ thống sẽ thực hiện tùy biến các tham số để có được một kết quả mong muốn trong từng trường hợp cụ thể.

    Hình CVA
    Hình CVA

    THỰC NGHIỆM

    Giới thiệu chương trình

    Ngoài ra chương trình cũng cho phép người sử dụng playback file avi theo ý muốn.

    Các chức năng chính của chương trình .1 Giao diện chính

    Bên cạnh việc hiển thị histogram, hộp thoại này còn cung cấp cho người sử dụng một số lựa chọn, bao gồm: xem histogram theo các màu riêng biệt (Red, Green, Blue) thậm chí là histogram của ảnh ở dạng đa cấp xám (Gray), áp dụng toán tử logarit cho histogram nhằm đẩy cao đồ thị để quan sát. Để làm được điều này, người sử dụng thực hiện di chuột qua vùng chứa đối tượng mong muốn, một hình chữ nhật tạm thời sẽ được vẽ bao quanh đối tượng và khi chuột được thả ra thì hình chữ nhật sẽ biến mất và đối tượng được chấp nhận và hiển thị trên vùng Đối tượng tìm kiếm.

    Hình 6.5 - Menu Process
    Hình 6.5 - Menu Process