5. Biên dạng (Edge)
7.3. Lýợc ðồ chuy ển ðộ ng trung bình
Lýợc đồ chuyển động trung bình của đoạn cõ sở cho biết thông tin về các hýớng chuyển động trong đoạn cõ sở.
7.3.2. Công thức tắnh
Lýợc đồ chuyển động trung bình đýợc tắnh bằng cách lấy trung bình các lýợc đồ chuyển động của các khung hình trong đoạn cõ sởđó. Công thức tắnh nhý sau : [0],..., [ 1] h h D h ms m s m s , Trong đó : 2 0 ] [ 1 1 ] [ N t m t m s h d N d h ] [d hmt là lýợc đồ chuyển động của khung hình thứ t ứng với chuyển động thứ d. ] [d hms là lýợc đồ chuyển động trung bình của đoạn cõ sở ứng với chuyển động thứ d.
N là số khung hình trong đoạn cõ sở, D là số vector dịch chuyển đã đýợc định lýợng.
7.3.3. Ứng dụng
Làm đặc trýng cho đoạn cõ sở, đýợc dùng để so sánh trong các quá trình gom nhóm, phân lớp đoạn cõ sở, chọn đoạn cõ sở đại diện cho lớp, hay so sánh để truy vấn.
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung 7.4. Ảnh chuyển động trung bình
7.4.1. Giới thiệu
Ảnh chuyển động trung bình của đoạn cõ sở cho biết thông tin về đặc trýng chuyển động của đoạn cõ sở. Nếu lýợc đồ chuyển động trung bình xem xét đến góc chuyển động trung bình thì ảnh chuyển động trung bình quan tâm đến độ lớn của chuyển động. Ảnh chuyển động trung bình bao gồm 2 ảnh thể hiện độ lớn chuyển động theo phýõng ngang và theo phýõng dọc của đoạn cõ sở.
7.4.2. Công thức tắnh
Ảnh chuyển động trung bình đýợc tắnh bằng cách lấy trung bình các ảnh chuyển động của các khung hình trong đoạn cõ sở đó. Công thức tắnh nhý sau : ) , ( YS X S S M M M , Trong đó : 2 0 1 1 N t X t X s M N M , 2 0 1 1 N t Y t Y s M N M X s
M là ảnh chuyển động trung bình theo phýõng ngang của đoạn cõ sở.
X t
M là ảnh chuyển động theo phýõng ngang của khung hình thứ t. Y
s
M là ảnh chuyển động trung bình theo phýõng dọc của đoạn cõ sở.
Y s
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung 7.4.3. Ứng dụng
Làm đặc trýng cho đoạn cõ sở, đýợc dùng để so sánh trong các quá trình gom nhóm, phân lớp đoạn cõ sở, chọn đoạn cõ sở đại diện cho lớp, hay so sánh để truy vấn.
8. Tóm tắt chýõng
Chúng ta đã khảo sát một số đặc trýng thýờng đýợc sử dụng trong xử lý ảnh số và video số. Trong xử lý video số, chúng tôi quan tâm đến đặc trýng màu, các lýợc đồ màu, lýợc đồ týõng quan màu, và đặc trýng chuyển động.
Ở chýõng tiếp theo, các đặc trýng này đýợc sử dụng để phân dữ liệu video thành các đoạn cõ sở.
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
CHÝạNG 3 PHÂN TÍCH TỰ ĐỘNG
VIDEO SỐ THÀNH CÁC ĐOẠN Cạ SỞ
Chýõng này trình bày về vấn đề phân tắch video thành các đoạn cõ sở, bao gồm các khái niệm cõ bản, một số phýõng pháp thýờng dùng, các phýõng pháp cải tiến đýợc dùng trong luận vãn.
Nội dung chắnh của chýõng :
1. Giới thiệu sõ lýợc phân đoạn cõ sở
2. Một số tài liệu in, bài báo điển hình về phân đoạn cõ sở3. Các hýớng tiếp cận phân đoạn điển hình 3. Các hýớng tiếp cận phân đoạn điển hình
4. Một số phýõng pháp cải tiến 5. Đánh giá các phýõng pháp cải tiến 5. Đánh giá các phýõng pháp cải tiến
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Để thiết kế hệ thống truy tìm dữ liệu video số dựa vào nội dung, việc đầu tiên cần giải quyết là phải có phýõng pháp phân tắch dữ liệu video số vốn rất lớn về kắch thýớc thành các đặc trýng cấp cao với kắch thýớc bé để tiện lýu trữ và truy tìm. Đây là một trong những býớc quan trọng nhất, đýợc gọi là phân đoạn cõ sở.
1. Giới thiệu sõ lýợc phân đoạn đoạn cõ sở
Việc chia một đoạn video thành một hay nhiều đoạn cõ sở gọi là phân đoạn cõ sở. Quá trình này cũng đýợc coi nhý là việc phát hiện những chuyển cảnh giữa các đoạn, xác định khung hình bắt đầu và khung hình kết thúc của một đoạn cõ sở.
Hình 23. Biên đoạn cõ sở
Trong những nãm gần đây, những nghiên cứu về việc phát hiện tựđộng đoạn cõ sở đang bùng nổ, những ứng dụng ngày càng nhiều và càng có nhiều thuật toán đýợc công bốđể giải quyết vấn đề phân đoạn cõ sở cho những mức độ phức tạp khác nhau của dữ liệu thật.
Phần lớn các phýõng pháp tìm đoạn cõ sởđều có chung ý týởng chắnh là : rút trắch các đặc trýng của mỗi khung hình trong đoạn video, rồi tắnh toán sự khác biệt giữa đặc trýng của các khung hình liên tiếp, và so sánh những sự khác biệt này với một ngýỡng cho trýớc. Mỗi khi sự khác biệt výợt quá ngýỡng thì có nghĩa là tìm thấy đýợc một
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
đoạn cõ sở. Vấn đề là sử dụng đặc trýng nào của khung hình, và sử dụng nhý thế nào, từđó nảy sinh ra nhiều phýõng pháp, hýớng tiếp cận khác nhau.
Hình 24.Tắnh sự khác biệt đặc trýng giữa những khung hình liên tiếp
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Hình 26Sõđồ giải thuật phân đoạn
2. Một số tài liệu in, bài báo điển hình về phân đoạn cõ sở
Chúng ta hãy xem xét lại một số tài liệu, bài báo điển hình về phân đoạn cõ sở đã đýợc công bố.
2.1. Kỹ thuật mô hình Markov ẩn (The Hidden Markov Model)
Boreczky và Wilcox [Proceedings of the International Conference on Acoustics, Đoạn video gồm các khung hình Rút trắch đặc trýng của các khung hình Sự khác biệt vềđặc trýng giữa các khung hình liên tiếp Phát hiện chuyển cảnh (Phát hiện biên đoạn cõ sở) Kết quả phân đoạn là các đoạn cõ sở
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
video bằng cách sử dụng mô hình Markov ẩn. Nó sử dụng ba loại đặc trýng để phân đoạn video : sự khác biệt về lýợc đồ chuẩn, độ đo khoảng cách âm thanh, và ýớc lýợng chuyển động của đối týợng giữa hai khung hình kế tiếp nhau.
Đặc trýng lýợc đồđo sự khác biệt giữa những khung hình liên tiếp dựa trên mức độ sáng. Những điểm ảnh đýợc phân phối vào 64 vùng dựa vào độ sáng của chúng. Sự khác nhau từng đôi một giữa các lýợc đồ của các khung hình liên tiếp đýợc gọi là đặc trýng lýợc đồ.
Khoảng cách âm thanh đýợc đo bằng cách : đầu tiên, chuyển nó thành một chuỗi vector, đýợc tắnh toán sau mỗi 20 mili giây. Những độ đo likelihood đýợc tắnh toán riêng biệt theo 2 chu kỳ liên tiếp và sau đó tắnh theo sự nối ghép của 2 chu kỳđó.(Tỉ số giữa 2 giá trị cho biết tỉ số likelihood để kiểm tra giả thuyết rằng )
Đặc trýng chuyển động phát hiện sự chuyển động của đối týợng giữa những khung hình. Đặc trýng chuyển động đýợc tắnh toán bằng cách sử dụng chắn vector chuyển động ở chắn khối trong cửa sổ. Độ lớn của giá trị trung bình của 9 vector và giá trị trung bình của độ lớn của các vector này giúp phát hiện những cảnh camera
quét và zoom.
Mô hình Markov ẩn (HMM) gồm có các trạng thái sau : chuyển cảnh tức thì, tiệm tiến, quét, phóng to nhỏ (zoom). Mỗi trạng thái của HMM có một phân phối xác suất liên quan để làm mẫu cho phân phối của các đặc trýng ảnh, âm thanh, và chuyển động ở trạng thái đó. Các tham số của HMM đýợc học qua một pha luyện. Khi các tham số đã đýợc luyện, việc phân đoạn video thành các đoạn cõ sở, các chuyển động camera và các chuyển cảnh đýợc thực hiện bằng thuật toán viterbi. Cho một chuỗi các đặc trýng, thuật toán viterbi phát sinh một chuỗi trạng thái gần giống nhý là đýợc tạo ra từ những đặc trýng này.
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2.2. Phát hiện chuyển cảnh dựa vào phân tắch và týõng tác nghe nhìn
Tsekeridou [Scene change detection based on Audiovisual analysis and interaction, 1998] trình bày một phýõng thức phát hiện chuyển cảnh dựa trên những
nguồn thông tin thắnh giác và thị giác. Phân tắch âm thanh phân đoạn video thành 3
loại ngữ nghĩa chắnh : im lặng, tiếng nói, và tiếng nhạc. Một khung âm thanh đýợc coi là phần âm thanh ngắn nhất về thời gian đýợc dùng trong phân tắch âm thanh ngắn hạn. Ban đầu, việc phát hiện im lặng đýợc dùng để nhận ra những chu kỳ im lặng và loại bỏ nó ra khỏi những phân tắch sau đó. Việc phát hiện điểm cuối quyết định phần đầu và cuối của từ, cụm từ, và câu. Phát hiện tiếng nhạc đýợc thực hiện sâu hõn nữa để phân biệt tiếng nói và tiếng nhạc. Những đoạn có tắêng nhạc có nội dung tần số cao rõ rệt, có ZCR cao (Zero Crossing Rate), và thýờng là dài. Những đoạn có tiếng nói đựoc phân tắch nhiều hõn để cố gắng xác định những chuyển đổi tức thì của ngýời nói. Để làm đýợc điều đó, những vector đặc trýng cấp thấp đýợc rút trắch từ những khung đã đýợc phân loại trýớc.
2.3. Phát hiện chuyển cảnh dựa vào lýợc đồ
Toole [Evaluation of Automatic Shot Boundary Detection on a Large Video Test Suite] trình bày một sựđánh giá chi tiết của bộ phát hiện chuyển cảnh dựa trên lýợc đồ. (Thuật toán đýợc áp dụng cho tập dữ liệu video số lớn và khác nhau. Sự chọn lựa ngýỡng cho độ týõng tựđể quyết định biên đoạn)
Kỹ thuật lýợc đồ so sánh những khung hình liên tiếp nhau dựa trên 3 lýợc đồ 64 bit (một cho độ sáng, và 2 cho màu). Ba lýợc đồ này sau đó đýợc nối với nhau tạo thành vector N-chiều, trong đó N là tổng số bin trong cả 3 lýợc đồ. Độ đo cosine đýợc dùng để so sánh các lýợc đồ của các khung hình liên tiếp. Giá trị cosine thấp biểu thị sự týõng tự. Việc đặt ngýỡng phải xem xét đến sự cân bằng giữa 2 điểm
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
mâu thuẫn : ngýỡng đủ cao để bộ phát hiện loại bỏ đýợc nhiễu, và ngýỡng đủ thấp để bộ phát hiện đủ nhạy cảm khi phát hiện chuyển cảnh tiệm tiến.
2.4. So sánh các kỹ thuật phát hiện biên đoạn cõ sở
Boreczky và Rowe [SPIE96] trình bày một sự so sánh giữa một vài kỹ thuật phát hiện biên đoạn cõ sở và sự khác nhau giữa chúng, bao gồm các thuật toán : lýợc đồ, biến đổi cosine rời rạc, vector chuyển động và so sánh khối.
Sáu phýõng thức sau đều khả thi cho việc tìm biên đoạn cõ sở :
2.4.1. Khác biệt về điểm ảnh : đếm số lýợng điểm ảnh có giá trị thay đổi výợt quá một ngýỡng cho trýớc. Tắnh toán một độ đo sự khác biệt của ảnh. Tuy nhiên, kỹ thuật này nhạy cảm với camera và chuyển động của đối týợng.
2.4.2. Khác biệt thống kê : phýõng thức này mở rộng ý týởng khác biệt vềđiểm
ảnh bằng cách phân chia ảnh thành các vùng và so sánh độ đo thống kê
các điểm ảnh trong các vùng.
2.4.3. Lýợc đồ : phýõng thức này tắnh toán lýợc đồ độ xám hoặc lýợc đồ màu giữa 2 ảnh. Nếu sự khác biệt mỗi bin giữa 2 lýợc đồ výợt quá một ngýỡng , coi nhý tìm đýợc một biên đoạn cõ sở.
2.4.4. Khác biệt vềđộ nén : phýõng pháp này sử dụng sự khác biệt trong các hệ số biến đổi cosine rời rạc (DCT) của các khung hình nén JPEG nhý là độ đo về sự týõng tự và rồi sử dụng một dạng của tìm kiếm nhị phân để quyết định biên thực sự.
2.4.5. Theo vết biên cạnh : tắnh toán phần trãm biên cạnh vào và ra giữa 2 khung hình. Biên của đoạn cõ sở đýợc tìm thấy bằng cách tìm phần trãm biên cạnh thay đổi lớn.
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2.4.6. Vector chuyển động : vector chuyển động có thểđýợc dùng để phát hiện đoạn cõ sở có phải là phóng to nhỏ (zoom) hoặc quét (pan) hay không. Vì những đoạn cõ sở có chuyển động của camera có thể đýợc phân loại không đúng do chuyển cảnh tiệm tiến, việc phát hiện zoom và quét sẽ tãng độ chắnh xác của thuật toán phát hiện biên đoạn cõ sở.
Nãm thuật toán đã đýợc cài đặt và so sánh kết quả. Đó là những thuật toán : Lýợc đồ
Lýợc đồ vùng
Lýợc đồ liên tục (running)
Sự khác biệt hệ số biến đổi cosine rời rạc
So sánh kết quả : những thuật toán cho kết quả tốt hõn là : so sánh dựa theo
vùng (region based), phân tắch vector chuyển động.
3. Các hýớng tiếp cận phân đoạn điển hình
Qua một số tài liệu, bài báo, chúng tôi nhận thấy có 4 hýớng tiếp cận điển hình cho việc phát hiện chuyển cảnh và phân đoạn. Bốn hýớng tiếp cận đó là :
Sự sai biệt về lýợc đồ màu giữa các khung hình liên tiếp. Tỉ số thay đổi biên cạnh.
Sự phân tắch đặc trýng âm thanh. Sự phân tắch phát hiện chuyển động.
Bốn hýớng tiếp cận sẽđýợc mô tả ngắn gọn sau đây. 3.1. Sự sai biệt về lýợc đồ màu
Đặc trýng lýợc đồ đo khoảng cách giữa những khung hình liên tiếp dựa trên mức độ sáng. Các điểm ảnh đýợc phân phối vào 64 bin dựa vào độ sáng của chúng. Sự khác biệt giữa các bin của lýợc đồ của các khung hình liên tiếp đýợc gọi là đặc trýng lýợc đồ. Nếu sự khác biệt bin giữa 2 lýợc đồ výợt quá một ngýỡng, coi nhý
Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Thuật toán phát hiện biên đoạn cõ sở theo lýợc đồ màu dựa vào thực tế là nội dung màu không thay đổi nhanh chóng trong cùng một đoạn cõ sở mà sẽ biến đổi nhanh giữa các đoạn cõ sở khác nhau. Do đó, những chuyển cảnh tức thì có thể