Các mô hình dựa trên chú giải

3.4 Một số mô hình video

3.4.2 Các mô hình dựa trên chú giải

Do Smith và Princever đề xuất. Điểm yếu cơ bản của mô hình video phân đoạn là thiếu tính linh hoạt. Thay cho việc chia cắt dòng video, Smith và Princever đưa ra một mô hình chú giải xếp tầng gọi là mô hình xếp tầng (stratification model) [16]. Mô hình xếp tầng này gần như luật phối cảnh xa gần trong việc chỉnh sửa đoạn phim. Họ cho rằng để tối đa hoá hiệu quả của việc xem nhanh, sự mô tả phải được xây dựng từ cấp độ các cảnh của phim. ý kiến đó là nếu sự chú thích được thực hiện từ những điểm nhỏ đầu tiên, thì tại những điểm lớn hơn, thông tin có thể được tái tổ chức một cách dễ dàng hơn. Hệ thống xếp tầng có cấu trúc biểu thị theo quy luật xa gần (ai là người thao tác chủ yếu về quay phim) kỹ thuật quay phim (các đặc trưng về kỹ thuật quay phim cho các cảnh là gì?), nội dung (cái gì có trong ảnh?) và bối cảnh (cảnh này liên quan đến cảnh khác như thế nào?). Họ nhận ra tầm cỡ của nhiệm vụ chú giải và đề xuất ý kiến về máy quay video, thêm vào việc ghi hình video là sẽ ghi ở cấp độ thấp hơn dữ liệu chú giải đòi hỏi.

3.4.3 Các mô hình đối tƣợng video

Hai mô hình dữ liệu phổ biến sử dụng trong hệ quản trị CSDL là mô hình quan hệ và mô hình đối tượng. Mô hình đối tượng được ưa chuộng hơn. Nó có nhiều đặc điểm phù hợp với mô hình dữ liệu video. Có thể là:

 Miêu tả và quản lý các đối tượng phức tạp,  Định danh được các đối tượng,

 Đóng gói dữ liệu và kết hợp phương thức vào các đối tượng và

 Thừa kế cấu trúc thuộc tính và phương thức dựa trên phân lớp các lớp.

Tuy nhiên, việc mô hình dữ liệu video sử dụng mô hình dữ liệu hướng đối tượng có những nhược điểm sau:

 Dữ liệu video là dữ liệu thô được tạo một cách độc lập với nội dung và cấu trúc cơ sở dữ liệu của nó

 Trong các mô hình dữ liệu truyền thống như là mô hình hướng đối tượng, giản đồ dữ liệu không thay đổi. Thuộc tính của đối tượng có thể cố định nhiều hay ít và sự thêm hay xoá đi các thuộc tính là không thể thực hiện được. Tuy nhiên, các thuộc tính của dữ liệu video không thể được định ra tất cả trước đó vì: - Sự mô tả dữ liệu video phụ thuộc vào người sử dụng và mục đích cài đặt, - Thông tin phức tạp chứa đựng trong dữ liệu video cho thấy ngữ nghĩa có

thể thêm được thêm vào.

 Nhiều mô hình dữ liệu hướng đối tượng chỉ hỗ trợ sự kế thừa dựa trên các lớp. Tuy nhiên, đối với các đối tượng dữ liệu video thường chồng chéo lên nhau hoặc bao hàm lẫn nhau, đòi hỏi sự hỗ trợ bao gồm tính kế thừa. Tính kế thừa cho phép các đối tượng video này chia sẻ các dữ liệu mô tả của chúng.

Oomoto và Tanaka phát triển mô hình CSDL thông tin hướng đối tượng video – OVID [5]. Trong mô hình này, khái niệm về đối tượng video có thể là chuỗi bất kỳ của các khung video. Mỗi đối tượng video bao gồm một cách nhận dạng duy nhất, một khoảng cách được tạo ra bởi hai khung khởi đầu và kết thúc và nội dung của chuỗi khung video được mô tả thủ công bởi một tập hợp các cặp thuộc tính và giá trị. Mô hình dữ liệu video của Oomoto và Tanaka là lược đồ hóa, đó là không dùng hệ thống cấp bậc các tầng lớp như các lược đồ CSDL giống hệ thống CSDL hướng đối tượng. Các thuộc tính bất kỳ có thể được gắn với mỗi đối tượng video nếu cần thiết. Nó giúp việc mô tả nội dung của đối tượng video một cách linh hoạt. Khoảng thời gian kế thừa để làm đơn giản việc cung cấp dữ liệu mô tả khi một video có sẵn được đưa vào các đối tượng video mới sử dụng sự khái quát hoá các khái niệm về hệ thống phân cấp. Cách tiếp cận này rất đơn điệu bởi sự mô tả nội dung video được làm thủ công và không qua quá trình xử lý tự động.

Chang đề xuất mô hình mô tả đối tượng video – VODM [17]. Mô hình này ghi lại chi tiết thông tin thuộc tính về các đối tượng video, để lưu giữ, khôi phục lại phần chú giải trong các tệp video khác nhau. Trong VODM, đối tượng video có thể được mô tả bởi các thuộc tính với một số kiểu dữ liệu khác nhau. Chúng có thể là từ khoá văn bản, một đoạn, ảnh quan hệ, hoặc các đối tượng video đệ qui khác. Khái niệm trình diễn của VODM được dựa trên mô hình quan hệ thực thể cho tổ chức mức khái niệm CSDL. Trong mô hình này, thực thể là một “đối tượng nội dung” trong dữ liệu video và có thể được định danh riêng rẽ. Quan hệ là kết hợp tất cả các thực thể. Tất cả thực thể và quan hệ có đặc tính liên quan, gọi là thuộc tính. Một thực thể hoặc quan hệ có thể có một giá trị thuộc tính cho mỗi thực thể hoặc quan hệ.

3.4.4 Mô hình dữ liệu video đại số

Weiss đề xuất mô hình dữ liệu video đại số định nghĩa dòng video thông qua áp dụng tập các thao tác đại số đệ qui trên đoạn dữ liệu video thô [9]. Cơ sở tồn tại của mô hình dữ liệu video đại số là trình diễn. Trình diễn là đa cửa sổ không gian, thời

gian, và kết hợp nội dung các đoạn video. Trình diễn được mô tả bằng biểu thức video (video expression), được xây dựng trên đoạn dữ liệu video ban đầu sử dụng toán tử video đại số. Toán tử video đại số bao gồm:

- Tạo mới.

- Kết hợp: ghép, hợp, giao. - Output: cửa sổ, audio - Mô tả: mô tả, ẩn nội dung.

video expression

video expression video expression video expression

Hình 3.3: Mô hình video đại số

Đoạn được chỉ ra sử dụng tên và vùng video thô. Bản chất đệ qui của cấu trúc video được hỗ trợ bằng cách tạo biểu thức video phức hợp từ một cấu trúc đơn sử dụng toán tử video đại số. Mô hình cho phép đặt các tầng chồng các đoạn video logic sử dụng các cảnh chồng lên nhau và chú giải chúng cho các đoạn dữ liệu video thô tương tự. Để tìm một đoạn video, sử dụng câu truy vấn với biểu thức là thuộc tính của đoạn video. Kết quả của truy vấn là một tập biểu thức video có thể được thực hiện lại, sử dụng lại. Bên cạnh việc truy xuất nội dung cơ bản, video đại số cho phép duyệt video. Mô hình dữ liệu video đại số được thực hiện trong mô hình hệ thống gọi là hệ thống video đại số.

3.4.5 Các mô hình dữ liệu video khác

Mô tả cấu trúc và nội dung video đề xuất bởi Hjelsvold và Midtstraum [18]. Tác giả đề xuất mô hình có những đặc điểm chung, và có thể biến đổi đối với các

ứng dụng khác nhau để chỉ ra các lĩnh vực công nghệ và thuộc tính cho chúng. Những mô hình sau được hỗ trợ:

- Cấu trúc của video hữu hình bằng các khối ghép, dãy các cảnh và lược đồ ngắn. - Chú giải của video hữu hình

- Chia sẻ và sử dụng lại video hữu hình bằng cách phân tách logic dòng video từ các đoạn video vật lý.

Những người khác đề xuất một mô hình dữ liệu giao tiếp đồ họa gọi là mô hình đồ họa video trực tiếp – VSDG cho phân tách ngữ nghĩa không gian – thời gian của dữ liệu video [19]. Mô hình đề xuất trích thông tin không gian và thời gian với từng đối tượng (con người, toà nhà, xe cộ…) trong một đoạn video và miêu tả lại chúng dưới dạng đồ thị trực tiếp. Chúng còn được đưa vào một khung đồ họa dựa trên thông tin về không gian và thời gian và dựa trên tập các thao tác khái quát n-chiều được xác định dựa vào mối tương quan giữa không gian và thời gian của đối tượng được mô tả trong dữ liệu. Chúng mô tả một phương thức trình bày nội dung dựa trên truy vấn về không gian hay không gian và thời gian.

CHƢƠNG 4 MÔ HÌNH CƠ SỞ DỮ LIỆU VIDEO CHO LẬP DANH MỤC VÀ KHÔI PHỤC

NỘI DUNG VIDEO

4.1 Tổng quan

Không giống như CSDL quan hệ, CSDL video cho phép thao tác trên các đối tượng khác nhau như văn bản, ảnh, biểu đồ, âm thanh, nhạc và dữ liệu video động.

Nhiều ứng dụng video trong tương lai đòi hỏi số hóa một lượng hình ảnh và dữ liệu video cho tương tác video bao gồm việc tìm kiếm, duyệt, biểu thị, xem lại, biên soạn…Do sự tách rời số lượng của loại dữ liệu này, những khả năng trên đòi hỏi thuật toán xử lý ảnh và đồ họa máy tính có tính hiệu quả trong mô hình hóa tự động và lập danh mục các đoạn video. Có hai vấn đề đáng lưu ý liên quan tới việc mô hình và quản trị video.

 Phát triển các kỹ thuật định dạng trong việc mô hình ngữ nghĩa của thông tin video. Mô hình này có khả năng khái quát hóa thông tin video cũng như thu thập ngữ nghĩa của chúng. Nó cung cấp trình diễn hình ảnh, cảnh phim và các sự kiện phức tạp với thuật ngữ đối tượng và các hoạt động không gian – thời gian của chúng.

 Thiết kế lập danh mục, tìm kiếm và các phương pháp tổ chức hiệu quả cho dữ liệu video. Tìm kiếm trong CSDL video có thể cần nhiều tính toán, đặc biệt khi khôi phục nội dung cơ bản cần thiết đối với dữ liệu video và ảnh ở dạng nén hoặc không nén.

Đặc tính quan trọng của dữ liệu video là ý nghĩa không gian – thời gian. Người sử dụng có thể tạo các câu hỏi bao gồm cả khái niệm không gian và thời gian. Tuy nhiên, có thể xuất hiện sự bất đồng do khác biệt trong quan niệm hay dự định sử dụng thông tin sẵn có trong một đoạn video. Sự bất đồng ngữ nghĩa là vấn đề khó

khăn đối với CSDL qui ước, thậm chí ngày nay vấn đề này vẫn chưa được hiểu rõ ràng. Do vậy, việc cung cấp một bản phiên dịch dễ hiểu về dữ liệu video là một vấn đề đang nghiên cứu.

Hầu hết các hệ CSDL video hiện có tận dụng các kỹ thuật xử lý ảnh gốc để lập danh mục dữ liệu video hoặc sử dụng các phương pháp của CSDL truyền thống dựa trên từ khóa hoặc các bộ mô tả chú thích. Các đoạn video có thể được kết hợp hoặc ghép nối dựa trên ngữ nghĩa của chúng. Tuy nhiên, các phương pháp này đều nhàm chán bởi sự tiếp nhận nội dung video được thực hiện theo cách thô sơ, chứ không tự động xử lý hình ảnh và đồ họa máy tính.

Phương pháp nghiên cứu dựa vào logic không gian – thời gian được sử dụng để mô tả nội dung của một ảnh hoặc một chuỗi các ảnh. Một hệ thống khôi phục chuỗi ảnh mẫu được phát triển, là nơi các ảnh được xử lý và trình diễn theo logic không gian – thời gian và truy vấn được đưa vào bằng cách sử dụng hình minh họa và sau đó được chuyển bằng logic không gian – thời gian. Xử lý câu hỏi được thực hiện qua việc ghép logic không gian – thời gian của hình cần tìm với hình được lưu trữ bên trong CSDL. Việc này biểu thị một tiến trình có ý nghĩa trong việc khôi phục nội dung ban đầu.

Hình 4.1 mô tả mô hình dữ liệu video với phương pháp tiếp cận hai chiều. Mô hình hướng đối tượng để lưu trữ và khôi phục các sự kiện không gian – thời gian và kết hợp ý nghĩa với video. Đỉnh cao nhất tương ứng với mô hình phân phối thông tin với mức đoạn video. Đỉnh thấp nhất tương ứng với hiển thị dữ liệu nhóm hoặc liên kết thông tin qua các đoạn được hỗ trợ bởi mô hình hướng đối tượng. Tích hợp của mô hình đoạn bên trong và đoạn bên ngoài dẫn đến cơ chế đánh chỉ mục hiệu quả cho xử lý truy vấn nội dung trực tuyến. Đối với hầu hết các truy vấn, khung đề xuất có khả năng tránh thực hiện tính toán trong dữ liệu gốc trong khi xử lý truy vấn bởi những tính toán này có thể quá hạn và có thể thực hiện bên ngoài. Bên cạnh đó, khung này cho phép khái niệm hóa dữ liệu video sử dụng cả hai phương pháp trừu tượng dữ liệu hướng đối tượng từ dưới lên và từ trên xuống. Trong phương pháp từ dưới lên, có thể tạo ra tình huống phức tạp từ những sự kiện đơn giản trong khi với

phương pháp từ trên xuống, có thể tích hợp hoặc nhóm các tình huống có chung ngữ nghĩa.

Object Oriented Intra-Clip Modeling

raw video data

encoded information using low-level model event characterization object-oriented video data managerment

Object-Oriented Inter-Clip Modeling

heterogeneous

users’ views object-oriented representation

Hình 4.1: Tiếp cận dữ liệu video trừu tượng hóa hướng đối tượng

4.2 Mô hình hóa dữ liệu ảnh/video mức thấp

Các hiện tượng thực tế đều có thể được biểu hiện dưới dạng kiến thức bằng cách mô tả tương tác giữa các đối tượng vật chất trong quan hệ không gian và thời gian. Các đối tượng vật chất này bao gồm cả con người, công trình, xe cộ… Video chính là bản sao đầy đủ như môi trường thực tế. Trong mô hình khái niệm của dữ liệu video, việc nhận biết các đối tượng thực và quan hệ của chúng trong không gian và thời gian là rất quan trọng. Các quan hệ này có thể được biểu thị trong một cấu trúc phù hợp.

Với các quan hệ không gian, hầu hết các kỹ thuật mô hình đều dựa trên việc chiếu các đối tượng lên hệ tọa độ hai hoặc ba chiều. Rất ít cố gắng nhằm định dạng

rõ ràng sự tác động giữa không gian – thời gian của các đối tượng trong một khung hình đơn. Mặc dù siêu dữ liệu không gian – thời gian cho CSDL video đã được định nghĩa, vẫn chưa có một phương pháp cụ thể nào được đưa ra trong việc mô hình hóa và quản lý thông tin.

Dãy video có thể được xem như cấu trúc V = (T, <, D, h), trong đó:  T: tập các khung video (ƒi), còn gọi là một dãy.

 <: quan hệ đôi, bắc cầu và đối xứng với T. (T, <) được gọi là dòng các dãy video.

 D: vùng các khung. Mỗi khung ƒi có một vùng Di bao gồm các đặc tính được trích ra (ví dụ: các đối tượng tiêu biểu).

 h: ánh xạ sao cho với bất cứ tính chất p nào, tồn tại một tập vị trí {si}, si là các dãy không liên kết của T sao cho h(p, si) là đúng.

Thông qua việc áp dụng một tập hợp chức năng cho một đoạn video, một nhóm các mục quan hệ biểu thị hình dáng của các vật tiêu biểu được tạo lập.

4.2.1 Mô hình hóa không gian – thời gian qua một dãy các khung

Thuộc tính không gian của đối tượng vật lý tiêu biểu trong một khung có thể được tách ra như một khối biên V, mô tả một phép chiếu của một đối tượng trong không gian ba chiều. Đó là hàm hình chữ nhật biên L, trọng tâm d và độ sâu thông tin c liên quan đến đối tượng. Biên hình chữ nhật được tính toán với tham số hệ tọa độ có tọa độ gốc là tọa độ góc trái bên dưới của mỗi khung. Cặp (x,y) biểu thị tọa độ của phần góc trái phía dưới của hình chữ nhật L.

V và L được biểu diễn như sau:

Hình chữ nhật biên L = (width, height, x, y)

Khối biên V = (hình chữ nhật biên L, c, d) (d: trọng tâm, c: độ sâu)

Thông tin thời gian của các đối tượng có thể được nắm giữ thông qua việc chỉ ra biến đổi của các tham số không gian gắn với khối biên V của đối tượng trong một dãy các khung cho trước. Với độ chi tiết thấp nhất thì những thay đổi này có thể ghi lại cho mỗi khung. Mặc dù một chi tiết mô tả thời gian nhỏ là cần thiết cho việc chỉ dẫn khung gốc của dữ liệu video, nó có thể không được yêu cầu trong hầu hết các ứng dụng. Tương tự, thời gian tốn thêm với một bản mô tả chi tiết như vậy có thể quá lớn. Lần lượt một chi tiết theo thời gian nhỏ có thể được duy trì bằng việc phân

Cấu thành dữ liệu video

Yêu cầu cho mô hình video