Yêu cầu cho mô hình video

Để quản lý hiệu quả, một VDBMS cần hỗ trợ video như là một dạng dữ liệu của nó, tương tự như dữ liệu văn bản. Mô hình dữ liệu video cần tích hợp trạng thái nội dung của dòng video và cấu trúc ngữ nghĩa. Nó cũng mô tả đối tượng vật lý (con người, xe cộ, nhà cửa…) hiện tại trong video và kết hợp truyền thông cho từng đoạn video. Cũng cần nhấn mạnh mối quan hệ cấu trúc và thời gian giữa các đoạn video. Đặc điểm của video như mầu, kết cấu, bóng và chuyển động có thể được giải nén tự động từ dòng video và được sử dụng như các thuộc tính.

3.3.1 Hỗ trợ trừu tƣợng hóa cấu trúc video đa mức

Trong một dòng video, có hai mức trừu tượng hóa vốn có là dòng video liên tục và các khung hình riêng lẻ. Với hầu hết các ứng dụng, dòng video liên tục quá thô so với mức trừu tượng hóa chúng. Mặt khác, một khung hình đơn ít khi được xem là một khối bởi vì khung hình đơn nối các khoảng thời gian ngắn và số khung hình đơn trong đoạn video ngắn là rất lớn. Cách trừu tượng hóa khác, như là kịch bản, là cách được mong đợi hơn, và từ đó một lược đồ phân cấp của dòng video trừu tượng

hóa có thể được xây dựng. Mỗi mức trong sơ đồ, cần thêm vào nhiều thông tin, như kiểu liên tục. Một trừu tượng đa mức của dòng video có thể được xây dựng như sau:  Dễ dùng để tham chiếu thông tin video và dễ để hiểu nội dung của nó.

 Hỗ trợ duyệt video tốt hơn.

 Đơn giản cho sắp xếp và tổ chức lưu trữ.

Một cảnh video có thể xem như là một cấu trúc cơ sở đại điện cho dữ liệu video. Một cảnh bao gồm một hoặc nhiều khung hình được sinh và thu liên tục, trình diễn lại hành động trong thời gian và không gian thực. Các cảnh quan hệ với nhau theo thời gian và không gian có thể ghép vào cùng một đoạn.

3.3.2 Hỗ trợ quan hệ không gian và thời gian

Nguyên tắc cấu thành của dữ liệu video được kết hợp giữa không gian và thời gian. Nguyên tắc này làm video khác khá nhiều kiểu dữ liệu khác. Vì vậy, đặc tính nhận dạng các đối tượng vật lý và mối quan hệ giữa chúng về mặt không gian và thời gian của mô hình video là rất quan trọng. Người dùng có thể nảy sinh câu hỏi về cả hai chiều không gian và thời gian. Thông thường, dãy tình tiết và dãy video có thể được nén ở dạng tri thức thông qua việc mô tả ảnh hưởng giữa các đối tượng vật lý trong một đoạn thời gian và quan hệ giữa chúng trong không gian. Quan hệ thời gian giữa các đoạn khác nhau rất quan trọng với sự phối cảnh sử dụng đánh dấu đoạn video. Đưa ra bất kỳ hai khoảng thời gian nào, có mười ba cách khác nhau mà chúng có thể quan hệ. Mười ba quan hệ có thể miêu tả bằng bẩy trường hợp đảo ngược kể từ cách sáu, ngoại trừ quan hệ bằng nhau. Chúng là: before, meet, overlap, during, start, complete, và equal [13]. Quan hệ thời gian đó được sử dụng trong công thức hỏi bao gồm quan hệ thời gian nén giữa các khung hình video.Với các quan hệ không gian, hầu hết dựa trên kỹ thuật đối tượng lồi trên hệ toạ độ hai hoặc ba chiều. Rất ít nghiên cứu thử trình diễn quan hệ không gian – thời gian của đối

3.3.3 Hỗ trợ chú giải video

Không giống như dữ liệu văn bản, video số không cung cấp đặc tính nội dung một cách dễ dàng bởi vì việc nhận dạng tự động ảnh và lời nói là không khả thi. Tuy nhiên, cấu trúc của một video có lưu giữ vài thông tin cần thiết nhưng nó không phù hợp để mô tả mỗi đặc tính của video. Ví dụ: đưa hai cảnh thành phố thì rất khó để xác định nó là cảnh ở NewYork hay Singapore. Có thể đưa ra những mô tả chi tiết nội dung của chất liệu video không được liên kết trực tiếp với các thành phần cấu trúc. Bên cạnh đó, các chú giải dữ liệu video thường thay đổi và phụ thuộc vào sự hiểu biết của người sử dụng và ngữ cảnh ứng dụng. Thực tế, quá trình chú giải video là một quá trình bán tự động.

3.3.4 Độc lập dữ liệu video

Lợi ích của độc lập dữ liệu là chia sẻ và tái sử dụng dữ liệu video, đây là giới hạn trong một hệ quản trị CSDL video bởi dung lượng của dữ liệu là rất lớn. Các thông tin video cần thiết có thể được sử dụng trong các đoạn video khác nhau. Một ý kiến định nghĩa nội dung của video gọi là dòng video, dòng video này có thể ánh xạ vào một tập các thiết bị lưu trữ vật lý gọi là các đoạn lưu trữ video (stored video segment). Tuy nhiên, khái niệm độc lập dữ liệu video vẫn là đề tài đang nghiên cứu.

3.4 Một số mô hình video

3.4.1 Các mô hình dựa trên phân đoạn video

Mô hình dữ liệu truyền thống như mô hình dữ liệu quan hệ được tổ chức không tương xứng cho miêu tả cấu trúc dữ liệu phức tạp như ảnh và video. Ví dụ: hầu hết CSDL quan hệ không hỗ trợ kiểu dữ liệu mảng cho miêu tả ảnh. Một vài trong số những mô hình đầu tiên là phân đoạn dòng video vào những khoảng thời gian dựa trên các khối cơ sở gọi là cảnh (shot). Tiếp theo, các vùng độc lập với các mô hình, có thể là mô hình hay thiết bị giới hạn, được xây dựng dựa trên các đơn vị cơ sở.

Episodes

Shot Shot Shot Shot

Scene Scene Scene

Hình 3.2: Mô hình dòng video phân cấp

Mô hình dòng video phân cấp do Swanberg đề xuất được mô tả trong hình 3.2 [20]. Bước miêu tả đầu tiên đưa ra dòng video, kỹ thuật chọn mẫu và chọn lược đồ tương xứng sử dụng tập các mẫu video bằng phân tách cảnh thay đổi. Mỗi cảnh thu được, kiểu của chúng được định danh bằng vùng định danh mô hình cảnh.

Một mô hình bốn tầng, gọi là hệ quản trị thông tin bằng hình ảnh – VIMSYS được đưa ra bởi Gupta cho dữ liệu mô hình trong hệ quản trị thông tin bằng hình ảnh [3]. Trong mô hình này, người sử dụng có thể xem các thực thể thông tin trên bốn mặt khác nhau. Những mặt này lần lượt tương ứng với các đối tượng và các mối quan hệ của vùng (DO), sự kiện và mối quan hệ của vùng (DE), đối tượng và mối quan hệ của ảnh (IO), sự minh hoạ và mối quan hệ của ảnh (IR). Tất cả các đối tượng có một tập hợp các thuộc tính và phương thức liên kết chúng. Các thuộc tính có sự mô tả bản thân chúng, và được liên kết với nhau trong một hệ thống cấp bậc các lớp thuộc tính. Mối quan hệ có thể là không gian, hàm, ngữ nghĩa. Hệ thống cấp bậc này cung cấp một cơ chế dịch các khái niệm thuộc hệ ngữ nghĩa ở cấp độ cao sang các truy vấn nội dung cơ sở sử dụng sự tương ứng với dữ liệu hình ảnh. Nó cho phép truy vấn dựa trên sự tương tự về đối tượng được tập hợp mà không đòi hỏi người sử dụng phải đưa ra cấu trúc và thuộc tính hình ảnh ở cấp độ thấp của đối tượng. Kỹ thuật cho mô hình dữ liệu như thế thực sự cần thiết. Tuy nhiên, việc sử dụng một mô hình này cho các ứng dụng thực tế không có sẵn.

Hampapur đề xuất mô hình dữ liệu video dựa trên quá trình tạo video [21]. Quá trình tạo video bao gồm việc quay phim, công việc có ý nghĩa quan trọng nhất tạo nên cảnh thô và chỉnh sửa, công việc sắp xếp lại các cảnh thô cho đoạn video cuối cùng. Trong quá trình chỉnh sửa, đối tượng video từ tập hợp được phục hồi lại dựa vào nội dung, và chúng được sắp xếp lại cho lần trình diễn cuối cùng. Trong quá trình biên soạn, các đối tượng video được khôi phục dựa theo nội dung và chúng được tổ chức để trình diễn lại. Mô hình dữ liệu video này phối hợp các ứng dụng khác nhau của video như là thuộc tính của đoạn phim, video tin tức, video sự kiện thể thao, phân tích cơ sinh học về thể thao, video an ninh cho các cao ốc. Mô hình này đạt được khía cạnh thiết yếu của việc chỉnh sửa video. Dựa trên mô hình chỉnh sửa này, việc tách thuộc tính video cho việc sắp xếp các chuỗi thuộc tính hình ảnh được thiết kế. Các thuộc tính tách ra này được sử dụng trong mô hình dựa trên công thức phân loại và nó phân đoạn dòng video.

3.4.2 Các mô hình dựa trên chú giải

Do Smith và Princever đề xuất. Điểm yếu cơ bản của mô hình video phân đoạn là thiếu tính linh hoạt. Thay cho việc chia cắt dòng video, Smith và Princever đưa ra một mô hình chú giải xếp tầng gọi là mô hình xếp tầng (stratification model) [16]. Mô hình xếp tầng này gần như luật phối cảnh xa gần trong việc chỉnh sửa đoạn phim. Họ cho rằng để tối đa hoá hiệu quả của việc xem nhanh, sự mô tả phải được xây dựng từ cấp độ các cảnh của phim. ý kiến đó là nếu sự chú thích được thực hiện từ những điểm nhỏ đầu tiên, thì tại những điểm lớn hơn, thông tin có thể được tái tổ chức một cách dễ dàng hơn. Hệ thống xếp tầng có cấu trúc biểu thị theo quy luật xa gần (ai là người thao tác chủ yếu về quay phim) kỹ thuật quay phim (các đặc trưng về kỹ thuật quay phim cho các cảnh là gì?), nội dung (cái gì có trong ảnh?) và bối cảnh (cảnh này liên quan đến cảnh khác như thế nào?). Họ nhận ra tầm cỡ của nhiệm vụ chú giải và đề xuất ý kiến về máy quay video, thêm vào việc ghi hình video là sẽ ghi ở cấp độ thấp hơn dữ liệu chú giải đòi hỏi.

3.4.3 Các mô hình đối tƣợng video

Hai mô hình dữ liệu phổ biến sử dụng trong hệ quản trị CSDL là mô hình quan hệ và mô hình đối tượng. Mô hình đối tượng được ưa chuộng hơn. Nó có nhiều đặc điểm phù hợp với mô hình dữ liệu video. Có thể là:

 Miêu tả và quản lý các đối tượng phức tạp,  Định danh được các đối tượng,

 Đóng gói dữ liệu và kết hợp phương thức vào các đối tượng và

 Thừa kế cấu trúc thuộc tính và phương thức dựa trên phân lớp các lớp.

Tuy nhiên, việc mô hình dữ liệu video sử dụng mô hình dữ liệu hướng đối tượng có những nhược điểm sau:

 Dữ liệu video là dữ liệu thô được tạo một cách độc lập với nội dung và cấu trúc cơ sở dữ liệu của nó

 Trong các mô hình dữ liệu truyền thống như là mô hình hướng đối tượng, giản đồ dữ liệu không thay đổi. Thuộc tính của đối tượng có thể cố định nhiều hay ít và sự thêm hay xoá đi các thuộc tính là không thể thực hiện được. Tuy nhiên, các thuộc tính của dữ liệu video không thể được định ra tất cả trước đó vì: - Sự mô tả dữ liệu video phụ thuộc vào người sử dụng và mục đích cài đặt, - Thông tin phức tạp chứa đựng trong dữ liệu video cho thấy ngữ nghĩa có

thể thêm được thêm vào.

 Nhiều mô hình dữ liệu hướng đối tượng chỉ hỗ trợ sự kế thừa dựa trên các lớp. Tuy nhiên, đối với các đối tượng dữ liệu video thường chồng chéo lên nhau hoặc bao hàm lẫn nhau, đòi hỏi sự hỗ trợ bao gồm tính kế thừa. Tính kế thừa cho phép các đối tượng video này chia sẻ các dữ liệu mô tả của chúng.

Oomoto và Tanaka phát triển mô hình CSDL thông tin hướng đối tượng video – OVID [5]. Trong mô hình này, khái niệm về đối tượng video có thể là chuỗi bất kỳ của các khung video. Mỗi đối tượng video bao gồm một cách nhận dạng duy nhất, một khoảng cách được tạo ra bởi hai khung khởi đầu và kết thúc và nội dung của chuỗi khung video được mô tả thủ công bởi một tập hợp các cặp thuộc tính và giá trị. Mô hình dữ liệu video của Oomoto và Tanaka là lược đồ hóa, đó là không dùng hệ thống cấp bậc các tầng lớp như các lược đồ CSDL giống hệ thống CSDL hướng đối tượng. Các thuộc tính bất kỳ có thể được gắn với mỗi đối tượng video nếu cần thiết. Nó giúp việc mô tả nội dung của đối tượng video một cách linh hoạt. Khoảng thời gian kế thừa để làm đơn giản việc cung cấp dữ liệu mô tả khi một video có sẵn được đưa vào các đối tượng video mới sử dụng sự khái quát hoá các khái niệm về hệ thống phân cấp. Cách tiếp cận này rất đơn điệu bởi sự mô tả nội dung video được làm thủ công và không qua quá trình xử lý tự động.

Chang đề xuất mô hình mô tả đối tượng video – VODM [17]. Mô hình này ghi lại chi tiết thông tin thuộc tính về các đối tượng video, để lưu giữ, khôi phục lại phần chú giải trong các tệp video khác nhau. Trong VODM, đối tượng video có thể được mô tả bởi các thuộc tính với một số kiểu dữ liệu khác nhau. Chúng có thể là từ khoá văn bản, một đoạn, ảnh quan hệ, hoặc các đối tượng video đệ qui khác. Khái niệm trình diễn của VODM được dựa trên mô hình quan hệ thực thể cho tổ chức mức khái niệm CSDL. Trong mô hình này, thực thể là một “đối tượng nội dung” trong dữ liệu video và có thể được định danh riêng rẽ. Quan hệ là kết hợp tất cả các thực thể. Tất cả thực thể và quan hệ có đặc tính liên quan, gọi là thuộc tính. Một thực thể hoặc quan hệ có thể có một giá trị thuộc tính cho mỗi thực thể hoặc quan hệ.

3.4.4 Mô hình dữ liệu video đại số

Weiss đề xuất mô hình dữ liệu video đại số định nghĩa dòng video thông qua áp dụng tập các thao tác đại số đệ qui trên đoạn dữ liệu video thô [9]. Cơ sở tồn tại của mô hình dữ liệu video đại số là trình diễn. Trình diễn là đa cửa sổ không gian, thời

gian, và kết hợp nội dung các đoạn video. Trình diễn được mô tả bằng biểu thức video (video expression), được xây dựng trên đoạn dữ liệu video ban đầu sử dụng toán tử video đại số. Toán tử video đại số bao gồm:

- Tạo mới.

- Kết hợp: ghép, hợp, giao. - Output: cửa sổ, audio - Mô tả: mô tả, ẩn nội dung.

video expression

video expression video expression video expression

Hình 3.3: Mô hình video đại số

Đoạn được chỉ ra sử dụng tên và vùng video thô. Bản chất đệ qui của cấu trúc video được hỗ trợ bằng cách tạo biểu thức video phức hợp từ một cấu trúc đơn sử dụng toán tử video đại số. Mô hình cho phép đặt các tầng chồng các đoạn video logic sử dụng các cảnh chồng lên nhau và chú giải chúng cho các đoạn dữ liệu video thô tương tự. Để tìm một đoạn video, sử dụng câu truy vấn với biểu thức là thuộc tính của đoạn video. Kết quả của truy vấn là một tập biểu thức video có thể được thực hiện lại, sử dụng lại. Bên cạnh việc truy xuất nội dung cơ bản, video đại số cho phép duyệt video. Mô hình dữ liệu video đại số được thực hiện trong mô hình hệ thống gọi là hệ thống video đại số.

3.4.5 Các mô hình dữ liệu video khác

Mô tả cấu trúc và nội dung video đề xuất bởi Hjelsvold và Midtstraum [18]. Tác giả đề xuất mô hình có những đặc điểm chung, và có thể biến đổi đối với các

ứng dụng khác nhau để chỉ ra các lĩnh vực công nghệ và thuộc tính cho chúng. Những mô hình sau được hỗ trợ:

- Cấu trúc của video hữu hình bằng các khối ghép, dãy các cảnh và lược đồ ngắn. - Chú giải của video hữu hình

- Chia sẻ và sử dụng lại video hữu hình bằng cách phân tách logic dòng video từ các đoạn video vật lý.

Những người khác đề xuất một mô hình dữ liệu giao tiếp đồ họa gọi là mô hình đồ họa video trực tiếp – VSDG cho phân tách ngữ nghĩa không gian – thời gian của dữ liệu video [19]. Mô hình đề xuất trích thông tin không gian và thời gian với từng đối tượng (con người, toà nhà, xe cộ…) trong một đoạn video và miêu tả lại chúng

Nội dung của dữ liệu video

Các mô hình dựa trên phân đoạn video