Các hiện tượng thực tế đều có thể được biểu hiện dưới dạng kiến thức bằng cách mô tả tương tác giữa các đối tượng vật chất trong quan hệ không gian và thời gian. Các đối tượng vật chất này bao gồm cả con người, công trình, xe cộ… Video chính là bản sao đầy đủ như môi trường thực tế. Trong mô hình khái niệm của dữ liệu video, việc nhận biết các đối tượng thực và quan hệ của chúng trong không gian và thời gian là rất quan trọng. Các quan hệ này có thể được biểu thị trong một cấu trúc phù hợp.
Với các quan hệ không gian, hầu hết các kỹ thuật mô hình đều dựa trên việc chiếu các đối tượng lên hệ tọa độ hai hoặc ba chiều. Rất ít cố gắng nhằm định dạng
rõ ràng sự tác động giữa không gian – thời gian của các đối tượng trong một khung hình đơn. Mặc dù siêu dữ liệu không gian – thời gian cho CSDL video đã được định nghĩa, vẫn chưa có một phương pháp cụ thể nào được đưa ra trong việc mô hình hóa và quản lý thông tin.
Dãy video có thể được xem như cấu trúc V = (T, <, D, h), trong đó: T: tập các khung video (ƒi), còn gọi là một dãy.
<: quan hệ đôi, bắc cầu và đối xứng với T. (T, <) được gọi là dòng các dãy video.
D: vùng các khung. Mỗi khung ƒi có một vùng Di bao gồm các đặc tính được trích ra (ví dụ: các đối tượng tiêu biểu).
h: ánh xạ sao cho với bất cứ tính chất p nào, tồn tại một tập vị trí {si}, si là các dãy không liên kết của T sao cho h(p, si) là đúng.
Thông qua việc áp dụng một tập hợp chức năng cho một đoạn video, một nhóm các mục quan hệ biểu thị hình dáng của các vật tiêu biểu được tạo lập.
4.2.1 Mô hình hóa không gian – thời gian qua một dãy các khung
Thuộc tính không gian của đối tượng vật lý tiêu biểu trong một khung có thể được tách ra như một khối biên V, mô tả một phép chiếu của một đối tượng trong không gian ba chiều. Đó là hàm hình chữ nhật biên L, trọng tâm d và độ sâu thông tin c liên quan đến đối tượng. Biên hình chữ nhật được tính toán với tham số hệ tọa độ có tọa độ gốc là tọa độ góc trái bên dưới của mỗi khung. Cặp (x,y) biểu thị tọa độ của phần góc trái phía dưới của hình chữ nhật L.
V và L được biểu diễn như sau:
Hình chữ nhật biên L = (width, height, x, y)
Khối biên V = (hình chữ nhật biên L, c, d) (d: trọng tâm, c: độ sâu)
Thông tin thời gian của các đối tượng có thể được nắm giữ thông qua việc chỉ ra biến đổi của các tham số không gian gắn với khối biên V của đối tượng trong một dãy các khung cho trước. Với độ chi tiết thấp nhất thì những thay đổi này có thể ghi lại cho mỗi khung. Mặc dù một chi tiết mô tả thời gian nhỏ là cần thiết cho việc chỉ dẫn khung gốc của dữ liệu video, nó có thể không được yêu cầu trong hầu hết các ứng dụng. Tương tự, thời gian tốn thêm với một bản mô tả chi tiết như vậy có thể quá lớn. Lần lượt một chi tiết theo thời gian nhỏ có thể được duy trì bằng việc phân tích các khung tại một khoảng cách nào đó. Khoảng cách về số lượng khung phụ thuộc vào sự phức tạp của các tình tiết. Dễ dàng nhận thấy sự thuận nghịch giữa khối lượng cần thiết cho chi tiết thời gian và các thông tin chi tiết duy trì bởi mô hình.
4.2.2 Mô hình đề xuất
Một đối tượng xuất hiện trong đoạn video có thể được tái hiện bởi một mục quan hệ bao gồm một tập các mô tả không gian – thời gian. Giả sử một đoạn video (video clip - VC) trước hết được tách thành các đoạn qua việc so sánh biểu đồ và dãy các đoạn định danh Si. Với mỗi đoạn, tiến hành theo dõi chuyển động của các đối tượng trong vùng nhận thấy. Sau đó mô hình có thể được mô tả như sau:
a. Với mỗi đoạn Si thuộc VC, 1 i m (giả sử VC gồm m đoạn)
Với mỗi vùng định danh đối tượng oịj trong Si, ghi lại thông tin sau, g = (oid, d_d, {s_t}), trong đó:
oid: định danh của đối tượng được gán bởi hệ thống. d_d: dữ liệu mô tả, ví dụ: kiểu đối tượng, tên…
{s_t}: một tập hợp thứ tự của mô tả không gian – thời gian
s_t = (,,m_v), trong đó:
- : khoảng thời gian tồn tại của đối tượng (trong khung), = n 1,n0 và nguyên.
- m_v: véc tơ chuyển động gắn với oij trong khoảng thời gian bắt đầu từ
với quãng m_v = (Z1,…, Z 1 1 r ). - Phần tử Zi ( ,1 11 i
i ) của m_v là khối biên tại khung i. Nói cách khác, Zi = (Li, di, ci) (trong đó d: độ sâu, c: trọng tâm) và Li = (widthi, heighti, xi,yi), với là số khung gắn với đối tượng oij trong một khoảng thay thế Si và là khoảng thời gian theo dõi cử động của mọi vật trong một đoạn video.
b. Thực hiện ghép nối giữa các đoạn như sau:
Nếu oid là duy nhất trong các đoạn, đặt các mục g tương ứng vào tập đối tượng
VO của VC, nếu không, biểu thị sự ghép nối như sau:
Nếu gi.oid = gj.oid, khi đó tạo một bản ghi gk, tại gk.oid = gi.oid, ta có
gk.d_d = gi.d_d gj.d_d, gk.{s_t} = gi.{s_t} gj. {s_t}. Đặt gk vào VO. Chú ý rằng với gk. {s_t},
nếu s_tr = (r, I, m_vr), s_tw = (w, w, m_vw), và r + I = w, thì tạo s_tu = (u, u, m_vu),
với u = r,u = I + w, m_vu = m_vv m_vv, đặt s_tw vào gj.{s_t}, xóa s_t và s_twtrong gj.{s_t}.
O4 O4 O3 O7 O6 O2 O5 O1 O1 O1 Segment 1 Segment 2 Hình 4.2: Mô hình dữ liệu mức thấp
Ta minh họa mô hình qua hình 4.2, trong đó trục x biểu thị số khung. Trong một đoạn, nhận biết vùng đối tượng được biểu thị bằng tập hợp khoảng thời gian mà nó xuất hiện. Trong hình 4.2, có hai đoạn, các đối tượng O1, O2, O3 và O4 được xác định trong đoạn một, O1 biến mất trong một số khung và sau đó tái xuất hiện. Hai khoảng thời gian mà O1 xuất hiện được liên hệ bởi quan hệ before. Tương tự như vậy, năm vùng đối tượng được nhận biết trong đoạn hai, nơi có hai đối tượng O1 và
O2 đều xuất hiện ở đoạn một. Có ba lựa chọn để trình diễn cấu trúc dữ liệu cho mô hình đề xuất. Trong lựa chọn thứ nhất, sự xuất hiện của một đối tượng được biểu thị bởi bản ghi (đoạn#, phân đoạn#, oid, *d_d, {, , m_v}). Chú ý là phân đoạn# có thể là một danh sách. Trong lựa chọn thứ hai, mỗi sự xuất hiện của một đối tượng được biểu thị bằng (đoạn#, phân đoạn#, oid, *d_d, , , m_v).
Từ véctơ chuyển động m_v chúng ta có thể tiến hành phân tích chuyển động giữa các đối tượng để chỉ ra được quan hệ chuyển động giữa các đối tượng. Với bất cứ khung nào, vị trí tương quan giữa đối tượng Oi và Oj có thể tính được bằng việc áp dụng quan hệ không gian giữa các phép chiếu xuống mỗi trục tọa độ x,y, và z.
Công việc tách các đặc điểm như chuyển động của một đối tượng, khối biên, ví dụ… là việc làm buồn tẻ. Trình độ kỹ thuật hiện có trong việc giải nghĩa hình ảnh
và đồ họa máy tính là không đủ mạnh để xử lý cảnh phức tạp trong thực tế. Tuy nhiên, sự chuẩn hóa trong việc biên soạn các tình huống không gian – thời gian không phụ thuộc vào bất cứ kỹ thuật tách các đặc tính đặc biệt cũng như kỹ thuật tổ chức.