Các hiện tượng thực tế đều có thể được biểu hiện dưới dạng kiến thức bằng cách mô tả tương tác giữa các đối tượng vật chất trong quan hệ không gian và thời gian. Các đối tượng vật chất này bao gồm cả con người, công trình, xe cộ… Video chính là bản sao đầy đủ như môi trường thực tế. Trong mô hình khái niệm của dữ liệu video, việc nhận biết các đối tượng thực và quan hệ của chúng trong không gian và thời gian là rất quan trọng. Các quan hệ này có thể được biểu thị trong một cấu trúc phù hợp.
rõ ràng sự tác động giữa không gian – thời gian của các đối tượng trong một khung hình đơn. Mặc dù siêu dữ liệu không gian – thời gian cho CSDL video đã được định nghĩa, vẫn chưa có một phương pháp cụ thể nào được đưa ra trong việc mô hình hóa và quản lý thông tin.
Dãy video có thể được xem như cấu trúc V = (T, <, D, h), trong đó: T: tập các khung video (ƒi), còn gọi là một dãy.
<: quan hệ đôi, bắc cầu và đối xứng với T. (T, <) được gọi là dòng các dãy video.
D: vùng các khung. Mỗi khung ƒi có một vùng Di bao gồm các đặc tính được trích ra (ví dụ: các đối tượng tiêu biểu).
h: ánh xạ sao cho với bất cứ tính chất p nào, tồn tại một tập vị trí {si}, si là các dãy không liên kết của T sao cho h(p, si) là đúng.
Thông qua việc áp dụng một tập hợp chức năng cho một đoạn video, một nhóm các mục quan hệ biểu thị hình dáng của các vật tiêu biểu được tạo lập.