Thuộc tính không gian của đối tượng vật lý tiêu biểu trong một khung có thể được tách ra như một khối biên V, mô tả một phép chiếu của một đối tượng trong không gian ba chiều. Đó là hàm hình chữ nhật biên L, trọng tâm d và độ sâu thông tin c liên quan đến đối tượng. Biên hình chữ nhật được tính toán với tham số hệ tọa độ có tọa độ gốc là tọa độ góc trái bên dưới của mỗi khung. Cặp (x,y) biểu thị tọa độ của phần góc trái phía dưới của hình chữ nhật L.
V và L được biểu diễn như sau:
Hình chữ nhật biên L = (width, height, x, y)
Khối biên V = (hình chữ nhật biên L, c, d) (d: trọng tâm, c: độ sâu)
Thông tin thời gian của các đối tượng có thể được nắm giữ thông qua việc chỉ ra biến đổi của các tham số không gian gắn với khối biên V của đối tượng trong một dãy các khung cho trước. Với độ chi tiết thấp nhất thì những thay đổi này có thể ghi lại cho mỗi khung. Mặc dù một chi tiết mô tả thời gian nhỏ là cần thiết cho việc chỉ dẫn khung gốc của dữ liệu video, nó có thể không được yêu cầu trong hầu hết các ứng dụng. Tương tự, thời gian tốn thêm với một bản mô tả chi tiết như vậy có thể quá lớn. Lần lượt một chi tiết theo thời gian nhỏ có thể được duy trì bằng việc phân tích các khung tại một khoảng cách nào đó. Khoảng cách về số lượng khung phụ thuộc vào sự phức tạp của các tình tiết. Dễ dàng nhận thấy sự thuận nghịch giữa khối lượng cần thiết cho chi tiết thời gian và các thông tin chi tiết duy trì bởi mô hình.