3. Đại diện và trừu tượng video
3.1. Phân lớp theo chủ đề
Khi đề cập đến lượng thông tin lớn, một trong các cách tổ chức hiệu quả nhất là trên cơ sở phân lớp theo chủ đề. Chiến lược này đã được chứng minh trong hệ thống thư viện truyền thống, và rất nhiều các mô tơ tìm kiếm lớn như Yahoo và Infoseek. Phân lớp chủ đề làm cho việc duyệt dễ dàng. Một khi lựa chọn chủ đề quan tâm, công cụ tìm kiếm được sử dụng để tìm các mục liên quan. Phân lớp theo chủ đề cho phép tổ hợp hai tiệm cận truy tìm thông tin mạnh: Duyệt và tìm kiếm. Duyệt đi sâu vào không gian tìm kiếm và như vậy cho khả năng tìm kiếm tiếp theo để sinh ra độ chính xác tìm kiếm cao.
Có hai mức phân lớp theo chủ đề được áp dụng vào tổ chức video. Phân lớp mức một chia video khác nhau thành các lớp chủ đề khác nhau, trong khi phân lớp mức hai chia các shot của từng video thành các lớp con khác nhau.
Phần lớn motơ tìm kiếm WWW sử dụng phân lớp theo chủ đề mức thứ nhất. Hình 2.7 chỉ ra một phần phân lớp theo chủ đề áp dụng trong Infoseek. Nếu có text kết hợp với video thì phân lớp chủ đề được thực hiện tự động trên cơ sở từ điển khái niệm khóa. Phân lớp theo cách này có tỷ lệ đúng khá cao (90%).
Rất nhiều video được xây dựng trên cơ sở chủ đề. Thí dụ, chương trình tin tức thường được cấu trúc thành tin trong nước, tin quốc tế, tài chính, thể thao và thời tiết. Phim được cấu trúc theo thời gian, sự kiện, địa điểm... Do vậy rất có ích khi nhóm các shot video theo chủ đề hay phạm vi của chúng. Thí dụ, video quảng bá du lịch của một nước có thể phân chia thành đoạn theo địa điểm quan tâm. Video giới thiệu trường đại học có thể được tổ chức theo khoa, bộ môn.
Với phân đoạn video, người sử dụng hoặc quan sát trực tiếp các đoạn video liên quan hay tìm kiếm các đoạn video với chủ đề xác định trước. Phân lớp video không chỉ cung cấp cái nhìn khái quát thông tin có sẵn mà còn hỗ trợ tìm đường, duyệt và tìm kiếm.
3.2 Biểu tƣợng chuyển động hay biểu tƣợng video
Chúng ta sử dụng thumbnail để biểu diễn ảnh tĩnh khi duyệt và trình diễn kết quả. Vì video còn có chiều thời gian, cho nên thumbnail không thích
Animal Art Food Sport Travel
Dogs Cats Vegetables Fruit Drinks ... ... Painting s
Sculpure Baseball Soccer Asia
Lions Tigers
Renoir Van Gogh
Apples Bananas France UK
Hình 2.7: Minh hoạ về phân lớp video theo chủ đề
Europe
hợp để biểu diễn nó. Do vậy, biểu tượng chuyển động (motion icon – micon) được đề xuất. Micon có ba chiều như trên hình 2.8.
Mặt trước của micon là frame thứ nhất hay ảnh đại diện video, độ sâu chỉ ra độ dài và một vài thông tin chuyển động của video. Micon có thể được xem như khối pixel. Thay vì hiển thị từng frame video, các frame được xếp chồng, cùng hai mặt biểu tượng hiển thị các pixel theo cạnh ngang và cạnh dọc của frame. Một vài thông tin thời gian và không gian được cảm nhận từ hai cạnh này. Thí dụ, có thể dễ dàng nói rằng các biên shot xảy ra ở frame 200 và 370 trên hình 2.8. Chú ý rằng không đòi hỏi sử dụng toàn bộ frame của video trong micon.
Một số thao tác phải được cài đặt cho micon. Thao tác thứ nhất là duyệt. Khi người sử dụng chuyển con chạy theo cạnh micon, frame mà nó trỏ tới được hiển thị lên phía trước. Thao tác này cho khả năng xem nhanh video. Thao tác thứ hai là cắt lát dọc và lát ngang. Micon được cắt theo chiều dọc hay chiều ngang theo thông tin thời gian và không gian. Thao tác thứ ba là trích chọn subicon. Người sử dụng chỉ ra dãy frame từ micon, và subicon tương ứng với dãy frame được tách khỏi micon.
Hình 2.8 : Minh hoạ biểu tượng chuyển động 1
200 370
Micon có thể được sử dụng để biểu diễn dãy video đầy đủ hay một vài shot video. Với dãy video dài, chỉ các frame r được sử dụng trong micon. Với video ngắn hay shot video thì tất cả frame được sử dụng vào micon.
3.3 Biểu ngữ (streamer) video
Biểu ngữ video tương tự như xuất hiện trong micon. Sự khác nhau chính là biểu diễn thời gian. Trong micon, sự kiện sớm nhất là ở phía trước khối, thời gian tăng càng đi sâu vào màn hình. Trong biểu ngữ video, bề mặt luôn là frame mới nhất. Biểu ngữ video thường được sử dụng để hiển thị video. Lợi ích của chúng là thông tin không gian-thời gian được chỉ ra trên panel bên cạnh dùng để nhắc nhở các frame quá khứ và cung cấp viễn cảnh tiến triển video. Biểu ngữ video được sử dụng làm nhẹ công việc tách shot thủ công khi tách shot tự động không đạt đến 100% chính xác.
3.4 Clipmap
Clipmap là cửa sổ chứa tập hợp micon hai chiều, mỗi chúng biểu diễn một shot hay nhóm các shot tương tự. Frame r thứ nhất của shot được hiển thị trên mặt trước micon. Thêm nữa clipmap được sử dụng như công cụ tương tác để xây dựng chỉ mục.
3.5 Bộ duyệt video phân cấp
Điều quan trọng là phải có khả năng duyệt video hiệu quả. Bộ duyệt video phân cấp là công cụ duyệt và quản lý video (hình 2.9).
Bộ duyệt video phân cấp bao gồm nhiều mức, từ tiêu đề video đến nhóm các shot, đến shot và đến từng frame. Các frame đại diện được hiển thị tại mỗi mức. Các mức tiếp theo được hiển thị khi lựa chọn. Sử dụng bộ duyệt video phân cấp, người sử dụng có thể tìm nhanh ra các shot hay frame liên quan. Thí dụ trên hình 2.9, người sử dụng trước hết chọn video 3, tập hợp các
nhóm shot video được hiển thị trên cơ sở tiêu đề. Trên cơ sở các thông tin trực quan hiển thị trong mỗi nhóm shot video, người sử dụng tìm ra nhóm 1 quan tâm và chọn chúng. Mọi shot trong nhóm 1 được hiển thị bởi frame r của chúng. Người sử dụng sau đó chọn shot 2 và mọi frame trong shot 2 được hiển thị. Thông thường sau vài tương tác người sử dụng có thể định vị đoạn video quan tâm.
Sequence
level Video title 3
Group of shorts level Group 1 r frame Group 2 r frame Group 3 r frame Group 4 r frame Group 5 r frame
Short level Shot 1 r frame Shot 2 r frame Shot 3 r frame Shot 4 r frame Shot 5 r frame Shot 6 r frame
Frame level Frame 21 Frame 21 Frame 21 Frame 21 Frame 21 Frame 21 Frame 21
3.6 Storyboard
Storyboard là tập hợp các frame đại diện mà nó biểu diễn sự kiện và hành động chính trong video. Tương tự clipmap khi được sử dụng để cung cấp khả năng quan sát khái quát video. Sự khác biệt chính là clipmap thể hiện micon 3 chiều còn storyboard hiển thị frame đại diện. Storyboard đòi hỏi ít bộ nhớ lưu trữ hơn, làm giảm đáng kể băng thông và độ trễ khi phân tán thông tin trên mạng để xem nhanh và duyệt video.
Khi xây dựng storyboard, các frame r trước hết được tìm ra cho mỗi shot như mô tả trên. Trong khi hiển thị, người sử dụng chọn hạt nhân (granularities) quan sát khác nhau. Thí dụ, ta có thể chỉ hiển thị một frame r/shot hay toàn bộ frame r của một shot.
3.7 Mosaicking
Các frame của shot thông thường hiển thị các phần khác nhau của cảnh phim. Mosaicking sử dụng vài thuật toán để tổ hợp thông tin từ nhiều frame để hiển thị đầy đủ cảnh video. Thí dụ, khảo sát video của ngôi nhà lớn, mỗi frame chỉ bao phủ một phần ngôi nhà. Ta phải dịch chuyển máy quay lên/xuống, sang trái/phải để có toàn bộ ngôi nhà. Do mỗi frame chỉ bao phủ một phần ngôi nhà cho nên không frame nào có thể biểu diễn hiệu quả video shot. Mosaicking giải quyết vấn đề này bằng cách xây dựng ngôi nhà đầy đủ trong ảnh mosaic từ các frame của video shot. Ảnh mosaic được sử dụng để biểu diễn shot.
Biểu diễn shot bằng ảnh mosaic rất hiệu quả, tuy nhiên việc sinh ảnh mosaic là việc làm khó khăn.
Nhận xét
Chương này tập trung vào chỉ mục và truy tìm video trên cơ sở nội dung. Phần lớn các kỹ thuật chỉ mục và truy tìm video trên cơ sở nội dung tuân thủ các bước sau:
Trước hết phân đoạn video thành các shot, nhận biết frame r cho
mỗi shot.
Chỉ mục và truy tìm thực hiện trên đặc tính của frame r.
Các kỹ thuật này cố gắng một bước thực hiện quản lý tự động video trên cơ sở nội dung, nhưng nó chỉ quản lý ở mức thấp. Các đặc trưng mức cao như sự kiện thời gian và tương tác giữa các đối tượng trong video còn gặp nhiều khó khăn. Đòi hỏi nhiều nghiên cứu để đạt mức tự động hóa chỉ mục và truy tìm video trên cơ sở các đặc trưng và khái niệm mức cao.
CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM
Hiện nay, bài toán về quản lý dữ liệu đa phương tiện, chỉ mục và truy tìm dữ liệu đa phương tiện đang được nghiên cứu rất nhiều, đặc biệt là dữ liệu về video, bởi vì video phức tạp hơn so với các dữ liệu đa phương tiện khác như dữ liệu về âm thanh, hình ảnh và văn bản. Chương 3 sẽ trình bày cách cài đặt và thử nghiệm một bài toán về quản lý dữ liệu video của Oracle InterMedia: cách lưu trữ, truy xuất và tìm kiếm dữ liệu video.
Để hiểu rõ về Oracle InterMedia, thì phần đầu của chương này sẽ giới thiệu một cách khái quát về Oracle InterMedia. Phần tiếp theo sẽ đi vào bài toán mô phỏng cụ thể.
1. Giới thiệu về Oracle InterMedia[4,9]
Oracle là một hệ quản trị cơ sở dữ liệu hướng đối tượng quan hệ. Điều này có nghĩa là ngoài vai trò của một hệ quản trị cơ sở dữ liệu truyền thống là quản lý an toàn và hiệu quả dữ liệu quan hệ, Oracle còn có khả năng định nghĩa các kiểu đối tượng gồm dữ liệu kết hợp với các đối tượng và các phương thức của chúng thông qua một đặc trưng nổi bật được tích hợp vào Oracle là Oracle InterMedia. Oracle InterMedia mở rộng độ tin cậy, tính sẵn sàng và khả năng quản lý các dạng dữ liệu đa phương tiện trong các ứng dụng truyền thống, trên Internet, trong thương mại điện tử thậm chí cả trong các ứng dụng giàu dữ liệu đa phương tiện.
1.1 Các kiểu đối tƣợng đa phƣơng tiện
Oracle InterMedia cho phép quản lý dữ liệu đa phương tiện thông qua một tập hợp các kiểu đối tượng ORDImage, ORDAudio và ORDVideo tương ứng với các dữ liệu ảnh(image), âm thanh (audio), và video. Các kiểu đối
tượng này tương tự như các lớp trong Java hoặc C++ gồm có các thuộc tính, siêu dữ liệu, nội dung dữ liệu đa phương tiện và cả các phương thức.
- Nội dung dữ liệu là những dữ liệu thực liên quan đến từng loại dữ liệu ảnh, âm thanh, video hoặc dạng hỗn hợp.
- Siêu dữ liệu là thông tin định dạng về nội dung dữ liệu bao gồm các thông tin như độ dài của đối tượng, có định dạng nén hay không hoặc các thông tin khác được cung cấp từ chương trình ứng dụng như tên của một ca sĩ cho một bài hát kỹ thuật số nào đó..
- Các phương thức là các thủ tục có thể thực thi trên đối tượng như lưu trữ, phân phối hoặc trích siêu dữ liệu, hoặc nén hoặc chuyển đổi định dạng dữ liệu (ví dụ như chuyển đổi định dạng ảnh).
Ngoài ra, Oracle InterMedia còn có kiểu đối tượng ORDDoc. Kiểu đối tượng này có thể chứa hỗn hợp các đối tượng ORDImage, ORDAudio hoặc ORDVideo. Vì vậy, với kiểu đối tượng ORDDoc vấn đề về quản lý sẽ phức tạp hơn với các đối tượng khác.
Trong quá trình sử dụng, các kiểu đối tượng này có thể được mở rộng để hỗ trợ cho các ứng dụng phức tạp khác như:
- Bổ sung thêm các định dạng phức tạp - Lược đồ nén và giải nén mới
- Chỉ mục chuyên biệt;
- Tự tạo các truy vấn tối ưu và các phương thức; - Các nguồn dữ liệu mới;
- Các giải thuật xử lý dữ liệu chuyên dụng.
Việc thêm một hoặc nhiều cột đa phương tiện (ORDImage, ORDAudio và ORDVideo ) vào trong các bảng đã có hoặc tạo ra bảng mới có các cột dữ liệu đa phương tiện có thể thực hiện đơn giản. Điều này thể hiện khả năng quản lý kết hợp dữ liệu đa phương tiện và quan hệ.
Với tính mở của Oracle InterMedia, SQL chuẩn có thể truy cập các kiểu dữ liệu ảnh, âm thanh, video, các phương thức và siêu dữ liệu dựa trên các kiểu đối tượng ORDImage, ORDAudio, ORDVideo. Ngoài ra, Oracle InterMedia còn hỗ trợ Internet cho các Web Server và các công cụ tác chủ (authoring tools) khác. Các ứng dụng cũng có thể truy cập Oracle InterMedia qua giao diện đối tượng quan hệ. Các ngôn ngữ lập trình như Java,C++ hoặc 3GLs có thể sử dụng Oracle InterMedia qua lớp thư viện, PL/SQL hoặc Oracle Call Interface(OCI) để xây dựng các ứng dụng.
1.2 Lƣu trữ dữ liệu đa phƣơng tiện
Oracle InterMedia có thể lưu dữ liệu đa phương tiện như một nguồn bên trong CSDL dưới dạng BLOB, hoặc BFILE ở bên ngoài hệ thống file cục bộ, hoặc URL trên một server HTTP hay từ một nguồn xác định trên server khác chẳng hạn như các server truyền thông
Mặc dù những cơ chế lưu trữ ngoài thuận tiện cho việc tích hợp dữ liệu đa phương tiện với một CSDL, nhưng dữ liệu đa phương tiện sẽ không được xử lý qua giao dịch nếu không được lưu trữ trong CSDL. Ví dụ như các BFILE không tham gia các giao dịch điều khiển CSDL, người dùng có thể thay đổi nguồn dữ liệu bên ngoài mà không cần cập nhật CSDL, như vậy tạo ra sự thiếu chặt chẽ với các chỉ mục BFILE.
Các dữ liệu ở dạng BLOB được lưu trữ trong không gian bảng CSDL sao cho chiếm ít không gian nhớ và truy cập dữ liệu hiệu quả. Các BLOB lớn không thể được lưu bên trong (các BLOB dưới 4KB có thể được lưu trữ bên trong) cùng với dữ liệu hàng khác. Phụ thuộc vào kích cỡ của BLOB, một thành phần định vị (locator) được lưu theo hàng còn BLOB hiện thời (tới 4 GB)được lưu trong không gian bảng. Thành phần định vị được xem là một con trỏ chỉ vào vị trí hiện thời của giá trị BLOB. Khi ta chọn một BLOB, tức là ta đang chọn vị trí con trỏ thay vì chọn giá trị. Ưu điểm của nó là nhiều
BLOB có thể tồn tại trong một hàng đơn. Thí dụ ta có thể lưu một đoạn video ngắn trên tệp dành cho đào tạo có âm thanh chứa phần mô tả ngắn gọn nội dung, đề cương của khoá học, hình ảnh của giáo viên hướng dẫn cùng với tập hợp các sơ đồ và định hướng cho mỗi trung tâm huấn luyện trong cùng một hàng.
Mô hình lưu trữ của Oracle InterMedia gồm một tập các thao tác chung trên dữ liệu đa phương tiện. Các hoạt động với BLOB như: Nhập dữ liệu vào, tìm và nạp dữ liệu, xoá dữ liệu. Các hoạt động bên ngoài như mở, đóng, lọc (clip), đọc ghi vào buffer, lưu trữ trong một BLOB tạm thời, xuất nhập giữa nguồn bên ngoài và BLOB. Các hoạt động khác như: trích siêu dữ liệu đa phương tiện, lưu trữ tập hợp siêu dữ liệu, thực hiện các thao tác trên dữ liệu và chấp nhận các câu lệnh từ nơi lưu trữ dữ liệu từ bên ngoài.
Tuy nhiên, các lợi ích của việc lưu trữ dữ liệu đa phương tiện là do các kiểu đối tượng Oracle InterMedia nang lại. Tất cả các kiểu đối tượng ORDAudio, ORDDoc, ORDImage và ORDVideo đều chứa một thuộc tính kiểu ORDSource và các phương pháp biến đổi dữ liệu đa phương tiện như:
- Đặt nguồn dữ liệu lưu trữ cục bộ hoặc ở ngoài - Thay đổi thời gian cập nhật đối tượng
- Đặt thông tin về kiểu nguồn bên ngoài, vị trí và tên dữ liệu - Truyền dữ liệu ra vào CSDL
- Nhận thông tin về nội dung dữ liệu cục bộ chẳng hạn độ dài, vị trí, điều khiển cho BLOB, đặt nội dung vào một BLOB tạm thời hay xoá nó đi.
- Truy cập dữ liệu từ nguồn mở: mở, đọc ghi, chỉnh sửa, sắp xếp và