Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
320 KB
Nội dung
MULTIMEDIA DATABASE I, BÀI TOÁN Xây dựng chương trình chia sẻ thông tin với bạn bè. Chúng ta biết rằng thông tin chia sẻ ở đây là bao gồm những thước phim, những hình ảnh, hay đơn giản là những câu chuyện bạn cảm thấy thú vị, Để làm được điều này ta cần một loại cơ sở dữ liệu đáp ứng được việc lưu dữ liệu với kích thước lớn và có đầy đủ tính năng của cơ sở liệu thông thường. Như cho phép tìm kiếm thông qua cá dặc trưng riêng. Và đó chính là cơ sở dữ liệu đa phương tiện (Multimedia Database). II CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN CHƯƠNG I : GIỚI THIỆU CHUNG VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1.1 Dữ liệu đa phương tiện: Dữ liệu multimedia được chia thành hai lớp là các dữ liệu liên tục và các dữ liệu không liên tục. Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian. Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thời gian, các loại dữ liệu đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tượng đồ họa. Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm: • Dữ liệu văn bản (có hoặc không có định dạng). • Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript. • Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn như là JPEG hoặc MPEG. • Các hoạt hình. • Âm thanh. • Video. 1.2 Các đặc tính chung của dữ liệu multimedia • Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc vì vậy các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm nội dung, truy vấn dữ liệu thường là không áp dụng được. • Tính tạm thời: Một vài kiểu dữ liệu multimedia như là Video, âm thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến việc lưu trữ, thao tác và mô tả chúng. • Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các thiết bị lưu trữ lớn. • Các ứng dụng hỗ trợ: các dữ liệu phi chuần có thể đòi hỏi các quy trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng dụng CSDL multimedia. 1.3 Phương pháp cơ bản truy vấn dữ liệu Dữ liệu quản lý có tính lịch sử và có rất nhiều phương pháp để được đưa ra để quản lý và truy vấn các loại dữ liệu khác nhau ttrong hệ thống máy tính. Phương pháp tiếp cận cơ bản đang được sử dụng cho quản lý dữ liệu có thể được phân loại như sau loại: • Hệ thống cơ sở dữ liệu thông thường: Đây là phương pháp được sử dụng rộng rãi trong quản lý và tìm kiếm dữ liệu có cấu trúc. Tất cả dữ liệu trong một hệ thống cơ sở dữ liệu phù hợp với một số cấu trúc được xác định trước và hạn chế .Để xây dựng một truy vấn cơ sở dữ liệu người sử dụng phải xác định đối tượng dữ liệu được lấy ra, các bảng cơ sở dữ liệu mà từ đó họ có thể được trích xuất và thành phần truy vấn phụ thuộc vào. Một ngôn ngữ truy vấn cơ sở dữ liệu nói chung là các loại nhân tạo, một trong những hạn chế với cú pháp và từ vựng, chẳng hạn như SQL. • Hệ thống truy vấn thông tin (IR- Information retrieval): IR hệ thống được sử dụng chủ yếu để tìm kiếm các bộ sưu tập văn bản lớn, trong đó nội dung của dữ liệu (văn bản) được mô tả bởi một chỉ mục bằng cách sử dụng từ khoá hoặc trừu tượng thành văn bản, và từ khóa hoặc ngôn ngữ tự nhiên được sử dụng để thể hiện nhu cầu truy vấn. Ví dụ cho một hình ảnh hoặc video, chúng tôi có để mô tả nó trong các từ hoặc một cách để lưu trữ rất nhiều siêu dữ liệu (dạng văn bản). • Truy hồi dựa trên nội dung (CBR): phương pháp tiếp cận hệ thống này được sử dụng để lấy mong muốn các đối tượng đa phương tiện từ một bộ sưu tập lớn trên cơ sở tính năng (như kết cấu, màu sắc và hình dạng, vv) có thể được tự động chiết xuất từ bản thân các đối tượng. Mặc dù từ khoá có thể được coi như một "Tính năng" cho dữ liệu văn bản, thu hồi thông tin truyền thống có nhiều hơn nữa cao hơn hiệu suất thu hồi hơn so với nội dung dựa trên bởi vì từ khóa có khả năng đã được chứng minh đại diện ngữ nghĩa, trong khi không có tính năng hiển thị thuyết phục ngữ nghĩa mô tả khả năng. Nhưng nhược điểm chính của phương pháp này là nó thiếu chính xác. • Đồ thị hoặc cây mô hình phù hợp: Cách tiếp cận này nhằm mục đích để lấy đối tượng phụ đồ thị từ một đối tượng đồ thị theo một số mô hình ký hiệu. 1.4 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu multimedia Các DBMS ngày nay được xây dựng khá tốt và được sử dụng rộng rãi đối với dữ liệu có cấu trúc. Các DBMS trội nhất là các hệ quản trị dữ liệu quan hệ (RDBMS). Trong RDBMS, thông tin dược tổ chức thành bảng hoặc các quan hệ. Các dòng của bảng tương ứng với các khoản mục thông tin hoặc các record, trong khi đó các cột tương ứng với các thuộc tính. Ngôn ngữ truy vấn có cấu trúc (SQL) được sử dụng để tạo ra các bảng như thế và để chèn và truy xuất thông tin từ các bảng đó Chúng ta dùng một ví dụ đơn giản dể minh hoạ cách sử dụng SQL để tạo lập một bảng và chèn, truy xuất thông tin từ đó. Giả sử chúng ta muốn lập một bảng chứa các bản ghi về sinh viên bao gồm số hiệu sinh viên, tên và địa chỉ. Ta có lệnh sau: Create table STUDENT( stu# integer, name char(20), address char(100)); Khi chúng ta muốn chèn các bản ghi về sinh viên vào bảng, chúng ta sử dụng lệnh chèn SQL như sau: Insert into STUDENT values(10,"Lew, Tom","2 Main St., Churchill, australia"); Lệnh trên sẽ chèn một dòng vào bảng STUDENT Thông tin trong bảng được truy xuất khi sử dụng câu lệnh SELECT của SQL. Ví dụ, nếu muốn truy xuất tên của sinh viên với sinh viên số 32, ta sử dụng lệnh truy vấn sau: Select Name From STUDENT Where Stu#=32 Các thuộc tính trong RDBMS đã cố định kiểu và độ rộng. Trong ví dụ trên, thuộc tính Stu# là kiểu integer với độ dài cố định là 32 bit. Như vậy, RDBMS là thích hợp để xử lý dữ liệu số và dòng ký tự ngắn. Để hỗ trợ cho các trường có giá trị lớn trong RDBMS, một khái niệm được gọi là đối tượng rộng hoặc nhị phân (BLOB) sẽ được giới thiệu. Một BLOB là một xâu bit lớn các độ dài biến. Ví dụ, nếu ta muốn lưu bức tranh của sinh viên trong bản ghi ở bảng STUDENT trên, chúng ta có thể tạo ra một bảng khi sử dụng lệnh sau: Create table STUDENT( Stu integer, Name char(20), address char(100), Picture BLOB); Các BLOB bình thường chỉ là xâu bit và hoạt động bằng việc so sánh chứ không mang chúng ra ngoài. Đó là vì RDBMS không biết nội dung hoặc ngữ nghĩa của một BLOB. Tất cả BLOB hiểu như một khối dữ liệu. Một dạng khác của các DBMS là hệ thống quản trị CSDL hướng đối tượng (OODBMS). Các OODBMS kết nối các khả năng của cơ sơ dữ liệu (như lưu trữ và tìm kiếm) và các đặc trưng hướng đối tượng (tóm lược, sự thừa kế, tính đồng nhất đối tượng). Một phương pháp tiếp cận chung là kết nối các đặc điểm hướng đối tượng với cơ sở dữ liệu quan hệ. Hệ thống đã được kết nối thì được gọi là một hệ thống cơ sở dữ liệu đối tượng quan hệ. Trong một hệ thống như vậy, các đối tượng được xác định một cách thích hợp trong hướng đối tượng. Trong đó mỗi đối tượng chứa các đặc tính hoặc thuộc tính và các phương pháp hoặc các hàm được sử dụng để chế tác ra các đặc tính khác. Ví dụ, chúng ta có thể định nghĩa một loại ảnh sau: Create type IMAGE( Private Size integer, Resolution integer, Content float[ ], publlic ); Sau đó khai báo các tranh bởi kiểu IMAGE có thể được sử dụng trong một bảng như sau: Create table STUDENT( Stu# integer, Name char(20), Address char(100) Picture IMAGE); Điểm khác biệt chính giữa BLOB và các đối tượng là đối tượng thì được định rõ một cách thích đáng, bao gồm các đặc tính và cho phép chúng có tác dụng, trong khi đó thì BLOB thì không. Các khái niệm về các BLOB và các đối tượng là một bước gần với xử lý dữ liệu multimedia . Nhưng các BLOB được sử dụng chỉ để lưu dữ liệu có khối lượng lớn. Trong khi các đối tượng chứa vài thuộc tính đơn giản, nhiều chức năng hơn nên được phát triển để xử lý việc truy xuất multimedia dựa vào nội dung. Một vài các khả năng được yêu cầu như sau: • Các công cụ, tự động hoá hoặc bán tự động trích rút các nội dung và các đặc trưng trong dữ liệu multimedia ; • Các cấu trúc chỉ số hoá đa chiều, để điều khiển các vector multimedia • Các độ đo tương đồng, nhằm truy xuất multimedia thay vì kết nối một cách chính xác • Lưu trữ các hệ thống phụ, thiết kế lại nhằm đáp ứng các yêu cầu của băng tần cao với cỡ lớn, thoả mãn những đòi hỏi theo kiểu thời gian thực • Giao diện sử dụng, được thiết kế cho phép các câu hỏi đa dạng trong nhiều kiểu truyền thông đa dạng và cung cấp các trình diễn multimedia CHƯƠNG 2 CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MULTIMEDIA DATABASE) Khi thiết kế một hệ thống CSDL multimedia mô tả các loại dữ liệu multimedia khác nhau, chúng ta bắt buộc phải đối diện với một số câu hỏi quan trọng được đặt ra về cách thức tổ chức hệ trống như: • Việc tổ chức về mặt nội dung đối với dữ liệu của các loại dữ liệu multimedia. • Việc lưu trữ vật lý của các dữ liệu này trên các thiết bị lưu trữ như thế nào. Để trả lời cho các câu hỏi này, trước tiên chúng ta xem xét tới khía cạnh tổ chức nội dung 2.1 Kiến trúc cho việc tổ chức nội dung Ở đây chúng ta xem xét tới 3 kiến trúc áp dụng cho việc tổ chức nội dung của một hệ thống CSDL multimedia 2.1.1 Nguyên lý tự trị Nguyên lý này đề cập tới việc chúng ta nhóm tất cả các dữ liệu ảnh, dữ liệu video và tất cả các dữ liệu văn bản và chỉ số hóa chúng theo nguyên tắc tối đa hóa hiệu suất của tất cả các loại truy nhập đối với các loại dữ liệu mà chúng ta dự định. Nguyên lý này đảm bảo rằng với mỗi loại dữ liệu (ảnh, video, văn bản) chúng đều được tổ chức với một cách thức đặc trưng phù hợp với mỗi loại dữ liệu này. Hình 2.1: Mô tả nguyên lý tự trị 2.1.2 Nguyên lý đồng nhất Một nguyên lý kiến trúc khác mà chúng ta có thể lựa chọn là nguyên lý đồng nhất, nguyên lý này giúp chúng ta tìm được một cấu trúc tóm tắt chung cho tất cả các loại dữ liệu. Cấu trúc này có thể được dùng trong việc chỉ số hóa tất cả các loại dữ liệu qua đó tạo ra một “chỉ số thống nhất” mà chúng ta có thể dùng để truy cập tới các đối tượng khác nhau. Hay nói một cách khác là chúng ta có thể trình bầy tất cả các đối tượng khác nhau( ảnh, video, âm thanh, văn bản) trong một cấu trúc dữ liệu duy nhất và qua đó phát triển các thuật toán để truy vấn cấu trúc dữ liệu này. Hình 2.2: Mô tả nguyên lý đồng nhất 2.1.3 Nguyên lý lai ghép Ý tưởng của nguyên lý này là dựa trên sự kết hợp của 2 nguyên lý đã trình bầy ở trên. Kết quả của nguyên lý này là một kiểu dữ liệu nào đó sử dụng chỉ số (index) riêng của chúng, trong khi đó các kiểu dữ liệu khác sẽ sử dụng một chỉ số (Index) “thống nhất”. Loại dữ liệu nào sử dụng kiểu chỉ số nào sẽ phụ thuộc vào các đặc tính khác nhau sẽ được nói đến ở phần sau. Hình 2.3: Mô tả nguyên lý lai ghép Cả ba loại nguyên lý trên đều có những ưu điểm và nhược điểm riêng của mình. Kiến trúc dựa trên nguyên lý tự trị đòi hỏi việc tạo ra các thuật toán và cấu trúc dữ liệu của mỗi kiểu dữ liệu, ngoài ra nó cũng đòi hỏi các kỹ thuật hỗ trợ cho việc liên kết chéo giữa các cấu trúc dữ liệu khác nhau này. Các công việc này đòi hỏi tính phức tạp cao và đòi hỏi một lượng thời gian lớn cho việc phát triển. Bên cạnh các nhược điểm trên, việc xây dựng các cấu trúc được đặc biệt hóa tối ưu cho việc truy xuất dến từng loại dữ liệu khác nhau, CSDL multimedia được tổ chức theo nguyên lý này thường đem lại hiệu quả cao trong việc xử lý tìm kiếm. Đối với các ngân hàng dữ liệu đã được xây dựng sẵn, nơi mà các thuật toán và các cấu trúc dữ liệu đã được sử dụng có hiệu quả thì việc áp dụng nguyên lý tự trị là mô hình kiến trúc thích hợp nhất. Các kỹ thuật hướng đối tượng chính là công cụ đắc lực nhất hỗ trợ cho việc triển khai theo nguyên lý này bằng cách xem mỗi loại dữ liệu nguồn là một đối tượng mà các phương [...]... nguồn dữ liệu (video1, video2, idb), câu hỏi sẽ như sau Table of Contents MULTIMEDIA DATABASE 1 I, BÀI TOÁN .1 II CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1 CHƯƠNG I : GIỚI THIỆU CHUNG VỀ CƠ SỞ DỮ LIỆU 1 ĐA PHƯƠNG TIỆN .1 1.1 Dữ liệu đa phương tiện: 1 1.2 Các đặc tính chung của dữ liệu multimedia .2 1.3 Phương pháp cơ bản truy vấn dữ. .. Phương pháp cơ bản truy vấn dữ liệu 2 1.4 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu multimedia 3 CHƯƠNG 2 CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MULTIMEDIA DATABASE) 7 2.1 Kiến trúc cho việc tổ chức nội dung .7 2.1.1 Nguyên lý tự trị 7 2.1.2 Nguyên lý đồng nhất 8 2.1.3 Nguyên lý lai ghép 9 2.2 Tổ chức dữ liệu multimedia dựa trên nguyên lý... Hopeman từ cả 2 nguồn dữ liệu video1 và video2 Câu hỏi này có thể được diễn đạt bằng ngôn ngữ HM-SQL như sau: Trong câu hỏi này, chúng ta tìm kiếm tất cả các Ms mà chúng trả về kết quả mong muốn từ cả 2 nguồn dữ liệu (SDMS và non-SDMS) • Cũng với câu hỏi trên nhưng ở đây chúng ta thêm vào một nguồn dữ liệu mới là dữ liệu hình ảnh (idb) được triền khai dưới hình thức non-SDMS và giả sử dữ liệu hình ảnh này... tóm tắt media có thể được triển khai thông qua một cấu trúc dữ liệu duy nhất 2.3 Ngôn ngữ truy vấn khai thác dư liệu multimedia Trong phần này, chúng ta sẽ trình bầy một ngôn ngữ truy vấn đơn giản được xây dựng dựa trên SQL dùng để khai thác dữ liệu Multimedia Chúng ta đã chỉ ra được rằng một media tóm tắt có thể được dùng để mô tả các loại dữ liệu media khác nhau sử dụng kiến trúc mô tả đồng nhất Việc... ta muốn tạo ra một CSDL multimedia bao gồm các kiểu dữ liệu M1,…….,Mn, chúng ta bắt đầu bằng việc phân chia tập này thành 2 phần: • Phần 1: bao gồm các loại dữ liệu kế thừa từ các nguồn dữ liệu có sẵn, tồn tại sẵn các chỉ số và các thuật toán để thao tác với chỉ số Với việc bố trí này chúng ta đã tận dụng được lợi thế của các chỉ số và mã nguồn sẵn có • Phần 2: bao gồm các dữ liệu không được kế thừa... với các lập trình viên có năng lực Chúng ta đã xem xét đến nội dung của dữ liệu media dưới các dạng khác nhau, một câu hỏi đặt ra ở đây là đâu là phần chung nhất của các loại dữ liệu này? Mục đích của chúng ta là tìm kiếm một cấu trúc chung nhất cho tất cả các loại dữ liệu mà qua nó ta có thể thể hiện được nội dung của các loại dữ liệu đó Tóm tắt media là một cấu trúc toán học cho phép diễn đạt nội dung... SMDS-SQL thành ngôn ngữ có thể truy vấn được các dữ liệu được mô tả dưới dạng lai tạo (HM-SQL) các yêu cầu sau bắt buộc phải có: • HM-SQL phải có khả năng thực hiện tất cả các câu hỏi sử dụng ngôn ngữ riêng đối với nguồn dữ liệu không đồng nhất này • HM-SQL phải có cơ chế “joins” hoặc các thao tác đại số nhị phân có trách nhiệm “joins” giữa 2 nguồn dữ liệu SMDS và non-SMDS Ngôn ngữ HM-SQL cũng tương...thức của nó có thể truy cập được từ một CSDL multimedia tổng thể Trái ngược với nguyên lý tự trị, nguyên lý đồng nhất đòi hỏi chúng ta phải tìm ra được một cấu trúc dữ liệu chung mà có thể dùng để lưu trữ các thông tin về nội dung của hình ảnh, video, văn bản, âm thanh và các loại dữ liệu khác Điều này đòi hỏi chúng ta phải phân tích nội dung của mỗi kiểu dữ liệu và tóm tắt được phần chung của chúng,... hợp giữa các loại dữ liệu khác nhau Để thực hiện được câu hỏi này, chúng ta phải sử dụng các biến mở rộng như là Person, biến này được dùng để tham chiếu đến đối tượng chưa xác định được danh tính trong đoạn băng video 2.3.2 Truy vấn dữ liệu multimedia mô tả dưới kiến trúc lai tạo Trong phần trước, chúng ta đã trình bày ngôn ngữ SMDS-SQL như là một mô hình để truy vấn các dối tượng Multimedia lưu trữ... dữ liệu khác nhau, chúng sẽtruy cập đến CSDL hình ảnh (thông qua tệp chỉ số của dữ liệu hình ảnh), đến CSDL âm thanh (thông qua tệp chỉ số âm thanh) và đến một CSDL quan hệ (thông qua tệp chỉ số quan hệ), câu hỏi này có thể được diễn tả như sau: SELECT Name, Image, Audio From Employee E, Image I, Audio A Where E.Name= “A” AND I contains E.boss and A contains E.boss AND A CONTAINS B 2.2 Tổ chức dữ liệu . cơ sở dữ liệu đa phương tiện (Multimedia Database) . II CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN CHƯƠNG I : GIỚI THIỆU CHUNG VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1.1 Dữ liệu đa phương tiện: Dữ liệu multimedia. lớp là các dữ liệu liên tục và các dữ liệu không liên tục. Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian. Các dữ liệu không liên tục là các dữ liệu không. của dữ liệu multimedia • Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc vì vậy các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm nội dung, truy vấn dữ liệu