tìm hiểu cơ sở dữ liệu đa phương tiện
TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM KHOA CÔNG NGHỆ THÔNG TIN LỚP TIN HỌC 4 TÌM HIỂU CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN BÁO CÁO NGHIÊN CỨU MÔN: CƠ SỞ DỮ LIỆU NÂNG CAO Giáo viên hướng dẫn: ThS. Nguyễn Đặng Kim Khánh Sinh viên thực hiện: Đinh Văn Quyên – K35.103.061 Nguyễn Ngọc Nhất Linh – K35.103.031 Lê Thị Kim Nga – K35.103.037 – Nhóm 04 – TP.HCM,12/2012 MỤC LỤC BẢNG GIẢI THÍCH THUẬT NGỮ VÀ KÝ HIỆU VIẾT TẮT 3 MỞ ĐẦU 5 2 BẢNG GIẢI THÍCH THUẬT NGỮ VÀ KÝ HIỆU VIẾT TẮT STT THUẬT NGỮ/VIẾT TẮT Ý NGHĨA 1 CSDL Cơ sở dữ liệu 2 Hyperlink Siêu liên kết 3 MDBMS Hệ quản trị CSDL đa phương tiện 4 DBMS Hệ quản trị CSDL 5 QoS Quality of Service, chất lượng của dịch vụ 6 CNTT Công nghệ thông tin 7 Media Phương tiện truyền thông 8 OracleDB Oracle Database, cơ sở dữ liệu Oracle 9 BLOB Binary Large Object, kiểu dữ liệu đối tượng nhị phân kích thước lớn 10 MIME Multipurpose Internet Mail Extensions, một chuẩn Internet về định dạng cho thư điện tử 11 Bit rate Dung lượng mà thiết bị lưu trữ cần để xử lý một giây âm thanh (hay video) 12 Sampling rate Số lần lấy mẫu trên một giây của âm thanh 13 VCR Video cassette recorder, đầu thu video 14 CLOB Character large object, kiểu dữ liệu đối tượng kí tự kích thước lớn 15 XML Extention Markup Language, ngôn ngữ đánh dấu mở rộng 16 BFILEs File-based large object, kiểu dữ liệu dùng để lưu trữ một định vị (liên kết) tới một tập tin nhị phân bên ngoài (lưu trữ bên ngoài cơ sở dữ liệu) 17 Scale Thay đổi kích thước ảnh mà vẫn giữ nguyên tỉ lệ 18 URL Universal resource locator, địa chỉ một trang web trên hệ thống World Wide Web 19 HTTP Hyper Text Transfer Protocol, giao thức truyền tải siêu văn bản 20 Tablespace Một đơn vị lưu trữ bên trong cơ sở dữ liệu Oracle, tham khảo thêm tại địa chỉ: http://www.adp- 3 gmbh.ch/ora/concepts/tablespaces.html 21 SQL Structured Query Language, ngôn ngữ truy vấn có cấu trúc 4 MỞ ĐẦU Trong thời đại ngày nay, công nghệ thông tin (CNTT) đã phát triển vượt bậc đến mức ăn sâu vào cuộc sống hàng ngày của con người. Sự phát triển của CNTT gắn với các xu hướng như máy tính cá nhân được sử dụng ngày càng phổ biến; công nghệ phần cứng phát triển không ngừng mang đến các thiết bị nghe nhìn có độ phân giải cao, có khả năng hiển thị nội dung đa phương tiện tuyệt vời; bên cạnh đó hạ tầng kỹ thuật mạng được cải thiện đáng kể cho phép nội dung đa phương tiện có thể truyền tải qua mạng nhanh nhất, phục vụ các nhu cầu của người dùng từ giải trí đến công việc. Tuy nhiên, cho đến khi nhu cầu của người dùng và khả năng đáp ứng về dữ liệu đa phương tiện là rất lớn thì phát sinh một vấn đề là làm sao quản lý và khai thác dữ liệu đa phương tiện một cách tốt nhất? Các dữ liệu đa phương tiện hoàn toàn có thể lưu trữ trên đĩa và truy cập một cách truyền thống, nhưng để đáp ứng yêu cầu nêu trên thì ta cần phải tổ chức chúng thành một cơ sở dữ liệu (CSDL) đa phương tiện và cần tới một hệ quản trị CSDL đa phương tiện dùng để quản lý và hỗ trợ khai thác chúng. Vậy CSDL đa phương tiện là gì? Tại sao lại cần dùng đến CSDL đa phương tiện? Các nền tảng lý thuyết của CSDL đa phương tiện và ứng dụng của nó là gì? Các nội dung trên chúng ta sẽ cùng tìm hiểu trong đề tài này. CHƯƠNG I. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1. Định nghĩa về cơ sở dữ liệu đa phương tiện: Cơ sở dữ liệu đa phương tiện là một tập hợp các dữ liệu đa phương tiện có liên quan với nhau. Các kiểu dữ liệu thông hường của một CSDL đa phương tiện bao gồm: − Văn bản: có mặt trong hầu hết các ứng dụng đa phương tiện nhằm giải thích thêm cho những dạng dữ liệu không phải là văn bản; đây là loại dữ liệu đa dạng (được sử dụng với nhiều loại ngôn ngữ khác nhau) và được lưu trữ nhỏ gọn nhất; − Audio: đây gần như là loại dữ liệu phổ biến nhất với nhiều định dạng khác nhau (mp3, wav, wma, cd, ra, qt…). File audio chưa được chuyển hóa thành dữ liệu số có kích thước lớn (1s chiếm 10Kb) và nó có thể nén dễ dàng (hệ số nén của file mp3 - 12:1); − Hình ảnh: bao gồm ảnh đen trắng, ảnh xám, ảnh màu. Hình ảnh có nhiều định dạng (bmp, gif, jpeg, pcx, png…). Một trang ảnh có độ phân giải cao chiếm vài Mb, và cũng như âm thanh, hình ảnh cũng có thể nén, ví dụ định dạng JPEG có hệ số nén thường lớn hơn 10; 5 − Video kĩ thuật số: là một chuỗi các hình ảnh liên tục nhau. Loại dữ liệu này thường đòi hỏi dung lượng lưu trữ lớn tuy hệ số nén của nó là khá cao. Vận tốc truyền và thu video kĩ thuật số phải nằm trong khoảng 20-30 hình một giây. Trong các loại video kĩ thuật số, phim hoạt hình là loại nhỏ gọn và dễ lưu trữ hơn các loại khác vì sử dụng các hình ảnh tổng hợp có sử dụng các mẫu chuẩn; − Ảnh vec-tơ là loại ảnh mà các hình vẽ được tạo nên bởi công thức chứ không phải các điểm ảnh. Ảnh vectơ có 2 dạng: 2 chiều và 3 chiều. Ưu điểm của ảnh vec-tơ là có thể thay đổi độ lớn của ảnh mà không làm thay đổi chất lượng ảnh; − Tích hợp văn bản và hình ảnh; − Tích hợp audio và video; − Siêu phương tiện là một dạng biểu diễn phi tuyến tính của dữ liệu đa phương tiện (chứa các hyperlink). Dữ liệu đa phương tiện được chia thành hai lớp là các dữ liệu liên tục và các dữ liệu không liên tục. Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian. Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thời gian, các loại dữ liệu đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tượng đồ họa. 2. Các đặc trưng của cơ sở dữ liệu đa phương tiện: Do CSDL đa phương tiện là sự tổng hợp của nhiều dữ liệu đa phương tiện khác nhau nên nó có những đặc trưng nổi bậc như sau: − Thiếu cấu trúc (Lack of structure): CSDL đa phương tiện thường không có cấu trúc, do đó các tác vụ chuẩn trên CSDL truyền thống như chỉ số hóa, tìm kiếm nội dung, truy xuất dữ liệu có thể không thực hiện được; − Tính thời gian (Temporality): Một vài kiểu dữ liệu multimedia như là Video, âm thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến việc lưu trữ, thao tác và mô tả chúng; − Dung lượng lưu trữ lớn (Massive Volume): các dữ liệu video và âm thanh thường đòi hỏi các thiết bị lưu trữ lớn; − Các ứng dụng hỗ trợ (Logistics): các dữ liệu phi chuần có thể đòi hỏi các quy trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng dụng CSDL đa phương tiện. 3. Sự cần thiết đối với cơ sở dữ liệu đa phương tiện: 6 Như đã trình bày ở phần trên, đối với nhu cầu ngày càng lớn về dữ liệu đa phương tiện thì sự hiện hữu của CSDL đa phương tiện là hết sức cần thiết. Điều này xuất phát từ một số nguyên nhân cơ bản như sau: − Các dữ liệu đa phương tiện có kích thước lớn và sẽ ảnh hưởng đến việc lưu trữ, truy xuất và truyền tải các nội dung đa phương tiện; − Cấu trúc của dữ liệu đa phương tiện khác xa so với các CSDL chuẩn; − Các kiểu dữ liệu có tính chất liên tục (như video và audio) không thể xử lý được trong CSDL chuẩn – vốn chỉ dành để xử lý các kiểu dữ liệu không liên tục như văn bản và số; Ngoài ra, khi nói đến CSDL đa phương tiện thì cũng không thể không nhắc đến hệ quản trị CSDL đa phương tiện. Nhờ có nó mà dữ liệu đa phương tiện được tổ chức và khai thác hợp lý, giải quyết được các vấn đề ở trên. 4. Tổ chức nội dung trong cơ sở dữ liệu đa phương tiện: Ở đây chúng ta xem xét tới 3 kiến trúc áp dụng cho việc tổ chức nội dung của một hệ thống CSDL đa phương tiện: − Nguyên lý tự trị; − Nguyên lý đồng nhất; − Nguyên tắc lai ghép. 4.1. Nguyên lý tự trị (atonomy): Nguyên lý này đề cập tới việc chúng ta nhóm tất cả các dữ liệu ảnh, dữ liệu video và tất cả các dữ liệu văn bản và chỉ số hóa chúng theo nguyên tắc tối đa hóa hiệu suất của tất cả các loại truy nhập đối với các loại dữ liệu mà chúng ta dự định. Nguyên lý này đảm bảo rằng với mỗi loại dữ liệu (ảnh, video, văn bản) chúng đều được tổ chức với một cách thức đặc trưng phù hợp với mỗi loại dữ liệu này. 7 Hình 1: Mô tả nguyên lý tự trị Kiến trúc dựa trên nguyên lý tự trị đòi hỏi việc tạo ra các thuật toán và cấu trúc dữ liệu của mỗi kiểu dữ liệu, ngoài ra nó cũng đòi hỏi các kỹ thuật hỗ trợ cho việc liên kết chéo giữa các cấu trúc dữ liệu khác nhau này. Các công việc này đòi hỏi tính phức tạp cao và đòi hỏi một lượng thời gian lớn cho việc phát triển. Bên cạnh các nhược điểm trên, việc xây dựng các cấu trúc chuyên biệt hóa đem đến sự tối ưu cho việc truy xuất đến từng loại dữ liệu khác nhau, và CSDL đa phương tiện được tổ chức theo nguyên lý này thường đạt được hiệu quả cao trong việc xử lý tìm kiếm. Đối với các ngân hàng dữ liệu đã được xây dựng sẵn, nơi mà các thuật toán và các cấu trúc dữ liệu đã được sử dụng có hiệu quả thì việc áp dụng nguyên lý tự trị là mô hình kiến trúc thích hợp nhất. Các kỹ thuật hướng đối tượng chính là công cụ đắc lực nhất hỗ trợ cho việc triển khai theo nguyên lý này bằng cách xem mỗi loại dữ liệu nguồn là một đối tượng mà các phương thức của nó có thể truy cập được từ một CSDL đa phương tiện tổng thể. 4.2. Nguyên lý đồng nhất (uniformity): Một nguyên lý kiến trúc khác mà chúng ta có thể lựa chọn là nguyên lý đồng nhất, nguyên lý này giúp chúng ta tìm được một cấu trúc tóm tắt chung cho tất cả các loại dữ liệu. Cấu trúc này có thể được dùng trong việc chỉ số hóa tất cả các loại dữ liệu qua đó tạo ra một “chỉ số thống nhất” mà chúng ta có thể dùng để truy cập tới các đối tượng khác nhau. Hay nói một cách khác là chúng ta có thể trình bày tất cả các đối tượng khác nhau 8 (ảnh, video, âm thanh, văn bản) trong một cấu trúc dữ liệu duy nhất và qua đó phát triển các thuật toán để truy vấn cấu trúc dữ liệu này. Hình 2: Mô tả nguyên lý đồng nhất Trái ngược với nguyên lý tự trị, nguyên lý đồng nhất đòi hỏi chúng ta phải tìm ra được một cấu trúc dữ liệu chung mà có thể dùng để lưu trữ các thông tin về nội dung của hình ảnh, video, văn bản, âm thanh và các loại dữ liệu khác. Điều này đòi hỏi chúng ta phải phân tích nội dung của mỗi kiểu dữ liệu và tóm tắt được phần chung của chúng, qua đó xây dựng một bộ chỉ số dựa trên các yếu tố chung đã được xác định này.ưu điểm nổi bật của nguyên lý đồng nhất là dễ dàng triển khai và các thuật toán thường được thực hiện rất nhanh. Nhược điểm chính của nguyên lý này là các sự chú giải phải được tạo ra theo một cách riêng nào đó, thường là được tạo ra một cách thủ công hoặc là tự động, việc tạo ra các chú giải một cách thủ công thường đỏi hòi nhiều về mặt thời gian cũng như chi phí, mặt khác trong quá trình tạo các chú giải này thường xảy ra sự mất mát thông tin nếu ngôn ngữ dùng để chú giải không trình bày hết được các khía cạnh của nội dung. Có thể đưa ra đây một số ví dụ như ngôn ngữ chú giải nội dung của hình ảnh có thể làm mất các thông tin về bề mặt của một điểm ảnh (pixel) hoặc một nhóm điểm ảnh. Tương tự như vậy ngôn ngữ chú giải nội dung của âm thanh có thể làm mất các thông tin về biên độ, tần số của tín hiệu tại một thời điểm nào đó. 9 4.3. Nguyên lý lai (hybrid): Ý tưởng của nguyên lý này là dựa trên sự kết hợp của 2 nguyên lý đã trình bày ở trên. Kết quả của nguyên lý này là một kiểu dữ liệu nào đó sử dụng chỉ số (index) riêng của chúng, trong khi đó các kiểu dữ liệu khác sẽ sử dụng một chỉ số (Index) “thống nhất”. Loại dữ liệu nào sử dụng kiểu chỉ số nào sẽ phụ thuộc vào các đặc tính khác nhau. Hình 3: Mô tả nguyên lý lai ghép Nguyên lý lai tạo tập hợp được các ưu điểm của cả hai nguyên lý nêu trên, đồng thời giảm thiểu được một số các nhược điểm của chúng. Giả sử chúng ta muốn tạo ra một CSDL đa phương tiện bao gồm các kiểu dữ liệu M1, …….,Mn, chúng ta bắt đầu bằng việc phân chia tập này thành 2 phần: − Phần 1: bao gồm các loại dữ liệu kế thừa từ các nguồn dữ liệu có sẵn, tồn tại sẵn các chỉ số và các thuật toán để thao tác với chỉ số. Với việc bố trí này chúng ta đã tận dụng được lợi thế của các chỉ số và mã nguồn sẵn có. − Phần 2: bao gồm các dữ liệu không được kế thừa từ bất kỳ nguồn nào và do đó không có sẵn các chỉ số của mình (điều này đồng nghĩa với việc là cũng không có bất kỳ thuật toán nào để có thể thao tác với tập chỉ số). Trong trường hợp này việc tiếp cận xây dựng hệ thống theo nguyên lý đồng nhất là cách thức thích hợp nhất ngay cả khi là cách tiếp cận này có thể nảy sinh ra việc gây mất mát các thông tin vật lý chi tiết. 10 [...]... lưu trữ lớn; − Có khả năng khai thác dữ liệu thuận tiện; − Có khả năng tích hợp, tổng hợp và thể hiện; − Hỗ trợ truy vấn đa phương tiện; − Có giao diện đa phương tiện và tương tác 8 Các vấn đề của hệ quản trị cơ sở dữ liệu đa phương tiện: 1 Mô hình hóa dữ liệu đa phương tiện: Mô hình dữ liệu là đơn vị trung tâm của một hệ thống CSDL đa phương tiện Một mô hình dữ liệu cần phải tách rời người dùng ra... muốn tìm tất cả các đối tượng có mặt cùng với Denis Dopeman trong tất cả các nguồn dữ liệu (video1, video2, idb), câu hỏi sẽ như sau: 16 CHƯƠNG III HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1 Định nghĩa về hệ quản trị cơ sở dữ liệu đa phương tiện: Hệ quản trị CSDL đa phương tiện (Multimedia Database Management System – MDBMS) là một hệ quản trị CSDL (DBMS) hỗ trợ tạo lập, cập nhật và khai thác CSDL đa phương. .. học là 'Oracle Database Concepts' Dữ liệu đa phương tiện có thể được truy vấn theo các siêu dữ liệu được trích xuất, theo các cột trong bảng khác và theo nội dung, chẳng hạn như truy xuất dựa trên nội dung hình ảnh với các chỉ mục chuyên biệt tùy chọn 16 Nạp dữ liệu đa phương tiện Dữ liệu đa phương tiện có thể được quản lý tốt nhất bằng CSDL Oracle Dữ liệu đa phương tiện của bạn cần phải được nạp vào... của các loại dữ liệu đa phương tiện Tỷ lệ sẵn sàng của dữ liệu chỉ ra số lượng dữ liệu tối thiểu cần thiết đối với mỗi đơn vị thời gian cần đáp ứng đối với các đòi hỏi về yêu cầu chất lượng trong quá trình thể hiện các đối tượng đa phương tiện Đứng từ quan điểm này, các yêu cầu về lưu trữ của dữ liệu multimedia được giải quyết bằng cách phân chia dữ liệu thành các đối tượng đa phương tiện nhỏ hơn để... với dữ liệu đa phương tiện, hoặc để xây dựng các ứng dụng CSDL đa phương tiện mới dành cho người dùng cuối OM sử dụng các loại đối tượng, tương tự như các lớp Java hay C++, để mô tả dữ liệu đa phương tiện Những loại đối tượng này được gọi là ORDAudio, ORDDoc, ORDImage, và ORDVideo Một thể hiện của các loại đối tượng này bao gồm các thuộc tính, siêu dữ liệu, dữ liệu media, và các phương thức Dữ liệu. .. triển các mô hình dữ liệu tương ứng để tổ chức các kiểu dữ liệu khác nhau từng gặp trong các hệ thống CSDL đa phương tiện Các mô hình dữ liệu đa phương tiện (cũng giống như các mô hình dữ liệu truyền thống khác) nắm bắt các đặc tính cố định cũng như động của nội dung CSDL và vì vậy nó cung cấp các khuôn mẫu cơ bản cho việc phát triển các công cụ cần thiết để sử dụng dữ liệu đa phương tiện Các thuộc tính... ưu thế về độ tin cậy, 30 khả năng mở rộng, tính sẵn có, và khả năng quản lý dữ liệu Để đưa dữ liệu đa phương tiện vào CSDL với số lượng lớn, bạn có thể sử dụng: − SQL*Loader SQL*Loader là một tiện ích của Oracle cho phép bạn nạp dữ liệu, và trong trường hợp này, dữ liệu đa phương tiện (dữ liệu LOB), từ các tập tin đa phương tiện bên ngoài vào một bảng của một CSDL có chứa các cột thuộc kiểu đối tượng... tất cả các loại đa phương tiện trên 8.2 Các thành phần trong dữ liệu media hỗn hợp: Các thành phần dữ liệu media hỗn hợp bao gồm các dữ liệu (các bit được số hóa) và các thuộc tính mô tả các dữ liệu media hỗn hợp 26 Dữ liệu media hỗn hợp có thể có các định dạng khác nhau, tùy thuộc vào ứng dụng tạo ra các dữ liệu media OM có thể lưu trữ và truy xuất dữ liệu media của bất kì định dạng dữ liệu nào được... thiết lập CSDL đa phương tiện Có hai cách tiếp cận cơ bản trong việc mô hình hoá dữ liệu đa phương tiện là: − Phương pháp thứ nhất: xây dựng một mô hình dữ liệu đa phương tiện trên nền tảng của mô hình dữ liệu của một CSDL truyền thống (thường là CSDL quan hệ hoặc CSDL hướng đối tượng) bằng cách sử dụng các giao diện tương ứng đối với dữ liệu đa phương tiện Các vấn đề nảy sinh với cách tiếp cận này là... thiết kế dành cho dữ liệu đa phương tiện, hơn nữa sự khác biệt cơ bản các yêu cầu của một CSDL truyền thống đối với CSDL đa phương tiện khiến cho giao diện trở thành nơi nghẽn cổ chai trong toàn bộ hệ thống Các vấn đề này dẫn tới cách tiếp cận thứ hai; − Phương pháp thứ hai: phát triển các mô hình dữ liệu thực thụ dành cho dữ liệu đa phương tiện từ đầu chứ không xây dựng trên cơ sở của các CSDL truyền . PHƯƠNG TIỆN 1. Định nghĩa về cơ sở dữ liệu đa phương tiện: Cơ sở dữ liệu đa phương tiện là một tập hợp các dữ liệu đa phương tiện có liên quan với nhau. Các kiểu dữ liệu thông hường của một CSDL đa. nén dữ liệu đối với các ứng dụng CSDL đa phương tiện. 3. Sự cần thiết đối với cơ sở dữ liệu đa phương tiện: 6 Như đã trình bày ở phần trên, đối với nhu cầu ngày càng lớn về dữ liệu đa phương tiện. video; − Siêu phương tiện là một dạng biểu diễn phi tuyến tính của dữ liệu đa phương tiện (chứa các hyperlink). Dữ liệu đa phương tiện được chia thành hai lớp là các dữ liệu liên tục và các dữ liệu không