Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 33 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
33
Dung lượng
763,4 KB
Nội dung
TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM
KHOA CÔNG NGHỆ THÔNG TIN
LỚP TIN HỌC 4
TÌM HIỂU CƠ SỞ DỮ LIỆU
ĐA PHƯƠNGTIỆN
BÁO CÁO NGHIÊN CỨU
MÔN: CƠ SỞ DỮ LIỆU NÂNG CAO
Giáo viên hướng dẫn: ThS. Nguyễn Đặng Kim Khánh
Sinh viên thực hiện:
Đinh Văn Quyên – K35.103.061
Nguyễn Ngọc Nhất Linh – K35.103.031
Lê Thị Kim Nga – K35.103.037
– Nhóm 04 –
TP.HCM,12/2012
1
MỤC LỤC
BẢNG GIẢI THÍCH THUẬT NGỮ VÀ KÝ HIỆU VIẾT TẮT 3
MỞ ĐẦU 5
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐAPHƯƠNGTIỆN 5 CHƯƠNG I.
1. Định nghĩa về cơ sở dữ liệu đaphương tiện: 5
2. Các đặc trưng của cơ sở dữ liệu đaphương tiện: 6
3. Sự cần thiết đối với cơ sở dữ liệu đaphương tiện: 6
4. Tổ chức nội dung trong cơ sở dữ liệu đaphương tiện: 7
4.1. Nguyên lý tự trị (atonomy): 7
4.2. Nguyên lý đồng nhất (uniformity): 8
4.3. Nguyên lý lai (hybrid): 10
NGÔN NGỮ TRUY VẤN DỮ LIỆU ĐAPHƯƠNGTIỆN 11 CHƯƠNG II.
1. Truy vấn SMDSs (mô tả đồng nhất): 11
2. Truy vấn dữ liệu đaphươngtiện mô tả dưới kiến trúc lai tạo: 14
HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐAPHƯƠNGTIỆN 17 CHƯƠNG III.
1. Định nghĩa về hệ quản trị cơ sở dữ liệu đaphương tiện: 17
2. Kiến trúc hệ quản trị cơ sở dữ liệu đaphương tiện: 17
3. Các yêu cầu của hệ quản trị cơ sở dữ liệu đaphương tiện: 19
4. Các vấn đề của hệ quản trị cơ sở dữ liệu đaphương tiện: 19
4.1. Mô hình hóa dữ liệu đaphương tiện: 19
4.2. Lưu trữ đối tượng đaphương tiện: 20
4.3. Chỉ số hóa đaphương tiện: 21
4.4. Hỗ trợ truy vấn đaphương tiện, khai thác và duyệt: 22
ỨNG DỤNG CỦA CƠ SỞ DỮ LIỆU ĐAPHƯƠNGTIỆN – CHƯƠNG IV.
ORACLE MULTIMEDIA 23
1. Giới thiệu chung: 23
2. Công nghệ quan hệ - đối tượng: 24
3. Các khả năng của Oracle Multimedia: 24
2
4. Khái niệm âm thanh: 26
4.1. Âm thanh số hóa: 26
4.2. Các thành phần trong âm thanh: 26
5. Khái niệm ORDDoc – dữ liệu media hỗn hợp: 26
5.1. Dữ liệu media hỗn hợp được số hóa: 26
5.2. Các thành phần trong dữ liệu media hỗn hợp: 27
6. Khái niệm hình ảnh: 27
6.1. Hình ảnh số hóa: 27
6.2. Các thành phần trong hình ảnh: 27
6.3. Metadata in Images 28
7. Khái niệm video: 28
7.1. Video số hóa: 28
7.2. Các thành phần của video: 28
8. Lưu trữ và truy vấn đaphương tiện: 29
8.1. Lưu trữ dữ liệu đaphươngtiện 29
8.2. Truy vấn dữ liệu đaphương tiện: 30
9. Nạp dữ liệu đaphươngtiện 31
TÀI LIỆU THAM KHẢO 32
3
BẢNG GIẢI THÍCH THUẬT NGỮ VÀ KÝ HIỆU VIẾT TẮT
STT
THUẬT NGỮ/VIẾT TẮT
Ý NGHĨA
1
CSDL
Cơ sở dữ liệu
2
Hyperlink
Siêu liên kết
3
MDBMS
Hệ quản trị CSDLđaphươngtiện
4
DBMS
Hệ quản trị CSDL
5
QoS
Quality of Service, chất lượng của dịch vụ
6
CNTT
Công nghệ thông tin
7
Media
Phương tiện truyền thông
8
OracleDB
Oracle Database, cơ sở dữ liệu Oracle
9
BLOB
Binary Large Object, kiểu dữ liệu đối tượng nhị
phân kích thước lớn
10
MIME
Multipurpose Internet Mail Extensions, một
chuẩn Internet về định dạng cho thư điện tử
11
Bit rate
Dung lượng mà thiết bị lưu trữ cần để xử lý một
giây âm thanh (hay video)
12
Sampling rate
Số lần lấy mẫu trên một giây của âm thanh
13
VCR
Video cassette recorder, đầu thu video
14
CLOB
Character large object, kiểu dữ liệu đối tượng kí
tự kích thước lớn
15
XML
Extention Markup Language, ngôn ngữ đánh dấu
mở rộng
16
BFILEs
File-based large object, kiểu dữ liệu dùng để lưu
trữ một định vị (liên kết) tới một tập tin nhị phân
bên ngoài (lưu trữ bên ngoài cơ sở dữ liệu)
17
Scale
Thay đổi kích thước ảnh mà vẫn giữ nguyên tỉ lệ
4
18
URL
Universal resource locator, địa chỉ một trang web
trên hệ thống World Wide Web
19
HTTP
Hyper Text Transfer Protocol, giao thức truyền
tải siêu văn bản
20
Tablespace
Một đơn vị lưu trữ bên trong cơ sở dữ liệu
Oracle, tham khảo thêm tại địa chỉ:
http://www.adp-
gmbh.ch/ora/concepts/tablespaces.html
21
SQL
Structured Query Language, ngôn ngữ truy vấn
có cấu trúc
5
MỞ ĐẦU
Trong thời đại ngày nay, công nghệ thông tin (CNTT) đã phát triển vượt bậc đến mức
ăn sâu vào cuộc sống hàng ngày của con người. Sự phát triển của CNTT gắn với các xu
hướng như máy tính cá nhân được sử dụng ngày càng phổ biến; công nghệ phần cứng
phát triển không ngừng mang đến các thiết bị nghe nhìn có độ phân giải cao, có khả năng
hiển thị nội dung đaphươngtiện tuyệt vời; bên cạnh đó hạ tầng kỹ thuật mạng được cải
thiện đáng kể cho phép nội dung đaphươngtiện có thể truyền tải qua mạng nhanh nhất,
phục vụ các nhu cầu của người dùng từ giải trí đến công việc. Tuy nhiên, cho đến khi nhu
cầu của người dùng và khả năng đáp ứng về dữ liệu đaphươngtiện là rất lớn thì phát sinh
một vấn đề là làm sao quản lý và khai thác dữ liệu đaphươngtiện một cách tốt nhất? Các
dữ liệu đaphươngtiện hoàn toàn có thể lưu trữ trên đĩa và truy cập một cách truyền
thống, nhưng để đáp ứng yêu cầu nêu trên thì ta cần phải tổ chức chúng thành một cơ sở
dữ liệu (CSDL) đaphươngtiện và cần tới một hệ quản trị CSDLđaphươngtiện dùng để
quản lý và hỗ trợ khai thác chúng. Vậy CSDLđaphươngtiện là gì? Tại sao lại cần dùng
đến CSDLđaphương tiện? Các nền tảng lý thuyết của CSDLđaphươngtiện và ứng
dụng của nó là gì? Các nội dung trên chúng ta sẽ cùng tìmhiểu trong đề tài này.
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU CHƯƠNG I.
ĐA PHƯƠNGTIỆN
1. Định nghĩa về cơ sở dữ liệu đaphương tiện:
Cơ sở dữ liệu đaphươngtiện là một tập hợp các dữ liệu đaphươngtiện có liên quan
với nhau. Các kiểu dữ liệu thông hường của một CSDLđaphươngtiện bao gồm:
Văn bản: có mặt trong hầu hết các ứng dụng đaphươngtiện nhằm giải thích thêm
cho những dạng dữ liệu không phải là văn bản; đây là loại dữ liệu đa dạng (được sử
dụng với nhiều loại ngôn ngữ khác nhau) và được lưu trữ nhỏ gọn nhất;
Audio: đây gần như là loại dữ liệu phổ biến nhất với nhiều định dạng khác nhau
(mp3, wav, wma, cd, ra, qt…). File audio chưa được chuyển hóa thành dữ liệu số có
kích thước lớn (1s chiếm 10Kb) và nó có thể nén dễ dàng (hệ số nén của file mp3 -
12:1);
Hình ảnh: bao gồm ảnh đen trắng, ảnh xám, ảnh màu. Hình ảnh có nhiều định
dạng (bmp, gif, jpeg, pcx, png…). Một trang ảnh có độ phân giải cao chiếm vài Mb,
và cũng như âm thanh, hình ảnh cũng có thể nén, ví dụ định dạng JPEG có hệ số nén
thường lớn hơn 10;
6
Video kĩ thuật số: là một chuỗi các hình ảnh liên tục nhau. Loại dữ liệu này
thường đòi hỏi dung lượng lưu trữ lớn tuy hệ số nén của nó là khá cao. Vận tốc truyền
và thu video kĩ thuật số phải nằm trong khoảng 20-30 hình một giây. Trong các loại
video kĩ thuật số, phim hoạt hình là loại nhỏ gọn và dễ lưu trữ hơn các loại khác vì sử
dụng các hình ảnh tổng hợp có sử dụng các mẫu chuẩn;
Ảnh vec-tơ là loại ảnh mà các hình vẽ được tạo nên bởi công thức chứ không phải
các điểm ảnh. Ảnh vectơ có 2 dạng: 2 chiều và 3 chiều. Ưu điểm của ảnh vec-tơ là có
thể thay đổi độ lớn của ảnh mà không làm thay đổi chất lượng ảnh;
Tích hợp văn bản và hình ảnh;
Tích hợp audio và video;
Siêu phươngtiện là một dạng biểu diễn phi tuyến tính của dữ liệu đaphươngtiện
(chứa các hyperlink).
Dữ liệu đaphươngtiện được chia thành hai lớp là các dữ liệu liên tục và các dữ liệu
không liên tục. Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo
thời gian. Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thời gian, các
loại dữ liệu đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc không có định dạng),
hình ảnh tĩnh và các đối tượng đồ họa.
2. Các đặc trưng của cơ sở dữ liệu đaphương tiện:
Do CSDLđaphươngtiện là sự tổng hợp của nhiều dữ liệu đaphươngtiện khác nhau
nên nó có những đặc trưng nổi bậc như sau:
Thiếu cấu trúc (Lack of structure): CSDLđaphươngtiện thường không có cấu
trúc, do đó các tác vụ chuẩn trên CSDL truyền thống như chỉ số hóa, tìm kiếm nội
dung, truy xuất dữ liệu có thể không thực hiện được;
Tính thời gian (Temporality): Một vài kiểu dữ liệu multimedia như là Video, âm
thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến việc lưu
trữ, thao tác và mô tả chúng;
Dung lượng lưu trữ lớn (Massive Volume): các dữ liệu video và âm thanh
thường đòi hỏi các thiết bị lưu trữ lớn;
Các ứng dụng hỗ trợ (Logistics): các dữ liệu phi chuần có thể đòi hỏi các quy
trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng
dụng CSDLđaphương tiện.
3. Sự cần thiết đối với cơ sở dữ liệu đaphương tiện:
7
Như đã trình bày ở phần trên, đối với nhu cầu ngày càng lớn về dữ liệu đaphương
tiện thì sự hiện hữu của CSDLđaphươngtiện là hết sức cần thiết. Điều này xuất phát từ
một số nguyên nhân cơ bản như sau:
Các dữ liệu đaphươngtiện có kích thước lớn và sẽ ảnh hưởng đến việc lưu trữ,
truy xuất và truyền tải các nội dung đaphương tiện;
Cấu trúc của dữ liệu đaphươngtiện khác xa so với các CSDL chuẩn;
Các kiểu dữ liệu có tính chất liên tục (như video và audio) không thể xử lý được
trong CSDL chuẩn – vốn chỉ dành để xử lý các kiểu dữ liệu không liên tục như văn
bản và số;
Ngoài ra, khi nói đến CSDLđaphươngtiện thì cũng không thể không nhắc đến hệ
quản trị CSDLđaphương tiện. Nhờ có nó mà dữ liệu đaphươngtiện được tổ chức và
khai thác hợp lý, giải quyết được các vấn đề ở trên.
4. Tổ chức nội dung trong cơ sở dữ liệu đaphương tiện:
Ở đây chúng ta xem xét tới 3 kiến trúc áp dụng cho việc tổ chức nội dung của một hệ
thống CSDLđaphương tiện:
Nguyên lý tự trị;
Nguyên lý đồng nhất;
Nguyên tắc lai ghép.
4.1. Nguyên lý tự trị (atonomy):
Nguyên lý này đề cập tới việc chúng ta nhóm tất cả các dữ liệu ảnh, dữ liệu video và
tất cả các dữ liệu văn bản và chỉ số hóa chúng theo nguyên tắc tối đa hóa hiệu suất của tất
cả các loại truy nhập đối với các loại dữ liệu mà chúng ta dự định. Nguyên lý này đảm
bảo rằng với mỗi loại dữ liệu (ảnh, video, văn bản) chúng đều được tổ chức với một cách
thức đặc trưng phù hợp với mỗi loại dữ liệu này.
8
Hình 1: Mô tả nguyên lý tự trị
Kiến trúc dựa trên nguyên lý tự trị đòi hỏi việc tạo ra các thuật toán và cấu trúc dữ
liệu của mỗi kiểu dữ liệu, ngoài ra nó cũng đòi hỏi các kỹ thuật hỗ trợ cho việc liên kết
chéo giữa các cấu trúc dữ liệu khác nhau này. Các công việc này đòi hỏi tính phức tạp
cao và đòi hỏi một lượng thời gian lớn cho việc phát triển. Bên cạnh các nhược điểm trên,
việc xây dựng các cấu trúc chuyên biệt hóa đem đến sự tối ưu cho việc truy xuất đến từng
loại dữ liệu khác nhau, và CSDLđaphươngtiện được tổ chức theo nguyên lý này thường
đạt được hiệu quả cao trong việc xử lý tìm kiếm. Đối với các ngân hàng dữ liệu đã được
xây dựng sẵn, nơi mà các thuật toán và các cấu trúc dữ liệu đã được sử dụng có hiệu quả
thì việc áp dụng nguyên lý tự trị là mô hình kiến trúc thích hợp nhất. Các kỹ thuật hướng
đối tượng chính là công cụ đắc lực nhất hỗ trợ cho việc triển khai theo nguyên lý này
bằng cách xem mỗi loại dữ liệu nguồn là một đối tượng mà các phương thức của nó có
thể truy cập được từ một CSDLđaphươngtiện tổng thể.
4.2. Nguyên lý đồng nhất (uniformity):
Một nguyên lý kiến trúc khác mà chúng ta có thể lựa chọn là nguyên lý đồng nhất,
nguyên lý này giúp chúng ta tìm được một cấu trúc tóm tắt chung cho tất cả các loại dữ
liệu. Cấu trúc này có thể được dùng trong việc chỉ số hóa tất cả các loại dữ liệu qua đó
tạo ra một “chỉ số thống nhất” mà chúng ta có thể dùng để truy cập tới các đối tượng khác
nhau. Hay nói một cách khác là chúng ta có thể trình bày tất cả các đối tượng khác nhau
9
(ảnh, video, âm thanh, văn bản) trong một cấu trúc dữ liệu duy nhất và qua đó phát triển
các thuật toán để truy vấn cấu trúc dữ liệu này.
Hình 2: Mô tả nguyên lý đồng nhất
Trái ngược với nguyên lý tự trị, nguyên lý đồng nhất đòi hỏi chúng ta phải tìm ra
được một cấu trúc dữ liệu chung mà có thể dùng để lưu trữ các thông tin về nội dung của
hình ảnh, video, văn bản, âm thanh và các loại dữ liệu khác. Điều này đòi hỏi chúng ta
phải phân tích nội dung của mỗi kiểu dữ liệu và tóm tắt được phần chung của chúng, qua
đó xây dựng một bộ chỉ số dựa trên các yếu tố chung đã được xác định này.ưu điểm nổi
bật của nguyên lý đồng nhất là dễ dàng triển khai và các thuật toán thường được thực
hiện rất nhanh. Nhược điểm chính của nguyên lý này là các sự chú giải phải được tạo ra
theo một cách riêng nào đó, thường là được tạo ra một cách thủ công hoặc là tự động,
việc tạo ra các chú giải một cách thủ công thường đỏi hòi nhiều về mặt thời gian cũng
như chi phí, mặt khác trong quá trình tạo các chú giải này thường xảy ra sự mất mát
thông tin nếu ngôn ngữ dùng để chú giải không trình bày hết được các khía cạnh của nội
dung. Có thể đưa ra đây một số ví dụ như ngôn ngữ chú giải nội dung của hình ảnh có thể
làm mất các thông tin về bề mặt của một điểm ảnh (pixel) hoặc một nhóm điểm ảnh.
Tương tự như vậy ngôn ngữ chú giải nội dung của âm thanh có thể làm mất các thông tin
về biên độ, tần số của tín hiệu tại một thời điểm nào đó.
[...]... tích hợp đơn phươngtiện để tạo ra các tài liệu đaphươngtiện và liên kết chéo tới các thông tin được lưu trữ trong các CSDL đơn phươngtiện Hiện tại, sự đòi hỏi về việc quản lý các tài liệu và thư viện đa phươngtiện đang ngày càng gia tăng và nhu cầu về các mô hình tích hợp hiệu quả đang là một trong những vấn đề nghiên cứu chính trong việc phát triển một MDBMS Việc tích hợp các phươngtiện có thể... quan hệ, ngữ nghĩa, và hướng đối tượng đang tồn tại và một vài mô hình trong số đó đã được xem xét để thiết lập CSDLđaphươngtiện Có hai cách tiếp cận cơ bản trong việc mô hình hoá dữ liệu đaphươngtiện là: Phương pháp thứ nhất: xây dựng một mô hình dữ liệu đaphươngtiện trên nền tảng của mô hình dữ liệu của một CSDL truyền thống (thường là CSDL quan hệ hoặc CSDL hướng đối tượng) bằng cách sử dụng... khác vào các bảng có sẵn, và chèn vào và lấy ra các dữ liệu đaphươngtiện Điều này cho phép các nhà thiết kế CSDL mở rộng các CSDL hiện có với dữ liệu đaphương tiện, hoặc để xây dựng các ứng dụng CSDL đaphươngtiện mới dành cho người dùng cuối OM sử dụng các loại đối tượng, tương tự như các lớp Java hay C++, để mô tả dữ liệu đaphươngtiện Những loại đối tượng này được gọi là ORDAudio, ORDDoc, ORDImage,... muốn tìm tất cả các đối tượng có mặt cùng với Denis Dopeman trong tất cả các nguồn dữ liệu (video1, video2, idb), câu hỏi sẽ như sau: 16 CHƯƠNG III HỆ QUẢN TRỊ ĐAPHƯƠNGTIỆN CƠ SỞ DỮ LIỆU 1 Định nghĩa về hệ quản trị cơ sở dữ liệu đaphương tiện: Hệ quản trị CSDL đaphươngtiện (Multimedia Database Management System – MDBMS) là một hệ quản trị CSDL (DBMS) hỗ trợ tạo lập, cập nhật và khai thác CSDL đa. .. đaphương tiện: 4.1 Mô hình hóa dữ liệu đaphương tiện: Mô hình dữ liệu là đơn vị trung tâm của một hệ thống CSDL đaphươngtiện Một mô hình dữ liệu cần phải tách rời người dùng ra khỏi chi tiết của việc quản lý các thiết bị lưu 19 trữ và cấu trúc lưu trữ Điều này đòi hỏi phải phát triển các mô hình dữ liệu tương ứng để tổ chức các kiểu dữ liệu khác nhau từng gặp trong các hệ thống CSDLđaphương tiện. .. đối với dữ liệu đaphươngtiện Các vấn đề nảy sinh với cách tiếp cận này là các cấu trúc bên dưới (của CSDL truyền thống) không được thiết kế dành cho dữ liệu đaphương tiện, hơn nữa sự khác biệt cơ bản các yêu cầu của một CSDL truyền thống đối với CSDL đaphươngtiện khiến cho giao diện trở thành nơi nghẽn cổ chai trong toàn bộ hệ thống Các vấn đề này dẫn tới cách tiếp cận thứ hai; Phương pháp thứ... phươngtiện có thể được quản lý tốt nhất bằng CSDL Oracle Dữ liệu đaphươngtiện của bạn cần phải được nạp vào CSDL để tận dụng các ưu thế về độ tin cậy, khả năng mở rộng, tính sẵn có, và khả năng quản lý dữ liệu Để đưa dữ liệu đaphươngtiện vào CSDL với số lượng lớn, bạn có thể sử dụng: SQL*Loader SQL*Loader là một tiện ích của Oracle cho phép bạn nạp dữ liệu, và trong trường hợp này, dữ liệu đa phương. .. biệt khác 4.2 Lưu trữ đối tượng đaphương tiện: 20 Lưu trữ vật lý các dữ liệu đaphươngtiện đòi hỏi các phương thức để chuyển đổi, quản lý, trao đổi và phân phối một khối lượng dữ liệu khổng lồ, các hệ thống đaphươngtiện thông thường sử dụng phương thức phân cấp đối với các thiết bị lưu trữ Các thiết bị lưu trữ có tốc độ cao như RAM, Cache lưu trữ các dữ liệu đang được xử lý trong khi đó các thiết... các đối tượng đaphươngtiện Đứng từ quan điểm này, các yêu cầu về lưu trữ của dữ liệu multimedia được giải quyết bằng cách phân chia dữ liệu thành các đối tượng đaphươngtiện nhỏ hơn để có thể lưu trữ trong các đơn vị lưu trữ nhỏ hơn Với việc sắp xếp lưu trữ phân cấp, các đối tượng đaphươngtiện có thể được lưu trữ ở các mức độ khác nhau Khi tỷ lệ sử dụng các đối tượng dữ liệu đaphươngtiện thay đổi,... lúc này chỉ là tìm ra giải pháp tối ưu cho việc phân rã, phân phối và tái phân phối các đối tượng đaphươngtiện 4.3 Chỉ số hóa đaphương tiện: Cũng như trong các CSDL truyền thống, các dữ liệu multimedia có thể được khai thác thông qua các định danh, các thuộc tính, các từ khoá và sự liên kết giữa chúng Sử dụng các từ khoá là phương pháp chiếm ưu thế để chỉ số hoá dữ liệu đaphươngtiện Con người . và truy vấn đa phương tiện: 29
8.1. Lưu trữ dữ liệu đa phương tiện 29
8.2. Truy vấn dữ liệu đa phương tiện: 30
9. Nạp dữ liệu đa phương tiện 31
TÀI.
dữ liệu (CSDL) đa phương tiện và cần tới một hệ quản trị CSDL đa phương tiện dùng để
quản lý và hỗ trợ khai thác chúng. Vậy CSDL đa phương tiện là gì?