Mô hình cơ sở dữ liệu đa phương tiện không được xếp vào các cơ sở dữ liệu truyền thống. Các cơ sở dữ liệu thuộc hệ quản trị cơ sở dữ liệu thế hệ thứ nhất, thứ hai và các cơ sở dữ liệu theo mô hình tiên tiến, là mô hình dữ liệu phân cấp, mô hình dữ liệu suy diễn và mô hình dữ liệu hướng đối tượng, hay được kể đến. Tuy nhiên theo khía cạnh ứng dụng, không thể không kể đến cơ sở dữ liệu đa phương tiện.
Cần đưa ra các khái niệm toán học hình thức, thường được gọi là phương tiện trừu tượng để mô tả các kiểu dữ liệu đa phương tiện và các thủ tục xử lí dữ liệu đa phương tiện. Người ta cần xét các khía cạnh đặc biệt hơn so với các mô hình dữ liệu truyền thống, như vấn đề chỉ số hóa, vấn đề nén dữ liệu đa phương tiện.
3.3.1.1 Thiết kế và kiến trúc của cơ sở dữ liệu đa phƣơng tiện
Việc thiết kế và xây dựng mô hình của các cơ sở dữ liệu đa phương tiện liên quan đến việc tổ chức nội dung dữ liệu đa phương tiện và việc thể hiện vật lí của các dữ liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
1. Các kiến trúc về tổ chức nội dung
Người ta đưa ra ba kiến trúc ứng với các cách tiếp cận khi tổ chức nội dung chỉ số hóa trong hệ thống cơ sở dữ liệu đa phương tiện.
Hình 3.2 Kiến trúc khối chức năng cho hệ thống xử lí dữ liệu đa phƣơng tiện
2. Nguyên tắc tự quản
Theo tiếp cận tự quản, mỗi loại dữ liệu được tổ chức theo cách tự phù hợp. Sự phù hợp được hiểu tuỳ thuộc vào loại phương tiện cụ thể.
3. Nguyên tắc đồng đều
Một cách tiếp cận đề xuất kiến trúc hệ thống là đảm bảo tính đồng đều, cho phép chỉ số hóa tất cả các dữ liệu đa phương tiện. Việc “chỉ số hóa một cách thống nhất” đồng nghĩa với việc người ta sử dụng một cấu trúc thống nhất cho mọi loại dữ liệu đa phương tiện.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
4. Nguyên tắc tổ chức hỗn hợp
Tiếp cận theo nguyên tắc hỗn hợp kết hợp cả hai cách tiếp cận trên. Kiến trúc này có dữ liệu đa phương tiện có loại chỉ số riêng, và số khác tuân theo chỉ số chung.
5. Một số nhận xét
1. Nếu sử dụng chỉ số theo tiếp cận tự trị, mỗi loại dữ liệu có cách chỉ số hóa riêng sẽ không thuận lợi cho công tác bảo trì các mối nối dữ liệu. Đối với chương trình xử lí nhiều loại dữ liệu, việc truy cập đến nhiều loại chỉ số hóa sẽ khó khăn, vì phải có các thao tác riêng đối với mỗi cách chỉ số. Vậy việc tạo cơ sở dữ liệu chung sẽ gặp không ít khó khăn;
2. Phương pháp thống nhất cách chỉ số hóa được thể hiện qua thiết bị về thông báo, siêu dữ liệu, mà thông tin về thiết bị chung có trong ngôn ngữ xử lí dữ liệu. Tuy nhiên, kiến trúc theo tiếp cận này cần xác định được hình thức trừu tượng áp dụng cho tất cả các loại dữ liệu đa phương tiện;
3. Theo tiếp cận hỗn hợp, người ta tránh được nhiều nhược điểm mà hai tiếp cận trên phải gặp:
Giả sử cần tạo cơ sở dữ liệu đa phương tiện với các phương tiện M1, M2...,Mn;
Cần tách các Mi ra (i) các phương tiện có xuất xứ hợp lệ, kèm với chỉ số và thuật toán xử lí chỉ số. Do vậy, cần dùng các ưu điểm của thuật toán và chỉ số; (ii) các phương tiện không có nguồn gốc hợp lệ, không có chỉ số. Khi đó người ta khuyến cáo sử dụng tiếp cận kiến trúc thống nhất;
Cần tạo các mã cần thiết để liên kết chéo các nguồn dữ liệu theo các chỉ số. Điều này cho phép làm tăng các điểm chung, và giảm các cái riêng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 3.4 Kiến trúc chỉ số hóa hỗn hợp
3.3.1.2 Tổ chức cơ sở dữ liệu dựa trên nguyên tắc thống nhất
Tư tưởng cơ bản của nguyên tắc thống nhất là “theo quan điểm về ngữ nghĩa, nội dung của dữ liệu đa phương tiện thường độc lập với nhau”. Khi có càng ít dữ liệu meta, người dùng càng cần thiết tiến hành các thao tác theo các câu hỏi chi tiết.
Tiếp cận thống nhất việc chỉ số hóa, có sử dụng dữ liệu meta để hướng dẫn thiết kế, nhưng không có đối với tất cả các đối tượng đa phương tiện trong cơ sở dữ liệu, cũng có những khó khăn cần được giải quyết.
Nhìn chung tiếp cận thống nhất có nhiều ưu điểm. Có thể liệt kê:
1. Siêu dữ liệu thường được lưu trữ trong các cấu trúc quan hệ hướng đối tượng. Người ta có thể dùng ngôn ngữ SQL để hỏi dữ liệu đa phương tiện; 2. Viết chương trình xử lí các siêu dữ liệu không khó;
3. Viết chương trình với một phần dữ liệu, hay phần dữ liệu trích ra, là công việc mà người lập trình quen thuộc.
Do vậy, có thể sử dụng kiến trúc thống nhất cách chỉ số hóa và sử dụng siêu dữ liệu để hướng dẫn việc thống nhất hóa.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
3.3.1.3 Mô tả trừu tƣợng các đối tƣợng đa phƣơng tiện
Trừu tượng về phương tiện nhằm vào cấu trúc hình thức, cho phép thu nhận nội dung của phương tiện. Theo cách trực quan, trừu tượng về phương tiện xác định cấu trúc dữ liệu để mô tả thông tin về nguồn phương tiện.
Trước khi xác định được trừu tượng về phương tiện, người ta thường tự đặt câu hỏi về dạng dữ liệu chung khi có nhiều dạng dữ liệu? Khi đó người ta cần xác định các loại khác nhau của dữ liệu, nhằm thu được nhìn nhận các dữ liệu về đối tượng theo kiểu chung. Do vậy, người ta xây dựng công cụ chung, được gọi là Shell hay cấu trúc xương, dùng cho mục đích chung. Đối với cấu trúc chung này, cần có các đặc tính để phân biệt các dạng dữ liệu về bản chất đã khác nhau.
Các đặc tính chung của nội dung phương tiện có (i) các đối tượng riêng biệt, với các nội dung được mô tả là hình ảnh, video, âm thanh, hay văn bản; (ii) trong mỗi đối tượng đều có các phần tử nhỏ, chi tiết hóa các hành động; mỗi hành động nhỏ cũng có các thuộc tính.
Cơ sở dữ liệu đa phương tiện đơn giản là tập hữu hạn các trừu tượng về phương tiện.
Hình 3.5 Quan hệ ≤ trong hệ thống cơ sở dữ liệu đa phƣơng tiện có cấu trúc
3.3.1.4 Ngôn ngữ hỏi dữ liệu đa phƣơng tiện
Ngôn ngữ hỏi dữ liệu cho phép tìm kiếm, xử lí dữ liệu. Với dữ liệu quan hệ, người ta đã dùng ngôn ngữ SQL. Với dữ liệu đa phương tiện được mô hình theo tiếp cận mô hình dữ liệu quan hệ, ngôn ngữ tựa SQL được đề xuất. Ngôn ngữ này (i) Mở rộng SQL cho phép hỏi dữ liệu theo kiến trúc thể hiện thống nhất; (ii) Mở rộng SQL cho kiến trúc lai, kết hợp tiếp cận thống nhất và tự trị.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hỏi hệ thống SMDS: có các hàm mẫu xây dựng sẵn, cho phép tìm đối
tượng, tìm khía cạnh của đối tượng, tìm các thuộc tính. Câu “SELECT…FROM” của SQL cần được thay đổi phù hợp;
Hỏi trên các thể hiện hỗn hợp của các dữ liệu đa phương tiện.
3.3.1.5 Kỹ thuật tìm kiếm
Để tìm kiếm thông tin trong cơ sở dữ liệu, người dùng cần xác định được (i) đối tượng dữ liệu cần tìm; (ii) bảng cơ sở dữ liệu cần trích dữ liệu; (iii) các vị từ tạo câu hỏi. Các câu hỏi cơ sở dữ liệu truyền thống được diễn tả ở dạng văn bản, thông qua ngôn ngữ hỏi, như ngôn ngữ chuẩn công nghiệp SQL. Các câu hỏi cơ sở dữ liệu đa phương tiện cần đến chức năng phụ trợ để tìm theo nội dung. Đề xuất mở rộng SQL, các ngôn ngữ hỏi theo nội dung mới và ngôn ngữ hiển thị đang được đưa ra.
Hình 3.6 Mô hình tìm kiếm thông tin tổng quát
1. Tìm theo nội dung và sử dụng từ khoá
Nếu thông tin dựa vào từ khoá thì (i) thông tin cần được chỉ số hóa; (ii) hay các đối tượng cần được tự động ghi nhận và có từ khoá tương ứng trong chỉ số. Tuy nhiên, khi dùng chỉ số hóa thủ công hay tự động, các từ mô tả được thêm vào chỉ số có thể phù hợp hay không phù hợp với các từ khoá đã được người dùng sử dụng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2. Lọc thông tin
Các bộ lọc thông tin là cầu nối giữa người dùng và nguồn tin. Các bộ lọc trợ giúp tìm thông tin, qua được nhiều thông tin từ nhiều hệ thống khác nhau.
Cơ chế lọc thông tin chọn các đối tượng được phân tán đến người dùng theo tiêu chuẩn đáng quan tâm. Cơ chế ra quyết định dựa vào tham số ban đầu do người dùng cung cấp để lọc và thông tin phản hồi từ người dùng của lần tìm kiếm trước. Phản hồi có thể ở dạng ẩn hay hiện. (i) Phản hồi hiện trả lời câu hỏi người dùng; (ii) phản hồi ẩn được suy ra từ các đối tượng mà người dùng thấy, và thời gian dùng để xem đối tượng.
Shoshana Loeb đã xác định các ý chính mà người phát triển cần biết khi lọc thông tin trong cơ sở dữ liệu đa phương tiện.
1. Hệ thống lọc được phát triển cho nguồn thông tin chuyên dụng và lớp người dùng chuyên, do không thể có lọc tổng quát;
2. Thời gian thiết kế và phát triển bộ lọc tuỳ thuộc vào thời gian sống của cơ sở dữ liệu, các báo cáo kĩ thuật.
3. Việc phân phát thông tin cũng là đặc tính của phương tiện và liên quan đến khả năng vùng đệm lưu trữ thông tin.
4. Thông tin lọc cần được kiểm tra để xác định loại thông tin đưa đến người dùng.
5. Người dùng có thể sử dụng hệ thống thường xuyên hay không thường xuyên.
3.3.2 Tổ chức cơ sở dữ liệu âm thanh nhạc cụ
Các dữ liệu âm thanh được đặc trưng theo hai cách:
1. Dùng siêu dữ liệu, tức dữ liệu mô tả nội dung tệp âm thanh; 2. Tách riêng các đặc trưng của âm thanh.
3.3.2.1 Siêu dữ liệu thể hiện nội dung
Siêu dữ liệu được sử dụng để (i) cung cấp thông tin về dữ liệu đang được quan tâm, ở đây là âm thanh; (ii) bản thân âm thanh, hỗ trợ cho dữ liệu chính, cũng là âm thanh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Các siêu dữ liệu cũng cần được tổ chức. Chẳng hạn siêu dữ liệu về các sự kiện trình diễn nhạc. Người ta đã có các băng thu thanh, các bài hát của nhạc sỹ, chất giọng của ca sỹ. Để quản lí tốt các dữ liệu này, siêu dữ liệu sẽ quản lí các sự kiện, thông tin về ca sỹ, về bài hát... trong bảng dữ liệu. Khi dàn dựng chương trình biểu diễn nào đó, người ta tra cứu đến siêu dữ liệu.
3.3.2.2 Nội dung âm thanh dựa trên tín hiệu
Để có cơ sở dữ liệu về siêu dữ liệu, người ta thực hiện (i) tạo cơ sở dữ liệu; (ii) thu thập siêu dữ liệu; (iii) tạo cơ sở dữ liệu về âm thanh.
Thông tin về nội dung âm thanh được xác định qua phương pháp xử lí tín hiệu x(t), theo thời gian t. Tín hiệu âm thanh được thể hiện qua sóng hình sin, với các thông số (i) Tần số tín hiệu f; (ii) Chu kì T=1/f; (iii) Biên độ sóng; (iv) Độ lệch pha;…
Các cơ sở dữ liệu âm thanh có thể được chỉ số hóa theo các cách sau:
1. Phân đoạn: tách tín hiệu âm thanh thành các cửa sổ đồng nhất tương đối. Như vậy sẽ xét được một thời lượng nhất định của âm thanh.
2. Trích ra đặc điểm của âm thanh: tín hiệu âm thanh được thể hiện qua dãy các cửa sổ w1, w2..., wn. Đối với mỗi cửa sổ, người ta rút ra đặc điểm liên quan đến tín hiệu âm thanh. Nếu rút được k đặc trưng, thì tín hiệu âm thanh được xem là đối tượng n điểm trong không gian k chiều. Vậy dùng đặc trưng này để tiến hành chỉ số hóa.
Thông thường các đặc trưng được dùng trong quá trình đánh chỉ số hóa là:
Cao độ của âm thanh;
Độ to của âm thanh;
Chất lượng âm thanh, tức độ cao thấp;
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
3.4 Cài đặt cơ sở dữ liệu âm thanh nhạc cụ dân tộc Việt Nam
3.4.1 Mô tả bài toán
Sau khi xem xét các khía cạnh lí thuyết về dữ liệu âm thanh, âm thanh nhạc cụ dân tộc trong tổng thể dữ liệu đa phương tiện, luận văn thực hiện các chức năng, nhằm thể hiện những kiến thức đã nêu và để có thể ứng dụng trong đời sống.
Cơ sở dữ liệu âm thanh nhạc cụ dân tộc Việt Nam được cài đặt để giải quyết nhu cầu giải trí, học tập, nghiên cứu cũng như giữ gìn bản sắc dân tộc... Việc tổ chức cơ sở dữ liệu âm thanh đòi hỏi :
1. Phân tích các khía cạnh đặc trưng của âm thanh nói chung và âm thanh nhạc cụ dân tộc, dân tộc Việt Nam nói riêng;
2. Thiết kế cơ sở dữ liệu phù hợp với các đặc trưng âm thanh nhạc cụ đã phân tích. Cần sử dụng các bảng dữ liệu và các thuộc tính chọn làm thuộc tính chỉ số hóa, để tăng hiệu năng tìm kiếm dữ liệu. Mô hình dữ liệu quan hệ được sử dụng cho giai đoạn thiết kế;
3. Thực hiện cài đặt cơ sở dữ liệu âm thanh nhạc cụ dân tộc. Căn cứ vào năng lực thiết bị, hạ tầng kĩ thuật của đơn vị công tác, luận văn sử dụng hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
3.4.2 Phân tích, thiết kế cơ sở dữ liệu âm thanh về nhạc cụ dân tộc
3.4.2.1 Bảng dữ liệu về âm thanh, âm thanh nhạc cụ dân tộc
Bảng MusicContent lưu trữ siêu dữ liệu của bản nhạc, dữ liệu âm thanh nhạc cụ... Cấu trúc của bảng như sau:
Bảng 3.1 Mô tả bảng MusicContent
TT Tên trường Mô tả dữ liệu Giải thích
1 Manhac nvarchar(10) Mã bản nhạc
2 Manhacsi nvarchar(10) Mã nhạc sỹ
3 Manhaccong nvarchar(10) Mã nhạc công
4 Banquyen nvarchar(50) Bản quyền
5 Loainhaccu nvarchar(50) Loại nhạc cụ
6 Kythuatchoi nvarchar(50) Kỹ thuật chơi
7 Donhanh Int Độ nhanh
8 Theloainhac nvarchar(50) Thể loại nhạc
9 Tukhoa nvarchar(50) Từ khóa
10 Ngaysanxuat DateTime Ngày sản xuất
11 Tenbannhac nvarchar(50) Tên bản nhạc
12 Tieude nvarchar(50) Tiêu đề
13 Tentep nvarchar(100) Tên tệp nhạc
14 Kieutepnhac nvarchar(20) Kiểu tệp nhạc
15 TDsuacuoi Datetime Thời điểm sửa cuối
16 Kichthuoctepnhac Number(18) Kích thước tệp nhạc
17 Kichthuoctepnen Number(18) Kích thước tệp nén
18 Anhnhaccu Image Ảnh nhạc cụ
19 Thoigian Datetime Thời gian
20 Tanso Int Tần số
21 Kieuamthanh nvarchar(12) Kiểu âm thanh
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
23 Soluongmau Int Số lượng mẫu
24 GTmautraiNN Int Giá trị mẫu trái nhỏ nhất
25 GTmauphaiNN Int Giá trị mẫu phải nhỏ nhất
26 GTmautraiLN Int Giá trị mẫu trái lớn nhất
27 GTmauphaiLN Int Giá trị mẫu phải lớn nhất
28 BiendotraiLN Int Biên độ trái lớn nhất
29 BiendophaiLN Int Biên độ phải lớn nhất
30 CongsuattraiNN Int Công suất trái nhỏ nhất
31 CongsuatphaiNN Int Công suất phải nhỏ nhất
32 CongsuattraiLN Int Công suất trái lớn nhất
33 CongsuatphaiLN Int Công suất phải lớn nhất
34 Congsuattbtrai Int Công suất trung bình trái
35 Congsuattbphai Int Công suất trung bình phải
36 Tongcongsuattrai Int Tổng công suất trái
37 Tongcongsuatphai Int Tổng công suất phải
38 Catu ntext Ca từ, lời bản nhạc
3.4.2.2 Bảng dữ liệu về tác giả, ngƣời sáng tác bản nhạc
Bảng MusicWriter lưu trữ siêu dữ liệu về nhạc sỹ (người sáng tác bản nhạc). Cấu trúc của bảng như sau:
Bảng 3.2 Mô tả bảng MusicWriter
TT Tên trường Mô tả Giải thích
1 Manhacsi nvarchar(10) Mã nhạc sỹ
2 Hoten nvarchar(35) Họ tên
3 Ngaysinh Datetime Ngày sinh
4 Gioitinh bit Giới tính