Các kiến trúc tổ chức nội dung

Xem xét ba kiến trúc để tổ chức nội dung của hệ thống CSDL đa phƣơng tiện: 1. Nguyên tắc tự trị (Principle of autonomy) : Phải thực hiện lựa chọn để nhóm chung các loại dữ liệu đa phƣơng tiện nhƣ : hình ảnh, video, văn bản... Chỉ số hoá mỗi loại theo cách hiệu quả nhất cho mỗi loại xâm nhập đối tƣợng theo kế hoạch đã đƣợc lập. Phƣơng pháp này là gọi là phƣơng pháp tự trị bởi vì nó đảm bảo rằng mỗi loại media (ảnh, video…) đƣợc tổ chức theo cách riêng phù hợp với từng loại. Hình 4.1 chỉ ra biểu đồ khái niệm của các loại dữ liệu media khác nhau đƣợc tổ chức theo nguyên tắc tự trị.

Hình 4.1

Hình 4.2

2. Nguyên tắc đồng nhất (Principe uniformity):Cách khác, cố gắng tìm ra một cấu trúc trừu tƣợng đơn A đƣợc sử dụng để chỉ số hoá mọi dữ liệu media trên đây, và nó có thể đƣợc sử dụng để tạo ra “chỉ số thống nhất” mà có thể đƣợc sử dụng để xâm nhập các đối tƣợng media khác nhau. Nói cách khác, có thể biểu diễn nội dung của các đối tƣợng media khác nhau (ảnh, video, tài liệu, âm thanh…) trong cùng cấu trúc dữ liệu, sau đó phát triển các thuật toán để truy vấn cấu trúc dữ liệu. Hình 4.2 chỉ ra biểu đồ khái niệm của các loại dữ liệu media khác nhau đƣợc tổ chức theo nguyên tắc đồng nhất.

3. Nguyên tắc tổ chức lai (Principle of hybrid organization): Khả năng thứ ba là sử dụng tổ chức lai ghép của hai nguyên lý trên đây. Theo nguyên lý này, một số

dữ liệu media sử dụng chỉ số riêng, trong khi những cái khác sử dụng chỉ số "đồng nhất”. Chính xác loại media nào sử dụng kiểu chỉ số nào phụ thuộc vào các đặc tính khác nhau. Hình 4.3 chỉ ra biểu đồ quan niệm của các loại dữ liệu media khác nhau đđƣợc tổ chức theo nguyên lý tổ chức lai.

Hình 4.3

Cả ba cách trình diễn trên đều có lợi thế và bất lợi riêng. Kiến trúc trên cơ sở tự trị đòi hỏi tạo ra các thuật toán và cấu trúc dữ liệu cho mỗi kiểu media riêng.

Hơn nữa cần phải có kỹ thuật tính toán kết nối giữa các cấu trúc dữ liệu khác nhau. Đây là công việc phức tạp đòi hỏi phải tỷ mỉ, mất nhiều thời gian lập trình để quản lý các nhiệm vụ thao tác chúng. Mặt khác, bằng cách tạo ra cấu trúc đặc biệt để xâm nhập hiệu quả từng loại media, CSDL đa phƣơng tiện tổ chức theo nguyên lý tự trị có thể dẫn tới thời gian truy vấn - xử lý nhanh. Hơn nữa, trong trƣờng hợp nhiều mảng dữ liệu, nơi cấu trúc dữ liệu và thuật toán cho kho dữ liệu cụ thể đang tồn tại, nguyên lý tự trị có thể là kiến trúc tốt để lựa chọn. Các kỹ thuật hƣớng đối tƣợng là phù hợp cho việc cài đặt nguyên lý tự trị, bằng cách xử lý từng nguồn dữ liệu media

nhƣ đối tƣợng, các phƣơng pháp của nó đƣợc xâm nhập từ toàn bộ CSDL đa phƣơng tiện.

Ngƣợc lại với nguyên lý tự trị, nguyên lý thống nhất đòi hỏi phải tìm ra cấu trúc dữ liệu chung để có thể lƣ trữ thông tin về nội dung ảnh, video, tài liệu, âm thanh... Điều này dẫn đến việc khảo sát nội dung của mỗi loại media và cố gắng

trừu tƣợng ra các phần chung của chúng, sau đó xây dựng chỉ số trên cơ sở phần chung vừa nhận ra. Trong công nghiệp, nguyên lý thống nhất đƣợc sử dụng rộng rãi thông qua thiết bi chú giải, metadata, nơi mà một vài thông tin về nội dung của mỗi nguồn media đƣợc biểu diễn bởi siêu ngôn ngữ (metalanguage) chung và metadata

này đƣợc chỉ số hoá một cách phù hợp. Lợi thế chính của nguyên lý thống nhất là nó dễ cài đặt và các thuật toán thƣờng chạy nhanh. Bất lợi chính là chú giải phải đƣợc tạo ra bằng cách nào đó bằng tay hay tự động. Tiến trình tạo bằng tay có thể tốn kém thời gian và kinh phí. Hơn nữa, một số thông tin có thế bị mất nếu ngôn ngữ cho chú giải không đủ ý nghĩa đề thu thập mọi khía cạnh của nội dung. Thí dụ. ngôn ngữ chú thích nội dung ảnh có thể làm mất thông tin kết cấu của từng điềm ảnh hay nhóm các điểm ảnh. Tuy nhiên tiến trình tự động tạo lập chú giải có thể rất phức tạp vì chƣơng trình tách nội dung tự động có thế là nguyên nhân của các lỗi lớn.

Nguyên lý tổ chức lai có các lợi thế của hai kiến trúc trên, đồng thời hạn chế đƣợc các bất lợi của chứng. Giả sử, muốn tạo ra CSDL đa phƣơng tiện chứa các kiểu M1,. ..,Mn, có thể chia tập này thành hai phần:

1. Những kiểu media là nguồn di sản (có sẵn) và đã có chỉ số, thuật toán đế xử lý chỉ số. Trong trƣờng hợp này, những ƣu điểm của các chỉ số và mã trình đang tồn tại có thể đƣợc giữ lại.

2. Những kiểu media mà không phải là nguồn di sản và không có chỉ số có sẵn (do vậy cũng không có thuật toán xử lý chỉ số). Trong trƣờng hợp này, quan điểm biểu diễn thống nhất đƣợc khuyến cáo sử dụng do có thể giữ đƣợc những thông tin vật lý chi tiết nhƣ kết cấu (texture) của từng điếm ảnh.[17,18]

Sau đó, những chƣơng trình cần thiết đƣợc toạ ra đề thực hiện kết nối nhiều nguồn dữ liệu nhờ chỉ số tự nhiên của chúng. Tiếp cận này dẫn tới tận dụng tối đa mã nguồn đang tồn tại, trong khi tối thiểu sức lực bỏ ra bởi vì các chỉ số chuyên lĩnh vực đang tồn tại đƣợc sử dụng. Thí dụ, ngƣời sử dụng có thể hỏi câu truy vấn sau:

“Hãy tìm mọi ảnh và clip âm thanh trong đó nhìn thấy ông chủ của John Smith nghe thấy đang nói chuyện với Denis Dopeman”. Truy vấn này đòi hỏi kết nối đa chỉ số (multiindexjoin), xâm nhập CSDL ảnh (thông qua chỉ số ảnh), CSDL âm thanh (thông qua chi số âm thanh) và CSDL quan hệ (thông qua chỉ số quan hệ). Nó có thể biểu diễn nhƣ sau:

4.2 Tổ chức dữ liệu đa phương tiện trên cơ sở nguyên lý thống nhất

Ý tƣởng cơ bản của nguyên lý thống nhất là từ điểm nhìn ngữ nghĩa, "nội dung" của nguồn dữ liệu đa phƣơng tiện thƣờng độc lập với nguồn chính nó. Thí dụ, hãy xem xét lại thí dụ thi hành luật lệ. Trong thí dụ này, chúng ta có thể tạo ra các câu lệnh theo khuôn mẫu sau:

1. Ảnh photo1.gif có Jane Shady. Denis Dopeman và ngƣời thứ ba không nhận ra đang ở Medellin, Columbia. Ảnh đƣợc chụp ngày 5/1/1997.

2. Clip video videol.mpg cho thấy Jane Shady đƣa va li cho Denis Dopeman (trong các frame 50-LOO). Video có đƣợc từ theo dõi tại nhà Denis Dopeman tại

Rockville, Maryland. vào 10/1996.

3. Tài liệu dopeman.txt chứa thông tin về cá nhân Denis Dopeman, có đƣợc từ tệp FBI.

Mỗi khẳng định trên cho thấy một vài nội dung của đối tƣợng media

(ảnh,video, tài liệu). Ngƣợc lại, cách giải quyết trong các chƣơng trƣớc, nội dung đƣợc mô tả ngữ nghĩa, thay cho đặc tính mức điểm ảnh và mức lƣới, nó là đặc tính đặc thù ở mức thấp. Một trong các tiệm cận thắng lợi nhất đến CSDL đa phƣơng tiện và là cái sử dụng rộng rãi nhất trong công nghiệp hiện nay là sử dụng các câu lệnh của khuôn mẫu trên đây nhƣ metadata. Do vậy, giả sử có tập các đối tƣợng

media o1 ,on. Kết hợp một vài metadata md(oi) với từng đối tƣợng media oi. Khuôn mẫu chính xác của metadata này đƣợc trao đổi sau. Do đó, metadata kết hợp với đối tƣợng o1,...,on là md(o1),...,md(on). Sau đó ta chỉ số hoá md(o1),...,md(on) theo cách dễ cài đặt xâm nhập hiệu quả với ngƣời sử dụng.[16,17]

4.3 Trừu tượng media

Trừu tƣợng media là cấu trúc hình thức nó có thể đƣợc sử dụng để thu thập nội dung media. Trực quan thì, trừu tƣợng media định nghĩa cấu trúc dữ liệu để chứa dữ liệu biểu diễn thông tin về nội dung của tài nguyên media.

Trƣớc khi xác định hình thức trừu tƣợng media, câu hỏi phải đƣợc đặt ra là: Khi xem xét nội dung của dữ liệu media có các kiểu khác nhau, điểm chung của tất cả kiểu media này và điểm khác biệt là gì? Điểm chung giữa các kiểu media phải đƣợc tìm ra để xây dựng cấu trúc dữ liệu “xương sống” . Cấu trúc dữ liệu này cung cấp lõi chung hay nền tảng mà có thể mở rộng đề bao hàm các tính chất mà nó phân biệt kiểu media này với media khác.

Các tính chất chung của nội dung media chia sẻ từ các kiểu media khác nhau nhƣ sau: Trong từng trƣờng hợp, có tập các đối tƣợng mà nội dung của chúng đang đƣợc mô tả (ảnh. video clip...). Trong mỗi đối tƣợng có một số đặc trƣng xảy ra (thí dụ, ngƣời trong ảnh, hoạt động xảy ra trong đó...). Các đặc trƣng xảy ra trong các đối tƣợng này có một hoặc nhiều thuộc tính và có thề tồn tại vài quan hệ giữa các đặc trƣng khác nhau (thí dụ quan hệ không gian giữa các đối tƣợng trong ảnh). Một số thuộc tính hay quan hệ này có thể phụ thuộc vào đối tƣợng, một số khác có thể độc lập đối tƣợng. Định nghĩa trừu tƣợng media mô tả hình thức lõi chung nhƣ sau:

Đinh nghĩa 4.1 Một trừu tượng media là bộ 8 (8-tuple)

(S fe,ATTR, ,, ,F, Var1, Var2)

trong đó,

S là tập các đối tượng gọi là trạng thái (state) fe là tập các đối tượng gọi là đặc trưng (feature)

A TTR là tập các đối tượng gọi là giá tri thuộc tính (attribute vdlue)

 : S→2 fe

: là tập các quan hệ trên fe' x A TTR j x S với i. j  0. F là tập các quan hệ của S.

Var1 là tập các đối tượng gọi là biến trên S và Var2 là tập các biến dải trên fe.

Nền tảng của định nghĩa phức tạp trên đây sẽ đƣợc trình bày một cách trực giác và cácloại dữ liệu media khác nhau đƣợc xem nhƣ hiện thực của trừu tƣợng

media cũng đƣợc chỉ ra.

Trạng thái (state) là đoạn dữ liệu media nhỏ nhất đƣợc xem xét Thí dụ, trong CSDL ảnh, mỗi ảnh cũng đƣợc xem nhƣ trạng thái. Nếu khung nhìn này đƣợc chấp nhận thì ảnh đƣợc xem nhƣ các đối tƣợng cơ bản mà các đặc tính của nó đƣợc quan tâm, do vậy các đặc tính của các điểm ảnh sẽ không còn đƣợc xem xét nếu khung nhìn này đƣợc chấp nhận.

Đặc trƣng (feature) là đối tƣợng bất kỳ trong trạng thái mà đƣợc cho rằng đáng quan tâm trong CSDL đa phƣơng tiện đang xây dựng. Thí dụ, khi khảo sát một bức ảnh cần chỉ ra một ai đó có trong bức ảnh thì ảnh của ngƣờì đó chính là đặc trƣng cần quan tâm. Các đặc trƣng xảy ra trong trạng thái có một số thuộc tính (attributes) quan tâm cho ứng dụng. Thí dụ, nếu ảnh của một ai đó ra khỏi ô tô, thì các thuộc tính ôtô (thí dụ biền kiểm soát, hãng sản xuất, model, màu. . .) là xứng đáng đƣợc ghi lại. Tƣơng tự, đối tƣợng media tự nó có một vài thuộc tính quan tâm. Đó có thể là thông tin nhƣ thời gian, ngày tháng và vị trí khi chụp ảnh.

 là ánh xạ tách đặc trƣng (feature extraction) cho biết đặc trƣng nào xảy ra trong trạng thái nào. Các kỹ thuật để tách các đặc trƣng từ ảnh đã đƣợc nói tới vậy nên trƣờng hợp này, vấn đề chính là cài đặt các kỹ thuật nhận biết đặc trƣng. Trong các trƣờng hợp khác,  có thể là giao diện đồ họa mà ngƣời sử dụng tƣơng tác với nó để nhận ra nội dung của đối tƣợng media. Chú ý rằng  đủ phong phú, đủ để thu nhận cả hai khả năng.

 là tập quan hệ trên fei x ATTRj x S. các quan hệ này là phụ thuộc trạng thái (state-dependent).

Dữ liệu ảnh được xem như trừu tượng media. Xem xét một CSDL ảnh đơn giản bao gồm ảnh trong Hình 3.1. CSDL này tƣơng ứng với trừu tƣợng media nhƣ sau:

1 Tập trạng thái bao gồm{picl.gif,...,pic7.gif}.

2. Tập các đặc trƣng bao gồm tên ngƣời trong ảnh, thí dụ Bob, Jim, Charlie và Ed.

3. Ánh xạ tách  cho thấy với mỗi trạng thái, đặc trƣng nào xảy ra trong trạng thái. Bảng sau đây chứa mô tả này:

4. Tập các quan hệ có thể chỉ chứa hai quan hệ: quan hệ phụ thuộc trạng thái gọi là left_ of và quan hệ độc lập trạng thái gọi là father, với ý nghĩa rõ ràng.

5. Tập các quan hệ giữa trạng thái có thề rỗng.

Với cách thức mô tả nhƣ trên , dễ thấy rằng các kiểu mediakhác nhƣ dữ liệu video, tài liệu có thể biểu diễn nhƣ hiện thực của đinh nghĩa tổng quát của trừu tƣợng media. Trong khuôn mẫu đơn giản nhất, CSDL đa phƣơng tiện là tập hợp các trừu tƣợng media.

Đinh nghĩa 4.2 Một CSDL đa phƣơng tiện đơn giản là tập hữu hạn M của trừu tƣợng media.

Thí dụ. CSDL đa phƣơng tiện đơn giản có thể bao gồm các tệp video và tệp ảnh. Trong trƣờng hợp này, CSDL chứa hai hiện thựctrừu tƣợng media.

Tuy nhiên. CSDL đa phƣơng tiện đơn giản có thể máy móc theo một vài khía cạnh. Thí dụ, trừu tƣợng media muốn "church" là đặc trƣng. Nhƣng khi tìm kiếm "cathedrals” hay “nonuments" thì lại không tên đƣợc church vì hệ thống không biết

cathedrals và churches là đồng nghĩa, và mọi churches là monuments (nhƣng không ngƣợc lại).

Các tham số khác cần nhớ là ngƣời sử dụng thƣờng tìm kiếm các đối tƣợng media chứa một hay nhiều đặc trƣng, sau đó lọc tìm kiếm khi họ tìm thấy các đối tƣợng media cho lại sau truy vấn, mặc dù kết quả đúng nhƣng nó không phù hợp chính xác với các họ muốn. Ngƣợc lại. có nhiều trƣờng hợp mà trong đó ngƣời sử dụng mong muốn tìm kiếm rộng hơn. Thí dụ tìm kiếm xâu " Venkatramanan Siva Subrahmanian " sẽ không cho kết quả nào. nhƣng tìm kiếm rộng hơn chỉ với từ "Subrahmanran" sẽ cho một vài kết quả.

Giới thiệu trên đây là thúc đầy nhu cầu định nghĩa mạnh hơn cái gì đó của CSDL đa phƣơng tiện mà nó tính đếm đến đồng nghĩa và quan hệ kế thừa giữa các đặc trƣng.

Định nghĩa 4.3 Một hệ thống CSDL đa phƣơng tiện cấu trúc (Structured mutlimedia database system - SMDS) là bộ 5 (5-tuple) ({M1,….Mn},≡,≤, inh, subst) trong đó

Mi=(Si, fei , ATTRi, (i, (i, Var1i, Var2i ) là trừu tƣợng media.

≡ là quan hệ tƣơng đƣơng trên F = n i1 fei

≤ là trật tự không gian trên tập F/≡ của các lớp tƣơng đƣơng trên F. inh: F/≡ →2F/≡

sao cho [f1] inh([f2]). Suy ra [fl]  [f2] (do đó, inh là ánh xạ kết hợp với đặc trƣng f, tập đặc trƣng "dƣới" f theo thứ tự nhỏ hơn hoặc bằng () của đặc trƣng f ).

subst là ánh xạ từ đến n

i1 ATTRi đến 2n

i1 ATTRi

Thí dụ, hãy xem xét hệ thống CSDL đa phƣơng tiện rất đơn giản chứa ít đối tƣợng media liệt kê dƣới đây:

Chú ý rằng các metadata kết hợp với video là khác với metadata kết hợp với ảnh và âm thanh. Để mô tả hình thức nó nhƣ SMDS, cần xác định đƣợc bộ năm ({M1,….Mn},≡,≤, inh, subst) là gì. Điều này có thể thực hiện nhƣ sau:

Giả sử, có ba trừu tƣợng media, mỗi chúng kết hợp với dữ liệu ảnh, âm thanh và video.

Tập các đặc trƣng F chứa: church, dumstain, danublel, subrahmanian, cathedral, melh, st. paul, rome, stream, st.peter, tiber.

≡ nói lên rằng : church ≡ cathedral, river ≡ stream Quan hệ ≤ (hình 4.4) nói lên rằng:

tiber]river] [danuble]  [river] [st. paul] [church ] [s.t peter]  [church]

Giả sử rằng subst không thực hiện gán ở đây.

Hình 4.4

Các đinh nghĩa trên đây cung cấp trình diễn khai báo các khái niệm về hệ thống CSDL đa phƣơng tiện cấu trúc đơn giản. Tuy nhiên tuy nhiên nó chƣa cung cấp các cấu trúc chỉ số hóa đề tồ chức hệ thống CSDL đá phƣơng tiện.

Trƣớc khi giới thiệu cấu trúc chỉ số hóa, ngôn ngữ truy vấn đơn giản đƣợc đƣa ra để có thể sử dụng cho truy vấn dữ liệu đa phƣơng tiện. Thực hiện xem xét ngôn ngữ truy vấn trƣớc vì có thể áp dụng các phƣơng pháp chỉ số hoá hiệu quả nếu biết trƣớc loại truy vấn nào của ngƣời sử dụng cần quản lý hiệu quà.[17,11]

4.4 Ngôn ngữ truy vấn dữ liệu đa phương tiện

Trong phần này, ngôn ngữ truy vấn đơn giản đƣợc giới thiệu để tìm kiếm dữ liệu đa phƣơng tiện mà nó xây dựng trên đỉnh của SQL, và chỉ ra các trừu tƣợng media có thể đƣợc sử dụng để biểu diễn các loại dữ liệu media khác nhau nhờ kiến trúc thống nhất.

4.4.1 Truy vấn SMDS (Biểu diễn thống nhất)

Mọi hệ thống CSDL đa phƣơng tiện cấu trúc đòi hỏi các hàm cơ bản sau đây để ngƣời sử dụng có thể truy vấn CSDL:

1. FindType(Obj): Hàm này lấy đối tƣợng media Obj làm đầu vào và cho lại

Chèn và tìm kiếm trong cây 2-d

Huỷ bỏ trong cây 2-d