Truy vấn SMDS (Biểu diễn thống nhất)

Một phần của tài liệu Cấu trúc dữ liệu đa phương tiện và mô hình cơ sở dữ liệu hình ảnh (Trang 99)

Mọi hệ thống CSDL đa phƣơng tiện cấu trúc đòi hỏi các hàm cơ bản sau đây để ngƣời sử dụng có thể truy vấn CSDL:

1. FindType(Obj): Hàm này lấy đối tƣợng media Obj làm đầu vào và cho lại kiểu đối tƣợng ra.

2. FindObjWithfeature(f): Hàm này lấy đặc trƣng f làm đầu vào và cho lại tập đối tƣợng media chứa đặc trƣng làm đầu ra.

3. FindObjWithfeatureandAttr (f,a,v): Hàm này lấy đặc trƣng, tên thuộc tính a kết hợp với đặc trƣng và giá tri v làm đầu vào. Nó cho lại các đối tƣợng o

chứa đặc trƣng và nơi giá tri của thuộc tính a trong đối tƣợng o là v.

4. FindFeaturesinObj (Obj): Hàm này đòi hỏi tìm ra các đặc trƣng xuất hiện trong đối tƣợng media cho trƣớc và cho lại tập các đặc trƣng nhƣ đầu ra.

5. FindfeaturesandAttrinObj(Obj): Truy vấn này giống hệt truy vấn trên đây trừ phi rằng nó cho lại quan hệ với lƣợc đồ:

(Feature, Attribute, Value)

trong đó, bộ ba (f,a,v) xuất hiện trong quan hệ đầu ra nếu đặc trƣng f xuất hiện trong truy vấn FindFeaturesinObj(Obj) và thuộc tính a của đặc trƣng f

đƣợc xác định và có giá trị v.

Mở rộng SMDS-SQL của SQL sẽ bao gồm tất cả các câu lệnh SQL thông thƣờng. Hơn nữa, việc nâng cấp sau đây đƣợc phép xuất hiện trong khi xây dựng SQL (SELECT, FROM, WHERE) :

1. Lệnh SELECT có thế chứa các thực thể media. Thực thể media đƣợc định nghĩa nhƣ sau:

a. Nếu m là đối tƣợng media liên tục, i và j là các số nguyên, thì m:[i. j] là thực thê media mô tả tập các frame của đối tƣợng media m nằm giữa các đoạn i và j.

b. Nếu m không phải là đối tƣợng media liên tục thì m là thực thể media. c. Nếu m là thực thể media và a là thuộc tính của m, thì m.a là thực thể media.

2. Lệnh FROM có thể chứa các thực thể theo dạng sau: <media><source><M>

nó cho biết rằng chỉ các đối tƣợng media kết hợp với kiểu media có tên và nguồn dữ liệu có tên sẽ đƣợc xem xét khi xử lý truy vấn, M là biến trải trên các đối tƣợng media nhƣ vậy.

3. Lệnh WHERE cho phép (bổ sung vào xây dựng SQL chuẩn) biểu diễn dƣới dạng: term IN func-call trong đó,

a. term là biến hay đối tƣợng có cùng kiểu đầu ra với func- call. b. func_call bất kỳ lời gọi hàm nào trong 5 hàm liệt kê trên.[1,5] Một vài thí dụ về SMDS-SQL nhƣ sau:

VD2. "Tìm các đối tƣợng ảnh và video có Jane Shady mặc áo màu tía“ .

VD3. "Tìm các ảnh có Jane Shady và Denis Dopeman. Jane Shady phía trái của Denis Dopeman ”.

Chú ý rằng, quan hệ 3 ngôi left đƣợc sử dụng trong các truy vấn trên đây là quan hệ trong trừu tƣợng media CSDL ảnh.

VD4. "Hãy tìm các ảnh có Jane Shady và ai đó xuất hiện trong video cùng Denis Dopeman”

Truy vấn này đòi hỏi tính toán thao tác kết hợp các loại dữ liệu khác nhau. Để thực hiện phải sử dụng các biến tồn tại nhƣ Person trong truy vấn dƣới đây,biến

Person đƣợc sử dụng để đề cập đến sự hiện hữu ai đó không quen biết mà sẽ phải nhận danh.

VD5. "Tìm các ảnh có Jane Shady và ai đó mặc áo màu tía và nó cũng xuất hiện trong video cùng Denis Dopeman”.

4.4.2 Truy vấn dữ liệu đa phương tiện của biểu diễn lai

Trong phần trên, ngôn ngữ SMDS-SQL đƣợc giới thiệu nhƣ mô hình truy vấn đối tƣợng đa phƣơng tiện trong trình diễn thống nhất. Phần này sẽ chỉ ra cách mở rộng cách thức để truy vấn dữ liệu đa phƣơng tiện trong biểu diễn lai.

Khi xem xét ngôn ngữ truy vấn để xử lý truy vấn trong biểu diễn lai câu hỏi đƣợc đặt ra "Cái gì trong trình diễn lai đòi hỏi thay đối ngôn ngữ truy vấn ? ". Câu trả lời có thể là, sự thật trong trình diễn thống nhất mọi dữ liệu đƣợc truy vấn là SMDS, trong khi trong biểu diễn lai, biểu diễn khác (không phải SMDS) đƣợc sử dụng vì nó phù hợp hơn trình diễn SMDS. Thí dụ, xem xét lĩnh vực video, SMDS không phân biệt tức thì giữa hoạt động, đặc trƣng và vai trò. Biểu diễn media lai cơ bản gồm hai phần - tập đối tƣợng media sử dựng biểu diễn thống nhất và tập kiểu media sử dụng cấu trúc xâm nhập và ngôn ngữ truy vấn đặc biệt riêng. Do vậy, để

mở rộng SDMS – SQL thành SQL đa phƣơng tiện lai (HM-SQL), đầy đủ thì phải làm hai việc sau:

1. HM-SQL (hybrid-multimedia SQL) phải có khả năng biểu diễn truy vấn trong mỗi ngôn ngữ đặc biệt đƣợc sử dựng bởi nguồn NON-SMDS này.

2. HM-SQL phải có khả năng kết nối và các thao tác đại số nhị phân tƣơng tự khác giữa các nguồn SMDS và nguồn NON-SMDS.

Xem xét lần lƣợt các yêu cầu trên bằng cách mở rộng các xây dựng SELECT, FROM, WHERE chuẩn của SQL. Để làm việc này trƣớc hết giả sử rằng mỗi nguồn media NON-SMDS MS có ngôn ngữ truy vấn kết hợp QL(MS) riêng. Ngôn ngữ truy vấn HM-SQL giống hệt SQL ngoại trừ các câu lệnh SELECT, FROM, WHERE đƣợc mở rộng theo cách sau:

1. Các câu lệnh SELECT và FROM đƣợc xem xét theo cách giống hệt trong SMDS-SQL.

2. Lệnh WHERE cho phép biểu diễn theo khuôn dạng sau: term IN MS:func-call

trong đó,

a) term là biến hay là đối tƣợng có cùng kiều đầu ra giống nhƣ func- call đƣợc đinh nghĩa trong nguồn media MS.

b) hoặc MS= SMDS, và func_ call là một trong năm hàm SMDS mô tả trên đây, hoặc MS không phải nguồn media SMDS, và func- call là truy vấn trong QL(MS).

Do vậy, HM-SQL giống hệt SMDS-SQL trừ hai điềm khác nhau nhƣ sau: 1. func- call xuất hiện trong câu lệnh WHERE cần phải chú thích rõ ràng với nguồn media liên quan.

2. Truy vấn từ ngôn ngữ truy vấn của cài đật nguồn tài media NON-SMDS có thề nhúng trong truy vấn HM-SQL. Đặc trƣng cuối cùng này làm HM-SQL trở nên rất mạnh bởi vì có khả năng biểu diễn truy vấn trong cài đặt media của hãng thứ 3 .[13,17]

1. Giả sử, có hai nguồn dữ liệu video videol và video2, trong đó nguồn thức nhất cài đặt qua SMDS và nguồn thứ hai cài đặt theo hình thức CSDL video. Câu truy vấn đƣợc đặt ra nhƣ sau :

"Hãy tìm mọi video clip có Denis Dopeman từ cả hai nguồn video1 và video2 “ Truy vấn này có thề biểu diễn trong HM-SQL nhƣ sau:

2. Giả sử, bổ sung ví dụ trên CSDL ảnh (idb), đƣợc cài đặt nhờ toán tử NON- SMDS đặc biệt, và giả sử CSDL ảnh này có thao tác truy vấn getpic(obj) lấy đối tƣợng làm đầu vào và cho lại cặp bao gồm tệp ảnh và dãy liên quan nhƣ đầu ra. Giả sử, muốn tìm kiếm cả ba nguồn (video1,video2,idb) để có ảnh của Denis Dopeman. Đề làm việc này, thực hiện truy vấn HM-SQL sau:

3. Giả sử, muốn tìm mọi ngƣời cùng Denis Dopeman trong videol,video2 hay idb. Thực hiện truy vấn sau:

4.5 Những đánh giá về thực trạng ứng dụng dữ liệu đa phương tiện tại Việt Nam nói chung.

Hiện nay, ở Việt Nam, nguồn dữ liệu đa phƣơng tiện nhƣ video, hình ảnh, âm thanh ... rất phong phú, đa dạng và thực sự chƣa có nhiều những ứng dụng khai thác nguồn dữ liệu này phục vụ cho các công việc. Thí dụ, trong các thƣ viện của các trƣờng đại học hiện nay, nguồn tƣ liệu số phục vụ nhu cầu tìm hiểu của sinh viên vẫn lƣu trữ ở dƣới dạng rời rạc, độc lập mà chƣa có sự kết hợp thành một hệ thống thống nhất giúp giảm thiểu công việc tìm kiếm, truy vấn. Hoặc là nguồn dữ liệu đa phƣơng tiện còn đƣợc lƣu trữ dƣới dạng thô mà chƣa sử dụng các cấu trúc dữ liệu phù hợp để lƣu trữ.

Các công nghệ ứng dụng dữ liệu đa phƣơng tiện phục vụ công việc chƣa thực sự đƣợc đầu tƣ quan tâm đúng mức và hầu hết các sản phẩm ứng dụng có nguồn gốc từ nƣ ớc ngoài với chi phí đầu tƣ rất tốn kém.

4.6. Đề xuất về việc xây dựng một hệ thống quản lý dữ liệu đa phương tiện thống nhất. phương tiện thống nhất.

Với thực trạng ứ ng dụng nguồn dữ liệu đa phƣơng tiện nhƣ trên, dẫn tới một yêu cầu về việc xây dựng một hệ thống quản lý dữ liệu đa phƣơng tiện thống nhất để làm nền để phát triển các ứng dụng khác nhau.

Các kiểu dữ liệu khác nhau đƣợc thu thập từ các nguồn khác nhau đƣợc biểu diễn bởi các kiểu dữ liệu phù hợp, đƣa qua một hệ thống chỉ số hóa dữ liệu sau đó đƣợc chuyển vào lƣu trữ phục vụ truy vấn cho các ứng dụng tiếp theo.

Hệ thống quản lý dữ liệu đa phƣơng tiện thống nhất có thể giải quyết đƣợc vấn đề đồng bộ hóa dữ liệu đa phƣơng tiện hỗ trợ việc truy vấn các kiểu dữ liệu khác nhau đƣợc thực hiện dễ dàng.

4.7 Kết luận

Chƣơng trên đã đề cập tới việc thiết kế và kiến trúc một CSDL đa phƣơng tiện với những vấn đề thiết yếu trong việc tổ chức nội dung dữ liệu media và xây dựng ngôn ngữ truy vấn dữ liệu đa phƣơng tiện SMDS.

Vấn đê cần quan tâm ở đây đó là :

Loại dữ liệu media nào trong CSDL đa phƣơng tiện cần có cơ chế xem nhập? Và các thuật toán có sẵn để lập chỉ số hoá dữ liệu này tin cậy và chính xác sử dụng các phƣơng pháp chỉ số hoá trên cơ sở nội dung.

Các câu trả lời hai câu hỏi này chia thành hai phần - những cái mà các kỹ thuật chỉ số tự động , chính xác và tin cậy, và phần còn lại. Mọi media thuộc nhóm thứ hai có thể dễ dàng biểu diễn thông qua cấu trúc SMDS.

Còn với media thuộc nhóm mà tồn tại công cụ phần mềm tự động hoá lập chỉ số cho chúng thì trƣớc hết tạo chỉ số (bằng công cụ phần mềm) sau đó sử dụng ngôn ngữ HM-SQL để thực hiện truy vấn xâm nhập cả kho SMDS và đa phƣơng tiện đặc biệt xử lý chỉ số.

Một vấn đề nữa đƣợc đặt ra đó là việc phục hồi và khai triển truy vấn trong CSDL đa phƣơng tiện, do rằng ngƣời sử dụng không thể luôn luôn chỉ ra các truy vấn của họ theo cách nhất quán với biểu diễn nội dung dữ liệu media. Vấn đề này xảy ra ngay cả với thế giới quan hệ, nhƣng nó cần phải chính xác hơn trong trƣờng hợp hệ thống đa phƣơng tiện vì luôn tồn tại sự nhập nhằng cố hữu khi các đặc trƣng đƣợc nhận ra. Thí dụ. các chƣơng trình xử lý ảnh không đảm bảo độ chính xác của các kết quả, tƣơng tự nhƣ vậy, các hệ thống xử lý văn bản gặp phải vấn đề đồng

nghĩa và đa nghĩa cho nên rất khó tìm kiếm dữ liệu trên cơ sở truy vấn của ngƣời sử dụng.

Do vậy nên, việc xây dựng các bộ truy vấn dựa trên truy vấn gốc là rất quan trọng giúp ngƣời sử dụng có đƣợc kết quả truy vấn tốt hơn.

Với thực tế tình hình khai thác và ứng dụng cơ sở dữ liệu đa phƣơng tiện nhƣ đa nêu trên tại Việt Nam, việc tìm hiểu và phát triển ứng dụng cơ sở dữ liệu đa phƣơng tiện trong những ngành cụ thể là rất khả quan.

KẾT LUẬN

Luận văn đã đề cập tới việc tìm hiểu về dữ liệu đa phƣơng tiện nói chung và dữ liệu là hình ảnh nói riêng, đi vào giới thiệu các cấu trúc dữ liệu đa phƣơng tiện để thể hiện dữ liệu hình ảnh, tìm hiểu mô hình hoá cơ sở dữ liệu hình ảnh, và đề cập đến việc xây dựng cơ sở dữ liệu đa phƣơng tiện.

Với tình hình thực tế hiện nay, bên cạnh những tiến bộ vƣợt bậc của khoa học kỹ thuật cho ra đời rất nhiều những thiết bị, công nghệ hiện đại, dữ liệu đa phƣơng tiện đang thực sự là nguồn dữ liệu khổng lồ có thể ứng dụng trong hầu hết những ngành nghề phục vụ khoa học, cuộc sống và thực tế đã chứng minh điều đó.

Nắm bắt đƣợc những kỹ thuật để biểu diễn, quản lý các dữ liệu đa phƣơng tiện sẽ có thể áp dụng vào các lĩnh vực khác nhau là điều rất quan trọng.

Đối với kiểu dữ liệu hình ảnh nói riêng, kiểu dữ liệu này đang ngày càng đƣợc sử dụng rộng rãi trong các ứng dụng liên quan. Luận văn trên đây đã giới thiệu những cấu trúc dữ liệu đa phƣơng tiện để biểu diễn cũng nhƣ giới thiệu việc xây dựng CSDL hình ảnh.

Với thực tế ứng dụng nguồn dữ liệu đa phƣơng tiện tại Việt Nam hiện nay, khi mà sự khai thác ,tìm hiểu về kiểu cơ sở dữ liệu này là chƣa thực sự nhiều thì việc phát triển ứng dụng sử dụng nguồn dữ liệu đa phƣơng tiện tại Việt Nam là rất tiềm năng, hứa hẹn là một trong những hƣớng phát triển mạnh trong tƣơng lai.

Kết luận lại, việc tìm hiểu về cơ sở dữ liệu đa phƣơng tiện nói chung và cơ sở dữ liệu hình ảnh nói riêng, cùng với việc đề cập tới việc thiết kế kiến trúc hệ thống cơ sở dữ liệu đa phƣơng tiện đã mở ra những hƣớng đi phát triển những ứng dụng cơ sở dữ liệu đa phƣơng tiện rất có triển vọng .

Tài liệu tham khảo

TIẾNG VIỆT

1. Đỗ Trung Tuấn (2001), Giới thiệu về đa phương tiện, Trung tâm thông tin thƣ viện, ĐH QG Hà Nội.

2. Đỗ Trung Tuấn (1998), Cơ sở dữ liệu quan hệ, NXB Giáo dục, Hà Nội

3. Jeffrey D. Ullman (1999), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức“, Biên dịch : Trần Đức Quang tập 1, tập 2, NXB Thống kê, Hà Nội.

4. Viện Công nghệ thông tin (2003), Nguyên lý hệ thống CSDL đa phương tiện, Hà Nội.

5. Lê Tiến Vƣơng (1996), “Cơ sở dữ liệu quan hệ , NXB Khoa học Kỹ thuật, Hà Nội

TIẾNG ANH

6. David Eppstein, Michael T. Goodrich, and Jonathan Z. Sun (2005), The Skip Quadtree: A Simple Dynamic Data Structure for Multidimensional Data , pp 1-13 7. Dimitris G. Kapopoulos, Michael Hatzopoulospanagiotis Stamatopoulos (2002),

Efficient Management of Persistent Knowledge, pp. 111-134

8. Dimitris Papadias, Nikos Mamoulis, Vasilis Delis (2001), Approximate Spatio- Temporal Retrieval, ACM Transactions on Information Systems, Vol. 19, No.1, pp. 53-96

9. Harald Kosch and Mario Döller (2003), Multimedia Database Systems: Where are we now ?, Institute of Information Technology, University Klagenfurt, pp.1-5, Austria.

10. Ozsu, T. and Valduriez, P. (1999), Principles of Distributed Database Systems, Prentice - Hall.

11. Prof. Ralf Möller,TUHH, STS (2000), Multimedia Content Management (12 , pp. 1-54

12. Rodolphe Devillers, Yvan Bédard, and Robert Jeansoulin (2005),

Multidimensional Management of Geospatial Data Quality Information for its Dynamic Use Within GIS, pp. 205-215

13. Roberto Grossi , Ankur Gupta , Jeffrey Scott Vitter (2004), Entropy- Compressed Indexes for Multidimensional Pattern Matching, pp . 1-4

14. Raghu Ramakrishnan (1998), Database management systems ,WCB/McGraw- Hill, Boston, USA

15. S. Abiteboul, R. Hull, V. Vianu (1995), Foundation of database, Addison. Wesley Publishing Company.

16. Shun’ichi Torii, Kanji Kato, Kazuo Masai (1998), Integrated Multimedia Database, (1998), Hitachi Review Vol. 47, No. 6, pp. 296-299, Japan.

17.V.S. Subrahmanian (1998), Principles of Multimedia Database Systems, Morgan Kaufmann Publishers, Inc. San Francisco, California,USA.

18. Ullman J.D. (1982), Principles of Database Systems, 2nd Ed, Computer science Press, Rockville, MD.

19. Volker Gaede, Oliver Gu¨nther, Multidimensional Access Method”, ACM Computing Surveys, Vol. 30, No. 2

Phụ lục

1. Demo về sử dụng cây K-d, cây PointQuadTree, cây MX- QuadTree, cây R để biểu diễn dữ liệu hình ảnh.

2. Demo chƣơng trình (đƣợc nghiên cứu phát triển tại trƣờng ĐH Công nghệ Aachen, Đức) sử dụng cơ sở dữ liệu hình ảnh: Chƣơng trình chẩn đoán bệnh trên cở sở đánh giá các bức ảnh chụp X- Quang so với cơ sở dữ liệu ảnh nguyên mẫu đã phân loại và lƣu trữ,

Một phần của tài liệu Cấu trúc dữ liệu đa phương tiện và mô hình cơ sở dữ liệu hình ảnh (Trang 99)

Tải bản đầy đủ (PDF)

(120 trang)