1. Trang chủ
  2. » Luận Văn - Báo Cáo

041_Tìm kiếm văn bản và ảnh trên cơ sở nội dung trong CSDL đa phương tiện

2 412 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 2
Dung lượng 270,57 KB

Nội dung

Giới thiệu Hiện nay bất kỳ một tổ chức nào khi xây dựng cơ sở dữ liệu cho mình cũng phải tính đến việc cho phép hệ thống có khả năng mở rộng đối với dữ liệu đa phương tiện trong phạm vi

Trang 1

- 18 -

TÌM KIẾM VĂN BẢN VÀ ẢNH TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ

DỮ LIỆU ĐA PHƯƠNG TIỆN

Vũ Minh Hiếu - MSV: 0121902

Lê Khánh Dương –MSV: 0121841

Email: khoaluan@gmail.com

Cán bộ hướng dẫn: PGS.TS Đặng Văn Đức

1 Giới thiệu

Hiện nay bất kỳ một tổ chức nào khi xây

dựng cơ sở dữ liệu cho mình cũng phải tính đến

việc cho phép hệ thống có khả năng mở rộng

đối với dữ liệu đa phương tiện (trong phạm vi

Khóa luận này chỉ đề cập tới hai loại dữ liệu là

văn bản và ảnh), cùng với nó là vấn đề xử lý và

hỗ trợ chỉ mục nhằm khai thác hiệu quả cơ sở

dữ liệu của tổ chức, để đạt mục đích đó cần xây

dựng các cơ sở lý thuyết về CSDL đa phương

tiện Đó cũng là mục đích mà Khóa luận này

hướng tới

2 Khái quát về cơ sở dữ liệu đa phương

tiện

Dữ liệu đa phương tiện có tính chất và yêu

cầu đặc biệt, khác xa với loại dữ liệu chữ và số

CSDL truyền thống không phù hợp trong việc

quản lý dữ liệu đa phương tiện Các kỹ thuật

truy tìm thông tin có thể giúp truy tìm đa

phương tiện nhưng chúng chưa có khả năng

quản lý hiệu quả dữ liệu đa phương tiện

Vì vậy, một kỹ thuật mới dựa trên việc kết

hợp các kỹ thuật quản trị cơ sở dữ liệu DBMS,

IR (Hệ thống tự động truy tìm thông tin) và

truy vấn trên cơ sở nội dung để tạo thành Hệ

thống chỉ mục và truy tìm thông tin đa phương

tiện MIRS (Multimedia Indexing & Retrieval

System), một MIRS đầy đủ được gọi là Hệ quản

trị CSDL đa phương tiện Trên cơ sở nghiên

cứu mô hình và nguyên tắc hoạt động của

MIRS cung cấp cho ta cái nhìn tổng quan về

một hệ quản trị cơ sở dữ liệu đa phương tiện và

thấy được vai trò quan trọng của việc xử lý, lưu

trữ và truy vấn dữ liệu đa phương tiện

3 Các vấn đề chỉ mục và truy vấn dữ liệu

đa phương tiện

Tài nguyên lưu trong cơ sở dữ liệu được

đánh chỉ mục hỗ trợ truy vấn, đó cũng là một

yêu cầu cơ bản đối với mọi cơ sở dữ liệu Các

dữ liệu đa phương tiện thường rất lớn vì vậy

vấn đề xử lý dữ liệu trước khi đánh chỉ mục là

một giải pháp hữu hiệu nhằm giảm không gian

lưu trữ và tăng tốc độ tìm kiếm Các kỹ thuật nén dữ liệu văn bản và ảnh hiện nay đã phát triển rất phong phú cả về mặt thuật toán lẫn phạm vi áp dụng Kỹ thuật chỉ mục dữ liệu đã đạt được những tiến bộ vượt bậc, một trong những minh chứng thuyết phục nhất là máy tìm

kiếm Google với hệ thống chỉ mục cho hơn một

tỉ trang web đã đem lại lợi ích vô cùng to lớn trong việc tìm kiếm dữ liệu Vì vậy, nghiên cứu

kỹ thuật chỉ mục dữ liệu và các phương pháp truy vấn là một trong những nội dung chính của Khóa luận này

1) Nén dữ liệu văn bản và ảnh

Các kỹ thuật nén dữ liệu văn bản đã phát triển trong vòng vài thập kỷ qua, từ kỹ thuật nén Huffman, Arithmetic, nén từ điển,… đã đem lại những hiệu quả to lớn trong thực tế Các kỹ thuật nén ảnh cũng đem lại những kết quả khả quan với tỉ lệ nén có thể tới 80:1 (chuẩn JPEG) đã mở ra một hướng mới trong việc lưu dữ liệu ảnh trong các cơ sở dữ liệu đa phương tiện, cũng như những ứng dụng trong nhiều lĩnh vực của cuộc sống

2) Truy tìm văn bản và ảnh trên cơ sở nội dung

Trích chọn đặc trưng dữ liệu đa phương tiện luôn là bài toán khó Sự trừ tượng của dữ liệu

đa phương tiện trên phương diện thể hiện đặc trưng của nó khiến cho việc chỉ mục đối với dữ liệu đa phương tiện luôn là vấn đề phức tạp và đòi hỏi nhiều công sức Bản thân một loại dữ liệu đa phương tiện đã chứa đựng nhiều kỹ thuật khác nhau về trích trọn đặc trưng

Thí dụ, với dữ liệu ảnh có thể dựa vào mô tả văn bản, cơ sở màu, biểu đồ màu, cơ sở hình dạng hay dựa vào các biến đổi rời rạc…để trích trọn đặc trưng của ảnh

Một vấn đề khác cũng rất quan trọng là tổ chức chỉ mục cho tài nguyên của CSDL đa phương tiện từ những đặc trưng của nó Một kỹ thuật phổ biến đang được dùng cho các máy

tìm kiếm hiện nay là sử dụng tệp chỉ mục Đây

Trang 2

- 19 -

là một trong những nội dung chính của Khóa

luận này

Cùng với kỹ thuật chỉ mục, kỹ thuật truy vấn

dữ liệu văn bản và ảnh trên cơ sở nội dung cũng

được đề cập tới với hai kỹ thuật chính đang phổ

biến hiện nay là Boolean và Ranked

4 Môđun thử nghiệm

Dựa vào các cơ sở lý thuyết đã trình bày

trong Khóa luận, chúng em đã tiến hành xây

dựng hai môđun thử nghiệm về nén dữ liệu văn

bản và truy tìm văn bản trên cơ sở nội dung

Môđun nén dữ liệu văn bản sử dụng thuật

toán nén Huffman

Môđun truy tìm văn bản sử dụng kỹ thuật

chỉ mục nội dung ( tệp chỉ mục) và kỹ thuật

truy vấn Boolean

5 Kết luận

Trong Khóa luận này, đã trình bày các cơ sở

lý thuyết liên quan đến cơ sở dữ liệu đa phương tiện, các kỹ thuật nén, chỉ mục và truy vấn dữ liệu Với các môđun thử nghiệm nhỏ cho kết quả phù hợp với các cơ sở lý thuyết đã trình bày

Các vấn đề cần tiếp tục nghiên cứu: Hoàn thiện tiếp các cơ sở lý thuyết liên quan đến hai loại dữ liệu video và audio

Tài liệu tham khảo [1] I.H Witten, A Moffat and T.C Bell,

Managing Gigabytes 2nd ed Morgan

Kaufmann, 1999

[2] Sangoh Jeong, Histogram-Based Color Image Retrieval,

http://wang1.ist.psu.edu/

Ngày đăng: 06/10/2013, 19:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w