Những thách thức và yêu cầu của quản lý dữ liệu đa phương tiện trong cơ sở dữ liệu

MỤC LỤC

Các yêu c ầu của một MDBMS

Vì những lý do trên, một MDBMS phải quản lý và tổ chức việc lưu trữ đối với bất kỳ mức nào của hệ thống phân cấp, nó phải có cơ chế tự động để chuyển các đối tượng dữ liệu MULTIMEDIA từ một mức này của hệ thống lưu trữ phân cấp sang mức khác, việc chuyển cấp này phải dựa trên tần suất sử dụng của dữ liệu MULTIMEDIA. Truy vấn đối với dữ liệu MULTIMEDIA bao gồm các kiểu dữ liệu khác nhau, các từ khoá, thuộc tính, nội dung vv…Do người dùng có thể có các cách suy nghĩ khác nhau về dữ liệu MULTIMEDIA vì vậy kết quả thu được từ việc truy vấn dữ liệu MULTIMEDIA có thể không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần của kết quả hơn là các kết quả chuẩn xác.

Hình 1.2. Mô hình kh ả nă ng l ư u tr ữ của các hệ thống Multimedia
Hình 1.2. Mô hình kh ả nă ng l ư u tr ữ của các hệ thống Multimedia

Các v ấn đề của MDBMS

Khác với các dữ liệu truyền thống, dữ liệu Multimedia đòi hỏi các ràng buộc về sự thể hiện điều này bắt nguồn từ đặc tính liên tục của một số kiểu dữ liệu Multimedia mà chúng đòi hỏi thể hiện một số lượng nhất định dữ liệu trong một khoảng thời gian nhất định mà kết quả đem lai cho người dùng vẫn phải đảm bảo được đặc trưng của các kiểu dữ liệu đó. Các vấn đề khác cũng cần phải xem xét đến ở đây bao gồm việc quản lý cơ chế vào/ra (I/O) của phần cứng nhằm mục đích hỗ trợ cho các kiểu khác nhau có mặt trong CSDL Multimedia, hệ thống mạng viễn thông cũng phải đảm bảo cho việc truyền tải dữ liệu cho các môi trường Multimedia phân tán đáp ứng các đòi hỏi nghiêm ngặt của QoS đối với các ứng dụng cụ thể.

K ết luận

Mô hình tính toán Khách-Chủ (client-server), trong đó các dịch vụ ứng dụng của máy chủ phục vụ cho nhiều ứng dụng khách khác nhau (các dịch vụ của server và các ứng dụng client có thể nằm ở các máy khác nhau) đã được chứng minh là thích hợp nhất cho các các hệ thống Multimedia trong cả trường hợp tổng quát cũngnhư đối với MDBMS phân tán. Trong chương này của bản luận văn đã đề cập được một số vấn đề mang tính chất cơ sở của cơ sở dữ liệuđa phương tiện như cách thức và mô hình lưu trữ dữ liệu, cách thức chỉ số hoá cũng như các yêu cầu và các vấn đề cần được giải quyết đối với một hệ thống quản trị cơ sở dữ liệu đa phương tiện (MDBMS).

Ví d ụ

Theo tính chất của 2 tiêu chuẩn Recall và Precision thì đồ thị của hệ thống nào càng xa gốc thì đạt hiệu năng càng cao. • Cột 1 đến cột 5: Danh mục các thuật ngữ được xây dựng từ các tài liệu và tính tần số tfi cho câu truy vấn trong mỗi tài liệu Dj. Các cột này có thể được xem như là một ma trận thưa, trong đó hầu hết các mục bằng 0.

Với lượng thông tin khổng lồ như hiện nay thì lựa chọn các kỹ thuật tìm kiếm thông tin sao cho vừa nhanh chóng, vừa chính xác là một điều hết sức cần thiết. Trong chương này của luận văn, tác giả đã trình bày hai kỹ thuật đơn giản, dễ hiểu nhất trong số các kỹ thuật tìm kiếm thông tin đã được nghiên cứu và phát triển. Tuy nhiên, hai kỹ thuật này chưa thực sự hiệu quả do vậy cần phải có nh ững kỹ thuật tốt hơn, hiệu quả hơn nhằm đáp ứng nhu cầu truy vấn của ng ười sử dụng.

Trong chương tiếp theo của luận văn này sẽ trình bày một số kỹ thuật nâng cao tìm kiếm văn bản.

Gi ới thiệu

Loại khác của truy vấn dải được đặc tả bởi dải giá trị cho mỗi chiều của vector đặc trưng. Trong truy vấn k láng giềng gần nhất, câu truy vấn của người sử dụng được đặc tả bởi một vector và một số nguyên k. Hệ thống sẽ tìm ra k đối tượng mà nó thỏa mãn điều kiện là những khoảng cách từ chúng đến vector truy vấn là nhỏ nhất.

Cần có kỹ thuật và cấu trúc dữ liệu hữu hiệu để hỗ trợ cả ba loại truy vấn nói trên. Có thể tối ưu các cấu trúc dữ liệu cho một loại truy vấn nhất định nếu biết rằng chỉ một loại truy vấn đó hay được sử dụng cho loại ứng dụng cụ thể.

K ỹ thuật LSI .1 Gi ới thiệu LSI

Mô hình này minh hoạ một cách tiếp cận trực tiếp hơn mối liên quan giữa các tài liệu và các thuật ngữnhư trong truy tìm vector, trong đó tồn tại một lớp giữa trong đó bao gồm cả lượcđồ câu truy vấn và lượcđồ tài liệu. Chẳng hạn, chúng ta có thể xác định rằng câu truy vấn t3 trả lại kết quả là d2, d3,d4 trong tập các câu hỏi, dựa vào sự quan sát cho thấy chúng có liên quan đến khái niệm C2, không yêu cầu tài liệuđó phải chứa term t3. Để đơn giản hơn, chúng ta có thể sử dụng những thuộc tính toán học của ma trận term – doc, ví dụ, xác định những khái niệm bằng cách tính toán ma trận.

LSI dùng kỹ thuật tách các giá trị đơn (SVD- Singular Value Decomposition) để giảm bớt kích thước ma trận term - doc, không gian r chiều xuống một không gian s chiều, s<<r, không gian mới này được gọi là không gian khái niệm. Do vậy, các từ không còn độc lập nhau, và những từ đồng nghĩa sẽ tương ứng cùng kích thước hoặc có cùng độ tương đồng trong không gian này. Các tài liệu với những mẫu từ tương tự sẽ gần nhau dù chúng không chia sẻ những từ chung, điều này cho thấy rằng kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn có thể phát hiện ra những mối quan hệ ngữ nghĩa học tiềm ẩn giữa những tài liệu.

Kỹ thuật LSI sử dụng kỹ thuật SVD bằng cách trong ma trận S chỉ lựa chọn những giá trị đơn lớn nhất, giữ lại những cột tương ứng U và VT. Trong khi tìm kiếm, độ tương đồng giữa tài liệu và câu truy vấn được tính như sau: vector tìm kiếm q trong không gian thuật ngữ được chuyển sang vector qc. Thực chất là tính tích điểm giữa các toạ độ vector câu truy vấn và tài liệu chia cho tích của độ dài vector truy vấn và vector tài liệu.

Hình 3.1. Mô hình LSI
Hình 3.1. Mô hình LSI

CHƯƠNG 4: PHÁT TRI ỂN CHƯƠNG TRÌNH THỬ NGHIỆM

    Xây dựng ma trận Term – Doc A có kích thước MxN (M thuật ngữ, N tài liệu) bao gồm các tần số tfij của thuật ngữ i trong tài liệu j. Mục tiêu của làm chỉ mục là tìm ra các thuật ngữ tốt nhất để đại diện tài liệu sao cho các tài liệu được truy tìm chính xác trong tiến trình truy vấn. Việc tìm kiếm trong mô hình không gian vector được thực hiện dựa trên cơ sở tính tương đồng giữa câu truy vấn Qj và các tài liệu Di.

    Kỹ thuật tìm kiếm thông tin trong hệ thống cơ sở dữ liệu đa phương tiện đã và đang là một vấnđề mang tính thời sự của Công nghệ thông tin. Bản luận văn này đã đề cập được một số vấn đề mang tính chất cơ sở của CSDL đa phương tiện và một số kỹ thuật tìm kiếm văn bản theo nội dung trong CSDL đa phương tiện như mô hình Bool cơ sở, mô hình không gian vector, và một số kỹ thuật nâng cao tìm kiếm như: lọc bằng phân lớp, phương pháp tính không đều tam giác, kỹ thuật phân cụm và đặc biệt đi sâu vào tìm hiểu kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing). Bản luận văn cũng đã xây dựng chương trình thử nghiệm, demo chức năng lập chỉ mục và một số kỹ thuật tìm kiếm văn bản đơn giản như mô hình không gian vector.

    Do sự eo hẹp về thời gian cũng như hạn chế về tài liệu và trình độ lập trình còn yếu kém nên bản luận văn chưa thể đi sâu vào việc xây dựng và cài đặt một chương trình thử nghiệm áp dụng kỹ thuật nâng cao trong tìm kiếm văn bản theo nội dung như mong muốn. Với nhiệm vụ là nghiên cứu, luận văn đã đáp ứng được một số yêu cầu cơ bản đặt ra.Tuy nhiên để áp dụng kỹ thuật nâng cao tìm kiếm vào một chương trình ứng dụng cụ thể cho người sử dụng thì đòi hỏi phải có thêm thời gian nghiên cứu không chỉ với các kỹ thuật tìm kiếm mà còn một số kỹ thuật khác liên quan đến việc truy tìm sao cho đạt hiệu quả tốt nhất.  Phát triển ứng dụng có áp dụng kỹ thuật nâng cao tìm kiếm để cung cấp một bộ máy tìm kiếm hiệu quả cho người sử dụng (cụ thể là áp dụng vào hệ thống thư viện số).

    Hình 4.1: Giao di ện màn hình lập chỉ mục
    Hình 4.1: Giao di ện màn hình lập chỉ mục