Giới thiệu hệ quản trị cơ sở dữ liệu đa phương tiện (MDBMS)

MỤC LỤC

Các yêu cầu của một MDBMS

Vì những lý do trên, một MDBMS phải quản lý và tổ chức việc lưu trữ đối với bất kỳ mức nào của hệ thống phân cấp, nó phải có cơ chế tự động để chuyển các đối tượng dữ liệu MULTIMEDIA từ một mức này của hệ thống lưu trữ phân cấp sang mức khác, việc chuyển cấp này phải dựa trên tần suất sử dụng của dữ liệu MULTIMEDIA. Truy vấn đối với dữ liệu MULTIMEDIA bao gồm các kiểu dữ liệu khác nhau, các từ khoá, thuộc tính, nội dung vv…Do người dùng có thể có các cách suy nghĩ khác nhau về dữ liệu MULTIMEDIA vì vậy kết quả thu được từ việc truy vấn dữ liệu MULTIMEDIA có thể không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần của kết quả hơn là các kết quả chuẩn xác.

Hình 1.2. Mô hình khả năng lưu trữ của các hệ thống Multimedia
Hình 1.2. Mô hình khả năng lưu trữ của các hệ thống Multimedia

Các vấn đề của MDBMS

Các cơ chế nén dữ liệu kết hợp với các cơ chế chuyển đổi dữ liệu giúp phần làm giảm các yêu cầu khổng lồ về mặt lưu trữ, phương thức cơ bản được sử dụng ở đây là chuyển đổi dữ liệu Multimedia sang một số vùng chuyển đổi để loại bỏ sự dư thừa của dữ liệu gốc, các quá trình giải nén sẽ làm nhiệm vụ chuyển đổi ngược các dữ liệu này về dạng gốc của nó. Các vấn đề khác cũng cần phải xem xét đến ở đây bao gồm việc quản lý cơ chế vào/ra (I/O) của phần cứng nhằm mục đích hỗ trợ cho các kiểu khác nhau có mặt trong CSDL Multimedia, hệ thống mạng viễn thông cũng phải đảm bảo cho việc truyền tải dữ liệu cho các môi trường Multimedia phân tán đáp ứng các đòi hỏi nghiêm ngặt của QoS đố i với các ứng dụng cụ thể.

MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG

Giới thiệu hệ tìm kiếm thông tin .1 Kỹ thuật tìm kiếm thông tin

Việc tìm kiếm những thông tin đặc thù phụ thuộc vào sự tương tự giữa các thông tin được lưu trữ và các yêu cầu, được đánh giá bằng các h so sánh các giá trị của các thuộc tính đối với thông tin được lưu trữ và các yêu cầu về thông tin.”. Các tài liệu này có thể chỉ mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục. Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh nào đú, khụng đầy đủ và khụng rừ ràng cho toàn bộ nội dung văn bản. Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể. Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục. Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên cơ sở đối sánh chính xác giữa câu truy vấn và các thuật ngữ tài liệu để tìm ra tài liệu kết quả. Thay vì, truy vấn các mục liên quan với đủ mức độ tương đồng giữa tập thuật ngữ gắn theo câu truy vấn và tài liệu, được sinh ra bởi phương pháp xấp xỉ hay đối sánh từng phần. Hơn nữa cùng thuật ngữ có thể có nhiều ý nghĩa khác nhau. Query Tài liệu văn bản. Xử lý Xử lý. query Đại diện tài. tương đồng).

Hình 2.2 Tiến trình truy vấn tài liệu cơ sở
Hình 2.2 Tiến trình truy vấn tài liệu cơ sở

Một số kỹ thuật tìm kiếm văn bản theo nội dung .1 Chỉ mục tự động văn bản và mô hình tìm kiếm Bool

Từ nội dung của các tài liệu riêng rẽ trong tập tài liệu hệ thống tìm kiếm thông tin có nhiệm vụ tách nội dung đó thành các từ riêng biệt và tổng hợp chúng thành một danh sách các từ riêng biệt có trong tập tài liệu. Trong các hệ thống tìm kiếm thông tin văn bản ( Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất nội dung của văn bản (tiến trình lập chỉ mục - indexing). Trong ngữ cảnh tập hợp toàn bộ tài liệu, nếu thuật ngữ xuất hiện hầu hết trong các tài liệu thì nó không phải là lựa chọn tốt làm thuật ngữ chỉ mục vì nó không giúp phân biệt các tài liệu người sử dụng quan tâm với tài liệu khác.

Trên cơ sở công thức Wij = tfij * log (N/dfj), nếu thuật ngữ xuất hiện trong toàn bộ tài liệu (dfj = N) thì trọng số của thuật ngữ bằng 0 (thuật ngữ không thể sử dụng làm thuật ngữ chỉ mục). Trong điều chỉnh tài liệu trên cơ sở phản hồi phù hợp của người sử dụng, các thuật ngữ chỉ mục tài liệu được điều chỉnh bằng các thuật ngữ truy vấn để sự thay đổi này tác động đến người sử dụng.

Bảng 2.2: Cách tập tin nghịch đảo lưu trữ Doc
Bảng 2.2: Cách tập tin nghịch đảo lưu trữ Doc

Ví dụ

Với lượng thông tin khổng lồ như hiện nay thì lựa chọn các kỹ thuật tìm kiếm thông tin sao cho vừa nhanh chóng, vừa chính xác là một điều hết sức cần thiết. Trong chương này của luận văn, tác giả đã trình bày hai kỹ thuật đơn giản, dễ hiểu nhất trong số các kỹ thuật tìm kiếm thông tin đã được nghiên cứu và phát triển. Tuy nhiên, hai kỹ thuật này chưa thực sự hiệu quả do vậy cần phải có nh ững kỹ thuật tốt hơn, hiệu quả h ơn nhằm đáp ứng nhu cầu truy vấn của ng ười sử dụng.

MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN BẢN

Giới thiệu

Trong truy vấn k láng giềng gần nhất , câu truy vấn của người sử dụng đư ợc đặc tả bởi một vector và một số nguyên k. Hệ thống sẽ tìm ra k đối tượng mà nó thỏa mãn điều kiện là những khoảng cách từ chúng đến vector truy vấn là nhỏ nhất. Có thể tối ưu các cấu trúc dữ liệu cho một loại truy vấn nhất định nếu biết rằng chỉ một loại truy vấn đó hay được sử dụng cho loại ứng dụng cụ thể.

Một số kỹ thuật nâng cao hiệu năng tìm kiếm đa phương tiện

Thí dụ, trong phương pháp chỉ mục và tìm kiếm hình dạng ảnh trên cơ sở vùng, chúng ta sử dụng độ lệch ( eccentricity) hình dạng làm tiêu chí lọc – chỉ cần tìm kiếm các hình dạng trong dải lệch xác định trước. Chúng ta không cần tính toán khoảng cách giữa q và các đối tượng khác trong CSDL vì chúng được đảm bảo là lớn hơn ngưỡng T, nó được lựa chọn theo đặc trưng sử dụng và theo yêu cầu của người sử dụng. Trong kỹ thuật LSI, những thành phần chính được xem là thể hiện cho những khái niệm quan trọng, trong khi những thành phần ít quan trọng hơn được xem là những biến đổi trong cách sử dụng khác nhau của từ.

Bảng 3.1: Bảng khoảng cách của từng đối tượng trong CSDL đến từng vector so sánh
Bảng 3.1: Bảng khoảng cách của từng đối tượng trong CSDL đến từng vector so sánh

Kỹ thuật LSI .1 Giới thiệu LSI

Mô hình này minh hoạ một cách tiếp cận trực tiếp hơn mối liên quan giữa các tài liệu và các thuật ngữ như trong truy tìm vector, trong đó tồn tại một lớp giữa trong đó bao gồm cả lược đồ câu truy vấn và lược đồ tài liệu. LSI dùng kỹ thuật tách các giá trị đơn (SVD- Singular Value Decomposition) để giảm bớt kích thước ma trận term - doc, không gian r chiều xuống một không gian s chiều, s<<r, không gian mới này được gọi là không gian khái niệm. Các tài liệu với những mẫu từ tương tự sẽ gần nhau dù chúng không chia sẻ những từ chung, điều này cho thấy rằng kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn có thể phát hiện ra những mối quan hệ ngữ nghĩa học tiềm ẩn giữa những tài liệu.

Hình 3.1. Mô hình LSI
Hình 3.1. Mô hình LSI

PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM

    Bản luận văn này đã đề cập được một số vấn đề mang tính chất cơ sở của CSDL đa phương tiện và một số kỹ thuật tìm kiếm văn bản theo nội dung trong CSDL đa phương tiện như mô hình Bool cơ sở, mô hình không gian vector, và một số kỹ thuật nâng cao tìm kiếm như: lọc bằng phân lớp, phương pháp tính không đều tam giác, kỹ thuật phân cụm và đặc biệt đi sâu vào tìm hiểu kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing). Do sự eo hẹp về thời gian cũng như hạn chế về tài liệu và trình độ lập trình còn yếu kém nên bản luận văn chưa thể đi sâu vào việc xây dựng và cài đặt một chương trình thử nghiệm áp dụng kỹ thuật nâng cao trong tìm kiếm văn bản theo nội dung như mong muốn. Với nhiệm vụ là nghiên cứu, luận văn đã đáp ứng được một số yêu cầu cơ bản đặt ra.Tuy nhiên để áp dụng kỹ thuật nâng cao tìm kiếm vào một chương trình ứng dụng cụ thể cho người sử dụng thì đòi hỏi phải có thêm thời gian nghiên cứu không chỉ với các kỹ thuật tìm kiếm mà còn một số kỹ thuật khác liên quan đến việc truy tìm sao cho đạt hiệu quả tốt nhất.

    Hình 4.1: Giao diện màn hình lập chỉ mục
    Hình 4.1: Giao diện màn hình lập chỉ mục