Kiểu siêu dữ liệu

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 28 - 30)

Dữ liệuDữ liệu

4.2.1.2 Kiểu siêu dữ liệu

Siêu dữ liệu thiết kế (Build-time metadata)

Nguồn chính tạo ra siêu dữ liệu sử dụng trong kho dữ liệu là quá trình các ứng dụng nghiệp vụ và các dữ liệu nghiệp vụ đợc định nghĩa và mô tả. Siêu dữ liệu đợc tạo ra và sử dụng khi thiết kế và xây dựng đợc gọi là siêu dữ liệu thiết kế. Do vậy, siêu dữ liệu thiết kế chủ yếu đợc tạo ra trong các hệ thống tác nghiệp, nhng lại đợc sử dụng trong kho dữ liệu. Ngày nay, siêu dữ liệu thiết kế đợc sinh ra và lu trữ trong mô hình dữ liệu và các công cụ thiết kế ứng dụng nh các công cụ CASE.

Siêu dữ liệu thiết kế thờng ổn định so với dữ liệu nghiệp vụ đợc mô tả. Nói chung, siêu dữ liệu chỉ thay đổi khi cấu trúc tổng thể của nghiệp vụ hoặc triển khai ứng dụng bị thay đổi.

Siêu dữ liệu đợc định nghĩa khi thiết kế một ứng dụng sẽ không bị thay đổi kể từ lúc đa vào sử dụng cho đến khi một phiên bản ứng dụng mới đợc đa ra. Với các ứng dụng điều hành, việc nâng cấp thờng xuất hiện 1-2 lần một năm, còn các ứng dụng thông tin có thể thờng xuyên hơn (có khi hàng tháng).

Ngay cả khi ứng dụng đợc nâng cấp, chỉ có một phần nhỏ của siêu dữ liệu bị thay đổi. Siêu dữ liệu có thể ổn định trong chu kỳ năm, tuỳ thuộc vào việc kinh doanh của công ty hoặc tổ chức.

Siêu dữ liệu điều khiển (Control metadata)

Siêu dữ liệu điều khiển đợc sử dụng trong kho dữ liệu nh một cơ cấu quản lý và điều khiển hoạt động của chính kiến trúc kho dữ liệu. Vì vậy, chúng là một phần của siêu dữ

liệu hoạt động (Production-time metadata). Siêu dữ liệu điều khiển có hai nguồn cung cấp.

Thông tin cấu trúc vật lý chi tiết sinh ra trong lúc xây dựng kho dữ liệu. Nguồn thứ hai của siêu dữ liệu điều khiển là chính cấu trúc cơ sở kho dữ liệu. Siêu dữ liệu này mô tả các hoạt động hiện thời của kho dữ liệu.

Nguồn của siêu dữ liệu không phải là siêu dữ liệu thiết kế. Siêu dữ liệu điều khiển mô tả về hiện trạng và cách dùng dữ liệu nghiệp vụ. Siêu dữ liệu hiện trạng (currency metadata) lu các thông tin về việc các ứng dụng hoặc các công cụ đã tạo lập và cập nhật dữ liệu nghiệp vụ về mặt vật lý nh thế nào. Siêu dữ liệu cách dùng (Utilisation metadata) là thông tin thông qua đó các công cụ của ngời sử dụng truy cập vào kho dữ liệu.

Siêu dữ liệu hiện trạng tồn tại theo những mức chi tiết khác nhau. ở mức chi tiết thấp nhất, thông tin hiện trạng về dữ liệu đợc lu trữ ở mức tệp hoặc bảng. Trong trờng hợp này, siêu dữ liệu sẽ mô tả tính chất theo thời gian của toàn bộ các tập dữ liệu. Ví dụ là một danh sách các khách hàng trong ngày 31 tháng 1 năm 2001. ở mức cụ thể thứ hai, siêu dữ liệu hiện trạng sẽ mô tả tính chất thời gian của mỗi sự xuất hiện của dữ liệu. Về mặt vật lý, đó là các bản ghi hoặc các hàng trong một bảng hoặc một tệp.

Tại hai mức chi tiết là tệp/bảng và hàng/bản ghi, có các cách tiếp cận khác nhau để lu trữ siêu dữ liệu nh sau:

+ ở mức tệp/bảng, siêu dữ liệu hiện trạng đợc lu trữ trong các cấu trúc vật lý dới dạng các bảng hoặc tệp. Đó là vì chúng đợc tách rời khỏi dữ liệu nghiệp vụ. Để tạo ra siêu dữ liệu sẵn sàng đối với ngời sử dụng, chúng phải đợc sao chép vào trong siêu dữ liệu cách dùng thông thờng.

+ ở mức bản ghi/hàng siêu dữ liệu hiện trạng hầu nh luôn đợc lu trữ nh các nhãn thời gian. Lợng các siêu dữ liệu loại này rất lớn, bởi vì chúng không đợc sao chép vào siêu dữ liệu thông thờng, nhng lại đợc truy nhập trực tiếp bởi ngời sử dụng trong các tình huống. Ngời sử dụng rất ít khi phân biệt siêu dữ liệu điều khiển này với dữ liệu nghiệp vụ.

Tơng tự, siêu dữ liệu cách dùng cũng có mức cụ thể đó là tệp/bảng/khung nhìn tổng quan (view) và hàng/bản ghi và cột.

Việc tạo lập và duy trì siêu dữ liệu cách dùng là nhiệm vụ của các công cụ đợc sử dụng để truy nhập tới dữ liệu. Các chức năng nh vậy có thể đợc tích hợp trong các công cụ của ngời sử dụng, các công cụ truy nhập dữ liệu hoặc các chức năng bảo mật của CSDL. Siêu dữ liệu cách dùng rất quan trong đối với ngời dùng kho dữ liệu. Siêu dữ liệu này tạo ra những thuận lợi và bất lợi nhất định. Thuận lợi là ở chỗ cấu trúc và lu trữ vật lý đ- ợc xác định phù hợp nhất cho các nhu cầu sử dụng kho dữ liệu. Tuy nhiên, chỉ có số ít các công cụ hiện nay có thể quản lý và sử dụng siêu dữ liệu này.

Trong giai đoạn đầu khai thác kho dữ liệu, việc thiếu vắng các công cụ hỗ trợ siêu dữ liệu cách dùng có thể không phải là vấn đề có ý nghĩa. Tuy nhiên, khi kho dữ liệu lớn dần lên và việc khai thác càng đợc mở rộng trong phạm vi toàn xí nghiệp, đó có thể lại là vấn đề.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 28 - 30)

Tải bản đầy đủ (DOCX)

(89 trang)
w