Tóm tắt CSDL cung cấp một phƣơng tiện để làm giảm đáng kể thời gian cũng nhƣ khối lƣợng dữ liệu đầu vào cho các quá trình đòi hỏi phải có quyền truy cập vào CSDL. Hơn nữa, đối với quá trình truy vấn này hiệu suất không phụ thuộc vào sự kết hợp cụ thể của các thuộc tính, nghĩa là cho dù các thuộc có đƣợc lập chỉ mục hay không, vì các bản tóm tắt là chỉ số chung của các dữ liệu cơ bản.
Ví dụ: Cho quan mối quan hệ R = (độ dày, độ cứng, nhiệt độ) của một bảng vật liệu. Một bộ dữ liệu từ bảng vật liệu mô tả một loại vật liệu đƣợc sử dụng trong các nhà máy luyện kim để sản xuất tấm vuông. Thuộc tính thickness (độ dày) đƣợc thể hiện bằng mm và có phạm vi giới hạn (0.15mm – 50mm).
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Thuộc tính hardness (độ cứng) là giá trị sản phẩm cuối cùng đƣợc dự kiến trên quy mô B của độ cứng Rockwell thử nghiệm. Thuộc tính temperature (nhiệt độ) là điểm nóng chảy của kim loại hoặc hợp kim mà kết quả thu đƣợc là vật liệu.
Hình 2.1 Biến ngôn ngữ cho bảng VẬT LIỆU
Hình trên cho thấy các biến ngôn ngữ kết hợp với các thuộc tính R. Những biến ngôn ngữ tạo thành các thuộc tính mới đƣợc sử dụng để viết lại các bộ dữ liệu trong quá trình tóm tắt.
Mô hình SAITETIQ nhằm nắm bắt các thông tin từ CSDL một cách tổng hợp. Nó đƣợc thực hiện thông qua bản tóm tắt ngôn ngữ có cấu trúc trong hệ thống phân cấp. Các mô hình cung cấp các tính chất khác nhau.
Các bƣớc cần thiết để xây dựng một hệ thống phân cấp tóm tắt: Đầu tiên, bản ghi đƣợc dịch phù hợp với một nền tảng kiến thức đƣợc cung cấp bởi ngƣời sử dụng. Đối với mỗi thuộc tính, mỗi biến ngôn ngữ cung cấp một bản đồ các giá trị của thuộc tính để mô tả ngôn ngữ nhãn giá trị đó. Ví dụ:
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Hình 2.2 Một phần của bảng VẬT LIỆU
Hình 2.3 Một phần của bản tóm tắt hệ thống phân cấp cho VẬT LIỆU
te.thickness = 5mm đƣợc thể hiện nhƣ te1.thickness = {1.0/thin}. Nói 1.0 là nhãn mỏng mô tả giá trị 5 mm (có nghĩa 1,0 là mức độ hài lòng của mỏng = 5
mm). Áp dụng bản đồ này để mỗi thuộc tính của một mối quan hệ tƣơng ứng với một bản dịch của các bộ dữ liệu đầu vào, một biểu thức đƣợc gọi là một bộ ứng
cử viên. Một giá trị thuộc tính có thể đƣợc mô tả bởi nhiều nhãn mờ (ví dụ nhƣ
8mm đƣợc mô tả bởi nhãn trung bình và mỏng).
Thứ hai, mỗi bộ ứng cử viên đƣợc đƣa vào hệ thống phân cấp ngày càng tăng và đạt đến một nút lá, là nơi lƣu trữ các bộ ứng cử viên có nhãn giống nhau. Điều này có thể đƣợc xem nhƣ là một phân loại của các bộ ứng cử viên. Điều
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
quan trọng là nhận thấy rằng cây đƣợc biến đổi trong suốt quá trình kết hợp của các bộ ứng cử viên: nó dần trở thành một đại diện đầy đủ của dữ liệu.
Từ quan điểm ngữ nghĩa, một bản tóm tắt là một khái niệm, một tập hợp các bản ghi giống nhau đƣợc viết lại với các điều khoản từ các biến ngôn ngữ. Nếu ngƣời dùng phải mô tả các bản ghi trong CSDL bằng cách sử dụng từ vựng họ đã cung cấp, họ sẽ có đƣợc các mô tả giống nhau cho các bản ghi khác nhau. Thay vì lặp lại những trƣờng hợp này, một bản tóm tắt đƣa ra một câu trả lời cho từng mô tả, theo dõi những gì bản ghi chia sẻ cho các mô tả giống nhau.
Trong cấu trúc phân cấp, mức độ (độ sâu trong cây tóm tắt) có thể đƣợc liên kết với tỷ lệ thực tƣơng đối của một bản tóm tắt dữ liệu đƣợc mô tả: sâu hơn các bản tóm tắt trong cây (hoặc mức độ thấp hơn của nó trong hệ thống phân cấp), tốt hơn các tính chất. Sau đó cấp thấp nhất (lá) có chứa các bản tóm tắt cụ thể và chính xác nhất. Nhƣ vậy một bản tóm tắt có thể đƣợc diễn tả trong một cách khác là bộ ứng cử viên: z = α1 / d1, α2 / d2,. . . , Αn / dn,?. Biểu thức này đƣợc gọi là nội hàm hoặc biểu thức nội hàm của bản tóm tắt. Điểm quan trọng cần lƣu ý rằng chỉ có một nhãn cho mỗi thuộc tính trong nút lá của bản tóm tắt. Hơn nữa, một bộ dữ liệu quan hệ ban đầu có thể tƣơng ứng với một nút lá.
Ngƣợc lại, gốc rễ của cây là tóm tắt chung nhất vì nó bao gồm tất cả các dữ liệu. Các biểu thức của nút lá trong bản tóm tắt không có một hoặc nhiều thuộc tính đa nhãn. Điều này phụ thuộc vào các nhãn trong các bộ ứng cử viên đƣợc bao phủ bởi các bản tóm tắt. Do đó, trong những cấp trung giang của các bản tóm tắt (các nút không lá của cây phân cấp), các nhãn thu đƣợc bằng cách hợp nhất của các nhãn của các bản tóm tắt bé.