Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
1,07 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC - oOo - TIỂU LUẬN MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài: Công nghệ liệu khối Giảng viên hướng dẫn: Lê Chí Ngọc Sinh viên thực hiện: Lại Thùy Linh MSSV: 20162401 Lớp: Toán Tin - K61 Mục Lục LỞI MỞ ĐẦU 5.1 Tính tốn khối liệu: Các khái niệm sơ 5.1.1 Vật liệu hóa khối: Full Cube, Iceberg Cube, Đóng Cube Cube Shell 5.1.2 Chiến lược chung cho tính tốn khối liệu 10 5.2 Phương pháp tính tốn khối liệu 12 5.2.1 Tập hợp mảng nhiều đường cho đầy đủ 13 5.2.2 BUC: Tính tốn khối băng trơi từ Apex 19 5.2.3 Tạo khối sao: Tính tốn khối băng trơi cách sử dụng Cấu trúc động 25 5.2.4 Tính tốn mảnh vỡ vỏ cho nhanh OLAP chiều cao 34 5.3 Xử lý loại câu hỏi nâng cao cách khám phá công nghệ Cube 43 5.3.1 Lấy mẫu khối 43 5.3.2 Xếp hạng khối: Tính tốn hiệu truy vấn Top-k 47 5.4 Phân tích liệu đa chiều không gian khối 49 5.4.1 Khối dự đoán: 50 5.4.2 Khối đa khối: 52 5.5 Bài tập 56 LỞI MỞ ĐẦU Hệ thống kho liệu cung cấp công cụ xử lý phân tích trực tuyến (OLAP) để tương tác phân tích liệu đa chiều mức độ chi tiết khác Các công cụ OLAP thường sử dụng khối liệu mơ hình liệu đa chiều để cung cấp quyền truy cập linh hoạt vào liệu tóm tắt Ví dụ: khối liệu lưu trữ biện pháp tính toán trước (như đếm () tổng doanh số ()) cho nhiều kết hợp kích thước liệu (như mặt hàng, khu vực khách hàng) Người dùng đặt truy vấn OLAP liệu Họ tương tác khám phá liệu theo cách đa chiều thông qua hoạt động OLAP xem chi tiết (để xem thêm liệu chuyên ngành tổng doanh số thành phố) cuộn lên (để xem liệu mức tổng quát mức độ tổng doanh số quốc gia) Mặc dù khái niệm khối liệu ban đầu dành cho OLAP, hữu ích cho việc khai thác liệu Khai thác liệu đa chiều cách tiếp cận để khai thác liệu tích hợp phân tích liệu dựa OLAP với kỹ thuật khám phá kiến thức Nó cịn gọi khai thác liệu đa chiều thăm dò khai thác phân tích trực tuyến (TUỔI) Nó tìm kiếm mẫu thú vị cách khám phá liệu theo nhiều chiều không gian Điều cho phép người dùng tự tập trung linh hoạt vào tập hợp thú vị kích thước Người dùng tương tác truy sâu xuống cuộn lên mức độ trừu tượng khác để tìm mơ hình phân loại, cụm, quy tắc dự đốn ngoại lệ Chương tập trung vào công nghệ khối liệu Đặc biệt, nghiên cứu phương pháp cho tính tốn khối liệu phương pháp để phân tích liệu đa chiều Tính tốn trước khối liệu (hoặc phần khối liệu) cho phép truy cập nhanh liệu tóm tắt Với tính đa chiều cao hầu hết liệu, phân tích đa chiều chạy vào tắc nghẽn hiệu suất Do đó, điều quan trọng nghiên cứu tính tốn khối liệu kỹ thuật May mắn thay, công nghệ khối liệu cung cấp nhiều phương pháp hiệu mở rộng để tính tốn khối Nghiên cứu phương pháp giúp hiểu biết phát triển phương thức mở rộng cho tác vụ khai thác liệu khác khám phá mẫu thường xuyên (Chương 7) Em bắt đầu Phần 5.1 với khái niệm sơ cho tính tốn khối Chúng tóm tắt khái niệm khối liệu mạng khối lập phương mô tả dạng khối vật chất hóa Các chiến lược chung cho tính tốn khối đưa Mục 5.2 sau với nhìn sâu sắc phương pháp cụ thể để tính tốn khối liệu Tập hợp mảng nhiều đường phương pháp chi tiết cho tính tốn khối đầy đủ Phương pháp tính tốn khối lập phương, bao gồm BUC, Star-Cubing việc sử dụng mảnh vỏ hình khối, thảo luận Trong Phần 5.3, em nghiên cứu xử lý truy vấn dựa khối Các kỹ thuật mơ tả xây dựng phương pháp tính tốn tiêu chuẩn trình bày Phần 5.2 khối lấy mẫu để trả lời truy vấn OLAP liệu lấy mẫu (ví dụ: liệu khảo sát, đại diện cho mẫu tập hợp quần thể liệu mục tiêu quan tâm) Ngồi ra, có cách tính khối xếp hạng cho truy vấn top-k (xếp hạng) hiệu xử lý tập liệu quan hệ lớn Trong Phần 5.4 mô tả nhiều cách khác để thực phân tích liệu đa chiều sử dụng khối liệu Các khối dự đoán giới thiệu, tạo điều kiện cho mơ hình dự đốn không gian đa chiều Đánh giá khối đa diện, tính tốn truy vấn phức tạp liên quan đến nhiều tập hợp phụ thuộc nhiều mức độ chi tiết 5.1 Tính tốn khối liệu: Các khái niệm sơ Các khối liệu tạo điều kiện cho việc xử lý phân tích trực tuyến liệu đa chiều "Nhưng cách tính tốn khối liệu trước để chúng tiện dụng sẵn sàng cho xử lý truy vấn? Phần tương phản với vật liệu hóa khối đầy đủ (nghĩa tiền mã hóa) so với chiến lược khác cho vật chất hóa khối phần Để hồn thiện, chúng tơi bắt đầu với việc xem xét thuật ngữ liên quan đến khối liệu Chúng giới thiệu khối ký hiệu hữu ích để mơ tả phương pháp tính tốn khối liệu 5.1.1 Vật liệu hóa khối: Full Cube, Iceberg Cube, Đóng Cube Cube Shell Hình 5.1 cho thấy khối liệu chiều cho kích thước A, B C thước đo tổng hợp, M Các biện pháp thường sử dụng bao gồm đếm (), sum (), (), max () tổng doanh số ( ) Một khối liệu mạng khối Mỗi hình khối đại diện cho nhóm theo ABC sở hình khối, chứa ba kích thước Ở đây, số đo tổng hợp, M, tính cho kết hợp có ba chiều Hình khối sở khái quát tất khối khối liệu Hình khối tổng quát apex cuboid, thường đại diện tất Nó chứa giá trị mà tổng hợp đo M cho tất lưu trữ khối lập phương sở Để sâu vào khối liệu, chúng tơi di chuyển từ đỉnh hình khối trở xuống mạng tinh thể Để cuộn lên, di chuyển từ khối lập phương hướng lên Đối với mục đích thảo luận chương này, sử dụng thuật ngữ khối liệu để mạng khối khối riêng lẻ Hình 5.1 Mạng khối lập phương tạo thành khối liệu chiều với kích thước A, B C cho số biện pháp tổng hợp, M Một tế bào khối lập phương tế bào sở Một tế bào từ khối lập phương tổng hợp tế bào Một ô tổng hợp tổng hợp nhiều thứ ngun, tổng hợp kích thước biểu thị ký hiệu Giả sử có chiều n khối liệu Đặt a = (a1, a2, , an, biện pháp) ô từ khối lập phương lên khối liệu Chúng tơi nói a tế bào m chiều (nghĩa là, từ chiều m hình khối) xác giá trị m (m ≤ n) số {a1, a2, , an} khơng phải Nếu m = n, a tế bào sở; mặt khác, tổng hợp (tức là, m = v, v ≥ sup Thay đếm (), điều kiện tảng băng trơi định biện pháp phức tạp Trung bình cộng() Nếu bỏ qua mệnh đề có, kết thúc với khối đầy đủ Hãy gọi cho bán khối lập phương Khối băng trôi, tảng băng bán hàng, loại trừ tất ô khối bán hàng với đếm tối thiểu sup Rõ ràng, đặt mức hỗ trợ tối thiểu thành tảng băng bán hàng, khối kết khối đầy đủ, khối bán hàng Một cách tiếp cận ngây thơ để tính tốn khối băng trơi lần tính tốn đầy đủ lập phương sau cắt tỉa tế bào khơng thỏa mãn điều kiện tảng băng trơi Tuy nhiên, cịn đắt đỏ Một cách tiếp cận hiệu tính tốn khối băng trực tiếp mà khơng tính tốn khối đầy đủ Phần 5.2.2 5.2.3 thảo luận phương pháp cho tính tốn khối băng hiệu Giới thiệu khối băng trôi giảm bớt gánh nặng tính tốn tế bào tổng hợp tầm thường khối liệu Tuy nhiên, kết thúc với số lượng lớn khơng quan tâm để tính tốn Ví dụ: giả sử có sở cho sở liệu gồm 100 thứ nguyên, ký hiệu {(a1, a2, a3, , a100): 10, (a1, a2, b3, , b100): 10}, có số lượng tế bào 10 Nếu mức hỗ trợ tối thiểu đặt thành 10, có số lượng khơng thể chấp nhận để tính tốn lưu trữ, hầu hết chúng khơng thú vị Ví dụ: có 2101 - tổng hợp riêng biệt, {(a1, a2, a3, a4, , a99, ∗): 10, , (a1, a2, ∗, a4, , a99, a100): 10, , (a1, a2, a3, ∗, , ∗, ∗): 10} , hầu hết chúng không chứa nhiều thông tin Nếu bỏ qua tất ô tổng hợp có cách thay số số ∗ Kiếm giữ nguyên giá trị đo, cịn lại ba riêng biệt: {(a1, a2, a3, , a100): 10, (a1, a2, b3, , b100): 10, (a1, a2, ∗, , ∗): 20} Đó là, số 2101 - ô sở tổng hợp riêng biệt, ba thực cung cấp thông tin có giá trị Để nén cách có hệ thống khối liệu, cần đưa khái niệm đóng phủ sóng Một ơ, c, kín khơng tồn ơ, d, cho d chuyên môn (hậu duệ) ô c (tức là, d thu cách thay c a giá trị không) d có giá trị đo với c Một khối kín khối liệu bao gồm tế bào kín Ví dụ: ba có nguồn gốc đoạn trước ba kín khối liệu cho tập liệu {(a1, a2, a3, , a100): 10, (a1, a2, b3, , b100): 10} Chúng tạo thành mạng tinh thể khép kín thể hình 5.2 Các tế bào khơng tiết lộ khác bắt nguồn từ tương ứng chúng tế bào kín mạng tinh thể Ví dụ, bắt nguồn từ (a1, ∗, ∗, , ∗): Giàn (a1, a2, ∗, ,): 20 vì trước tế bào không tiết lộ sau Tương tự, có điểm (a1, a2, b3, ∗, , ∗): 10 Một chiến lược khác cho vật chất hóa phần tính tốn trước hình khối liên quan đến số lượng nhỏ kích thước ba đến năm Những khối tạo thành khối lập phương cho khối liệu tương ứng Truy vấn kết hợp bổ sung kích thước phải tính tốn bay Ví dụ: tính tốn tất hình khối với ba chiều khối liệu n chiều, dẫn đến vỏ khối có kích thước Tuy nhiên, điều dẫn đến số lượng lớn hình khối để tính tốn, đặc biệt n lớn Ngồi ra, chọn tính tốn trước phần phần vỏ hình khối dựa hình khối quan tâm Mục 5.2.4 thảo luận phương pháp tính tốn mảnh vỏ khám phá cách chúng sử dụng để xử lý truy vấn OLAP hiệu 5.1.2 Chiến lược chung cho tính tốn khối liệu Có số phương pháp để tính tốn khối liệu hiệu quả, dựa loại hình khối khác mơ tả Phần 5.1.1 Nói chung, có hai liệu cấu trúc sử dụng để lưu trữ khối Việc thực OLAP quan hệ (ROLAP) sử dụng bảng quan hệ, mảng đa chiều sử dụng chiều đa chiều OLAP (MOLAP) Mặc dù ROLAP MOLAP người khám phá khối khác kỹ thuật tính tốn, số thủ thuật tối ưu hóa biểu diễn liệu Sau kỹ thuật tối ưu hóa chung cho hiệu tính tốn khối liệu Kỹ thuật tối ưu hóa 1: Sắp xếp, băm nhóm Sắp xếp, băm Các hoạt động nhóm nên áp dụng cho thuộc tính kích thước để xếp lại cụm tuples liên quan Trong tính tốn khối, tập hợp thực (hoặc ô) chia sẻ giá trị kích thước Vì vậy, điều quan trọng khám phá phân loại, băm, nhóm hoạt động để truy cập nhóm liệu lại với để tạo điều kiện tính tốn cho tổng hợp Ví dụ, để tính tổng doanh số theo chi nhánh, ngày mặt hàng, nhiều hiệu để xếp liệu ô theo nhánh sau theo ngày, sau nhóm chúng lại theo tên mặt hàng Thực hiệu hoạt động lớn 10 Như với mở rộng truy vấn intracuboid, kích thước tương quan khơng phép mở rộng intercuboid Trong kích thước khơng tương quan, thử nghiệm t hai mẫu thực để xác nhận cha mẹ truy vấn có chung mẫu trung bình Nếu nhiều cha mẹ vượt qua kiểm tra, mức độ tin cậy Thử nghiệm điều chỉnh cao có qua Ngồi ra, nhiều cha sử dụng để tăng cường tự tin đồng 5.3.2 Xếp hạng khối: Tính tốn hiệu truy vấn Top-k Khối liệu không giúp xử lý phân tích trực tuyến truy vấn đa chiều mà cịn tìm kiếm khai thác liệu Trong phần này, giới thiệu cấu trúc khối gọi Xếp hạng khối kiểm tra xem đóng góp vào việc xử lý hiệu topk truy vấn Thay trả tập hợp lớn câu trả lời bừa bãi cho truy vấn, top-k truy vấn (hoặc truy vấn xếp hạng) trả kết k tốt theo định người dùng ưu tiên Các kết trả theo thứ tự xếp hạng cho tốt Tùy chọn người dùng xác định chung bao gồm hai thành phần: điều kiện lựa chọn chức xếp hạng Các truy vấn top-k phổ biến nhiều ứng dụng tìm kiếm sở liệu web, tìm kiếm hàng xóm gần với kết gần tương tự truy vấn sở liệu đa phươem xét sở liệu xe qua sử dụng trực tuyến, R, trì điều sau thông tin cho xe: nhà sản xuất (ví dụ: Ford, Honda), mẫu xe (ví dụ: Taurus, Accord), loại (ví dụ: sedan, mui trần), màu sắc (ví dụ: đỏ, bạc), truyền (ví dụ: tự động, thủ công), giá cả, số dặm, vân vân Một truy vấn top-k điển hình sở liệu Q1: chọn top * từ Rv Trong nhà sản xuất = ăn Ford Ford loại =vđặt hàng theo (giá - 10K) + (số dặm 30K) ascvTrong kích thước (hoặc thuộc tính) cho R, nhà sản xuất loại sử dụng kết hợp kích thước Hàm xếp hạng đưa mệnh đề theo thứ tự Nó định kích thước xếp hạng, giá số dặm Q1 tìm kiếm xe top sản xuất Ford Các mục tìm thấy xếp hạng xếp theo thứ tự tăng dần (asc), theo xếp hạng gần với giá trị định người dùng, tương ứng $ 10K 30K, xuất phía đứng đầu danh sách Cơ sở liệu có nhiều 47 kích thước sử dụng để lựa chọn, mơ tả, ví dụ, liệu xe có cửa sổ điện, điều hịa khơng khí hay cửa sổ trời Người dùng chọn tập hợp kích thước đưa truy vấn top-k cách sử dụng chức xếp hạng ưa thích chúng Có nhiều kịch ứng dụng tương tự khác Ví dụ tìm kiếm khách sạn, chức xếp hạng thường xây dựng dựa giá khoảng cách đến khu vực quan tâm Điều kiện lựa chọn áp đặt, giả sử, vị trí khách sạn quận, xếp hạng khách sạn có cung cấp dịch vụ miễn phí Internet khơng truy cập Các hàm xếp hạng tuyến tính, bậc hai dạng khác Như thể ví dụ trước, người dùng cá nhân khơng đề xuất ad hoc chức xếp hạng, có tập hợp liệu khác quan tâm Người dùng thường muốn nghiên cứu kỹ lưỡng liệu thơng qua phân tích đa chiều kết truy vấn top-k Dành cho ví dụ: khơng hài lòng với kết top mà Q1 trả về, người dùng tiếp tục kích thước nhà sản xuất để kiểm tra kết top tất dòng xe Bản chất động vấn đề đặt thách thức lớn cho nhà nghiên cứu OLAP yêu cầu tiền mã hóa ngoại tuyến để phân tích đa chiều thực nhanh chóng, quảng cáo chức xếp hạng hoc nghiêm cấm vật chất hóa đầy đủ Một thỏa hiệp tự nhiên chấp nhận vật chất bán ngoại tuyến mơ hình tính tốn bán trực tuyến Giả sử mối quan hệ R có kích thước lựa chọn (A1, A2, , AS) kích thước xếp hạng (N1, N2, , NR) Các giá trị thứ nguyên xếp hạng phân chia thành nhiều khoảng theo liệu phân phối truy vấn dự kiến Về giá ví dụ, số xe qua sử dụng, có bốn phân vùng (hoặc phạm vi giá trị): ≤ 5K, [5 - 10K), [10 - 15K) ≥ 15K Một khối xếp hạng xây dựng cách thực tập hợp đa chiều kích thước lựa chọn Chúng tơi lưu trữ số lượng cho phân vùng thứ ngun xếp hạng, làm cho khối vng nhận biết thứ hạng truy vấn trả lời cách truy cập ô phạm vi giá trị ưu tiên trước tham khảo ý kiến tế bào phạm vi giá trị ưu tiên 48 5.4 Phân tích liệu đa chiều không gian khối Các khối liệu tạo phương tiện linh hoạt mạnh mẽ để nhóm tổng hợp tập hợp liệu Chúng cho phép liệu khám phá kết hợp nhiều chiều mức độ chi tiết tổng hợp khác Khả làm tăng đáng kể băng thơng phân tích giúp khám phá hiệu mẫu kiến thức thú vị từ liệu Việc sử dụng không gian khối làm cho không gian liệu vừa có ý nghĩa vừa kéo Phần trình bày phương pháp phân tích liệu đa chiều sử dụng khối liệu để tổ chức liệu vào vùng quan tâm trực quan mức độ chi tiết khác Mục 5.4.1 trình bày khối dự đốn, kỹ thuật khai thác liệu đa chiều điều tạo điều kiện cho mơ hình dự đốn khơng gian đa chiều Mục 5.4.2 mô tả làm để xây dựng khối đa diện Những hỗ trợ truy vấn phân tích phức tạp liên quan đến nhiều tập hợp phụ thuộc nhiều chi tiết Cuối cùng, Phần 5.4.3 mô tả phương pháp tương tác để người dùng khám phá cách có hệ thống khơng gian khối Trong trường hợp ngoại lệ, thăm dò theo hướng khám phá, trường hợp ngoại lệ dị thường thú vị liệu tự động phát đánh dấu cho người dùng tín hiệu thị giác 49 5.4.1 Khối dự đoán: Khai thác dự đoán không gian khối Gần đây, nhà nghiên cứu chuyển ý họ sang khai thác liệu đa chiều để khám phá kiến thức kết hợp kích thước độ chi tiết khác Như khai thác gọi khai thác liệu đa chiều thăm dị phân tích trực tuyến khai thác liệu (OLAM) Không gian liệu đa chiều lớn Trong việc chuẩn bị liệu, làm xác định không gian thú vị để khám phá? Để độ chi tiết nên tổng hợp liệu? Khai thác liệu đa chiều không gian khối tổ chức liệu quan tâm đến khu vực trực quan mức độ chi tiết khác Nó phân tích khai thác liệu cách áp dụng kỹ thuật khai thác liệu khác cách có hệ thống khu vực Có bốn cách phân tích kiểu OLAP hợp với liệu kỹ thuật khai thác: Sử dụng không gian khối để xác định không gian liệu để khai thác Mỗi vùng không gian khối đại diện cho tập hợp liệu mà chúng tơi muốn tìm mẫu thú vị Không gian khối định nghĩa tập hợp hệ thống phân cấp kích thước thơng tin thiết kế chuyên gia, không tập hợp tùy ý liệu Do đó, việc sử dụng không gian khối làm cho không gian liệu có ý nghĩa dễ kéo Sử dụng truy vấn OLAP để tạo tính mục tiêu để khai thác Các tính chí mục tiêu (mà muốn học để dự đốn) đơi định nghĩa cách tự nhiên OLAP truy vấn tổng hợp vùng không gian khối Sử dụng mơ hình khai thác liệu làm khối xây dựng quy trình khai thác nhiều bước Khai thác liệu đa chiều khơng gian khối bao gồm nhiều bước, khai thác liệu mơ hình xem khối xây dựng sử dụng để mô tả hành vi liệu thú vị, thay kết cuối Sử dụng kỹ thuật tính tốn khối liệu để tăng tốc độ xây dựng mô hình lặp lặp lại Khai thác liệu đa chiều khơng gian khối u cầu xây dựng mơ hình cho khơng gian liệu ứng viên, thường đắt để khả thi Tuy nhiên, cách chia sẻ cẩn thận tính tốn tồn mơ hình xây dựng cho ứng cử viên khác dựa trên kỹ thuật tính tốn khối liệu, khai thác hiệu đạt Trong tiểu mục này, chúng tơi nghiên cứu khối dự đốn, ví dụ liệu đa chiều khai thác khơng gian khối khám phá cho nhiệm vụ dự 50 đoán Một khối dự đoán khối cấu trúc lưu trữ mơ hình dự đốn khơng gian liệu đa chiều hỗ trợ dự đoán theo cách OLAP Hãy nhớ lại khối liệu, giá trị ô tổng hợp số (ví dụ: số) tính tập hợp liệu Tuy nhiên, giá trị khối dự đốn tính cách đánh giá mơ hình dự đốn xây dựng liệu tập hợp đó, đại diện cho tập hợp dự đốn hành vi Thay xem mơ hình dự đốn kết cuối cùng, khối dự đoán sử dụng dự đốn mơ khối xây dựng để xác định tính thú vị tập hợp liệu, nghĩa chúng xác định tập hợp liệu cho biết dự đốn xác Điều giải thích tốt với thí dụ Ví dụ 5.18 Khối dự đốn để xác định khơng gian khối thú vị Giả sử cơng ty có bảng khách hàng với thời gian thuộc tính (với hai mức độ chi tiết: tháng năm), địa điểm (với hai cấp độ chi tiết: tiểu bang quốc gia), giới tính, tiền lương thuộc tính nhãn lớp: khách hàng có giá trị Một người quản lý muốn phân tích q trình định việc khách hàng có đánh giá cao thời gian địa điểm hay không Đặc biệt, anh quan tâm đến câu hỏi Có thời gian địa điểm mà giá trị khách hàng phụ thuộc nhiều vào khách hàng giới tính bạn? Giới thiệu anh tin thời gian vị trí đóng vai trị việc dự đốn khách hàng có giá trị, mức độ chi tiết họ phụ thuộc vào giới tính cho nhiệm vụ này? Ví dụ: thực phân tích {tháng, quốc gia} tốt {năm, tiểu bang}? Xem xét bảng liệu D (ví dụ: bảng khách hàng) Đặt X thuộc tính đặt cho mà khơng có hệ thống phân cấp khái niệm xác định (ví dụ: giới tính, tiền lương) Đặt Y thuộc tính nhãn lớp (ví dụ: khách hàng có giá trị) Z tập hợp thuộc tính đa cấp, nghĩa thuộc tính cho phân cấp khái niệm xác định (ví dụ: thời gian, địa điểm) Cho V tập hợp thuộc tính mà chúng tơi muốn xác định tính dự đốn chúng Trong chúng tơi ví dụ: {giới tính} Dự đốn V tập hợp liệu định lượng khác biệt độ xác mơ hình xây dựng tập hợp X để dự đốn Y mơ hình xây dựng tập hợp X - V (ví dụ: {mức lương}) để dự đốn Y Trực giác là, chênh lệch lớn, V phải đóng vai trị quan trọng dự đốn lớp nhãn Y Cho tập hợp thuộc tính, V thuật toán học tập, khối dự 51 đoán mức độ chi tiết l1, , ld (ví dụ: năm, trạng thái) mảng d chiều, giá trị (ví dụ: [2010, Illinois]) dự đốn V đánh giá tập hợp xác định (ví dụ: ghi bảng khách hàng có thời gian năm 2010 vị trí Illinois) Hỗ trợ thao tác cuộn lên khoan sâu OLAP khối dự đoán thách thức tính tốn địi hỏi cụ thể hóa giá trị tế bào nhiều mức khác độ hạt Để đơn giản, xem xét vật chất hóa đầy đủ Một cách ngây thơ để cụ thể hóa hồn tồn khối dự đốn xây dựng triệt để mơ hình đánh giá chúng cho tế bào độ chi tiết Phương pháp tốn tập liệu sở lớn Một phương pháp tập hợp gọi Tập hợp dựa xác suất (PBE) phát triển thay khả thi Nó địi hỏi xây dựng mơ hình cho hạt tốt tế bào Tập hợp từ lên theo kiểu OLAP sau sử dụng để tạo giá trị tế bào hạt thơ Dự đốn mơ hình dự đốn xem tìm nhãn lớp tối đa hóa chức cho điểm Phương pháp PBE phát triển để tạo chức cho điểm mơ hình dự đốn phân tách Trong thảo luận biện pháp khối liệu Mục 4.2.4, phân phối đại số biện pháp tính tốn hiệu Do đó, hàm tính điểm sử dụng phân phối đại số phân tách được, khối dự đốn tính tốn với hiệu Theo cách này, phương pháp PBE làm giảm tính tốn khối dự đốn cho liệu tính tốn khối lập phương Ví dụ, nghiên cứu trước trình phân loại naıve Bayes có chức chấm điểm đại số, trình phân loại dựa mật độ hạt nhân có chức chấm điểm phân tách phân phối.8 Do đó, hai sử dụng để thực khối dự đốn cách hiệu Phương pháp PBE trình bày cách tiếp cận lạ khai thác liệu đa chiều không gian khối 5.4.2 Khối đa khối: Tập hợp phức tạp nhiều chi tiết Các khối liệu tạo điều kiện thuận lợi cho việc trả lời truy vấn hướng phân tích khai thác chúng cho phép tính tốn liệu tổng hợp nhiều cấp độ chi tiết Khối liệu truyền thống thường xây dựng kích thước thường sử dụng (ví dụ: thời gian, địa điểm sản phẩm) 52 biện pháp đơn giản (ví dụ: đếm (), trung bình () tổng ()) Trong phần này, bạn tìm hiểu cách để xác định khối liệu gọi khối đa biến Khối đa điểm cho phép phân tích sâu Họ tính tốn truy vấn phức tạp biện pháp phụ thuộc vào nhóm nhiều cốt liệu mức độ chi tiết khác Các Các truy vấn đặt phức tạp cụ thể nhiều so với truy vấn truyền thống, minh họa ví dụ Nhiều truy vấn khai thác liệu phức tạp được trả lời khối đa diện mà khơng làm tăng đáng kể chi phí tính tốn, so sánh với tính tốn khối cho truy vấn đơn giản với khối liệu truyền thống Để minh họa ý tưởng khối đa diện, trước tiên, xem ví dụ truy vấn khối liệu đơn giảnVí dụ 5.21 Khám phá theo định hướng khám phá khối liệu Giả sử bạn muốn phân tích doanh số hàng tháng AllElect Electronics phần trăm chênh lệch so với tháng trước Các kích thước liên quan mục, thời gian khu vực Bạn bắt đầu cách nghiên cứu liệutổng hợp tất mặt hàng khu vực bán hàng cho tháng, Hình 5.16 Để xem số ngoại lệ, bạn nhấp vào nút đánh dấu ngoại lệ bật hình Điều chuyển giá trị SelfExp InExp thành tín hiệu trực quan, hiển thị với tế bào Mỗi màu ô di động dựa giá trị SelfExp Ngồi ra, hộp vẽ xung quanh ô, độ dày màu hộp hàm giá trị InExp Các hộp dày biểu thị giá trị InExp cao Trong hai trường hợp, màu đậm mức độ ngoại lệ lớn Ví dụ, hộp tối, dày để bán hàng tháng 7, tháng tháng báo hiệu cho người dùng khám phá cấp thấp tập hợp tế bào cách khoan xuống Việc truy sâu thực dọc theo kích thước tổng hợp mục vùng Cái đường có nhiều ngoại lệ hơn? Để tìm hiểu điều này, bạn chọn quan tâm kích hoạt mơ-đun ngoại lệ đường dẫn tô màu chiều dựa giá trị PathExp tế bào Giá trị phản ánh mức độ bất ngờ đường Giả sử đường dọc theo mục chứa nhiều ngoại lệ Một chi tiết sâu dọc theo kết lát cắt hình 5.17, cho thấy doanh số theo thời gian cho mục Tại thời điểm này, bạn trình bày với nhiều doanh số khác giá trị để phân tích Bằng cách nhấp vào nút ngoại lệ đánh dấu, tín hiệu thị giác hiển thị, mang lại trọng tâm cho 53 ngoại lệ Hãy xem xét mức chênh lệch doanh số 41% cho Sony b / w máy in vào tháng Ô có tối, biểu thị SelfExp cao giá trị, có nghĩa tế bào ngoại lệ Hãy xem xét mức chênh lệch doanh số 15% cho máy in Sony b / w Máy in tháng 11 tháng 11% tháng 12 Giá trị −11% cho Tháng 12 đánh dấu ngoại lệ, giá trị −15% khơng, 15% độ lệch lớn −11% Điều số ngoại lệ xem xét tất kích thước mà ô Lưu ý doanh số tháng 12 hầu hết mặt hàng khác có giá trị dương lớn, doanh số tháng 11 khơng Do đó, cách xem xét vị trí di động khối lập phương, khác biệt doanh số cho máy in b / w Sony Sony vào tháng 12 đặc biệt, chênh lệch doanh số tháng 11 mặt hàng khơng Các giá trị InExp sử dụng để ngoại lệ mức thấp khơng thể nhìn thấy cấp độ Hãy xem xét tế bào cho máy tính để bàn IBM IBM vào tháng Tháng Chín Cả hai có hộp tối, dày xung quanh chúng, cho thấy giá trị InExp cao Bạn định khám phá thêm doanh số máy tính để bàn IBM IBM cách khoan xuống dọc theo khu vực Kết chênh lệch doanh số theo khu vực thể Hình 5.18, tùy chọn ngoại lệ bật gọi Các tín hiệu thị giác hiển thị làm cho dễ dàng nhận thấy ngoại lệ cho doanh số máy tính để bàn IBM IBM phía nam khu vực, nơi doanh số giảm −39% −34% tháng tháng 9, tương ứng Những ngoại lệ chi tiết không rõ ràng xem liệu dạng nhóm theo thời gian mục, tổng hợp theo vùng Hình 5.17 Do đó, InExp giá trị hữu ích cho việc tìm kiếm ngoại lệ ô cấp thấp khối Các giá trị ngoại lệ tính nào? Các biện pháp SelfExp, InExp PathExp dựa phương pháp thống kê để phân tích bảng Họ tính đến tất theo nhóm (tập hợp) giá trị ô cho tham gia Giá trị ô coi ngoại lệ dựa mức độ khác với giá trị dự kiến nó, giá trị giá trị mong đợi xác định với mơ hình thống kê Sự khác biệt cho trước giá trị ô giá trị mong đợi gọi phần dư Theo trực giác, phần dư lớn, giá trị ô cho ngoại lệ Việc so sánh giá trị lại địi hỏi chúng tơi chia tỷ lệ giá trị dựa độ lệch chuẩn dự kiến liên quan đến phần dư Do đó, giá trị 54 coi ngoại lệ giá trị lại chia tỷ lệ vượt ngưỡng định trước Các biện pháp SelfExp, InExp PathExp dựa điều tỷ lệ dư Giá trị mong đợi ô cho hàm nhóm cấp cao tế bào cho Ví dụ: cho khối lập phương có ba chiều A, B C, dự kiến giá trị cho ô vị trí thứ i A, vị trí thứ j B vị trí thứ k C a chức γ, A tôi, γ B j, γ C k, γ AB ij, γ AC ik γ BC jk, hệ số thống kê mơ hình sử dụng Các hệ số phản ánh mức độ khác giá trị mức chi tiết hơn, dựa ấn tượng tổng quát hình thành cách xem xét tập hợp cấp cao Trong cách, chất lượng ngoại lệ giá trị ô dựa ngoại lệ giá trị bên Do đó, thấy ngoại lệ, việc người dùng khám phá thêm ngoại lệ điều đương nhiên cách khoan xuống Làm khối liệu xây dựng cách hiệu để khám phá theo định hướng khám phá? Tính tốn bao gồm ba giai đoạn Bước liên quan đến tính tốn giá trị tổng hợp xác định khối, chẳng hạn tổng đếm, qua ngoại lệ tìm Giai đoạn thứ hai bao gồm phù hợp mơ hình, hệ số đề cập trước xác định sử dụng để tính phần dư tiêu chuẩn hóa Giai đoạn bị chồng chéo với giai đoạn tính tốn liên quan tương tự Các giai đoạn thứ ba tính tốn giá trị SelfExp, InExp PathExp, dựa tiêu chuẩn dư Giai đoạn tương tự tính tốn với giai đoạn Do đó, tính tốn khối liệu để khám phá theo định hướng khám phá thực cách hiệu Tóm tắt 5.5 Tính tốn thăm dị khối liệu đóng vai trị thiết yếu kho liệu quan trọng để khai thác liệu linh hoạt không gian đa chiều Một khối liệu bao gồm mạng khối Mỗi hình khối tương ứng với khác mức độ tóm tắt liệu đa chiều định Vật chất hóa đầy đủ đề cập đến tính tốn tất khối mạng khối liệu Vật chất hóa phần đề cập đến tính tốn chọn lọc tập hợp hình khối mạng tinh thể Khối băng mảnh vỏ ví dụ vật chất hóa phần An khối băng khối liệu lưu trữ khối có tổng hợp giá trị (ví dụ: tính) số ngưỡng hỗ trợ tối thiểu Đối với mảnh vỏ khối liệu, số hình khối liên quan đến số lượng kích thước nhỏ tính tốn truy vấn kết hợp kích thước bổ sung 55 tính tốn cách nhanh chóng Có số phương pháp tính tốn khối liệu hiệu Trong chương này, thảo luận chi tiết bốn phương pháp tính tốn khối: (1) Tập hợp mảng MultiWay cho cụ thể hóa khối liệu đầy đủ tính tốn thưa thớt dựa mảng, từ lên, chia sẻ; (2) BUC để tính tốn khối băng trơi cách khám phá thứ tự xếp cho hiệu tính tốn từ xuống; (3) StarCubing để tính tốn khối băng trơi cách tích hợp tính tốn từ xuống từ lên cấu trúc sao; (4) tạo khối shellfragment, hỗ trợ OLAP chiều cao cách tính tốn trước mảnh vỏ hình khối phân vùng Khai thác liệu đa chiều khơng gian khối tích hợp khám phá tri thức với khối liệu đa chiều Nó tạo điều kiện cho kiến thức có hệ thống tập trung khám phá tập liệu có cấu trúc lớn bán cấu trúc Nó tiếp tục ban tặng nhà phân tích với linh hoạt sức mạnh to lớn phân tích thăm dò đa chiều đa phương Đây khu vực rộng lớn để nhà nghiên cứu xây dựng mạnh mẽ chế khai thác liệu tinh vi Kỹ thuật xử lý truy vấn nâng cao đề xuất để tận dụng lợi công nghệ khối Chúng bao gồm khối lấy mẫu để phân tích đa chiều liệu lấy mẫu khối xếp hạng để xử lý truy vấn top-k (xếp hạng) hiệu liệu quan hệ lớn Chương nhấn mạnh ba cách tiếp cận để phân tích liệu đa chiều với khối liệu Các khối dự đốn tính tốn mơ hình dự đốn theo nhiều chiều khơng gian khối Chúng giúp người dùng xác định tập hợp liệu thú vị mức độ khác độ chi tiết để dự đoán hiệu Các khối đa biến tính truy vấn phức tạp liên quan đến nhiều tập hợp phụ thuộc nhiều mức độ chi tiết Dựa ngoại lệ, khám phá theo hướng khám phá khơng gian khối hiển thị tín hiệu trực quan để ngoại lệ liệu phát tất cấp độ tổng hợp, từ hướng dẫn người dùng liệu trình phân tích 5.5 Bài tập 5.1 Giả sử hình khối sở 10-D chứa ba sở: (1) (a1, d2, d3, d4, , d9, d10), (2) (d1, b2, d3, d4, , d9, d10) (3) (d1, d2, c3, d4, , d9, d10), a1 = = d1, b2 = d2 c3 = d3 Số đo khối lập phương tính () 56 (a) Có khối lập phương khơng chứa khối liệu đầy đủ? (b) Có tổng hợp không chứa (tức khối) chứa khối đầy đủ? (c) Một khối băng tổng hợp không chứa khối băng chứa điều kiện khối băng trôi số đếm ≥ 2? (d) Một ơ, c, kín khơng tồn ô, d, cho d chuyên mơn c (tức là, d có cách thay c giá trị khơng) d có đo giá trị c Một khối kín khối liệu bao gồm kín Làm nhiều kín nằm khối đầy đủ? 5.2 Có số phương pháp tính tốn khối điển hình, MultiWay [ZDN97], BUC [BR99] Tạo hình [XHLW03] Mơ tả ngắn gọn ba phương pháp (tức sử dụng phương pháp hai dịng để phác thảo điểm chính), so sánh tính khả thi hiệu suất chúng Trong điều kiện sau: (a) Tính khối đầy đủ dày đặc có kích thước thấp (ví dụ: tám kích thước) (b) Tính tốn khối băng trơi có kích thước khoảng 10 chiều với liệu bị sai lệch cao phân phối (c) Tính tốn khối băng trơi thưa thớt có chiều hướng cao (ví dụ: 100 kích thước) 5.3 Giả sử khối liệu, C, có kích thước D khối lập phương sở chứa k khác biệt tuple (a) Trình bày cơng thức để tính số lượng tối thiểu mà khối lập phương, C, Lưu trữ (b) Trình bày cơng thức để tính số lượng tối đa mà C chứa 57 (c) Trả lời phần (a) (b) thể số đếm hình lập phương phải khơng a ngưỡng, v (d) Trả lời phần (a) (b) thể xem xét kín (với mức tối thiểu đếm ngưỡng, v) 5.4 Giả sử hình khối sở có ba chiều, A, B, C, với số sau tế bào: | A | = 1.000.000, | B | = 100 | C | = 1000 Giả sử chiều chia thành 10 phần để chunking (a) Giả sử chiều có cấp, vẽ mạng tinh thể hồn chỉnh khối lập phương (b) Nếu hình khối lưu trữ số đo có bốn byte, tổng kích thước khối lập phương tính tốn khối lập phương dày đặc? (c) Nêu thứ tự tính tốn khối khối u cầu số lượng không gian tính tổng dung lượng nhớ cần thiết cho tính tốn mặt phẳng chiều 5.5 Thông thường, giá trị đếm tổng nhiều ô khối liệu lớn 0, dẫn đến ma trận đa chiều, thưa thớt, đa chiều (a) Thiết kế phương thức thực khắc phục cách tao nhã ma trận thưa thớt vấn đề Lưu ý bạn cần giải thích chi tiết cấu trúc liệu thảo luận không gian cần thiết, cách lấy liệu từ cấu trúc bạn (b) Sửa đổi thiết kế bạn (a) để xử lý cập nhật liệu gia tăng Đưa lý luận đằng sau thiết kế bạn 5.6 Khi tính tốn khối lập phương có chiều cao, gặp phải lời nguyền cố hữu vấn đề chiều: tồn số lượng lớn tập hợp kích thước (a) Giả sử có hai sở, {(a1, a2, a3, , a100) (a1, a2, b3, , b100)}, hình khối sở 100-D Tính tốn tổng số khơng trống tế bào Nhận xét không gian lưu trữ thời gian cần thiết để tính tốn 58 (b) Giả sử tính tốn khối băng từ (a) Nếu số lượng hỗ trợ tối thiểu điều kiện tảng băng 2, có tế bào tổng hợp tảng băng khối lập phương? Hiển thị tế bào (c) Giới thiệu khối băng trơi giảm bớt gánh nặng tính tốn tế bào tổng hợp tầm thường khối liệu Tuy nhiên, với khối băng trơi, phải tính tốn số lượng lớn ô không quan tâm tầm thường (nghĩa là, với số lượng nhỏ) Giả sử sở liệu có 20 liệu ánh xạ tới (hoặc bao gồm) hai sở sau ô hình khối sở 100 D, ô có số lượng ô 10: {(a1, a2, a3, , a100): 10, (a1, a2, b3, , b100): 10} Tôi Đặt mức hỗ trợ tối thiểu 10 Có tổng hợp riêng biệt có dạng sau: {(a1, a2, a3, a4, , a99, ∗): 10, , (a1, a2, ∗, a4, , a99, a100): 10 , , (a1, a2, a3, ∗, , ∗, ∗): 10}? ii Nếu bỏ qua tất ô tổng hợp thu cách thay số số ∗ giữ nguyên giá trị đo, có khác biệt cịn lại? Các tế bào gì? 5.7 Đề xuất thuật tốn tính tốn khối băng trơi khép kín cách hiệu 5,8 Giả sử muốn tính tốn khối băng cho kích thước, A, B, C, D, chúng tơi muốn cụ thể hóa tất thỏa mãn số lượng hỗ trợ tối thiểu v cardinality (A)