Data warehuose and data mining
Data warehouse & Data mining Topic 13 Giáo viên lý thuyết: Nguyễn Trần Minh Thư Nhóm thực hiện: 09 Thành viên: 0512173 – Nguyễn Khoa 0512256 – Vũ Đình Phong 0512262 – Đoàn Thu Phương 0512292 – Phạm Minh Sang 0512446 – Hồ Hồng Ánh Nội Dung • Kho liệu (Data warehouse) • Khai thác liệu (Data mining) – Giới thiệu – Giới thiệu – Qui trình khám phá tri thức – Định nghĩa – DW - Traditional Database – Luật kết hợp – Mục đích – Cách tiếp cận vấn đề KTDL – Đặc trưng – Ứng dụng – Kiến trúc – Các công cụ KTDL đai sử – Úng dụng dụng thương mại – Khó khăn Giới thiệu DW Kho liệu tuyển tập sở liệu tích hợp, hướng chủ đề, thiết kế để hỗ trợ cho chức trợ giúp định Công nghệ kho liệu (Data Warehouse Technology) tập phương pháp + kỹ thuật cơng cụ kết hợp, hỗ trợ cung cấp thông tin cho người sử dụng sở tích hợp từ nhiều nguồn liệu, nhiều môi trường khác Định nghĩa Kho Dữ Liệu W.H.Inmon Subject Oriented Integrated Data Warehouse Non Volatile Time Variant Định nghĩa Kho Dữ Liệu (tt) • • Theo Pandora, Swinburn University : – Là phương thức cho việc kết nối liệu từ nhiều hệ thống khác – Là điểm truy cập tập trung liệu tổ chức – Được trình bày khng dạng thích hợp – Là hệ thống đọc – Cho phép thiết lập báo cáo tổng hợp ứng dụng Theo Paul Lucas, IBM: – Là nơi lưu trữ liệu đầy đủ quán consistent – Được tổng hợp từ nhiều nguồn – Được làm sẵn cho người sử dụng cuối – Dễ hiểu Đặc trưng • • • • • Tính tích hợp (Integration) Dữ liệu gắn thời gian có tính lịch sử Dữ liệu có tính ổn định (nonvolatility) Dữ liệu không biến động Dữ liệu tổng hợp Hướng chủ thể • Được tổ chức xung quanh chủ thể chính, khách hàng (customer), sản phẩm (product), bán hàng (sales) • Tập trung vào việc mơ hình hóa phân tích liệu cho nhà đưa định, mà không tập trung vào hoạt động hay xử lý hàng ngày • • Cung cấp khung nhìn đơn giản súc tích xung quanh kiện chủ thể Các chủ thể điển hình – Các tài khoản khách hàng – Việc bán hàng – Tiền tiết kiệm khách hàng – Các yêu sách bảo hiểm – Đặt chỗ hành khách 5/12/2009 Tích hợp • Savings • Application • Current • Accounts • Application • Loans • Application • Operational Environment • Subject = Customer • Data Warehouse Biến thời gian • Time • Data • 01/97 Data for January • • 02/97 Data for February • • 03/97 Data for March • • Data • Warehouse Ổn Định • Là lưu trữ vật lý liệu chuyển đổi từ mơi trường tác nghiệp • Cập nhật tác nghiệp liệu không xuất môi trường kho liệu – Không yêu cầu chế xử lý toàn tác, phục hồi điều khiển tương tranh – Chỉ yêu cầu hai thao tác kho liệu: Nạp truy cập liệu Qui trình tìm LKH Input: S (tập phổ biến), minsup,minconf Output: X (tập LKH) B1 B2 Với Si Kiểm tra sup(Si) < minsup loại Si khỏi S Với Si Với A tập Si & A khác rỗng if(conf (A ⇒ (Si - A)) >= minconf) thêm A vào X return X Thuật toán dựa luật kết hợp Kiểm tra mức độ hỗ trợ hạng mục có chiều dài 1, gọi 1itemsets, cách quét toàn sở liệu Bỏ qua thành phần có mức hỗ trợ thắp so yêu cầu Mở rộng 1-itemsets thành 2-itemsets cách thêm vào item cho phần, để tạo ứng viên hạng mục có chiều dài Kiểm tra mức hỗ trợ ứng viên hạng mục cách quét vào sở liệu loại hạng mục không đáp ứng độ phổ biến Lặp lại bước trên; tới bước k, tập ứng cử viên xác định dựa vào tập mục lớn xác định vòng k – Quá trình xác định tập mục kết thúc không xác định thêm tập mục lớn Một số thuật toán thường gặp: – Thuật tốn Apriori (1994): • tìm kiếm theo chiều rộng – Thuật toán Sampling – Thuật toán FP, FP-Growth(2000): • phát triển mẫu – Thuật toán Charm (2002): • tìm kiếm CSDL dạng dọc Luật kết hợp Hệ phân cấp • Đó loại kết hợp đặc biệt ý lí đặc biệt • Những mối kết hợp xảy hệ thống cấp bậc mẫu tin Điển hình, chia mẫu tin hệ phân cấp độc lập dựa tính chất tự nhiên miền giá trị – Ví dụ: thức ăn siêu thị hạng mục tầng hay quần áo tiệm đồ thể thao phân loại theo lớp phân lớp Mối kết hợp phủ định • Vấn đề khai thác mối kết hợp phủ định khó so với khai thác mối kết hợp ngẫu nhiên • Một phủ định mối kết hợp hiểu :”60% khách hàng mua khoai tây chiên mà không mua nước uống” (Ở đây, 60% tương ứng với độ tin cậy dành cho luật phủ định mối kết hợp.) Cách tiếp cận vấn đề KTDL khác • • • • • • • • Khám phá mẫu liên tục Khám phá mẫu theo thời gian Khám phá luật phân lớp Hồi quy Mạng nơron Các thuật toán di truyền Gom nhóm Phân loại Khám phá mẫu liên tục • Tập hạng mục liên tục • Ví dụ : {milk, bread, juice}, {bread, eggs}, {cookies, milk, coffe} • Độ Support supp(X) = count(X)/|D| => supp(X) >= minsupp Khám phá mẫu theo thời gian • Chuỗi thời gian • Các mẫu theo chuỗi thời gian => phân tích mẫu tập để trích xuất thông tin cần thiết Khám phá luật phân lớp • Phân lớp : trình học chức để phân loại chủ thể cho trước thành nhiều lớp hợp lý (var1 in range1) & (var2 in range2) & (varn in rangen) Hồi qui Mạng Neural • Mạng nơron : – Bắt nguồn từ lĩnh vực nghiên cứu trí tuệ nhân tạo – Sử dụng phép hồi quy suy rộng • Phân loại : – Mạng giám sát : thuật toán tạo hàm ánh xạ liệu vào tới kết mong muốn – Mạng khơng giám sát : mơ hình hóa tập liệu, khơng có sẵn ví dụ gán nhãn Thuật giải di truyền • Các thuật toán di truyền dựa ẩn dụ sinh học • Các thuật tốn xem việc học cạnh tranh quần thể gồm lời giải ứng viên tiến hóa tốn Gom nhóm & Phân Cụm • Gom nhóm (Phân cụm) : q trình nhóm đối tượng thành nhóm/cụm/lớp có ý nghĩa Các đối tượng nhóm có nhiều tính chất chung có tính chất khác với đối tượng nhóm khác • Phân lớp : học có giám sát • Gom nhóm : học khơng có giám sát Các ứng dụng KTDL Click to edit Master text styles Second level Third level Fourth level Fifth level Q&A ... trong qui trình KDD Pattern Evaluation Data mining Task relevant data Data warehouse Data cleaning Knowledge Data integration selection Mục đích KTDL Data Mining Descriptive Predictive Classification... Environment • Subject = Customer • Data Warehouse Biến thời gian • Time • Data • 01/97 Data for January • • 02/97 Data for February • • 03/97 Data for March • • Data • Warehouse Ổn Định • Là lưu...Nội Dung • Kho liệu (Data warehouse) • Khai thác liệu (Data mining) – Giới thiệu – Giới thiệu – Qui trình khám phá tri thức – Định nghĩa – DW - Traditional Database – Luật kết hợp – Mục