Bài giảng Khai phá dữ liệu: Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu, cung cấp cho người học những kiến thức như: Vai trò của hiểu dữ liệu; Đối tượng dữ liệu và kiểu thuộc tính; Độ đo tương tự và không tương tự của dữ liệu; Thu thập dữ liệu; Mô tả thống kê cơ bản của dữ liệu; Trực quan hóa dữ liệu; Đánh giá và lập hồ sơ dữ liệu;... Mời các bạn cùng tham khảo!
Chương Hiểu liệu tiền xử lý liệu Nội dung Hiểu liệu Vai trò hiểu liệu Đối tượng DL kiểu thuộc tính Độ đo tương tự không tương tự DL Thu thập liệu Mô tả thống kê DL Trực quan hóa DL Đánh giá lập hồ sơ DL Tiền xử lý liệu Vai trò tiền xử lý liệu Làm liệu Tích hợp chuyển dạng liệu Rút gọn liệu Rời rạc sinh kiến trúc khái niệm DM DW 125 Hiểu liệu Vai trò hiểu liệu Đối tượng liệu kiểu thuộc tính Độ đo tương tự không tương tự Thu thập liệu Mô tả thống kê DL Trực quan hóa DL Đánh giá lập hồ sơ DL DM DW 126 1.1 Vai trò hiểu liệu: mơ hình KPDL hướng BI Mơ hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu liệu hiểu thương mại điện tử DM DW 127 Vai trò hiểu liệu: Một mơ hình KPDL hướng ứng dụng Mơ hình q trình khai phá liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu liệu”, Bước P4 “Tiền xử lý liệu” DM DW 128 Hiểu liệu qua hai phiên sách Thay đổi đáng kể từ phiên 2006 tới phiên 2011: Phiên 2011 nhấn mạnh Hiểu liệu ! DM DW 129 1.2 Kiểu tập liệu team coach pla y ball score game wi n lost timeout season Bản ghi Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng chéo… Dữ liệu tài liệu: Tài liệu văn dùng vector tần số từ … Document Dữ liệu giao dịch Document Đồ thị mạng World Wide Web Document Mạng xã hội mạng thông tin Cấu trúc phân tử Thứ tự Dữ liệu Video: dãy ảnh Dữ liệu thời gian: chuỗi thời gian Dữ liệu dãy: dãy giao dịch Dữ liệu dãy gene Không gian, ảnh đa phương tiện: DL không gian: đồ Dữ liệu ảnh, Dữ liệu Video 2 0 0 0 2 TID Items Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk DM DW 130 Đặc trưng quan trọng DL có cấu trúc Kích thước Tai họa kích thước lớn Thưa Chỉ mang tính diện Phân tích Mẫu phụ thuộc quy mô Phân bố Tập trung phân tán DM DW 131 Đối tượng liệu Tập DL tạo nên từ đối tượng DL Mỗi đối tượng liệu (data object) trình bày thực thể Ví dụ: CSDL bán hàng: Khách hàng, mục lưu, doanh số CSDL y tế: bệnh nhân, điều trị CSDL đại học: sinh viên, giáo sư, mơn học Tên khác: mẫu (samples ), ví dụ (examples), thể (instances), điểm DL (data points), đối tượng (objects), (tuples) Đối tượng DL mô tả thuộc tính (attributes) Dịng CSDL -> đối tượng DL; cột ->thuộc tính DM DW 132 Thuộc tính Thuộc tính_Attribute (hoặc chiều_dimension, đặc trưng_features, biến_variables): trường DL biểu diễn thuộc tính/đặc trưng đối tượng DL Ví dụ, ChisoKH, tên, địa Kiểu: Đinh danh Nhị phân Số: định lượng • Cỡ khoảng • Cỡ tỷ lệ DM DW 133 Phân tích mơ hình hồi quy tuyến tính logarit Hồi quy tuyến tính: Y = + X Hai tham số, đặc trưng cho đường xấp xỉ qua liệu nắm bắt Sử dụng chiến lược BP tối thiếu tới giá trị biết Y1, Y2, …, X1, X2, … Hồi quy đa chiều: Y = b0 + b1 X1 + b2 X2 Nhiều hàm khơng tuyến tính chuyển dạng Mơ hình tuyến tính loga: Bảng đa chiều xác suất tích nối xấp xỉ tích bảng bậc thấp Xác suất: p(a, b, c, d) = ab acad bcd DM DW 198 Lược đồ (Histograms) Kỹ thuật rút gọn liệu phổ biến Phân liệu vào thùng giữ trunh bình (tổng) thùng Có thể dựng tối ưu hóa theo chiều dùng quy hoạch động Có quan hệ tới tốn lượng tử hóa 40 35 30 25 20 15 10 10000 30000 50000 70000 DM DW 90000199 Phân cụm Phân tập DL thành cụm, cần lưu trữ đại diện cụm Có thể hiệu DL phân cụm mà khơng chứa liệu “bẩn” Có thể phân cụm phân cấp lưu trữ cấu trúc số đa chiều Tồn tài nhiều lựa chọn cho xác định phân cụm thuật toán phân cụm DM DW 200 Rút gọn mẫu (Sampling) Cho phép thuật toán khai phá chạy theo độ phức tạp tựa tuyến tính theo cỡ DL Lựa chọn tập trình diễn liệu Lấy mẫu ngẫu nhiên đơn giản có hiệu tồi có DL lệch Phát triển phương pháp lấy mẫu thích nghi Lấy mẫu phân tầng: • Xấp xỉ theo phần trăm lớp (hoặc phận nhận diện theo quan tâm) CSDL tổng thể • Sử dụng kết hợp với liệu lệch Lẫy mẫu khơng rút gọn CSDL DM DW 201 Rút gọn mẫu (Sampling) Simple Random Sampling (SRS) SRS with replacement (SRSWR) Chọn phần tử dữ liệu đưa vào mẫu Loại bỏ phần tử dữ liệu đó khỏi tập dữ liệu Lặp tiếp có n phần tử dữ liệu SRS without replacement (SRSWOR) Các phần tử dữ liệu giống có thể chọn nhiều lần Chọn phần tử và không bị loại bỏ Các mẫu DL phân biệt Ví dụ: Chọn mẫu (n) phần tử từ tập dữ liệu DM DW 202 Rút gọn mẫu (Sampling) Raw Data Mẫu cụm/phân tầng DM DW 203 Rút gọn phân cấp Dùng cấu trúc đa phân giải với mức độ khác rút gọn Phân cụm phân cấp thường thi hành song có khuynh hướng xác định phân vùng DL hớn “phân cụm” Phương pháp tham số thường khơng tn theo trình bày phân cấp Tích hợp phân cấp Một số chia phân cấp tập DL thành vùng miền giá trị vài thuộc tính Mỗi vùng coi thùng Như vậy, số với tích hợp lưu trữ nút sơ đồ phân cấp DM DW 204 Rời rạc hóa Ba kiểu thuộc tính: Định danh — giá trị từ tập khơng có thứ tự Thứ tự — giá trị từ tập Liên tục — số thực Rời rạc hóa: Chia miền thuộc tính liên tục thành đoạn Một vài thuật toán phân lớp chấp nhận thuộc tính phân loại Rút gọn cỡ DL rời rạc hóa Chuẩn bị cho phân tích DM DW 205 2.5 Rời rạc hóa kiến trúc khái niệm Rời rạc hóa Rút gọn số lượng giá trị thuộc tính liên tục cách chia miền giá trị thuộc tính thành đoạn Nhãn đoạn sau dùng để thay giá trị thực Phân cấp khái niệm Rút gọn DL tập hợp thay khái niệm mức thấp (như giá trị số thuộc tính tuổi) khái niệm mức cao (như trẻ, trung niên, già) DM DW 206 Rời rạc hóa & kiến trúc khái niệm DL số Phân thùng (xem làm trơn khử nhiễu) Phân tích sơ đồ (đã giới thiệu) Phân tích cụm (đã giới thiệu) Rời rạc hóa dựa theo Entropy Phân đoạn phân chia tự nhiên DM DW 207 Rời rạc hóa dựa Entropy Cho tập ví dụ S, S chia thành đoạn S1 S2 dùng biên T, entropy sau phân đoạn E (S ,T ) | S1| | S| Ent ( S1) |S 2| | S| Ent ( S 2) Biên làm cực tiểu hàm entropy tất biên chọn rời rạc hóa nhị phân Quá trình đệ quy tới vùng đạt điều kiện dừng đó, Ent ( S ) E (T , S ) Thực nghiệm cho phép rút gọn cỡ DL tăng độ xác phân lớp DM DW 208 Phân đoạn phân hoạch tự nhiên Quy tắc đơn giản 3-4-5 dùng để phân đoạn liệu số thành đoạn tương đối thống nhất, “tự nhiên” Hướng tới số giá trị khác biệt vùng quan trọng Nếu 3, 6, giá trị khác biệt chia miền thành đoạn tương đương Nếu phủ 2, 4, giá trị phân biệt chia thành Nếu phủ 1, 5, 10 giá trị phân biệt chia thành DM DW 209 Ví dụ luật 3-4-5 count Step 1: Step 2: -$351 -$159 Min Low (i.e, 5%-tile) msd=1,000 profit Low=-$1,000 (-$1,000 - 0) (-$400 - 0) (-$200 -$100) (-$100 0) Max High=$2,000 ($1,000 - $2,000) (0 -$ 1,000) (-$4000 -$5,000) Step 4: (-$300 -$200) High(i.e, 95%-0 tile) $4,700 (-$1,000 - $2,000) Step 3: (-$400 -$300) $1,838 ($1,000 - $2, 000) (0 - $1,000) (0 $200) ($1,000 $1,200) ($200 $400) ($1,200 $1,400) ($1,400 $1,600) ($400 $600) ($600 $800) ($800 $1,000) ($1,600 ($1,800 $1,800) $2,000) ($2,000 - $5, 000) ($2,000 $3,000) ($3,000 $4,000) ($4,000 $5,000) DM DW 210 Sinh kiến trúc khái niệm cho liẹu phân loại Đặc tả thứ tự phận giá trị thuộc tính theo mức sơ đồ người dùng chuyên gias street