Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
1,45 MB
Nội dung
Bài giảng môn học KHAI PHÁ DỮ LIỆU CHƯƠNG HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU May 7, 2017 Khai phá liệu: Chương Chương 3: Tiền xử lý liệu Hiểu liệu Vai trò hiểu liệu Đối tượng DL kiểu thuộc tính Độ đo tương tự không tương tự DL Thu thập liệu Mô tả thống kê DL Trực quan hóa DL Đánh giá lập hồ sơ DL Tiền xử lý liệu May 7, 2017 Vai trò tiền xử lý liệu Làm liệu Tích hợp chuyển dạng liệu Rút gọn liệu Rời rạc sinh kiến trúc khái niệm Hiểu liệu Vai trò hiểu liệu Đối tượng liệu kiểu thuộc tính Độ đo tương tự không tương tự Thu thập liệu Mô tả thống kê DL Trực quan hóa DL Đánh giá lập hồ sơ DL May 7, 2017 3.1.1 Vai trò hiểu liệu: mô hình KPDL hướng BI Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu liệu hiểu thương mại điện tử May 7, 2017 Vai trò hiểu liệu: Một mô hình KPDL hướng ứng dụng Mô hình trình khai phá liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu liệu”, Bước P4 “Tiền xử lý liệu” May 7, 2017 Hiểu liệu qua hai phiên sách Thay đổi đáng kể từ phiên 2006 tới phiên 2010: Phiên 2011 nhấn mạnh Hiểu liệu ! May 7, 2017 3.1.2 Kiểu tập liệu Bản ghi Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng chéo… Dữ liệu tài liệu: Tài liệu văn dùng vector tần số từ … Dữ liệu giao dịch Đồ thị mạng World Wide Web Mạng xã hội mạng thông tin Cấu trúc phân tử Thứ tự Dữ liệu Video: dãy ảnh Dữ liệu thời gian: chuỗi thời gian Dữ liệu dãy: dãy giao dịch Dữ liệu dãy gene Không gian, ảnh đa phương tiện: DL không gian: đồ Dữ liệu ảnh, TID Items Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Dữ liệu Video Đặc trưng quan trọng DL có cấu trúc Kích thước Thưa Mẫu phụ thuộc quy mô Phân bố Chỉ mang tính diện Phân tích Tai họa kích thước lớn Tập trung phân tán Đối tượng liệu Tập DL tạo nên từ đối tượng DL Mỗi đối tượng liệu (data object) trình bày thực thể Ví dụ: CSDL bán hàng: Khách hàng, mục lưu, doanh số CSDL y tế: bệnh nhân, điều trị CSDL đại học: sinh viên, giáo sư, môn học Tên khác: mẫu (samples ), ví dụ (examples), thể (instances), điểm DL (data points), đối tượng (objects), (tuples) Đối tượng DL mô tả thuộc tính (attributes) Dòng CSDL -> đối tượng DL; cột ->thuộc tính Thuộc tính Thuộc tính_Attribute (hoặc chiều_dimension, đặc trưng_features, biến_variables): trường DL biểu diễn thuộc tính/đặc trưng đối tượng DL Kiểu: 10 Ví dụ, ChisoKH, tên, địa Đinh danh Nhị phân Số: định lượng Cỡ khoảng Cỡ tỷ lệ Phân tích hồi quy mô hình logarit tuyến tính Hồi quy tuyến tính: Y = α + β X Hai tham số, α β đặc trưng cho đường xấp xỉ qua liệu nắm bắt Sử dụng chiến lược BP tối thiếu tới giá trị biết Y1, Y2, …, X1, X2, … Hồi quy đa chiều: Y = b0 + b1 X1 + b2 X2 Nhiều hàm không tuyến tính chuyển dạng Mô hình tuyến tính loga: Bảng đa chiều xác suất tích nối xấp xỉ tích bảng bậc thấp Xác suất: p(a, b, c, d) = αab βacχad δbcd Lược đồ (Histograms) Kỹ thuật rút gọn liệu phổ biến Phân liệu vào thùng giữ trunh bình (tổng) thùng Có thể dựng tối ưu hóa theo chiều dùng quy hoạch động Có quan hệ tới toán lượng tử hóa May 7, 2017 74 Phân cụm Phân tập DL thành cụm, cần lưu trữ đại diện cụm Có thể hiệu DL phân cụm mà không chứa liệu “bẩn” Có thể phân cụm phân cấp lưu trữ cấu trúc số đa chiều Tồn tài nhiều lựa chọn cho xác định phân cụm thuật toán phân cụm May 7, 2017 75 Rút gọn mẫu (Sampling) Cho phép thuật toán khai phá chạy theo độ phức tạp tựa tuyến tính theo cỡ DL Lựa chọn tập trình diễn liệu Lấy mẫu ngẫu nhiên đơn giản có hiệu tồi có DL lệch Phát triển phương pháp lấy mẫu thích nghi Lấy mẫu phân tầng: Xấp xỉ theo phần trăm lớp (hoặc phận nhận diện theo quan tâm) CSDL tổng thể Sử dụng kết hợp với liệu lệch Lẫy mẫu không rút gọn CSDL May 7, 2017 76 Rút gọn mẫu (Sampling) R O W SRS ẫu ngẫu m (lấy đơn giản ế) n h ê t i h y n t g khôn SRSW R Raw Data May 7, 2017 77 Rút gọn mẫu (Sampling) Raw Data May 7, 2017 Mẫu cụm/phân tầng 78 Rút gọn phân cấp Dùng cấu trúc đa phân giải với mức độ khác rút gọn Phân cụm phân cấp thường thi hành song có khuynh hướng xác định phân vùng DL hớn “phân cụm” Phương pháp tham số thường không tuân theo trình bày phân cấp Tích hợp phân cấp Một cấy số chia phân cấp tập DL thành vùng miền giá trị vài thuộc tính Mỗi vùng coi thùng Như vậy, số với tích hợp lưu trữ nút sơ đồ phân cấp May 7, 2017 79 Rời rạc hóa Ba kiểu thuộc tính: Định danh — giá trị từ tập thứ tự Thứ tự — giá trị từ tập Liên tục — số thực Rời rạc hóa: Chia miền thuộc tính liên tục thành đoạn Một vài thuật toán phân lớp chấp nhận thuộc tính phân loại Rút gọn cỡ DL rời rạc hóa Chuẩn bị cho phân tích May 7, 2017 80 Rời rạc hóa kiến trúc khái niệm Rời rạc hóa Rút gọn số lượng giá trị thuộc tính liên tục cách chia miền giá trị thuộc tính thành đoạn Nhãn đoạn sau dùng để thay giá trị thực Phân cấp khái niệm May 7, 2017 Rút gọn DL tập hợp thay khái niệm mức thấp (như giá trị số thuộc tính tuổi) khái niệm mức cao (như trẻ, trung niên, già) 81 Rời rạc hóa & kiến trúc khái niệm DL số Phân thùng (xem làm trơn khử nhiễu) Phân tích sơ đồ (đã giới thiệu) Phân tích cụm (đã giới thiệu) Rời rạc hóa dựa theo Entropy Phân đoạn phân chia tự nhiên May 7, 2017 82 Rời rạc hóa dựa Entropy Cho tập ví dụ S, S chia thành đoạn S1 S2 dùng biên T, entropy sau phân đoạn E (S , T ) = | S 1| |S| Ent ( S 1) + |S 2| | S| Ent ( S 2) Biên làm cực tiểu hàm entropy tất biên chọn rời rạc hóa nhị phân Quá trình đệ quy tới vùng đạt điều kiện dừng đó, Ent ( S ) − E (T , S ) > δ Thực nghiệm cho phép rút gọn cỡ DL tăng độ xác phân lớp May 7, 2017 83 Phân đoạn phân hoạch tự nhiên Quy tắc đơn giản 3-4-5 dùng để phân đoạn liệu số thành đoạn tương đối thống nhất, “tự nhiên” Hướng tới số giá trị khác biệt vùng quan trọng Nếu 3, 6, giá trị khác biệt chia miền thành đoạn tương đương Nếu phủ 2, 4, giá trị phân biệt chia thành Nếu phủ 1, 5, 10 giá trị phân biệt chia thành May 7, 2017 84 Ví dụ luật 3-4-5 count Step 1: Step 2: -$351 -$159 Min Low (i.e, 5%-tile) msd=1,000 profit Low=-$1,000 (-$1,000 - 0) (-$400 - 0) (-$200 -$100) (-$100 0) May 7, 2017 Max High=$2,000 ($1,000 - $2,000) (0 -$ 1,000) (-$4000 -$5,000) Step 4: (-$300 -$200) High(i.e, 95%-0 tile) $4,700 (-$1,000 - $2,000) Step 3: (-$400 -$300) $1,838 ($1,000 - $2, 000) (0 - $1,000) (0 $200) ($1,000 $1,200) ($200 $400) ($600 $800) ($2,000 $3,000) ($1,200 $1,400) ($3,000 $4,000) ($1,400 $1,600) ($400 $600) ($800 $1,000) ($1,600 $1,800) ($2,000 - $5, 000) ($1,800 $2,000) ($4,000 $5,000) 85 Sinh kiến trúc khái niệm cho liẹu phân loại Đặc tả thứ tự phận giá trị thuộc tính theo mức sơ đồ người dùng chuyên gias street