1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài Giảng Hiểu Dữ Liệu Và Tiền Xử Lý Dữ Liệu

86 549 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Bài giảng môn học KHAI PHÁ DỮ LIỆU CHƯƠNG 3. HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU

  • Chương 3: Tiền xử lý dữ liệu

  • Hiểu dữ liệu

  • 3.1.1. Vai trò của hiểu dữ liệu: một mô hình KPDL hướng BI

  • Vai trò của hiểu dữ liệu: Một mô hình KPDL hướng ứng dụng

  • Hiểu dữ liệu qua hai phiên bản sách

  • 3.1.2. Kiểu tập dữ liệu

  • Đặc trưng quan trọng của DL có cấu trúc

  • Đối tượng dữ liệu

  • Thuộc tính

  • Kiểu thuộc tính

  • Kiểu thuộc tính số

  • Thuộc tính rời rạc và liên tục

  • 3.1.4. Tương tự và phân biệt

  • Ma trận DL và ma trận phân biệt

  • Đo khảng cách thuộc tính định danh

  • Đo khoảng cách các thuộc tính nhị phân

  • Phân biệt giữa các biến nhị phân

  • Chuẩn hóa DL số

  • Ví dụ: Ma trận DL và ma trận phân biệt

  • Khoảng cách DL số: KC Minkowski

  • KC Minkowski: các trường hợp đặc biệt

  • Ví dụ: KC Minkowski

  • Biến có thứ tự

  • Thuộc tính có kiểu pha trộn

  • Độ tương tự cosine

  • Ví dụ: Đô tương tự Cosine

  • So sánh hai phân bố XS: Phân kỳ KL

  • Cách tính PK KL

  • 3.1.4. Thu thập dữ liệu

  • 3.1.5 . Mô tả thống kê cơ bản của dữ liệu

  • 3.1.6. Mô tả dữ liệu: trực quan hóa

  • 3.1.7. Đánh giá và lập hồ sơ dữ liệu

  • 3.2. Tiền xử lý dữ liệu

  • 3.2.1. Vai trò của tiền xử lý

  • Các vấn đề về chất lượng dữ liệu [RD00]

  • Độ đo đa chiều chất lượng dữ liệu

  • Các bài toán chính trong tiền XL DL

  • Các thành phần của tiền xử lý dữ liệu (Bảng 2.1)

  • Một số bài toán cụ thể

  • 3.2.2. Làm sạch dữ liệu

  • Làm sạch dữ liệu

  • 3.2.3. Xử lý thiếu giá trị

  • Dữ liệu nhiễu

  • Xử lý dữ liệu nhiễu

  • Phương pháp rời rạc hóa đơn giản: Xếp thùng (Binning)

  • Phương pháp xếp thùng làm trơn dữ liệu (Data Smoothing)

  • Phân tích cụm (Cluster Analysis)

  • Hồi quy (Regression)

  • 3.3.4. Tích hợp dữ liệu

  • Nguồn dữ liệu đơn: mức sơ đồ (Ví dụ)

  • Nguồn dữ liệu đơn: mức thể hiện (Ví dụ)

  • Nguồn dữ liệu phức: sơ đồ/thể hiện (Ví dụ)

  • Nắm bắt dư thừa trong tích hợp dữ liệu

  • Chuyển dạng dữ liệu

  • Chuyển đổi dữ liệu: Chuẩn hóa

  • Chiến lược rút gọn dữ liệu

  • Kết hợp khối dữ liệu: DataCube Aggregation

  • Rút gọn chiều

  • Slide 60

  • Phân lớp cây quyết định

  • Slide 62

  • Slide 63

  • Nén dữ liệu (Data Compression)

  • Slide 66

  • Chuyển dạng sóng (Wavelet Transformation)

  • DWT cho nén ảnh

  • Phân tích thành phần chính (Principal Component Analysis )

  • Slide 70

  • Rút gọn kích thước số

  • Hồi quy và mô hình logarit tuyến tính

  • Phân tích hồi quy và mô hình logarit tuyến tính

  • Lược đồ (Histograms)

  • Phân cụm

  • Rút gọn mẫu (Sampling)

  • Slide 77

  • Slide 78

  • Rút gọn phân cấp

  • Rời rạc hóa

  • Rời rạc hóa và kiến trúc khái niệm

  • Rời rạc hóa & kiến trúc khái niệm DL số

  • Rời rạc hóa dựa trên Entropy

  • Phân đoạn bằng phân hoạch tự nhiên

  • Ví dụ luật 3-4-5

  • Sinh kiến trúc khái niệm cho dữ liẹu phân loại

  • Sinh kiến trúc khái niệm tự động

Nội dung

Bài giảng môn học KHAI PHÁ DỮ LIỆU CHƯƠNG HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU May 7, 2017 Khai phá liệu: Chương Chương 3: Tiền xử lý liệu  Hiểu liệu         Vai trò hiểu liệu Đối tượng DL kiểu thuộc tính Độ đo tương tự không tương tự DL Thu thập liệu Mô tả thống kê DL Trực quan hóa DL Đánh giá lập hồ sơ DL Tiền xử lý liệu      May 7, 2017 Vai trò tiền xử lý liệu Làm liệu Tích hợp chuyển dạng liệu Rút gọn liệu Rời rạc sinh kiến trúc khái niệm Hiểu liệu  Vai trò hiểu liệu  Đối tượng liệu kiểu thuộc tính  Độ đo tương tự không tương tự  Thu thập liệu  Mô tả thống kê DL  Trực quan hóa DL  Đánh giá lập hồ sơ DL May 7, 2017 3.1.1 Vai trò hiểu liệu: mô hình KPDL hướng BI  Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu liệu hiểu thương mại điện tử May 7, 2017 Vai trò hiểu liệu: Một mô hình KPDL hướng ứng dụng  Mô hình trình khai phá liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu liệu”, Bước P4 “Tiền xử lý liệu” May 7, 2017 Hiểu liệu qua hai phiên sách  Thay đổi đáng kể từ phiên 2006 tới phiên 2010: Phiên 2011 nhấn mạnh Hiểu liệu ! May 7, 2017 3.1.2 Kiểu tập liệu  Bản ghi        Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng chéo… Dữ liệu tài liệu: Tài liệu văn dùng vector tần số từ … Dữ liệu giao dịch Đồ thị mạng  World Wide Web  Mạng xã hội mạng thông tin  Cấu trúc phân tử Thứ tự  Dữ liệu Video: dãy ảnh  Dữ liệu thời gian: chuỗi thời gian  Dữ liệu dãy: dãy giao dịch  Dữ liệu dãy gene Không gian, ảnh đa phương tiện:    DL không gian: đồ Dữ liệu ảnh, TID Items Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Dữ liệu Video Đặc trưng quan trọng DL có cấu trúc  Kích thước   Thưa   Mẫu phụ thuộc quy mô Phân bố  Chỉ mang tính diện Phân tích   Tai họa kích thước lớn Tập trung phân tán Đối tượng liệu  Tập DL tạo nên từ đối tượng DL  Mỗi đối tượng liệu (data object) trình bày thực thể  Ví dụ:   CSDL bán hàng: Khách hàng, mục lưu, doanh số  CSDL y tế: bệnh nhân, điều trị  CSDL đại học: sinh viên, giáo sư, môn học Tên khác: mẫu (samples ), ví dụ (examples), thể (instances), điểm DL (data points), đối tượng (objects), (tuples)  Đối tượng DL mô tả thuộc tính (attributes)  Dòng CSDL -> đối tượng DL; cột ->thuộc tính Thuộc tính  Thuộc tính_Attribute (hoặc chiều_dimension, đặc trưng_features, biến_variables): trường DL biểu diễn thuộc tính/đặc trưng đối tượng DL   Kiểu:    10 Ví dụ, ChisoKH, tên, địa Đinh danh Nhị phân Số: định lượng  Cỡ khoảng  Cỡ tỷ lệ Phân tích hồi quy mô hình logarit tuyến tính    Hồi quy tuyến tính: Y = α + β X  Hai tham số, α β đặc trưng cho đường xấp xỉ qua liệu nắm bắt  Sử dụng chiến lược BP tối thiếu tới giá trị biết Y1, Y2, …, X1, X2, … Hồi quy đa chiều: Y = b0 + b1 X1 + b2 X2  Nhiều hàm không tuyến tính chuyển dạng Mô hình tuyến tính loga:  Bảng đa chiều xác suất tích nối xấp xỉ tích bảng bậc thấp  Xác suất: p(a, b, c, d) = αab βacχad δbcd Lược đồ (Histograms)     Kỹ thuật rút gọn liệu phổ biến Phân liệu vào thùng giữ trunh bình (tổng) thùng Có thể dựng tối ưu hóa theo chiều dùng quy hoạch động Có quan hệ tới toán lượng tử hóa May 7, 2017 74 Phân cụm  Phân tập DL thành cụm, cần lưu trữ đại diện cụm  Có thể hiệu DL phân cụm mà không chứa liệu “bẩn”  Có thể phân cụm phân cấp lưu trữ cấu trúc số đa chiều  Tồn tài nhiều lựa chọn cho xác định phân cụm thuật toán phân cụm May 7, 2017 75 Rút gọn mẫu (Sampling)     Cho phép thuật toán khai phá chạy theo độ phức tạp tựa tuyến tính theo cỡ DL Lựa chọn tập trình diễn liệu  Lấy mẫu ngẫu nhiên đơn giản có hiệu tồi có DL lệch Phát triển phương pháp lấy mẫu thích nghi  Lấy mẫu phân tầng:  Xấp xỉ theo phần trăm lớp (hoặc phận nhận diện theo quan tâm) CSDL tổng thể  Sử dụng kết hợp với liệu lệch Lẫy mẫu không rút gọn CSDL May 7, 2017 76 Rút gọn mẫu (Sampling) R O W SRS ẫu ngẫu m (lấy đơn giản ế) n h ê t i h y n t g khôn SRSW R Raw Data May 7, 2017 77 Rút gọn mẫu (Sampling) Raw Data May 7, 2017 Mẫu cụm/phân tầng 78 Rút gọn phân cấp     Dùng cấu trúc đa phân giải với mức độ khác rút gọn Phân cụm phân cấp thường thi hành song có khuynh hướng xác định phân vùng DL hớn “phân cụm” Phương pháp tham số thường không tuân theo trình bày phân cấp Tích hợp phân cấp  Một cấy số chia phân cấp tập DL thành vùng miền giá trị vài thuộc tính  Mỗi vùng coi thùng  Như vậy, số với tích hợp lưu trữ nút sơ đồ phân cấp May 7, 2017 79 Rời rạc hóa   Ba kiểu thuộc tính:  Định danh — giá trị từ tập thứ tự  Thứ tự — giá trị từ tập  Liên tục — số thực Rời rạc hóa:  Chia miền thuộc tính liên tục thành đoạn  Một vài thuật toán phân lớp chấp nhận thuộc tính phân loại  Rút gọn cỡ DL rời rạc hóa  Chuẩn bị cho phân tích May 7, 2017 80 Rời rạc hóa kiến trúc khái niệm  Rời rạc hóa   Rút gọn số lượng giá trị thuộc tính liên tục cách chia miền giá trị thuộc tính thành đoạn Nhãn đoạn sau dùng để thay giá trị thực Phân cấp khái niệm  May 7, 2017 Rút gọn DL tập hợp thay khái niệm mức thấp (như giá trị số thuộc tính tuổi) khái niệm mức cao (như trẻ, trung niên, già) 81 Rời rạc hóa & kiến trúc khái niệm DL số  Phân thùng (xem làm trơn khử nhiễu)  Phân tích sơ đồ (đã giới thiệu)  Phân tích cụm (đã giới thiệu)  Rời rạc hóa dựa theo Entropy  Phân đoạn phân chia tự nhiên May 7, 2017 82 Rời rạc hóa dựa Entropy  Cho tập ví dụ S, S chia thành đoạn S1 S2 dùng biên T, entropy sau phân đoạn E (S , T ) =   | S 1| |S| Ent ( S 1) + |S 2| | S| Ent ( S 2) Biên làm cực tiểu hàm entropy tất biên chọn rời rạc hóa nhị phân Quá trình đệ quy tới vùng đạt điều kiện dừng đó, Ent ( S ) − E (T , S ) > δ  Thực nghiệm cho phép rút gọn cỡ DL tăng độ xác phân lớp May 7, 2017 83 Phân đoạn phân hoạch tự nhiên  Quy tắc đơn giản 3-4-5 dùng để phân đoạn liệu số thành đoạn tương đối thống nhất, “tự nhiên”  Hướng tới số giá trị khác biệt vùng quan trọng  Nếu 3, 6, giá trị khác biệt chia miền thành đoạn tương đương  Nếu phủ 2, 4, giá trị phân biệt chia thành  Nếu phủ 1, 5, 10 giá trị phân biệt chia thành May 7, 2017 84 Ví dụ luật 3-4-5 count Step 1: Step 2: -$351 -$159 Min Low (i.e, 5%-tile) msd=1,000 profit Low=-$1,000 (-$1,000 - 0) (-$400 - 0) (-$200 -$100) (-$100 0) May 7, 2017 Max High=$2,000 ($1,000 - $2,000) (0 -$ 1,000) (-$4000 -$5,000) Step 4: (-$300 -$200) High(i.e, 95%-0 tile) $4,700 (-$1,000 - $2,000) Step 3: (-$400 -$300) $1,838 ($1,000 - $2, 000) (0 - $1,000) (0 $200) ($1,000 $1,200) ($200 $400) ($600 $800) ($2,000 $3,000) ($1,200 $1,400) ($3,000 $4,000) ($1,400 $1,600) ($400 $600) ($800 $1,000) ($1,600 $1,800) ($2,000 - $5, 000) ($1,800 $2,000) ($4,000 $5,000) 85 Sinh kiến trúc khái niệm cho liẹu phân loại     Đặc tả thứ tự phận giá trị thuộc tính theo mức sơ đồ người dùng chuyên gias  street

Ngày đăng: 07/05/2017, 18:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN