1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài giảng môn học Khai phá dữ liệu: Chương 3 - Hiểu dữ liệu và tiền xử lý dữ liệu

86 82 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,4 MB

Nội dung

Bài giảng môn học Khai phá dữ liệu: Chương 3 - Hiểu dữ liệu và tiền xử lý dữ liệu sẽ giới thiệu tới các bạn những vấn đề chính liên quan đến vấn đề hiểu dữ liệu và xử lý tiền dữ liệu.

Bài giảng môn học KHAI PHÁ DỮ LIỆU CHƯƠNG HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU May 9, 2021 Khai phá liệu: Chương Chương 3: Tiền xử lý liệu  Hiểu liệu         Vai trò hiểu liệu Đối tượng DL kiểu thuộc tính Độ đo tương tự khơng tương tự DL Thu thập liệu Mô tả thống kê DL Trực quan hóa DL Đánh giá lập hồ sơ DL Tiền xử lý liệu      May 9, 2021 Vai trò tiền xử lý liệu Làm liệu Tích hợp chuyển dạng liệu Rút gọn liệu Rời rạc sinh kiến trúc khái niệm Hiểu liệu  Vai trò hiểu liệu  Đối tượng liệu kiểu thuộc tính  Độ đo tương tự không tương tự  Thu thập liệu  Mô tả thống kê DL  Trực quan hóa DL  Đánh giá lập hồ sơ DL May 9, 2021 3.1.1 Vai trị hiểu liệu: mơ hình KPDL hướng BI  Mơ hình phát triển tri thức hướng thơng minh doanh nghiệp, 2009 [HF09]: Hiểu liệu hiểu thương mại điện tử May 9, 2021 Vai trò hiểu liệu: Một mơ hình KPDL hướng ứng dụng  Mơ hình q trình khai phá liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu liệu”, Bước P4 “Tiền xử lý liệu” May 9, 2021 Hiểu liệu qua hai phiên sách  Thay đổi đáng kể từ phiên 2006 tới phiên 2010: Phiên 2011 nhấn mạnh Hiểu liệu ! May 9, 2021 3.1.2 Kiểu tập liệu     Bản ghi  Bản ghi quan hệ  Ma trận DL, chẳng hạn, ma trận số, bảng chéo…  Dữ liệu tài liệu: Tài liệu văn dùng vector tần số từ …  Dữ liệu giao dịch Đồ thị mạng  World Wide Web  Mạng xã hội mạng thông tin  Cấu trúc phân tử Thứ tự  Dữ liệu Video: dãy ảnh  Dữ liệu thời gian: chuỗi thời gian  Dữ liệu dãy: dãy giao dịch  Dữ liệu dãy gene Không gian, ảnh đa phương tiện:  DL không gian: đồ  Dữ liệu ảnh,  Dữ liệu Video TID Items Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Đặc trưng quan trọng DL có cấu trúc  Kích thước   Thưa   Mẫu phụ thuộc quy mô Phân bố  Chỉ mang tính diện Phân tích   Tai họa kích thước lớn Tập trung phân tán Đối tượng liệu  Tập DL tạo nên từ đối tượng DL  Mỗi đối tượng liệu (data object) trình bày thực thể  Ví dụ:   CSDL bán hàng: Khách hàng, mục lưu, doanh số  CSDL y tế: bệnh nhân, điều trị  CSDL đại học: sinh viên, giáo sư, môn học Tên khác: mẫu (samples ), ví dụ (examples), thể (instances), điểm DL (data points), đối tượng (objects), (tuples)  Đối tượng DL mô tả thuộc tính (attributes)  Dịng CSDL -> đối tượng DL; cột ->thuộc tính Thuộc tính  Thuộc tính_Attribute (hoặc chiều_dimension, đặc trưng_features, biến_variables): trường DL biểu diễn thuộc tính/đặc trưng đối tượng DL   Kiểu:    10 Ví dụ, ChisoKH, tên, địa Đinh danh Nhị phân Số: định lượng  Cỡ khoảng  Cỡ tỷ lệ Phân tích hồi quy mơ hình logarit tuyến tính    Hồi quy tuyến tính: Y =  +  X  Hai tham số,   đặc trưng cho đường xấp xỉ qua liệu nắm bắt  Sử dụng chiến lược BP tối thiếu tới giá trị biết Y1, Y2, …, X1, X2, … Hồi quy đa chiều: Y = b0 + b1 X1 + b2 X2  Nhiều hàm khơng tuyến tính chuyển dạng Mơ hình tuyến tính loga:  Bảng đa chiều xác suất tích nối xấp xỉ tích bảng bậc thấp  Xác suất: p(a, b, c, d) = ab acad bcd Lược đồ (Histograms)     Kỹ thuật rút gọn liệu phổ biến Phân liệu vào thùng giữ trunh bình (tổng) thùng Có thể dựng tối ưu hóa theo chiều dùng quy hoạch động Có quan hệ tới tốn lượng tử hóa May 9, 2021 74 Phân cụm  Phân tập DL thành cụm, cần lưu trữ đại diện cụm  Có thể hiệu DL phân cụm mà không chứa liệu “bẩn”  Có thể phân cụm phân cấp lưu trữ cấu trúc số đa chiều  Tồn tài nhiều lựa chọn cho xác định phân cụm thuật toán phân cụm May 9, 2021 75 Rút gọn mẫu (Sampling)     Cho phép thuật toán khai phá chạy theo độ phức tạp tựa tuyến tính theo cỡ DL Lựa chọn tập trình diễn liệu  Lấy mẫu ngẫu nhiên đơn giản có hiệu tồi có DL lệch Phát triển phương pháp lấy mẫu thích nghi  Lấy mẫu phân tầng:  Xấp xỉ theo phần trăm lớp (hoặc phận nhận diện theo quan tâm) CSDL tổng thể  Sử dụng kết hợp với liệu lệch Lẫy mẫu khơng rút gọn CSDL May 9, 2021 76 Rút gọn mẫu (Sampling) R O W SRS ẫu ngẫu m (lấy đơn giản ) ế n h ê t i h y n t g khôn SRSW R Raw Data May 9, 2021 77 Rút gọn mẫu (Sampling) Raw Data May 9, 2021 Mẫu cụm/phân tầng 78 Rút gọn phân cấp     Dùng cấu trúc đa phân giải với mức độ khác rút gọn Phân cụm phân cấp thường thi hành song có khuynh hướng xác định phân vùng DL hớn “phân cụm” Phương pháp tham số thường khơng tn theo trình bày phân cấp Tích hợp phân cấp  Một cấy số chia phân cấp tập DL thành vùng miền giá trị vài thuộc tính  Mỗi vùng coi thùng  Như vậy, số với tích hợp lưu trữ nút sơ đồ phân cấp May 9, 2021 79 Rời rạc hóa   Ba kiểu thuộc tính:  Định danh — giá trị từ tập khơng có thứ tự  Thứ tự — giá trị từ tập  Liên tục — số thực Rời rạc hóa:  Chia miền thuộc tính liên tục thành đoạn  Một vài thuật tốn phân lớp chấp nhận thuộc tính phân loại  Rút gọn cỡ DL rời rạc hóa  Chuẩn bị cho phân tích May 9, 2021 80 Rời rạc hóa kiến trúc khái niệm  Rời rạc hóa   Rút gọn số lượng giá trị thuộc tính liên tục cách chia miền giá trị thuộc tính thành đoạn Nhãn đoạn sau dùng để thay giá trị thực Phân cấp khái niệm  Rút gọn DL tập hợp thay khái niệm mức thấp (như giá trị số thuộc tính tuổi) khái niệm mức cao (như trẻ, trung niên, già) May 9, 2021 81 Rời rạc hóa & kiến trúc khái niệm DL số  Phân thùng (xem làm trơn khử nhiễu)  Phân tích sơ đồ (đã giới thiệu)  Phân tích cụm (đã giới thiệu)  Rời rạc hóa dựa theo Entropy  Phân đoạn phân chia tự nhiên May 9, 2021 82 Rời rạc hóa dựa Entropy  Cho tập ví dụ S, S chia thành đoạn S1 S2 dùng biên T, entropy sau phân đoạn |S | |S | E ( S , T )  Ent ( S )  Ent ( S ) |S|    |S| Biên làm cực tiểu hàm entropy tất biên chọn rời rạc hóa nhị phân Quá trình đệ quy tới vùng đạt điều kiện dừng Ent đó,( S )  E (T , S )   Thực nghiệm cho phép rút gọn cỡ DL tăng độ xác phân lớp May 9, 2021 83 Phân đoạn phân hoạch tự nhiên  Quy tắc đơn giản 3-4-5 dùng để phân đoạn liệu số thành đoạn tương đối thống nhất, “tự nhiên”  Hướng tới số giá trị khác biệt vùng quan trọng  Nếu 3, 6, giá trị khác biệt chia miền thành đoạn tương đương  Nếu phủ 2, 4, giá trị phân biệt chia thành  Nếu phủ 1, 5, 10 giá trị phân biệt chia thành May 9, 2021 84 Ví dụ luật 3-4-5 count Step 1: Step 2: -$351 -$159 Min Low (i.e, 5%-tile) msd=1,000 profit Low=-$1,000 (-$1,000 - 0) (-$400 - 0) (-$200 -$100) (-$100 0) May 9, 2021 Max High=$2,000 ($1,000 - $2,000) (0 -$ 1,000) (-$4000 -$5,000) Step 4: (-$300 -$200) High(i.e, 95%-0 tile) $4,700 (-$1,000 - $2,000) Step 3: (-$400 -$300) $1,838 ($1,000 - $2, 000) (0 - $1,000) (0 $200) ($1,000 $1,200) ($200 $400) ($600 $800) ($2,000 $3,000) ($1,200 $1,400) ($3,000 $4,000) ($1,400 $1,600) ($400 $600) ($800 $1,000) ($1,600 $1,800) ($2,000 - $5, 000) ($1,800 $2,000) ($4,000 $5,000) 85 Sinh kiến trúc khái niệm cho liẹu phân loại     Đặc tả thứ tự phận giá trị thuộc tính theo mức sơ đồ người dùng chuyên gias  street

Ngày đăng: 08/05/2021, 19:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN