CHƯƠNG 3 HIỂU bài TOÁN, HIỂU dữ LIỆU và TIỀN xử lý dữ LIỆU

105 27 1
CHƯƠNG 3  HIỂU bài TOÁN, HIỂU dữ LIỆU và TIỀN xử lý dữ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG HIỂU BÀI TOÁN, HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU Nội dung  Hiểu toán   Hiểu liệu         Vai trò hiểu liệu Đối tượng DL kiểu thuộc tính Độ đo tương tự không tương tự DL Thu thập liệu Mô tả thống kê DL Trực quan hóa DL Đánh giá lập hồ sơ DL Tiền xử lý liệu      8/4/20 Năm yếu tố để hiểu tốn Vai trị tiền xử lý liệu Làm liệu Tích hợp chuyển dạng liệu Rút gọn liệu Rời rạc sinh kiến trúc khái niệm Công nghệ tri thức HIỂU BÀI TOÁN VÀ HIỂU DỮ LIỆU HIỂU BÀI TỐN: BIẾT ĐƯỢC GÌ?  Đặt vấn đề    yếu tố cốt yếu dạng câu hỏi Giải đáp yếu tố  Đặt toán Yếu tố 1: Ta biết (có) ? Cho INPUT   Đây bước cho trường hợp nghiên cứu Ví dụ 1: Dự báo mục hàng phục vụ bán chéo     Bán chéo (cross-selling): bán sản phẩm bổ sung cho khách hàng Bán sâu (deep-selling): tăng tần số số lượng mua sản phẩm khách hàng Bán gia tăng (up-selling): bán sản phẩm với số lượng nhiều giá cao cho khách hàng Ví dụ 2: Dự báo khách hàng dịch vụ mạng rời bỏ Yếu tố 2: Cần định điều ?  Nội dung     Trường hợp dễ xác định   Điều thực cần phải định Biến định, Đầu (Output) Quan trọng: Phân biệt biến đầu biến đầu vào Ví dụ Bán chéo” Các tập mục hàng đồng xuất cao Trường hợp khó xác định  Ví dụ Dự báo khách hàng dịch vụ mạng rời bỏ: “biến dự báo”, “biến phân lớp” v.v Yếu tố 3: Cái cố gắng để đạt  Nội dung        Cố tìm khơng gian lời giải ? Cái cần đạt ? Hàm mục tiêu, Mơ hình mục tiêu Có thể đa mục tiêu Ví dụ Ví dụ Tập mục hàng đồng xuất vượt qua ngưỡng Ví dụ Mơ hình dự báo nhận diện lại tốt với liệu kiểm thử toán  Nội dung    Hạn chế tài nguyên ràng buộc Ví dụ   Ví dụ Số mục hàng giao dịch lớn Ví dụ Dữ liệu mẫu giống song cho kết khác  Nội dung    câu hỏi cho xây dựng mơ hình Phân tích bối cảnh mơ hình rộng hơn: nâng cao ý nghĩa mơ hình Các khía cạnh phi mơ hình Ví dụ   Ví dụ Thay đổi ngưỡng Ví dụ Các phân khúc khách hàng sách  Thay đổi đáng kể phiên 2006 tới 2011  8/4/20 Phiên 2011 nhấn mạnh Hiểu liệu ! Công nghệ tri thức Một mơ hình KPDL hướng ứng dụng  Khai phá DL hướng miền ứng dụng [CYZ10]   8/4/20 Bước P1 “Hiểu định nghĩa vấn đề”, Bước P2 “Phân tích ràng buộc” Bước P3 “Hiểu liệu”, Bước P4 “Tiền xử lý liệu” Công nghệ tri thức 10 Rút gọn mẫu  Simple Random Sampling (SRS)  SRS with replacement (SRSWR)   Chọn phần tử liệu đưa vào mẫu  Loại bỏ phần tử liệu khỏi tập liệu  Lặp tiếp có n phần tử liệu  Các phần tử liệu giống chọn nhiều lần SRS without replacement (SRSWOR)   8/4/20 Chọn phần tử không bị loại bỏ Các mẫu DL phân biệt Ví dụ: Chọn mẫu (n) phần tử từ tập liệu 92 Rút gọn mẫu Raw Data 8/4/20 Mẫu cụm/phân tầng 93 Rút gọn phân cấp     8/4/20 Dùng cấu trúc đa phân giải với mức độ khác rút gọn Phân cụm phân cấp thường thi hành song có khuynh hướng xác định phân vùng DL hớn “phân cụm” Phương pháp tham số thường không tuân theo trình bày phân cấp Tích hợp phân cấp  Một số chia phân cấp tập DL thành vùng miền giá trị vài thuộc tính  Mỗi vùng coi thùng  Như vậy, số với tích hợp lưu trữ nút sơ đồ phân cấp 94 Rút gọn đặc trưng  Giới thiệu chung  “Tối ưu hóa” chọn tập đặc trưng      Hai tiếp cận điển hình    Số lượng đặc trưng nhỏ Hy vọng tăng tốc độ thi hành Tăng cường chất lượng khai phá văn ? Giảm đặc trưng tăng chất lượng: có đặc trưng “nhiễu” Hoặc hai mục tiêu Tiếp cận lọc Tiếp cận bao gói Với liệu văn   Tập đặc trưng: thường theo mô hình vector Tính giá trị đặc trưng giữ lại đặc trưng coi “tốt” 95 Tiếp cận tổng quát: lọc  Tiếp cận lọc    Đầu vào: Không gian tập tập đặc trưng Đầu ra: Tập đặc trưng tốt Phương pháp   Dị tìm “cải tiến” đặc trưng: Thuật tốn tối ưu hóa Đánh giá chất lượng mơ hình: độc lập với thuật toán học máy 96 Tiếp cận bao gói tổng quát  Tiếp cận bao gói    Đầu vào: Không gian tập tập đặc trưng Đầu ra: Tập đặc trưng tốt Phương pháp   Dị tìm “cải tiến” đặc trưng: Thuật tốn tối ưu hóa Đánh giá chất lượng mơ hình: Dùng thuật tốn học để đánh giá 97 Tiếp cận bao gói tổng quát Ngoc-Anh Thi Le, Thi-Oanh Ngo, Huyen-Trang Thi Lai, Hoang-Quynh Le, Hai-Chau Nguyen, Quang-Thuy Ha An Experimental Study on Cholera Modeling in Hanoi ACIIDS (2) 2016: 230-240 98 Rời rạc hóa   8/4/20 Ba kiểu thuộc tính:  Định danh — giá trị từ tập khơng có thứ tự  Thứ tự — giá trị từ tập  Liên tục — số thực Rời rạc hóa:  Chia miền thuộc tính liên tục thành đoạn  Một vài thuật tốn phân lớp chấp nhận thuộc tính phân loại  Rút gọn cỡ DL rời rạc hóa  Chuẩn bị cho phân tích 99 Rời rạc hóa kiến trúc khái niệm  Rời rạc hóa   Phân cấp khái niệm  8/4/20 Rút gọn số lượng giá trị thuộc tính liên tục cách chia miền giá trị thuộc tính thành đoạn Nhãn đoạn sau dùng để thay giá trị thực Rút gọn DL tập hợp thay khái niệm mức thấp (như giá trị số thuộc tính tuổi) khái niệm mức cao (như trẻ, trung niên, già) 100 Rời rạc hóa & kiến trúc khái niệm DL số  Phân thùng (xem làm trơn khử nhiễu)  Phân tích sơ đồ (đã giới thiệu)  Phân tích cụm (đã giới thiệu)  Rời rạc hóa dựa theo Entropy  Phân đoạn phân chia tự nhiên 8/4/20 101 Rời rạc hóa dựa Entropy  Cho tập ví dụ S, S chia thành đoạn S1 S2 dùng biên T, entropy sau phân đoạn |S | |S | E ( S , T )  Ent ( S )  Ent ( S ) |S|   |S| Biên làm cực tiểu hàm entropy tất biên chọn rời rạc hóa nhị phân Quá trình đệ quy tới vùng đạt điều kiện dừng đó, Ent ( S )  E (T , S )    8/4/20 Thực nghiệm cho phép rút gọn cỡ DL tăng độ xác phân lớp 102 Phân đoạn phân hoạch tự nhiên  Quy tắc đơn giản 3-4-5 dùng để phân đoạn liệu số thành đoạn tương đối thống nhất, “tự nhiên”  Hướng tới số giá trị khác biệt vùng quan trọng  Nếu 3, 6, giá trị khác biệt chia miền thành đoạn tương đương  Nếu phủ 2, 4, giá trị phân biệt chia thành  8/4/20 Nếu phủ 1, 5, 10 giá trị phân biệt chia 103 Ví dụ luật 3-4-5 count Step 1: Step 2: -$351 -$159 profit Min Low (i.e, 5%-tile) msd=1,000 Low=-$1,000 (-$400 - 0) 8/4/20 (-$100 0) Max ($1,000 - $2,000) (0 -$ 1,000) (-$4000 -$5,000) Step 4: (-$200 -$100) High(i.e, 95%-0 tile) (-$1,000 - $2,000) (-$1,000 - 0) (-$300 -$200) $4,700 High=$2,000 Step 3: (-$400 -$300) $1,838 ($1,000 - $2, 000) (0 - $1,000) (0 $200) ($1,000 $1,200) ($200 $400) ($600 $800) ($2,000 $3,000) ($1,200 $1,400) ($3,000 $4,000) ($1,400 $1,600) ($400 $600) ($800 $1,000) ($1,600 $1,800) ($2,000 - $5, 000) ($1,800 $2,000) ($4,000 $5,000) 104 Sinh kiến trúc khái niệm liệu phân loại     8/4/20 Đặc tả thứ tự phận giá trị thuộc tính theo mức sơ đồ người dùng chuyên gias  street

Ngày đăng: 04/08/2020, 00:54

Mục lục

    2.Hiểu dữ liệu qua hai phiên bản sách

    Một mô hình KPDL hướng ứng dụng

    Vấn đề và ràng buộc

    Đặc trưng quan trọng của DL có cấu trúc

    Đối tượng dữ liệu

    Đặc trưng (Thuộc tính)

    Kiểu thuộc tính số

    Thuộc tính rời rạc và liên tục

    Tương tự và phân biệt

    Đo khoảng cách thuộc tính định danh

Tài liệu cùng người dùng

Tài liệu liên quan