1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh

47 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,94 MB

Nội dung

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh. Chương này cung cấp cho học viên những kiến thức về: lựa chọn mẫu, làm sạch dữ liệu, tích hợp và biến đổi dữ liệu; tổ chức và cài đặt kho dữ liệu (Data warehouse), tổ chức và cài đặt Data Mart;... Mời các bạn cùng tham khảo!

Đọc sách: Business Intelligence Concepts and Applications BI for Better Decisions : Decision Types BI Tools BI Skills BI Applications : Customer Relationship Management; Health Care and Wellness ; Education; Retail; Banking; Financial Services; Insurance; Manufacturing; Telecom; Government KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 41 Chương 2: Tiền xử lý Tổ chức liệu kinh doanh 2.1 Tiền xử lý liệu 2.1.1 Lựa chọn mẫu 2.1.2 Làm liệu 2.1.3 Tích hợp biến đổi liệu 2.2 Tổ chức liệu 2.2.1 Tổ chức cài đặt kho liệu (Data warehouse) 2.2.2 Tổ chức cài đặt Data Mart KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 42 21 2.1 Tiền xử lý liệu Làm cho liệu có ban đầu qua thu thập liệu (gọi liệu gốc original data) áp dụng (thích hợp) với mơ hình khai phá liệu (data mining model) cụ thể Các cơng việc: ◦ Filtering Attributes (rút gọn thuộc tính) ◦ Filtering samples (rút gọn liệu) ◦ Clean data (làm liệu) ◦ Transformation: ◦ Discretization (rời rạc hóa liệu): KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 43 2.1.1 Lựa chọn mẫu Mục đích loại bỏ thuộc tính khơng cần thiết, dư thừa khỏi q trình học Những vấn đề gặp phải: ◦ Sự đa dạng không đồng nhất: nhiều dạng, nhiều nguồn ◦ Quy mô liệu: dung lượng quy mô liệu lớn địi hỏi cơng cụ quản lý khai phá liệu phải cải tiến, nâng cấp cho phù hợp ◦ Tốc độ/tính chuyển động liên tục liệu: dòng liệu (data stream) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44 22 Tính xác tin cậy Bảo mật liệu Sự tương tác KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 45 Các công thức đánh giá Confusion matrix Các độ đo KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 46 23 Phân chia tập liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 47 2.1.2 Làm liệu Điền giá trị bị thiếu (missing values) Dữ liệu nhiễu Hồi quy tuyến tính KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 48 24 Một số phương pháp để điền giá trị thiếu Bỏ qua trường có chứa giá trị Điền vào giá trị thiếu thủ công Sử dụng giá trị quy ước (NULL/0) Sử dụng giá trị bình quân Sử dụng giá trị loại để thay cho giá trị thiếu Sử dụng giá trị có tỉ lệ xuất cao để điền vào cho giá trị thiếu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 49 Dữ liệu nhiễu Dữ liệu nhiễu liệu nằm khoảng không đồng đều, có giá trị nằm nhóm cao thấp, bất thường không theo quy luật Việc làm mịn giá trị liệu xác định thông qua giá trị xung quanh gọi Bin KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 50 25 VD Outliers: giá trị 79.29 7.929 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 51 Ví dụ: Giả sử ta có danh sách giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34 Ta phân chia thành bin Bin 1: 4, , 15 Bin 2: 21, 21, 24 Bin 3: 25, 28, 34 Trong trường hợp làm mịn sử dụng phương pháp trung vị, bin là: Bin 1: 9, ,9 Bin 2: 22, 22, 22 Bin 3: 29, 29, 29 Trong trường hợp làm mịn biên Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 52 26 Hồi quy tuyến tính Tìm mối quan hệ tốt hai thuộc tính (hoặc biến), từ thuộc tính dùng để dự đốn thuộc tính khác Phương pháp nhóm cụm: Các giá trị tương tự tổ chức thành nhóm hay “cụm" trực quan Các giá trị rơi bên ngồi nhóm xem xét để làm mịn KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 53 Xây dựng công cụ khảo sát Công cụ thực nghiệm -Phiếu khảo sát: -Qui tắc mã hóa qui đổi điểm thang đo cấp độ hỏi KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 54 27 Thống kê kiểm định liệu Thống kê liệu Thống kê liệu Excel KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 55 Khái niệm kiểm định giả thiết Cho tổng thể (tập giá trị quan sát), ta thường lấy mẫu (tập giá trị quan sát) theo lý thuyết lấy mẫu, để phân tích, xử lí Từ đặc trưng mẫu, ta suy (ước lượng) tổng thể có đặc trưng Khi xem xét đặc trưng mẫu, ta thường đưa giả thiết kiểm tra giả thiết hay sai Việc đưa kết luận để chấp nhận bác bỏ giả thiết gọi kiểm định giả thiết (thống kê) (hypothesis test) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 56 28 Những định dựa giả thiết H0 Kiểm định chấp nhận H0 Kiểm định bác bỏ H0 giả thiết H0 giả thiết H0 thực tế thực tế sai Xác xuất định Xác xuất mắc sai lầm loại  1– Xác xuất mắc sai lầm loại  Xác xuất định 1– KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 57 Xác suất mắc sai lầm kết kiểm định giả thiết H0 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 58 29 Miền bác bỏ giá trị kiểm định Nếu giả thiết đối có dạng H1:  > 0 gọi kiểm định bên phải, miền bác bỏ H1 nằm phía bên phải miền chấp nhận H0 • u giá trị kiểm định; •  mức ý nghĩa Kiểm định bên phải (one – tail test): H0 :   0  H1 :  > 0 59 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH Miền bác bỏ giá trị kiểm định Nếu giả thiết đối có dạng H1:  < 0 gọi kiểm định bên trái, miền bác bỏ H1 nằm phía bên trái miền chấp nhận H0 • u giá trị kiểm định; •  mức ý nghĩa Kiểm định bên trái (one – tail test): H0 :   0  H1 :  < 0 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 60 30 DT Thuật toán ID3 Iterative Dichotomiser (ID3) thuật toán tiếng để xây dựng Decision Tree, áp dụng cho toán Phân loại (Classification) mà tất các thuộc tính để dạng category Ví dụ 105 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH ID Engine Type Color 4WD Want? 2000cc SUV Silver Yes Yes 1000cc Sedan Silver Yes Yes 2000cc Sport Blue No No 1000cc SUV Blue No Yes 2000cc Sedan Silver Yes No 2000cc Sport Blue Yes Yes 1000cc Sedan Blue No Yes 1000cc SUV Silver No Yes KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 106 53 Hàm số Entropy Trong thuật tốn ID3, thuộc tính đánh giá dựa Hàm số Entropy, hàm số phổ biến toán học xác suất Cho phân phối xác suất biến rời rạc xx nhận nn giá trị khác x1, x2, Giả sử xác suất để xx nhận giá trị pi = p(x = xi) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 107 Đồ thị entropy Với định, ta cần tạo ta nhiều thông tin nhất, tức Entropy cao KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 108 54 Ví dụ KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 109 Ta tiến hành kiểm tra mơ hình DT ta vừa tạo tập Test Data bên KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 110 55 Dựa vào KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 111 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 112 Accuracy? 56 Regression Trong SPSS: Analyze Linear KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 113 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 114 KQ 57 Regression- Hồi quy Hồi quy sử dụng Excel Hồi quy dùng SPSS KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 115 MS Excel Chọn Data Data Analysis Regression KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 116 58 KQ KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 117 Ví dụ House Price ($) = 65.6 × Size (sqft) + 23,613 × Rooms + 12,924 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 118 59 SPSS Để chạy hồi quy đa biến: vào menu Analyze->Regression-> Linear KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 119 Association Rule Mining – Caselet: Netflix—Data Mining in Entertainment Q1 Are Netflix customers being manipulated into seeing what Netflix wants them to see? Q2 Compare this story with Amazon’s personalization engine KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 120 60 Representing Association Rules A generic rule is represented between a set X and Y: X ⇒ Y [S%, C%] ◦ X, Y: products and/or services ◦ X: Left-hand-side (LHS or Antecedent) ◦ Y: Right-hand-side (RHS or Consequent) ◦ S: Support: how often X and Y go together in the total transaction set ◦ C: Confidence: how often Y goes together with X Example: {Laptop Computer, Antivirus Software} ⇒ {Extended Service Plan} [30%, 70%] KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 121 Association Rules Exercise Page 131/180 The support level will be set at 33 percent; the confidence level will be set at 50 percent KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 122 61 Compute 1-item itemsets Milk sells in out of 12 transactions Bread sells in 10 out of 12 transactions And so on At every point, there is an opportunity to select itemsets of interest, and thus further analysis Other itemsets that occur very infrequently may be removed If itemsets that occur or more times out of 12 are selected, which corresponds to meeting a minimum support level of 33 percent (4 out of 12) Only items make the cut The frequent items that meet the support level of 33 percent are: KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 123 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 124 62 2-item itemsets Thus, (Milk, Bread) sell times out of 12 (Milk, Butter) sell together times, (Bread, Butter) sell together times, and (Bread, Cookies) sell times However, only of these transactions meet the minimum support level of 33 percent KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 125 3-item itemsets Again, only a subset of them meets the minimum support requirements KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 126 63 Thus (Milk, Bread, Butter) sell times out of 12 (Bread, Butter, Cookies) sell times out of 12 There is no room to create a 4-item itemset for this support level KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 127 Creating Association Rules Association rules are created that meet the support level (>33 percent) and confidence levels (>50 percent) The highest level itemset that meets the support requirements is the 3item itemset The following itemset has a support level of 50 percent (6 out of 12) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 128 64 Consider the rule (Bread, Butter) → Milk Out of total 12 transactions, (Bread, Butter) occurs times; the itemset (Milk, Bread, Butter) occurs times The rule thus has a support level of 6/12 (or 50 percent) and a confidence level of 6/9 (or 67 percent) The thresholds for the support (>33 percent) and confidence levels (>50 percent) are met Thus, the first valid association rule from this data is as follows: (Bread, Butter) → Milk {S = 50%, C = 67%} KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 129 Consider the rule: (Milk, Bread) → Butter Out of total 12 transactions, (Milk, Bread) occur times; and (Milk, Bread, Butter) occurs times The rule has a support level of 6/12 (or 50 percent) and a confidence level of 6/7 (or 84 percent) Thus, the next valid association rule is as follows: (Milk, Bread) → Butter {S = 50%, C = 84%} KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 130 65 Consider the rule: (Milk, Butter) → Bread Out of total 12 transactions (Milk, Butter) occurs times while (Milk, Bread, Butter) occurs times The rule has a support level of 7/12 and a confidence level of 6/7 (or 84 percent) Thus, the next valid association rule is as follows: (Milk, Butter) → Bread {S = 50%, C = 84%} KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 131 Kết luận The other high-level itemset that could meet the support requirements is the 3-item itemset Thus, there are three valid association rules from this data at the 2itemset values of X, for this support and confidence levels KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 132 66 Association rules at the 1-item values of X Có thể sử dụng cách đểtìm luật kết hợp 1-item VD: Consider the rule: Milk → Bread Out of total 12 transactions Milk occurs times while (Milk, Bread) occurs times The rule has a support level of 7/12 (or 58 percent) and a confidence level of 7/9 (or 77 percent) Thus, the next valid association rule is as follows: Milk → Bread {S = 58%, C = 77%} KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 133 Chương 3: Sử dụng công cụ OLAP khai phá liệu 3.1 Tồng quan chung SQL server analysis service 3.1.1 Một số khái niệm liên quan 3.1.2 Tổ chức mơ hình sở liệu đa chiều 3.1.3 Giới thiệu cài đặt công cụ OLAP 3.2 Xây dựng OLAP Cube 3.2.1 Xây dựng DB Engine 3.2.2 Thiết lập nguồn , bảng Fact 3.2.3 Thiết lập chiều cho Cube 3.2.4 Xây dựng Cube 3.3 Xây dựng Report 3.3.1 Thiết lập nguồn cho Report 3.3.2 Lập Report từ sở liệu nhiều chiều KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 3.3.3 Quản lý Report (bảo mật- security, truyềnsubscription, quản lý thực thi –excution) 134 67 ... bên KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 110 55 Dựa vào KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 111 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 112 Accuracy? 56 Regression Trong SPSS: Analyze Linear KHAI PHÁ DỮ LIỆU... cậy thang đo KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 66 33 ĐỘ TƯƠNG QUAN CỦA TRẮC NGHIỆM KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 67 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH Độ tương quan (Correlation) Trong SPSS,... KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 107 Đồ thị entropy Với định, ta cần tạo ta nhiều thông tin nhất, tức Entropy cao KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 108 54 Ví dụ KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

Ngày đăng: 11/07/2022, 14:28

HÌNH ẢNH LIÊN QUAN

Đo độ tin cậy bằng SPSS - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
o độ tin cậy bằng SPSS (Trang 13)
Chọn mơ hình alpha. - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
h ọn mơ hình alpha (Trang 13)
Quan sát bảng kết quả và nhận xét - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
uan sát bảng kết quả và nhận xét (Trang 15)
các dữ liệu này thường phù hợp với mơ hình nhiều chiều Tốn thời gian - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
c ác dữ liệu này thường phù hợp với mơ hình nhiều chiều Tốn thời gian (Trang 16)
nếu có sự thay đổi nào đó với mơ hình hệ thống thì data mart dễ dàng chuyển đổi hơn vì nó có kích thước nhỏ gọn. - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
n ếu có sự thay đổi nào đó với mơ hình hệ thống thì data mart dễ dàng chuyển đổi hơn vì nó có kích thước nhỏ gọn (Trang 19)
Ta sẽ tiến hành kiểm tra mơ hình DT ta vừa tạo được bằng tập Test Data như bên dưới - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
a sẽ tiến hành kiểm tra mơ hình DT ta vừa tạo được bằng tập Test Data như bên dưới (Trang 35)
3.1.2. Tổ chức mơ hình cơ sở dữ liệu đa chiều 3.1.3. Giới thiệu và cài đặt công cụ OLAP 3.2 - Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
3.1.2. Tổ chức mơ hình cơ sở dữ liệu đa chiều 3.1.3. Giới thiệu và cài đặt công cụ OLAP 3.2 (Trang 47)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN