1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 5 - Nguyễn Hoàng Ân (2018)

172 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 172
Dung lượng 3,75 MB

Nội dung

Bài giảng Khai phá dữ liệu - Chương 5: Khai phá dữ liệu trong kinh doanh cung cấp cho người học các kiến thức: Hiểu dữ liệu và chuẩn bị dữ liệu, vai trò của tiền xử lý dữ liệu, nhiệm vụ chính của tiền xử lí dữ liệu. Mời các bạn cùng tham khảo nội dung chi tiết.

Chương 5: Khai phá liệu kinh doanh Phần 1: Tiền xử lí liệu Hiểu liệu chuẩn bị liệu Vai trò tiền xử lý liệu Nhiệm vụ tiền xử lí liệu Những vấn đề để hiểu liệu Cách thu thập liệu cần thiết để mơ hình hóa:  Data Acquisition Cách kết hợp liệu tìm từ nguồn liệu khác  Data Integeation Mô tả liệu  Data Description Đánh giá chất lượng (độ sạch) liệu  Data Assessment 1.1 Thu thập liệu Cách thu thập liệu cần thiết để mơ hình hóa (Data Acquisition)  Trích chọn liệu theo câu hỏi từ CSDL tới tập tin phẳng (Flat file)  Ngôn ngữ hỏi bậc cao truy nhập trực tiếp CSDL  Kết nối mức thấp để truy nhập trực tiếp CSDL • Loại bỏ ràng buộc khơng gian/thời gian di chuyển khối lượng lớn liệu • Hỗ trợ việc quản lý bảo quản liệu tập trung hóa • Rút gọn tăng khơng cần thiết liệu • Tạo điều kiện quản trị liệu tốt để đáp ứng mối quan tâm đắn 1.2 Tích hợp liệu Cách kết hợp liệu tìm từ nguồn liệu khác Data Integeation 1.3 Mô tả liệu Giá trị kỳ vọng (mean)  Xu hướng trung tâm tập liệu Độ lệch chuẩn (Standard deviation)  Phân bố liệu xung quanh kỳ vọng Cực tiểu (Minimum)  Giá trị nhỏ Cực đại (Maximum)  Giá trị lớn Bảng tần suất (Frequency tables)  Phân bố tần suất giá trị biến Lược đồ (Histograms)  Cung cấp kỹ thuật đồ họa biểu diễn tần số giá trị biến Mô tả liệu 13, 18, 13, 14, 13, 16, 14, 21, 13 1.4 Đánh giá lập hồ sơ liệu Đánh giá liệu  Định vị vấn đề liệu cần giải quyết: Tìm định cách nắm bắt vấn đề  Mô tả liệu làm rõ số vấn đề  Kiểm toán liệu: lập hồ sơ liệu phân tích ảnh hưởng liệu chất lượng Lập hồ sơ liệu (cơ sở cứ: phân bố liệu)  Tâm liệu  Các ngoại lai tiềm  Số lượng phân bố khoảng trong trường hợp  Bất liệu đáng ngờ, mã thiếu (miscodes), liệu học, liệu test, đơn giản liệu rác  Những phát nên trình bày dạng báo cáo liệt kê mốc quan trọng kế hoạch Vai trò tiền xử lý liệu Khơng có liệu tốt, khơng thể có kết khai phá tốt!  Quyết định chất lượng phải dựa liệu chất lượng • Chẳng hạn, liệu bội hay thiếu nguyên nhân thống khơng xác, chí gây hiểu nhầm  Kho liệu cần tích hợp quán liệu chất lượng Phân lớn công việc xây dựng kho liệu trích chọn, làm chuyển đổi liệu —Bill Inmon Dữ liệu có chất lượng cao phù hợp với mục đích sử dụng điều hành, định, lập kế hoạch Các độ đo chất lượng liệu: Góc nhìn đa chiều Các độ đo chất lượng liệu:  Độ xác (Accuracy)  Tính đầy đủ (Completeness)  Tính quán (Consistency)  Tính kịp thời (Timeliness)  Độ tin cậy (Believability)  Giá trị gia tăng (Value added)  Biểu diễn (Interpretability)  Tiếp cận (Accessibility) Variables of Mixed Types A database may contain all the six types of variables  symmetric binary, asymmetric binary, nominal, ordinal, interval and ratio One may use a weighted formula to combine their effects p (f) (f)  f  1 ij dij d (i, j)  p (f)   f  ij  f is binary or nominal: • dij(f) = if xif = xjf , or dij(f) = otherwise  f is interval-based: use the normalized distance  f is ordinal or ratio-scaled • compute ranks rif and • and treat zif as interval-scaled zif  r M if 1 f 1 4.2 Thuât toán K-mean Input  Số nguyên k > 0: số cụm biết trước  Tập tài liệu D (cho trước) Output  Phân D thành k cụm “tốt nhất”, đối tượng thuộc cụm Định hướng  Tinh chỉnh dần  Mỗi cụm gồm đối tượng đại diện đối tượng gần đại diện cụm S = {dS* dD mà sim (d,dS*) > sim (d,dS), dS đại diện cụm khác 4.4 Thuật tốn K-mean Ví dụ Cho tập hợp điểm: • X1={1,3} • X2={1.5,3.2} • X3={1.3,2.8} • X4={3,1} Gom thành cụm, ban đầu cụm gồm X1,X2, cụm gồm X3,X4 4.4 Thuật toán K-mean 4.4 Thuật toán K-mean  Ưu điểm  Đơn giản, dễ sử dụng  Hiệu thời gian: tuyến tính O(tkn), t số lần lặp, k số cụm, n số phần tử  Một thuật toán phân cụm phổ biến  Thường cho tối ưu cục Tối ưu tồn cục khó tìm  Nhược điểm  Phải “tính trung bình được”: liệu phân lớp dựa theo tần số  Cần cho trước k : số cụm  Nhạy cảm với ngoại lệ (cách xa so với đại đa số liệu lại): ngoại lệ thực tế, ngoại lệ quan sát sai (làm liệu)  Nhạy cảm với mẫu ban đầu: cần phương pháp chọn mẫu thơ tốt  Khơng thích hợp với tập liệu không siêu-ellip siêu cầu (các thành phần khơng ellip/cầu hóa) 4.4 Thuật tốn K-mean Đánh giá kết gom cụm: Đánh giá Giả sử G1 , G2 , … , Gn tập cụm gom cụm q trình học có giám sát A1 , A2 , … , An tập cụm gom cụm giải thuật đề nghị Cho D tập liệu chứa chuỗi liệu đặc trưng, với cặp (Di , Dj) ta đếm số liệu sau: a số cặp thuộc cụm G gom cụm tương ứng A b số cặp thuộc cụm G không gom cụm tương ứng A c số cặp thuộc cụm A không gom cụm tương ứng G d số cặp không thuộc cụm A không gom cụm tương ứng G Đánh giá kết gom cụm: Đánh giá Sử dụng phép đo sau: Hệ số tương đồng (%) Jaccard (1901):  𝐽𝑎𝑐𝑐𝑎𝑟𝑑 = 𝑎 𝑎+𝑏+𝑐 Hệ số Rand:  𝑅𝑎𝑛𝑑 = 𝑎+𝑑 𝑎+𝑏+𝑐+𝑑 Hệ số Folkes Mallow (FM):  𝐹𝑀 = 𝑎 𝑎+𝑏 × 𝑎 𝑎+𝑐 Khai phá liệu chuỗi thời gian 5.1 Giới thiệu chuỗi thời gian 5.2 Khai phá liệu chuỗi thời gian 5.3 Ứng dụng 5.1 Giới thiệu chuỗi thời gian Chuỗi thời gian (Time series): Chuỗi theo thời gian chuỗi gía trị đại lượng ghi nhận theo thời gian Các thành phần chuỗi thời gian:     Thành phần xu huớng (Trend component) Thành phần mùa (Seasonal component) Thành phần chu kỳ (Cyclical component) Thành phần bất thuờng (Irregular component) Phân tích chuỗi thời gian  Mơ hình cộng: TS = T + C + S + I  Mơ hình nhân: TS = T  C  S  I 5.2 Khai phá liệu chuỗi thời gian Tìm kiếm tương tự (Similarity Search) Phân lớp (Classification) Phân cụm (Clustering) Phát mơ-típ (Motif Discovery) Novelty/Anomaly Detection Time series visualization Time series prediction 5.3 Ứng dụng Financial: stock price, inflation Industry: power consumption Scientific: experiment results Meteorological: precipitation Một số ứng dụng khác Text Mining Web Mining Tham khảo Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 Vercellis- Carlo, “Business Intelligence: Data Mining and Optimization for Decision Making”, John Wiley & Sons, 2009 ... Một số kỹ thuật khai phá liệu Nguyễn Hoàng Ân 25 Nội dung Giới thiệu chung khai phá liệu Khai phá luật kết hợp ứng dụng Phân lớp liệu ứng dụng Phân cụm liệu ứng dụng Khai phá liệu chuỗi thời... chung khai phá liệu 1.1 Khái niệm khai phá liệu 1.2 Quá trình khám phá tri thức 1.3 Khai phá liệu kinh doanh thơng minh 1.4 Q trình khám phá tri thức 1 .5 Các lĩnh vực có ảnh hưởng đến khai phá liệu. .. sở cứ: phân bố liệu)  Tâm liệu  Các ngoại lai tiềm  Số lượng phân bố kho? ??ng trong trường hợp  Bất liệu đáng ngờ, mã thiếu (miscodes), liệu học, liệu test, đơn giản liệu rác  Những phát nên

Ngày đăng: 04/11/2020, 07:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w