Biểu đồ tần suất ứng với một thuộc tính A nào đó sẽ chia sự phân bố dữ liệu của A thành các tập không giao nhau gọi là bucket thường thì độ rộng của các bucket là bằng nhau.. Mỗi buc[r]
(1)TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU CHƯƠNG 1: TIỀN XỬ LÝ DỮ LIỆU Giảng viên: ThS Nguyễn Vương Thịnh Bộ môn: Hệ thống thông tin Hải Phòng, 2012 (2) Thông tin giảng viên Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn (3) Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques (the 2nd Edition), Elsevier Inc, 2006 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 (4) (5) CHƯƠNG 1: TIỀN XỬ LÝ DỮ LIỆU 1.1 KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU? 1.2 TÓM TẮT MÔ TẢ DỮ LIỆU 1.3 LÀM SẠCH DỮ LIỆU 1.4 TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU 1.5 RÚT GỌN DỮ LIỆU (6) 1.1 KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU 1.1.1 Tại phải tiền xử lý liệu? Dữ liệu giới thực (mà chúng ta muốn phân tích cách áp dụng các kỹ thuật khai phá liệu) thường: • Không hoàn chỉnh (incomplete): thiếu vắng các giá trị các thuộc tính đáng quan tâm, chứa các liệu gộp nhóm • Chứa đựng các giá trị nhiễu (noisy): bao gồm các lỗi các giá trị lệch quá xa ngoài phạm vi mong đợi • Không quán (inconsistent) Lý do: Kích thước liệu quá lớn Được thu thập từ nhiều nguồn khác ⟹ Chất lượng liệu thấp dẫn tới kết khai phá tồi Tiền xử lý liệu là quá trình áp dụng các kỹ thuật nhằm nâng cao chất lượng liệu và từ đó giúp nâng cao chất lượng kết khai phá (7) 1.1.2 Những nguyên nhân ảnh hưởng đến chất lượng liệu A Nguyên nhân khiến liệu không hoàn chỉnh (incomplete): Giá trị tương ứng không thể chấp nhận vào thời điểm thu thập Sự khác biệt quan điểm thời điểm thu thập và thời điểm phân tích Các lỗi gây người (nhập liệu sót) hệ thống (phần cứng/phần mềm) B Nguyên nhân gây các giá trị nhiễu (noisy): Lỗi các thiết bị thu thập liệu Lỗi nhập liệu sai (gây người hay máy tính) Lỗi quá trình truyền liệu C Nguyên nhân gây tính không quán (inconsistent): Dữ liệu đến từ các nguồn khác Sự vi phạm các phụ thuộc hàm D Sự xuất các ghi trùng lặp (8) 1.1.3 Các kỹ thuật tiền xử lý liệu A Tích hợp liệu (Data Integration): kết hợp liệu từ nhiều nguồn khác thành kho liệu thống ⟹ Có thể gây ra: - Sự không quán (inconsistencies) - Dư thừa liệu (redundancies) B Làm liệu (Data Cleaning): kỹ thuật này thực thông qua việc bổ sung các giá trị thiếu (missing values), loại bỏ các liệu nhiễu (noisy data), xác định và loại bỏ giá trị lệch quá xa so với mong đợi (outliers), giải vấn đề không quán liệu (inconsistencies) Nếu người dùng thấy liệu là không “sạch”, họ không tin tưởng vào kết khai phá trên liệu đó Dữ liệu không “sạch” có thể gây nhiễu loạn cho các thủ tục khai phá liệu và dẫn tới kết không đáng tin cậy Dù hầu hết các thủ tục khai phá liệu cài đặt chế nhằm xử lý các vấn đề thiếu vắng giá trị hay nhiễu chúng không phải lúc nào đáng tin cậy ⟹ Làm liệu là bước tiền xử lý quan trọng (9) C Chuyển dạng liệu (Data Transformation): bao gồm các thao tác là chuẩn hóa (normalization) và gộp nhóm (aggregation) Đây là kỹ thuật bổ sung góp phần vào thành công tiến trình khai phá liệu D Rút gọn liệu (Data Reduction): Tập liệu quá lớn (huge) làm tiến trình khai phá trở nên chậm chạp ⟹ Nhu cầu: Giảm kích thước tập liệu mà không ảnh hưởng đến kết khai phá Kỹ thuật rút gọn liệu cho phép biểu diễn tập liệu dạng rút gọn tức là nhỏ nhiều mặt kích thước/dung lượng (volume) cho kết khai phá/phân tích chính xác Các chiến lược: Gộp nhóm liệu (data aggregation): vd: xây dựng data cube Lựa chọn tập thuộc tính (attribute subset selection): vd: loại bỏ các thuộc tính không thích hợp thông qua phân tích tương quan (correlation analysis) Giảm số chiều liệu (dimensionality reduction): giảm số lượng các biến ngẫu nhiên thuộc tính Vd: sử dụng các lược đồ mã hóa với chiều dài mã tối thiểu sử dụng biến đổi wavelet Giảm biểu diễn số lớn (numerosity reduction): thay liệu đã có các cách biểu diễn thay gọn là sử dụng biểu diễn cụm (cluster) mô hình tham số (parametric model) Sử dụng lược đồ phân cấp khái niệm: khái niệm mức thấp (low-level) thay các khai niệm mức cao (higher-level) (10) 10 (11) 1.2 TÓM TẮT MÔ TẢ DỮ LIỆU Để có thể khai phá liệu thành công, cần có cái nhìn toàn thể tranh liệu muốn khai phá 1.2.1 Khái niệm tóm tắt mô tả liệu Tóm tắt mô tả liệu (descriptive data summarization) là kỹ thuật sử dụng nhằm xác định đặc trưng điển hình và đặc điểm bật (hightlight) liệu (những giá trị xem là nhiễu (noise) vượt ngoài phạm vi mong đợi (outliers)) Khi nghiên cứu các đặc trưng liệu, người ta quan tâm tới: Xu hướng tập trung liệu (central tendency): đặc trưng các đại lượng thống kê: trung bình, trung vị, mode, midrange Sự phân ly liệu (dispersion): đặc trưng các các đại lượng như: tứ phân vị (quartile),khoảng tứ phân vị (interquartile range – IRQ), phương sai (variance) 11 (12) 1.2.2 Đánh giá xu hướng tập trung liệu 1.2.2.1 Giá trị trung bình (Mean) Xét dãy gồm N giá trị {x1, x2 ,…, xN} Giá trị trung bình (mean) xác N định công thức: x i x1 x2 xN x N N i 1 Nếu giá trị xi có trọng số wi kèm thì giá trị trung bình gọi là trung bình dựa trên trọng số (weighted average) và xác định bởi: N x w i x i i 1 N w i x1w1 x2w2 xN wN w1 w2 wN i 1 12 Trị trung bình xác định giá trị “trung tâm” (center) tập liệu 1.2.2.2 Trung vị (Median) Xét dãy gồm N giá trị có thứ tự {x1, x2 ,…, xN} Nếu N là số nguyên lẻ (N=2K+1) thì trung vị Med = x [N/2]+1 (phần tử chính dãy) Nếu N là số nguyên chẵn (N=2K) thì trung vị Med = (X N/2 + XN/2+1)/2 (trung bình cộng hai phần tử chính dãy) (13) Tính xấp xỉ giá trị trung vị Dữ liệu nhóm thành đoạn (intervals) tùy thuộc vào các giá trị liệu xi Tần suất xuất (frequency) ứng với đoạn(thường xác định số giá trị có đoạn) đã biết Đoạn có tần suất xuất là trung vị các tần suất gọi là đoạn trung vị (median interval) Trung vị toàn tập liệu có thể tính xấp xỉ bởi: N: số giá trị có toàn tập liệu L1: biên đoạn trung vị (∑freq)l : tổng tần suất các đoạn nhỏ đoạn trung vị freqmedian : tần suất đoạn trung vị width: độ rộng đoạn trung vị 13 (14) 1.2.2.3 Giá trị mode Mode là giá trị có tần suất xuất lớn tập liệu xét Giả sử tập liệu xét chứa N giá trị khác x 1, x2, …, xN Gọi tần suất xuất giá trị xi là f(xi) Khi đó: f(mode)=max {f(xi )} 1i n Một tập liệu có thể có nhiều giá trị mode 1.2.2.4 Khoảng trung bình (midrange) Khoảng trung bình có thể sử dụng để xác định độ tập trung liệu Khoảng trung bình xác định là trung bình cộng các giá trị lớn và nhỏ tập liệu max midrange 14 (15) 1.2.3 Đánh giá phân ly liệu 1.2.3.1 K-thập phân vị và tứ phân vị K-thập phân vị (kth percentile) của tập liệu có thứ tự là giá trị xi có tính chất: K% các mục liệu tập liệu có giá trị nhỏ xi Nhất-tứ phân vị (first quartile) là 25-thập phân vị (Q 1) Tam-tứ phân vị (third quartile) là 75-thập phân vị (Q3) Khoảng liên tứ phân vị (interquartile range - IQR): IQR = Q3 - Q1 ⟹ Có giá trị biểu diễn tóm tắt liệu: Min, Q1, Median, Q2, Max Biểu diễn phân bố biểu đồ cột (boxplots): Cuối cột biểu diễn là giá trị tứ phân vị và chiều dài cột là khoảng liên tứ phân vị Trung vị ký hiệu đường gạch ngang cột biểu diễn Hai đường thẳng bên ngoài cột mở rộng tới vị trí biểu diễn cho giá trị lớn và nhỏ dãy 15 (16) 16 (17) 1.2.3.2 Phương sai và độ lệch chuẩn Phương sai (variance) N giá trị x1, x2,…, xN xác định công thức: x : giá trị trung bình N giá trị Độ lệch chuẩn (standard deviation) σ xác định bậc phương sai Lưu ý: • Độ lệch chuẩn phân bổ xung quanh giá trị trung bình và sử dụng giá trị trung bình chọn làm giá trị đặc trưng cho trung tâm dãy • σ = có nghĩa là không có phân bố phương sai, tất các giá trị 17 (18) 1.2.4 Biểu diễn tóm tắt mô tả liệu dạng đồ thị 1.2.4.1 Biểu đồ tần suất (frequency histograms) Là phương pháp biểu diễn tóm tắt phân bố thuộc tính cho trước nào đó dạng trực quan Biểu đồ tần suất ứng với thuộc tính A nào đó chia phân bố liệu A thành các tập không giao gọi là bucket (thường thì độ rộng các bucket là nhau) Mỗi bucket biểu diễn hình chữ nhật có chiều cao tương ứng là số lượng hay tần suất các giá trị có bucket 18 (19) 1.2.4.2 Đồ thị phân vị (quantile plot): Là cách thức đơn giản và hiệu ta cái nhìn phân bố liệu đơn biến Cho phép biểu diễn toàn liêu ứng với thuộc tính cho trước Biểu diễn đồ thị thông tin phân vị (quantile information) Kỹ thuật biểu diễn: Dãy giá trị xi tăng dần từ x1 tới xN Mỗi giá trị xi kèm với giá trị fi là tỷ lệ phần trăm các giá trị liệu dãy nhỏ xi Giá trị fi có thể tính công thức: Trên đồ thị, xi biểu diễn theo fi 19 (20) 1.2.4.3 Đồ thị song phân vị (quantile-quantile plot): Biểu diễn mối liên hệ phân vị phân bố đơn biến này với phân vị phân bố đơn biến khác Đây là công cụ trực quan mạnh mẽ cho phép quan sát thay đổi chuyển từ phân bố này sang phân bố khác Kỹ thuật biểu diễn: Giả sử chúng ta có hai dãy giá trị cùng biến ngẫu nhiên thu thập độc lập nhau: dãy x = {x1, x2 ,…, xN } và dãy y = {y1, y2,…,yM } Nếu N = M: biểu diễn Yi theo Xi đó Xi ,Yi tương ứng là các phân vị dãy x và dãy y xác định theo công thức (i – 0.5)/N Nếu M < N: biểu diễn Yi theo Xi và có M điểm biểu diễn trên đồ thị Trong đó Xi ,Yi tương ứng là các phân vị dãy x và dãy y xác định theo công thức (i – 0.5)/M 20 (21) 1.2.4.4 Đồ thị phân tán (scatter plot): Là phương pháp hiệu để xác định xem liệu có xuất mối quan hệ, các mẫu hay xu hướng 02 thuộc tính mang giá trị số hay không Mỗi cặp giá trị biểu diễn cặp tọa độ (tương ứng với điểm trên mặt phẳng tọa độ) Cung cấp cái nhìn sơ liệu để thấy các cụm điểm và các giá trị kỳ dị (outliers) phát khả tồn các liên hệ phụ thuộc 21 (22) 1.2.4.5 Đường loess Là công cụ biểu diễn đồ thị quan trọng cho phép bổ sung đường cong “trơn” vào đồ thị phân tán nhằm cung cấp sụ hình dung tốt mẫu độc lập (loess = local regression: hồi quy cục bộ) Để khớp với đường cong hồi quy, các giá trị cần thiết lập với 02 tham số là α-tham số độ trơn và λ-bậc đa thức hồi quy Cần chọn α để tạo đường cong “trơn” có thể không làm biến dạng mẫu liệu phản ánh 22 (23) 1.3 LÀM SẠCH DỮ LIỆU Làm liệu (data cleaning) là kỹ thuật giúp xử lý thiếu vắng giá trị, loại bỏ nhiễu và các giá trị không mong muốn giải vấn đề không quán liệu 1.3.1 Xử lý thiếu vắng giá trị (missing values) A Bỏ qua các ghi: vd: thiếu vắng nhãn phân lớp Phương pháp này thực không hiệu ghi có thiếu vắng giá trị vài thuộc tính B Điền các giá trị thiếu cách thủ công: Phương pháp này tiêu tốn nhiều thời gian và không khả thi với các tập liệu lớn có nhiều giá trị thiếu vắng C Sử dụng các giá trị (hằng) quy ước để thay cho các giá trị thiếu: Thay các giá trị thiếu các giá trị (hằng) quy ước giống (vd: “unknown”) Cách này có thể gây hiểu lầm cho hệ thống KPDL nghĩ “unknown” là giá trị đáng quan tâm D Sử dụng giá trị trung bình để thay cho các giá trị thiếu: Sử dụng giá trị trung bình thuộc tính để thay cho các giá trị thiếu trên thuộc tính đó 23 (24) D Sử dụng giá trị trung bình trên phân lớp để thay cho giá thị thiếu phân lớp: thay giá trị bị thiếu trị trung bình các giá trị tương ứng cùng phân lớp E Sử dụng giá trị có xác suất cao (most probable) để thay cho giá trị thiếu: Giá trị này có thể xác định thông qua hồi quy, các công cụ suy diễn dựa trên chuẩn hóa Bayes suy luận nhờ cây định 24 (25) 1.3.2 Xử lý liệu nhiễu (noisy data) Nhiễu (noise) là lỗi ngẫu nhiên giá trị “lệch chuẩn” ⟹ Làm nào để làm “mượt” (smooth) liệu và loại bỏ nhiễu? A “Đóng thùng” (binning): • Là phương pháp làm “trơn” giá trị liệu đã xếp dựa trên các giá trị xung quanh (làm “trơn” cục bộ) • Các giá trị liệu đã xếp phân chia vào các “thùng chứa” (gọi là bin/bucket) có kích thước Có kiểu phân chia: Equal-frequency: Các “thùng chứa” chứa số giá trị Equal-width: Các “thùng chứa” có khoảng giá trị biến động (từ giá trị đến giá trị max thùng) là • Có kỹ thuật phổ biến: Làm trơn trung bình/trung vị (smoothing by bin means/median): giá tri “thùng chứa” thay trung bình cộng (hoặc trung vị) toàn các giá trị ban đầu có “thùng chứa” đó Làm trơn dựa trên biên (smoothing by boundaries): giá trị lớn nhỏ “thùng chứa” chọn làm biên Mỗi giá trị thùng chứa thay giá trị biên gần 25 (26) 26 (27) B • • • C • 27 Hồi quy (regression): Dữ liệu có thể làm trơn cách khớp liệu với hàm hồi quy Hồi quy tuyến tính đòi hỏi phải tìm đường thẳng tối ưu khớp với biến (thuộc tính) Từ đó, thuộc tính có thể sử dụng để dự đoán thuộc tính còn lại Hồi quy tuyến tính kép là mở rộng hồi quy tuyến tính mà có nhiều 02 biến (thuộc tính) và liệu khớp với đồ thị không gian là mặt đa chiều Phân cụm (clustering): Giá trị bất thường (outliers) có thể phát kỹ thuật phân cụm mà các giá trị tương tự đưa vào cùng nhóm (cụm) Các giá trị không thuộc cụm nào có thể xem là bất thường (28) 1.4 TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU 1.4.1 Tích hợp liệu (Data Integration) • Kết hợp liệu từ nhiều nguồn khác thành kho liệu thống • Các nguồn liệu khác nhau: sở liệu, data cube, tập tin phẳng,… • Các vấn đề phải đối mặt: Tích hợp lược đồ (shema integration) và khớp các đối tượng (object matching): cùng thực thể giới thực có thể phản ánh liệu từ các nguồn khác ⟹ cần phải khớp lại các đối tượng này VD: Vấn đề định danh thực thể Sự dư thừa (redundancy): Một thuộc tính có thể dư thừa có thể suy diễn từ hay tập các thuộc tính khác Sự không quán thuộc tính hay cách đặt tên có thể gây dư thừa tập liệu kết Dư thừa liệu có thể phát thông qua phân tích 28 tương quan (correlation analysis) (29) Phân tích dựa trên hệ số tương quan Dựa trên các liệu đã có, phân tích tương quan có thể cho thấy mức độ mà thuộc tính có thể suy diễn định thuộc tính khác Hệ số tương quan: dùng để đánh giá độ tương quan 02 thuộc tính Cụ thể, hệ số tương quan 02 thuộc tính A và B xác định: Trong đó: N: số liệu ai, bi là các giá trị tương ứng với 02 thuộc tính A và B i A , B tương ứng là các giá trị trung bình trên A và B σA, σB tương ứng là độ lệch chuẩn A và B 29 (30) Ta luôn có -1 ≤ rA,B ≤ và: o Nếu rA,B > 0: A, B có mối tương quan dương (giá trị ứng với A tăng thì giá trị ứng với B tăng) Giá trị r A,B càng lớn thể o tính tương quan 02 thuộc tính càng mạnh ⟹ Có thể loại bỏ 02 thuộc tính (A B) vì nó là dư thừa Nếu rA,B = 0: Không tồn mối liên hệ tương quan A và B là 02 o thuộc tính hoàn toàn độc lập Nếu rA,B < 0: A, B có mối tương quan âm (giá trị ứng với A tăng thì giá trị ứng với B giảm và ngược lại) ⟹ A và B là 02 thuộc tính trái ngược 30 (31) Phân tích tương quan liệu rời rạc Mối quan hệ tương quan 02 thuộc tính A và B có thể đặc trưng phép đo Khi – Bình phương (Chi-square) χ2 Giả sử thuộc tính A có c giá trị khác a 1, a2,…, ac và B có r giá trị khác b1, b2,…,br Các liệu đặc trưng A, B biểu diễn dạng bảng ngẫu nhiên (contingency table) với các cột là c giá trị khác A và các dòng là r giá trị khác B Ký hiệu (Ai, Bj) là kiện thuộc tính A nhận giá trị và thuộc tính B nhận giá trị bj Mỗi kiện (Ai, Bj) có thể có chiếm trọn ô bảng Giá trị Khi – Bình phương χ2 có thể xác định qua công thức: Trong đó: • oij là tần suất quan sát hay tần suất biểu kiến (observed 31 frequency) kiện (Ai, Bj) • eij là tần xuất kỳ vọng (expected frequency) kiện (A i, Bj) (32) Tần xuất kỳ vọng (expected frequency) kiện (A i, Bj) có thể tính công thức: Trong đó: N: số lượng các liệu count(A=ai): số lượng các có thuộc tính A nhận giá trị count(B=bj): số lượng các có thuộc tính B nhận giá trị bj Chú ý: Độ đo Khi – Bình phương dùng để kiểm tra giả thiết tính độc lập 02 thuộc tính A và B Việc kiểm tra này dựa trên mức độ chú ý (significance level) với (r-1)(c-1) bậc tự 32 (33) 33 Với số bậc tự là (2-1)(2-1) = 1, mức độ chú ý là 0.001 thì để đảm bảo 02 thuộc tính A, B là độc lập, giá trị χ2 = 10.828 (đề nghị SV tham khảo thêm các giáo trình xác suất thống kê) ⟹ Giá trị tính là 507.93 > 10.828 nên A và B là 02 thuộc tính phụ thuộc chặt chẽ (34) 1.4.2 Chuyển dạng liệu (Data Transformation) Dữ liệu chuyển đổi hợp thành các dạng phù hợp cho việc khai phá Chuyển dạng liệu liên quan tới các vấn đề sau đây: • Làm trơn (Smoothing): Loại bỏ các nhiễu (noisy) khỏi liệu Các kỹ thuật sử dụng bao gồm: đóng thùng (binning), hồi quy (regression), phân cụm (clustering) • Gộp nhóm (Aggregation): các thao tác tóm tắt hay gộp nhóm áp dụng với liệu Bước này thường sử dụng để xây dựng data cube cho phân tích liệu từ nhiều nguồn • Khởi tạo liệu (Generalization of the data): liệu thô thay các các khái niệm mức cao thông qua việc sử dụng lược đồ khái niệm • Xây dựng thuộc tính (Attribute construction): các thuộc tính xây dựng và thêm vào từ tập thuộc tính đã có để hỗ trợ quá trình khai phá (tăng độ chính xác và dễ hiểu cấu trúc liệu nhiều chiều (high-dimensional data)) Bằng cách kết hợp các thuộc tính ⟹ phát các thông tin bị thiếu liên quan đến mối quan hệ 34 các thuộc tính (hữu ích cho quá trình khai phá) (35) • Chuẩn hóa (Normalization): Dữ liệu thuộc tính chuyển đổi tương ứng với các phạm vi biểu diễn nhỏ [-1,1] [0,1] Chuẩn hóa min-max: thực việc chuyển đổi tuyến tính dựa trên liệu gốc Gọi minA, maxA là giá trị lớn và nhỏ thuộc tính A Chuẩn hóa min-max ánh xạ giá trị v A tương ứng với giá trị v’ khoảng [new_minA , new_maxA ] thông qua công thức: Ví dụ: Giả sử giá trị lớn và nhỏ thuộc tính income là $12,000 và $98,000 Người ta định ánh xạ miền giá trị thuộc tính income tương ứng với khoảng [0.0,1.0] Hỏi giá trị v = $73,000 income tương ứng với giá trị ánh xạ v’ bao nhiêu khoảng [0.0,1.0]? minA = $12,000 maxA = $98,000 new_minA = 0.0 new_maxA = 0.1 v = $73,000 = (36) Chuẩn hóa z-score: các giá trị ứng với thuộc tính A chuẩn hóa dựa trên giá trị trung bình và độ lệch chuẩn A Một giá trị v A chuẩn hóa tương ứng với giá trị v’ thông qua công thức: Chuẩn hóa z-score hữu dụng khi: Không biết giá trị lớn và nhỏ thực tế thuộc tính A Các giá trị kỳ dị (outliers) chi phối chuẩn hóa min-max Ví dụ: Giả sử giá trị trung bình và độ lêch chuẩn thuộc tính income tương ứng là $54,000 và $16,000 Một giá trị v = $73,600 income chuẩn hóa tương ứng với giá trị v’ bao nhiêu? = 36 (37) Chuẩn hóa thập phân (decimal scaling): dịch chuyển dấu phẩy thập phân các giá trị ứng với thuộc tính A Số vị trí di chuyển phụ thuộc vào giá trị tuyệt đối lớn A Một giá trị v A chuẩn hóa thập phân tương ứng với giá trị v’ theo công thức: (j là số nguyên nhỏ cho ) Ví dụ: Giả sử thuộc tính A có miền giá trị là [-986,917] Giá trị tuyệt đối lớn A là 986 Như vậy, ta chọn j = Khi đó thì giá trị v = 817 chuẩn hóa thành v’ = 0.817 37 (38) 1.5 RÚT GỌN DỮ LIỆU 1.5.1 Gộp nhóm liệu dạng data cube: Các thao tác gộp nhóm áp dụng trên liệu để tạo data cube 1.5.2 Lựa chọn tập thuộc tính (Attribute subset selection): Các thuộc tính thừa không thích hợp phát và loại bỏ 1.5.3 Giảm số chiều liệu (Dimensionality reduction): Các chế mã hóa (encoding) áp dụng để làm giảm kích thước liệu 38 (39) 1.5.4 Giảm biểu diễn số lớn (Numerosity reduction): Dữ liệu thay tính toán thông qua cách thức biểu diễn liệu khác gọn hơn, ví dụ các mô hình tham số (parametric models) các phương pháp không tham số (nonparametric methods) phân cụm, lấy mẫu, sử dụng histogram 1.5.5 Rời rạc hóa liệu (discretization) và tạo lược đồ khái niệm (concept hierarchy generation): • Các giá trị liệu thô ứng với các thuộc tính thay các khoảng (range) các mức khái niệm (conceptual levels) cao • Rời rạc hóa liệu xem là dạng thức việc giảm biểu diễn số lớn và hữu dụng việc tạo lược đồ khái niệm • Rời rạc hóa liệu và tạo lược đồ khái niệm xem là công cụ mạnh mẽ cho khai phá liệu Chúng cho phép thực công việc khai phá cấp độ trừu tượng khác 39 (40) Q&A 40 (41)