BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU CHƯƠNG 1: TIỀN XỬ LÝ DỮ LIỆU Giảng viên: ThS Nguyễn Vương Thịnh Bộ môn: Hệ thống thông tin Hải Phòng, 2012 Thông tin giảng viên Họ tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques (the 2nd Edition), Elsevier Inc, 2006 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 CHƯƠNG 1: TIỀN XỬ LÝ DỮ LIỆU 1.1 KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU? 1.2 TÓM TẮT MÔ TẢ DỮ LIỆU 1.3 LÀM SẠCH DỮ LIỆU 1.4 TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU 1.5 RÚT GỌN DỮ LIỆU 1.1 KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU 1.1.1 Tại phải tiền xử lý liệu? Dữ liệu giới thực (mà muốn phân tích cách áp dụng kỹ thuật khai phá liệu) thường: • Không hoàn chỉnh (incomplete): thiếu vắng giá trị thuộc tính đáng quan tâm, chứa liệu gộp nhóm • Chứa đựng giá trị nhiễu (noisy): bao gồm lỗi giá trị lệch xa phạm vi mong đợi • Không quán (inconsistent) Lý do:  Kích thước liệu lớn  Được thu thập từ nhiều nguồn khác ⟹ Chất lượng liệu thấp dẫn tới kết khai phá tồi Tiền xử lý liệu trình áp dụng kỹ thuật nhằm nâng cao chất lượng liệu từ giúp nâng cao chất lượng kết khai phá 1.1.2 Những nguyên nhân ảnh hưởng đến chất lượng liệu A Nguyên nhân khiến liệu không hoàn chỉnh (incomplete):  Giá trị tương ứng chấp nhận vào thời điểm thu thập  Sự khác biệt quan điểm thời điểm thu thập thời điểm phân tích  Các lỗi gây người (nhập liệu sót) hệ thống (phần cứng/phần mềm) B Nguyên nhân gây giá trị nhiễu (noisy):  Lỗi thiết bị thu thập liệu  Lỗi nhập liệu sai (gây người hay máy tính)  Lỗi trình truyền liệu C Nguyên nhân gây tính không quán (inconsistent):  Dữ liệu đến từ nguồn khác  Sự vi phạm phụ thuộc hàm D Sự xuất ghi trùng lặp 1.1.3 Các kỹ thuật tiền xử lý liệu A Tích hợp liệu (Data Integration): kết hợp liệu từ nhiều nguồn khác thành kho liệu thống ⟹ Có thể gây ra: - Sự không quán (inconsistencies) - Dư thừa liệu (redundancies) B Làm liệu (Data Cleaning): kỹ thuật thực thông qua việc bổ sung giá trị thiếu (missing values), loại bỏ liệu nhiễu (noisy data), xác định loại bỏ giá trị lệch xa so với mong đợi (outliers), giải vấn đề không quán liệu (inconsistencies)  Nếu người dùng thấy liệu không “sạch”, họ không tin tưởng vào kết khai phá liệu  Dữ liệu không “sạch” gây nhiễu loạn cho thủ tục khai phá liệu dẫn tới kết không đáng tin cậy  Dù hầu hết thủ tục khai phá liệu cài đặt chế nhằm xử lý vấn đề thiếu vắng giá trị hay nhiễu chúng lúc đáng tin cậy ⟹ Làm liệu bước tiền xử lý quan trọng C Chuyển dạng liệu (Data Transformation): bao gồm thao tác chuẩn hóa (normalization) gộp nhóm (aggregation) Đây kỹ thuật bổ sung góp phần vào thành công tiến trình khai phá liệu D Rút gọn liệu (Data Reduction): Tập liệu lớn (huge) làm tiến trình khai phá trở nên chậm chạp ⟹ Nhu cầu: Giảm kích thước tập liệu mà không ảnh hưởng đến kết khai phá Kỹ thuật rút gọn liệu cho phép biểu diễn tập liệu dạng rút gọn tức nhỏ nhiều mặt kích thước/dung lượng (volume) cho kết khai phá/phân tích xác Các chiến lược: Gộp nhóm liệu (data aggregation): vd: xây dựng data cube Lựa chọn tập thuộc tính (attribute subset selection): vd: loại bỏ thuộc tính không thích hợp thông qua phân tích tương quan (correlation analysis) Giảm số chiều liệu (dimensionality reduction): giảm số lượng biến ngẫu nhiên thuộc tính Vd: sử dụng lược đồ mã hóa với chiều dài mã tối thiểu sử dụng biến đổi wavelet Giảm biểu diễn số lớn (numerosity reduction): thay liệu có cách biểu diễn thay gọn sử dụng biểu diễn cụm (cluster) mô hình tham số (parametric model) Sử dụng lược đồ phân cấp khái niệm: khái niệm mức thấp (low-level) thay khai niệm mức cao (higher-level) 10 26 B • • • C • 27 Hồi quy (regression): Dữ liệu làm trơn cách khớp liệu với hàm hồi quy Hồi quy tuyến tính đòi hỏi phải tìm đường thẳng tối ưu khớp với biến (thuộc tính) Từ đó, thuộc tính sử dụng để dự đoán thuộc tính lại Hồi quy tuyến tính kép mở rộng hồi quy tuyến tính mà có nhiều 02 biến (thuộc tính) liệu khớp với đồ thị không gian mặt đa chiều Phân cụm (clustering): Giá trị bất thường (outliers) phát kỹ thuật phân cụm mà giá trị tương tự đưa vào nhóm (cụm) Các giá trị không thuộc cụm xem bất thường 1.4 TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU 1.4.1 Tích hợp liệu (Data Integration) •Kết hợp liệu từ nhiều nguồn khác thành kho liệu thống •Các nguồn liệu khác nhau: sở liệu, data cube, tập tin phẳng,… •Các vấn đề phải đối mặt: Tích hợp lược đồ (shema integration) khớp đối tượng (object matching): thực thể giới thực phản ánh liệu từ nguồn khác ⟹ cần phải khớp lại đối tượng VD: Vấn đề định danh thực thể Sự dư thừa (redundancy): Một thuộc tính dư thừa suy diễn từ hay tập thuộc tính khác Sự không quán thuộc tính hay cách đặt tên gây dư thừa tập liệu kết Dư thừa liệu phát thông qua phân tích tương quan 28 (correlation analysis) Phân tích dựa hệ số tương quan Dựa liệu có, phân tích tương quan cho thấy mức độ mà thuộc tính suy diễn định thuộc tính khác Hệ số tương quan: dùng để đánh giá độ tương quan 02 thuộc tính Cụ thể, hệ số tương quan 02 thuộc tính A B xác định: Trong đó: N: số liệu ai, bi giá trị tương ứng với 02 thuộc tính A B i  A, Btương ứng giá trị trung bình A B σA, σB tương ứng độ lệch chuẩn A B 29 Ta có -1 ≤ rA,B ≤ và: oNếu rA,B > 0: A, B có mối tương quan dương (giá trị ứng với A tăng giá trị ứng với B tăng) Giá trị r A,B lớn thể tính tương quan 02 thuộc tính mạnh ⟹ Có thể loại bỏ 02 thuộc tính (A B) dư thừa oNếu rA,B = 0: Không tồn mối liên hệ tương quan A B 02 thuộc tính hoàn toàn độc lập oNếu rA,B < 0: A, B có mối tương quan âm (giá trị ứng với A tăng giá trị ứng với B giảm ngược lại) ⟹ A B 02 thuộc tính trái ngược 30 Phân tích tương quan liệu rời rạc Mối quan hệ tương quan 02 thuộc tính A B đặc trưng phép đo Khi – Bình phương (Chi-square) χ2 Giả sử thuộc tính A có c giá trị khác a 1, a2,…, ac B có r giá trị khác b1, b2,…,br Các liệu đặc trưng A, B biểu diễn dạng bảng ngẫu nhiên (contingency table) với cột c giá trị khác A dòng r giá trị khác B Ký hiệu (Ai, Bj) kiện thuộc tính A nhận giá trị a i thuộc tính B nhận giá trị bj Mỗi kiện (Ai, Bj) có chiếm trọn ô bảng Giá trị Khi – Bình phương χ2 xác định qua công thức: Trong đó: •oij tần suất quan sát hay tần suất biểu kiến (observed 31 frequency) kiện (Ai, Bj) •eij tần xuất kỳ vọng (expected frequency) kiện (A i, Bj) Tần xuất kỳ vọng (expected frequency) kiện (A i, Bj) tính công thức: Trong đó: N: số lượng liệu count(A=ai): số lượng có thuộc tính A nhận giá trị count(B=bj): số lượng có thuộc tính B nhận giá trị bj Chú ý: Độ đo Khi – Bình phương dùng để kiểm tra giả thiết tính độc lập 02 thuộc tính A B Việc kiểm tra dựa mức độ ý (significance level) với (r-1)(c-1) bậc tự 32 33 Với số bậc tự (2-1)(2-1) = 1, mức độ ý 0.001 để đảm bảo 02 thuộc tính A, B độc lập, giá trị χ2 = 10.828 (đề nghị SV tham khảo thêm giáo trình xác suất thống kê) ⟹ Giá trị tính 507.93 > 10.828 nên A B 02 thuộc tính phụ thuộc chặt chẽ 1.4.2 Chuyển dạng liệu (Data Transformation) Dữ liệu chuyển đổi hợp thành dạng phù hợp cho việc khai phá Chuyển dạng liệu liên quan tới vấn đề sau đây: •Làm trơn (Smoothing): Loại bỏ nhiễu (noisy) khỏi liệu Các kỹ thuật sử dụng bao gồm: đóng thùng (binning), hồi quy (regression), phân cụm (clustering) •Gộp nhóm (Aggregation): thao tác tóm tắt hay gộp nhóm áp dụng với liệu Bước thường sử dụng để xây dựng data cube cho phân tích liệu từ nhiều nguồn •Khởi tạo liệu (Generalization of the data): liệu thô thay các khái niệm mức cao thông qua việc sử dụng lược đồ khái niệm •Xây dựng thuộc tính (Attribute construction): thuộc tính xây dựng thêm vào từ tập thuộc tính có để hỗ trợ trình khai phá (tăng độ xác dễ hiểu cấu trúc liệu nhiều chiều (high-dimensional data)) Bằng cách kết hợp thuộc tính ⟹ phát thông tin bị thiếu liên quan đến mối quan hệ thuộc tính (hữu 34 ích cho trình khai phá) • Chuẩn hóa (Normalization): Dữ liệu thuộc tính chuyển đổi tương ứng với phạm vi biểu diễn nhỏ [-1,1] [0,1] Chuẩn hóa min-max: thực việc chuyển đổi tuyến tính dựa liệu gốc Gọi minA, maxA giá trị lớn nhỏ thuộc tính A Chuẩn hóa minmax ánh xạ giá trị v A tương ứng với giá trị v’ khoảng [new_minA , new_maxA ] thông qua công thức: Ví dụ: Giả sử giá trị lớn nhỏ thuộc tính income $12,000 $98,000 Người ta định ánh xạ miền giá trị thuộc tính income tương ứng với khoảng [0.0,1.0] Hỏi giá trị v = $73,000 income tương ứng với giá trị ánh xạ v’ khoảng [0.0,1.0]? minA = $12,000 maxA = $98,000 new_minA = 0.0 new_maxA = 0.1 v = $73,000 = Chuẩn hóa z-score: giá trị ứng với thuộc tính A chuẩn hóa dựa giá trị trung bình độ lệch chuẩn A Một giá trị v A chuẩn hóa tương ứng với giá trị v’ thông qua công thức: Chuẩn hóa z-score hữu dụng khi: Không biết giá trị lớn nhỏ thực tế thuộc tính A Các giá trị kỳ dị (outliers) chi phối chuẩn hóa min-max Ví dụ: Giả sử giá trị trung bình độ lêch chuẩn thuộc tính income tương ứng $54,000 $16,000 Một giá trị v = $73,600 income chuẩn hóa tương ứng với giá trị v’ bao nhiêu? = 36 Chuẩn hóa thập phân (decimal scaling): dịch chuyển dấu phẩy thập phân giá trị ứng với thuộc tính A Số vị trí di chuyển phụ thuộc vào giá trị tuyệt đối lớn A Một giá trị v A chuẩn hóa thập phân tương ứng với giá trị v’ theo công thức: (j số nguyên nhỏ cho ) Ví dụ: Giả sử thuộc tính A có miền giá trị [-986,917] Giá trị tuyệt đối lớn A 986 Như vậy, ta chọn j = Khi giá trị v = 817 chuẩn hóa thành v’ = 0.817 37 1.5 RÚT GỌN DỮ LIỆU 1.5.1 Gộp nhóm liệu dạng data cube: Các thao tác gộp nhóm áp dụng liệu để tạo data cube 1.5.2 Lựa chọn tập thuộc tính (Attribute subset selection): Các thuộc tính thừa không thích hợp phát loại bỏ 1.5.3 Giảm số chiều liệu (Dimensionality reduction): Các chế mã hóa (encoding) áp dụng để làm giảm kích thước liệu 38 1.5.4 Giảm biểu diễn số lớn (Numerosity reduction): Dữ liệu thay tính toán thông qua cách thức biểu diễn liệu khác gọn hơn, ví dụ mô hình tham số (parametric models) phương pháp không tham số (nonparametric methods) phân cụm, lấy mẫu, sử dụng histogram 1.5.5 Rời rạc hóa liệu (discretization) tạo lược đồ khái niệm (concept hierarchy generation): •Các giá trị liệu thô ứng với thuộc tính thay khoảng (range) mức khái niệm (conceptual levels) cao •Rời rạc hóa liệu xem dạng thức việc giảm biểu diễn số lớn hữu dụng việc tạo lược đồ khái niệm •Rời rạc hóa liệu tạo lược đồ khái niệm xem công cụ mạnh mẽ cho khai phá liệu Chúng cho phép thực công việc khai phá cấp độ trừu tượng khác 39 Q&A 40 [...]...1.2 TÓM TẮT MÔ TẢ DỮ LIỆU Để có thể khai phá dữ liệu thành công, cần có cái nhìn toàn thể về bức tranh dữ liệu muốn khai phá 1.2.1 Khái niệm về tóm tắt mô tả dữ liệu Tóm tắt mô tả dữ liệu (descriptive data summarization) là kỹ thuật được sử dụng nhằm xác định những đặc trưng điển hình và những đặc điểm nổi bật (hightlight) của dữ liệu (những giá trị được xem là nhiễu (noise)... (outliers) có thể được phát hiện bằng kỹ thuật phân cụm khi mà các giá trị tương tự nhau được đưa vào cùng nhóm (cụm) Các giá trị không thuộc về một cụm nào cả có thể xem là bất thường 1.4 TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU 1.4.1 Tích hợp dữ liệu (Data Integration) •Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu thống nhất •Các nguồn dữ liệu khác nhau: cơ sở dữ liệu, data cube, tập tin... bình được xác định là trung bình cộng của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu max + min midrange = 2 14 1.2.3 Đánh giá sự phân ly của dữ liệu 1.2.3.1 K-thập phân vị và tứ phân vị K-thập phân vị (kth percentile) của của một tập dữ liệu có thứ tự là một giá trị xi có tính chất: K% các mục dữ liệu trong tập dữ liệu có giá trị bằng hoặc nhỏ hơn xi  Nhất-tứ phân vị (first quartile) là 25-thập... được là 507.93 > 10.828 nên A và B là 02 thuộc tính phụ thuộc chặt chẽ 1.4.2 Chuyển dạng dữ liệu (Data Transformation) Dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng phù hợp cho việc khai phá Chuyển dạng dữ liệu liên quan tới các vấn đề sau đây: •Làm trơn (Smoothing): Loại bỏ các nhiễu (noisy) khỏi dữ liệu Các kỹ thuật được sử dụng bao gồm: đóng thùng (binning), hồi quy (regression), phân cụm... dụng với dữ liệu Bước này thường được sử dụng để xây dựng data cube cho phân tích dữ liệu từ nhiều nguồn •Khởi tạo dữ liệu (Generalization of the data): dữ liệu thô được thay thế bởi các các khái niệm ở mức cao hơn thông qua việc sử dụng lược đồ khái niệm •Xây dựng thuộc tính (Attribute construction): các thuộc tính mới được xây dựng và thêm vào từ tập thuộc tính đã có để hỗ trợ quá trình khai phá (tăng... suy luận nhờ cây quyết định 24 1.3.2 Xử lý dữ liệu nhiễu (noisy data) Nhiễu (noise) là những lỗi ngẫu nhiên hoặc những giá trị “lệch chuẩn” ⟹ Làm thế nào để làm “mượt” (smooth) dữ liệu và loại bỏ nhiễu? A “Đóng thùng” (binning): • Là phương pháp làm “trơn” một giá trị dữ liệu đã được sắp xếp dựa trên các giá trị xung quanh (làm “trơn” cục bộ) • Các giá trị dữ liệu đã được sắp xếp sẽ được phân chia vào... có thể nhưng không làm biến dạng mẫu dữ liệu được phản ánh 22 1.3 LÀM SẠCH DỮ LIỆU Làm sạch dữ liệu (data cleaning) là kỹ thuật giúp xử lý sự thiếu vắng giá trị, loại bỏ nhiễu và các giá trị không mong muốn cũng như giải quyết vấn đề không nhất quán dữ liệu 1.3.1 Xử lý sự thiếu vắng giá trị (missing values) A.Bỏ qua các bản ghi: vd: thiếu vắng nhãn phân lớp Phương pháp này thực sự không hiệu quả trừ... trong dữ liệu nhiều chiều (high-dimensional data)) Bằng cách kết hợp các thuộc tính ⟹ phát hiện ra các thông tin bị thiếu liên quan đến mối quan hệ giữa các thuộc tính (hữu 34 ích cho quá trình khai phá) • Chuẩn hóa (Normalization): Dữ liệu thuộc tính được chuyển đổi tương ứng với các phạm vi biểu diễn nhỏ hơn như [-1,1] hoặc [0,1] Chuẩn hóa min-max: thực hiện việc chuyển đổi tuyến tính dựa trên dữ liệu. .. tần suất xuất hiện lớn nhất trong tập dữ liệu đang xét Giả sử tập dữ liệu đang xét chứa N giá trị khác nhau x 1, x2, …, xN Gọi tần suất xuất hiện của giá trị xi là f(xi) Khi đó: f(mode)=max {f(x i )} 1≤ i ≤ n Một tập dữ liệu có thể có nhiều giá trị mode 1.2.2.4 Khoảng trung bình (midrange) Khoảng trung bình cũng có thể được sử dụng để xác định độ tập trung của dữ liệu Khoảng trung bình được xác định... các đặc trưng của dữ liệu, người ta quan tâm tới: 1.Xu hướng tập trung của dữ liệu (central tendency): đặc trưng bởi các đại lượng thống kê: trung bình, trung vị, mode, midrange 2.Sự phân ly của dữ liệu (dispersion): đặc trưng bởi các các đại lượng như: tứ phân vị (quartile),khoảng tứ phân vị (interquartile range – IRQ), phương sai (variance) 11 1.2.2 Đánh giá xu hướng tập trung của dữ liệu 1.2.2.1 Giá ... “sạch”, họ không tin tưởng vào kết khai phá liệu  Dữ liệu không “sạch” gây nhiễu loạn cho thủ tục khai phá liệu dẫn tới kết không đáng tin cậy  Dù hầu hết thủ tục khai phá liệu cài đặt chế nhằm xử... tiến trình khai phá liệu D Rút gọn liệu (Data Reduction): Tập liệu lớn (huge) làm tiến trình khai phá trở nên chậm chạp ⟹ Nhu cầu: Giảm kích thước tập liệu mà không ảnh hưởng đến kết khai phá Kỹ... niệm mức thấp (low-level) thay khai niệm mức cao (higher-level) 10 1.2 TÓM TẮT MÔ TẢ DỮ LIỆU Để khai phá liệu thành công, cần có nhìn toàn thể tranh liệu muốn khai phá 1.2.1 Khái niệm tóm tắt mô

Định dạng
Số trang	40
Dung lượng	1,93 MB