BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI TIỀN XỬ LÝ DỮ LIỆU DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT........................................14 CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU ...........................15 1.1 Giai đoạn tiền xử lý dữ liệu....................................................................15 CHƯƠNG 2: TẬP DỮ LIỆU ...........................................................................16 2.1 Các kiểu của tập dữ liệu .........................................................................16 2.2 Các kiểu giá trị thuộc tính......................................................................16 CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU .............18 3.1 Làm sạch dữ liệu (data cleaning)...........................................................18 3.1.1 Định nghĩa..........................................................................................18 3.1.2 Xử lý dữ liệu bị thiếu .........................................................................18 3.1.3 Dữ liệu nhiễu......................................................................................19 3.2 Tích hợp dữ liệu (data integration).......................................................21 3.2.1 Dư thừa dữ liệu ..................................................................................22 3.3 Biến đổi dữ liệu........................................................................................25 3.3.1 Làm trơn dữ liệu (smoothing)............................................................25 3.3.2 Kết hợp dữ liệu (aggregation)............................................................25 3.3.3 Tổng quát hoá (generalization) ..........................................................26 3.3.4 Chuẩn hoá ..........................................................................................26 3.4 Giảm bớt dữ liệu (data reduction).........................................................27 3.4.1 Tổng hợp khối dữ liệu (data cube aggregation).................................27 3.4.2 Thu giảm chiều (dimensionality reduction).......................................29 3.4.3 Thu giảm lượng (numerosity reduction)............................................33 3.4.4 Nén dữ liệu (data compression) .........................................................35 3.4.5 Rời rạc hoá dữ liệu...........................................
TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTN&CN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU Sinh viên: Hoàng Ngọc Thành Lớp: CNTT K18 Khóa: 2018 – 2022 Ngành: Cơng nghệ thơng tin Giảng viên hướng dẫn: TS Hồ Thị Phượng Đắk Lắk, tháng 09 năm 2021 18103080 TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTN&CN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU Sinh viên: Hoàng Ngọc Thành Lớp: CNTT K18 Khóa: 2018 – 2022 Ngành: Công nghệ thông tin Giảng viên hướng dẫn: TS Hồ Thị Phượng Đắk Lắk, tháng 09 năm 2021 10 18103080 LỜI CẢM ƠN Trong thời gian làm đồ án môn học, em nhận nhiều giúp đỡ, đóng góp ý kiến bảo nhiệt tình thầy cô bạn bè Em xin gửi lời cảm ơn chân thành đến cô Ths Nguyễn Đức Thắng, giảng viên khoa Khoa học Tự nhiên Công nghệ, thầy tận tình hướng dẫn, bảo em suốt trình đồ án Em xin chân thành cảm ơn thầy cô giáo trường Đại học Tây Nguyên nói chung thầy khoa Khoa học Tự nhiên Cơng nghệ nói riêng dạy dỗ cho chúng em kiến thức môn học chun ngành Cơng nghệ thơng tin, giúp chúng em có sở lý thuyết vững vàng tạo điều kiện giúp đỡ chúng em suốt trình học tập Cuối cùng, em xin chân thành cảm ơn gia đình bạn bè lng tạo đièu kiện, quan tâm, giúp đỡ động viên em suốt trình học tập hoàn thành đồ án Em xin chân thành cảm ơn! 11 MỤC LỤC LỜI CẢM ƠN 11 DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT 14 CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU 15 1.1 Giai đoạn tiền xử lý liệu 15 CHƯƠNG 2: TẬP DỮ LIỆU 16 2.1 Các kiểu tập liệu 16 2.2 Các kiểu giá trị thuộc tính 16 CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU 18 3.1 Làm liệu (data cleaning) 18 3.1.1 Định nghĩa 18 3.1.2 Xử lý liệu bị thiếu 18 3.1.3 Dữ liệu nhiễu 19 3.2 Tích hợp liệu (data integration) 21 3.2.1 Dư thừa liệu 22 3.3 Biến đổi liệu 25 3.3.1 Làm trơn liệu (smoothing) 25 3.3.2 Kết hợp liệu (aggregation) 25 3.3.3 Tổng quát hoá (generalization) 26 3.3.4 Chuẩn hoá 26 3.4 Giảm bớt liệu (data reduction) 27 3.4.1 Tổng hợp khối liệu (data cube aggregation) 27 3.4.2 Thu giảm chiều (dimensionality reduction) 29 3.4.3 Thu giảm lượng (numerosity reduction) 33 3.4.4 Nén liệu (data compression) 35 3.4.5 Rời rạc hoá liệu 36 12 DANH MỤC HÌNH ẢNH Hình 1: Các kiểu tập liệu 16 Hình 2: Ví dụ minh hoạ phương pháp Binning 20 Hình 3: Hình minh hoạ phương pháp hồi quy 20 Hình 4: Hình minh hoạ cho phương pháp phân tích cụm 21 Hình 5: Hình minh hoạ cho Phương pháp tích hợp liệu 24 Hình 6: Dữ liệu bán hàng đơn vị 28 Hình 7: Hình minh hoạ chọn số thuộc tính 30 Hình 8: Hình minh hoạ biến đổi wavelet 31 Hình 9: DWT cho nén ảnh 32 Hình 10: Y1, Y2 thành phần ban đầu ánh xạ 33 Hình 11: Clustering 34 Hình 12: With or without Replacement 34 Hình 13; Cluster or Stratified Sampling 35 Hình 14: Nén liệu 36 13 DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT Từ viết tắt Giải thích CSDL Cơ sở liệu 14 CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU 1.1 Giai đoạn tiền xử lý liệu Là trinh xử lý liệu thô nhằm cải thiện chất lợng liệu để dễ dàng trình khai phá liệu Các kỹ thuật datamining thực sở liệu, nguồn liệu lớn Đó kết q trình ghi chép liên tục thông tin phản ánh hoạt động người, trình tự nhiên… Các liệu lưu trữ hồn tồn dạng thơ, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa Do chúng cần phải qua giai đoạn tiền xử lý liệu trước tiến hành phân tích Chất lượng liệu (data quality): ✓ Tính xác (accuracy): giá trị ghi nhận với giá trị thực ✓ Tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời ✓ Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận ✓ Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp ✓ Ví dụ: Tính xác: liệu phải xác với thực tế khơng khai phá liệu kết sau khai phá khơng xác Như độ tuổi người phải xác khơng kết khơng ✓ Tính hành: liệu phải cập nhập thường xuyên nhằm tránh liệu bị cũ khơng cịn xác thười điểm khai phá liệu Như luật cũ không cịn sử dụng phải cập nhập luật khơng kết cuối bị sai ✓ Tính tồn vẹn: đữ liệu phải bao gồm tất thuộc tính Như khai phá liệu người phải có tất thuộc tính tên, tuổi, giới tính, nơi cư trú … ✓ Tính quán: số dư tài khoản không giảm xuống 100 đô la Các lệnh DDL cung cấp phương tiện để xác định ràng buộc Các hệ thống sở liệu kiểm tra ràng buộc sở liệu cập nhật 15 CHƯƠNG 2: TẬP DỮ LIỆU 2.1 Các kiểu tập liệu - Bảng ghi: + Các bảng ghi CSDL quan hệ + Ma trận liệu + Dữ liệu giao dịch - Đồ thị: + World wide web + Mạng thông tin, mạng xã hội + Các cấu trúc phân tử - Có trật tự: + Dữ liệu khơng gian + Dữ liệu thời gian + Dữ liệu chuỗi Hình 1: Các kiểu tập liệu 2.2 Các kiểu giá trị thuộc tính - Kiểu định danh/chuỗi (norminal): khơng có thứ tự + Lấy giá trị từ tập khơng có thứ tự giá trị (định danh) + Vd: Các thuộc tính như: Name, Profession, … - Kiểu nhị phân (binary): trường hợp đặc biệt kiểu định danh 16 + Tập giá trị gồm có giá trị (Y/N, 0/1, T/F) - Kiểu có thứ tự (ordinal): + Lấy giá trị từ tập có thứ tự giá trị + Vd1: Các thuộc tính lấy giá trị số như: Age, Height,… + Vd2: Thuộc tính Income lấy giá trị từ tập {low, medium, high} - Xác định thuộc tính (properties) tiêu biểu liệu xu hướng (central tendency) phân tán (dispersion) liệu + Các độ đo xu hướng chính: mean, median, mode, midrange - - - + Các độ đo phân tán: quartiles, interquartile range (IQR), variance Làm bật giá trị liệu nên xem nhiễu (noise) phần tử biên (outliers), cung cấp nhìn tổng quan liệu Ví dụ: Median: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Tính median lương trên? Dữ liệu xếp tăng dần, giá trị middlemost 52 56 Do median= (52+56)/2= 108/2= 54 Ví dụ: Mode, Midrange: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Mode, Midrange lương trên? Mode $52.000 $70.000 - Midrange = 30.000+110.000 = 70.000 17 CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU 3.1 Làm liệu (data cleaning) 3.1.1 Định nghĩa - Là trình xác định tính khơng xác, khơng đầy đủ/tính bất hợp lý liệu, chỉnh sửa sai sót thiếu sót đƣợc phát nâng cao chất lượng liệu - Quá trình bao gồm: + Kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn + Xem xét liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) lỗi khác + Đánh giá liệu chuyên gia miền chủ đề - Kết quả: + Loại bỏ, lập tài liệu kiểm tra liên tiếp hiệu chỉnh ghi nghi ngờ + Kiểm tra xác nhận đƣợc tiến hành nhằm đạt tính phù hợp với chuẩn áp dụng, quy luật, quy tắc 3.1.2 Xử lý liệu bị thiếu - Dữ liệu bị thiếu liệu khơng có sẵn cần sử dụng - Nguyên nhân gây việc thiếu liệu khách quan (không tồn lúc nhập liệu cố), chủ quan (tác nhân người) - Giải pháp: + Bỏ qua bộ: điều thường thực thông tin nhãn liệu bị Phương pháp lúc hiệu trừ có chứa số thuộc tính khơng thực quan trọng + Điền vào giá trị thiếu tay: phương pháp thường tốn thời gian khơng khả thi cho tập liệu nguồn lớn với nhiều giá trị bị thiếu + Sử dụng giá trị quy ước để điền vào cho giá trị thiếu: Thay giá trị thuộc tính thiếu số quy ước, chẳng hạn nhãn ghi giá trị “Không biết” “∞” Tuy điều khiến cho chương trình khai phá liệu hiểu nhầm số trường hợp đưa kết luận không hợp lý 18 3.3.3 Tổng quát hoá (generalization) - Chuyển đổi liệu cấp thấp/nguyên tố/thô sang khái niệm mức cao thông qua phân cấp ý niệm ➔ Thu giảm liệu (data reduction) 3.3.4 Chuẩn hoá - Một thuộc tính chuẩn hóa cách ánh xạ cách có tỉ lệ liệu khoảng xác định ví dụ 0.0 đến 1.0 - Chuẩn hóa phần hữu ích thuật tốn phân lớp mạng noron, thuật tốn tính tốn độ lệch sử dụng việc phân lớp hay nhóm cụm phần tử liền kề Chúng ta xem xét ba phương pháp: + Chuẩn hóa Min-Max: ▪ Thực biến đổi tuyến tính liệu ban đầu Giả sử minA maxA giá trị tối thiểu tối đa thuộc tính A Chuẩn hóa min-max ánh xạ giá trị v thuộc tính A thành v’ khoảng [new_minA, new_maxA] cách tính tốn : 𝑣 − 𝑚𝑖𝑛𝐴 (𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐵 ) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 𝑣′ = 𝑚𝑎𝑥𝐴 − 𝑚𝑖𝑛𝐴 ▪ Ví dụ: Giả sử giá trị nhỏ lớn cho thuộc tính “thu nhập bình qn” 500.000 4.500.000 Chúng ta muốn ánh xạ giá trị 2.500.000 khoảng [0.0, 1.0] sử dụng chuẩn hóa min-max Giá trị thu 2.500.000 − 500.000 2.000.000 (1.0 − 0) + = 𝑣′ = = 0.5 4.500.00 − 500.000 4.000.000 + Chuẩn hóa z-score: ▪ Với phương pháp này, giá trị thuộc tính A chuẩn hóa dựa vào độ lệch tiêu chuẩn trung bình A Một giá trị v thuộc tính A ánh xạ thành v’ sau: 𝑣 − 𝐴̅ ′ 𝑣 = 𝜎𝐴 ▪ Với ví dụ phía trên: Giả sử thu nhập bình qn có độ lệch tiêu chuẩn trung bình là: 500.000 1.000.000 Sử dụng phương pháp z-score giá trị 2.500.000 ánh xạ thành 26 2.5000.000 − 1.000.000 1.500.000 = =3 500.000 500.000 + Chuẩn hóa thay đổi số chữ số phần thập phân (decimal scale): ▪ Phương pháp di chuyển dấu phân cách phần thập phân giá trị thuộc tính A ▪ Số chữ số sau dấu phân cách phần thập phân xác định phụ thuộc vào giá trị tuyệt đối lớn có thuộc tính A Khi giá trị v ánh xạ thành v’ cách tính: 𝑣 𝑣′ = 𝑗 10 ▪ Trong j giá trị nguyên nhỏ thỏa mãn Max(|v’|) < ▪ Ví dụ: Giả sử giá trị thuộc tính A ghi nhận nằm khoảng -968 đến 917 Giá trị tuyệt đối lớn miền 986 Để thực chuẩn hóa theo phương pháp ánh xạ này, trước mang giá trị chia cho 1.000 (j = 3) Như giá trị -986 chuyển thành -0.986 917 chuyển thành 0.917 3.4 Giảm bớt liệu (data reduction) - Việc khai phá liệu tiến hành kho liệu khổng lồ phức tạp Các kỹ thuật khai phá áp dụng chúng tốn thời gian tài nguyên máy tính Do đòi hỏi chúng cần thu giảm trước áp dụng kỹ thuật khai phá ➔ Tập liệu biến đổi đảm bảo tồn vẹn, nhỏ/ít nhiều số lượng so với ban đầu 3.4.1 Tổng hợp khối liệu (data cube aggregation) - Xem xét liệu bán hàng đơn vị, liệu tổ chức báo cáo theo hàng quý cho năm từ 2008 đến 2010 Tuy nhiên việc khai phá liệu lại quan tâm đến báo cáo bán hàng theo năm theo quý Do liệu nên tổng hợp thành báo cáo tổng tình hình bán hàng theo năm theo quý 𝑣′ = 27 Hình 6: Dữ liệu bán hàng đơn vị - Phân cấp khái niệm tồn thuộc tính, cho phép phân tích liệu nhiều mức trừu tượng - Ví dụ: phân cấp chi nhánh cho phép chi nhánh nhóm lại theo vùng dựa địa Khối liệu cho phép truy cập nhanh đến liệu tính tốn, tổng hợp phù hợp với trình khái phá - Các khối liệu tạo mức trừu tượng thấp thường gọi cuboid Các cuboid tương ứng với tập thực thể ví dụ người bán hàng, khách hàng Các khối cung cấp nhiều thông tin hữu dụng cho q trình phân tích Khối liệu mức trừu tượng cao gọi apex cuboid, hình thể liệu bán hàng cho năm, tất loại mặt hàng chi nhánh Khối liệu tạo từ nhiều mức trừu 28 tượng thường gọi cuboids, khối liệu thường gọi tên khác lưới cuboids 3.4.2 Thu giảm chiều (dimensionality reduction) Chọn số thuộc tính: - Nguồn liệu dùng phân tích chứa hàng trăm thuộc tính, nhiều số khơng cần cho việc phân tích chúng dư thừa - Ví dụ: nhiệm vụ phân tích liên quan đến việc phân loại khách hàng xem họ có khơng muốn mua đĩa nhạc hay khơng Khi thuộc tính điện thoại khách hàng không cần thiết so với thuộc tính độ tuổi, sở thích âm nhạc - Mặc dù việc lựa chọn thuộc tính cần quan tâm việc khó khăn thời gian đặt biệt đặc tính liệu không rõ ràng Giữ thuộc tính cần, bỏ thuộc tính khơng hữu ích gây nhầm lẫn, sai lệch kết thuật toán khai phá liệu - Phương pháp rút gọn kích thước liệu cách loại bỏ thuộc tính khơng hữu ích dư thừa (hoặc loại bỏ chiều) Mục đích tìm tập thuộc tính nhỏ cho áp dụng phương pháp khai phá liệu kết thu gần sát với kết sử dụng tất thuộc tính - Vậy làm cách để tìm tập thuộc tính đủ tốt từ tập thuộc tính ban đầu Với N thuộc tính có 2n tập thuộc tính Việc phát sinh xem xét hết tập tốn công sức tài nguyên, đặc biệt N số lớp liệu tăng lên - Do cần có phương pháp khác, số phương pháp tìm kiếm tham lam, duyệt qua khơng gian thuộc tính tìm kiếm lựa chọn tốt vào thời điểm xét - Các kỹ thuật lựa chọn thường dùng như: + Lựa chọn tăng dần: Xuất phát từ tập rỗng thuộc tính, thuộc tính tốt xác định thêm vào tập Lặp lại bước khơng thêm thuộc tính + Loại bớt: Xuất phát từ tập có đầy đủ thuộc tính Ở bước loại thuộc tính tồi 29 + Kết hợp phương pháp loại bớt lựa chọn tăng dần cách bước ngồi việc lựa chọn thêm thuộc tính tốt đưa vào tập đồng thời loại bỏ thuộc tính tồi khỏi tập xét + Cây định: Khi sử dụng, xây dựng từ nguồn liệu ban đầu Tất thuộc tính khơng xuất coi khơng hữu ích Tập thuộc tính có tập thuộc tính rút gọn - Việc lựa chọn thuộc tính tốt (xấu) xác định thơng qua phép kiểm thống kê, giả sử thuộc tính xét độc lập với thuộc tính khác phương pháp đánh giá thuộc tính sử dụng độ đo thông tin thường dùng việc xây dựng định phân lớp - - Hình 7: Hình minh hoạ chọn số thuộc tính Biến đổi wavelet (wavelet transforms) Discrete wavelet transform (DWT) kỹ thuật xử lý tín hiệu dạng linear mà áp dụng với vector liệu X, chuyển vector thành vector khác dạng số X’: wavelet coefficients Hai vector có độ dài Khi áp dụng kỹ thuật để thu giảm liệu, giả sử vector liệu n chiều X = (x1 , x2 , … , x3 ) Dữ liệu chuyển đổi thành dạng sóng bị cắt bỏ bớt 30 - Phép tính xấp xỉ nén liệu: lưu mảnh nhỏ hệ số sóng lớn wavelet coefficients - DWT tương tự Discrete Fourier transform (DFT), nén tổn thất tốt hơn, có nghĩa số lượng coefficient giữ lại DWT DFT vector cho sẵn, DWT cho kết xấp xỉ xác so với liệu ban đầu - Hình 8: Hình minh hoạ biến đổi wavelet Do vậy, phép xấp xỉ tương đương, DWT yêu cầu nhiều nhớ so với DFT Chuyển đổi Wavelet áp dụng không gian đa chiều chẳng hạn khối liệu (data cube) Chuyển đổi Wavelet cho kết tốt liệu thưa thớt hay bị lệch với liệu với thuộc tính có thứ tự Chuyển đổi Wavelet có nhiều ứng dụng thực tế: nén ảnh, computer vision,, phân tích liệu chuỗi thời gian, làm liệu 31 Hình 9: DWT cho nén ảnh Phân tích thành phần (Principal Component Analysis) - Cho N vector liệu k-chiều, tìm c (