BÁO cáo môn học KHAI PHÁ dữ LIỆU đề tài TIỀN xử lý dữ LIỆU

32 32 0
BÁO cáo môn học KHAI PHÁ dữ LIỆU đề tài TIỀN xử lý dữ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTN&CN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU Sinh viên: Hoàng Ngọc Thành Lớp: CNTT K18 Khóa: 2018 – 2022 Ngành: Cơng nghệ thơng tin Giảng viên hướng dẫn: TS Hồ Thị Phượng Đắk Lắk, tháng 09 năm 2021 TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTN&CN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU Sinh viên: Hoàng Ngọc Thành Lớp: CNTT K18 Khóa: 2018 – 2022 Ngành: Cơng nghệ thông tin Giảng viên hướng dẫn: TS Hồ Thị Phượng Đắk Lắk, tháng 09 năm 2021 10 LỜI CẢM ƠN Trong thời gian làm đồ án môn học, em nhận nhiều giúp đỡ, đóng góp ý kiến bảo nhiệt tình thầy bạn bè Em xin gửi lời cảm ơn chân thành đến cô Ths Nguyễn Đức Thắng, giảng viên khoa Khoa học Tự nhiên Cơng nghệ, thầy tận tình hướng dẫn, bảo em suốt trình đồ án Em xin chân thành cảm ơn thầy giáo trường Đại học Tây Ngun nói chung thầy cô khoa Khoa học Tự nhiên Cơng nghệ nói riêng dạy dỗ cho chúng em kiến thức môn học chuyên ngành Cơng nghệ thơng tin, giúp chúng em có sở lý thuyết vững vàng tạo điều kiện giúp đỡ chúng em suốt trình học tập Cuối cùng, em xin chân thành cảm ơn gia đình bạn bè luông tạo đièu kiện, quan tâm, giúp đỡ động viên em suốt trình học tập hoàn thành đồ án Em xin chân thành cảm ơn! 11 MỤC LỤC LỜI CẢM ƠN DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU 1.1Giai đoạn tiền xử lý liệu CHƯƠNG 2: TẬP DỮ LIỆU 2.1Các kiểu tập liệu 2.2Các kiểu giá trị thuộc tính CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU 3.1Làm liệu (data cleaning) 3.1.1Định nghĩa 3.1.2Xử lý liệu bị thi 3.1.3Dữ liệu nhiễu 3.2Tích hợp liệu (data integration) 3.2.1Dư thừa liệu 3.3Biến đổi liệu 3.3.1Làm trơn liệu (s 3.3.2Kết hợp liệu (ag 3.3.3Tổng quát hoá (gen 3.3.4Chuẩn hoá 3.4Giảm bớt liệu (data reduction) 3.4.1Tổng hợp khối 3.4.2Thu giảm chiều (di 3.4.3Thu giảm lượng (n 3.4.4Nén liệu (data c 3.4.5Rời rạc hoá liệu 12 DANH MỤC HÌNH ẢNH Hình 1: Các kiểu tập liệu .16 Hình 2: Ví dụ minh hoạ phương pháp Binning 20 Hình 3: Hình minh hoạ phương pháp hồi quy 20 Hình 4: Hình minh hoạ cho phương pháp phân tích cụm 21 Hình 5: Hình minh hoạ cho Phương pháp tích hợp liệu 24 Hình 6: Dữ liệu bán hàng đơn vị .28 Hình 7: Hình minh hoạ chọn số thuộc tính 30 Hình 8: Hình minh hoạ biến đổi wavelet 31 Hình 9: DWT cho nén ảnh 32 Hình 10: Y1, Y2 thành phần ban đầu ánh xạ .33 Hình 11: Clustering 34 Hình 12: With or without Replacement 34 Hình 13; Cluster or Stratified Sampling 35 Hình 14: Nén liệu 36 13 DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT 14 CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU 1.1 Giai đoạn tiền xử lý liệu Là trinh xử lý liệu thô nhằm cải thiện chất lợng liệu để dễ dàng trình khai phá liệu Các kỹ thuật datamining thực sở liệu, nguồn liệu lớn Đó kết q trình ghi chép liên tục thông tin phản ánh hoạt động người, trình tự nhiên… Các liệu lưu trữ hồn tồn dạng thơ, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa Do chúng cần phải qua giai đoạn tiền xử lý liệu trước tiến hành phân tích Chất lượng liệu (data quality): ✓ trị thực Tính xác (accuracy): giá trị ghi nhận với giá ✓ Tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời ✓ Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận ✓ Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp ✓ Ví dụ: Tính xác: liệu phải xác với thực tế khơng khai phá liệu kết sau khai phá khơng xác Như độ tuổi người phải xác khơng kết khơng ✓ Tính hành: liệu phải cập nhập thường xuyên nhằm tránh liệu bị cũ khơng cịn xác thười điểm khai phá liệu Như luật cũ khơng cịn sử dụng phải cập nhập luật khơng kết cuối bị sai ✓ Tính tồn vẹn: đữ liệu phải bao gồm tất thuộc tính Như khai phá liệu người phải có tất thuộc tính tên, tuổi, giới tính, nơi cư trú … ✓ Tính qn: số dư tài khoản khơng giảm xuống 100 đô la Các lệnh DDL cung cấp phương tiện để xác định ràng buộc Các hệ thống sở liệu kiểm tra ràng buộc sở liệu cập nhật 15 CHƯƠNG 2: TẬP DỮ LIỆU 2.1 Các kiểu tập liệu Bảng ghi: - - + Các bảng ghi CSDL quan hệ + Ma trận liệu + Dữ liệu giao dịch Đồ thị: + World wide web + Mạng thông tin, mạng xã hội + Các cấu trúc phân tử Có trật tự: + Dữ liệu không gian + Dữ liệu thời gian + Dữ liệu chuỗi Hình 1: Các kiểu tập liệu 2.2 Các kiểu giá trị thuộc tính Kiểu định danh/chuỗi (norminal): khơng có thứ tự + danh Lấy giá trị từ tập khơng có thứ tự giá trị (định danh) + Vd: Các thuộc tính như: Name, Profession, … Kiểu nhị phân (binary): trường hợp đặc biệt kiểu định 16 + Tập giá trị gồm có giá trị (Y/N, 0/1, T/F) - Kiểu có thứ tự (ordinal): + Lấy giá trị từ tập có thứ tự giá trị + Vd1: Các thuộc tính lấy giá trị số như: Age, Height,… + Vd2: Thuộc tính Income lấy giá trị từ tập {low, medium, high} - Xác định thuộc tính (properties) tiêu biểu liệu xu hướng (central tendency) phân tán (dispersion) liệu + Các độ đo xu hướng chính: mean, median, mode, midrange + Các độ đo phân tán: quartiles, interquartile range (IQR), variance - Làm bật giá trị liệu nên xem nhiễu (noise) phần tử biên (outliers), cung cấp nhìn tổng quan liệu - Ví dụ: Median: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Tính median lương trên? - Dữ liệu xếp tăng dần, giá trị middlemost 52 56 Do median= (52+56)/2= 108/2= 54 - Ví dụ: Mode, Midrange: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Mode, Midrange lương trên? - Mode $52.000 $70.000 - Midrange = 30.000+110.000 = 70.000 17 Về dạng thức, nguồn liệu lưu trữ đa dạng từ: sở liệu phổ dụng, tập tin flatfile, liệu khối … Vấn đề đặt làm tích hợp chúng mà đảm bảo tính tương đương thơng tin nguồn Ví dụ: làm mà người phân tích liệu máy tính chắn thuộc tính id khách hàng sở liệu A số hiệu cust flat-file thuộc tính giống tính chất? Việc tích hợp ln cần thơng tin diễn tả tính chất thuộc tính (siêu liệu) như: tên, ý nghĩa, kiểu liệu, miền xác định, quy tắc xử lý giá trị rỗng, không … Các siêu liệu sử dụng để giúp chuyển đổi liệu Do bước liên quan đến trình làm liệu 3.2.1 Dư thừa liệu Là tượng giá trị thuộc tính dẫn ra/tính từ một/nhiều thuộc tính khác, vấn đề trùng lắp liệu Nguyên nhân: + tổ chức liệu kém, không quán việc đặt tên chiều/thuộc tính + Một thuộc tính có nhiều tên khác CSDL khác - + Một thuộc tính: thuộc tính - nguồn gốc CSDL khác, chẳng hạn, doanh thu hàng năm Phát dư thừa: phân tích tương quan (correlation analysis) + Dựa liệu có, kiểm tra khả dẫn thuộc tính B từ thuộc tính A + Đối với thuộc tính rời rạc (categorical/discrete attributes), đánh giá tương quan hai thuộc tính với phép kiểm thử chi-square ( ) + Đối với thuộc tính số (numerical attributes), đánh giá tương quan hai thuộc tính với hệ số tương quan cách sử dụng correlation coefficient covariance + Ví dụ: Giả sử có nhóm 1500 người khảo sát Giới tính họ ghi nhận sau họ hỏi thể loại sách yêu thích thuộc hai dạng hư cấu viễn tưởng Như có hai thuộc tính “giới tính” “sở thích đọc” Số lần xuất (observed 22 frequencies) trường hợp cho bảng sau: (các số ngoặc expected frequencies) Hư cấu Viễn tưởng Tổng + Vậy tính : e11 = ( ) ( = 90 X2 = = 284.44 + 121.90 + 71.11 + 30.48 = 507.93 - + Từ bảng liệu cho thấy bậc tự (r-1)(c-1) = (2-1)(2- 1) = Với bậc tự do, giá trị cần để bác bỏ giả thiết mức 0.001 10.828 Và với giá trị tính 507.93 > 10.828 nên bát bỏ giả thuyết sở thích đọc độc lập với giới tính Và kết luận rằng: hai thuộc tính có quan hệ tương quan mạnh nhóm người khảo sát Phân tích tương quan hai thuộc tính số A B (Covariance): + Covariance tương tự với correlation E(A) = = ̅ ̅ ∑ =1 =1 E(B)= = + Covariance A B định nghĩa sau: ̅̅ cov( , ) = (( − )( − )) = Correlation coefficient: = , + Ví dụ Covariance: ̅̅ cov( , ) = (( − )( − )) = Có thể đơn giản hố cịn : cov( , ) = ( ∗ ) − ̅ + Giả sử hai cổ phiếu A B có giá trị sau tuần: (2, 5), (3, 8), (5, 10), (4, 11), (6, 14) 23 + Nếu cổ phiếu bị ảnh hưởng xu hướng ngành, giá chúng tăng hay giảm E(A)=(2+3+5+4+6)/5=20/5=4 E(B) = (5 + + 10 + 11 +14)/5 = 48/5 = 9.6 Cov(A,B) = (2 x + x + x 10 + x 11 +6 x 14)/5 – x 9.6 = Do đó, A B tăng Cov (A, B)> - Hình 5: Hình minh hoạ cho Phương pháp tích hợp liệu Vấn đề mâu thuẫn giá trị liệu + Cho thực thể thật, giá trị thuộc tính đến từ nguồn liệu khác khác cách biểu diễn (representation), đo lường (scaling), mã hóa (encoding) ▪ Ví dụ: “2004/12/25” với “25/12/2004” + Scaling: thuộc tính weight hệ thống đo khác với đơn vị đo khác nhau, thuộc tính price hệ thống tiền tệ khác với đơn vị tiền tệ khác + Encoding: “ yes ” “ no ” với “1” “0” 24 3.3 Biến đổi liệu Các liệu biến đổi sang dạng phù hợp cho việc khai phá liệu Các phương pháp thường thấy như: + Làm mịn: Phương pháp loại bỏ trường hợp nhiễu khỏi liệu ví dụ phương pháp binning, hồi quy, nhóm cụm + Tổng hợp: tổng hợp tập hợp hành động áp dụng liệu Ví dụ thấy doanh số bán hàng hàng ngày tổng hợp để tính tốn hàng tháng hàng năm Bước thường sử dụng để xây dựng khối liệu cho việc phân tích + Khái quát hóa liệu: liệu mức thấp thô thay khái niệm mức cao thông qua kiến trúc khái niệm + Ví dụ, thuộc tính phân loại ví dụ “Đường phố” khái quát hóa lên mức cao thành “Thành phố” hay “Quốc gia” Tương tự giá trị số, tuổi ánh xạ lên khái niệm cao “Trẻ”, “Trung niên”, “Có tuổi” + Chuẩn hóa: liệu thuộc tính quy khoảng giá trị nhỏ ví dụ từ -1.0 đến 1.0, từ 0.0 đến 1.0 + Xác định thêm thuộc tính, thuộc tính thêm vào nguồn liệu để giúp cho trình khai phá 3.3.1 Làm trơn liệu (smoothing) Các phương pháp binning (bin means, bin medians, bin boundaries) Hồi quy Các kỹ thuật gom cụm (phân tích phần tử biên) Các phương pháp rời rạc hóa liệu (các phân cấp ý niệm) ➔ Loại bỏ/giảm thiểu nhiễu khỏi liệu 3.3.2 Kết hợp liệu (aggregation) - Các tác vụ kết hợp/tóm tắt liệu - Chuyển liệu mức chi tiết sang liệu mức chi tiết Hỗ trợ việc phân tích liệu nhiều độ mịn thời gian khác ➔ Thu giảm liệu (data reduction) 25 3.3.3 Tổng quát hoá (generalization) - Chuyển đổi liệu cấp thấp/nguyên tố/thô sang khái niệm mức cao thông qua phân cấp ý niệm ➔ Thu giảm liệu (data reduction) 3.3.4 Chuẩn hoá - Một thuộc tính chuẩn hóa cách ánh xạ cách có tỉ lệ liệu khoảng xác định ví dụ 0.0 đến 1.0 - Chuẩn hóa phần hữu ích thuật tốn phân lớp mạng noron, thuật tốn tính tốn độ lệch sử dụng việc phân lớp hay nhóm cụm phần tử liền kề Chúng ta xem xét ba phương pháp: + Chuẩn hóa Min-Max: ▪ Thực biến đổi tuyến tính liệu ban đầu Giả sử minA maxA giá trị tối thiểu tối đa thuộc tính A Chuẩn hóa min-max ánh xạ giá trị v thuộc tính A thành v’ khoảng [new_minA, new_maxA] cách tính tốn : − ′ = − ▪ Ví dụ: Giả sử giá trị nhỏ lớn cho thuộc tính “thu nhập bình quân” 500.000 4.500.000 Chúng ta muốn ánh xạ giá trị 2.500.000 khoảng [0.0, 1.0] sử dụng chuẩn hóa min-max Giá trị thu ′ + = Chuẩn hóa z-score: ▪ Với phương pháp này, giá trị thuộc tính A chuẩn hóa dựa vào độ lệch tiêu chuẩn trung bình A Một giá trị v thuộc tính A ánh xạ thành v’ sau: ▪ ′= − ̅ Với ví dụ phía trên: Giả sử thu nhập bình qn có độ lệch tiêu chuẩn trung bình là: 500.000 1.000.000 Sử dụng phương pháp z-score giá trị 2.500.000 ánh xạ thành 26 ′ = 2.5000.000 − 1.000.000 = 1.500.000 = 500.000 500.000 + Chuẩn hóa thay đổi số chữ số phần thập phân (decimal scale): ▪thập phân Phương pháp di chuyển dấu phân cách phần giá trị thuộc tính A ▪ Số chữ số sau dấu phân cách phần thập phân xác định phụ thuộc vào giá trị tuyệt đối lớn có thuộc tính A Khi giá trị v ánh xạ thành v’ cách tính: ′ ▪ = 10 Trong j giá trị nguyên nhỏ thỏa mãn Max(|v’|) < ▪ Ví dụ: Giả sử giá trị thuộc tính A ghi nhận nằm khoảng -968 đến 917 Giá trị tuyệt đối lớn miền 986 Để thực chuẩn hóa theo phương pháp ánh xạ này, trước mang giá trị chia cho 1.000 (j = 3) Như giá trị -986 chuyển thành -0.986 917 chuyển thành 0.917 3.4 Giảm bớt liệu (data reduction) - Việc khai phá liệu tiến hành kho liệu khổng lồ phức tạp Các kỹ thuật khai phá áp dụng chúng tốn thời gian tài ngun máy tính Do địi hỏi chúng cần thu giảm trước áp dụng kỹ thuật khai phá ➔ Tập liệu biến đổi đảm bảo tồn vẹn, nhỏ/ít nhiều số lượng so với ban đầu 3.4.1 Tổng hợp khối liệu (data cube aggregation) Xem xét liệu bán hàng đơn vị, liệu tổ chức báo cáo theo hàng quý cho năm từ 2008 đến 2010 Tuy nhiên việc khai phá liệu lại quan tâm đến báo cáo bán hàng theo năm theo quý Do liệu nên tổng hợp thành báo cáo tổng tình hình bán hàng theo năm theo quý 27 Hình 6: Dữ liệu bán hàng đơn vị Phân cấp khái niệm tồn thuộc tính, cho phép phân tích liệu nhiều mức trừu tượng Ví dụ: phân cấp chi nhánh cho phép chi nhánh nhóm lại theo vùng dựa địa Khối liệu cho phép truy cập nhanh đến liệu tính tốn, tổng hợp phù hợp với trình khái phá - Các khối liệu tạo mức trừu tượng thấp thường gọi cuboid Các cuboid tương ứng với tập thực thể ví dụ người bán hàng, khách hàng Các khối cung cấp nhiều thơng tin hữu dụng cho q trình phân tích Khối liệu mức trừu tượng cao gọi apex cuboid, hình thể liệu bán hàng cho năm, tất loại mặt hàng chi nhánh Khối liệu tạo từ nhiều mức trừu 28 tượng thường gọi cuboids, khối liệu thường gọi tên khác lưới cuboids 3.4.2 Thu giảm chiều (dimensionality reduction) Chọn số thuộc tính: Nguồn liệu dùng phân tích chứa hàng trăm thuộc tính, nhiều số khơng cần cho việc phân tích chúng dư thừa Ví dụ: nhiệm vụ phân tích liên quan đến việc phân loại khách hàng xem họ có khơng muốn mua đĩa nhạc hay khơng Khi thuộc tính điện thoại khách hàng không cần thiết so với thuộc tính độ tuổi, sở thích âm nhạc Mặc dù việc lựa chọn thuộc tính cần quan tâm việc khó khăn thời gian đặt biệt đặc tính liệu khơng rõ ràng Giữ thuộc tính cần, bỏ thuộc tính khơng hữu ích gây nhầm lẫn, sai lệch kết thuật toán khai phá liệu Phương pháp rút gọn kích thước liệu cách loại bỏ thuộc tính khơng hữu ích dư thừa (hoặc loại bỏ chiều) Mục đích tìm tập thuộc tính nhỏ cho áp dụng phương pháp khai phá liệu kết thu gần sát với kết sử dụng tất thuộc tính Vậy làm cách để tìm tập thuộc tính đủ tốt từ tập thuộc tính ban đầu Với N thuộc tính có 2n tập thuộc tính Việc phát sinh xem xét hết tập tốn công sức tài nguyên, đặc biệt N số lớp liệu tăng lên Do cần có phương pháp khác, số phương pháp tìm kiếm tham lam, duyệt qua khơng gian thuộc tính tìm kiếm lựa chọn tốt vào thời điểm xét Các kỹ thuật lựa chọn thường dùng như: + Lựa chọn tăng dần: Xuất phát từ tập rỗng thuộc tính, thuộc tính tốt xác định thêm vào tập Lặp lại bước không thêm thuộc tính + Loại bớt: Xuất phát từ tập có đầy đủ thuộc tính Ở bước loại thuộc tính tồi 29 + Kết hợp phương pháp loại bớt lựa chọn tăng dần cách bước việc lựa chọn thêm thuộc tính tốt đưa vào tập đồng thời loại bỏ thuộc tính tồi khỏi tập xét + Cây định: Khi sử dụng, xây dựng từ nguồn liệu ban đầu Tất thuộc tính khơng xuất coi khơng hữu ích Tập thuộc tính có tập thuộc tính rút gọn Việc lựa chọn thuộc tính tốt (xấu) xác định thông qua phép kiểm thống kê, giả sử thuộc tính xét độc lập với thuộc tính khác phương pháp đánh giá thuộc tính sử dụng độ đo thơng tin thường dùng việc xây dựng định phân lớp Hình 7: Hình minh hoạ chọn số thuộc tính Biến đổi wavelet (wavelet transforms) Discrete wavelet transform (DWT) kỹ thuật xử lý tín hiệu dạng linear mà áp dụng với vector liệu X, chuyển vector thành vector khác dạng số X’: wavelet coefficients Hai vector có độ dài Khi áp dụng kỹ thuật để thu giảm liệu, giả sử vector liệu n chiều X = (x1 , x2 , … , x3 ) Dữ liệu chuyển đổi thành dạng sóng bị cắt bỏ bớt 30 Phép tính xấp xỉ nén liệu: lưu mảnh nhỏ hệ số sóng lớn wavelet coefficients DWT tương tự Discrete Fourier transform (DFT), nén tổn thất tốt hơn, có nghĩa số lượng coefficient giữ lại DWT DFT vector cho sẵn, DWT cho kết xấp xỉ xác so với liệu ban đầu Hình 8: Hình minh hoạ biến đổi wavelet Do vậy, phép xấp xỉ tương đương, DWT yêu cầu nhiều nhớ so với DFT Chuyển đổi Wavelet áp dụng không gian đa chiều chẳng hạn khối liệu (data cube) Chuyển đổi Wavelet cho kết tốt liệu thưa thớt hay bị lệch với liệu với thuộc tính có thứ tự Chuyển đổi Wavelet có nhiều ứng dụng thực tế: nén ảnh, computer vision,, phân tích liệu chuỗi thời gian, làm liệu 31 Hình 9: DWT cho nén ảnh Phân tích thành phần (Principal Component Analysis) Cho N vector liệu k-chiều, tìm c (

Ngày đăng: 03/03/2022, 19:49

Tài liệu cùng người dùng

Tài liệu liên quan