1. Trang chủ
  2. » Luận Văn - Báo Cáo

18103080 hoàng ngọc thành

31 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • LỜI CẢM ƠN

  • DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT

  • Chương 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU

    • 1.1 Giai đoạn tiền xử lý dữ liệu

  • Chương 2: TẬP DỮ LIỆU

    • 2.1 Các kiểu của tập dữ liệu

    • 2.2 Các kiểu giá trị thuộc tính

  • Chương 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU

    • 3.1 Làm sạch dữ liệu (data cleaning)

      • 3.1.1 Định nghĩa

      • 3.1.2 Xử lý dữ liệu bị thiếu

      • 3.1.3 Dữ liệu nhiễu

    • 3.2 Tích hợp dữ liệu (data integration)

      • 3.2.1 Dư thừa dữ liệu

    • 3.3 Biến đổi dữ liệu

      • 3.3.1 Làm trơn dữ liệu (smoothing)

      • 3.3.2 Kết hợp dữ liệu (aggregation)

      • 3.3.3 Tổng quát hoá (generalization)

      • 3.3.4 Chuẩn hoá

    • 3.4 Giảm bớt dữ liệu (data reduction)

      • 3.4.1 Tổng hợp khối dữ liệu (data cube aggregation)

      • 3.4.2 Thu giảm chiều (dimensionality reduction)

      • 3.4.3 Thu giảm lượng (numerosity reduction)

      • 3.4.4 Nén dữ liệu (data compression)

      • 3.4.5 Rời rạc hoá dữ liệu

  • TÀI LIỆU THAM KHẢO

Nội dung

TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTNCN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI TIỀN XỬ LÝ DỮ LIỆU Sinh viên Hoàng Ngọc Thành 18103080 Lớp CNTT K18 Khóa 2018 – 2022 Ngành Công nghệ thông tin Giảng viên hướng dẫn TS Hồ Thị Phượng Đắk Lắk, tháng 09 năm 2021 2 2 TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTNCN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI TIỀN XỬ LÝ DỮ LIỆU Sinh viên Hoàng Ngọc Thành 18103080 Lớp CNTT K18 Khóa 2018 – 2022 Ngành Công nghệ thông tin Giảng viên hướng dẫn TS Hồ Thị Phượng Đắk Lắk, thán.

TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTN&CN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU Sinh viên: Hoàng Ngọc Thành Lớp: CNTT K18 Khóa: 2018 – 2022 Ngành: Cơng nghệ thơng tin Giảng viên hướng dẫn: TS Hồ Thị Phượng Đắk Lắk, tháng 09 năm 2021 18103080 TRƯỜNG ĐẠI HỌC TÂY NGUYÊN KHOA KHTN&CN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU Sinh viên: Hoàng Ngọc Thành Lớp: CNTT K18 Khóa: 2018 – 2022 Ngành: Công nghệ thông tin Giảng viên hướng dẫn: TS Hồ Thị Phượng Đắk Lắk, tháng 09 năm 2021 18103080 LỜI CẢM ƠN Trong thời gian làm đồ án môn học, em nhận nhiều giúp đỡ, đóng góp ý kiến bảo nhiệt tình thầy cô bạn bè Em xin gửi lời cảm ơn chân thành đến cô Ths Nguyễn Đức Thắng, giảng viên khoa Khoa học Tự nhiên Công nghệ, thầy tận tình hướng dẫn, bảo em suốt trình đồ án Em xin chân thành cảm ơn thầy cô giáo trường Đại học Tây Nguyên nói chung thầy khoa Khoa học Tự nhiên Cơng nghệ nói riêng dạy dỗ cho chúng em kiến thức môn học chun ngành Cơng nghệ thơng tin, giúp chúng em có sở lý thuyết vững vàng tạo điều kiện giúp đỡ chúng em suốt trình học tập Cuối cùng, em xin chân thành cảm ơn gia đình bạn bè lng tạo đièu kiện, quan tâm, giúp đỡ động viên em suốt trình học tập hoàn thành đồ án Em xin chân thành cảm ơn! MỤC LỤC DANH MỤC HÌNH ẢNH DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT Từ viết tắt Giải thích CSDL Cơ sở liệu CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU 1.1 Giai đoạn tiền xử lý liệu Là trinh xử lý liệu thô nhằm cải thiện chất lợng liệu để dễ dàng trình khai phá liệu Các kỹ thuật datamining thực sở liệu, nguồn liệu lớn Đó kết trình ghi chép liên tục thơng tin phản ánh hoạt động người, trình tự nhiên… Các liệu lưu trữ hồn tồn dạng thơ, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa Do chúng cần phải qua giai đoạn tiền xử lý liệu trước tiến hành phân tích Chất lượng liệu (data quality):  Tính xác (accuracy): giá trị ghi nhận với giá trị thực  Tính hành (currency/timeliness): giá trị ghi nhận khơng bị lỗi thời  Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận  Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp  Ví dụ: Tính xác: liệu phải xác với thực tế không khai phá liệu kết sau khai phá khơng xác Như độ tuổi người phải xác khơng kết khơng  Tính hành: liệu phải cập nhập thường xuyên nhằm tránh liệu bị cũ khơng cịn xác thười điểm khai phá liệu Như luật cũ khơng cịn sử dụng phải cập nhập luật khơng kết cuối bị sai  Tính tồn vẹn: đữ liệu phải bao gồm tất thuộc tính Như khai phá liệu người phải có tất thuộc tính tên, tuổi, giới tính, nơi cư trú …  Tính quán: số dư tài khoản không giảm xuống 100 đô la Các lệnh DDL cung cấp phương tiện để xác định ràng buộc Các hệ thống sở liệu kiểm tra ràng buộc sở liệu cập nhật CHƯƠNG 2: TẬP DỮ LIỆU 2.1 Các kiểu tập liệu - Bảng ghi: + Các bảng ghi CSDL quan hệ + Ma trận liệu + Dữ liệu giao dịch - Đồ thị: + World wide web + Mạng thông tin, mạng xã hội + Các cấu trúc phân tử - Có trật tự: + Dữ liệu khơng gian + Dữ liệu thời gian + Dữ liệu chuỗi Hình 1: Các kiểu tập liệu 2.2 Các kiểu giá trị thuộc tính - Kiểu định danh/chuỗi (norminal): khơng có thứ tự + Lấy giá trị từ tập khơng có thứ tự giá trị (định danh) + Vd: Các thuộc tính như: Name, Profession, … - Kiểu nhị phân (binary): trường hợp đặc biệt kiểu định danh + Tập giá trị gồm có giá trị (Y/N, 0/1, T/F) - Kiểu có thứ tự (ordinal): + Lấy giá trị từ tập có thứ tự giá trị + Vd1: Các thuộc tính lấy giá trị số như: Age, Height,… + Vd2: Thuộc tính Income lấy giá trị từ tập {low, medium, high} - Xác định thuộc tính (properties) tiêu biểu liệu xu hướng (central tendency) phân tán (dispersion) liệu + Các độ đo xu hướng chính: mean, median, mode, midrange + Các độ đo phân tán: quartiles, interquartile range (IQR), - - - variance Làm bật giá trị liệu nên xem nhiễu (noise) phần tử biên (outliers), cung cấp nhìn tổng quan liệu Ví dụ: Median: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Tính median lương trên? Dữ liệu xếp tăng dần, giá trị middlemost 52 56 Do median= (52+56)/2= 108/2= 54 Ví dụ: Mode, Midrange: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Mode, Midrange lương trên? Mode $52.000 $70.000 Midrange = = 70.000 CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU 3.1 Làm liệu (data cleaning) 3.1.1 Định nghĩa - Là trình xác định tính khơng xác, khơng đầy đủ/tính bất hợp lý liệu, chỉnh sửa sai sót thiếu sót đƣợc phát nâng cao chất lượng liệu - Quá trình bao gồm: + Kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn + Xem xét liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) lỗi khác + Đánh giá liệu chuyên gia miền chủ đề - Kết quả: + Loại bỏ, lập tài liệu kiểm tra liên tiếp hiệu chỉnh ghi nghi ngờ + Kiểm tra xác nhận đƣợc tiến hành nhằm đạt tính phù hợp với chuẩn áp dụng, quy luật, quy tắc 3.1.2 Xử lý liệu bị thiếu - Dữ liệu bị thiếu liệu khơng có sẵn cần sử dụng - Nguyên nhân gây việc thiếu liệu khách quan (không tồn lúc nhập liệu cố), chủ quan (tác nhân người) - Giải pháp: + Bỏ qua bộ: điều thường thực thông tin nhãn liệu bị Phương pháp lúc hiệu trừ có chứa số thuộc tính khơng thực quan trọng + Điền vào giá trị thiếu tay: phương pháp thường tốn thời gian khơng khả thi cho tập liệu nguồn lớn với nhiều giá trị bị thiếu + Sử dụng giá trị quy ước để điền vào cho giá trị thiếu: Thay giá trị thuộc tính thiếu số quy ước, chẳng hạn nhãn ghi giá trị “Không biết” “∞” Tuy điều khiến cho chương trình khai phá liệu hiểu nhầm số trường hợp đưa kết luận không hợp lý + Sử dụng thuộc tính có nghĩa để điền vào cho giá trị thiếu: Ví dụ, ta biết thu nhập bình quân đầu người khu vực 10 thường sử dụng để xây dựng khối liệu cho việc phân tích + Khái quát hóa liệu: liệu mức thấp thô thay khái niệm mức cao thông qua kiến trúc khái niệm + Ví dụ, thuộc tính phân loại ví dụ “Đường phố” khái quát hóa lên mức cao thành “Thành phố” hay “Quốc gia” Tương tự giá trị số, tuổi ánh xạ lên khái niệm cao “Trẻ”, “Trung niên”, “Có tuổi” + Chuẩn hóa: liệu thuộc tính quy khoảng giá trị nhỏ ví dụ từ -1.0 đến 1.0, từ 0.0 đến 1.0 + Xác định thêm thuộc tính, thuộc tính thêm vào nguồn liệu để giúp cho trình khai phá 3.3.1 Làm trơn liệu (smoothing) - Các phương pháp binning (bin means, bin medians, bin boundaries) - Hồi quy - Các kỹ thuật gom cụm (phân tích phần tử biên) - Các phương pháp rời rạc hóa liệu (các phân cấp ý niệm)  Loại bỏ/giảm thiểu nhiễu khỏi liệu 3.3.2 Kết hợp liệu (aggregation) - Các tác vụ kết hợp/tóm tắt liệu - Chuyển liệu mức chi tiết sang liệu mức chi tiết - Hỗ trợ việc phân tích liệu nhiều độ mịn thời gian khác  Thu giảm liệu (data reduction) 3.3.3 Tổng quát hoá (generalization) - Chuyển đổi liệu cấp thấp/nguyên tố/thô sang khái niệm mức cao thông qua phân cấp ý niệm  Thu giảm liệu (data reduction) 3.3.4 Chuẩn hoá - Một thuộc tính chuẩn hóa cách ánh xạ cách có tỉ lệ liệu khoảng xác định ví dụ 0.0 đến 1.0 - Chuẩn hóa phần hữu ích thuật tốn phân lớp mạng noron, thuật tốn tính tốn độ lệch sử dụng việc phân lớp hay nhóm cụm phần tử liền kề Chúng ta xem xét ba phương pháp: + Chuẩn hóa Min-Max: 17  Thực biến đổi tuyến tính liệu ban đầu Giả sử minA maxA giá trị tối thiểu tối đa thuộc tính A Chuẩn hóa min-max ánh xạ giá trị v thuộc tính A thành v’ khoảng [new_minA, new_maxA] cách tính tốn :  Ví dụ: Giả sử giá trị nhỏ lớn cho thuộc tính “thu nhập bình quân” 500.000 4.500.000 Chúng ta muốn ánh xạ giá trị 2.500.000 khoảng [0.0, 1.0] sử dụng chuẩn hóa min-max Giá trị thu + Chuẩn hóa z-score:  Với phương pháp này, giá trị thuộc tính A chuẩn hóa dựa vào độ lệch tiêu chuẩn trung bình A Một giá trị v thuộc tính A ánh xạ thành v’ sau:  Với ví dụ phía trên: Giả sử thu nhập bình qn có độ lệch tiêu chuẩn trung bình là: 500.000 1.000.000 Sử dụng phương pháp z-score giá trị 2.500.000 ánh xạ thành + Chuẩn hóa thay đổi số chữ số phần thập phân (decimal scale):  Phương pháp di chuyển dấu phân cách phần thập phân giá trị thuộc tính A  Số chữ số sau dấu phân cách phần thập phân xác định phụ thuộc vào giá trị tuyệt đối lớn có thuộc tính A Khi giá trị v ánh xạ thành v’ cách tính:  Trong j giá trị nguyên nhỏ thỏa mãn Max(|v’|) <  Ví dụ: Giả sử giá trị thuộc tính A ghi nhận nằm khoảng -968 đến 917 Giá trị tuyệt đối lớn miền 986 Để thực chuẩn hóa theo phương pháp ánh xạ này, trước mang giá trị chia cho 1.000 (j = 3) Như giá trị -986 chuyển thành -0.986 917 chuyển thành 0.917 18 3.4 Giảm bớt liệu (data reduction) - Việc khai phá liệu tiến hành kho liệu khổng lồ phức tạp Các kỹ thuật khai phá áp dụng chúng tốn thời gian tài ngun máy tính Do địi hỏi chúng cần thu giảm trước áp dụng kỹ thuật khai phá  Tập liệu biến đổi đảm bảo tồn vẹn, nhỏ/ít nhiều số lượng so với ban đầu 3.4.1 Tổng hợp khối liệu (data cube aggregation) - Xem xét liệu bán hàng đơn vị, liệu tổ chức báo cáo theo hàng quý cho năm từ 2008 đến 2010 Tuy nhiên việc khai phá liệu lại quan tâm đến báo cáo bán hàng theo năm theo quý Do liệu nên tổng hợp thành báo cáo tổng tình hình bán hàng theo năm theo quý Hình 6: Dữ liệu bán hàng đơn vị 19 - Phân cấp khái niệm tồn thuộc tính, cho phép phân tích liệu nhiều mức trừu tượng - Ví dụ: phân cấp chi nhánh cho phép chi nhánh nhóm lại theo vùng dựa địa Khối liệu cho phép truy cập nhanh đến liệu tính tốn, tổng hợp phù hợp với q trình khái phá - Các khối liệu tạo mức trừu tượng thấp thường gọi cuboid Các cuboid tương ứng với tập thực thể ví dụ người bán hàng, khách hàng Các khối cung cấp nhiều thông tin hữu dụng cho trình phân tích Khối liệu mức trừu tượng cao gọi apex cuboid, hình thể liệu bán hàng cho năm, tất loại mặt hàng chi nhánh Khối liệu tạo từ nhiều mức trừu tượng thường gọi cuboids, khối liệu thường gọi tên khác lưới cuboids 3.4.2 Thu giảm chiều (dimensionality reduction) Chọn số thuộc tính: - Nguồn liệu dùng phân tích chứa hàng trăm thuộc tính, nhiều số khơng cần cho việc phân tích chúng dư thừa - Ví dụ: nhiệm vụ phân tích liên quan đến việc phân loại khách hàng xem họ có khơng muốn mua đĩa nhạc hay khơng Khi thuộc tính điện thoại khách hàng khơng cần thiết so với thuộc tính độ tuổi, sở thích âm nhạc - Mặc dù việc lựa chọn thuộc tính cần quan tâm việc khó khăn thời gian đặt biệt đặc tính liệu khơng rõ ràng Giữ thuộc tính cần, bỏ thuộc tính khơng hữu ích gây nhầm lẫn, sai lệch kết thuật toán khai phá liệu - Phương pháp rút gọn kích thước liệu cách loại bỏ thuộc tính khơng hữu ích dư thừa (hoặc loại bỏ chiều) Mục đích tìm tập thuộc tính nhỏ cho áp dụng phương pháp khai phá liệu kết thu gần sát với kết sử dụng tất thuộc tính - Vậy làm cách để tìm tập thuộc tính đủ tốt từ tập thuộc tính ban đầu Với N thuộc tính có n tập thuộc tính Việc phát sinh xem xét hết tập tốn công sức tài nguyên, đặc biệt N số lớp liệu tăng lên 20 - Do cần có phương pháp khác, số phương pháp tìm kiếm tham lam, duyệt qua khơng gian thuộc tính tìm kiếm lựa chọn tốt vào thời điểm xét - Các kỹ thuật lựa chọn thường dùng như: + Lựa chọn tăng dần: Xuất phát từ tập rỗng thuộc tính, thuộc tính tốt xác định thêm vào tập Lặp lại bước không thêm thuộc tính + Loại bớt: Xuất phát từ tập có đầy đủ thuộc tính Ở bước loại thuộc tính tồi + Kết hợp phương pháp loại bớt lựa chọn tăng dần cách bước việc lựa chọn thêm thuộc tính tốt đưa vào tập đồng thời loại bỏ thuộc tính tồi khỏi tập xét + Cây định: Khi sử dụng, xây dựng từ nguồn liệu ban đầu Tất thuộc tính khơng xuất coi khơng hữu ích Tập thuộc tính có tập thuộc tính rút gọn - Việc lựa chọn thuộc tính tốt (xấu) xác định thông qua phép kiểm thống kê, giả sử thuộc tính xét độc lập với thuộc tính khác phương pháp đánh giá thuộc tính sử dụng độ đo thơng tin thường dùng việc xây dựng định phân lớp 21 - - - Hình 7: Hình minh hoạ chọn số thuộc tính Biến đổi wavelet (wavelet transforms) Discrete wavelet transform (DWT) kỹ thuật xử lý tín hiệu dạng linear mà áp dụng với vector liệu X, chuyển vector thành vector khác dạng số X’: wavelet coefficients Hai vector có độ dài Khi áp dụng kỹ thuật để thu giảm liệu, giả sử vector liệu n chiều X = (x1 , x2 , … , x3 ) Dữ liệu chuyển đổi thành dạng sóng bị cắt bỏ bớt Phép tính xấp xỉ nén liệu: lưu mảnh nhỏ hệ số sóng lớn wavelet coefficients DWT tương tự Discrete Fourier transform (DFT), nén tổn thất tốt hơn, có nghĩa số lượng coefficient giữ lại DWT DFT vector cho sẵn, DWT cho kết xấp xỉ xác so với liệu ban đầu Hình 8: Hình minh hoạ biến đổi wavelet Do vậy, phép xấp xỉ tương đương, DWT yêu cầu nhiều nhớ so với DFT Chuyển đổi Wavelet áp dụng khơng gian đa chiều chẳng hạn khối liệu (data cube) Chuyển đổi Wavelet cho kết tốt liệu thưa thớt hay bị lệch với liệu với thuộc tính có thứ tự Chuyển đổi Wavelet có nhiều ứng dụng thực tế: nén ảnh, computer vision,, phân tích liệu chuỗi thời gian, làm liệu 22 Hình 9: DWT cho nén ảnh Phân tích thành phần (Principal Component Analysis) - Cho N vector liệu k-chiều, tìm c (

Ngày đăng: 13/07/2022, 21:52

HÌNH ẢNH LIÊN QUAN

- Bảng ghi: - 18103080   hoàng ngọc thành
Bảng ghi (Trang 8)
frequencies) của các trường hợp được cho trong bảng sau: (các số trong ngoặc là expected frequencies) - 18103080   hoàng ngọc thành
frequencies của các trường hợp được cho trong bảng sau: (các số trong ngoặc là expected frequencies) (Trang 15)
+ Tồn tại lý thuyết phong phú và thuật tốn điển hình. +Không tốn thất điển hình. - 18103080   hoàng ngọc thành
n tại lý thuyết phong phú và thuật tốn điển hình. +Không tốn thất điển hình (Trang 26)
w