CHƯƠNG 2: CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU

20 0 0
CHƯƠNG 2: CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Kỹ Thuật - Công Nghệ - Báo cáo khoa học - Công nghệ thông tin Chương 2: Các vấn đề tiền xử lý dữ liệu 1 Nội dung  Tổng quan về giai đoạn tiền xử lý dữ liệu  Tóm tắt mô tả về dữ liệu  Làm sạch dữ liệu  Tích hợp dữ liệu  Biến đổi dữ liệu  Thu giảm dữ liệu  Rời rạc hóa dữ liệu  Tạo cây phân cấp ý niệm  Tóm tắt 2 Tổng quan về giai đoạn tiền xử lý dữ liệu  Giai đoạn tiền xử lý dữ liệu: - Các kỹ thuật datamining đều thực hiện trên các cơ sở dữ liệu, nguồn dữ liệu lớn. Đó là kết quả của quá trình ghi chép liên tục thông tin phản ánh hoạt động của con người, các quá trình tự nhiên… - Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa trong đó. Do vậy chúng cần phải qua giai đoạn tiền xử lý dữ liệu trước khi tiến hành bất kỳ một phân tích nào. 3 Tổng quan về giai đoạn tiền xử lý dữ liệu  Chất lượng dữ liệu (data quality) - Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực. - Tính hiện hành (currencytimeliness): giá trị được ghi nhận không bị lỗi thời. - Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biếnthuộc tính đều được ghi nhận. - Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp. 4 Tổng quan về giai đoạn tiền xử lý dữ liệu 5 Data Cleaning Data Integration Data Sources Data Warehouse Task-relevant Data SelectionTransformation Data Mining Pattern Evaluation Presentation Patterns Tổng quan về giai đoạn tiền xử lý dữ liệu 6 Tổng quan về giai đoạn tiền xử lý dữ liệu  Các kỹ thuật tiền xử lý dữ liệu - Làm sạch dữ liệu (data cleaningcleansing) - Tích hợp dữ liệu (data integration) - Biến đổi dữ liệu (data transformation) - Thu giảm dữ liệu (data reduction) 7 Tóm tắt mô tả về dữ liệu 8  Các kiểu dữ liệu Tóm tắt mô tả về dữ liệu  Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu - Các độ đo về xu hướng chính: mean, median, mode, midrange - Các độ đo về sự phân tán: quartiles, interquartile range (IQR), variance  Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu 9 Tóm tắt mô tả về dữ liệu  Các độ đo về xu hướng chính của dữ liệu - Mean - Weighted arithmetic mean - Median - Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu - Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu 10        evenNifx x oddNif x Median N N N 2)( 122 2 Tóm tắt mô tả về dữ liệu  Ví dụ: Mean: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110  Tính giá trị trung bình của các lương trên? 11 Tóm tắt mô tả về dữ liệu  Ví dụ: Median: Giả sử...

Chương 2: Các vấn đề tiền xử lý liệu Nội dung  Tổng quan giai đoạn tiền xử lý liệu  Tóm tắt mơ tả liệu  Làm liệu  Tích hợp liệu  Biến đổi liệu  Thu giảm liệu  Rời rạc hóa liệu  Tạo phân cấp ý niệm  Tóm tắt Tổng quan giai đoạn tiền xử lý liệu  Giai đoạn tiền xử lý liệu: - Các kỹ thuật datamining thực sở liệu, nguồn liệu lớn Đó kết q trình ghi chép liên tục thông tin phản ánh hoạt động người, trình tự nhiên… - Các liệu lưu trữ hoàn toàn dạng thô, chưa sẵn sàng cho việc phát hiện, khám phá thơng tin ẩn chứa Do chúng cần phải qua giai đoạn tiền xử lý liệu trước tiến hành bất kỳ phân tích Tổng quan giai đoạn tiền xử lý liệu  Chất lượng liệu (data quality) - Tính xác (accuracy): giá trị ghi nhận với giá trị thực - Tính hành (currency/timeliness): giá trị ghi nhận khơng bị lỗi thời - Tính toàn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận - Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp Tổng quan giai đoạn tiền xử lý liệu Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Selection/Transformation Data Cleaning Data Integration Data Sources Tổng quan giai đoạn tiền xử lý liệu Tổng quan giai đoạn tiền xử lý liệu  Các kỹ thuật tiền xử lý liệu - Làm liệu (data cleaning/cleansing) - Tích hợp liệu (data integration) - Biến đổi liệu (data transformation) - Thu giảm liệu (data reduction) Tóm tắt mơ tả liệu  Các kiểu liệu Tóm tắt mơ tả liệu  Xác định thuộc tính (properties) tiêu biểu liệu xu hướng (central tendency) phân tán (dispersion) liệu - Các độ đo xu hướng chính: mean, median, mode, midrange - Các độ đo phân tán: quartiles, interquartile range (IQR), variance  Làm bật giá trị liệu nên xem nhiễu (noise) phần tử biên (outliers), cung cấp nhìn tổng quan liệu Tóm tắt mơ tả liệu  Các độ đo xu hướng liệu - Mean - Weighted arithmetic mean - Median  xN /2 if N odd Median   (xN /2  xN /21) / if N even - Mode: giá trị xuất thường xuyên tập liệu - Midrange: giá trị trung bình giá trị lớn nhỏ tập liệu 10 Tóm tắt mơ tả liệu  Ví dụ: Mean: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110  Tính giá trị trung bình lương trên? 11 Tóm tắt mơ tả liệu  Ví dụ: Median: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110  Tính median lương trên? - Dữ liệu xếp tăng dần, giá trị middlemost 52 56 Do median= (52+56)/2= 108/2= 54 12 Tóm tắt mơ tả liệu  Ví dụ: Mode, Midrange: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110  Mode, Midrange lương trên?  Mode $52,000 $70,000  Midrange= 13 Tóm tắt mô tả liệu  Các độ đo phân tán liệu - Quartiles  The first quartile (Q1): the 25th percentile  The second quartile (Q2): the 50th percentile (median)  The third quartile (Q3): the 75th percentile - Interquartile Range (IQR) = Q3 – Q1  Outliers (the most extreme observations): giá trị nằm cách Q3 hay Q1 khoảng 1.5xIQR - Variance 14 Tóm tắt mơ tả liệu  Ví dụ: Q1, Q2, Q3, IRQ: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110  Q1= 47$, Q3=63$, IRQ= 63-47=16$ 15 Tóm tắt mơ tả liệu  Ví dụ: Variance and standard deviation: Giả sử có giá trị sau lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng dần sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 16 Tóm tắt mơ tả liệu Q1 Q2 Q3 Tóm tắt mơ tả phân bố liệu gồm năm trị số quan trọng: median, Q1, Q3, trị lớn nhất, trị nhỏ (theo thứ tự: Minimum, Q1, Median, Q3, Maximum) 17 Tóm tắt mơ tả liệu Outliers (the most  Boxplots Outliers extreme - Boxplot cách để biểu observatio diễn phân tán liệu ns): giá - Boxplot biểu diễn trị nằm giá trị Minimum, Q1, cách Median, Q3, Maximum Q3 hay sau: Q1 Chiều dài box interquartile range khoảng Median đánh dấu đường 1.5xIQR gạch box Hai gạch box whiskers the smallest (Minimum) largest (Maximum) 18 Làm liệu (data cleaning/cleansing):  Thiếu giá trị - Hãy xem xét kho liệu bán hàng quản lý khách hàng Trong có nhiều giá trị mà khó thu thập ví dụ thu nhập khách hàng Vậy làm cách để có thơng tin đó? 19 Làm liệu (data cleaning/cleansing):  Thiếu giá trị - Hãy xem xét phương pháp sau:  Bỏ qua  Điền vào giá trị thiếu tay  Sử dụng giá trị quy ước để điền vào cho giá trị thiếu  Sử dụng thuộc tính có nghĩa để điền vào cho giá trị thiếu  Sử dụng giá trị thể loại để thay cho giá trị thiếu  Sử dụng giá trị có tỉ lệ xuất cao để điền vào cho giá trị thiếu 20

Ngày đăng: 05/03/2024, 07:07

Tài liệu cùng người dùng

Tài liệu liên quan