Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
510,86 KB
Nội dung
.c om ng co ng th an Chương cu u du o Khai phá liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com https://fb.com/tailieudientucntt c om Tiền xử lý liệu Dữ liệu phát sinh trình tác nghiệp gọi an Dữ liệu thô: Từ nguồn file/cơ sở liệu (database), Khơng hồn chỉnh: thiếu thuộc tính, giá trị cần Chứa giá trị nhiễu: có lỗi có giá trị lệch, Khơng quán u du o ng th cu co ng liệu thơ (raw/original data), Để khai phá khía cạnh khác chúng cần phải biến đổi dạng thích hợp, CuuDuongThanCong.com https://fb.com/tailieudientucntt Chất lượng liệu ng Tính xác (accuracy): giá trị ghi nhận với giá trị thực, Tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp du o u ng th an co cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Tiền xử lý liệu Các kỹ thuật tiền xử lý: Tích hợp liệu (Data integration): co ng Làm tăng lượng thơng tin Tuy nhiên làm dư thừa không th an du o u Làm liệu (Data cleaning): Bổ sung giá trị thiếu, Loại liệu nhiễu, Loại giá trị lệch, Nhất hóa liệu cu ng quán CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Tiền xử lý liệu Các kỹ thuật tiền xử lý (tt): Chuyển dạng liệu (Data transformation): co Chuẩn hóa (normalization), Gộp nhóm (aggregation) th an du o ng Rút gọn liệu (Data reduction): Giảm số chiều, Giảm biểu diễn số lớn, Lựa chọn tập thuộc tính, … u cu ng CuuDuongThanCong.com https://fb.com/tailieudientucntt Tóm tắt – mơ tả liệu: ng Xác định thuộc tính (properties) tiêu biểu co an liệu xu hướng (central tendency) th phân tán (dispersion) liệu du o ng Làm bật giá trị liệu nên xem nhiễu (noise) phần tử biên (outliers), cung u cấp nhìn tổng quan liệu cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt Các yếu tố cần quan tâm nghiên cứu khai co Xu hướng tập trung (central tendency): đặc trưng an ng phá liệu: th đại lượng thống kê: trung bình (Mean), du o ng trung vị (Median), mode, khoảng trung bình (midrange), … Sự phân ly (dispersion): tứ nhân vị (quartile), u cu c om Tiền xử lý liệu khoảng tứ phân vị (interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) CuuDuongThanCong.com https://fb.com/tailieudientucntt Cơng thức tính độ đo xu hướng an co ng liệu: Mean: Weighted arithmetic mean: Median: u du o ng th cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt ng Công thức tính độ đo xu hướng Mode: giá trị xuất thường xuyên an ng th tập liệu du o Midrange: Giá trị trung bình trị lớn nhỏ tập liệu u co liệu (tt): cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 10 Cơng thức tính độ đo phân tán co The first quartile: Q1 = 25 * (n+1) / 100, The second quartile: Q2 = 50 * (n+1) / 100, The third quartile: Q3 = 75 * (n+1) / 100 du o ng th Interquartile Range (IQR) = Q3 – Q1 an Quartiles (tứ phân vị): u ng liệu (tt): cu c om Tiền xử lý liệu Outliers (trị biên): Q3/dưới Q1 = 1.5*IQR Variance: (phương sai) CuuDuongThanCong.com https://fb.com/tailieudientucntt 11 Cơng thức tính độ đo phân tán ng liệu (tt): Tính quartiles: Sắp xếp số theo thứ tự tăng dần, Cắt dãy số thành phàn nhau, Tứ phân vị giá trị vị trí cắt Ví dụ: Cho dãy số 5, 8, 4, 4, 6, 3, Sắp xếp: 3, 4, 4, 5, 6, 8, Q1 = 4; Q2 = 5; Q3 = Nếu vị trí cắt số tứ phân vị giá trị trung bình số u du o ng th an co cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 12 Tóm tắt mơ tả liệu: Q2 Q3 cu u Q1 du o ng th an co ng c om Tiền xử lý liệu (a): Dữ liệu cân đối (b): Dữ liệu lệch dương (c): Dữ liệu lệch âm Minimum < Q1 < Median < Q3 < Maximum CuuDuongThanCong.com https://fb.com/tailieudientucntt 13 Tóm tắt mô tả liệu: du o ng th an co ng Độ lệch chuẩn (Standard deviation): u cu c om Tiền xử lý liệu 14 CuuDuongThanCong.com https://fb.com/tailieudientucntt Làm liệu: Xử lý liệu bị thiếu (missing data), Nhận diện phần tử biên (outliers) giảm thiểu th nhiễu (noisy data), an co ng du o ng Xử lý liệu không quán (inconsistent data) u cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 15 Làm liệu (tt): Nguyên nhân gây liệu bị thiếu ng Dữ liệu khơng có sẵn cần sử dụng th an Định nghĩa liệu bị thiếu du o co ng Xử lý liệu bị thiếu (missing data): Khách quan (không tồn lúc nhập u liệu, cố, …) cu c om Tiền xử lý liệu Chủ quan (tác nhân người) CuuDuongThanCong.com https://fb.com/tailieudientucntt 16 Làm liệu (tt): ng Xử lý liệu bị thiếu (missing data): ng th an co Giải pháp cho liệu bị thiếu Bỏ qua Xử lý tay (không tự động, bán tự động), Dùng giá trị thay (tự động): số toàn cục, trị phổ biến nhất, trung bình tồn cục, trung bình cục bộ, trị dự đoán, … Ngăn chặn liệu bị thiếu: thiết kế tốt CSDL thủ tục nhập liệu (các ràng buộc liệu) du o u cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 17 Làm liệu (tt): ng Nhận diện phần tử biên (outliers) giảm thiểu an Outliers: liệu (đối tượng) không tuân th co nhiễu (noisy data): du o tượng) ng theo đặc tính/hành vi chung tập liệu (đối Noisy data: outliers bị loại bỏ (rejected/discarded u cu c om Tiền xử lý liệu outliers) trường hợp ngoại lệ (exceptions) CuuDuongThanCong.com https://fb.com/tailieudientucntt 18 Làm liệu (tt): ng Nhận diện phần tử biên (outliers) giảm thiểu an Dựa phân bố thống kê (statistical distribution - based) ng th Giải pháp nhận diện phần tử biên du o co nhiễu (noisy data): Dựa khoảng cách (distance-based) Dựa mật độ (density-based) Dựa độ lệch (deviation-based) u cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 19 Làm liệu (tt): ng Nhận diện phần tử biên (outliers) giảm thiểu an Hồi quy (regression) ng th Giải pháp giảm thiểu nhiễu du o co nhiễu (noisy data): u cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 20 Làm liệu (tt): ng Nhận diện phần tử biên (outliers) giảm thiểu an Phân tích cụm (cluster analysis) ng th Giải pháp giảm thiểu nhiễu du o co nhiễu (noisy data): u cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 21 Làm liệu (tt): ng Nhận diện phần tử biên (outliers) giảm thiểu nhiễu an Tận dụng siêu liệu, ràng buộc liệu, kiểm ng th Giải pháp xử lý liệu không quán (inconsistent) tra nhà phân tích liệu cho việc nhận diện du o co (noisy data): Điều chỉnh liệu không quán tay Biến đổi, chuẩn hóa liệu tự động u cu c om Tiền xử lý liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 22 Biến đổi liệu: Tạo tính tương thích liệu co ng nhiều nguồn khác Làm mịn: loại bỏ trường hợp nhiễu Tổng hợp: Rút gọn liệu tạo khối liệu cho th an Khái quát hóa: Chuyển liệu mức thấp sang mức cao u du o ng việc phân tích cu .c om Tiền xử lý liệu Chuẩn hóa: Chuyển khoảng giá trị rộng thành khoảng giá trị nhỏ ([10 1.000] -> [0.0 1.0]) Xác định thêm thuộc tính CuuDuongThanCong.com https://fb.com/tailieudientucntt 23 Biến đổi liệu: co ng Một số phương pháp biến đổi: Min-Max: - minA, maxA: giá trị lớn nhỏ du o ng th an u thuộc tính A cu .c om Tiền xử lý liệu - New_minA, new_maxA: miền giá trị CuuDuongThanCong.com https://fb.com/tailieudientucntt 24 Biến đổi liệu: Z-score: - du o ng th an co ng Một số phương pháp biến đổi: Ā: giá trị trung bình thuộc tính A, A: độ lệch chuẩn u cu .c om Tiền xử lý liệu Thay đổi tỷ lệ Lựa chọn tập thuộc tính CuuDuongThanCong.com https://fb.com/tailieudientucntt 25 ....c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com... Tóm tắt mô tả liệu: Q2 Q3 cu u Q1 du o ng th an co ng c om Tiền xử lý liệu (a): Dữ liệu cân đối (b): Dữ liệu lệch dương (c): Dữ liệu lệch âm Minimum < Q1 < Median < Q3 < Maximum CuuDuongThanCong.com... first quartile: Q1 = 25 * (n +1) / 10 0, The second quartile: Q2 = 50 * (n +1) / 10 0, The third quartile: Q3 = 75 * (n +1) / 10 0 du o ng th Interquartile Range (IQR) = Q3 – Q1 an Quartiles