1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI BÁO CÁO-Bài 2. Tiền xử lý dữ liệu

19 461 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 269,11 KB

Nội dung

Bài 2. Tiền xử lý dữ liệu Hồ Nhật Quang BM Công nghệ phần mềm Nội dung  Mục đích  Các giai đoạn của quá trình xử lý dữ liệu  Các phương pháp xử lý dữ liệu lỗi  Chuẩn hoá dữ liệu  Trích chọn đặc tính Mục đích  Tăng tính hiệu quả của các thuật giải KPDL : giảm số chiều dữ liệu, giảm kích thước dữ liệu….  Chuẩn hoá dữ liệu để kiểu dữ liệu phù hợp với yêu cầu của thuật giải KPDL  Dữ liệu sau khi xử lý là INPUT của thuật giải KPDL I. Các giai đoạn của quá trình XLDL  Chuẩn bị dữ liệu : nhằm xác định các tham số đặc tính, dò tìm lỗi bất thường của dữ liệu đầu vào – Phân tích dữ liệu. – Chuẩn hoá dữ liệu  Trích chọn dữ liệu: trích chọn, rút gọn, chuyển đổi các đặc tính, giảm về số chiều và tập giá trị của dữ liệu… – Trích chọn đặc tính – Trích chọn giá trị Các giai đoạn của quá trình KPTT Các giai đoạn của quá trình KPDL The KDD Process Data organized by function (accounting. etc.) Create/select target database Select sampling technique and sample data Supply missing values Normalize values Select DM task (s) Transform to different representation Eliminate noisy data Transform values Select DM method (s) Create derived attributes Extract knowledge Find important attributes & value ranges Test knowledge Refine knowledge Query & report generation Aggregation & sequences Advanced methods Data warehousing II.1. Phân tích dữ liệu Quá trình xử lý dữ liệu For each row in DataSer If row is error then Begin Marked row Delete Row | Replace Normal Value End EndFor II.1.a. Phân tích dữ liệu - Các lỗi DL  Mất giá trị (Missing Value)  Sai kiểu dữ liệu: (Wrong Type data)  Giá trị ko mong muốn: (Outlier ) dữ liệu có những giá trị bất thường, (do giá trị đo của các trường hợp rất đặc biệt, do lỗi của công cụ đo lường,…). Lỗi này là lỗi khó phát hiện nhất, gây ra các sai sót nghiêm trọng làm sai lệch, giảm hiệu quả thực hiện các thuật toán khai phá II.2.b. Phân tích dữ liệu – Cách xử lý  Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện nhiều nhất.  Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện ít nhất.  Dữ liệu được sinh ngẫu nhiên trong phạm vi cho trước.  Chỉ đích danh giá trị sẽ dùng để thay thế. Riêng với kiểu dữ liệu số  Giá trị Min  Giá trị Max  Lấy trung bình chung giá trị của đặc tính của các bộ dữ liệu trong lân cận Phân tích dữ liệu – Cách xử lý  Dò tìm lỗi dữ liệu bất thường: Lọc ra các bộ dữ liệu nghi ngờ có lỗi bằng cách chỉ ra miền giá trị hợp lý của các đặc tính trong bộ dữ liệu Ví dụ : Tuổi của người : 0 – 130 Chiều cao của người: … Màu da: … [...]... chọn dữ liệu   Mục đích: tăng tính hiệu quả của thuật giải, không làm thay đổi độ chính xác của thuật giải Phân loại: – – – Trích chọn đặc tính : cột dữ liệu Trích chọn bộ dữ liệu: hàng Trích chọn giá trị III.1 Trích chọn đặc tính – Ý nghĩa     Việc giảm số lượng đầu vào có thể các thuật toán sẽ thực hiện nhanh hơn Độ chính xác cao hơn do mô hình có khả năng khái quát hoá tốt hơn từ dữ liệu ... tại các lần thu nhận dữ liệu lần sau, không phải thu nhận các dữ liệu đã bị loại bỏ, các dữ liệu trùng lặp… III Trích chọn đặc tính – Phương pháp  Các thuật toán xếp hạng đặc tính: các đặc tính sẽ được đánh giá, ước lượng ‘độ quan trọng’ thông qua việc sử dụng một hàm lượng giá nào đó – – Việc ước lượng có thể thực hiện bằng nhiều cách thức khác nhau như: tính chính xác của dữ liệu, tính nhất quán,...II.2 Chuẩn hoá dữ liệu Định nghĩa: Là thao tác chỉnh sửa, chuyển đổi dữ liệu sao cho phù hợp với đầu vào của các thuật toán khai phá như: chuyển đối các giá trị kiểu ký tự thành các giá trị kiểu số  Các giá trị kiểu ký tự, kiểu thời gian… đều phải được chuyển đổi về kiểu số trước khi nạp vào đầu vào của thuật giải  II.2.b.Chuẩn hoá dữ liệu Phương pháp Một đặc tính có N giá... với thứ tự của giá trị gốc có trong tập giá trị ban đầu: low (1), mid (2), high (3) II.2.b.Chuẩn hoá dữ liệu Quy chuẩn SF = (SRmax-SRmin)/(Xmax-Xmin) Xp = SRmin + (X-Xmin)* SF Với X - Là giá trị thực, giá trị gốc ban đầu của cột Xmin - Giá trị nhỏ nhất trong các bộ dữ liệu Xmax - Giá trị lớn nhất trong các bộ dữ liệu SRmin - Giá trị cận dưới của phạm vi cần co dãn SRmax - Giá trị cận trên của phạm . Bài 2. Tiền xử lý dữ liệu Hồ Nhật Quang BM Công nghệ phần mềm Nội dung  Mục đích  Các giai đoạn của quá trình xử lý dữ liệu  Các phương pháp xử lý dữ liệu lỗi  Chuẩn hoá dữ liệu. giải KPDL : giảm số chiều dữ liệu, giảm kích thước dữ liệu .  Chuẩn hoá dữ liệu để kiểu dữ liệu phù hợp với yêu cầu của thuật giải KPDL  Dữ liệu sau khi xử lý là INPUT của thuật giải KPDL. tính của các bộ dữ liệu trong lân cận Phân tích dữ liệu – Cách xử lý  Dò tìm lỗi dữ liệu bất thường: Lọc ra các bộ dữ liệu nghi ngờ có lỗi bằng cách chỉ ra miền giá trị hợp lý của các đặc

Ngày đăng: 17/05/2015, 11:20

TỪ KHÓA LIÊN QUAN

w