Quy trình chuẩn bị dữ liệu

29 1.3K 5
Quy trình chuẩn bị dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Quy trình chuẩn bị dữ liệu

KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : ThS NGUYỄN HỒNG TÚ ANH BÀI QUI TRÌNH CHUẨN BỊ DỮ LIỆU NỘI DUNG Tại cần chuẩn bị liệu? Làm liệu ( data cleaning) Chọn lọc liệu (data selection) Rút gọn liệu ( data reduction) Mã hoá liệu CÁC KIỂU DỮ LIỆU    Dữ liệu dạng thuộc tính giá trị (Attribute-value data) Các kiểu liệu  số (numeric), phi số (categorical)  Tĩnh, động (thời gian) Các dạng liệu khác      DL phân tán DL văn DL web, siêu DL Hình ảnh, audio/video CHUẨN BỊ DỮ LIỆU  Dữ liệu thực tế có chất lượng xấu DL thiếu, khơng đầy đủ : thiếu giá trị thuộc tính, thiếu thuộc tính quan tâm, chứa DL tích hợp VD : tuổi, cân nặng = “” DL b tp, nhiu (noise) : chứa lỗi sai biệt o VD : Lương =“-100 000” DL mâu thuẫn : có khơng thống mã tên o VD : Tuổi =42 , Ngày sinh = 03/07/1997; US=USA? o Tại DL có chất lượng xấu ?  Bài tập theo nhóm số  (20’) : 10’ thảo luận + 10’ viết tổng hợp Tình : Bạn người quản lý thông tin công ty ĐiỆN TỬ X (gồm nhiều chi nhánh toàn quốc) Bạn cần phân tích DL bán hàng tất chi nhánh quí 1/2008 Sau thu thập DL từ chi nhánh, bạn gặp vấn đề gì, ví dụ ? Tại DL thực tế thường có chất lượng xấu? Np bn tng hp ý kin cho GV (ghi rõ tên nhóm nh qui đnh) Vit ng n g n, súc tích Qui định trình bày nộp Bài tập nộp theo nhóm Ngày nộp : Tên nhóm : (chỉ ghi tên thành viên có tham gia)         Thành viên 1: Thành viên 2: Thành viên 3: … Thành viên 7: Nội dung : CHUẨN BỊ DỮ LIỆU  “DL không chất lượng, không cho kết khai thác tốt” Quyết định đắn phải dựa DL xác o VD : việc trùng lắp thiếu DL dẫn tới việc thống kê khơng xác, chí làm lạc lối Nhà kho DL cần tích hợp đồng DL chất lượng CHUẨN BỊ DỮ LIỆU  Các bước trình o o o o chuẩn bị DL ? Làm DL Điền giá trị thiếu, khử DL nhiễu, xác định loại bỏ DL sai biệt, DL nhiễu giải DL mâu thuẫn Chọn lọc/ Tích hợp DL Tổng hợp, tích hợp DL từ nhiều CSDL, tập tin khác Biến đổi DL/ Mã hoá DL Chuẩn hoá tổng hợp (aggregation) Rút gọn DL Giảm kích thước DL đảm bảo kết phân tích CHUẨN BỊ DỮ LIỆU 10 NỘI DUNG Tại cần chuẩn bị liệu ? Làm liệu ( data cleaning) Chọn lọc liệu (data selection) Rút gọn liệu ( data reduction) Mã hoá liệu 11 LÀM SẠCH DỮ LIỆU  Làm DL vấn đề quan trọng bậc nhà kho DL  Các nhiệm vụ công đoạn làm DL Điền giá trị thiếu Xác định sai biệt khử DL tạp, nhiễu Sửa chữa DL mâu thuẫn 12 ĐIỀN DỮ LIỆU THIẾU  Bỏ qua mẫu tin có giá trị thiếu Thường dùng thiếu nhãn lớp ( phân lớp) Dễ, không hiệu quả, đặc biệt tỷ lệ giá trị thiếu thuộc tính cao  Điền giá trị thiếu tay : vô vị + không khả thi  Điền giá trị thiếu tự động : Thay số chung: VD : “khơng biết” Có thể thành lớp DL 13 ĐIỀN DỮ LIỆU THIẾU  Điền giá trị thiếu tự động : Thay giá trị trung bình thuộc tính Thay giá trị trung bình thuộc tính lớp Thay giá trị có nhiều khả : suy từ công thức Bayesian, định thuật giải EM (Expectation Maximization) 14 ĐIỀN DỮ LIỆU THIẾU  Tình huống: Thu thập DL sinh viên thuộc tất trường ĐHQG Tp.HCM (Vd : để phân tích mức sống SV) Các thuộc tính có CSDL ? Ví d thuc tính b thiu giá tr thuc tính “Tin thuê nhà” Cách giải quyết? 15 DỮ LIỆU NHIỄU  Các phương pháp khử nhiễu : Phương pháp chia giỏ (Binning) : o o Sắp xếp chia DL vào giỏ có độ sâu (equaldepth) Khử nhiễu giá trị TB, trung tuyến, biên giỏ,… Gom nhóm ( Clustering) : o Phát loại bỏ khác biệt Phương pháp hồi qui ( Regression) : o Đưa DL vào hàm hồi qui Kết hợp kiểm tra máy tính người (Computer/human inspection) o Phát giá trị nghi ngờ kiểm tra người 16 DỮ LIỆU NHIỄU  Phương pháp rời rạc hóa : chia giỏ (Binning) Chia theo độ rộng (Equal-width - khoảng cách) : o o Chia vùng giá trị thành N khoảng kích thước Độ rộng khoảng = (giá trị lớn - giá trị nhỏ nhất)/N Chia theo độ sâu (Equal-depth – tần suất) : o Chia vùng giá trị thành N khoảng mà khoảng có chứa gần số lượng mẫu 17 DỮ LIỆU NHIỄU  Phương pháp rời rạc hóa : chia giỏ theo độ rộng (Equal-width – khoảng cách) : Giá trị nhiệt độ: 64 65 68 69 70 71 72 72 75 75 80 81 83 85 Đếm 2 2 [64,67) [67,70) [70,73) [73,76) [76,79) [79,82) [82,85] Biên trái giỏ 0 : tương quan thuận X↔Y r

Ngày đăng: 31/08/2012, 16:12

Hình ảnh liên quan

4. Dữ liệu tốt là chìa khóa tạo ra các mô hình giá trịvà đáng tin cậy. - Quy trình chuẩn bị dữ liệu

4..

Dữ liệu tốt là chìa khóa tạo ra các mô hình giá trịvà đáng tin cậy Xem tại trang 25 của tài liệu.
a) Khử nhiễu DL trên bằng giá trị TB của giỏ. Nhận xét hiệu quảcủa kỹthuật này với DL trên. - Quy trình chuẩn bị dữ liệu

a.

Khử nhiễu DL trên bằng giá trị TB của giỏ. Nhận xét hiệu quảcủa kỹthuật này với DL trên Xem tại trang 25 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan