Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
444,37 KB
Nội dung
Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học: Giới thiệu về Khai phá dữ liệu ề Giới thiệu v ề công cụ WEK A Tiền xử lý dữ liệu Phát hiện các luật kết hợp Các kỹ thuật phân lớpvàdự đoán Các kỹ thuật phân lớp và dự đoán Các kỹ thuật phân nhóm 2 Khai Phá Dữ Liệu T ậ p dữ liệu p Một tập dữ liệu (dataset) là một tập hợp các đối tượng (objects) và các Các thuộc tính thuộc tính của chúng Mỗi thuộc tính (attribute) mô tả một đặc điểmcủamột đốitượng Tid Refund Marital Status Taxable Income Cheat 1 Y Si l 125K N Các thuộc tính đặc điểm của một đối tượng Vd: Các thuộc tính Refund, Marital Status, Taxable Income, Cheat Mộttập các giá trị củacácthuộc 1 Y es Si ng l e 125K N o 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 N Di d 95K Y Các Một tập các giá trị của các thuộc tính mô tả một đối tượng Khái niệm “đối tượng” còn được tham chiếu đếnvớicáctêngọi khác: 5 N o Di vorce d 95K Y es 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 N Mid 75K N đối tượng tham chiếu đến với các tên gọi khác: bản ghi (record), điểm dữ liệu (data point), trường hợp (case), mẫu (sample), thực thể (entity), hoặc ví 9 N o M arr i e d 75K N o 10 No Single 90K Yes 10 (Tan, Steinbach, Kumar - Introduction to Data Minin g) dụ (instance) 3 Khai Phá Dữ Liệu g) Các ki ể u tậ p dữ liệu p Bản ghi (Record) Các bản ghi trong csdl quan hệ Ma trận dữ liệu Biểu diễn văn bản (document) Dữ liệu giao dịch Đồ thị (Graph) World Wide Web Mạng thông tin, hoặc mạng xã hội TID Items 1 Bread, Coke, Milk Các cấu trúc phân tử (Molecular structures) Có trật tự (Ordered) Dữ li ệ u khôn g g ian ( vd: bản đồ ) 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke Diaper Milk ệ gg ( ) Dữ liệu thời gian (vd: time-series data) Dữ liệu chuỗi (vd: chuỗi giao dịch) Dữ li ệ u chuỗi di tru y ền (g enetic se q uence 5 Coke , Diaper , Milk (Han, Kamber - Data Mining: Concepts and Techniques) ệ y (g q data) 4 Khai Phá Dữ Liệu Các ki ể u g iá trị thuộc tính g Kiểu định danh/chuỗi (norminal): không có thứ tự Lấygiátrị từ mộttập không có thứ tự các giá trị (định danh) Lấy giá trị từ một tập không có thứ tự các giá trị (định danh) Vd: Các thuộc tính như: Name, Profession, … Kiểunhị phân (binary): là mộttrường hợp đặcbiệtcủa Kiểu nhị phân (binary): là một trường hợp đặc biệt của kiểu định danh Tập các giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F) Kiểu có thứ tự (ordinal): Lấy giá trị từ một tập có thứ tự các giá trị Vd1 Cá th ộ tí h lấ iá t ị ố h AHiht Vd1 : Cá c th u ộ c tí n h lấ y g iá t r ị s ố n h ư: A ge, H e i g ht ,… Vd2: Thuộc tính Income lấy giá trị từ tập {low, medium, high} 5 Khai Phá Dữ Liệu Ki ể u thuộc tính rờ i rạc vs. liên t ục Kiểu thuộc tính rời rạc (Discrete-valued attributes) Tập các giá trị là mộttậphữuhạn Tập các giá trị là một tập hữu hạn Bao gồm cả các thuộc tính có kiểu giá trị là các số nguyên Bao gồm cả các thuộc tính nhị phân (binary attributes) Kiểu thuộc tính liên tục (Continuous-valued attributes) Các giá trị là các số thực (real numbers) 6 Khai Phá Dữ Liệu Các đặc tính mô tả dữ liệu Mục đích: Để hiểu rõ về dữ liệu có được (chiều hướng chính/trung tâm sự biến thiên sự phân bố) chính/trung tâm , sự biến thiên , sự phân bố) Sự phân bố của dữ liệu (Data dispersion) ể Giá trị ti ể u/cực đại (min/max) Giá trị xuất hiện nhiều nhất (mode) Giá t ị tbìh( ) Giá t r ị t rung bì n h ( mean ) Giá trị trung vị (median) Sự biến thiên (variance) và độ lệch chuẩn (standard deviation) Sự biến thiên (variance) và độ lệch chuẩn (standard deviation) Các ngoại lai (outliers) 7 Khai Phá Dữ Liệu Hiển thị hóa dữ liệu (Data visualization) Biểu diễn dữ liệu bằng các phương pháp hiển thị đồ họa, giúp hiểurõcácđặc điểmcủadữ liệu giúp hiểu rõ các đặc điểm của dữ liệu Cung cấp cái nhìn định tính đối với các tập dữ liệu lớn Có thể chỉ ra các mẫu các xu hướng các cấutrúc các Có thể chỉ ra các mẫu , các xu hướng , các cấu trúc , các bất thường, và các quan hệ trong dữ liệu Hỗ trợ xác định các vùng dữ liệu quan trọng và các tham Hỗ trợ xác định các vùng dữ liệu quan trọng và các tham số phù hợp cho các phân tích định lượng tiếp theo Trong một số trường hợp, có thể cung cấp các chứng minh trực quan đối với các biểu diễn (tri thức) thu được 8 Khai Phá Dữ Liệu Dữ liệu cân đ ố i vs. lệch Giá trị trung bình, giá trị trung v ị ,vàgiátrị xuấthiện nhiều v ị , và giá trị xuất hiện nhiều nhất đối với Dữ liệu cân đối Dữ liệulệch Dữ liệu lệch 9 Khai Phá Dữ Liệu (Han, Kamber - Data Mining: Concepts and Techniques) Bi ể u đ ồ histo g ram g Biểu đồ histogram là cách biểudiễndựatrênđồ thị biểu diễn dựa trên đồ thị Được sử dụng rất phổ biến biến Hiển thị các mô tả thống kê xuấthiện kê xuất hiện (counts/frequencies) theo một thuộc tính nào đó (Han, Kamber - Data Mining: Concepts and Techniques) Concepts and Techniques) 10 Khai Phá Dữ Liệu [...]... chọn một tập con các thuộc tính Các phương pháp thường được áp dụng cho việc lựa chọn tập con các thuộc tính (Feature subset selection) Lựa chọn các thuộc tính riêng rẽ (với giả sử là các thuộc tính là độc lập với nhau) Theo một (hoặc một số) tiêu chí đánh giá Lựa chọn thuộc tính từng bước (Step-wise feature selection) (Step wise Thuộc tính tốt nhất sẽ được chọn ra đầu tiên Chọn thuộc tính tốt nhất tiếp... g p p Bỏ qua các bản ghi có các thuộc tính thiếu giá trị Thường được áp dụng trong các bài toán p g p g g phân lớp ( p (classification) ) Không hiệu quả, khi tỷ lệ % các giá trị thiếu đối với các thuộc tính (rất) khác nhau Một số người sẽ đảm nhiệm việc kiểm tra và gán các giá trị thuộc tính còn thiếu này (manually filling): công việc tẻ nhạt + chi phí cao Gán giá trị tự động bởi máy tính Một giá trị... định thực thể (để tránh dư thừa dữ liệu) Cần xác định các thực thể (identities) trên thực tế từ nhiều nguồn dữ liệu Vd: Vd Bill Clinton ≡ B Cli t Cli t B Clinton Phát hiện và xử lý các mâu thuẫn đối với giá trị dữ liệu Đối với cùng một thực thể trên thực tế, nhưng các giá trị thuộc tính từ nhiều nguồn khác nhau lại khác nhau Các lý do có thể: ề ồ ể Các cách biểu diễn khác nhau Mức đánh giá, độ đo (scales)... thuộc tính) của dữ liệu Cho phép q p p quan sát ( ự quan) các nhóm điểm, các ngoại lại,… (trực q ) , g ạ ạ, Mỗi cặp giá trị của 2 thuộc tính được xét tương ứng với 2 tọa độ của điểm được hiển thị trên mặt phẳng (Han, Kamber - Data Mining: ( Concepts and Techniques) Khai Phá Dữ Liệu 11 Tiền xử lý dữ liệu: Các nhiệm vụ chính Làm sạch dữ liệu (Data cleaning) Gán các giá trị thuộc tính còn thiếu, Sửa chữa các. .. kho dữ liệu mua hàng Các ứ kế h khá h Cá mức kết hợp khác nhau trong các khối dữ liệu á d liệ Giúp giảm nhỏ hơn nữa kích thước của dữ liệu cần xử lý Các mức kết hợp phù hợp Sử dụng biểu diễn ngắn gọn (nhỏ) nhất đủ để giải quyết yêu cầu (truy vấn thông tin) đặt ra Các câu tìm kiếm (queries) đối với các thông tin được kết hợp (aggregated information) nên được trả lời bằng cách sử dụng các khối dữ liệu Khai... cho mỗi khoảng chứa xấp xỉ bằng nhau số lượng (tần xuất xuất hiện) của các ví dụ Hiệu quả hơn cách phân chia với độ rộng ( q p g (khoảng cách) bằng g ) g nhau Khai Phá Dữ Liệu 20 Phân khoảng (Binning) – Ví dụ g( g) Sắp xếp các giá trị của thuộc tính Price: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 21 24 25 26 28 29 34 Phân chia thành các khoảng với độ sâu (tần xuất xuất hiện) bằng nhau Bin 1: 4, 8, 9,... Lỗi của các thiết bị phần cứng Không tương thích với các dữ liệu đã được ghi từ trước, do đó giá trị (mới) bị xóa đi Dữ liệu không được nhập vào (lỗi của người nhập liệu) Các iá ị h ộ í h hiế ầ hải được gán (bằ một Cá giá trị thuộc tính thiếu cần phải đ á (bằng ộ cơ chế suy diễn) – để đảm bảo tính chính xác của các kết quả khai p dữ liệu q phá ệ Khai Phá Dữ Liệu 16 Thuộc tính thiếu giá trị: Các giải... thuộc tính đó Giá trị trung bình của thuộc tính đó, xét đối với tất cả các ví dụ (các bản ghi) thuộc cùng lớp (class) với bản ghi đó Giá trị có thể xảy ra nhất – dựa trên phương pháp xác suất ( y g (vd: công thức Bayes) Khai Phá Dữ Liệu 17 Dữ liệu chứa nhiễu Nhiễu: Lỗi ngẫu nhiên đối với giá trị của một thuộc tính Các giá trị thuộc tính bị lỗi (nhiễu) có thể vì: Lỗi của các thiết bị thu thập dữ liệu Các. .. trung bình(mean), trung vị (median), hoặc các giới hạn…của các giá trị trong khoảng đó Hồi quy (Regression) Gắn dữ liệu với một hàm hồi quy (regression function) Phân cụm (Clustering) Phát hiện và loại bỏ các ngoại lai (sau khi đã xác định các cụm) Kết hợp giữa máy tính và kiểm tra của con người Máy tính tự động phát hiện các giá trị nghi ngờ (là nhiễu/lỗi) Các giá trị nghi ngờ này sẽ được con người... trực giao (sẽ là các thành phần chính – principal components) biểu diễn tập dữ liệu ban đầu phù hợp nhất ể ầ ấ 1) Chuẩn hóa dữ liệu đầu vào: Các giá trị cho các thuộc tính được đưa về cùng một khoảng giá trị 2) Tính k vectơ trực giao (chính là các thành phần chính) ầ 3) Mỗi vectơ dữ liệu đầu vào sẽ là một kết hợp tuyến tính của k vectơ thành phần chính này 4) Cá thà h phần chính đ Các thành hầ hí h . (tần xu t xu t hiện) bằng nhau Chia khoản g g iá trị thành N khoản g ( khôn g nhất thiết bằn g nhau ) , gg g( g g) sao cho mỗi khoảng chứa xấp xỉ bằng nhau số lượng (tần xu t xu t hiện). tính đối với các tập dữ liệu lớn Có thể chỉ ra các mẫu các xu hướng các cấutrúc các Có thể chỉ ra các mẫu , các xu hướng , các cấu trúc , các bất thường, và các quan. liệu cân đ ố i vs. lệch Giá trị trung bình, giá trị trung v ị ,vàgiátrị xu thiện nhiều v ị , và giá trị xu t hiện nhiều nhất đối với Dữ liệu cân đối Dữ liệulệch Dữ liệu