Khai phá dữ liệu
LỜI CẢM ƠN Trước tiên em xin được gửi lời cảm ơn chân thành tới các thầy cơ giáo trong khoa Cơng nghệ thơng tin - Trường đại học sư phạm Hà Nội đã tần tình giúp đỡ và giảng dạy cho chúng em trong những năm học vừa qua. Đặc biệt, em xin gửi lời cảm ơn chân thành nhất tới cơ giáo - T.S Hồ Cẩm Hà cùng các thầy cơ giáo trong tổ bộ mơn Hệ thống thơng tin đã tận tình hướng dẫn, giúp đỡ em hồn thành đề tài nghiên cứu khoa học này. Trong thời gian vừa qua mặc dù em đã cố gắng rất nhiều để hồn thành tốt đề tài nghiên cứu khoa học của mình. Song chắc chắn kết quả nghiên cứu sẽ khơng tránh khỏi những thiếu sót, vì vậy em kính mong nhận được sự chỉ bảo và góp ý của q thầy cơ và các bạn. Em xin chân thành cám ơn! Ký tên H ạ nh Nguyễn Thị Hạnh THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 1 MỤC LỤC LỜI MỞ ĐẦU 2 Chương 1: Tổng quan về khai phá dữ liệu 3 1.1. Khám phá tri thức và khai phá dữ liệu là gì? 3 1.2. Q trình phát hiện tri thức 4 1.2.1. Hình thành và định nghĩa bài tốn . 5 1.2.2. Thu thập và tiền xử lý dữ liệu . 5 1.2.3. Khai phá dữ liệu và rút ra các tri thức 6 1.2.4. Phân tích và kiểm định kết quả 6 1.2.5. Sử dụng các tri thức phát hiện được . 6 1.3. Q trình khai phá dữ liệu 7 1.3.1. Gom dữ liệu (gatherin) 7 1.3.2. Trích lọc dữ liệu (selection) 7 1.3.3. Làm sạch và tiền xử lý dữ liệu (cleansing preprocessing). . 8 1.3.4. Chuyển đổi dữ liệu (transformation) 81.3.5. Phát hiện và trích mẫu dữ liệu ( pattern extraction and discovery) 8 1.3.6. Đánh giá kết quả mẫu (evaluation of result ) . 8 1.4. Chức năng của khai phá dữ liệu 9 1.5. Các kỹ thuật khai phá dữ liệu 9 1.5.1. Phân lớp dữ liệu: . 9 1.5.2. Phân cụm dữ liệu: 9 1.5.3. Khai phá luật kết hợp: . 10 1.5.4. Hồi quy: . 10 1.5.5. Giải thuật di truyền: . 10 1.5.6. Mạng nơron: . 10 1.5.7. Cây quyết định. 11 1.6. Các dạng dữ liệu có thể khai phá được 11 1.7. Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu 11 1.7.1. Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu 11 1.7.2. Ứng dụng của khai phá dữ liệu 11 1.8. Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu. 12 Chương 2: Khai phá dữ liệu bằng cây quyết định . 13 2.1. Cây quyết định . 13 2.1.1. Định nghĩa cây quyết định 13 2.1.2. Ưu điểm của cây quyết định . 14 2.1.3. Vấn đề xây dựng cây quyết định 14 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 2 2.1.4. Rút ra các luật từ cây quyết định. 15 2.2. Các thuật tốn khai phá dữ liệu bằng cây quyết định . 15 2.2.1. Thuật tốn CLS 15 2.2.2. Thuật tốn ID3 . 16 2.2.3. Thuật tốn C4.5 . 18 2.2.4. Thuật tốn SLIQ[5] 22 2.2.5. Cắt tỉa cây quyết định 25 2.2.6. Đánh giá và kết luận về các thuật tốn xây dựng cây quyết định 27 Chương 3: Xây dựng chương trình dêmo . 29 3.1. Mơ tả bài tốn 29 3.2. Thu thập và tiền xử lý dữ liệu 29 3.3. Chương trình . 30 Chương 4. KẾT LUẬN . 30 4.1 Đánh Giá . 30 4.1.1 Lý thuyết . 30 4.1.2 Ứng dụng 30 4.2 Hướng Phát Triển 30 LỜI MỞ ĐẦU Trong nhiều năm qua, cùng với sự phát triển của cơng nghệ thơng tin và ứng dụng của cơng nghệ thơng tin trong nhiều lĩnh vực của đời sống xã hội, thì lượng dữ liệu được các cơ quan thu thập và lưu trữ ngày một nhiều lên. Người ta lưu trữ THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 3 những dữ liệu này vì cho rằng nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là ln được phân tích, số còn lại họ khơng biết sẽ phải làm gì và có thể làm gì với những dữ liệu này, nhưng họ vẫn tiếp tục thu thập và lưu trữ vì hy vọng những dữ liệu này sẽ cung cấp cho họ những thơng tin q giá một cách nhanh chóng để đưa ra những quyết định kịp thời vào một lúc nào đó. Chính vì vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng khơng đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu ( KDD - Knowledge Discovery and Data Mining). Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới, tại Việt Nam kỹ thuật này còn tương đối mới mẻ tuy nhiên cũng đang được nghiên cứu và bắt đầu đưa vào một số ứng dụng thực tế. Vì vậy, hiện nay ở nước ta vấn đề phát hiện tri thức và khai phá dữ liệu đang thu hút được sự quan tâm của nhiều người và nhiều cơng ty phát triển ứng dụng cơng nghệ thơng tin. Trong phạm vi đề tài nghiên cứu khoa học này của em, em sẽ trình bày những nội dung sau: Chương 1: Tìm hiểu những kiến thức tổng quan về khám phá tri thức và khai phá dữ liệu. Chương 2: Nghiên cứu kỹ thuật khai phá dữ liệu bằng cây quyết định. Chương 3: Xây dựng ứng dụng demo cho kỹ thuật khai phá dữ liệu bằng cây quyết định Chương 1: Tổng quan về khai phá dữ liệu 1.1. Khám phá tri thức và khai phá dữ liệu là gì? THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 4 Phát hiện tri thức (Knowledge Discovery ) trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mơ hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được [4]. Còn khai thác dữ liệu (data mining) là một ngữ tương đối mới, nó ra đời vào khoảng những năm cuối của của thập kỷ 1980. Có rất nhiều định nghĩa khác nhau về khai phá dữ liệu. Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”. Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu: ”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một q trình trích xuất những thơng tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”. Còn các nhà thống kê thì xem " khai phá dữ liệu như là một q trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hố các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu". Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thụât tốn khai thác dữ liệu chun dùng dưới một số quy định về hiệu quả tính tốn chấp nhận được để tìm ra các mẫu hoặc các mơ hình trong dữ liệu [4]. 1.2. Q trình phát hiện tri thức Q trình khám phá tri thức được tiến hành qua 5 bước sau [5]: THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 5 Hình 1.1. Q trình khám phá tri thức 1.2.1. Hình thành và định nghĩa bài tốn Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài tốn, bước này sẽ quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phương pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu. 1.2.2. Thu thập và tiền xử lý dữ liệu Trong bước này dữ liệu được thu thập ở dạng thơ (nguồn dữ liệu thu thập có thể là từ các kho dữ liệu hay nguồn thơng tin internet). Trong giai đoạn này dữ liệu cũng được tiền xử lý để biến đổi và cải thiện chất lượng dữ liệu cho phù hợp với phương pháp khai phá dữ liệu được chọn lựa trong bước trên. Bước này thường chiếm nhiều thời gian nhất trong q trình khám phá tri thức. Các giải thuật tiền xử lý dữ liệu bao gồm : 1. Xử lý dữ liệu bị mất/ thiếu: Các dạng dữ liệu bị thiếu sẽ được thay thế bởi các giá trị thích hợp 2. Khử sự trùng lắp: các đối tượng dữ liệu trùng lắp sẽ bị loại bỏ đi. Kỹ thuật này khơng được sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu. THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 6 3. Giảm nhiễu: nhiễu và các đối tượng tách rời khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu. 4. Chuẩn hố: miền giá trị của dữ liệu sẽ được chuẩn hố. 5. Rời rạc hố: các dạng dữ liệu số sẽ được biến đổi ra các giá trị rời rạc. 6. Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có. 7. Giảm chiều: các thuộc tính chứa ít thơng tin sẽ được loại bỏ bớt. 1.2.3. Khai phá dữ liệu và rút ra các tri thức Đây là bước quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của bước này là trích ra được các mẫu và/hoặc các mơ hình ẩn dưới các dữ liệu. Một mơ hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả hệ thống trong cơ sở dữ liệu, hay miêu tả cách dữ liệu được nảy sinh. Còn một mẫu là một cấu trúc cục bộ có liên quan đến vài biến và vài trường hợp trong cơ sở dữ liệu. 1.2.4. Phân tích và kiểm định kết quả Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mơ tả và dự đốn. Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng. 1.2.5. Sử dụng các tri thức phát hiện được Trong bước này, các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các mơ hình rút ra được đưa vào những hệ thống thơng tin thực tế dưới dạng các mơdun hỗ trợ việc đưa ra quyết định. Các giai đoạn của q trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ thuật được sử dụng trong giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật được sử dụng trong các giai đoạn tiếp theo. Các bước của q trình khám phá tri THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 7 thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. 1.3. Q trình khai phá dữ liệu Khai phá dữ liệu là hoạt động trọng tâm của q trình khám phá tri thức . Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu ( knowledge discovery in database _KDD) ( theo Fayyad Smyth and Piatestky- Shapiro 1989). Q trình này gồm có 6 bước [1]: Hình 1.2. Q trình khai phá dữ liệu Q trình khai phá dữ liệu bắt đầu với kho dữ liệu thơ và kết thúc với tri thức được chiết xuất ra. Nội dung của q trình như sau: 1.3.1. Gom dữ liệu (gatherin) Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu. Bước này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web. 1.3.2. Trích lọc dữ liệu (selection) Ở giai đoạn này dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó. THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 8 1.3.3. Làm sạch và tiền xử lý dữ liệu (cleansing preprocessing). Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong q trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là dữ liệu khơng đầy đủ hoặc khơng thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu thường chứa các giá trị vơ nghĩa và khơng có khả năng kết nối dữ liệu. Ví dụ Sinh viên có tuổi=200. Giai đoạn thứ ba này nhằm xử lý các dữ liệu như trên(dữ liệu vơ nghĩa, dữ liệu khơng có khả năng kết nối). Những dữ liệu dạng này thường được xem là thơng tin dư thừa, khơng có giá trị. Bởi vậy đây là một q trình rất quan trọng. Nếu dữ liệu khơng được làm sạch- tiền xử lý - chuẩn bị trước thì sẽ gây nên những kết quả sai lệch nghiêm trọng về sau. 1.3.4. Chuyển đổi dữ liệu (transformation) Trong giai đoạn này, dữ liệu có thể được tổ chức và sử dụng lại. Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu. 1.3.5. Phát hiện và trích mẫu dữ liệu ( pattern extraction and discovery) Đây là bước tư duy trong khai phá dữ liệu. Ở trong giai đoạn này nhiều thuật tốn khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật tốn thường dùng để trích mẫu dữ liệu là thuật tốn phân loại dữ liệu, kết hợp dữ liệu, thuật tốn mơ hình hố dữ liệu tuần tự. 1.3.6. Đánh giá kết quả mẫu (evaluation of result ) Đây là giai đoạn cuối cùng trong q trình khai phá dữ liệu, ở giai đoạn này các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Khơng phải mẫu dữ liệu nào cũng hữu ích, đơi khi nó còn bị sai lệch. Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu tiên cho các mẫu dữ liệu để rút ra được những tri thức cần thiêt. THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT 9 1.4. Chức năng của khai phá dữ liệu Khai phá dữ liệu có hai chức năng cơ bản đó là: chức năng dự đốn và chức năng mơ tả. 1.5. Các kỹ thuật khai phá dữ liệu Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện hai chức năng mơ tả và dự đốn. - Kỹ thuật khai phá dữ liệu mơ tả: có nhiệm vụ mơ tả các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Một số kỹ thuật khai phá trong nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hố (Visualization), phân tích sự phát triển và độ lệch (Evolution and deviation analyst),…. - Kỹ thuật khai phá dữ liệu dự đốn: có nhiệm vụ đưa ra các dự đốn dựa vào các suy diễn trên cơ sở dữ liệu hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp ( Classification) , hồi quy ( Regression) , cây quyết định (Decision tree), thống kê (statictics), mạng nơron (neural network), luật kết hợp,…. Một số kỹ thuật phổ biến thường được sử dụng để khai phá dữ liệu hiện nay là : 1.5.1. Phân lớp dữ liệu: Mục tiêu của phân lớp dữ liệu đó là dự đốn nhãn lớp cho các mẫu dữ liệu. Q trình gồm hai bước: xây dựng mơ hình, sử dụng mơ hình để phân lớp dữ liệu( mỗi mẫu 1 lớp). Mơ hình được sử dụng để dự đốn nhãn lớp khi mà độ chính xác của mơ hình chấp nhận được. 1.5.2. Phân cụm dữ liệu: Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cum, sao cho các đối tượng thuộc cùng một lớp là tương đồng. THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN [...]... khiển q trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫu đáng quan tâm Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an tồn và bảo mật thơng tin trong khai phá dữ liệu Chương 2: Khai phá d 2.1 li... thống khác - … Hướng phát triển của khám phá tri thức và khai phá dữ liệu là vượt qua được tất cả những thách thức trên Chú trọng vào việc mở rộng ứng dụng để đáp ứng cho mọi lĩnh vực trong đời sống xã hội, và tăng tính hữu ích của việc khai phá dữ liệu trong những lĩnh vực đã có khai phá dữ liệu Tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để xử lý số lượng dữ liệu lớn một cách hiệu... dùng, phân tích dữ liệu marketing, phân tích đầu tư, phát hiện các gian lận 1.8 Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu Sự phát triển của phát hiện tri thức và khai phá dữ liệu gặp phải một số thách thức sau: - CSDL lớn (số lượng bản ghi, số bảng) - Số chiều lớn - Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện khơng còn phù hợp nữa - Dữ liệu bị thiếu... CSDL giao dịch - CSDL quan hệ - đối tượng - CSDL khơng gian và thời gian - CSDL đa phương tiện 1.7 Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu 1.7.1 Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê,... y học: khai phá dữ liệu giúp tìm ra mối liên hệ giữa các triệu chứng, chuẩn đốn bệnh - Tài chính và thị trường chứng khốn: Khai phá dữ liệu để phân tích tình hình tài chính, phân tích đầu tư, phân tích cổ phiếu - - Khai thác dữ liệu web Trong thơng tin kỹ thuật: khai phá dữ liệu dùng để phân tích các sai hỏng, điều khiển và lập lịch trình… - Trong thơng tin thương mại: dùng để phân tích dữ liệu người... như sau: 4.1.1 Lý thuyết - Tìm được nhiều tài liệu hay và bổ ích liên quan tới data mining - Nắm được một số kỹ thuật cơ bản để khai phá dữ liệu, các chức năng và ứng dụng của khai phá dữ liệu - Nắm được kỹ thuật khai phá dữ liệu bằng cây quyết định, các thuật tốn xây dựng cây quyết định 4.1.2 Ứng dụng - Xây dựng chương trình demo cho ứng dụng khai phá dữ liệu bằng cây quyết định Sử dụng cây quyết định... bộ các dữ liệu, em tiến hành trích lọc ra những thơng tin cần thiết cho bài tốn ứng dụng của em Dữ liệu thu thập được ở dạng file access như sau: Tiền xử lý dữ liệu: do một số lý do nào đó, trong bảng dữ liệu về sinh viên, có một số ơ khơng có giá trị Vì vậy, em tiến hành bước tiền xử lý dữ liệu: dùng giá trị dữ liệu thơng dụng nhất cho các thuộc tính mà có giá trị bị thiếu để điền vào các ơ dữ liệu. .. chương trình ứng dụng khai phá dữ liệu trong giáo dục đào tạo Cụ thể là ứng dụng khai phá dữ liệu Trường đại học sư phạm Hà Nội Bài tốn như sau: "Sử dụng các thơng tin: Khu vực sống, thành phần gia đình, học lực 4 năm đại học, điểm thi đầu vào của sinh viên để dự đốn xếp loại tốt nghiệp đại học của sinh viên." 3.2 Thu thập và tiền xử lý dữ liệu Dữ liệu mà em thu thập được lấy kho dữ liệu của Trường đại...Trường đại học sư phạm Hà Nội THƯ VIỆN ĐIỆN khoa học C TUYẾN TỬ TRỰ Sinh viên nghiên cứu 1.5.3 Khai phá luật kết hợp: Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được Phương pháp khai phá luật kết hợp gồm có hai bước: - Bước 1: Tìm ra tất cả các tập mục phổ biến Một tập mục phổ... việc lựa chọn thuộc tính phân loại 2 Làm việc với dữ liệu bị thiếu Thuật tốn vừa xây dựng dựa vào giả thuyết tất cả các mẫu dữ liệu có đủ các thuộc tính Nhưng trong thực tế, xẩy ra hiện tượng dữ liệu bị thiếu, tức là ở một số mẫu dữ liệu có những thuộc tính khơng được xác định,hoặc mâu thuẫn, hoặc khơng bình thường Ta xem xét kỹ hơn với trường hợp dữ liệu bị thiếu Đơn giản nhất là khơng đưa các mẫu