giáo trình khai phá dữ liệu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	52
Dung lượng	779,5 KB

Nội dung

Bài giảng Khai phá dữ liệu MỤC LỤC MỤC LỤC 1 CHƯƠNG I. TỔNG QUAN 3 1. Các Khái Niệm Cơ Bản 3 1.1. Khai phá dữ liệu (Data Mining) 3 1.2. Lịch sử phát triển KPDL 4 1.3. Tại sao dùng khai phá dữ liệu 5 2. Các Công Đoạn Khám Phá Tri Thức Từ Cơ Sở Dữ Liệu 6 2.1. Chọn lọc dữ liệu 7 2.2. Làm sạch dữ liệu 7 2.3. Mã hóa dữ liệu 8 2.4. Khai phá dữ liệu 8 2.5. Trình diễn dữ liệu 8 3. Ứng Dụng Của Khai Phá Dữ Liệu 8 3.1. Ngân hàng 8 3.2. Thương mại điện tử 8 3.3. Công nghệ sinh học và dược phẩm 8 3.4. Nhân sự 9 4. Khái Quát Các Kỹ Thuật Khai Phá Dữ Liệu 9 4.1.Khai thác tập phổ biến và luật kết hợp 9 4.2. Khai thác mẫu tuần tự 9 4.3. Phân lớp dữ liệu 9 4.4. Khai thác cụm 10 5. Những Thách Thức Trong Khai Phá Dữ Liệu 10 CHƯƠNG II. TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 11 1. Bài Toán Khai Thác Tập Phổ Biến 11 1.1. Các khái niệm cơ bản 11 1.2. Phát biểu bài toán và độ phức tạp 13 2. Phát Triển Thuật Giải Không Tăng Cường Để Tìm Tập Phổ Biến 13 2.1. Các khái niệm cơ bản 13 2.2. Phát triển thuật toán không tăng cường để tìm tập phổ biến 15 3. Tìm Tập Phổ Biến Tối Đại 18 3.1. Tìm tập phổ biến tối đại bằng đồ thị liên kết các tập phổ biến 18 3.2. Quan hệ giữa bao đóng và tập phổ biến tối đại 19 3.3. Dùng bao đóng để giảm số lượng ứng viên cần tính độ phổ biến 19 1 Bài giảng Khai phá dữ liệu 4. Phát Triển Thuật Giải Tăng Cường Để Tìm Tập Phổ Biến 22 4.1. Các khái niệm cơ bản 22 4.2. Dùng thuật toán tạo dàn khái niệm để tìm tập phổ biến 25 4.3. Duyệt dàn khái niệm tìm tập phổ biến bị đóng 28 4.4. Tìm các tập không phổ biến từ dàn khái niệm 28 5. Phát Triển Thuật Giải Tìm Luật Kết Hợp 29 5.1. Các khái niệm cơ bản 29 5.2. Phát biểu bài toán tìm luật kết hợp 29 CHƯƠNG III. DÃY PHỔ BIẾN 33 1. Dãy Phổ Biến Trong Một Chuỗi 33 1.1. Các khái niệm cơ bản 33 1.2. Dãy phổ biến trong một chuỗi 33 1.3. Các loại episode 33 1.4. Tiếp cận WINEPI 34 1.5. Tần suất 35 1.6. Luật Episode 35 1.7. Thuật toán WINEPI 35 2. Dãy Phổ Biến Trong Nhiều Chuỗi 38 2.1. Bài toán tìm dãy phổ biến trong nhiều chuỗi 38 2.2. Thuật toán AprioriAll 39 CHƯƠNG IV. PHÂN LỚP DỮ LIỆU 43 1. Phân Lớp Quy Nạp Trên Cây Quyết Định 43 2. Phương Pháp Phân Lớp Bayes 47 2.1. Sự phân hoạch và công thức Bayes 47 2.2. Bộ phân lớp Naïve Bayes 47 3. Các Phương Pháp Phân Lớp Khác 49 3.1. Phân lớp bằng mạng nơron lan truyền ngược 49 3.2. Phân lớp dựa trên luật kết hợp 50 3.3. Thuật giải di truyền 50 3.4. Tiếp cận tập thô 50 TÀI LIỆU THAM KHẢO 52 2 Bài giảng Khai phá dữ liệu CHƯƠNG I. TỔNG QUAN Nội dung chương này gồm: • Các khái niệm cơ bản về khai phá dữ liệu. • Các công đoạn khám phá tri thức từ cơ sở dữ liệu. • Ứng dụng và các kỹ thuật của khai phá dữ liệu. 1. Các Khái Niệm Cơ Bản 1.1. Khai phá dữ liệu (Data Mining) Công nghệ thông tin, Internet, Intranet, kho dữ liệu, cùng với công nghệ lưu trữ tiên tiến hiện nay đã tạo điều kiện cho các doanh nghiệp, các tổ chức thu thập và sở hữu được khối lượng thông tin khổng lồ. Để khai thác hiệu quả nguồn thông tin từ các CSDL lớn đó để hỗ trợ cho tiến trình ra quyết định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và phần mềm mới để hỗ trợ tiến trình khám phá, phân tích và tổng hợp thông tin. Theo đánh giá của IBM, các phương pháp khai thác thông tin truyền thống chỉ thu được khoảng 80% thông tin từ CSDL, phần còn lại bao gồm các thông tin mang tính khái quát, thông tin có quy luật vẫn đang còn tiềm ẩn bên trong dữ liệu. Lượng thông tin này tuy nhỏ nhưng là thông tin cốt lõi và cần thiết cho tiến trình ra quyết định. Khai phá dữ liệu (KPDL) là tiến trình khám phá tri thức tiềm ẩn trong CSDL. Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các CSDL lớn. KPDL là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định. Nguồn dữ liệu phục vụ cho KPDL có thể là các CSDL lớn hay các kho dữ liệu có hoặc không có cấu trúc. Nói như vậy không có nghĩa là KPDL không thể thực hiện ở các CSDL nhỏ. KPDL chỉ thực sự phát huy tác dụng trên các CSDL lớn, nơi mà khả năng diễn dịch và trực giác của con người cũng như các kỹ thuật truyền thống không thể thực hiện nổi hoặc nếu thực hiện được thì hiệu quả không cao. Có thể chia KPDL thành 2 dạng chính: 3 Bài giảng Khai phá dữ liệu - KPDL theo hướng kiểm tra: người dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắn của giả thiết (bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê …). - KPDL theo hướng khám phá: tìm kiếm các tri thức tiềm ẩn trong CSDL bằng cách tiến hành xem xét tất cả các giả thiết khả dĩ. Do không gian tìm kiếm lớn, nên rất nhiều heuristic đã được đề xuất nhằm nâng cao hiệu suất của các thuật giải tìm kiếm. Tri thức được rút ra có thể được dùng để: - Giải thích dữ liệu: Cung cấp sự hiểu biết sâu sắc và rất hữu ích về hành vi của các đối tượng, giúp cho các doanh nghiệp hiểu rõ hơn những khách hàng của họ. - Dự báo: dự đoán giá trị của những đối tượng mới. • Khuynh hướng mua hàng của khách hàng. • Xác định rủi ro tín dụng đối với một khách hàng. • Định hướng tập trung nguồn lực của doanh nghiệp. Ngày nay, khi công cụ thu thập dữ liệu tự động và công nghệ lưu trữ dữ liệu ngày càng hoàn thiện giúp con người tạo lập và quản lý một lượng dữ liệu khổng lồ trong các CSDL, kho dữ liệu (data warehouse) thì nhu cầu nắm bắt dữ liệu, trích rút thông tin trở thành cấp thiết và có ý nghĩa. Mặt khác, với nhu cầu ngày càng cao hơn, con người không bằng lòng với những dữ liệu đơn giản thu được từ các kỹ thuật trước đây. Từ nhu cầu về những sự kiện rời rạc trong lĩnh vực ứng dụng, nay phát sinh nhu cầu nắm bắt tri thức về các mối quan hệ giữa chúng, xa hơn nữa là phát hiện những quy luật trong lĩnh vực đó. KPDL ra đời nhằm đáp ứng các nhu cầu cấp thiết đó. 1.2. Lịch sử phát triển KPDL - Thập niên 1960: xuất hiện CSDL theo mô hình mạng và mô hình phân cấp. - Thập niên 1970: thiết lập nền tảng lý thuyết cho CSDL quan hệ, các hệ quản trị CSDL quan hệ. - Thập niên 1980: hoàn thiện lý thuyết về CSDL quan hệ và các hệ quản trị CSDL quan hệ, xuất hiện các hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, …) và hệ quản trị CSDL hướng ứng dụng trong lĩnh vực không gian, khoa học, công nghiệp, nông nghiệp, địa lý, … - Thập niên từ 1990 đến 2000: phát triển KPDL và kho dữ liệu, CSDL đa phương tiện và CSDL web. 4 Bài giảng Khai phá dữ liệu KPDL là một công đoạn trong tiến trình khám phá tri thức từ CSDL (Knowledge Discovery in Database - KDD). KPDL mang tính trực giác, cho phép thu được những hiểu biết rõ ràng và sâu sắc hơn, vượt xa kho dữ liệu. KPDL giúp phát hiện những xu thế phát triển từ những thông tin quá khứ, cũng như cho phép đề xuất các dự báo mang tính thống kê, gom cụm và phân loại dữ liệu. Vị trí của KPDL được thể hiện qua sơ đồ: Hình 1. Vị trí của KPDL. 1.3. Tại sao dùng khai phá dữ liệu KPDL là cần thiết với người dùng vì những lý do sau: - Ngày càng có nhiều dữ liệu được lưu trữ trong các CSDL, kho dữ liệu và hình thành một “mỏ vàng dữ liệu” chứa đầy các thông tin chiến lược mà các hệ quản trị CSDL thông thường không thể phát hiện và quản trị được chúng. - CSDL phát triển rất nhanh cả về kích thước lẫn số lượng. Không xét những thông tin mang tính sự kiện được lưu trữ trong CSDL, những thông tin được suy 5 Tăng khả năng hỗ trợ quyết định kinh doanh Ra quyết định Trình bày dữ liệu Các công cụ trực quan Data Mining Khảo sát dữ liệu Phân tích, thống kê, truy vấn và báo cáo Data Warehouse / Data Marts OLAP , MDA Nguồn dữ liệu Giấy tờ, tập tin, trình cung cấp thông tin, hệ thống CSDL Người dùng Nhà phân tích kinh doanh Nhà phân tích dữ liệu DBA Bài giảng Khai phá dữ liệu diễn từ nó cũng hết sức lý thú. Tuy nhiên, với các quan hệ có số lượng khổng lồ các bản ghi và có quá nhiều trường dữ liệu, việc duyệt hàng triệu bản ghi hay hàng trăm trường tin để tìm ra các mẫu và các quy luật là một thách thức và trở ngại thật sự đối với các nhà phân tích dữ liệu. - Không phải người dùng nào cũng là nhà thống kê hay nhà phân tích dữ liệu chuyên nghiệp. - Sử dụng cho các trường hợp tìm kiếm nhưng chưa xác lập rõ hoặc chưa mô tả được các điều kiện tìm kiếm. Nếu người dùng biết họ đang tìm kiếm gì thì dùng SQL, nhưng nếu người dùng chỉ có một ý tưởng không rõ ràng, hoặc một cảm nhận nào đó thì họ nên dùng KPDL. KPDL là một công cụ hiệu quả trong các lĩnh vực: - Sử dụng dữ liệu để xây dựng các mô hình dự báo: • Khả năng dự báo tiềm ẩn trong dữ liệu. • Gợi ý về các chiều và các nhóm dữ liệu có khả năng chứa các tri thức hữu ích. - Tạo tóm tắt và báo cáo rõ ràng: • Tự động tìm những phân đoạn trong dữ liệu. • Tìm ra những phân đoạn mà nhà phân tích chưa biết hoặc có hiểu biết nhưng chưa rõ ràng. - Cung cấp cơ chế hỗ trợ ra quyết định: • Dự báo. • Mô hình hóa. 2. Các Công Đoạn Khám Phá Tri Thức Từ Cơ Sở Dữ Liệu Tiến trình khám phá tri thức từ CSDL bao gồm 3 công đoạn: - Chuẩn bị dữ liệu • Chọn lọc dữ liệu. • Làm sạch dữ liệu. • Làm giàu dữ liệu. • Mã hóa dữ liệu. - Khai thác dữ liệu - Tường trình, báo cáo kết quả Tại mỗi công đoạn, tiến trình có thể quay lui qua một hay nhiều giai đoạn. Ví dụ, tại giai đoạn khám phá hay mã hóa dữ liệu, tiến trình vẫn có thể quay trở về giai đoạn xóa bỏ dữ liệu, hay có thể quay trở về giai đoạn làm giàu dữ liệu nếu như có được các dữ liệu mới để sử dụng chúng cho việc làm giàu các tập dữ liệu có sẵn. 6 Bài giảng Khai phá dữ liệu 2.1. Chọn lọc dữ liệu Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết từ CSDL tác nghiệp vào một CSDL riêng. Chúng ta chỉ chọn ra những dữ liệu cần thiết cho các giai đoạn sau. Tuy nhiên, công việc thu gom dữ liệu vào một CSDL thường rất khó khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan, tổ chức. Cùng một loại thông tin nhưng được tạo lập theo các dạng thức khác nhau, ví dụ nơi này dùng kiểu chuỗi, nơi kia lại dùng kiểu số để khai báo một thuộc tính nào đó của khách hàng. 2.2. Làm sạch dữ liệu Phần lớn các CSDL đều ít nhiều mang tính không nhất quán. Do vậy, khi KPDL trên các CSDL đó thường không đảm bảo tính đúng đắn. Ví dụ, trong các công ty bảo hiểm nhân thọ thì ngày sinh của khách hàng cần phải thật chính xác, trong khi đó có từ 30% - 40 % thông tin về tuổi khách hàng trong CSDL ngân hàng để trống hoặc chứa dữ liệu sai. Điều này sẽ làm cho chúng ta không thể khám phá ra mô hình về quan hệ tuổi tác. Do đó, trước khi bắt đầu KPDL, chúng ta phải tiến hành xóa bỏ dữ liệu không cần thiết, nói chung nên xóa bỏ dữ liệu sai càng nhiều càng tốt. Trong thực tế, giai đoạn này được thực hiện nhiều lần, vì chỉ tại giai đoạn KPDL mới phát hiện được tính bất thường trong dữ liệu. Có một số loại tiến trình xóa bỏ dữ liệu được thực thi ở mức độ cao trong khi một số loại tiến trình khác chỉ được sử dụng sau khi phát hiện ra lỗi tại giai đoạn mã hóa hay giai đoạn tìm kiếm. a. Chống trùng lặp Dạng lỗi thứ nhất khá quan trọng trong thao tác xóa bỏ dữ liệu đó là xóa bỏ thông tin trùng của các bản ghi. Thao tác này diễn ra khi có những phần thông tin bị trùng do có sai sót trong phần nhập dữ liệu, hoặc thông tin không được cập nhật kịp thời hoặc thông tin được cung cấp bị sai. b. Giới hạn vùng giá trị Dạng lỗi thứ hai thường xảy ra đó là giá trị nằm ngoài miền giá trị cho phép, nghĩa là các thông tin chứa các giá trị không hợp lệ theo một quy tắc nào đó. Dạng lỗi này gây tác hại khá lớn vì rất khó phát hiện, nhưng lại có ảnh hưởng lớn đến dạng thức các mẫu cần tìm khi thực hiện KPDL trên các bảng dữ liệu này. Từ đó sẽ xuất hiện các mâu thuẫn trong các vùng dữ liệu. Để sửa chữa mâu thuẫn, ta dùng giá trị NULL để thay thế vào những thông tin chưa biết trong các trường của bảng và cứ tiến hành sửa chữa các mâu thuẫn. c. Làm giàu dữ liệu 7 Bài giảng Khai phá dữ liệu Mục đích của giai đoạn này là bổ sung thêm nhiều loại thông tin có liên quan vào cơ sở dữ liệu gốc. Để làm được điều này, chúng ta phải có các CSDL khác ở bên ngoài có liên quan đến CSDL gốc ban đầu, ta tiến hành bổ sung những thông tin cần thiết, làm tăng khả năng khám phá tri thức từ CSDL. 2.3. Mã hóa dữ liệu Mục đích của giai đoạn mã hóa là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hóa dữ liệu khác nhau theo từng loại dữ liệu: - Phân vùng: với dữ liệu là giá trị chuỗi, nằm trong tập các chuỗi cố định. - Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với năm hiện hành. - Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn. - Chuyển đổi yes/no thành 0/1. 2.4. Khai phá dữ liệu KPDL là tiến trình “điều chỉnh đúng” các mô hình dữ liệu. Chức năng biến đổi dữ liệu được đưa vào bước này với mục đích để trình diễn dữ liệu. 2.5. Trình diễn dữ liệu Là quá trình giải thích và hiển thị trực quan các kết quả KPDL để hỗ trợ việc định giá chất lượng dữ liệu, đánh giá mô hình dữ liệu được lựa chọn có phù hợp hay không, và thể hiện mô hình. Mỗi bước (trừ bước lưu trữ dữ liệu) cho phép tương tác người dùng và một số bước có thể được thực hiện hoàn toàn thủ công. 3. Ứng Dụng Của Khai Phá Dữ Liệu 3.1. Ngân hàng - Xây dựng mô hình dự báo rủi ro tín dụng. - Tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản. 3.2. Thương mại điện tử - Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng. - Phân tích khách hàng duyệt web. - Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng trong một phân khu thị trường nhất định. 3.3. Công nghệ sinh học và dược phẩm Xây dựng công cụ KPDL trực quan cho phép phát hiện sự hiện diện của dược chất, phân tích dữ liệu di truyền. 8 Bài giảng Khai phá dữ liệu 3.4. Nhân sự - Giúp nhà tuyển dụng chọn ứng viên thích hợp nhất theo nhu cầu của công ty. - Phát hiện giả mạo thẻ trong lĩnh vực viễn thông. - Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho dịch vụ quản lý rủi ro cho thương mại điện tử. - Phát hiện xâm nhập mạng trái phép. 4. Khái Quát Các Kỹ Thuật Khai Phá Dữ Liệu 4.1.Khai thác tập phổ biến và luật kết hợp Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng. Một luật kết hợp X → Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng thời tập Y. Ví dụ, trong CSDL bán hàng, có một luật kết hợp tiêu biểu như sau: “Có 67% khách hàng mua bia 333, rượu Nàng Hương thì mua bánh tôm Cầu Tre”. Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lý khách hàng, từ đó đưa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồn kho, … 4.2. Khai thác mẫu tuần tự Là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian. Một luật mô tả tuần tự có dạng tiêu biểu X → Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Một luật thể hiện mẫu tuần tự tiêu biểu: “Có 80% khách hàng mua Áo thun Việt Tiến, mua bóng Động Lực thì sau 3 ngày mua quần Việt Tiến”. Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triển hành vi của đối tượng. 4.3. Phân lớp dữ liệu Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Các luật phân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát 9 Bài giảng Khai phá dữ liệu triển. Áp dụng vào tiến trình phân lớp dữ liệu khách hàng trong CSDL có thể xây dựng các luật phân lớp khách hàng. Một luật phân lớp có dạng tiêu biểu như sau: “Nếu khách hàng ở khu vực 1 và có doanh số năm trước > 200 triệu và có cửa hàng ở khu thị tứ thì thuộc loại khách hàng có thể giao hàng trước trả tiền sau”. 4.4. Khai thác cụm Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là cực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu. Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng gom cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát tổng kết nhanh chóng nội dung của khối dữ liệu lớn. 5. Những Thách Thức Trong Khai Phá Dữ Liệu KPDL phải làm việc với khối lượng dữ liệu lớn và do từ nhiều nguồn khác nhau (CSDL, Internet, các loại thiết bị thu nhận tín hiệu, …) nên vấn đề tốc độ xử lý là vấn đề cần quan tâm trước nhất. Có hai phương hướng để giải quyết vấn đề này là nâng cao năng lực của phần cứng và cải tiến phần mềm, trong đó việc nghiên cứu đề xuất các thuật toán hiệu quả có khả năng làm việc trên khối lượng dữ liệu lớn, và có độ phức tạp tính toán thấp là một hướng nghiên cứu đầy tiềm năng. Từ nhu cầu thực tế trên, gần đây đã xuất hiện nhiều ngành khoa học công nghệ hỗ trợ KPDL như tính toán song song, máy tính tương tự, công nghệ nano, … 10 [...]... cho Bài 4: Cho bảng dữ liệu: TID 100 ITEMS M1, M2, M5 30 Bài giảng Khai phá dữ liệu 200 300 400 500 600 700 800 900 M2, M4 M2, M3 M1, M2, M4 M1, M3 M2, M3 M1, M3 M1, M2, M3, M5 M1, M2, M3 a Tìm các tập phổ biến với minsupp = 0.22 b Liệt kê tất cả các tập phổ biến tối đại và tập phổ biến bị đóng c Tìm tất cả các luật kết hợp thỏa mãn • Minconf = 0.5 • Minconf = 0.7 Bài 5: Cho bảng dữ liệu: với minsupp... minsupp Bài 6: Cho bảng dữ liệu: với minsupp = 0.3 và minconf = 0.7 TID 100 200 300 400 500 600 700 800 900 ITEMS A, C, E, G A, B, C, D, H A, B, C, D A, C, D, E A, B, C, F A, D, E, H A, B, C, D, F C, D, E, G A, C, D, F a Tìm các tập phổ biến 31 Bài giảng Khai phá dữ liệu b Liệt kê tất cả các tập phổ biến tối đại c Tìm tất cả các luật kết hợp thỏa mãn minconf và minsupp Bài 7: Cho bảng dữ liệu: với minsupp... giảng Khai phá dữ liệu A B A A C B Episode tuần tự B Episode song song Episode vừa tuần tự vừa song song 1.4 Tiếp cận WINEPI Cửa sổ trượt là một cửa sổ được trượt qua chuỗi dữ liệu các sự kiện Một cửa sổ là một “khe” và tạo ra một bản ghi trong CSDL Ví dụ: D 10 0 C 20 A 30 B 40 D 50 A 60 B 70 C 80 A D C A B D A 90 100 110 120 130 140 150 Bề rộng cửa sổ là 40 giây Các cửa sổ trượt sẽ tạo ra bảng dữ liệu. .. không phổ biến (X,S) thì các tập Sp sao cho S ⊆ Sp sẽ là các tập không phổ biến theo ngưỡng minsupp Với bảng dữ liệu số 3 và ngưỡng là 0.78 thì {i1, i2, i3} là một khái niệm không phổ biến nên tập mặt hàng {i1, i2, i3} và các tập có chứa nó đều là tập không phổ biến 28 Bài giảng Khai phá dữ liệu 5 Phát Triển Thuật Giải Tìm Luật Kết Hợp 5.1 Các khái niệm cơ bản * Định nghĩa 17: Luật kết hợp Cho ngữ cảnh... kết hợp thỏa mãn minconf và minsupp Bài 8: Cho bảng dữ liệu: với minsupp = 0.6 và minconf = 0.8 TID 100 200 300 400 500 600 700 800 900 ITEMS A, B, E B, D B, C A, B, D A, C B, C A, C A, B, C, E A, B, C a Tìm các tập phổ biến b Liệt kê tất cả các tập phổ biến tối đại c Tìm tất cả các luật kết hợp thỏa mãn minconf và minsupp 32 Bài giảng Khai phá dữ liệu CHƯƠNG III DÃY PHỔ BIẾN Nội dung chương này gồm:...Bài giảng Khai phá dữ liệu CHƯƠNG II TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Nội dung chương này gồm: • Các khái niệm cơ bản về luật kết hợp • Thuật toán Apriori, tìm tập phổ biến tối đại • Tìm luật kết hợp 1 Bài Toán Khai Thác Tập Phổ Biến 1.1 Các khái niệm cơ bản * Định nghĩa 1: Ngữ cảnh KPDL Cho tập O là tập hữu hạn... {i3, i4, i5, i6, i8} o6 = {i1, i4, i5} a Tìm ngữ cảnh khai thác dữ liệu được tạo từ I, O b Tìm tất cả các tập phổ biến theo ngưỡng minsupp=0,3 c Tìm tất cả các tập phổ biến tối đại theo ngưỡng minsupp=0,3 d Tìm tất cả các luật kết hợp hợp lệ theo ngưỡng minsupp=0,3 và ngưỡng minconf=1 được tạo từ các tập phổ biến tối đại của câu 2c Bài 3: Cho bảng dữ liệu với minsupp = 0.5 và minconf = 0.8 TID 100 200... i4}) = SPV(v({i2, i3, i4})) = 2/5 = 0.4 (tập phổ biến) - F4 = { {i1, i2, i3, i4} } vì: • {i1, i2, i3, i4} , v({i1, i2, i3, i4}) = v({i1, i2, i3}) ⊗ v({i2, i3, i4}) = (0, 0, 0, 0, 0) 17 Bài giảng Khai phá dữ liệu SP({i1, i2, i3, i4}) = SPV(v({i1, i2, i3, i4})) = 0/5 = 0.0 (không phải tập phổ biến) Vậy: FS(O,I,R,minsupp = 0.4) = F1 ∪ F2 ∪ F3 = { {i1} , {i2} , {i3} , {i4} , {i1, i2} , {i1, i3} , {i2, i3}... biến tối đại phải là tập phổ biến theo ngưỡng minsupp {i1, i2, i3} {i1, i2} {i1} {i2, i3, i4} {i1, i3} {i2, i3} {i2} {i2, i4} {i3} Hình 2 Đồ thị liên kết các tập phổ biến {i3, i4} {i4} 18 Bài giảng Khai phá dữ liệu 3.2 Quan hệ giữa bao đóng và tập phổ biến tối đại * Định nghĩa 11: Hàm đóng Cho tập hợp O, hàm c: P(O) → P(O) là một hàm đóng trên P(O) nếu với mọi X, Y ∈ P(O), hàm c thỏa các tính chất sau:... đóng của ngữ cảnh KPDL (O,I,R) Thuật toán 7: Tính các tập phổ biến dựa trên bao đóng - Vào: Ngữ cảnh KPDL (O,I,R) và ngưỡng minsupp ∈ (0,1] - Ra: FS(O,I,R,minsupp) Các bước thuật toán: 19 Bài giảng Khai phá dữ liệu 1 CL(O,I,R,minsupp) = F1 = ∅ 2 For (each i ∈ I) do If SP({i}) ≥ minsupp then F1 = F1 ∪ {i} Tính h({i}) và ghi h({i}) vào F|h({i})| và vào CL(O,I,R,minsupp) Endif Endfor 3 For (k = 2; Fk-1 ≠ . Khám Phá Tri Thức Từ Cơ Sở Dữ Liệu 6 2.1. Chọn lọc dữ liệu 7 2.2. Làm sạch dữ liệu 7 2.3. Mã hóa dữ liệu 8 2.4. Khai phá dữ liệu 8 2.5. Trình diễn dữ liệu 8 3. Ứng Dụng Của Khai Phá Dữ Liệu 8 3.1 Cơ Sở Dữ Liệu Tiến trình khám phá tri thức từ CSDL bao gồm 3 công đoạn: - Chuẩn bị dữ liệu • Chọn lọc dữ liệu. • Làm sạch dữ liệu. • Làm giàu dữ liệu. • Mã hóa dữ liệu. - Khai thác dữ liệu -. 0/1. 2.4. Khai phá dữ liệu KPDL là tiến trình “điều chỉnh đúng” các mô hình dữ liệu. Chức năng biến đổi dữ liệu được đưa vào bước này với mục đích để trình diễn dữ liệu. 2.5. Trình diễn dữ liệu Là

Ngày đăng: 01/07/2014, 12:28

Xem thêm