1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP

48 1,9K 8

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 9,67 MB

Nội dung

MỤC LỤC TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4 1. Giới thiệu về khai phá dữ liệu 4 2. Lịch sử phát triển khai phá dữ liệu 5 3. Tại sao dùng khai phá dữ liệu 6 4. Quá trình khám phá tri thức từ cơ sở dữ liệu 6 5. Khai phá dữ liệu (data mining) 7 6. Các kỹ thuật khai phá dữ liệu 8 6.1. Phân cụm dữ liệu: 9 6.2. Phương pháp hồi quy: 10 6.3. Khai phá luật kết hợp: 10 7. Các quy trình khai phá dữ liệu 12 8. Các hệ thống khai phá dữ liệu (data mining systems) 14 9. Ứng dụng của khai phá dữ liệu 16 KHAI PHÁ LUẬT KẾT HỢP 17 1. Tổng quan về khai phá luật kết hợp 17 1.1. Quá trình khai phá luật kết hợp 17 1.2. Các khái niệm cơ bản 17 1.3. Phân loại luật kết hợp 18 2. Biểu diễn luật luật kết hợp 19 3. Khám phá các luật kết hợp dựa trên ràng buộc 20 TÌM HIỂU MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 21 1. Thuật toán AIS 21 2. Thuật toán SETM 21 3. Thuật toán Apriori 22 3.1. Ý tưởng thuật toán Apriori 22 3.2. Thuật toán Apriori (Pseudo code) 23 3.3. Đặc điểm của thuật toán Apriori 25 3.4. Các cải tiến thuật toán Apriori (Methods to Improve Apriori’s Efficiency) 25 4. Thuật toán FP-growth 26 4.1. Ý tưởng thuật toán 26 4.2. Giải thuật FP-growth 26 4.2.1. Xây dựng cây FP-tree 26 4.2.2. Khám phá frequent itemsets với FP-tree 27 4.3. Đặc điểm của FP-growth 28 KHAI PHÁ LUẬT KẾT HỢP TRONG BÀI TOÁN KHÁM VÀ ĐIỀU TRỊ BỆNH NHÂN NGOẠI TRÚ TẠI PHÒNG KHÁM Y HỌC CỔ TRUYỀN BỆNH VIỆN BÀ RỊA TỈNH BÀ RỊA – VŨNG TÀU 30 1. Cài đặt chương trình: 30 2. Về kỹ thuật: 30 3. Giao diện chương trình: 30 4. Cơ sở dữ liệu: 32 5. Giới thiệu source code của chương trình: 35 5.1. Code project Apriori: 35 5.2. Code project Data Access: Source code truy xuất CSDL bệnh viện Bà Bịa (benhvienbr) 42 6. Hướng dẫn sử dụng: 44 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 1 Khóa luận môn học: Khai phá dữ liệu CÁC TỪ VIẾT TẮC Ký hiệu Diễn giải CSDL Cơ sở dữ liệu KPDL Khai phá dữ liệu KDD Knowledge Discovery and Data Mining CNTT Công nghệ thông tin DB Cơ sở dữ liệu giao tác FP-Growth Frequent parttern tree FP-tree Frequent pattern tree IT-tree Itemset-Tidset tree I Tập các mục dữ liệu ICD Phân loại bệnh tật quốc tế (ICD-10) YHCT Y học cổ truyền Minsup Độ hỗ trợ tối thiểu Minconf Độ tin cậy tối thiểu TID Định danh của giao tác TID_List Danh sách định danh của giao tác T Giao tác k-itemset Một itemset có k items L k Tập phổ biến k-itemsets C k Tập ứng viên k-itemsets kC Tập ứng viên k-itemsets mà tập giao tác có chứa nó. We are data rich, but information poor. “Necessity is the mother of invention”. - Plato Nguyễn Văn Quang - CH1101126 2 Khóa luận môn học: Khai phá dữ liệu LỜI NÓI ĐẦU Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách nhanh chóng. Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu cần lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, y tế, giáo dục, quản lý , trong đó có nhiều cơ sở dữ liệu rất lớn cỡ Gigabyte, thậm chí là Terabyte. Ý nghĩa và vai trò khai phá dữ liệu: công nghệ hiện đại trong lĩnh vực quản lý thông tin, hiện diện khắp nơi và có tính ẫn trong nhiều khía cạnh của đời sống hằng ngày như: làm việc, mua sắm, tìm kiếm thông tin, Được áp dụng trong nhiều ứng dụng thuộc nhiều lĩnh vực khác nhau. Hỗ trợ các nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng. Ngày nay, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực như: Trong kinh doanh (business); trong tài chính (finance) và tiếp thị bán hàng (sales marketing); trong thương mại (commerce) và ngân hàng (bank); trong bảo hiểm (insurance); trong khoa học (science) và y sinh học (biomedicine); trong điều khiển (control) và viễn thông (telecommunication), Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn. Trong nội dung bài tiểu luận này, tôi xin trình bày khái quát bài toán “Tìm hiểu một số thuật toán tìm luật kết hợp. Ứng dụng thuật toán Apriori vào chương trình tìm luật kết hợp tiềm ẫn trong CSDL khám và điều trị bệnh nhân ngoại trú tại phòng khám y học cổ truyền bệnh viện Bà Rịa, tỉnh Bà Rịa – Vũng Tàu” mà tôi đã tìm hiểu được. Vì thời gian có hạn nên trong khoá luận môn học tôi chỉ trình bày chi tiết phần quan trọng nhất, cũng như khó nhất của tiến trình Data Mining. Tôi xin chân thành cảm ơn PGS. TS Đỗ Phúc, giảng viên môn học “Khai phá dữ liệu”, Thầy đã tận tâm đã truyền đạt những kiến thức quý báu về khai phá dữ liệu, một số ứng dụng, và cũng như những hướng nghiên cứu chính trên thế giới hiện nay của nó. Tôi xin chân thành cảm ơn Bác sỹ chuyên khoa 1 Huỳnh Công Trứ phòng khám Đông y bệnh viện Bà Rịa đã hỗ trợ trong quá trình thực nghiệm khai phá dữ liệu của phòng khám.Tôi xin chân thành cảm ơn ban cố vấn học tập và ban quản trị Chương trình đào tạo thạc sĩ Công nghệ của trường Đại Học Công nghệ Thông tin – Đại học Quốc Gia thành phố Hồ Chí Minh đã tạo điều kiện về tài liệu học tập và tham khảo. Nguyễn Văn Quang - CH1101126 3 Khóa luận môn học: Khai phá dữ liệu CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1. Giới thiệu về khai phá dữ liệu Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, y học, khoa học kỹ thuật, đã tạo ra nhiều cơ sở dữ liệu khổng lồ, có thể đơn cử vài ví dụ tiêu biểu như CSDL siêu thị Walmart (Mỹ) chứa hơn 20 triệu giao tác bán hàng; CSDL nhân khẩu Tp. HCM với hơn 7,5 triệu nhân khẩu. Để khai phá hiệu quả nguồn thông tin từ các CSDL lớn hỗ trợ tiến trình ra quyết định, bên cạnh các khai thác thông tin truyền thống, các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và phần mềm mới hỗ trợ tiến trình khám phá, phân tích tổng hợp thông tin. Theo đánh giá của IBM, các phương pháp khai phá thông tin truyền thống chỉ thu được khoảng 80% thông tin từ CSDL, phần còn lại gồm các thông tin mang tính khái quát, thông tin có tính quy luật vẫn còn tiềm ẩn trong dữ liệu. Lượng thông tin này tuy nhỏ nhưng là thông tin cốt lõi và cần thiết cho tiến trình ra quyết định. Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong CSDL. Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ CSDL lớn. Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định. Nguồn dữ liệu phục vụ cho khai phá dữ liệu có thể là các CSDL lớn hay các kho dữ liệu có cấu trúc hoặc không có cấu trúc. KPDL chỉ thực sự phát huy tác dụng trên các CSDL lớn, nơi mà nó có khả năng diễn dịch và trực giác của con người cũng như các kỹ thuật truyền thống không thể thực hiện nỗi hoặc nếu thực hiện được nhưng hiệu quả không cao. Có thể chia khai phá dữ liệu thành hai dạng chính: khai phá dữ liệu (KPDL) theo hướng kiểm tra và KPDL theo hướng khám phá. Trong khai phá dữ liệu theo hướng kiểm tra, người dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắng của giả thiết; KPDL theo hướng kiểm tra bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê,… Ngược lại, KPDL theo hướng khám phá sẽ tìm kiếm các tri thức tiềm ẩn trong CSDL bằng cách tiến hành xem xét tất cả các giả thiết khả dĩ. Do không gian tìm kiếm lớn, nên rất nhiều các heuristic đã được đề xuất nhằm nâng cao hiệu suất của các giải thuật tìm kiếm. Ngày nay, khi công thu thập dữ liệu tự động và công nghệ lưu trữ dữ liệu ngày càng hoàn thiện giúp con người tạo lập và quản lý một lượng dữ liệu khổng lồ trong các CSDL, kho dữ liệu (data Warehouse) thì nhu cầu nắm bắt dữ liệu, trích rút thông tin trở thành cấp thiết và có ý nghĩa. Mặt khác, với nhu cầu ngày càng cao hơn, con người không bằng lòng với những dữ liệu đơn giản thu được từ các kỹ thuật trước đây. Từ nhu cầu về những sự kiện rời rạc trong lĩnh vực ứng dụng, nay phát sinh nhu cầu nắm bắt tri thức về các mối quan hệ giữa Nguyễn Văn Quang - CH1101126 4 Khóa luận môn học: Khai phá dữ liệu chúng, xa hơn nữa là phát hiện những quy luật trong lĩnh vực đó. KPDL ra đời nhằm đáp ứng các nhu cầu cấp thiết đó. 2. Lịch sử phát triển khai phá dữ liệu Chúng ta có thể điểm qua lịch sử phát triển của các kỹ thuật, công nghệ lưu trữ và khai phá dữ liệu như sau: - Những năm 1960: xuất hiện CSDL theo mô hình mạng là mô hình phân cấp. - Những năm 1970: thiết lập nền tảng lý thuyết cho CSDL quan hệ, và các hệ quản trị CSDL quan hệ. - Những năm 1980: hoàn thiện lý thuyết về CSDL quan hệ và các hệ quản trị CSDL quan hệ, xuất hiện các hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, ) và hệ quản trị CSDL hướng ứng dụng trong lĩnh vực không gian, khoa học, công nghiệp, nông nghiệp, địa lý, - Những năm 1990-2000: phát triển khai phá dữ liệu và kho dữ liệu, CSDL đa phương tiện, và CSDL Web. Khai phá dữ liệu là một công đoạn trong tiến trình lớn hơn là khám phá tri thức từ CSDL. KPDL mang tính trực giác, cho phép thu được những hiểu biết rõ ràng và sâu sắc hơn, vượt xa kho dữ liệu, đồng thời giúp phát hiện những xu thế phát triển từ những thông tin quá khứ, cũng như cho phép đề xuất các dự báo mang tính thống kê, gom cụm và phân loại dữ liệu. Kho dữ liệu điễn hình trong những doanh nghiệp cho phép người dùng hỏi và trả lời những câu hỏi như “Doanh số bán ra là bao nhiêu theo khu vực, theo nhân viên bán hàng của quý III năm 2012 ?”. Trong khi đó, KPDL cho phép người ra quyết định kinh doanh và trả lời cho những câu hỏi như là “Ai là khách hàng chính yếu của công ty đối với mặt hàng cụ thể” hoặc “Dòng sản phẩm nào sẽ bán trong khu vực này và ai sẽ mua chúng, dựa vào việc bán những sản phẩm tương tự ở khu vực đó”. Vị trí của KPDL được thể hiện qua sơ đồ (xem hình 1) Nguyễn Văn Quang - CH1101126 5 Hình 1: Vị trí khai phá dữ liệu Khóa luận môn học: Khai phá dữ liệu 3. Tại sao dùng khai phá dữ liệu Khai phá dữ liệu là cần thiết đối với người dùng vì những lý do sau: - Ngày càng có nhiều dữ liệu được lưu trữ trong các CSDL, kho dữ liệu và hình thành một “mỏ vàng dữ liệu” chứa đầy các thông tin chiến lược mà hệ quản trị CSDL thông thường không thể phát hiện và quản trị được chúng. - CSDL phát triển rất nhanh cả về kích thước lẫn số lượng, không xét những thông tin mang tính sự kiện được lưu trữ trong CSDL, những thông tin này được suy diễn từ nó cũng hết sức thú vị. Tuy nhiên với các quan hệ có số lượng khổng lồ các bản ghi (record) và có nhiều trường (feild), việc duyệt hàng triệu bảng ghi hay hàng trăm trường tin để tìm ra các mẫu và các quy luật là một thách thức và trở ngại thật sự đối với các nhà phân tích dữ liệu. - Không phải người nào cũng là nhà thống kê hay nhà phân tích dữ liệu chuyên nghiệp. - Sử dụng các trường hợp tìm kiếm nhưng chưa xác lập rõ hoặc chưa mô tả được các điều kiện tìm kiếm. Nếu người dùng biết họ đang tìm kiếm gì thì dùngSQL, nhưng nếu người dùng chỉ có một ý tưởng không rõ ràng, hoặc một cảm nhận nào đó thì họ nên dùng khai phá dữ liệu. Khai phá dữ liệu là một công cụ hiệu quả trong các lĩnh vực: - Sử dụng dữ liệu để xây dựng các mô hình dự báo: o Khả năng dự báo tiềm ẩn trong dữ liệu. o Gợi ý về các chiều và các nhóm dữ liệu có khả năng chứa các tri thức hữu ích. - Tóm tắc và báo cáo rõ ràng: o Tự động tìm những phân đoạn trong dữ liệu. o Tìm ra những phân đoạn mà nhà phân tích chưa biết hoặc có hiểu biết chưa tường tận. - Cung cấp cơ chế hỗ trợ ra quyết định: o Dự báo. o Mô hình hóa. 4. Quá trình khám phá tri thức từ cơ sở dữ liệu Quá trình khám phá tri thức là một chuỗi lặp có thể chia thành các bước như sau: - Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu và các dữ liệu không cần thiết. - Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing). - Chọn lựa dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), .v.v. Nguyễn Văn Quang - CH1101126 6 Khóa luận môn học: Khai phá dữ liệu - Chuyển đổi dữ liệu (data transformation): các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý. - Khai phá dữ liệu (data mining): là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu. - Đánh giá mẫu (pattern evaluation): là quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó. - Biểu diễn tri thức (Knowledge presentation): là quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng. (xem hình 2) 5. Khai phá dữ liệu (data mining) Khai phá dữ liệu là một quá trình trích xuất tri thức từ lượng lớn dữ liệu. Một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu. Các thuật ngữ thường được dùng: knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence. Lượng lớn dữ liệu sẵn có để khai phá: bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc. Dữ liệu được lưu trữ gồm: các tập tin truyền thống (flat files); các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ đối tượng (object relational databases); các cơ sở dữ liệu giao tác (transactional databases) hay kho dữ liệu (data warehouses); các cơ sở dữ liệu hướng ứng dụng như: cơ sở dữ liệu không gian (spatial databases), cơ sở dữ liệu thời gian (temporal databases), cơ sở dữ liệu không thời gian (spatio-temporal databases), cơ sở dữ liệu chuỗi thời gian Nguyễn Văn Quang - CH1101126 7 Hình 2. Quá trình khai phá dữ liệu Khóa luận môn học: Khai phá dữ liệu (time series databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases); các kho thông tin: the World Wide Web. Tri thức đạt được từ quá trình khai phá: mô tả lớp haykhái niệm; mẫu thường xuyên, các mối quan hệ kết hợp hay tương quan; mô hình phân loại và dự đoán; mô hình gom cụm; các phần tử biên. Xu hướng hay mức độ thường xuyên của các đối tượng có hành vi thay đổi theo thời gian. Tri thức đạt được có thể có: tính mô tả hay dự đoán tùy thuộc vào quá trình khai phá cụ thể; cấu trúc, bán cấu trúc, hoặc phi cấu trúc; có thể được hay không được người dùng quan tâm cho ra kết quả các độ đo đánh giá tri thức đạt được; có thể được dùng trong việc hỗ trợ ra quyết định, điều khiển quy trình, quản lý thông tin, xử lý truy vấn, Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ. Khai phá dữ liệu và công nghệ cơ sở dữ liệu: - Khả năng đóng góp của công nghệ cơ sở dữ liệu là: công nghệ cơ sở dữ liệu cho việc quản lý dữ liệu được khai phá. Các hệ cơ sở dữ liệu có khả năng xử lý hiệu quả lượng lớn dữ liệu với các cơ chế phân trang (paging) và hoán chuyển (swapping) dữ liệu vào hay ra bộ nhớ chính. Các hệ cơ sở dữ liệu hiện đại có khả năng xử lý nhiều loại dữ liệu phức tạp (spatial, temporal, spatiotemporal, multimedia, text, Web, …). Các chức năng khác (xử lý đồng thời, bảo mật, hiệu năng, tối ưu hóa, …) của các hệ cơ sở dữ liệu đã được phát triển tốt. - Thực trạng đóng góp của công nghệ cơ sở dữ liệu là: các hệ quản trị cơ sở dữ liệu (DBMS) hỗ trợ khai phá dữ liệu như: Oracle Data Mining (Oracle 9i, 10g, 11g, 11gR2), các công cụ khai phá dữ liệu của Microsoft (MS SQL Server 2000, 2005, 2008, 2012), Intelligent Miner (IBM). Các hệ cơ sở dữ liệu qui nạp (inductive database) hỗ trợ khám phá tri thức. Chuẩn SQL/MM 6: Data Mining của ISO/IEC 13249 - 6:2006 hỗ trợ khai phá dữ liệu. Đặc tả giao diện SQL cho các ứng dụng và dịch vụ khai phá dữ liệu từ các cơ sở dữ liệu quan hệ. 6. Các kỹ thuật khai phá dữ liệu - Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trên cơ sở dữ liệu hiện có. Các kỹ thuật này gồm có: Gom nhóm (clustering), tóm tắt (summerization), trực quan hóa visualiztation), phân tích sự phát triển và độ lệch (evolution and deviation analyst), phân tích luật kết hợp (association rules), - Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy (regession), (Hình 3) Nguyễn Văn Quang - CH1101126 8 Khóa luận môn học: Khai phá dữ liệu Tuy nhiên, chỉ có một số phương pháp thông dụng nhất là: phân cụm dữ liệu, phân lớp dữ liệu, phương pháp hồi quy và khai phá luật kết hợp 6.1. Phân cụm dữ liệu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng (Hình 4). a) Phân lớp dữ liệu: Nguyễn Văn Quang - CH1101126 9 Hình 3. Các kỹ thuật khai phá dữ liệu Hình 4. Phân cụm dữ liệu Khóa luận môn học: Khai phá dữ liệu Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình phân lớp dữ liệu thường gồm hai bước: - Bước 1: Một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính lớp. Các lớp dữ liệu này còn được gọi là lớp dữ liệu huấn luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình. - Bước 2: Sử dụng mô hình để phân lớp dữ liệu. Trước hết, chúng ta phải tính độ chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. (Hình 5) 6.2. Phương pháp hồi quy: Phương pháp hồi quy khác với phân lớp dữ liệu ở chỗ: hồi quy dùng để dự đoán về các giá trị liên tục còn phân lớp dữ liệu chỉ dùng để dự đoán về các giá trị rời rạc. Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực. Có rất nhiều ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy, ví dụ như: khả năng đánh giá tử vong của bệnh nhân khi biết các kết quả xét nghiệm; chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo. 6.3. Khai phá luật kết hợp: Phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là luật kết hợp tìm được. Chẳng hạn, phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau: “Máy tính=>Phần mềm quản lý tài chính” (Độ hỗ trợ: 2%, độ tin cậy: 60%) Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật. Nguyễn Văn Quang - CH1101126 10 Hình 5. Phân lớp dữ liệu [...]... các luật (rules or frequent itemsets) Không gian dữ liệu được thu hẹp càng sớm càng tốt Nguyễn Văn Quang - CH1101126 20 Khóa luận môn học: Khai phá dữ liệu CHƯƠNG 3 TÌM HIỂU MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 1 Thuật toán AIS Thuật toán do Agrwal đề nghị năm 1993 Thuật toán này chú trọng khai phá luật kết hợp có dạng XàY, với Y là tập hợp chỉ bao gồm 1 tính chất (tập hợp 1 phần tử) Thuật toán tìm. .. Khai phá dữ liệu CHƯƠNG 2 KHAI PHÁ LUẬT KẾT HỢP 1 Tổng quan về khai phá luật kết hợp Luật kết hợp được giới thiệu lần đầu tiên vào năm 1993 Luật kết hợp là một trong những kỹ thuật được nghiên cứu tốt nhất cũng như quan trọng nhất trong việc khai phá dữ liệu Nó tìm ra những mối liên hệ giữa các trường mô tả đối tượng trong CSDL và xây dựng thành các luật cụ thể Luật kết hợp là tri thức quan trọng nhất... rule) là luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold Ví dụ: cho luật kết hợp AàB giữa A và B, A và B là itemsets AàB là strong association rule iff support(AàB) >= minimum support threshold và confidence(AàB) >= minimum confidence threshold 1.3 Phân loại luật kết hợp Luật kết hợp luận lý (Boolean association rule): luật liên quan đến mối kết hợp giữa... dịch.Thể hiện mối liên hệ giữa các phần tử hay các tập phần tử Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần tử Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử Ví dụ cho A và B là các tập phần tử, luật kết hợp giữa A và B là A à B B xuất hiện trong điều kiện A xuất hiện Hỗ trợ (Support): là độ đo đo tần số xuất hiện của các phần tử hay tập phần tử Ngưỡng hỗ trợ tối thiểu (Minimum... k-itemset (itemsets gồm k items) được dùng để tìm (k+1)- itemset Đầu tiên tìm 1-itemset (ký hiệu L1) L1 được dùng để tìm L2 (2itemsets) L2 được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi không có k-itemset được tìm thấy - Từ frequent itemsets sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa mãn 2 tham số min_sup và min_conf) Các bước thực hiện thuật toán: - Bước 1 Duyệt (Scan) toàn bộ transaction... Lk ; Thuật toán được áp dụng tỏ ra thành công cho cơ sở dữ liệu của các công ty bán lẻ hàng hóa và đã tìm ra các luật kết hợp đề cập đến mối quan hệ giữa hành vi ứng xử mua hàng của khách hàng với 63 gian hàng của công ty, sau khi nghiên cứu 46.873 giao dịch mua hàng 2 Thuật toán SETM Thuật toán do Houtsma đề nghị năm 1995 Thuật toán này cũng sử dụng kỹ thuật bổ sung dần dần từng phần tử (từ tập hợp. .. tập hợp các items, một itemset có k items gọi là k-itemset Giao dịch (Transaction): là lần thực hiện tương tác với hệ thống (ví dụ: giao dịch “khách hàng mua hàng”) Liên hệ với một tập T gồm các phần tử được giao dịch Nguyễn Văn Quang - CH1101126 17 Khóa luận môn học: Khai phá dữ liệu Sự kết hợp (Association) và luật kết hợp (association rule): là sự kết hợp các phần tử cùng xuất hiện với nhau trong một. .. chúng ta có thể tìm ra các mối quan hệ giữa các cặp thuộc tính – giá trị thuộc tính Một luật kết hợp tiêu biểu: Ví dụ: “78% khách hàng mà mua sữa hộp Vinamilk thì mua trà Lipton Các công ty thành công thường tìm kiếm những luật như vậy để biết được xu hướng của thị trường, từ đó đưa ra những chương trình và chiến lược nhập hàng và bố trí các mặt hàng,….phù hợp 1.1 Quá trình khai phá luật kết hợp Ví dụ:... tập ứng cử viên cho “chức vụ” tập hợp xuất hiện σ – thường xuyên Với cách đánh số thứ tự từ điển cho từng tính chất, việc bổ sung phần tử cho tập ứng cử viên tránh được trùng lặp, do vậy tiết kiệm tối đa thời gian tính toán Số lượng các tập ứng cử viên quá nhiều có thể gây ra hiện tượng tràn bộ nhớ Thuật toán đề nghị một phương án quản lý bộ nhớ hợp lý đề phòng trường hợp này: không cho phép các ứng... liệu Luật kết hợp đa mức (multilevel association rule): luật liên quan đến các phần tử/thuộc tính ở các mức trừu tượng khác nhau Ví dụ: Age(X, “30 39”) à Buys(X, “laptop computer”) Age(X, “30 39”) à Buys(X, “computer”) Luật kết hợp (Association rule): luật kết hợp mạnh AàB đáp ứng yêu cầu ngưỡng hỗ trợ tối tiểu và ngưỡng tin cây tối tiểu (minimum support threshold và minimum confidence threshold) Luật . ràng buộc 20 TÌM HIỂU MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 21 1. Thuật toán AIS 21 2. Thuật toán SETM 21 3. Thuật toán Apriori 22 3.1. Ý tưởng thuật toán Apriori 22 3.2. Thuật toán Apriori. khai phá luật kết hợp 17 1.1. Quá trình khai phá luật kết hợp 17 1.2. Các khái niệm cơ bản 17 1.3. Phân loại luật kết hợp 18 2. Biểu diễn luật luật kết hợp 19 3. Khám phá các luật kết hợp dựa. dữ liệu CHƯƠNG 2 KHAI PHÁ LUẬT KẾT HỢP 1. Tổng quan về khai phá luật kết hợp Luật kết hợp được giới thiệu lần đầu tiên vào năm 1993. Luật kết hợp là một trong những kỹ thuật được nghiên cứu tốt

Ngày đăng: 10/04/2015, 00:20

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w