Tiểu luận Công nghệ tri thức và ứng dụng Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp

Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Bài thu hoạch môn học Công nghệ tri thức Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp GVHD môn học: GS.TSKH. Hoàng Kiếm Học viên thực hiện: Đặng Thị Thanh Châu MSHV: CH1201005 Tp. HCM, Tháng 10/2014 Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 1 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp MỤC LỤC MỤC LỤC 2 LỜI GIỚI THIỆU 3 Chương 1: Tổng quan về Data Mining 4 1.1 Data Mining là gì: 4 1.2. Các phương pháp khai phá trong Data Mining: 5 1.2.1. Phân lớp và dự đoán (Classification & Prediction) 5 1.2.2. Hồi quy (Regression) 6 1.2.3. Time Series Analysis (Phân tích chuỗi thời gian) 6 1.2.4. Prediction (Dự đoán) 6 1.2.5. Clustering (Gom nhóm) 6 1.2.6. Summarization (Tổng quát hóa) 7 1.2.7. Luật kết hợp (Association Rules): 7 1.3. Các ứng dụng của Data Mining: 7 1.4. Kết luận: 8 Chương 2: Thuật toán Apriori trong khai phá dữ liệu luật kết hợp 9 2.1. Khái niệm luật kết hợp: 9 2.2. Thuật toán Apriori: 11 2.3. Kết luận: 15 Chương 3: Ứng dụng Khai phá luật kết hợp với Microsoft Association Rule 16 3.1. Mô tả công cụ và CSDL dùng để khai phá luật kết hợp: 16 3.2 Qui trình xây dựng mô hình khai phá dữ liệu với BIDS như sau: 19 3.2.1 Tạo mới 1 project (Analysis Services Project) 19 3.2.2 Tạo Data Source kết nối đến CSDL AdventureWorksDW 19 3.2.3 Tạo một Data Source View: 20 3.2.4 Tạo một Mining Model structure 20 3.3. Kết luận: 25 TÀI LIỆU THAM KHẢO 26 Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 2 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp LỜI GIỚI THIỆU Cùng với sự phát triển nhanh chóng, vượt bậc của ngành công nghiệp máy tính, nhu cầu của người dùng đối với máy tính ngày một cao hơn. Do đó, người dùng không chỉ giải quyết những công việc lưu trữ, tính toán bình thường, mà còn mong đợi máy tính có khả năng thông minh hơn, có thể giải quyết vấn đề như con người. Và từ đó trí tuệ nhân tạo nói chung và đặc biệt là công nghệ tri thức ra đời và phát triển. Công nghệ tri thức đóng vai trò hết sức quan trọng trong việc phát triển Công nghệ thông tin, nâng cao sự hữu dụng của máy tính, làm cho máy tính có khả năng tiếp nhận, giải quyết vấn đề giống như con người, thậm chí hơn cả con người Hướng nghiên cứu và phát triển của công nghệ tri thức bao gồm: - Quản lý tri thức (knowledge management): bao gồm tiếp nhận, biểu diễn và tối ưu hóa cơ sở tri thức… - Các hệ cơ sở tri thức (knowledge-based systems): tìm hiểu cấu trúc bên trong của một hệ cơ sở tri thức, phân loại các hệ cơ sở tri thức, và một số hệ cơ sở tri thức điển hình. - Khai mỏ dữ liệu, khám phá tri thức (Data mining, knowledge discovery): nghiên cứu về phương pháp, kỹ thuật để khai mỏ dữ liệu và khám phá tri thức. …………… Do lĩnh vực nghiên cứu về Công nghệ tri thức rất rộng và sâu, nên bài tiểu luận môn học của em chỉ đề cập nghiên cứu theo hướng khám phá Công nghệ tri thức về Khai phá dữ liệu (Data Mining). Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 3 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Chương 1: Tổng quan về Data Mining 1.1 Data Mining là gì: Data Mining (khai phá dữ liệu) là một khái niệm mô tả quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong các nguồn dữ liệu lớn, đã có. Data Mining là một bước của tiến trình KDD (Knowledge discovery in databases), nhằm: - Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn - Phân tích dữ liệu bán tự động - Giải thích dữ liệu trên các tập dữ liệu lớn Một tiến trình KDD là một chuỗi lặp gồm các bước: 1) Data cleaning & intergration (làm sạch dữ liệu, tích hợp dữ liệu) 2) Selection & transformation (chọn lựa dữ liệu, biến đổi dữ liệu) 3) Data Mining (khai phá dữ liệu) 4) Evaluation & presentation (đánh giá kết quả mẫu, biểu diễn tri thức). Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 4 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Bắt đầu của quá trình KDD là kho dữ liệu thô và kết thúc của quá trình là kết xuất ra tri thức từ kho dữ liệu mà trong đó khai phá dữ liệu là bài toán quan trọng nhất. 1.2. Các phương pháp khai phá trong Data Mining: Thông thường, các bài toán trong Data Mining có thể đưa về 2 nhóm chính: Các bài toán mang tính dự đoán (Predictive): đưa ra các dự đoán dựa vào các suy diễn trong cơ sở dữ liệu mẫu, gồm các phương pháp: - Classification (Phân lớp) - Regression (Hồi qui) - Time Series Analysis (Phân tích chuỗi thời gian) - Prediction (Dự đoán) Các bài toán mang tính mô tả (Description): đưa ra các tính chất chung nhất của dữ liệu trong cơ sở dữ liệu mẫu , gồm các phương pháp: - Clustering (Phân cụm) - Summarization (Tổng quát hóa) - Association Rule (Luật kết hợp) - Sequence Discovery ( Khám phá tuần tự) Tuỳ theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp. 1.2.1. Phân lớp và dự đoán (Classification & Prediction) Là đặt các mẫu vào các lớp được xác định trước. Nhiệm vụ chính là tìm các hàm ánh xạ các mẫu dữ liệu một cách chính xác vào trong các lớp.Ví dụ một Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 5 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp ngân hàng muốn phân loại các khách hành của họ vào trong hai nhóm có nợ hay không nợ, từ đó giúp họ ra quyết định cho vay hay không cho vay. Trong kỹ thuật phân lớp chúng ta có thể sử dụng các phương pháp như: Cây quyết định (Decision Tree), K-Láng giềng gần nhất (k-Nearest Neighbor), Mạng Nơron (Neural networks), Giải thuật di truyền (Genetic algorithms), Mạng Bayesian(Bayesian networks), Tập mờ và tập thô (Rough and Fuzzy Sets),… 1.2.2. Hồi quy (Regression) Hồi quy là việc đưa một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không rời rạc. Việc dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển chẳng hạn như hồi quy tuyến tính. 1.2.3. Time Series Analysis (Phân tích chuỗi thời gian) Dựa trên việc phân tích chuỗi quan sát của một biến duy nhất theo biến số độc lập là thời gian. Phương pháp dự báo theo chuỗi thời gian là một phương pháp định lượng, sử dụng những dữ liệu quá khứ theo thời gian, dựa trên dữ liệu lịch sử để phát hiện chiều hướng vận động của đối tượng phù hợp với một mô hình bài toán nào đó và đồng thời sử dụng mô hình đó làm mô hình ước lượng. Tiếp cận định lượng dựa trên giả định rằng giá trị tương lai của biến số dự báo sẽ phụ thuộc vào xu thế vận động của đối tượng đó trong quá khứ. 1.2.4. Prediction (Dự đoán) Với mô hình học tương tự như bài toán phân lớp, lớp bài toán dự đoán sẽ lọc ra các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán. Bài toán tiêu biểu trong nhóm này là dự đoán giá sản phẩm để lập kế hoạch trong kinh doanh. 1.2.5. Clustering (Gom nhóm) Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 6 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp nằm trong các nhóm khác nhau là nhỏ nhất. Một đối tượng có thể vừa thuộc nhóm này, nhưng cũng có thể vừa thuộc nhóm khác. Phân nhóm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, … Ngoài ra phân nhóm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các bài toán khai phá dữ liệu khác. 1.2.6. Summarization (Tổng quát hóa) Kỹ thuật mô tả khái niệm và tổng quát hóa thường áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động. Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp. Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục của một lớp. 1.2.7. Luật kết hợp (Association Rules): Luật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản. Các giải thuật tìm luật kết hợp tìm kiếm các mối liên kết giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường được mua kèm với nhau trong siêu thị. Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa. Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định. Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ CSDL tác nghiệp, là một trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu. 1.3. Các ứng dụng của Data Mining: Data Mining liên quan chặt chẽ đến các lĩnh vực sau: - Statistics (Thống kê): Kiểm định model và đánh giá tri thức phát hiện được - Machine Learning (Máy học): Nghiên cứu xây dựng các giải thuật trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận (dự đoán) kết quả - Databases (Cơ sở dữ liệu): Công nghệ quản trị dữ liệu nhất là kho dữ liệu - Visualization (Trực quan hóa): Giúp dữ liệu dễ hiểu, dễ sử dụng như chart, map Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 7 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Do đó, Data Mining có nhiều ứng dụng trong thực tế, như: - Tài chính và thị trường chứng khoán (Finance & stock market): Phân tích tình hình tài chính và dự đoán giá cổ phiếu. - Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định - Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, thời gian ) - Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố. - Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn bản, - Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền, - Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lượng dịch vụ, 1.4. Kết luận: Khám phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực. Tuy đã có rất nhiều các giải pháp và phương pháp được ứng dụng trong khai phá dữ liệu nhưng trên thực tế quá trình này vẫn gặp không ít khó khăn và thách thức như: - Cơ sở dữ liệu lớn - Số chiều các thuộc tính lớn Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 8 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp - Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp - Dữ liệu bị thiếu hoặc bị nhiễu - Quan hệ giữa các trường phức tạp - Giao tiếp với người sử dụng và kết hợp với các tri thức đã có - Tích hợp với các hệ thống khác Chương 2: Thuật toán Apriori trong khai phá dữ liệu luật kết hợp 2.1. Khái niệm luật kết hợp: Cho I = {i 1 , i 2 ,…, i n } là tập hợp các trường gọi là items. Gọi D: tập các giao tác, có các giao tác T i mà T i ⊆ I. T chứa X nếu X ⊆T ( X là tập có các phần tử ⊆ I). Luật kết hợp là tìm ra mối liên hệ điều kiện giữa các items. Những luật kết hợp này có dạng X =>Y ( nếu X ⊆ I, Y⊆ I và X ∩Y=∅). Với X được gọi là tiền đề, Y là mệnh đề kết quả. Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (support) và độ tin cậy (confidence) Luật X=> Y có độ support là s nếu có s% số giao tác trong D có chứa X ∪ Y. Hay là : Sup(X=>Y) = s% = Card(X∪Y)/ Card(D)% Luật X=>Y có độ tin cậy là c (confidence) nếu có c% số giao tác trong D chứa X∪Y so với số giao tác trong D chứa X, khi đó ta có : Conf(X=>Y) = c %= Card(X∪Y)/Card(X)% Tâp các hạng mục dữ liệu gọi là ItemSet có độ support lớn hơn hay bằng giá trị ngưỡng nhỏ nhất (gọi là minsupp) được gọi là Large ItemSet. Các ItemSet còn lại được gọi là các Small ItemSet. Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 9 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Với mỗi một Large ItemSet - L, và A là một tập con khác rỗng của L, nếu tỉ lệ % giữa support(L) so với support(A) >= độ tin cậy nhỏ nhất (gọi là minconf) thì ta có luật kết hợp A => (L\A). Luật kết hợp X→Y được coi là một tri thức (mẫu có giá trị) nếu xảy ra đồng thời supp(X→Y) ≥ minsup và conf(X→Y) ≥ minconf. Trong đó minsup và minconf là hai giá trị ngưỡng cho trước. Một tập mục X có độ hỗ trợ vượt qua ngưỡng minsup được gọi là tập phổ biến. Minh họa: Cho CSDL sau Một số loại luật kết hợp: - Binary association rules (luật kết hợp nhị phân): Apple => Banana - Quantitative association rules (luật kết hợp định lượng): weight in [70kg – 90kg] => height in [170cm – 190cm] - Fuzzy association rules (Luật kết hợp mờ): weight in HEAVY => height in TALL Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 10 [...].. .Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp 2.2 Thuật toán Apriori: Thuật toán Apriori là một thuật toán điển hình áp dụng trong khai phá luật kết hợp Thuật toán dựa trên nguyên lý Apriori “Tập con bất kỳ của một tập phổ biến cũng là một tập phổ biến” Mục đích của thuật toán Apriori là tìm ra được tất cả các tập phổ biến có thể có trong cơ sở dữ liệu giao dịch D Thuật toán. .. tiến Apriori, với ý tưởng chung - Giảm số lần duyệt CSDL - Giảm số lượng tập ứng viên - Qui trình tính độ phổ biến thuận tiện hơn Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 15 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Chương 3: Ứng dụng Khai phá luật kết hợp với Microsoft Association Rule 3.1 Mô tả công cụ và CSDL dùng để khai phá luật kết hợp: Khai phá luật. .. viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 17 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp vAssocSeqOrders vAssocSeqLineItems Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 18 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp 3.2 Qui trình xây dựng mô hình khai phá dữ liệu với BIDS như sau: Tạo mới 1 project (Analysis Services... khai phá luật kết hợp: Khai phá luật kết hợp (Association Rule Discovery) là kỹ thuật rất quan trọng trong lĩnh vực khai phá dữ liệu Mục đích của việc khai phá luật kết hợp là tìm ra các mối quan hệ, sự kết hợp hay mối tương quan giữa các đối tượng trong khối lượng lớn dữ liệu Công cụ sử dụng khai phá dữ liệu bằng luật kết hợp: Công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development... min_conf =80% ta có 2 luật kết hợp là: {B,C} => {E} và {C,E} => {B} Minh họa 2: Giả sử ta có CSDL giao dịch bán hàng gồm 5 giao dịch như sau: Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau: Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 13 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Kết quả ta có các luật kết hợp sau (với min_sup=... thu được một luật kết hợp s→(I-s) nếu độ tin cậy thỏa mãn: conf(s→(I-s)) = supp(I)/supp(I-s) ≥ minconf (minconf là ngưỡng tin cậy cho trước) Minh họa 1: Giả sử ta có CSDL giao dịch như sau : Thuật toán Apriori khai phá luật kết hợp được mô tả qua các bước sau Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 12 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Ta có frequent... Châu CH1201005 Trang 16 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp - Micorosoft Association Rule (Luật kết hợp) - Micorsoft Sequence Clustering (Phân tích chuỗi) - Microsoft Neural Network (Mạng Neural) - Micorsoft Linear Regression(Hồi qui tuyến tính) - Micorsoft Logistics Regression(Hồi qui logistics) Mô tả dữ liệu sử dụng trong mô hình: Cơ sở dữ liệu minh họa AdventureWorks... Tire Tube và Sport-100 có nghĩa là trong tất cả các giao dịch thì có 590 giao dịch trong đó khách hàng mua loại xe Road Tire Tube thì cũng mua loại xe Sport100 Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 22 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp - Rules Tab: Phần này trình bày các luật kết hợp được phát hiện bởi mô hình Các thông tin về luật kết hợp bao... viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 25 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp TÀI LIỆU THAM KHẢO [1] GS.TSKH Hoàng Kiếm, TS Đỗ Văn Nhơn, Th.sĩ Đỗ Phúc Giáo trình Các hệ cơ sở tri thức, đại học Quốc gia TPHCM – 2002 [2] GS.TSKH Hoàng Kiếm, Bài giảng cao học môn học Công nghệ tri thức và Ứng dụng, ĐHKHTN-TPHCM [3] Alex Berson Stephen J Smith, Data Warehousing,... toán Apriori được dùng để phát hiện các luật kết hợp dạng khẳng định (Positive Rule X=>Y) nhị phân (Binary Association Rules) chứ không thể phát hiện các luật kết hợp ở dạng phủ định (Negative Association Rule) chẳn hạn Học viên thực hiện : - Đặng Thị Thanh Châu CH1201005 Trang 14 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp như các kết hợp dạng “Khách hàng mua mặt hàng A thường . 10 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp 2.2. Thuật toán Apriori: Thuật toán Apriori là một thuật toán điển hình áp dụng trong khai phá luật kết hợp. Thuật toán. 15 Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp Chương 3: Ứng dụng Khai phá luật kết hợp với Microsoft Association Rule 3.1. Mô tả công cụ và CSDL dùng để khai phá luật. Ứng dụng thuật toán Apriori trong khai phá dữ liệu sử dụng luật kết hợp ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Bài thu hoạch môn học Công nghệ tri thức Ứng dụng thuật toán

Định dạng
Số trang	26
Dung lượng	1,46 MB