Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
125,92 KB
Nội dung
CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Phụ lục Giới thiệu 4 Phần I Giới thiệu một số thuật toán về Data Mining 5 Thuất toán C4.5 5 Thuật toán k-means 6 Thuật toán SVM 9 Thuật toán Apriori 9 Thuật toán EM 12 Thuật toán PageRank 14 Thuật toán AdaBoost 15 Thuật toán kNN 15 Thuật toán Naïve Bayes 15 Thuật toán CART 16 Phần II Ứng dụng thuật toán Apriori để tìm quy tắc trong bảng kê bệnh truyền nhiểm Giai đoạn chọn lọc dữ liệu 18 Gai đoạn làm sạch dữ liệu 19 Giai đoạn làm giàu dữ liệu 19 Giai đoạn mã hóa dữ liệu 20 Giai đoạn khám phá dữ liệu 20 Giới thiệu chương trình 23 Kết luận 31 CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Giới thiệu Trong cuộc sống, với khối lượng thông tin khổng lồ trong mọi lĩnh vực kinh tế, tự nhiên, khoa học, lịch sử… và cả khoa học huyền bí. Việc đưa ứng dụng công nghệ thông tin nhầm tìm ra những quy luật tồn tại trong khối dữ liệu đó là một yêu cầu cần thiết giúp con người nghiên cứu, đánh giá, đưa ra những định hướng cho hoạt động ngành nghề của mình. Từ những yêu cầu trên, lĩnh vực Data Mining đã được ra đời với mục đích giải quyết vấn đề phân tích dữ liệu nhầm tìm ra những quy luật, thông tin quý giá. Với sự hướng dẫn của Giáo sư - tiến sỹ khoa học Hoàng Kiếm tôi được tiếp cận một môn khoa học khởi đầu cho những giá trị tuy duy. Tôi xin chân thành cám ơn Thầy đã tận tình hướng dẫn, chia sẽ những kiến thức, kinh nghiệm trong thực tiển để tôi dễ dàng hiểu và tiếp cận, nắm bắt những kỹ năng của sáng tạo, làm tiền đề cho quá trình học tập và phát triển sau này. Xin cảm ơn! CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Phần I MỘT SỐ THUẬT TOÁN VỀ DATA MINING Có nhiều thuật toán để giải quyết vấn đề Data Mining: C4.5 K-means SVM (Support Vector Machines) Apriori EM ( Expectation Maximization) PageRank AdaBoost kNN (k-nearest neightbor classification) Naïve Bayes CART Thuật toán C4.5 Hệ thống xây dựng bộ phân lớp là một công cụ thường dung trong Data Mining Cây quyết định Cho tập S các mẫu, C4.5 sinh ra cây quyết định ban đầu như sau: Nếu tất cả các mẫu trong S đều thuộc về cùng một lớp hay tập S nhỏ thì cây là một nút lá với nhãn là lớp xuất hiện nhiều nhất trong S Ngược lại, chọn một thuộc tính với hai hay nhiều “kết quả” trong tập thuộc tính. Tạo thuộc tính này là nút gốc của cây với mỗi nhánh là mỗi kết quả của thuộc tính, CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG chia tập mẫu còn lại của S thành các tập con S1, S2, …., Sk theo các kết quả của S, áp dụng cùng cách làm một cách đệ qui cho các tập S1,…, Sk C4.5 dựa vào một trong hai heuristics sau để chọn thuộc tính làm nút gốc: - Information Gain Trong đó Value (A) là tập các giá trị của thuộc tính A, S v là tập con của S mà A nhận giá trị v. - Gain ration Thuật thoán k-means Là thuật toán lập đơn giản để chia CSDL thành k nhóm (k do người dùng chỉ định) Được phát triển bởi nhiều nhà nghiên cứu khác nhau, điển hình là Lloyd (1957, 1982), Forgey (1965), Friedman và Rubin (1967), McQueen (1967). Thuật toán k-means Thuật thao tác trên một tập các vectơ d-chiều, D = {xi| i = 1 N} trong đó xi ∈R d là điểm dữ liệu thứ i. Thuật toán bắt đầu bằngcách chọn k điểm làm trọng tâm.Kỹ thuật để chọn các điểm hạt giống này là “ngẫu nhiên”. Sau đó thuật toán gọi hai bước sau cho đến khi hội tụ (không còn thay đổi nữa): *Bước 1. Gán dữ liệu: Mỗi điểm dữ liệu được gán vào nhóm nào gần nhất. Đây là việc phân chia dữ liệu. CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG *Bước 2. Tính lại trọng tâm: đại diện của mỗi nhóm được tính lại bằng với trung bình (mean) của các điểm dữ liệu thuộc nhóm. Nếu các điểm dữ liệu được tính bởi xác suất (probability measure/ weights) thì đại diện được tính bằng giá trị kì vọng (expectation) của dữ liệu. Khoảng cách giữa hai đối tượng Khoảng cách Minkowski: Trong đó i=(X i1 , X i2 , X ip ) và j=(X j1 , X j2 , X jp ) là hai đối dữi liệu p-chiều và q là số nguyên dương Nếu q = 1, d là khoảng cách Manhattan Khoảng cách giữa hai đối tượng Nếu q = 2, d là khoảng cách Euclidean: Các tính chất của khoảng cách Euclidean CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG d(i,j)>0 d(i,i)=0 d(i,j)=d(j,i) d(i,j)≤d(i,k)+d(k,j) CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG SVM Đặc điểm Có nền tảng lý thuyết tốt. Mạnh và có độ chính xác cao. Không đòi hỏi nhiều về số mẫu huấn luyện. Mục đích là tìm hàm phân lớp tốt nhất, phân biệt hai lớp trong dữ liệu huấn luyện. Độ đo cho hàm phân lớp tốt nhất có thể được nhìn nhận theo phương diện hình học. Đối với dữ liệu tuyến tính, hàm phân lớp tuyến tính tương ứng với một siêu phẳng phân chi hai lớp.Vấn đề đặt ra là có nhiều siêu phẳng, làm thế nào để tìm siêu phẳng tối ưu phân chia lớp. Apriori Tiếp cận Data mining, apriori là một trong những thuật toán phổ biến nhất nhầm tiềm qua các quy luật trong CSDL. Apriori phát sinh bùng nổ thao tác theo hàm mũ, nó tìm ra các luật kết hợp thỏa 2 điều kiện min_sup và min_conf Là thuật toán nền tảng để tìm các tập phổ biến sử dụng phương pháp tìm kiếm theo chiều rộng. Thuật toán Apriori CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Duyệt toàn bộ transation database để có được support S của 1-itemset, so sánh S với min_sup để có được L1(1-itemset) Loại bỏ các itemsets không phải là frequent itemsets thu được k-itemset Duyệt transaction database để có được support của mỗi candidate k-itemset, so sánh S với min_sup để thu được frequent k-itemset(L k ) Lập lại bước 2 cho đến khi Candidate set (C) trống (không tìm thấy frequent itemsets) Với mỗi frequent itemset I, sinh tất cả các tập con s không rỗng của I Với mỗi tập con s không rỗng của I, sinh ra các luật s=>(I-s) nếu độ tin cập (Confidence) của nó ≥min_conf Công thức tính support của luật X=> Y Trong đó N là tổng sốrecords Công thức tính độ tin cậy của luật X=>Y: Trong đó n(X) là tổng số records chứa X Các luật thỏa mãn có support và confidence thỏa mãn cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rule) Minimum support và Minimum confidence goi là các giá trị ngưỡng, xác định trước khi sinh ra các luật kết hợp. Ví dụ: ! " " ! CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ta có frequent itemsets I={B,C,E}, với minconf=80% ta có 2 luật kết hợp là: #$ %!&! '( ) '( ) '( ) '( ) '( ) '( ) {B,C}=>{E} và {C,E}=>{B} Thuật toán Apriori phát hiện các luận kết hợp dạng khẳng định (Positive Rule X=>Y) chứ không thể phát hiện các luật kết hợp ở dạng phủ định (Negative Association Rule) ví dụ : khách hàng mua mặt hàng A thường không mua mặt hàng B. " ! CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Thuật toán EM (Expectation maximization) EM là thuật toán thường được sử dụng trong gom nhóm dữ liệu….Nó cũng có thể được ứng dụng trong việc tái xây dựng ảnh y khoa,…. Thuật toán Tạo mô hình ban đầu Random hoặc với số lượng nhỏ các mẫu huấn luyện. Sử dụng mô hình ϴ’ để đạt được mô hình ϴ sao cho ϴ “tốt hơn” ϴ’ Lập lại bước trên cho đến khi đạt được cực đại. Ví dụ: Ví dụ đơn giản là điền các giá trị thiếu trên một cột Cho cột dữ liệu sau [4 10 4, 10, ?, ?] trong đó dấu ? biểu thị giá trị chưa biết. Sử dụng EM để điền giá trị thiếu này. Giả sử mô hình chúng ta sử dụng là mean và ban đầu được khởi tạo bằng 0. Khi đó: DL mới: [4, 10, 0, 0] Bước lặp 1: Mean: 3.5 DL mới :[4, 10, 3.5, 3.5] Bước lặp 2: Mean: 5.25 DL mới: [4, 10, 5.25, 5.25] [...]... dữ liệu liên tục hay định danh Dữ liệu được lưu trữ dưới dạng các dòng, không cần bin Cây được xây dựng với kích thước lớn nhất Phần II 14 CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng thuật toán Apriori để tìm quy tắc trong bảng kê bệnh truyền nhiểm Các bước của tiến trình khai thác dữ liệu: 1 Chọn lọc dữ liệu 2 3 4 5 6 Xóa bỏ dữ liệu không cần thiết Làm giàu dữ liệu Mã hóa Khám phá tri thức Báo cáo Vì... lượng tập ứng viên rất lớn Thực hiện tính độ phổ biến nhiều, đơn điệu Ý tưởng cải tiến thuật toán Apriori: • • • Giảm số lần duyệt CSDL Giảm số lượng tập ứng viên Qui trình tính độ phổ biến thuận lợi hơn Giới thiệu sơ lượt thuật toán Apriori – TID Tương tự như thuật toán Aprirori, sử dụng hàm apriori_ gen để tạo ứng viên Cải tiến theo hướng giảm số lượng giao dịch 20 CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Apriori. .. số thuật toán ở phần 1, ở phần 2 tôi xin trình bày của ứng dụng về thuật toán Apriori Nguyên tắc loại bỏ Apriori: Nếu không phải là tập phổ biến thì tập bao của nó cũng không phổ biến • Phương pháp : Tìm tất cả các tập phổ biến 1-hạng mục 18 CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG • Tạo các tập ứng viên kính thước k- hạng mục từ các tập phổ biến có kích thước (k- 1)-hạng mục • Kiểm tra độ phổ biến của các ứng. .. nhất, để có 1 cách nhìn ban đầu trong quá trình tìm hiểu lâu dài hơn về lĩnh vực Data Mining Một lĩnh vực có thể gọi là quan trọng và cần thiết trong quá trình phát triển của nhân loại, nhầm tìm ra những quy luật có ít trong các khối lượng thông tin khổng lồ trong cuộc sống Data mining là một đề tài khá thú vị.Vận dụng tốt việc khám phá tri thức giúp con người tìm hiểu những quy luật trong cuộc sống, trong. .. CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Next Next Next 'manga(k,j)=mang(k+1,) 'Form1.List1.AddItem manga(k, j) & " " & manggiatri(k, j) & "%" End Function Tương tự kết 2 ứng viên, chúng ta thực hiện kết 3, kết 4, kết n theo số cột của cơ sở dữ liệu có được Khi không còn các ứng viên thỏa để kết, chúng ta đưa ra các quy luật tìm được 28 CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Kết luận Thời gian tìm hiểu vấn đề, và kiến... tuổi, giới tính, Phường xã, kết luận bệnh 21 CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Cách sử dụng. vì đặc tính của CSDL gốc là bảng exel nên khi thực hiện các thao tác chuẩn bị, chúng ta tiến hành import dữ liệu vào chương trình, sau khi import lick nút START để chương trình thực thi Giới thiệu một số ý tưởng về thuật toán của chương trình • • • Dùng câu lệnh sql để thống kê các tập giá trị Đếm số phần tử của... TRI THỨC VÀ ỨNG DỤNG { c = l1 l2; // Bước 1 :kêt Lk với chính nó ifhas_infrequent_subset (c, Lk ) then Xóa c ;// B2 : Loại bỏ các ứng viên không có lợi elseThêm c vào Ck+1; } returnCk+1 ; • Bước 2: loại bỏ để giảm Ck+1 Procedure has_infrequent_subset (c: Tập ứng viên kích thước k+1, Lk tập phổ biến kích thước k) for moi k-subset s ∈c ifs ∉Lkthen returnTrue ; returnFalse ; Nhận xét thuật toán Apriori •... NGHỆ TRI THỨC VÀ ỨNG DỤNG 7 AdaBoost Ensemble Learning là phương pháp nhằm giải quy t việc nhiều người học cùng giải quy t một vấn đề Khả năng tổng quát của một hệ ensemble thường tốt hơn đáng kể so với một người học, nên phương pháp ensemble rỏ ra rất hấp dẫn Yoav Freund và Robert Schapire là những người đề xuất ra thuật toán AdaBoost.AdaBoost có độ chính xác cao, rất đơn giản, ứng dụng rộng và rất... VÀ ỨNG DỤNG Bước lặp 3: Mean: 6.125 DL mới: [4, 10, 6.125, 6.125] Bước lặp 4: Mean: 6.5625 DL mới: [4, 10, 6.5625, 6.5625] Bước lặp 5: Mean: 6.7825 DL mới: [4, 10, 6.7825, 6.7825] Kết quả: Mean: 6.890625 11 CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG 6 Page Rank Page Rank được trình bày bởi Sergey Brin và Larry Page tại hội thảo quốc tế lần thứ 7 về WWW tháng 4 năm 1998 Đây là thuật toán xếp hạng tìm kiếm sử dụng. .. thuận lợi trong quá trình tiến hành khai phá 1 Phân vùng đối với độ tuổi 2 Biến đổi giá trị nhóm tuổi thành các giá trị T1, T2, T3, T4, và giới tính nam là G1 và nữ là G2 5 Giai đoạn khám phá dữ liệu Đây là giai đoạn phức tạp nhất nhầm tìm ra các tri thức có ích tìm ẩn trong khối dữliệu Một số bài toàn điển hình: 1 2 3 4 Bài toán khám phá dữ liệu kết hợp\ Bài toán phân loại Bài toán gom nhóm Bài toán dữ . toán PageRank 14 Thuật toán AdaBoost 15 Thuật toán kNN 15 Thuật toán Naïve Bayes 15 Thuật toán CART 16 Phần II Ứng dụng thuật toán Apriori để tìm quy tắc trong bảng kê bệnh truyền nhiểm Giai đoạn. với kích thước lớn nhất Phần II CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng thuật toán Apriori để tìm quy tắc trong bảng kê bệnh truyền nhiểm Các bước của tiến trình khai thác dữ liệu: Chọn. THỨC VÀ ỨNG DỤNG Phụ lục Giới thiệu 4 Phần I Giới thiệu một số thuật toán về Data Mining 5 Thuất toán C4.5 5 Thuật toán k-means 6 Thuật toán SVM 9 Thuật toán Apriori 9 Thuật toán EM 12 Thuật toán