Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
879 KB
Nội dung
HVKTQS !"#$"% Hc viên thc hin: &'()*+ 1 2 3 4 !"#$%&'( 5 ) ',' '/) Trong thời đại bùng nổ công ngh thông tin, các công ngh lưu trữ dữ liu ngày càng phát triển nhanh chóng tạo điều kin cho các đơn vị thu thập dữ liu nhiều hơn và tốt hơn. Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị tiềm ẩn trong những kho dữ liu. Khai thác dữ liu chỉ là một khâu trong quy trình Khám phá tri thức trong cơ sở dữ liu. Hin nay kỹ thuật khai thác dữ liu đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vc kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông, internet… Không ai có thể phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại. * ',' '/) CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy nhiên với tốc độ phát triển của công ngh hin nay, dữ liu phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm, điều này gây khó khăn không nhỏ cho vic áp dụng các phương thức khai thác dữ liu kinh điển. Các thuật toán xử lý tuần t đôi khi không thể thc hin trên những CSDL lớn. Trong những năm gần đây, vic nghiên cứu cải tiến các thuật toán tuần t trong khai thác dữ liu đang là hướng được nhiều người quan tâm. Vic cải tiến được thc hin trên hai hướng: !"!#!#$%% !&'%(##) + 0123-4)56768-69:1 Kết quả đạt được *+,-.%/#'%012 3#4567 *+,,&01283 2,94:;%!2<)=1 2>#?##03./'%/ Hướng phát triển @8&-,&012 83,%$#;A1#,B8 C2=" , .;*<,=(><'/) Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh xạ f : D C sao cho với mỗi ti được quy về một lớp Cj. Về mặt thc chất, bài toán phân lớp chính là chia D thành các lớp tương đương. - 01 )?--@0*=.;*<,=(><'/) Phân lớp sử dụng khoảng cách Phân lớp theo thống kê xác suất Cây quyết định Mạng Neural Các kỹ thuật khác @( @D @#= . .)?--@0*ABC*D Phân lớp /nhóm n đối tượng thành k nhóm da trên đặc tính/thuộc tính của đối tượng (k ≤ n nguyên, dương). / .)?--@0*ABC*D Mỗi đối tượng được coi là 1 véc tơ m chiều (m - số thuộc tính của đối tượng). Vic phân lớp được thc hin da trên khoảng cách Euclidean nhỏ nhất giữa đối tượng đến phần tử trung tâm của các lớp/nhóm. Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các phần tử trong nhóm 0 E*.2.@5*+101.F)1<'(BC* A = {a1, a2 an} - Tập n đối tượng aj=(xj1, xj2, xjm) j=1 n - phần tử thứ j cần phân loại xjs s=1 m - thuộc tính của đối tượng ci=(ci1, ci2, cim) i=1 k - phần tử trung tâm nhóm i cis s=1 m - thuộc tính của phần tử trung tâm i 1("2&3 "3'45"36 78#"' 9' ∑ = −=∂ m s isjsij cx E A FG :; [...]... 2 → 3,4, confidence=67% 3 → 2,4, confidence=67% 4 → 2,3, confidence=67% All rules have support = 50% 26 Thuậttoán Apriori 27 Thuậttoán Apriori Thủ tục tìm tâêp ứng cử viên 28 Thuậttoán Apriori Thủ tục loại bỏ các tập ứng cử viên không phổ biến 29 Nhận xét thuậttoán Apriori Tạo các tập phổ biến chậm Tạo các luật kết hợp từ các tập phổ biến nhanh Không gian của tất... ∑x s =1 t sj (2) 11 Các bước của thuậttoán K-Means • • Khởi tạo ci i=1 k ngẫu nhiên Lặp B1: Xác định khoảng cách Euclidean δ giữa aj j=1 n và ci i=1 k theo công thức (1) B2: Nhóm đối tượng vào cluster dựa δ nhỏ nhất B3: Tính ci của mỗi nhóm theo công thức (2) đến khi không còn đối tượng nào di chuyển từ nhóm này sang nhóm khác 12 Sơ đồ khối của thuậttoán K-Means Start Data input: -... {1, 3, 5}, {2, 3, 4}} After join C4 = {{1, 2, 3, 4}, {1, 3, 4, 5}} After pruning: C4 = {{1, 2, 3, 4}} because {1, 4, 5} is not in F3 ({1, 3, 4, 5} is removed) 22 Thuậttoán Apriori Thấy tập không phổ biến Không phải làm 23 Thuậttoán Apriori Ví dụ tìm tập phổ biến Data base D TID 10 20 30 40 Items a, c, d b, c, e a, b, c, e b, e 1-candidates Scan D Min_sup=2 3-candidates Scan D Itemset bce... Itemset ab ac ae bc be ce Sup 1 2 1 2 3 2 Itemset ab ac ae bc be ce Scan D 24 Thuậttoán Apriori 2 Sinh các luật kết hợp từ các item phổ biến: Tìm tất cả các tập con không rỗng h của tập item phổ biến f ∈ F Với mỗi tập con h tìm được, ta xuất ra luật dạng (h) ⇒ (f-h) nếu tỉ lệ support(f)/support(h) ≥ mincof 25 Thuậttoán Apriori Ví dụ sinh luật kết hợp Suppose {2,3,4} is frequent, with sup=50%... không đạt minsup Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật 19 Thuậttoán Apriori 1 Xác định các tập item phổ biến: Xác định các tập ứng cử viên (Ck) Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử viên 20 Thuậttoán Apriori 1.1 Xác định Ck: Tìm các tập ứng cử viên 1 item Quét CSDL để xác định độ hỗ trợ của các tập ứng cử viên... tạp của thuậttoán Số ô nhớ cần dùng để lưu trữ các đối tượng là O(mn) trong đó m là số đối tượng còn n là số chiều (hay số thuộc tính) của các đối tượng Còn độ phức tạp về thời gian của giải thuật K-MEANS là O(I*K*m*n) trong đó I là số bước lặp cần thiết để giải thuật dừng (hội tụ), K là số vùng 14 Nhược điểm Việc khởi tạo phần tử trung tâm của nhóm ban đầu ảnh hưởng đến sự phân chia... thuật toán quét từng giao dịch trong CSDL để xác định độ hỗ trợ của các tập ứng cử viên Quá trình xác định các tập item phổ biến sẽ kết thúc khi không xác định được thêm tập item phổ biến nào nữa 21 Thuậttoán Apriori 1.2 Nội dung hàm Apriori_gen() + Fk-1 được kết nối với chính nó thu được Ck + Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà có 1 số tập con (k-1) không có trong Fk-1 Sau... ứng cử viên) là tập hợp các item cần được xem xét có phải là tập item phổ biến không Các thuật toán tìm luật kết hợp Thuật toán AIS Thuật toán SETM Thuật toán Apriori Thuật toán Eclat 18 Thuậttoán Apriori Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items tạo từ tập 1_item,……tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được Mỗi tập item được tạo... cùng 1 đối tượng, nó có thể được đưa vào nhóm này hoặc nhóm khác khi dung lượng dữ liệu thay đổi Điều kiện khởi tạo có ảnh hưởng lớn đến kết quả Điều kiện khởi tạo khác nhau có thể cho ra kết quả phân vùng nhóm khác nhau Không xác định được mức độ ảnh hưởng của thuộc tính đến quá trình tạo nhóm 15 Luật kết hợp Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một . )?--@0*=.;*<,=(><'/) Phân lớp sử dụng khoảng cách Phân lớp theo thống kê xác suất Cây quyết định Mạng Neural Các kỹ thuật khác @( @D @#= . .)?--@0*ABC*D Phân lớp. các lớp C= {C1,…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh xạ f : D C sao cho với mỗi ti được quy về một lớp Cj. Về mặt thc chất, bài toán phân lớp chính là chia D thành. liu ngày càng phát triển nhanh chóng tạo điều kin cho các đơn vị thu thập dữ liu nhiều hơn và tốt hơn. Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị tiềm ẩn trong những