1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo tốt nghiệp TÌM HIỂU VÀ CÀI đặt THUẬT TOÁN PHÂN

31 693 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 879 KB

Nội dung

HVKTQS      !"#$"% Hc viên thc hin:  &'()*+    1  2    3    4  !"#$%&'( 5 ) ',' '/)  Trong thời đại bùng nổ công ngh thông tin, các công ngh lưu trữ dữ liu ngày càng phát triển nhanh chóng tạo điều kin cho các đơn vị thu thập dữ liu nhiều hơn và tốt hơn.  Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị tiềm ẩn trong những kho dữ liu. Khai thác dữ liu chỉ là một khâu trong quy trình Khám phá tri thức trong cơ sở dữ liu.  Hin nay kỹ thuật khai thác dữ liu đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vc kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông, internet… Không ai có thể phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại. * ',' '/)  CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy nhiên với tốc độ phát triển của công ngh hin nay, dữ liu phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm, điều này gây khó khăn không nhỏ cho vic áp dụng các phương thức khai thác dữ liu kinh điển. Các thuật toán xử lý tuần t đôi khi không thể thc hin trên những CSDL lớn.  Trong những năm gần đây, vic nghiên cứu cải tiến các thuật toán tuần t trong khai thác dữ liu đang là hướng được nhiều người quan tâm. Vic cải tiến được thc hin trên hai hướng:                 !"!#!#$%% !&'%(##) + 0123-4)56768-69:1  Kết quả đạt được  *+,-.%/#'%012 3#4567  *+,,&01283   2,94:;%!2<)=1 2>#?##03./'%/  Hướng phát triển  @8&-,&012 83,%$#;A1#,B8 C2=" , .;*<,=(><'/)  Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh xạ f : D  C sao cho với mỗi ti được quy về một lớp Cj.  Về mặt thc chất, bài toán phân lớp chính là chia D thành các lớp tương đương. - 01 )?--@0*=.;*<,=(><'/)  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Các kỹ thuật khác  @(  @D  @#= . .)?--@0*ABC*D  Phân lớp /nhóm n đối tượng thành k nhóm da trên đặc tính/thuộc tính của đối tượng (k ≤ n nguyên, dương). / .)?--@0*ABC*D  Mỗi đối tượng được coi là 1 véc tơ m chiều (m - số thuộc tính của đối tượng).  Vic phân lớp được thc hin da trên khoảng cách Euclidean nhỏ nhất giữa đối tượng đến phần tử trung tâm của các lớp/nhóm.  Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các phần tử trong nhóm 0 E*.2.@5*+101.F)1<'(BC* A = {a1, a2 an} - Tập n đối tượng aj=(xj1, xj2, xjm) j=1 n - phần tử thứ j cần phân loại xjs s=1 m - thuộc tính của đối tượng ci=(ci1, ci2, cim) i=1 k - phần tử trung tâm nhóm i cis s=1 m - thuộc tính của phần tử trung tâm i 1("2&3 "3'45"36 78#"' 9'  ∑ = −=∂ m s isjsij cx E A FG :; [...]...  2 → 3,4, confidence=67%  3 → 2,4, confidence=67%  4 → 2,3, confidence=67%  All rules have support = 50% 26 Thuật toán Apriori 27 Thuật toán Apriori Thủ tục tìm tâêp ứng cử viên 28 Thuật toán Apriori  Thủ tục loại bỏ các tập ứng cử viên không phổ biến 29 Nhận xét thuật toán Apriori  Tạo các tập phổ biến chậm  Tạo các luật kết hợp từ các tập phổ biến nhanh  Không gian của tất... ∑x s =1 t sj (2) 11 Các bước của thuật toán K-Means • • Khởi tạo ci i=1 k ngẫu nhiên Lặp B1: Xác định khoảng cách Euclidean δ giữa aj j=1 n và ci i=1 k theo công thức (1) B2: Nhóm đối tượng vào cluster dựa δ nhỏ nhất B3: Tính ci của mỗi nhóm theo công thức (2) đến khi không còn đối tượng nào di chuyển từ nhóm này sang nhóm khác 12 Sơ đồ khối của thuật toán K-Means Start Data input: -... {1, 3, 5}, {2, 3, 4}}  After join C4 = {{1, 2, 3, 4}, {1, 3, 4, 5}}  After pruning: C4 = {{1, 2, 3, 4}} because {1, 4, 5} is not in F3 ({1, 3, 4, 5} is removed) 22 Thuật toán Apriori Thấy tập không phổ biến Không phải làm 23 Thuật toán Apriori  Ví dụ tìm tập phổ biến Data base D TID 10 20 30 40 Items a, c, d b, c, e a, b, c, e b, e 1-candidates Scan D Min_sup=2 3-candidates Scan D Itemset bce... Itemset ab ac ae bc be ce Sup 1 2 1 2 3 2 Itemset ab ac ae bc be ce Scan D 24 Thuật toán Apriori 2 Sinh các luật kết hợp từ các item phổ biến:  Tìm tất cả các tập con không rỗng h của tập item phổ biến f ∈ F  Với mỗi tập con h tìm được, ta xuất ra luật dạng (h) ⇒ (f-h) nếu tỉ lệ support(f)/support(h) ≥ mincof 25 Thuật toán Apriori  Ví dụ sinh luật kết hợp Suppose {2,3,4} is frequent, with sup=50%... không đạt minsup  Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật 19 Thuật toán Apriori 1 Xác định các tập item phổ biến:  Xác định các tập ứng cử viên (Ck)  Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử viên 20 Thuật toán Apriori 1.1 Xác định Ck:  Tìm các tập ứng cử viên 1 item  Quét CSDL để xác định độ hỗ trợ của các tập ứng cử viên... tạp của thuật toán  Số ô nhớ cần dùng để lưu trữ các đối tượng là O(mn) trong đó m là số đối tượng còn n là số chiều (hay số thuộc tính) của các đối tượng  Còn độ phức tạp về thời gian của giải thuật K-MEANS là O(I*K*m*n) trong đó I là số bước lặp cần thiết để giải thuật dừng (hội tụ), K là số vùng 14 Nhược điểm  Việc khởi tạo phần tử trung tâm của nhóm ban đầu ảnh hưởng đến sự phân chia... thuật toán quét từng giao dịch trong CSDL để xác định độ hỗ trợ của các tập ứng cử viên Quá trình xác định các tập item phổ biến sẽ kết thúc khi không xác định được thêm tập item phổ biến nào nữa 21 Thuật toán Apriori 1.2 Nội dung hàm Apriori_gen() + Fk-1 được kết nối với chính nó thu được Ck + Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà có 1 số tập con (k-1) không có trong Fk-1 Sau... ứng cử viên) là tập hợp các item cần được xem xét có phải là tập item phổ biến không  Các thuật toán tìm luật kết hợp  Thuật toán AIS  Thuật toán SETM  Thuật toán Apriori  Thuật toán Eclat 18 Thuật toán Apriori  Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items tạo từ tập 1_item,……tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được  Mỗi tập item được tạo... cùng 1 đối tượng, nó có thể được đưa vào nhóm này hoặc nhóm khác khi dung lượng dữ liệu thay đổi  Điều kiện khởi tạo có ảnh hưởng lớn đến kết quả Điều kiện khởi tạo khác nhau có thể cho ra kết quả phân vùng nhóm khác nhau  Không xác định được mức độ ảnh hưởng của thuộc tính đến quá trình tạo nhóm 15 Luật kết hợp  Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một . )?--@0*=.;*<,=(><'/)  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Các kỹ thuật khác  @(  @D  @#= . .)?--@0*ABC*D  Phân lớp. các lớp C= {C1,…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh xạ f : D  C sao cho với mỗi ti được quy về một lớp Cj.  Về mặt thc chất, bài toán phân lớp chính là chia D thành. liu ngày càng phát triển nhanh chóng tạo điều kin cho các đơn vị thu thập dữ liu nhiều hơn và tốt hơn.  Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị tiềm ẩn trong những

Ngày đăng: 19/06/2014, 20:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w