1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

29 831 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 446 KB

Nội dung

NỘI DUNG BÁO CÁO  Giới thiệu  Phân lớp dữ liệu và các thuật toán phân lớp dữ liệu  Luật kết hợp và các thuật toán tìm luật kết hợp GIỚI THIỆU  Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều và tốt Đặc biệt lĩnh vực kinh doanh, các doanh nghiệp nhận thức được tầm quan trọng việc nắm bắt và xử lý thông tin  Khai thác dữ liệu là quá trình trích xuất các thơng tin có giá trị tiềm ẩn những kho dữ liệu Khai thác dữ liệu là khâu qui trình Khám phá tri thức sở dữ liệu  Hiện kỹ thuật khai thác dữ liệu được áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh và đời sống khác như: y tế, marketing, ngân hàng, viễn thông, internet… Khơng phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại GIỚI THIỆU     CSDL càng lớn thì tri thức khai thác được càng nhiều, nhiên với tốc độ phát triển công nghệ hiện nay, dữ liệu phình lên với tốc độ lớn, trung bình là 10% - 15% năm, cá biệt có những CSDL lớn gấp đơi sau năm, điều này gây khó khăn khơng nhỏ cho việc áp dụng các phương thức khai thác dữ liệu kinh điển Các thuật toán xử lý thực hiện những CSDL lớn Trong những năm gần đây, việc nghiên cứu cải tiến các thuật toán khai thác dữ liệu là hướng được nhiều người quan tâm Việc cải tiến được thực hiện hai khía cạnh: Cải tiến cấu trúc nhằm lưu trữ dữ liệu thích hợp cho các thuật toán Cải tiến cách thực thi các thuật toán sở song song hóa dựa phát triển công nghệ chế tạo PHÂN LỚP DỮ LIỆU  Cho CSDL D = {t1,t2,…,tn}, tập hợp các lớp C= {C1, …,Cm}, bài toán phân lớp được phát biểu sau: Xác định ánh xạ f : DC cho với ti được quy lớp Cj  Về mặt thực chất, bài toán phân lớp là chia D thành các lớp tương đương THUẬT TOÁN PHÂN LỚP DỮ LIỆU  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Tập thô  Tập mờ  Thuật giải di truyền THUẬT TOÁN K-MEANS  Do J.MacQueen giới thiệu năm 1967 tài liệu “J Some Methods for Classification and Analysis of Multivariate Observations”    Được xếp vào 10 thuật toán tốt Parallel Data Mining K-means Clustering là thuật toán dùng các bài toán phân loại/nhóm n đối tượng thành k nhóm dựa đặc tính/thuộc tính đối tượng (k ≤n nguyên, dương) Về nguyên lý, có n đối tượng, đối tượng có m thuộc tính, ta phân chia được các đối tượng thành k nhóm dựa các thuộc tính đối tượng việc áp dụng thuật toán này THUẬT TOÁN K-MEANS Start Data input: - n objects - k clusters Initial k cluster centers calculate δ objects-centers grouping based on the δ F No object move group T End recomput ci VÍ DỤ K-MEANS     Số nhóm k=3 Số đối tượng cần phân chia n=9 (9 loại thuốc) Số thuộc tính loại thuốc là m=2 Cụ thể, danh mục các loại thuốc cần phân loại sau: VÍ DU Kết lần 1:  Với điểm trung tâm ban đầu:  Ta được: VÍ DU: Kết lặp lần 2:  Tính toán lại điểm trung tâm từ lần lặp trước:  Kết quả: 10 LUẬT KẾT HỢP I.1 Luật kết hợp Ví dụ: Phân tích giỏ mua hàng Example: {Milk, Diaper} ⇒ Beer σ (Milk, Diaper, Beer) s= = = 0.4 |T| σ (Milk, Diaper, Beer) c= = = 0.67 σ (Milk, Diaper) 15 LUẬT KẾT HỢP I.2 Một số khái niệm liên quan    Tập k item là tập hợp có k item Tập item phổ biến là tập hợp các item có độ hỗ trợ lớn hay minsup Tập item dự kiến (tập ứng cử viên) là tập hợp các item cần được xem xét có phải là tập item phổ biến không 16 THUẬT TOÁN TÌM LUẬT KẾT HỢP  Thuật toán AIS  Thuật toán SETM  Thuật toán Apriori  Thuật toán Eclat 17 THUẬT TOÁN APRIORI    Ý tưởng: Tạo các tập phổ biến có item, tập items tạo từ tập 1_item,…… tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được Mỗi tập item được tạo phải được tính toán độ hỗ trợ và độ tin cậy Tính chất: tập item phổ biến thì tất các tập item là phổ biến 18 THUẬT TOÁN APRIORI Qua bước:   Tạo tập item phổ biến: tạo tất các tập item dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsupp Tạo luật kết hợp: Từ các tập tập phổ biến xây dựng luật kết hợp và tính độ tin cậy luật 19 THUẬT TOÁN APRIORI Xác định các tập item phổ biến:  Xác định các tập ứng cử viên (C k)  Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử viên 20 THUẬT TOÁN APRIORI 1.1 Xác định Ck:   Tìm các tập ứng cử viên item Quét CSDL để xác định độ hỗ trợ các tập ứng cử viên Tại vòng thứ k (k>1), các tập ứng cử viên được xác định dựa vào các tập phổ biến xác định vòng (k-1) sử dụng hàm Apriori_gen() Sau xác định được các tập ứng cử viên, thuật toán quét giao dịch CSDL để xác định độ hỗ trợ các tập ứng cử viên Quá trình xác định các tập item phổ biến kết thúc không xác định được thêm tập item phổ biến nào nữa 21 THUẬT TOÁN APRIORI 1.2 Nội dung hàm Apriori_gen() + Fk-1 được kết nối với thu được C k + Apriori_gen() xoá tất các tập item từ kết kết nối mà có số tập (k-1) khơng có F k-1 Sau trả tập item phổ biến kích thước k cịn lại Ví dụ: F3 = {{1, 2, 3}, {1, 2, 4}, {1, 3, 4},   {1, 3, 5}, {2, 3, 4}} After join C4 = {{1, 2, 3, 4}, {1, 3, 4, 5}} After pruning: C4 = {{1, 2, 3, 4}} because {1, 4, 5} is not in F3 ({1, 3, 4, 5} is removed) 22 THUẬT TOÁN APRIORI Thấy tập không phổ biến Khơng phải làm 23 TḤT TOÁN APRIORI Ví dụ tìm tập item phổ biến Data base D TID 10 20 30 40 Items a, c, d b, c, e a, b, c, e b, e 1-candidates Scan D Min_sup=2 3-candidates Scan D Itemset bce Freq 3-itemsets Itemset bce Sup Itemset a b c d e Freq 1-itemsets Sup 3 Itemset a b c Sup 3 e Freq 2-itemsets Itemset ac bc be ce Sup 2 2-candidates Counting Itemset ab ac ae bc be ce Sup 2 Itemset ab ac ae bc be ce Scan D 24 THUẬT TOÁN APRIORI Sinh các luật kết hợp từ các item phổ biến:   Tìm tất các tập không rỗng h tập item phổ biến f∈ F Với tập h tìm được, ta xuất luật dạng (h) ⇒(f-h) nếu tỉ lệ support(f)/support(h) ≥ mincof 25 THUẬT TOÁN APRIORI Ví dụ sinh luật kết hợp Suppose {2,3,4} is frequent, with sup=50%   Proper nonempty subsets: {2,3}, {2,4}, {3,4}, {2}, {3}, {4}, with sup=50%, 50%, 75%, 75%, 75%, 75% respectively These generate these association rules:  2,3 → 4, confidence=100%  2,4 → 3, confidence=100%  3,4 → 2, confidence=67%  → 3,4, confidence=67%  → 2,4, confidence=67%  → 2,3, confidence=67%  All rules have support = 50% 26 II Thuật toán Apriori 27 II Thuật tốn Apriori Thủ tục tìm tập ứng cử viên 28 II Thuật toán Apriori Thủ tục loại bỏ tập ứng cử viên không phổ biến 29 ... cử viên) là tập hợp các item cần được xem xét có phải là tập item phổ biến khơng 16 THUẬT TOÁN TÌM LUẬT KẾT HỢP  Thuật toán AIS  Thuật toán SETM  Thuật toán Apriori  Thuật. .. đương THUẬT TOÁN PHÂN LỚP DỮ LIỆU  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Tập thô  Tập mờ  Thuật giải di truyền THUẬT TOÁN. .. và tính độ tin cậy luật 19 THUẬT TOÁN APRIORI Xác định các tập item phổ biến:  Xác định các tập ứng cử viên (C k)  Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử viên

Ngày đăng: 19/06/2014, 21:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w