Tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

NỘI DUNG BÁO CÁO  Giới thiệu  Phân lớp dữ liệu và các thuật toán phân lớp dữ liệu  Luật kết hợp và các thuật toán tìm luật kết hợp GIỚI THIỆU  Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều và tốt Đặc biệt lĩnh vực kinh doanh, các doanh nghiệp nhận thức được tầm quan trọng việc nắm bắt và xử lý thông tin  Khai thác dữ liệu là quá trình trích xuất các thơng tin có giá trị tiềm ẩn những kho dữ liệu Khai thác dữ liệu là khâu qui trình Khám phá tri thức sở dữ liệu  Hiện kỹ thuật khai thác dữ liệu được áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh và đời sống khác như: y tế, marketing, ngân hàng, viễn thông, internet… Khơng phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại GIỚI THIỆU     CSDL càng lớn thì tri thức khai thác được càng nhiều, nhiên với tốc độ phát triển công nghệ hiện nay, dữ liệu phình lên với tốc độ lớn, trung bình là 10% - 15% năm, cá biệt có những CSDL lớn gấp đơi sau năm, điều này gây khó khăn khơng nhỏ cho việc áp dụng các phương thức khai thác dữ liệu kinh điển Các thuật toán xử lý thực hiện những CSDL lớn Trong những năm gần đây, việc nghiên cứu cải tiến các thuật toán khai thác dữ liệu là hướng được nhiều người quan tâm Việc cải tiến được thực hiện hai khía cạnh: Cải tiến cấu trúc nhằm lưu trữ dữ liệu thích hợp cho các thuật toán Cải tiến cách thực thi các thuật toán sở song song hóa dựa phát triển công nghệ chế tạo PHÂN LỚP DỮ LIỆU  Cho CSDL D = {t1,t2,…,tn}, tập hợp các lớp C= {C1, …,Cm}, bài toán phân lớp được phát biểu sau: Xác định ánh xạ f : DC cho với ti được quy lớp Cj  Về mặt thực chất, bài toán phân lớp là chia D thành các lớp tương đương THUẬT TOÁN PHÂN LỚP DỮ LIỆU  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Tập thô  Tập mờ  Thuật giải di truyền THUẬT TOÁN K-MEANS  Do J.MacQueen giới thiệu năm 1967 tài liệu “J Some Methods for Classification and Analysis of Multivariate Observations”    Được xếp vào 10 thuật toán tốt Parallel Data Mining K-means Clustering là thuật toán dùng các bài toán phân loại/nhóm n đối tượng thành k nhóm dựa đặc tính/thuộc tính đối tượng (k ≤n nguyên, dương) Về nguyên lý, có n đối tượng, đối tượng có m thuộc tính, ta phân chia được các đối tượng thành k nhóm dựa các thuộc tính đối tượng việc áp dụng thuật toán này THUẬT TOÁN K-MEANS Start Data input: - n objects - k clusters Initial k cluster centers calculate δ objects-centers grouping based on the δ F No object move group T End recomput ci VÍ DỤ K-MEANS     Số nhóm k=3 Số đối tượng cần phân chia n=9 (9 loại thuốc) Số thuộc tính loại thuốc là m=2 Cụ thể, danh mục các loại thuốc cần phân loại sau: VÍ DU Kết lần 1:  Với điểm trung tâm ban đầu:  Ta được: VÍ DU: Kết lặp lần 2:  Tính toán lại điểm trung tâm từ lần lặp trước:  Kết quả: 10 LUẬT KẾT HỢP I.1 Luật kết hợp Ví dụ: Phân tích giỏ mua hàng Example: {Milk, Diaper} ⇒ Beer σ (Milk, Diaper, Beer) s= = = 0.4 |T| σ (Milk, Diaper, Beer) c= = = 0.67 σ (Milk, Diaper) 15 LUẬT KẾT HỢP I.2 Một số khái niệm liên quan    Tập k item là tập hợp có k item Tập item phổ biến là tập hợp các item có độ hỗ trợ lớn hay minsup Tập item dự kiến (tập ứng cử viên) là tập hợp các item cần được xem xét có phải là tập item phổ biến không 16 THUẬT TOÁN TÌM LUẬT KẾT HỢP  Thuật toán AIS  Thuật toán SETM  Thuật toán Apriori  Thuật toán Eclat 17 THUẬT TOÁN APRIORI    Ý tưởng: Tạo các tập phổ biến có item, tập items tạo từ tập 1_item,…… tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được Mỗi tập item được tạo phải được tính toán độ hỗ trợ và độ tin cậy Tính chất: tập item phổ biến thì tất các tập item là phổ biến 18 THUẬT TOÁN APRIORI Qua bước:   Tạo tập item phổ biến: tạo tất các tập item dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsupp Tạo luật kết hợp: Từ các tập tập phổ biến xây dựng luật kết hợp và tính độ tin cậy luật 19 THUẬT TOÁN APRIORI Xác định các tập item phổ biến:  Xác định các tập ứng cử viên (C k)  Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử viên 20 THUẬT TOÁN APRIORI 1.1 Xác định Ck:   Tìm các tập ứng cử viên item Quét CSDL để xác định độ hỗ trợ các tập ứng cử viên Tại vòng thứ k (k>1), các tập ứng cử viên được xác định dựa vào các tập phổ biến xác định vòng (k-1) sử dụng hàm Apriori_gen() Sau xác định được các tập ứng cử viên, thuật toán quét giao dịch CSDL để xác định độ hỗ trợ các tập ứng cử viên Quá trình xác định các tập item phổ biến kết thúc không xác định được thêm tập item phổ biến nào nữa 21 THUẬT TOÁN APRIORI 1.2 Nội dung hàm Apriori_gen() + Fk-1 được kết nối với thu được C k + Apriori_gen() xoá tất các tập item từ kết kết nối mà có số tập (k-1) khơng có F k-1 Sau trả tập item phổ biến kích thước k cịn lại Ví dụ: F3 = {{1, 2, 3}, {1, 2, 4}, {1, 3, 4},   {1, 3, 5}, {2, 3, 4}} After join C4 = {{1, 2, 3, 4}, {1, 3, 4, 5}} After pruning: C4 = {{1, 2, 3, 4}} because {1, 4, 5} is not in F3 ({1, 3, 4, 5} is removed) 22 THUẬT TOÁN APRIORI Thấy tập không phổ biến Khơng phải làm 23 TḤT TOÁN APRIORI Ví dụ tìm tập item phổ biến Data base D TID 10 20 30 40 Items a, c, d b, c, e a, b, c, e b, e 1-candidates Scan D Min_sup=2 3-candidates Scan D Itemset bce Freq 3-itemsets Itemset bce Sup Itemset a b c d e Freq 1-itemsets Sup 3 Itemset a b c Sup 3 e Freq 2-itemsets Itemset ac bc be ce Sup 2 2-candidates Counting Itemset ab ac ae bc be ce Sup 2 Itemset ab ac ae bc be ce Scan D 24 THUẬT TOÁN APRIORI Sinh các luật kết hợp từ các item phổ biến:   Tìm tất các tập không rỗng h tập item phổ biến f∈ F Với tập h tìm được, ta xuất luật dạng (h) ⇒(f-h) nếu tỉ lệ support(f)/support(h) ≥ mincof 25 THUẬT TOÁN APRIORI Ví dụ sinh luật kết hợp Suppose {2,3,4} is frequent, with sup=50%   Proper nonempty subsets: {2,3}, {2,4}, {3,4}, {2}, {3}, {4}, with sup=50%, 50%, 75%, 75%, 75%, 75% respectively These generate these association rules:  2,3 → 4, confidence=100%  2,4 → 3, confidence=100%  3,4 → 2, confidence=67%  → 3,4, confidence=67%  → 2,4, confidence=67%  → 2,3, confidence=67%  All rules have support = 50% 26 II Thuật toán Apriori 27 II Thuật tốn Apriori Thủ tục tìm tập ứng cử viên 28 II Thuật toán Apriori Thủ tục loại bỏ tập ứng cử viên không phổ biến 29 ... cử viên) là tập hợp các item cần được xem xét có phải là tập item phổ biến khơng 16 THUẬT TOÁN TÌM LUẬT KẾT HỢP  Thuật toán AIS  Thuật toán SETM  Thuật toán Apriori  Thuật. .. đương THUẬT TOÁN PHÂN LỚP DỮ LIỆU  Phân lớp sử dụng khoảng cách  Phân lớp theo thống kê xác suất  Cây quyết định  Mạng Neural  Tập thô  Tập mờ  Thuật giải di truyền THUẬT TOÁN. .. và tính độ tin cậy luật 19 THUẬT TOÁN APRIORI Xác định các tập item phổ biến:  Xác định các tập ứng cử viên (C k)  Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử viên

Định dạng
Số trang	29
Dung lượng	446 KB