(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh

115 3 0
(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh(Luận văn thạc sĩ) Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán Dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn Thành phố Hồ Chí Minh

LỜI CAM ĐOAN Tôi cam đoan đề tài “Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải tốn dự báo tình hình nghỉ, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh” kết tự thân tơi học tập, tìm hiểu nghiên cứu Các số liệu nêu luận văn trung thực tham khảo trích dẫn có nguồn gốc rõ ràng Kết thực nghiệm chưa công bố cơng trình khác Tp Hồ Chí Minh, ngày 27 tháng 11 năm 2020 Nguyễn Văn Chiến xi LỜI CẢM ƠN Để hoàn thành nội dung luận văn hôm nay, em ghi nhớ công ơn Thầy Cô, đồng môn, đồng nghiệp gia đình, người truyền đạt tri thức tạo điều kiện cho em suốt trình học tập, nghiên cứu Trước hết, Em muốn gửi lời cảm ơn đến Thầy Cô giảng viên trường Đại học Sư phạm kỹ thuật Thành phố Hồ Chí Minh quan tâm tổ chức hướng dẫn trực tiếp giảng dạy khóa cao học chúng em Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn Thầy Tiến sỹ Nguyễn Thành Sơn, người tận tình bảo góp ý mặt chun mơn, phương hướng cho em suốt q trình làm luận văn Cũng qua đây, xin gửi lời cảm ơn đến Ban giám hiệu trường THPT Đào Sơn Tây nơi công tác lãnh đạo trường trung học thuộc Sở Giáo dục đào tạo Tp Hồ Chí Minh tạo điều kiện cung cấp số liệu thực trạng học sinh suốt trình làm luận văn Cuối xin cảm ơn gia đình, đồng nghiệp quan tâm giúp đỡ mặt tơi suốt thời gian học tập hồn thành luận văn Trong trình làm luận văn, thân em cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đường nghiên cứu khoa học, chắn luận văn cịn nhiều thiếu sót Em mong nhận nhận bảo thầy cô giáo góp ý bạn bè, đồng nghiệp để luận văn hồn thiện Tp Hồ Chí Minh, tháng 11 năm 2020 Nguyễn Văn Chiến xii TÓM TẮT Nội dung luận văn kiến thức phân lớp dựa luật kết hợp dự báo, tìm hiểu giải thuật phân lớp kết hợp Apriori, Apriori-TID, FP-Growth, FOIL, PRM cách thức tạo luật tinh gọn với độ xác cao, sử dụng luật kết hợp tìm để dự đốn nhãn lớp cho tập liệu Khai phá luật kết hợp phân lớp kết hợp sử dụng giải thuật CPAR (Classification based on Predictive Association Rules), cách thức sử dụng giải thuật CPAR-GR (predictive association rule based classifier using gain ratio) giải thuật cải tiến CPAR vào tốn phân tích ngun nhân, tình hình nghỉ bỏ học học sinh trung học Tìm hiểu giải thuật CPAR-GR cài đặt giải thuật để khai phá liệu phát luật kết hợp áp dụng vào tốn phân tích ngun nhân tình hình nghỉ bỏ học học sinh trung học Luận văn gồm có chương, với nội dung sau: Chương 1: Tổng quan phân lớp dựa luật kết hợp Chương giới thiệu luật kết hợp khái niệm bản, tìm hiểu số giải thuật khai phá luật kết hợp giới thiệu phân lớp kết hợp số giải thuật phổ biến thực phân lớp kết hợp Ngồi cịn nêu số vấn đề gặp phải áp dụng phân lớp kết hợp sở liệu Chương 2: Tìm hiểu số thuật toán phân lớp dựa luật kết hợp dự báo Nội dung chương chủ yếu trình bày thuật tốn phân lớp dựa luật kết hợp có kế thừa cải tiến số vấn đề cịn tồn thuật tốn đời trước FOIL, PRM, CPAR, CPAR-GR Tiến hành so sánh, kết luận tính khả thi thuật toán thời gian, tài nguyên, số lượng luật đặc biệt độ xác phân lớp Chương 3: Đánh giá thực nghiệm thông qua ứng dụng giải thuật CPARGR vào phân tích số liệu học sinh nghỉ bỏ học xiii SUMMARY The content of the dissertation is about the knowledge of classification which based on the association rule, understanding the typical algorithms like Apriori, Apriori-TID, FP-Growth, FOIL, PRM is the way to create the association rule in the direction of using Gain_Ratio to have a streamlined code with high accuracy, using the found association rule to predict class labels for new data sets Breaking the association rule and classification based on Predictive Association Rules (CPARGR), the usage of CPAR-GR (predictive association rule based classifier using gain ratio) algorithm - an improved algorithm of CPAR into analyzing the causes of dropping out of high school students Studying CPAR-GR algorithms and installing algorithms to explore data and detect association rule that applies to analyzing the causes of high school dropout The dissertation consists of chapters, with the following contents: Chapter 1: An overview of the association rule which bases on classification combining This chapter introduces the association rule of combining and basic concepts, exploring some algorithms that explore the association rule of combining as well as it also introduces the classification combined with some common algorithms that perform combined layering Besides, it also shows some issues which occur when applying combination layering on a database Chapter 2: Learning some algorithm classifications that base on forecasting association rule The chapter's content mainly presents a association rule basing on classification algorithm that inherits and improves some of the remaining problems of pre-existing algorithms such as FOIL, PRM, CPAR, CPAR-GR Conduct comparisons, conclusions about the positiveity of algorithms on time, resources, number of association rule and especially the accuracy of layering Chapter 3: Experimental evaluation of customs clearance and application of CPAR-GR algorithm to analyze the data on dropout of students xiv MỤC LỤC Tựa Trang Quyết định giao đề tài i Lý lịch khoa học ii Lời cam đoan xi Lời cảm ơn xii Tóm tắt xiii Mục lục xv Danh sách chữ viết tắt xix Danh sách bảng xx Danh sách hình xxii Chương TỔNG QUAN VỀ PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP 1.1 Giới thiệu luật kết hợp số khái niệm 1.1.1 Giới thiệu luật kết hợp 1.1.2 Một số khái niệm 1.1.3 Hướng tiếp cận khai phá luật kết hợp 1.2 Một số giải thuật khai phá luật kết hợp 1.2.1 Giải thuật AIS 1.2.2 Giải thuật SETM 1.2.3 Giải thuật Apriori 10 1.2.4 Giải thuật Apriori-TID 13 1.2.5 Giải thuật FP Growth 19 1.3 Giới thiệu phân lớp dựa luật kết hợp 1.3.1 Quá trình phân lớp kết hợp 21 21 xv 1.3.2 Độ tin cậy luật kết hợp phân lớp 22 1.3.3 Các giai đoạn phân lớp kết hợp 23 1.3.4 Giới thiệu số giải thuật phân lớp dựa luật kết hợp 25 1.3.5 Một số vấn đề phân lớp kết hợp 27 Chương TÌM HIỂU MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO 28 2.1 Một số khái niệm 28 2.1.1 Bộ liệu (Tuple) 28 2.1.2 Vị từ (Literal) 28 2.1.3 Luật (Rules) 28 2.2 Giải thuật FOIL 28 2.2.1 Giới thiệu giải thuật 28 2.2.2 Nội dung giải thuật 29 2.3 Giải thuật PRM 30 2.3.1 Ý tưởng 30 2.3.2 Nội dung giải thuật 30 2.4 Giải thuật CPAR 31 2.4.1 Giới thiệu giải thuật 31 2.4.2 Nội dung giải thuật 32 2.5 Giải thuật CPAR-GR 33 2.5.1 Giới thiệu giải thuật 33 2.5.2 Xây dựng luật phân lớp kết hợp 34 2.6 So sánh hiệu thực giải thuật 41 2.6.1 So sánh kết thực nghiệm FOIL, PRM CPAR xvi 41 2.6.2 So sánh kết thực nghiệm CPAR CPAR-GR 2.7 Các cơng trình liên quan 44 44 2.7.1 Classification based on Small Key Itemsets 44 2.7.2 Classification Based on Consistent Itemset Rules 45 2.7.3 Construct Concise and Accurate Classifier by Atomic Association 45 2.7.4 Phân lớp nhanh dựa thuật toán luật kết hợp 45 2.7.5 Phân lớp dựa lựa chọn đặc điểm với khai phá luật kết hợp 46 2.7.6 Khai phá luật kết hợp để quản lý dự án công nghệ thông tin 46 2.7.7 Sử dụng luật kết hợp để phát lỗi vòng bi 47 Chương ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO PHÂN TÍCH DỮ LIỆU HỌC SINH NGHỈ BỎ HỌC 48 3.1 Mơ tả tốn thực trạng học sinh 48 3.2 Phương pháp giải 49 3.3 Tổ chức xây dựng chương trình 60 3.3.1 Cài đặt giải thuật phân lớp dựa luật kết hợp dự báo 60 3.3.2 Giao diện ứng dụng thực nghiệm 63 3.4 Đánh giá kết 65 3.4.1 Thực nghiệm giải thuật liệu Breast cancer [23] 65 3.4.2 Thực nghiệm giải thuật liệu Cleve [23] 67 3.4.3 Thực nghiệm giải thuật liệu Hepatitis [23] 68 3.4.4 Thực nghiệm giải thuật liệu Heart 69 3.4.5 Thực nghiệm giải thuật liệu Pima [23] 70 3.4.6 Thực nghiệm giải thuật liệu Mushroom [23] 71 3.4.7 So sánh hiệu thực nghiệm giải thuật liệu 73 xvii 3.5 Ứng dụng phân tích liệu học sinh dự báo tình hình nghỉ bỏ học học sinh 74 3.5.1 Thông tin liệu học sinh 74 3.5.2 Thực nghiệm giải thuật liệu nghỉ, bỏ học học sinh 76 3.5.3 Ứng dụng dự báo tình hình học sinh nghỉ bỏ học 78 Kết luận 79 Tài liệu tham khảo 81 Phụ lục 84 Bài báo xviii DANH SÁCH CÁC CHỮ VIẾT TẮT Chữ viết tắt Ck Conf D Di I Itemset k-itemset Lk minconf minsup Supp(X) Supp(X Y) Conf(X Y,D) T TID XY AC CAR AIS SETM FOIL PRM CPAR CPAR-GR CMAR LGT ∑W(P) MGV TWT CT GSR RA R A[n] Nghĩa chữa viết tắt Tập k-itemset ứng viên (Cadidate sets) Độ tin cậy (Confidence) Cơ sở liệu giao dịch Phần thứ i sở liệu D Mục (Item) Tập mục Tập mục gồm k mục Tập k-itemset phổ biến Ngưỡng tin cậy tối thiểu (minimum confidence) Ngưỡng hỗ trợ tối thiểu (minimum support) Độ phổ biến tập mục X sở liệu D Độ phổ biến luật kết hợp XY sở liệu D Độ tin cậy luật kết hợp X  Y cở sở liệu D Giao dịch (Transaction) Định danh giao dịch (Unique Transaction Identifer) Luật kết hợp (Với X vế điều kiện, Y vế hệ quả) Phân lớp kết hợp Luật kết hợp Agrawal Imielinski Swami Sifting And Evaluation Trust Management First Order Inductive Learner Predictive Rule Mining Classification Based on Predictive Association Rules Predictive association rule based classifier using gain ratio Classification Based on Multiple Association Rules Ngưỡng Gain tối thiểu Tổng trọng số tập P Giá trị Gain Tối thiểu ngưỡng trọng số tối thiểu P ngưỡng bao phủ tuple Hệ số lấy khoảng giá trị Gain_ratio tập luật dự tuyển Tập luật thức Tập thuộc tính xix DANH SÁCH CÁC BẢNG Bảng Trang Bảng 1.1 Dữ liệu mua hàng siêu thị Bảng 1.2 Ví dụ sở liệu giao tác 15 Bảng 1.3 Tập mục phổ biến độ hỗ trợ lần 16 Bảng 1.4 Tập mục phổ biến độ hỗ trợ lần 17 Bảng 1.5 Tập mục phổ biến độ hỗ trợ lần 18 Bảng 1.6 Kết sau kết thúc vòng lặp, 19 Bảng 2.1 So sánh độ xác FOIL, PRM, CPAR báo cáo tạo cách sử dụng Ten Cross Vlaidation (TCV) [2] 42 Bảng 2.2 So sánh thời gian thực FOIL, PRM, CPAR [2] 42 Bảng 2.3 So sánh số luật tạo FOIL, PRM, CPAR [2] 43 Bảng 2.4 Độ xác CPAR CPAR-GR [16] 44 Bảng 3.1 Minh họa số liệu nguyên nhân nghỉ, bỏ học học sinh 50 Bảng 3.2 Trích xuất tập liệu huấn luyện sau xử lý 50 Bảng 3.3 Trích xuất phần tập liệu thử nghiệm 51 Bảng 3.4 Trích xuất Tập liệu P trọng số 52 Bảng 3.5 Tập liệu N trọng số 52 Bảng 3.6 Bảng Gain_Ratio lần 53 Bảng 3.7 Bảng trọng số tập P sau lần 54 Bảng 3.8 Bảng Gain_Ratio lần 54 Bảng 3.9 Bảng trọng số tập P sau lần 55 Bảng 3.10 Bảng Gain_Ratio lần 56 Bảng 3.11 Bảng trọng số tập P sau lần 57 Bảng 3.12 Tập luật tạo tập huấn luyện 57 Bảng 3.13 Độ xác luật kết hợp 58 Bảng 3.14 Dự đoán nhãn lớp cho tuple T 59 Bảng 3.15 Độ xác luật liệu Breast Cancer 66 xx - Bước 2: Nạp sở liệu vào ứng dụng Sau xây dựng sở liệu khởi động chương trình tiến hành thao tác giao diện sau: Các tham số giải thuật Xóa liệu Nạp liệu huấn luyện + Tại thẻ Import Data người dùng thay đổi tham số giải thuật để thay đổi tính chi tiết luật kết hợp tạo Đối với tập liệu lớn sử dụng tham số Gain_Similarity_Ratio – Decay_Factor 0.6 – 1/3 để giảm bớt số lần duyệt, tập liệu nhỏ sử dụng tham số Gain_Similarity_Ratio – Decay_Factor 0.99 – 2/3 + Nhấn nút Import Data Train để nạp tập liệu huấn luyện, nạp thành công liệu hiển thị lưới phía + Nhấn nút Clear: để xóa liệu để nạp liệu - Bước 3: Tạo luật kết hợp giải thuật CPAR-GR từ liệu vừa nạp Tại thẻ CPAR-GR: 86 + Nhấn nút Run CPAR-GR chương trình tiến hành phân tích tạo luật kết hợp từ liệu nạp thẻ Import data + Nhấn nút Clear Rerult để xóa danh mục luật hành Tập luật tạo - Bước 4: Phân tích liệu học sinh + Từ liệu học sinh hành có học sinh theo học nhà trường, tiến hành lập sở liệu tập tin Excel tương tự tập huấn luyện theo dạng sau: 87 + Tại thẻ CPAR-GR ứng dụng nhấn nút Import test data chọn đường dẫn tới tập tin cần phần tích, sau chọn liệu hiển thị khung bên 88 Chọn liệu phân tích + Nhấn nút Run Test để bắt đầu phân tích, ứng dụng ghi liệu file Excel kết dự đoán từ luật tạo bước trước 89 Dữ liệu điền sau dự báo + Người dùng nhấn nút Clear test để nạp liệu test khác nhấn lại Run test để dự đoán kết cho tập liệu 90 ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” AN IMPROVED PREDICTIVE ASSOCIATION RULE BASED CLASSIFIER INTO THE PROBLEM OF “FORECASTING HIGH SCHOOL DROPOUT SITUATION IN HO CHI MINH CITY” Nguyễn Văn Chiến, Nguyễn Thành Sơn Trường đại học Sư phạm Kỹ thuật Tp.HCM TÓM TẮT Phân lớp dựa luật kết hợp giải pháp hiệu lĩnh vực khai phá liệu, giải thuật Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR … phương thức tạo luật kết hợp dùng để dự đoán nhãn lớp cách hiệu Tuy nhiên chất lượng luật cần cải tiến để đạt độ xác dự đốn ngày cao Trong báo giới thiệu giải thuật CPAR-GR cải tiến giải thuật CPAR chất lượng luật kết hợp tạo áp dụng vào tốn phân tích liệu ngun nhân tình hình nghỉ bỏ học học sinh trung học Từ khóa: CPAR, CPAR-GR; Luật kết hợp; Phân lớp kết hợp; CAR ABSTRACT Classification based on Predictive Association Rules is an effective solution in the field of data mining, Algorithms such as Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR, etc are methods of creating association rules used to predict class labels However, improvements in the quality of the association rules are needed to achieve higher predictive accuracy In this paper, CPAR-GR is an innovative of CPAR algorithm on the quality of association rules created and applied to the problem of analyzing the data causes of dropout of high school students Keywords: CPAR; CPAR-GR; Association Rules; Classification based on Predictive Association Rules; CAR GIỚI THIỆU Các kỹ thuật phát tri thức khai phá liệu thực qua nhiều giai đoạn sử dụng nhiều kỹ thuật phân lớp (classification), gom cụm (clustering), phân tích tương tự (similarity analysis), tổng hợp (summarization), luật kết hợp (association rules), … Một nội dung phổ biến khai phá liệu phát luật kết hợp phân lớp dựa luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất nhiều tập thuộc tính khác nào? Do việc phát luật kết hợp bước quan trọng khai phá liệu Việc sử dụng luật kết hợp để phân tích liệu học sinh nhằm phát sớm trường hợp có nguy bỏ học từ có biện pháp can thiệp giúp đỡ em tiếp tục việc học, đồng thời giúp người đứng đầu sở giáo dục chủ động nắm bắt số liệu phục vụ thiết thực cho kế hoạch hoạt động sở quản lý Bài báo nhằm mục đích giới thiệu đánh giá hiệu cải tiến thuật toán CPAR-GR ứng dụng vào phân tích tình hình nghỉ bỏ học học sinh trung học Thành phố Hồ Chí Minh Phần lại báo gồm: phần Một số khái niệm cơng trình liên quan Phần Một số giải thuật phân lớp dựa luật kết hợp dự báo Ứng dụng giải thuật CPAR-GR vào dự báo tình hình nghỉ bỏ học học sinh 91 trình bày phần Phần Kết luận hướng phát triển đề tài MỘT SỐ KHÁI NIỆM VÀ CƠNG TRÌNH LIÊN QUAN 2.1 Một số khái niệm I = {i1, i2, …in} tập bao gồm n mục phân biệt (item – cịn gọi thuộc tính – attribute) [1] D = {t1, t2, …tm} tập gồm m giao dịch gọi sở liệu giao dịch, t có định danh ký hiệu TID (Transaction Identification) chứa tập mục I [1] Một luật định nghĩa kéo theo có dạng X ⇒ Y X,Y ⊆ I X ∩ Y = Ø [1] X gọi phần mệnh đề điều kiện Y gọi mệnh đề kết luật tương ứng Độ phổ biến Supp(X) = |X| / |D| Supp(X ⇒ Y) = |{T ⊆ D:X ∪ Y ⊆ T}| / |D| Độ tin cậy Supp(X⇒Y) Conf(X⇒Y) = Supp(X) 2.2 Các cơng trình liên quan - Luật nguyên tử (Construct Concise and Accurate Classifier by Atomic Association) khai thác tạo tập luật nhỏ đơn giản để phân lớp Các luật nguyên tử mạnh với mức độ xác cao gần cao thực phân lớp phần cách xác Kết cho thấy giải thuật đề xuất không đạt độ xác phân lớp cao mà cịn tạo luật phân lớp kết hợp nhỏ nhất; nữa, chạy nhanh nhiều so với giải thuật phân lớp kết hợp có - Phân lớp dựa lựa chọn đặc điểm với khai phá luật kết hợp [2] nhóm tác giả Nuntawut Kaoungku, Keerachart Suksut, Ratiporn Chanklan, Kittisak Kerdprasop Nittaya Kerdprasop nghiên cứu đề xuất năm 2017 sử dụng khai phá luật kết hợp để tạo luật chứa tính thường xuyên xuất Giải thuật đề xuất giảm số lượng tính năng, đồng thời tăng độ xác phân lớp liệu - Khai phá luật kết hợp để quản lý dự án công nghệ thông tin [3] Được tác giả Snezhana Sulova (công tác Đại học Kinh tế - Varna, Bulgaria, công bố tháng 10 năm 2018) phát liên kết không xác định nhân viên giúp tạo dự án tốt cách sử dụng song song hai giải thuật FPGrowth Apriori đối sánh kết sinh luật kết hợp, kết thu chứng minh khai phá luật kết hợp tạo kiện hữu ích liên kết liệu dựa chúng, người quản lý dự án thực định quan trọng - Sử dụng luật kết hợp để phát lỗi vịng bi [4] cơng trình nhóm tác giả Yuan Li, Jinjiang Wang , Lixiang Duan , Tangbo Bai, Xuduo Wang, Yulong Zhang Guoliang Qin công tác trường đại học Trung Quốc, công bố tháng năm 2019 Sử dụng luật kết hợp để khám phá mối quan hệ khuyết tật dán nhãn tính bất thường để phân tích lỗi ổ trục Luật sử dụng để chẩn đoán lỗi giúp thực phân tích khuyết tật cách có hệ thống MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO 3.1 Giải thuật PRM Giải thuật PRM (Predictive Rule Mining) [5] giải thuật cải tiến từ giải thuật FOIL Trong PRM, sau mẫu bao phủ cách xác theo luật, thay xóa nó, trọng số bị giảm cách nhân với factor Phiên "có trọng số" FOIL tạo nhiều luật mẫu dương tính thường dùng nhiều lần 3.1.1 Nội dung giải thuật Đầu vào: Tập huấn luyện D, chia thành phần P tập dương tính N tập âm tính Đầu ra: tập luật R cho lớp Phương thức: Procedure Predictive Rule Mining Đặt trọng số cho mẫu rule R ← Φ totalWeight ← TotalWeight(P) A ← tính PNArray từ tập D 92 while TotalWeight(P) > δ * totalWeight N’ ← N, P’ ← P, A’ ← A khơng bỏ sót thuộc tính đem lại luật có chất lượng cao r←Φ 3.2.1 Nội dung giải thuật while true Procedure PROPOSED_CPAR Tìm mẫu p tốt A’ ruleSet  if gain(p) < min_gain then thoát for each class P  tập dương tính thêm p vào r N  tập âm tính for t P’ ∪ N’ khơng thỏa r Loop Xóa t khỏi P’ N’ pData  tập dương tính Tính lại A’ theo mẫu t xóa nData  tập âm tính end R  ; []  ; ge[]   end While true R ← R ∪ {r} maxGain  maximum ge[] For Mỗi mẫu t P thỏa luật r l  mẫu đạt maxGain t.weight ← α * t.weight if maxGain < T then thoát Giảm trọng số tập chứa t A RRl end end xóa mẫu không chứa nội dung luật pData, nData return R cập nhật []; cập nhật ge[] 3.1.2 Ưu điểm giải thuật PRM End while Là giải thuật đơn giản thuận lợi cho việc cài đặt nhiều ngôn ngữ lập trình khác ruleSet  ruleSet  R Giải thuật tận dụng triệt để thuộc tính để sinh luật chất lượng dựa vào việc giảm trọng số mẫu thay xóa bỏ sau thuộc tính tham gia vào luật 3.1.3 Nhược điểm giải thuật PRM Giải thuật sử dụng thuộc tính có mức gain cao chưa đảm bảo tính khách quan tồn diện tạo luật Việc tính toán tốn thời gian tài nguyên số lần thực lặp lại lớn 3.2 Giải thuật CPAR Giải thuật CPAR (Classification based on Predictive Association Rules) [5] giải thuật phát triển dựa ý tưởng thuật toán PRM Xiaoxin Yin Jiawei Han công bố năm 2003 Nội dung cải tiến giải thuật thay sử dụng thuộc tính có gain cao tác giả sử dụng thuộc tính có gain nằm ngưỡng gain tốt nhằm end loop end for return ruleSet 3.2.2 Ưu điểm giải thuật: Giải thuật sử dụng ngưỡng gain T để làm xét mẫu có gain đạt ngưỡng để xem xét tham gia luật điều tránh việc bỏ sót thuộc tính quan trọng làm nên chất lượng luật 3.2.3 Nhược điểm giải thuật Giải thuật sử dụng cách tính gain truyền thống (FOIL Gain) để tính gain cho thuộc tính điều làm cho thuộc tính quan trọng có gain khơng cao khơng có khả tham gia luật, cản trở hiệu dự báo luật sinh 3.3 Giải thuật CPAR-GR Giải thuật CPAR-GR (Predictive association rule based classifier using gain ratio and T-test) [24] phát triển dựa 93 ý tưởng giải thuật CPAR cải tiến nội dung sử dụng Gain-Ratio thay cho Gain để xác định tập mục phổ biến, đảm bảo thuộc tính có Gain-Ratio xác đạt ngưỡng Gain đem lại tập luật chất lượng cao Thứ hai giải thuật sử dụng phương pháp tiền xử lý T-Test để thu giảm số chiều tập liệu đầu vào nhằm giảm bớt số lần tính tốn làm tăng hiệu suất giải thuật 13 W(P1) = tổng trọng số tuple P1 14 W(N1) = tổng trọng số tuple N1 15 For i=1 to n //Tính gain_ratio 3.3.1 Nội dung giải thuật tạo luật kết hợp Đầu vào: ▪ D[n]- tập liệu nhị phân cần phân lớp gồm n thuộc tính ▪ P- tuple dương tính D ▪ N- tuple âm tính D ▪ ∑W(P)- tổng trọng số tất tuples dương tính (khởi tạo ban đầu tuple có trọng số 1) ▪ MGV- người dùng định giá trị gain tối thiểu (0.7) ▪ TWT- ngưỡng trọng số tối thiểu ▪ LGT- ngưỡng Gain thuộc tính ▪ CT- ngưỡng bao phủ tuple (0.05) ▪ Decay_Factor – người dùng định dùng để giảm trọng số tuple (2/3) ▪ GSR – Hệ số lấy khoảng giá trị Gain_ratio (0.99) Đầu ra: ▪ Danh sách luật kết hợp (CAR) Phương thức: 18 RA[ ]   // khởi tạo tập luật dự tuyển 30 16 WP[i] = tổng trọng số tuple chứa thuộc tính thứ i P1 17 WN[i] = tổng trọng số tuple chứa thuộc tính thứ i N1 WP[i] N  D[n](class  1) // đưa tuple có class vào N Best_Gain = W(P) //tổng trọng số tuple tập P W(N) // tổng trọng số tuple tập N WN[i] WN[i] log WP[i]+WN[i] WP[i]+WN[i] 10 TWT = W(P) * CT E[i] = − 20 Gain[i] = InfoD – E[i] 21 SplitInfo[i] = WP[i]+WN[i] 𝐼[𝑖] WP[i]+WN[i] − W(P1)+W(N1) log W(P1)+W(N1) 22 Gain_Ratio[i] = Gain[i]/ SplitInfo[i] 23 If Gain_Ratio[i] > Best_Gain then 24 Best_Gain  Gain_Ratio[i] 25 End if 26 End for 27 LGT = Best_Gain * GSR 28 For i=1 to n 29 31 32 if Gain_Ratio[i] >=LGT && Gain[i] >= MGV then Close-to-the-best[ ]  i // i thứ tự thuộc tính A[n] end if end for 33 For q =1 to Size[Close-to-the-best] // với giá trị Close-to-the-best 34 TempP  P1, TempN  N1 // lưu P1 N1 35 Xóa tuple khơng chứa thuộc tính A[q] P1 N1 36 Thêm A[q] vào luật dự tuyển RA[]// có dạng = A[q] 37 11 While (W(P) > TWT) 12 WP[i]+WN[i] ∗ W(P1)+W(N1) 19 A[n] = danh mục thuộc tính D Tính InfoD WP[i] − WP[i]+WN[i] log WP[i]+WN[i] − R[ ]   // khởi tạo tập luật P  D[n](class=1) // đưa tuple có class=1 vào P I[i] = P1  P, N1  N 94 Giảm trọng số tuple có chứa giá trị A[q] tập P 38 if Count[N1] = = then // Nếu N1 trống (rỗng) 39 Thêm luật dự tuyển RA[=A[q]]vào tập luật R[ ] 40 Xóa thuộc tính A[q] khỏi Bảng Gain_Ratio Đặt trọng số tuple P chứa A[q] sau đưa vào luật thức R[ ] 41 else wrong = wrong + 1; 17 end if 18 end for 19 return Accuracy; công thức (8) Các công thức Gain Ratio(A) = Gain(A)/SplitInfo(A) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷) = end if 42 P1  TempP, N1 TempN // trả lại liệu cho P1 N1 43 16 𝐷 (1) |𝐷 | − ∑𝑣𝑗=1 |𝐷𝑗| ∗ 𝑙𝑜𝑔2 (| 𝐷𝑗|) (2) Trong đó: end for |D| tổng số tuple có tập huấn luyện D 44 End While 45 Return R[ ] 3.3.2 Nội dung giải thuật phân lớp |𝐷𝑗 | tổng số tuple dương tính âm tính tập huấn luyện D Đầu vào: tập thử nghiệm T, R 𝑣 tổng số lớp tập huấn luyện Đầu ra: Accuracy 𝐴 thuộc tính thêm vào luật ứng viên Phương thức: 𝐺𝑎𝑖𝑛(𝐴) = 𝐼(𝑝, 𝑛) − 𝐸(𝐴) For i=1 to m 𝐸(𝐴) = − ∑𝑚 𝑖=1 Tính Laplace accuracy cho luật R[i]// công thưc (7) for j=1 to m //cho luật R p tổng số tuple dương tính tập huấn luyện if ( antecedent.R[j]  T[i] && consequent.R[j] == ‘Positive’ ) then Đưa R[j] vào temp_P[ ]; end if if ( antecedent.R[j]  T[i] && consequent.R[j] == ‘Negative’ ) then Đưa R[j] vào temp_N[ ]; 10 end if (4) I(p,n) thông tin dự kiến cần thiết để đáp ứng tập liệu huấn luyện For i=1 to n //với tuple T 𝐼(𝑝𝑖 , 𝑛𝑖 ) E(A) entropy thuộc tính A tập liệu huấn luyện Sắp xếp luật R[m]; 𝑝+𝑛 Trong đó: end for 𝑝𝑖 + 𝑛𝑖 (3) n tổng số tuple âm tính tập huấn luyện 𝑝𝑖 tổng số tuple dương tính bao phủ giá trị thứ i thuộc tính A 𝑛𝑖 tổng số tuple âm tính bao phủ giá trị thứ i thuộc tính A 11 end for m số giá trị thuộc tính A 12 Chọn k luật tốt từ temp_P[ ] temp_N[ ]; 𝑇𝑊𝑇 = ∑𝑛𝑖=1 𝑊(𝑝𝑖 ) ∗ 𝐶𝑇 (5) Trong đó: 13 Tính trung bình Laplace accuracy cho k luật tốt vừa chọn n tổng số tuple dương tính tập huấn luyện 14 Nhãn lớp có giá trị trung bình cao gán P[i]; 𝑊(𝑝𝑖 ) trọng số tuple dương tính tập huấn luyện 15 if (P[i] ==A[i]) then correct = correct + 1; 95 𝑛𝑐+1 𝑛𝑡𝑜𝑡+𝑘 (7) k: số lớp nc: tổng số tuples tập liệu huấn luyện thỏa vế trái vế phải luật Từ k luật tốt từ lớp thỏa mãn huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho thử nghiệm Luồng công việc chi tiết liên quan đến phương pháp phác thảo Preprocessed Dataset ntot: số tuple tập liệu huấn luyện thỏa vế trái luật Statistical T-test Accuracy = No of correctly classified tuples/Total no of tuples (8) Reducts computation ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH CAR generation Cách tiếp cận để giải tốn dự báo tình hình nghỉ bỏ học học sinh phương pháp sử dụng luật phân lớp kết hợp tiến hành qua giai đoạn CAR evaluation CPAR-GR Laplace Accuracy CAR ordering 4.1 Thu giảm số chiều tập liệu Tập liệu huấn luyện thu thập có 15 thuộc tính, Thống kê T-test sử dụng để chọn tính quan trọng có ý nghĩa cao phân lớp Được thực hàm Mattest MATLAB 7.0.1 Nó tính tốn giá trị p điểm t cho thuộc tính Các thuộc tính có giá trị p nhỏ 0.05 coi đáng kể Các thuộc tính quan trọng (tức lớn 0.05) xóa khỏi liệu Sau trình thu giảm số chiều tập liệu cịn lại 14 thuộc tính quan trọng đáng kể cho q trình huấn luyện tạo luật 4.2 Xây dựng phân lớp kết hợp (AC) Sử dụng CPAR-GR tập liệu huấn luyện để tạo luật kết hợp (CAR) Khi luật phân lớp kết hợp tạo xếp dựa độ xác Laplace Độ xác Laplace thước đo đánh giá luật kết hợp sử dụng FOIL (Quinlan & Cameron 1993), PRM (Yin & Han 2000) CPAR (Yin & Han 2003) xác định chất lượng luật phân lớp cách xem xét phạm vi luật Select best k-rules from each class that satisfies the test tuple Compute average Laplace accuracy for the best krules for each class Class label prediction of the test tuple based on the average Laplace accuracy Dimensionality reduction 𝐿𝑎𝑝𝑙𝑎𝑐𝑒 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = Trong đó: (6) Construction of associative classifier 𝐿𝐺𝑇 = 𝐵𝑒𝑠𝑡_𝐺𝑎𝑖𝑛 ∗ 𝐺𝑆𝑅 4.3 Sử dụng luật để tiến hành phân lớp cho tập thử nghiệm Classifier assification of the test tuple 𝐶𝑇 ngưỡng bao phủ (trong nghiên cứu sử dụng CT =0.05) Hình 0.1 Các giai đoạn phân lớp kết hợp KẾT QUẢ THỰC NGHIỆM 5.1 Môi trường thực nghiệm Hệ thống thử nghiệm cài đặt công cụ Python 3.8 Microsoft Windows 10 Enterprise 64bit, thực CPU Intel® Core™ i5-3320M CPU @ 2.60GHz, nhớ RAM 8.0 GB, HDD 500GB Cùng thư viện Numpy, Pandas, PyQt5 5.2 Các tập liệu thực nghiệm Học sinh (gồm 1062 giao tác), Cơ sở liệu Breast cancer (gồm 699 giao tác), Cleve (gồm 304 giao tác), Hepatitis (gồm 156 giao tác), 96 Bảng 0.3 Tập luật sinh liệu học sinh STT Heart (gồm 304 giao tác), Pima (gồm 769 giao tác), Mushroom (gồm 8124 giao tác) liệu tham khảo UCI machine learning repository [7] Giải thuật thực với tham số CT, MGV, GSR Decay_Factor có giá trị 0.05, 0.7, 0.99 2/3 5.3 Kết thực nghiệm Tại bảng 5.1, 5.2 5.3 trình bày thời gian thực thi, tài nguyên sử dụng hiệu phân lớp thuật toán liệu 5.3.1 Thời gian thực thi Thời gian thực thi giảm xuống đáng kể áp dụng thông số đầu vào GSRDecay_Factor (0.99 – 2/3) số thuộc tính tham gia xét luật dự tuyển nên lượng tính tốn giảm dẫn đến thời gian tính tốn giảm theo Bảng 0.1 Thời gian thực liệu Nghỉ bỏ học học sinh (đơn vị tính mili giây - ms) GSR – Decay_Factor CPAR CPAR-GR 0.6 – 1/3 0.99 – 2/3 10326 12387 2601 2871 Tài nguyên CPAR CPAR-GR CPU (%) 12.6 13.5 RAM (MB) 58.3 59.7 0.983 0.985 0.995 0.985 Bảng 0.4 So sánh độ xác CPAR CPAR-GR (%) Bộ liệu Breast Cancer Cleve Hepatitis Heart Pima Mushroom Học sinh Average accuracy(%) 0.99 – 2/3 CPU (%) 15.8 15.3 0.968 0.993 0.994 0.984 0.982 Qua trình thực nghiệm liệu cho thấy giải thuật CPAR-GR cho độc xác cao hầu hết liệu từ 0.57% đến 8% thể tính hiệu cải tiến Bảng 0.2 So sánh sử dụng tài nguyên giải thuật sở liệu học sinh 0.6 – 1/3 Sớm tuổi =  Class = Nghiện ma túy =  Class = Học lực =  Class = Hạnh kiểm = 2, Sớm tuổi =  Class = Mồ côi = 1, Hút thuốc =  Class = Nghiện ma túy = 4, Nghiện game = 4,  Class =0 Vi phạm nội quy = 4, Bảo lưu =  Class = Trễ tuổi =  Class = Học lực = 5, Hạnh kiểm =  Class = 5.3.4 Độ xác phân lớp 5.3.2 Tài nguyên sử dụng GSR – Decay_Factor Laplace Accuracy Luật kết hợp 95.7 82.84 77.92 87.04 CPARGR 95.13 86.8 79.22 87.04 78.52 85.23 87.4 82.55 93.43 87.61 84.21 87.43 CPAR BIỂU ĐỒ ĐỘ CHÍNH XÁC PHÂN LỚP RAM (MB) 57.52 59.9 CPAR CPAR-GR 120 100 80 5.3.3 Kết tạo luật 60 Qua bảng thống kê 5.3 cho thấy độ xác luật kết hợp tạo tương đối cao mức 98% 40 20 Hình 0.2 Biểu đồ độ xác phân lớp giải thuật CPAR CPAR-GR KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua thực hai giải thuật CPAR CPAR-GR liệu học sinh cho thấy 97 với GSR – Decay_Factor thay đổi từ 0.6- 1/3 sang 0.99 – 2/3 hệ số GSR – Decay_Factor nhỏ dẫn đến việc thực lặp xảy nhiều lần So dánh CPAR CPAR-GR CPAR-GR cải tiến lại sử dụng tài nguyên thời gian thực nhìn chung nhiều hơn, đổi lại độ xác phân lớp CPAR-GR hầu hết liệu cao liệu, thu giảm số chiều tập liệu Khắc phục tình trạng có số trường hợp luật kết hợp sinh vế điều kiện có thuộc tính Tiến hành thu thập thêm liệu lĩnh vực quản lý học sinh lĩnh vực khác nhằm củng cố thực nghiệm tính ưu việt sau cải tiến thuật toán CPAR-GR Trong thời gian tới tập trung áp dụng có hiệu phương pháp tiền xử lý TÀI LIỆU THAM KHẢO [1] V T N Châu, “Luật kết hợp,” Giáo trình khai phá liệu, Đại học Quốc gia Tp Hồ Chí Minh, 2012, p 11 [2] N Kaoungku, K Suksut, R Chanklan, K Kerdprasop N Kerdprasop, Data Classification Based on Feature Selection with Association Rule Mining, Hong Kong: International MultiConference of Engineers and Computer Scientists , 2017 [3] S Sulova, Association Rule Mining for Improvement of IT Project Management, TEM Journal Volume 7, Issue 4, 2018, pp 717-722 [4] Y Li, J Wang, L Duan, T Bai, X Wang, Y Zhang G Qin, Association RuleBased Feature Mining for Automated Fault Diagnosis of Rolling Bearing, Hindawi, 2019 [5] X Yin, J Han Jiawei, CPAR: Classification based on Predictive Association Rules, Proc 3rd SIAM International Conference on Data Mining, 2003, pp 331-335 [6] M Nandhini S N Sivanandam, An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis, Tamil Nadu,India: Sadhan Indian Academy of Sciences, 2015 [7] "Machine Learning Repository," University of California, [Online] Available: https://archive.ics.uci.edu/ml/index.php 98 Tác giả chịu trách nhiệm viết: Tp HCM, ngày 22 tháng 12 năm 2020 Họ tên: Nguyễn Văn Chiến Xác nhận giảng viên hướng dẫn Đơn vị: Trường ĐH Sư phạm Kỹ Thuật Tp.Hồ Chí Minh (Ký & ghi rõ họ tên) Điện thoại: 0973422537 Email: nguyenvanchien12@gmail.com TS Nguyễn Thành Sơn 99 S K L 0 ... Nghiên cứu giải thuật phân lớp dựa luật kết hợp dự báo 1.3 Nhiệm vụ phương pháp  Tìm hiểu giải thuật phân lớp kết hợp  Tìm hiểu giải thuật phân lớp dựa luật kết hợp dự báo  Tìm hiểu giải thuật. .. phá luật kết hợp  Tìm hiểu tốn phân lớp dựa luật kết hợp dự báo  Tìm hiểu tốn dự báo tình hình nghỉ bỏ học học sinh cài đặt giải thuật CPAR-GR phân tích số liệu để đưa dự báo số lượng học sinh. .. giải thuật cải tiến giải thuật phân lớp dựa luật kết hợp dự báo xxiv  Sử dụng luật phân lớp kết hợp để phân tích liệu học sinh đưa kết luận tình trạng học sinh nghỉ bỏ học 1.4 Kết đạt Trình bày

Ngày đăng: 14/12/2022, 00:06

Tài liệu cùng người dùng

Tài liệu liên quan