Bước 4: Phân tích dữ liệu học sinh.

Một phần của tài liệu Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh (Trang 100 - 105)

+ Từ dữ liệu học sinh hiện hành đang có của học sinh đang theo học tại nhà trường, tiến hành lập cơ sở dữ liệu trên tập tin Excel tương tự như tập huấn luyện theo dạng như sau:

+ Tại thẻ CPAR-GR của ứng dụng nhấn nút Import test data chọn đường dẫn tới tập tin cần phần tích, sau khi chọn dữ liệu sẽ hiển thị tại khung bên dưới.

+ Nhấn nút Run Test để bắt đầu phân tích, ứng dụng sẽ ghi dữ liệu ra file Excel là kết quả dự đoán từ luật đã được tạo ở bước trước.

+ Người dùng có thể nhấn nút Clear test để nạp dữ liệu test khác và nhấn lại Run test để dự đoán kết quả cho tập dữ liệu mới này.

ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TOÁN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG GIẢI BÀI TOÁN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG

HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH”

AN IMPROVED PREDICTIVE ASSOCIATION RULE BASED CLASSIFIER INTO THE PROBLEM OF “FORECASTING HIGH SCHOOL DROPOUT SITUATION IN HO CHI

MINH CITY”

Nguyễn Văn Chiến, Nguyễn Thành Sơn

Trường đại học Sư phạm Kỹ thuật Tp.HCM

TÓM TẮT

Phân lớp dựa trên luật kết hợp là giải pháp hiệu quả trong lĩnh vực khai phá dữ liệu, các giải thuật như Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR … là các phương thức tạo ra các luật kết hợp dùng để dự đoán nhãn lớp một cách hiệu quả. Tuy nhiên về chất lượng các bộ luật cần được cải tiến để đạt được độ chính xác dự đoán ngày càng cao hơn. Trong bài báo này giới thiệu giải thuật CPAR-GR là một cải tiến của giải thuật CPAR về chất lượng luật kết hợp được tạo ra và áp dụng vào bài toán phân tích dữ liệu nguyên nhân tình hình nghỉ bỏ học của học sinh trung học.

Từ khóa: CPAR, CPAR-GR; Luật kết hợp; Phân lớp kết hợp; CAR.

ABSTRACT

Classification based on Predictive Association Rules is an effective solution in the field of data mining, Algorithms such as Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR, etc are methods of creating association rules used to predict class labels. However, improvements in the quality of the association rules are needed to achieve higher predictive accuracy. In this paper, CPAR-GR is an innovative of CPAR algorithm on the quality of association rules created and applied to the problem of analyzing the data causes of dropout of high school students.

Keywords: CPAR; CPAR-GR; Association Rules; Classification based on Predictive Association

Rules; CAR.

1. GIỚI THIỆU.

Các kỹ thuật phát hiện tri thức và khai phá dữ liệu được thực hiện qua nhiều giai đoạn và sử dụng nhiều kỹ thuật như phân lớp (classification), gom cụm (clustering), phân tích sự tương tự (similarity analysis), tổng hợp (summarization), luật kết hợp (association rules), … Một trong những nội dung cơ bản và phổ biến trong khai phá dữ liệu là phát hiện các luật kết hợp và phân lớp dựa trên luật kết hợp. Phương pháp này nhằm tìm ra các tập thuộc tính thường xuất hiện đồng thời trong cơ sở dữ liệu và rút ra các luật về ảnh hưởng của một tập thuộc tính dẫn đến sự xuất hiện của một hoặc

nhằm phát hiện sớm những trường hợp có nguy cơ bỏ học từ đó có biện pháp can thiệp giúp đỡ các em có thể tiếp tục việc học, đồng thời giúp người đứng đầu các cơ sở giáo dục chủ động nắm bắt số liệu phục vụ thiết thực cho các kế hoạch hoạt động của cơ sở do mình quản lý.

Bài báo này nhằm mục đích giới thiệu và đánh giá hiệu quả của những cải tiến trong thuật toán CPAR-GR và ứng dụng vào phân tích tình hình nghỉ bỏ học của học sinh trung học tại Thành phố Hồ Chí Minh.

Phần còn lại của bài báo gồm: phần 2 là Một số khái niệm và công trình liên quan. Phần 3 là

trình bày trong phần 4. Phần 5 là Kết luận và hướng phát triển của đề tài.

2. MỘT SỐ KHÁI NIỆM VÀ CÔNG TRÌNH LIÊN QUAN. TRÌNH LIÊN QUAN.

2.1. Một số khái niệm cơ bản

I = {i1, i2, …in} là tập bao gồm n mục phân biệt (item – còn gọi là các thuộc tính –

attribute) [1].

D = {t1, t2, …tm} là tập gồm m giao dịch gọi là cơ sở dữ liệu giao dịch, mỗi t có một định danh duy nhất được ký hiệu là TID (Transaction Identification) và chứa tập các mục trong I [1].

Một luật định nghĩa sự kéo theo có dạng X

⇒ Y trong đó X,Y ⊆ I và X ∩ Y = Ø [1]. X gọi là phần mệnh đề điều kiện

Y gọi là mệnh đề kết quả của luật tương ứng Độ phổ biến Supp(X) = |X| / |D| Supp(X ⇒ Y) = |{T ⊆ D:X ∪ Y ⊆ T}| / |D| Độ tin cậy Conf(X⇒Y) =Supp(X⇒Y) Supp(X)

2.2. Các công trình liên quan

- Luật nguyên tử (Construct Concise and Accurate Classifier by Atomic Association) khai thác tạo ra tập luật nhỏ nhất và đơn giản nhất để phân lớp. Các luật nguyên tử mạnh với mức độ chính xác cao nhất và gần cao nhất có thể thực hiện phân lớp từng phần một cách chính xác. Kết quả cho thấy giải thuật được đề xuất không chỉ đạt được độ chính xác phân lớp cao nhất mà còn tạo ra bộ luật phân lớp kết hợp nhỏ nhất; hơn nữa, nó chạy nhanh hơn nhiều so với giải thuật phân lớp kết hợp hiện có.

- Phân lớp dựa trên lựa chọn đặc điểm với khai phá luật kết hợp [2]. nhóm tác giả Nuntawut Kaoungku, Keerachart Suksut, Ratiporn Chanklan, Kittisak Kerdprasop và Nittaya Kerdprasop trong nghiên cứu đề xuất năm 2017 sử dụng khai phá luật kết hợp để tạo ra các luật chứa các tính năng thường xuyên

- Khai phá luật kết hợp để quản lý dự án công nghệ thông tin [3]. Được tác giả Snezhana Sulova (công tác tại Đại học Kinh tế - Varna, Bulgaria, công bố tháng 10 năm 2018) đã phát hiện ra các liên kết không xác định giữa các nhân viên có thể giúp tạo ra dự án tốt hơn bằng cách sử dụng song song hai giải thuật FP- Growth và Apriori đối sánh kết quả sinh luật kết hợp, kết quả thu được chứng minh rằng khai phá luật kết hợp có thể tạo ra các dữ kiện hữu ích hoặc liên kết giữa dữ liệu và dựa trên chúng, người quản lý dự án có thể thực hiện quyết định quan trọng.

Một phần của tài liệu Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh (Trang 100 - 105)

Tải bản đầy đủ (PDF)

(112 trang)