1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng một số giải thuật data mining vào kết quả học tập THCS Chu Văn An

93 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 2,62 MB

Nội dung

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** BÙI THỊ KIM NGÂN ỨNG DỤNG MỘT SỐ GIẢI THUẬT DATA MINING VÀO KẾT QUẢ HỌC TẬP THCS CHU VĂN AN Luận văn Thạc sỹ Công nghệ Thông tin Đồng Nai ,2018 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ***** BÙI THỊ KIM NGÂN ỨNG DỤNG MỘT SỐ GIẢI THUẬT DATA MINING VÀO KẾT QUẢ HỌC TẬP THCS CHU VĂN AN Chuyên ngành công nghệ thông tin 6048 02 01 Luận văn Thạc sỹ Công nghệ Thông tin Người hướng dẫn khoa học: PGS- TS: Vũ Thanh Nguyên Đồng Nai ,2018 iii LỜI CẢM ƠN Em xin chân thành cảm ơn toàn thể thầy cô giáo nhà trường đại học Lạc Hồng - Biên Hòa – Đồng Nai, người tận tì nh dạy cho em suốt trì nh học tập tr ường Em xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới P.Giáo sư - Tiến sĩ : Vũ Thanh Nguyên , người tận tình hướng dẫn giúp đỡ em suốt quátrì nh thực luận văn Em xin gửi lời cảm ơn tới P Giáo sư – TS: Trần Văn Lăng- trưởng khoa CNTT , toàn thể cán giáo viên làm việc trường, thầy tận tình hướng dẫn, bảo em suốt quátrình học tập trường Xin chân thành cảm ơn tới Ban giám hiệu Trường THCS Chu Văn An-Đắk Nhau–Bù Đăng – Bình Phước tạo điều kiện cho tơi có tư liệu qbáu trì nh làm luận văn Cuối em xin bày tỏ lòng cảm ơn sâu sắc tới người thân yêu gia đình dành quan tâm đặc biệt, động viên khí ch lệ kịp thời sống suốt quátrình học tập Do thời gian nghiên cứu cóhạn , chắn luận văn không tránh khỏi hạn chế Em mong nhận góp ý, nhận xét qthầy để Luận văn em hồn thiện Đồng Nai ngày tháng năm 2018 Học viên Bùi Thị Kim Ngân MỤC LUC CHƯƠNG …… GIỚI THIỆU …………………………………………………………………………………………….1 1.1 Đặt vấn đề…………………………………………………………………………………… 1.2 Mục tiêu đề tài………………………………………………………………………… 1.3 Cấu trúc báo cáo ……………………………………………………………………………………3 1.3.1 Nội dung thực hiên…………………………………………………………………………3 1.3.2 Phương pháp thực hiện………………………………………………………………… 1.3.3 Dự kiến kết đạt được………………… …………………………………………….4 CHƯƠNG ………………………………………………………………………………………… CƠ SỞ LÝ THUYẾT ……………………………………………………………………………………5 2.1 Khai phádữ liệu ……… ………………………………………………………………………… 2.2 Quátrình khai phádữ liệu ………………………………………………………… 2.2.1 Tìm hiểu nghiệp vụ (Business Understanding)…………………………………………… 2.2.2 Tìm hiểu liệu (Data Understanding) …………………………………………………7 2.2.3 Chuẩn bị liệu (Data Preparation)………………………………………… ……… 2.2.4 Mơhình hóa liệu (Data Modeling……….…………………………………………………8 2.2.5 Đánh giá (Evaluation) ………………………………………………………………………… 2.2.6 Triển khai (Deployment)………………………………………………………………… 2.3 Các giải thuật khai phádữ liệu ……………………………………… 2.3.1 Luật kết hợp(Asociation rule) ………………………………………………………………… 2.3.1.1 Định nghĩa ……………………………………………………………………………………9 2.3.1.2 Giải thuật Apriori… …………………………………………………………………………10 2.3.1.3 Thuật toán MRApriori cải tiến…………………………………………………………12 2.3.2 Phân nhóm liệu (data clustering)……………………………………………… 16 2.3.2.1 Phân nhóm phân cấp (Hierarchical clustering)… ………………………………………18 2.3.2.2 Phân nhóm theo cụm (Partitioning clustering) ………………………………………19 2.3.2.3 Giải thuật (K-means)…………………………………………………………………………20 2.3.2.4 Cây định…………………………………………………………………………………21 2.3.2.4.1 Giới thiệu định……………………………………………………………….21 2.3.2.4.2 Xây dựng định………………………………………………………………… 22 2.4 Giới thiệu công cụ WEKA……………………………………………………………………… 26 2.5 Tổng kết…………………………………………………………………………………………… 27 CHƯƠNG 3…………………………………………………………………………………………… 28 MƠ TẢ BÀI TỐN…………………………………………………………………………………… 28 3.1 Đặt vấn đề………………………………………………………………………………………… 28 3.2 Giải vấn đề ………………………………………………………………………………… 28 3.2.1 Môtả tốn…………………………………………………………………………….28 3.2.2 Phân tích tốn……………………………………………………………………………….29 3.2.2.1 Bài tốn đánh giá mối quan hệ môn học ……………………………………….30 3.2.2.2 Bài tốn tì m kiếm vấn đề bất thường môn học……………………………30 3.2.3 Xác định độ đo ………………………………………………………………………………… 35 3.2.4 Mơtả liệu…………………………………………………………………………………… 37 3.2.5 Chuẩn hóa liệu đầu vào cho thuật toán………………………………………………… 38 3.3 Kết luận………………………………………………………………………………………………40 CHƯƠNG 4…………………………………………………………………………………………… 40 ĐÁNH GIÁ VÀ TÌM CÁC VẤN ĐỀ BẤT THƯỜNG GIỮA CÁC MÔN HỌC……………… 40 A.ĐÁNH GIÁ MỐI QUAN HỆ GIỮA CÁC MÔN HỌC………………………………………… 40 4.1 Giới thiệu toán…………………………………………………………………………………40 4.2 Bổ xung thực nghiệm…………………………………………………………………………… 42 4.2.1 Xét mối quan hệ cặp môn học M5 vàM6………………………………………………42 4.2.2 Xét mối quan hệ cặp môn học M3 vàM4………………………………………………48 4.2.3 Sử dụng cơng cụ hỗ trợ để tì m kiếm luật liên kết……………………………………….53 B TÌM KIẾM CÁC VẤN ĐỀ BẤT THƯỜNG CỦA CÁC MÔN HỌC………………………….62 4.3 Giới thiệu tốn……………………………………………………………………………… 62 4.4 Phân tích tốn………………………………………………………………………………….62 4.5 Bổ sung thực nghiệm…………………………………………………………………………… 66 4.6 Quy trình hóa qtrình tì m kiếm vấn đề bất thường môn học …………… 67 4.6.1 Môtả liệu…………………………………………………………………………………… 67 4.6.2 Đánh giá kết môn học thuộc khối ALL khoi.arff………………………… 68 4.6.2.1 Chuẩn bị liệu đưa vào mơ hình phân nhóm………………………………………… 68 4.6.2.2 Mơhình hóa liệu ………………………………………………………………………….70 4.6.2.3 Đánh giá kết quả………………………………………………………………………………73 4.6.3 Đánh giá kết tất môn học ……………………………………………………… 73 4.6.3.1 Chuẩn bị liệu……………………………………………………………………………….73 4.6.3.2 Mơhình hóa liệu ………………………………………………………………………….75 4.6.3.3 Đánh giá kết quả………………………………………………………………………………77 4.6.4 Đánh giá kết thu từ việc phân nhóm liệu mơn học……………… 78 4.6.4.1 Phân tích kết quả………………………………………………………………………………78 4.6.4.2 Tìm kiếm mơn học thuộc nhóm đột biến………………………………………………79 C KẾT LUẬN………………………………………………………………………………………… 80 CHƯƠNG 5…………………………………………………………………………………………… 81 KẾT LUẬN-HƯỚNG PHÁT TRIỂN……………………………………………………………… 81 5.1 Kết luận…………………………………………………………………………………………… 81 5.2 Hướng phát triển………………………………………………………………………………… 82 TÀI LIỆU THAM KHẢO…………………………………………………………………………… 83 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Cụm từ đầy đủ ALL khối Tất khối Artificial Intelligent Trítuệ nhân tạo Association rule Luật kết hợp Business Understanding Tìm hiểu nghiệp vụ Classification Phân loại Curriculum Chương trình đào tạo Data clustering Phân nhóm liệu Data mining Khai phádữ liệu Data Modeling Mơhì nh hóa liệu Data Preparation Chuẩn bị liệu Data Understanding Tìm hiểu liệu Deployment Triển khai Evaluation Đánh giá Hierarchical clustering Phân nhóm phân cấp HK1, HK2 Học kỳ 1, Học kì2 Machine learning Máy học Partitioning clustering Phân nhóm theo cụm Supervised learning Học có điều khiên TB Trung bì nh TBMHKI Trung bì nh mơn học kì1 TBMHKII Trung bì nh mơn học kì2 THCS Trung học sở Unsupervised learning Học khơng có điều khiển DANH MỤC HÌNH Hình 2.1 - Quátrình khai phádữ liệu Hình 2.2 - Giải thuật tì m luật liên kết 11 Hình 2.3 - Giải thuật Apriori 11 Hình 2.4 - Giải thuật để tạo tập k phần tử từ tập frequent k-1 itemset 11 Hình 2.5 – Mơhì nh luồng liệu 14 Hình 2.6 - Khoảng cách Euclidean hai điểm 19 Hình 2.7 - Dendrogram 19 Hình 2.8 - Giải thuật K-means 21 Hình 2.9 – Mơhì nh định 21 Hình 2.10 – Kết định 24 Hình 2.11 – Kết phân tí ch môn học tập liệu All khoi.arff 25 Hình 2.12 - WEKA Explorer 26 Hình 3.1 - Sự tương tác yếu tố ảnh hưởng tới hiệu môn học 33 Hình 4.1 - Kết đánh mơn học M5 vàM6 HK1 năm học 2014-2015 43 Hình 4.2 - Kết đánh giá tất học sinh môn học M5 vàM6 47 Hình 4.3 - Kết đánh giá M3 M4 (chọn M3 học kỳ năm 2014) 50 Hình 4.4 - Kết đánh giá M3 M4 (chọn M3 học kỳ năm 2015) 50 Hình 4.5 - Kết đánh giá M3 M4 (chọn M3 học kỳ năm 2016) 51 Hình 4.6 -Quátrình xử lýdữ liệu kết môn học M3 vàM4 luật kết hợp thu 56 Hình 4.7 - Kết xử lýdữ liệu kết môn học M3 vàM4 56 Hình 4.8 - Biểu đồ thống kêkết môn C1 – Học kỳ năm 2015-2016 63 Hình 4.9 - Biểu đồ thống kêkết môn C1 qua học kỳ 63 Hình 4.10 - Tập tin liệu nhập ALL khoi.arff 69 Hình 4.11 - Quátrình đưa tập tin liệu nhập All khoi.arff vào WEKA 70 Hình 4.12 - Qtrình phân nhóm tập liệu ALL khoi.arff 71 Hình 4.13 - Kết thu từ qtrình phân nhóm liệu tập tin ALL khoi.arff 71-72 Hình 4.14 - Biểu đồ nhóm liệu thcva 73 Hình 4.15 - Tập tin ALL datakhoi.arff 74-75 Hình 4.16 - Quá trình đưa tập tin liệu nhập ALL datakhoi vào WEKA 75 Hình 4.17 - Qtrình phân nhóm tập liệu ALL datakhoi.arff 76 Hình 4.18 - Biểu đồ nhóm liệu ALL datakhoi.arff 77 DANH MỤC BẢNG Bảng 2.1 – Bảng liệu học sinh………………………………… ………………………….24 Bảng 3.1 - Độ ảnh hưởng nhân tố ảnh hưởng tới môn học………………………….33 Bảng 3.2 – Tổng hợp kết học kì …………………………………….…………………….37 Bảng 3.3- Số lượng học sinh lớp khối 6……………………………… …………………38 Bảng 3.4 - Phân loại điểm học sinh dựa thang định danh……………………………….40 Bảng 4.1 - Bảng đánh giá kết mối quan hệ HKI vàHKII… ………………………42 Bảng 4.2 - Kết đánh giá môn học M5 vàM6 HK1 HKII năm học 2014-2015 ……………………………………………………………………… ………………….43 Bảng 4.3 - Kết học tập học sinh trường hợp A2………………………… 43 Bảng 4.4 - Kết học tập học sinh trường hợp C1 qua học kỳ………………44 Bảng 4.5 - Kết học tập học sinh trường hợp C2………………………… 45 Bảng 4.6 - Kết học tập tất học sinh môn học M5 vàM6…… ………………….47 Bảng 4.7 - Tỉ lệ đột biến trường hợp A2…………………………………………………47 Bảng 4.8 - Tỉ lệ đột biến trường hợp C1…………………………………………………47 Bảng 4.9 - Tỉ lệ đột biến trường hợp C2…………………………………………………47 Bảng 4.10 - Kết đánh giá mối quan hệ M3 vàM4 (chọn M3 học kỳ 1-2014) …………………………………………………………………………… …………….49 Bảng 4.11 - Kết đánh giá mối quan hệ M3 vàM4 (chọn M3 học kỳ 2-2015) ……………………………………………………………………………… ………….49 Bảng 4.12 - Kết đánh giá mối quan hệ M3 vàM4 (chọn M3 học kỳ 1-2016) ……………………………………………………………………………… ………….50 Bảng 4.13 - Kết đánh giá mối quan hệ M3 vàM4 qua tất học kỳ………… …… 52 Bảng 4.14 - Dữ liệu nhập dùng để đánh giá mối quan hệ M3 vàM4……………… …55 Bảng 4.15 - Thống kêđiểm môn học C1……………………………………………………….62 Bảng 4.16 - Kết môn học học kỳ năm học 2015-2016……………………….……66 Bảng 4.17 - Thông tin chi tiết nhóm liệu All khoi.arff… ……………………….72 Bảng 4.18 – Thơng tin chi tiết nhóm liệu All datakhoi.arff……………………….77 69 + Cột (TB): tỉ lệ phần trăm số điểm Trung bì nh + Cột (KEM): tỉ lệ phần trăm số điểm Kém Dữ liệu tổng cộng có 179 đối tượng, đối tượng tạo từ 12 môn học khác Tập tin thcva.arff sau đưa vào cơng cụ WEKA Hình 4.11 @relation All khoi @attribute GIOI numeric @attribute KHA numeric @attribute TB numeric @attribute KEM numeric @data 0,0.06,0.09,0.85 0,0.02,0.14,0.84 0.01,0.05,0.15,0.79 0.01,0.08,0.48,0.43 0.33,0.35,0.31,0.01 0.06,0,0.43,0.51 0.07,0.14,0.22,0.56 0.06,0.06,0.29,0.59 0.49,0.2,0.14,0.16 0.03,0.06,0.33,0.57 0.06,0.03,0.31,0.6 0.61,0,0.33,0.06 0.02,0.03,0.18,0.77 0.06,0.19,0.53,0.22 0.02,0.03,0.34,0.62 0,0,0.09,0.91 0,0.02,0.26,0.73 0.33,0.4,0.21,0.06 0,0.05,0.21,0.74 0.05,0.11,0.11,0.74 0.01,0.04,0.09,0.87 0.21,0.13,0.26,0.39 0.08,0.17,0.36,0.39 0.64,0.02,0.14,0.2 0.15,0.21,0.44,0.2 0,0.02,0.12,0.86 0.15,0.41,0.38,0.07 0.05,0.17,0.35,0.42 0.26,0.17,0.26,0.3 0.03,0.21,0.38,0.38 0.04,0.11,0.28,0.57 0.02,0.04,0.15,0.79 0.18,0.44,0.29,0.09 0.05,0.16,0.64,0.15 70 0.01,0.11,0.21,0.67 Hì nh 4.10 - Tập tin liệu nhập ALL khoi.arff Hì nh 4.11 - Quátrì nh đưa tập tin liệu nhập ALL khoi.arff vào WEKA 4.6.2.2 Mơhì nh hóa liệu Ta sử dụng trực tiếp cơng cụ Weka để phân tí ch liệu -Giải thuật chọn làSimpleKMeans: weka.clusterers.SimpleKMeans, sử dụng giải thuật K-Means để phân nhóm liệu (Hình 4.12) - Giải thuật SimpleKMeans nhận tập ALL khoi.arff làm liệu nhập vàmột thông số quan trọng khác là–N, dùng để xác định số nhóm Đối với thơng số -N, ta chọn số nhóm là5, vìsố lượng kết loại Giỏi, Khá, Trung bình Kém xác định theo tỉ lệ phần trăm, tức làcógiátrị khoảng [0,1], ta chọn số nhóm qnhỏ thìkhoảng cách đối tượng nhóm quálớn, ngược lại ta chọn số nhóm qlớn thìmức độ chênh lệch qnhỏ Qua việc đánh giá kết thực nghiệm thu từ việc chọn số nhóm khác xử lývới Weka, ta chọn số nhóm thí ch hợp là5 nhóm Kết đầy đủ trả từ chương trình Weka trì nh bày Hình 4.13 Thơng tin chi tiết nhóm liệu thu trì nh bày Bảng 4.17 Từ thông tin chi tiết nhóm, ta xây dựng biểu đồ nhóm liệu trì nh bày Hình 4.14 71 Hì nh 4.12 - Qtrình phân nhóm tập liệu ALL khoi.arff KMeans ====== Number of iterations: Within cluster sum of squared errors: 9.65175037933618 Initial starting points (random): Cluster 0: 0.13,0.33,0.3,0.23 Cluster 1: 0.01,0.08,0.24,0.67 Cluster 2: 0.32,0.45,0.21,0.03 Cluster 3: 0.06,0.41,0.43,0.11 Cluster 4: 0.21,0.13,0.26,0.39 Missing values globally replaced with mean/mode 72 Final cluster centroids: Cluster# Attribute Full Data (179.0) (52.0) (55.0) (19.0) (34.0) (19.0) ========================================================= ==================== GIOI 0.1047 0.0498 0.0304 0.2384 0.0962 0.3516 KHA 0.2022 0.1492 0.0745 0.4737 0.3526 0.1758 TB 0.3105 0.431 KEM 0.3834 0.3712 0.2064 0.2279 0.6898 0.0605 0.3988 0.2068 0.1541 0.2632 Time taken to build model (full training data) : 0.01 seconds === Model and evaluation on training set === Clustered Instances 52 ( 29%) 55 ( 31%) 19 ( 11%) 34 ( 19%) 19 ( 11%) Hì nh 4.13 - Kết thu từ quátrì nh phân nhóm liệu tập tin ALL khoi.arff Nhó m Giỏi 0.13 0.01 0.32 0.06 0.21 Khá 0.33 0.08 0.45 0.41 0.13 Trung bì nh 0.3 0.24 0.21 0.43 0.26 Kém 0.23 0.67 0.03 0.11 0.39 Số đối tượng 52 55 19 34 19 Bảng 4.17 - Thông tin chi tiết nhóm liệu ALL khoi.arff Tỉ lệ 29% 31% 11% 19% 11% 73 Biểu đồ nhóm liệu All khoi.arff 0,8 Số lượng 0,7 0,6 0,5 Nhóm 0,4 Nhóm 0,3 Nhóm 0,2 0,1 Nhóm Nhóm Giỏi Khá Trung bình Kém Loại Hì nh 4.14 - Biểu đồ nhóm liệu ALL khoi.arff 4.6.2.3 Đánh giá kết - Các nhóm kết códạng hì nh chng: nhóm vànhóm 3, chiếm 48% - Các nhóm cịn lại là1,2 và4 làcác nhóm có dạng biểu đồ đặc trưng, tức mơn học thuộc vào nhóm mơn học có điều khơng bì nh thường Kết luận chung suy từ kết thu từ chương trình là: số mơn học All khoi.arff, thìtỉ lệ mơn học có kết dạng bình thường chiếm 48%, nhóm mơn học kết sinh viên giỏi chiếm 7,3% vànhóm mơn học cókết sinh viên nhiều làchiếm đến 45% Một câu hỏi đặt là: “Phải chương trình học thcva làq nặng nên cóqnhiều học sinh khơng thể đạt kết học tập tốt?” Để có nhìn rõ kết học tập học sinh thcva, ta đánh giákết môn học thuộc khối lớp khác tổ chức qua học kỳ khác năm học 2013-2014, 2014-2015, 2015-2016 đánh giá điểm thi lần 4.6.3 Đánh giá kết tất môn học 4.6.3.1 Chuẩn bị liệu Quá trì nh biến đổi liệu giống biến đổi điểm ALL khoi.arff, nhiên thời gian để biến đổi liệu làrất lâu 74 Bảng liệu chứa điểm lần khối khác năm học 2013-2014, 20142015 và2015-2016 là2500 dòng (gấp 2500/179 = 13,9 lần liệu điểm lần môn học ALL khoi.arff) Tập tin ALL datakhoi.arff, chứa kết tất môn học thuộc khối khác tổ chức vào năm 2013-2014, 2014-2015 và2015-2016 (Hì nh 4.15) Dữ liệu tổng cộng có 1355 đối tượng, đối tượng tạo từ 51 môn học khác (nhiều gấp 3,7 lần tổng số môn học ALL khoi.arff) Tập tin ALL datakhoi.arff sau đưa vào cơng cụ WEKA Hình 4.16 @relation 'ALL datakhoi' @attribute GIOI numeric @attribute KHA numeric @attribute TB numeric @attribute KEM numeric @data 0,0.09,0.62,0.28 0,0.08,0.76,0.17 0,0.01,0.18,0.82 0.04,0.13,0.11,0.72 0.28,0.35,0.23,0.13 0.02,0.22,0.38,0.38 0.03,0.14,0.32,0.5 0.04,0.1,0.21,0.64 0,0,0.3,0.7 0.02,0.12,0.28,0.58 0.03,0.08,0.25,0.64 0.36,0.38,0.16,0.11 0.02,0.09,0.3,0.59 0,0,0.2,0.8 0.05,0.19,0.5,0.26 0.08,0.23,0.39,0.3 0,0.08,0.27,0.65 0.02,0.08,0.61,0.29 0.02,0.16,0.33,0.49 0,0,0.17,0.83 0.11,0.25,0.33,0.3 0.09,0.22,0.35,0.35 0.13,0.28,0.37,0.22 0,0.02,0.12,0.86 0,0,0.45,0.55 0.13,0.22,0.3,0.36 0,0.05,0.49,0.46 0.01,0.11,0.42,0.46 0.18,0.15,0.3,0.38 0.11,0.36,0.36,0.17 75 0.31,0.25,0.37,0.06 0,0.3,0.35,0.35 0,0.02,0.4,0.58 0.02,0.11,0.63,0.24 0.1,0.25,0.41,0.24 0,0.06,0.45,0.49 0,0.13,0.72,0.15 0,0.02,0.31,0.66 0.31,0.41,0.26,0.02 0,0.1,0.66,0.24 0.15,0.19,0.24,0.42 0.09,0.15,0.25,0.51 0.04,0.32,0.59,0.05 0.08,0.19,0.3,0.42 0.03,0.03,0.17,0.78 … … Hì nh 4.15 - Tập tin ALL datakhoi.arff Hình 4.16 - Quá trình đưa tập tin liệu nhập ALL datakhoi vào WEKA 4.6.3.2 Mơhì nh hóa liệu Ta sử dụng giải thuật SimpleKMeans cơng cụ WEKA để phân tí ch liệu Hì nh 4.17 Thơng tin chi tiết nhóm liệu thu trì nh bày Bảng 4.18 76 Từ thông tin chi tiết nhóm, ta xây dựng biểu đồ nhóm liệu trì nh bày Hình 4.18 kMeans ====== Number of iterations: 38 Within cluster sum of squared errors: 43.20970335288911 Initial starting points (random): Cluster 0: 0,0.04,0.48,0.48 Cluster 1: 0.1,0.18,0.28,0.44 Cluster 2: 0.08,0.62,0.25,0.05 Cluster 3: 0.29,0.18,0.26,0.26 Cluster 4: 0.06,0.34,0.3,0.29 Missing values globally replaced with mean/mode Final cluster centroids: Cluster# Attribute Full Data (1355.0) (215.0) (235.0) (351.0) (129.0) (425.0) =========================================================== ================== GIOI 0.1244 0.0273 0.0184 KHA 0.238 0.1681 0.053 TB 0.3453 KEM 0.2935 0.6341 0.1705 0.241 0.6859 0.1503 0.4534 0.3007 0.0953 0.5637 0.2669 0.1182 0.0776 0.189 0.3627 0.0645 Time taken to build model (full training data) : 0.04 seconds === Model and evaluation on training set === Clustered Instances 215 ( 16%) 235 ( 17%) 351 ( 26%) 129 ( 10%) 425 ( 31%) Hình 4.17 - Qtrình phân nhóm tập liệu ALL datakhoi.arff 0.3719 77 Nhóm Giỏi 0,0 0,1 0,08 0,29 0,06 Khá 0,04 0,18 0,62 0,18 0,34 Trung bình 0,48 0,28 0,25 0,26 0,3 Số đối tượng 215 235 351 129 425 Kém 0,48 0,44 0,05 0,26 0,29 Tỉ lệ 16% 17% 26% 10% 31% Bảng 4.18 - Thông tin chi tiết nhóm liệu ALL datakhoi.arff Biểu đồ nhóm liệu All datakhoi 0,7 0,6 Nhóm Số lượng 0,5 Nhóm 0,4 Nhóm 0,3 Nhóm 0,2 Nhóm 0,1 Giỏi Khá Trung bình Kém Hì nh 4.18 - Biểu đồ nhóm liệu ALL datakhoi.arff 4.6.3.3 Đánh giá kết - Các nhóm kết códạng hì nh chng: nhóm vànhóm , chiếm 41% - Các nhóm cịn lại là0,1 và2 làcác nhóm có dạng biểu đồ đặc trưng, tức mơn học thuộc vào nhóm mơn học có điều khơng bình thường Trong đó: - Nhóm và1 có hình dạng đặc trưng gần giống nhau, tỉ lệ giỏi thấp, thấp tỉ lệ khá, tỉ lệ kháthấp tỉ lệ trung bình vàcao làkém, tức làở nhóm có điểm đặc trưng chung điểm (

Ngày đăng: 16/08/2020, 10:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w