Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
474,23 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN - - ĐỀ CƯƠNG NGHIÊN CỨU KHOA HỌC GIẢI BÀI TOÁN PHÂN LỚP KHÔNG CÂN ĐỐI TRÊN DỮ LIỆU ĐIỂM CỦA SINH VIÊN CNTT ĐẠI HỌC BÁCH KHOA TPHCM Học viên thực hiện: Phạm Hoàng Dũng GVHD: TS Nguyễn Ánh Hồng Tp Hồ Chí Minh, tháng 05, năm 2013 TĨM TẮT Một tốn khai phá liệu hữu ích lĩnh vực giáo dục toán phân lớp (classification) áp dụng liệu giáo dục để dự đoán kết cuối sinh viên giúp cải thiện kết họ Yêu cầu giải thuật phân lớp tốt mơ hình phân lớp thu phải có độ xác dự đốn cao, có tính dễ hiểu người dùng không chuyên khai phá liệu Một thách thức toán phân lớp liệu giáo dục là, tập liệu giáo dục thường loại tập liệu không cân đối, số sinh viên thường nhiều so với số sinh viên giỏi Nhiều giải thuật phân lớp cổ điển thu kết không tốt tập liệu không cân đối, chúng có khuynh hướng khơng ý đến lớp thiểu số, ý đến lớp đa số Hậu mơ hình phân lớp thu không phân loại đắn trường hợp liệu tương ứng với lớp có đại diện Trong số giải thuật thường dùng cho toán phân lớp, giải thuật Neural Network có độ xác cao mơ hình khó hiểu người dùng thời gian chạy thường lớn; giải thuật C4.5 có độ xác cao, chạy nhanh dễ hiểu người dùng, tập liệu có nhiều thuộc tính định thu khó hiểu; giải thuật Nạve Bayes vừa có độ xác khơng cao vừa khó hiểu Khi áp dụng kết hợp biện pháp tiền xử lý lấy mẫu dư (oversampling) lớp thiểu số lấy mẫu thiếu (undersampling) lớp đa số, kết phân lớp tốt hơn, việc tiền xử lý địi hỏi phải có kiến thức sâu, khơng phù hợp với người dùng không chuyên Đề tài đề xuất cách tiếp cận phân lớp liệu giáo dục không cân đối dựa quy hoạch di truyền (GP), cho mơ hình phân lớp tập luật dạng đơn giản dễ hiểu, có độ xác cao thời gian chạy chấp nhận Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng ABSTRACT One of the most useful data mining tasks in education is the problem of classification on educational data to predict final results of students and help them to improve their results The requirement for a good classification algorithm is that the discovered classification model must have a great prediction accuracy and it must be comprehensive to users who are not specialists in data mining Another challenge to the classification problem in education is that educational data sets usually are imbalanced ones, since the number of failed students is usually less than that of good/excellent students Many traditional classification algorithms obtained bad results on imbalance datasets, because they are more likely not pay attention to minority classes and favour majority ones instead Consequently, resulting classification models discovered will not appropriately classify new data instances corresponding to the classes having few representations Among the mostly used algorithms for the classification task, Neural Networks have high classification accuracy but cannot produce easy to understand classification models for users and its running time is usually very long; C4.5 can provide decision trees which be easy to interpret, yet their interpretability may diminish the more they become complex; Naïve Bayes networks are both low accuracy and difficult to understand When we combine oversampling the rare classes and undersampling the majority ones, classification performance will be better, but this preprocessing technique requires thorough knowledge, not suitable to non-professional users This project proposes a classification approach to imbalance educational data based on genetic programming (GP) whose resulting classification models are sets of classification rules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable running time Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hồng Dũng Mở đầu A Tính cấp thiết đề tài Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin phần cứng máy tính làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh đáng kể Bên cạnh đó, việc ứng dụng cơng nghệ thơng tin vào lĩnh vực sản xuất, kinh doanh, quản lý, … tạo lượng liệu lưu trữ khổng lồ Bên cạnh việc tổ chức lưu trữ quản lý liệu, nảy sinh nhu cầu cấp thiết cần có kỹ thuật cơng cụ để chuyển đổi lượng liệu khổng lồ thành tri thức có ích Nhu cầu dẫn đến khuynh hướng kỹ thuật Khai phá liệu (Data Mining), đơi cịn gọi Khám phá Tri thức Cơ sở liệu (Knowledge Discovery in Databases – KDD), với nhiều phương pháp, giải thuật mức độ hiệu khác Khai phá liệu (KPDL) lĩnh vực khám phá thông tin hữu ích tiềm tàng từ lượng liệu lớn KPDL ứng dụng nhiều lĩnh vực, bao gồm lĩnh vực bán lẻ (retail sales), sinh tin học (bioinformatics), chống khủng bố (counter-terrorism) Trong năm gần đây, ngày nhiều người quan tâm đến việc sử dụng KPDL để giải đáp vấn đề khoa học bên việc nghiên cứu giáo dục, lĩnh vực nghiên cứu gọi Khai phá Dữ liệu Giáo dục (Educational Data Mining – EDM) EDM q trình chuyển đổi liệu thơ sưu tập hệ thống giáo dục thành thơng tin hữu ích, dùng để trợ giúp việc đưa định sáng suốt giải đáp số vấn đề nghiên cứu lĩnh vực giáo dục Trào lưu nghiên cứu EDM lên đến đỉnh điểm vào năm 2008, với thành lập Tổ công tác Khai phá Dữ liệu Giáo dục Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng Quốc tế (International Working Group on Educational Data Mining 1), Tạp chí Khai phá Dữ liệu Giáo dục (Journal of Educational Data Mining – JEDM) Một toán KPDL hữu ích (và có lẽ nghiên cứu nhiều nhất) lĩnh vực giáo dục phân lớp hay phân loại (classification) [1] Nhiều mục đích giáo dục khác cần sử dụng phân lớp, chẳng hạn như: để khám phá nhóm sinh viên tiềm năng, có đặc điểm phản ứng tương tự chiến lược sư phạm đặc biệt đó, để phát việc sử dụng sai mục đích lạm dụng hệ thống học trực tuyến, để gom nhóm sinh viên cần khuyên bảo hay có khuynh hướng bị điểm tìm xem sinh viên có nhận thức sai mơn học, để nhận diện học viên có động lực học tập tìm kiếm biện pháp khắc phục để hạ thấp tỷ lệ buộc học, để dự đoán hay phân loại sinh viên sử dụng hệ thống trợ giáo thông minh, v.v… Hiện nay, kỹ thuật khai phá liệu giáo dục (KPDLGD) sử dụng nghiên cứu Hệ thống Trợ giáo Thông minh (Intelligent Tutoring System – ITS) Trí tuệ Nhân tạo Giáo dục (Artificial Intelligence in Education – AIED) khắp giới [6] Ví dụ, nhà nghiên cứu sử dụng KPDLGD để: • • • • • • Tìm yếu tố ảnh hưởng đến việc bỏ học học sinh Phát toan tính nghịch phá lạm dụng hệ thống học trực tuyến Định hướng học tập cho sinh viên Xây dựng điều chỉnh mơ hình sinh viên Ước lượng ảnh hưởng can thiệp cá nhân vào q trình học tập Dự đốn kết học tập cách hoạt động sinh viên, v.v… Hiện tại, nhiều loại phương pháp để phân lớp sinh viên với giải thuật trí tuệ nhân tạo khác áp dụng để dự đoán kết học tập, điểm số xếp hạng sinh viên Một số cơng trình ví dụ là: dự đốn kết cuối khóa giải thuật định (decision tree) ID3 đơn [4], giải thuật C4.5 so sánh với ID3 [3]; phân tích liệu năm học trước dự đoán kết học tập sinh viên năm học giải thuật mạng Bayes (Bayesian network), phân thành hai lớp Tổ công tác tổ chức Hội nghị Quốc tế Khai phá Dữ liệu Giáo dục (International Conference on Educational Data Mining) hàng năm quốc gia khác nhau, thành lập Hội Khai phá Dữ liệu Giáo dục Quốc tế (International Educational Data Mining Society, hội có Web site http://educationaldatamining.org), hàng tháng xuất số tạp chí JEDM Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng performer underperformer [7]; dự đoán điểm số sinh viên (hai lớp: pass fail) dùng kỹ thuật hồi quy (regression) liệu trường Hellenic Open University [8]; dự đoán điểm xếp hạng (grade) sinh viên (phân thành lớp low risk, medium risk high risk) cách dùng phương pháp phân loại khác [7]; phân loại sinh viên giải thuật di truyền để dự đoán điểm xếp hạng cuối khóa dựa liệu hệ thống quản học qua Web [10] Một vấn đề thường gặp toán phân lớp liệu là, nhiều giải thuật phân lớp cổ điển thu kết khơng tốt (độ xác phân lớp khơng cao) tập liệu không cân đối (imbalance data set) Vấn đề liệu không cân đối nảy sinh giải thuật học có khuynh hướng khơng ý đến lớp phổ biến (gọi lớp thiểu số – minority class), ý đến lớp phổ biến (gọi lớp đa số – majority class) Hậu mô hình phân lớp thu khơng phân loại đắn trường hợp liệu tương ứng với lớp có đại diện Dữ liệu kết xếp hạng cuối khóa, cuối năm, v.v… sinh viên thuộc loại liệu khơng cân đối, số sinh viên bị đánh rớt (fail) thường nhiều so với số sinh viên chấm đậu (pass), mà ta lại quan tâm đến trường hợp bị đánh rớt Với quốc sách tập trung cho giáo dục, số lượng sở giáo dục bậc cao (từ cao đẳng trở lên) lượng sinh viên nước ta năm gần gia tăng nhanh chóng Nhu cầu giải pháp KPDLGD nói chung tốn phân lớp liệu nói riêng ngày trở nên cấp bách Nhưng phân lớp liệu điểm sinh viên phải giải vấn đề liệu khơng cân đối, cho mơ hình phân lớp thu bị ảnh hưởng tính chất không cân đối liệu Mong muốn chúng tơi thực đề tài góp phần công sức nhỏ nhoi vào lĩnh vực cấp thiết quan trọng B Mục tiêu nghiên cứu, giả thuyết khoa học, đối tượng nghiên cứu, phạm vi ứng dụng đề tài B.1 Mục tiêu nghiên cứu Đề tài nghiên cứu ảnh hưởng kỹ thuật tái cân đối liệu tập liệu khơng cân đối, sau xây dựng giải pháp khả thi để giải toán phân lớp đối Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng với liệu giáo dục, có độ xác tính dễ hiểu so sánh với giải pháp phân lớp giáo dục thực cơng trình nêu bên B.2 Giả thuyết khoa học Giải pháp xây dựng áp dụng phương pháp lập trình di truyền (genetic programming – GP) Lý chọn loại giải thuật là: nhiều cơng trình nghiên cứu chứng tỏ áp dụng giải thuật tiến hóa (evolutionary algorithm – EA) bao gồm giải thuật di truyền (genetic algorithm – GA) GP toán phân lớp thu mơ hình có độ xác phân lớp cao (trên 90%) luật phân lớp dạng IF– THEN dễ hiểu người dùng, mơ hình thu khơng bị ảnh hưởng tính khơng cân đối liệu Thời gian chạy giải thuật khơng q lâu để chấp nhận B.3 Đối tượng nghiên cứu Việc nghiên cứu tiến hành tập liệu cụ thể tập liệu kết học tập môn học lớp sinh viên đại học thuộc khoa Khoa học Kỹ thuật Máy tính Đại học Bách Khoa TpHCM năm học từ 2005 đến 2009 Giải thuật tích hợp vào công cụ phổ biến WEKA để thuận tiện cho việc so sánh kết với giải thuật phân lớp khác việc lưu trữ mơ hình thu Mơ hình thu sau áp dụng giải thuật nói cho chạy thử số ghi liệu mới, khơng có tập liệu nghiên cứu, để đánh giá hiệu thực tiễn giải thuật B.4 Phạm vi ứng dụng Tuy đề tài nghiên cứu khách thể liệu điểm sinh viên khoa Khoa học Kỹ thuật Máy tính Đại học Bách Khoa TpHCM, kết nghiên cứu áp dụng cho liệu điểm trường cao đẳng, đại học khác theo phương thức đào tạo tín niên chế Lý là, chương trình đào tạo theo hệ tín có đặc điểm giống tính phức tạp sinh viên khác chọn học mơn học khác nhau, cịn chương trình đào tạo hệ niên chế sinh viên học số môn học giống nên liệu điểm đơn giản nhiều; giải pháp đề Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng xuất áp dụng cho liệu điểm phức tạp hệ tín hồn tồn áp dụng cho liệu điểm đơn giản niên chế B.5 Ý nghĩa đề tài B.5.1 Ý nghĩa khoa học Đề tài đóng góp biện pháp dễ thực (với trợ giúp máy tính) để dự đốn kết học tập sinh viên đại học theo hệ tín Kết quả, kinh nghiệm thu thực đề tài giúp tổ chức giáo dục, người làm công tác giáo dục (trước hết Việt Nam) đoán trước sinh viên có nhiều khả khơng đạt kết cuối bị buộc học Vấn đề dự đốn kết khơng thể đạt việc phân tích liệu truy vấn liệu đơn giản Kết thu đề tài áp dụng cho tập liệu kết học tập sở giáo dục đại học cao đẳng, trường áp dụng hệ tín lẫn trường cịn trì hệ niên chế B.5.2 Ý nghĩa thực tiễn Học đại học q trình dài khó khăn, địi hỏi sinh viên phải đầu tư nhiều công sức, tiền bạc cá nhân gia đình; thất bại dẫn đến tổn thất lớn tinh thần lẫn vật chất cho sinh viên gia đình họ Việc phát sớm khả thất bại ngành học bậc học theo đuổi giúp sinh viên đưa định điều chỉnh thích hợp, ví dụ như: tăng thêm tâm học tập nỗ lực nhằm đạt kết tốt, chuyển sang hướng khác phù hợp với lực (học nghề, học ngành khác, trường khác, cấp học khác) Việc phát sớm sinh viên có khả thất bại ngành học phụ trách giúp giáo viên đưa định nhằm ngăn ngừa chuyện xảy ra, ví dụ tăng cường nhắc nhở, khuyến khích sinh viên, tìm tịi cách truyền đạt hay hơn, giúp sinh viên dễ tiếp thu đạt kết học tập cao Biết trước sinh viên có nguy thất bại học tập, tổ chức giáo dục đề biện pháp thích hợp để tránh chuyện xảy ra, ví dụ đề nghị lộ trình học mà sinh viên nên theo, mơn học mà sinh viên nên chọn (đối với hệ tín chỉ) để đạt kết tốt Bài tốn Phân lớp không cân đối liệu điểm sinh viên Phạm Hoàng Dũng Việc học sinh viên đại học cần đầu tư lớn xã hội, cụ thể giáo dục quan cử tuyển (nếu có) Khả phát sinh viên học để điều chỉnh sớm giúp xã hội đầu tư có hiệu cho giáo dục Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 10 Chương 1: Cơ sở lý thuyết 1.1 Bài tốn phân lớp KPDL Phân lớp hình thức phân tích liệu nhằm rút mơ hình mơ tả lớp liệu quan trọng Những mơ hình này, gọi mơ hình phân lớp (classifier classification model), dùng để dự đoán nhãn lớp có tính phân loại (categorical), rời rạc khơng có thứ tự cho đối tượng liệu Ví dụ, ta xây dựng mơ hình phân lớp để phân loại đơn xin vay tiền ngân hàng an toàn hay rủi ro Việc phân tích giúp ta hiểu rõ hầu hết liệu Các nhà nghiên cứu đề xuất nhiều phương pháp phân lớp học máy (machine learning), nhận dạng mẫu (pattern recognition), thống kê học (statistics) Phân lớp có nhiều ứng dụng, bao gồm phát lừa đảo, tiếp thị theo khách hàng mục tiêu (target marketing), dự đoán hiệu làm việc (performance prediction), sản xuất, chẩn đoán bệnh y khoa, … 1.1.1 Các khái niệm Chúng giới thiệu khái niệm phân lớp tiểu mục 1.1.1.1 Tiểu mục 1.1.1.2 mô tả cách tiếp cận chung để phân lớp quy trình gồm hai bước: bước 1, ta xây dựng mơ hình phân lớp dựa liệu có từ trước; bước 2, ta xác định xem độ xác mơ hình có chấp nhận hay khơng, chấp nhận ta dùng mơ hình để phân lớp liệu 1.1.1.1 Phân lớp gì? Một viên chức ngân hàng phụ trách cho vay cần phân tích liệu khách hàng để tìm hiểu xem người xin vay “an toàn” (safe) “rủi ro” (risk) cho ngân hàng Một giám đốc tiếp thị công ty AllElectronics cần xử lý liệu để dự đoán khách hàng với tiểu sử sơ lược cho trước mua máy tính hay không Một nhà nghiên cứu y học muốn phân tích liệu bệnh ung thư vú để dự đốn nên áp dụng Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 15 1.2 Giải thuật tiến hóa phân lớp 1.2.1 Cơ sở lý thuyết GA GP 1.2.1.1 Nền tảng sinh học GA GP 1.2.1.2 Các đặc điểm GA GP 1.2.1.3 Giải thuật Di truyền Chuẩn 1.2.2 GP ứng dụng GP để giải toán phân lớp 1.2.2.1 Sơ lược GP Sau bước cần tiến hành để dùng GP giải toán nào: Biểu diễn cá thể Các cách biểu diễn cá thể dùng GP đại khái chia thành loại sau đây: Binary-Tree Based GP Constrained Syntax GP Cellular GP Linear GP Graph based GP Grammar based GP Tạo quần thể ban đầu Phương pháp Full Phương pháp Grow Phương pháp Ramped Half and Half Lựa chọn cá thể cha mẹ để sinh sản Fitness-Proportionate Selection Tournament Selection Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 16 Linear-rank Selection Random Selection Các phép toán di truyền Crossover Mutation _ Biến dị điểm (point mutation) _ Biến dị thu nhỏ (shrink mutation) _ Biến dị phóng to (grow mutation) Reproduction Độ khỏe mạnh (fitness) cá thể Điều kiện kết thúc tiến hóa 1.2.2.2 Phân lớp dùng GP Tiến hóa giải thuật phân lớp Tiến hóa luật phân lớp Tiến hóa biểu thức phân lớp 1.2.2.3 Hàm fitness cho phân lớp GP 2.2.2.4 Ưu nhược điểm phân lớp dùng GP Ưu điểm Nhược điểm 1.3 Đánh giá hiệu phân lớp 1.3.1 Các độ đo để đánh giá hiệu mơ hình phân lớp Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 17 Các độ đo đánh giá mơ hình phân lớp bao gồm độ xác (accuracy, hay cịn gọi tỷ lệ nhận diện – recognition rate), độ nhạy (sensitive, hay gọi độ bao quát – recall), độ đặc hiệu (specificity), độ xác đáng (precision) Chú ý rằng, độ xác độ đo cụ thể, từ ngữ “độ xác” cịn dùng thuật ngữ tổng quát để khả dự đoán mơ hình phân lớp Bảng 1.1: Các độ đo đánh giá mơ hình phân lớp [5] Việc dùng liệu huấn luyện để rút mơ hình phân lớp lại dùng liệu để đánh giá độ xác mơ hình kết học dẫn tới đánh giá lạc quan đến mức sai lầm giải thuật học liệu Thay vậy, ta nên đo độ xác mơ hình phân lớp học tập kiểm tra (test set), bao gồm ghi có nhãn lớp chưa dùng để huấn luyện mơ hình Các thuật ngữ (đối với trường hợp thuộc tính lớp có giá trị): o Bản ghi dương tính (positive tuple): loại ghi thuộc lớp quan tâm o Bản ghi âm tính (positive tuple): tất ghi khơng thuộc loại Ký hiệu: P: số lượng ghi dương tính; N: số lượng ghi âm tính Với ghi, ta so sánh giá trị nhãn lớp mà mơ hình dự đốn với nhãn lớp biết ghi Có vài thuật ngữ khác cần cho việc tính tốn nhiều độ đo đánh giá, việc hiểu chúng giúp dễ nắm bắt ý nghĩa độ đo khác o Số dương tính (True Positives – TP): số ghi dương tính mơ hình dự đốn nhãn o Số âm tính (True Negatives – TF): số ghi âm tính mơ hình dự đốn nhãn Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 18 o Số dương tính sai (False Positives – FP): ghi âm tính bị dự đốn nhãn sai dương tính o Số âm tính sai (False Negatives – FN): ghi dương tính bị dự đốn nhãn sai âm tính 1.3.2 Ý nghĩa độ đo Độ xác (accuracy) Tỷ lệ sai (error rate) Độ nhạy (sensitivity) Độ xác đáng (precision) độ bao quát (recall) Tốc độ (speed) Tính khả diễn dịch hay tính dễ hiểu (interpretability) 1.4 Vấn đề cân đối lớp toán phân lớp liệu 1.4.1 Độ xác phân lớp với liệu khơng cân đối Tỷ số không cân đối (imbalance ratio) 1.4.2 Các giải pháp giải vấn đề cân đối lớp 1.4.2.1 Các phương pháp mức liệu để giải cân đối Undersampling Oversampling: 1.4.2.2 Các phương pháp mức giải thuật để xử lý cân đối Dời giá trị ngưỡng (threshold moving): Học lớp (one-class learning): Học nhạy cảm với phí tổn (Cost-sensitive learning): Bài tốn Phân lớp không cân đối liệu điểm sinh viên Phạm Hồng Dũng 19 Chương 2: Các cơng trình nghiên cứu liên quan Chương trình bày cơng trình nghiên cứu giải pháp phân lớp liệu giáo dục thực 2.1 Các cơng trình Phân lớp với Dữ liệu Giáo dục 2.2 Các cơng trình Tái cân đối Dữ liệu Giáo dục 2.3 Các cơng trình Ứng dụng Giải thuật Tiến hóa cho Phân lớp Dữ liệu Giáo dục 2.4 Khác biệt đề tài nghiên cứu với công trình nói Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 20 Chương 3: Hướng tiếp cận đề tài giải pháp đề xuất 3.1 Hướng tiếp cận đề tài Như trình bày chương trước, tốn phân lớp toán nghiên cứu nhiều nên có nhiều phương pháp hay giải thuật đề xuất Nhìn chung, phương pháp có ưu nhược điểm riêng, nhiên giới nghiên cứu thống nhận định là: khơng có giải thuật tốt cho tập liệu lãnh vực ứng dụng Nói cách khác, giải thuật A có hiệu tốt giải thuật B tập liệu này, xét tập liệu khác hồn tồn giải thuật B lại có hiệu tốt giải thuật A Mặt khác, nói qua Chương 1, tập liệu kết thi/kiểm tra ngành giáo dục loại tập liệu không cân đối, mà biện pháp để xử lý tình trạng nói chung cịn nghiên cứu, cơng trình nghiên cứu gần cho thấy hiệu chúng tùy thuộc vào giải thuật phân lớp mức độ cân đối tập liệu cụ thể Vì lý đó, trước hết chúng tơi cho chạy giải thuật phổ biến C4.5, Naïve Bayes Neural Network tập liệu có nêu Chương 1, trước sau tiến hành vài thủ tục tiền xử lý tái cân đối liệu, để xem xét hiệu giải thuật tập liệu giáo dục cụ thể có ảnh hưởng việc tái cân đối liệu hiệu chúng Sau đó, chúng tơi thực giải thuật phân lớp mà theo nghiên cứu thực khơng bị ảnh hưởng khơng cân đối lớp liệu cho mơ hình dễ hiểu, thực nghiệm giải thuật tập liệu có so sánh hiệu phân lớp giải thuật với giải thuật phổ biến nêu bên Các bước cần tiến hành để thực công việc đề tài mơ tả Hình 3.1 đây: Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 21 Bước 1: Tiền xử lý tập liệu ban đầu, biến đổi thành tập liệu lớp rời rạc liên tục có chuẩn hóa để phục vụ cho việc thực nghiệm với giải thuật Bước 2: Thực nghiệm phân lớp giải thuật phổ biến C4.5, Naïve Bayes Neural Network tập liệu vừa tạo Bước 1; so sánh kết thực nghiệm, rút nhận xét lý giải Bước 3: Thu gọn lớp để tập liệu rời rạc liên tục lớp Bước trở thành tập liệu rời rạc liên tục lớp, sau lại chạy giải thuật phổ biến tập liệu lớp này, so sánh kết quả, nhận xét lý giải Bước 4: Thực tái cân đối liệu để biến tập liệu Bước thành tập liệu cân đối, sau lại chạy giải thuật phổ biến tập liệu này, so sánh kết quả, nhận xét lý giải Bước 5: Hiện thực giải thuật phân lớp dùng GP, sau thực nghiệm giải thuật với tập liệu tạo Bước 4, so sánh kết với kết Bước 4, nhận xét kết luận Bài toán Phân lớp không cân đối liệu điểm sinh viên Phạm Hồng Dũng 22 Hình 3.1: Các bước cần tiến hành để thực công việc đề tài 3.2 Giải pháp thực 3.2.1 Tiền xử lý tập liệu học tập sinh viên 3.2.1.1 Biến đổi sang liệu rời rạc 3.2.1.2 Biến đổi sang liệu liên tục chuẩn hóa 3.2.2 Thực phân lớp giải thuật phân lớp phổ biến 3.2.2.1 Phân lớp tập liệu lớp 3.2.2.2 Phân lớp tập liệu rút gọn lớp 3.2.2.3 Phân lớp tập liệu tái cân đối 3.2.3 Giải pháp phân lớp dùng GP đề xuất 3.2.3.1 Thiết kế giải thuật Cách biểu diễn cá thể Các phép toán di truyền Hàm fitness Phân lớp ghi 3.2.3.2 Việc thực giải thuật 3.2.3.3 Cách sử dụng giải thuật để phân lớp liệu Bài toán Phân lớp không cân đối liệu điểm sinh viên Phạm Hoàng Dũng 23 Chương 4: Kết thực nghiệm đánh giá Trong chương này, trước hết chúng tơi trình bày mơi trường thực nghiệm tập liệu thực nghiệm Sau đó, kết thực nghiệm từ việc chạy giải thuật phổ biến J48 (tức C4.5), Naïve Bayes MultilayerPerceptron WEKA tập liệu rời rạc liên tục có chuẩn hóa, lớp lớp, chưa tái cân đối tái cân đối trình bày với nhận xét lý giải chúng Kế tiếp, chúng tơi trình bày kết thực nghiệm từ giải thuật GP đề xuất thực tập liệu lớp, tiến hành so sánh với kết bên để rút kết luận 4.1 Môi trường tập liệu thực nghiệm 4.2 Kết thực nghiệm giải thuật thông dụng 4.2.1 Trên tập liệu lớp không cân đối 4.2.2 Trên tập liệu thu gọn lớp 4.2.3 Trên tập liệu lớp tái cân đối 4.2.3.1 Trên tập lớp rời rạc tái cân đối 4.2.3.2 Trên tập lớp liên tục tái cân đối 4.2.3.3 Nhận xét 4.3 Kết thực nghiệm với giải thuật GP vừa thực 4.3.1 Kết chạy giải thuật 4.3.2 Nhận xét Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 24 So sánh CST J48 (giải thuật sinh phân lớp) So sánh CST tập liệu trước sau tái cân đối Nhìn chung, độ xác phân lớp CST trước sau tái cân đối không thay đổi Độ chênh lệch độ nhạy độ đặc hiệu CST trước sau không lớn Điều chứng tỏ CST không phụ thuộc vào tình trạng cân đối liệu, phù hợp với nhận định [37] Như vậy, ta sử dụng CST tập liệu không cân đối, không cần tốn thời gian công sức để tái cân đối liệu Nhưng tính dễ hiểu mơ hình thu từ CST tốt nhiều so với tính dễ hiểu mơ hình thu từ J48 Hình 5.2 cho thấy mơ hình phân lớp thu từ CST tập liệu Disc3cIM1 (trích từ hình kết phân lớp WEKA) bao gồm luật phân lớp đơn giản, ghép chung với thành luật Chú ý rằng, mơ hình gần giống dễ hiểu tương đương với mơ hình thu từ CST tập liệu Disc3cDS Hình 5.3 So với Hình 5.1, rõ ràng mơ hình thu từ CST dễ hiểu nhiều so với mơ hình thu từ J48 Hình 4.2: Mơ hình (tập luật) phân lớp thu từ CST Disc3cIM1 Hình 4.3: Mơ hình (tập luật) phân lớp thu từ CST Disc3cDS Thử xem xét tính hợp lý hai mơ hình trên: Rule1: IF(c_500303≠CH) THEN (status=TN) Bài tốn Phân lớp không cân đối liệu điểm sinh viên Phạm Hồng Dũng 25 Mơn c500303 Luận văn Tốt nghiệp, sinh viên đủ điều kiện làm luận văn làm luận văn thường tốt nghiệp, Rule hữu lý Rule 2: ELSE IF((c_503001=KE)OR(c_503001=CH)) THEN (status=BTH) Môn 503001 Cấu trúc Dữ liệu Giải thuật, mơn khó cung cấp kiến thức để học nhiều môn khác chuyên ngành Khoa học Máy tính; sinh viên chưa làm luận văn đồng thời chưa học mơn thường khơng hồn thành khóa học; Rule hợp lý Rule 4: ELSE IF((c_006023≠CH)AND(c_004011≠CH) THEN (status=CTN) ELSE (status=CTN) Môn 006023 Phương pháp tính, mơn học quan trọng, cịn 004011 Cơng tác giáo dục quốc phịng, mơn khơng có tín mơn bắt buộc; sinh viên môn Cấu trúc liệu chưa học hai mơn chắn chưa thể tốt nghiệp, Rule hợp lý; cho dù học hai mơn mà chưa làm luận văn chưa thể tốt nghiệp, Rule hợp lý Tuy nhiên, Rule bỏ Bài tốn Phân lớp không cân đối liệu điểm sinh viên Phạm Hoàng Dũng 26 Chương 5: Tổng kết Trong chương này, tổng kết lại việc làm đề xuất hướng mở rộng để phát triển đề tài 5.1 Những công việc thực 5.2 Đóng góp đề tài Chứng thực ảnh hưởng việc tái cân đối liệu độ xác phân lớp độ nhạy độ đặc hiệu giải thuật phổ biến C4.5, Naïve Bayes Neural Network Khảo sát đặc điểm biểu diễn cá thể, cách tính hàm fitness, cách áp dụng phép toán di truyền, cách lựa chọn cá thể cha mẹ, cách kết thúc tiến hóa GP Tổng hợp ưu nhược điểm bật phân lớp dùng GP Đề xuất sử dụng giải thuật phân lớp GP dùng cách biểu diễn cá thể (tập luật phân lớp) có ràng buộc cú pháp chặt chẽ Giải thuật sinh mơ hình tập luật phân lớp có độ xác phân lớp cao dễ hiểu có độ tin cậy cao Tích hợp giải thuật nói vào cơng cụ phân lớp WEKA miễn phí, tiện dụng chạy nhiều hệ điều hành Điều giúp người dùng khơng chun KPDL dễ dàng sử dụng giải thuật 5.3 Hướng phát triển Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 27 Giải thuật phân lớp mà đề tài đề xuất sinh mơ hình phân lớp dễ hiểu, độ xác phân lớp chưa cao Một nghiên cứu cải tiến thêm hàm fitness cho CST thực nhằm đạt độ xác phân lớp cao hơn, ví dụ đến khoảng 95%, giữ ưu điểm khơng phụ thuộc vào tình trạng không cân đối lớp liệu sinh mơ hình phân lớp dễ hiểu Thời gian chạy giải thuật cao, điều chủ yếu phải tính tốn fitness tất hệ tiến hóa, có sử dụng mơ-đun tính tốn song song JCLEC để tăng tốc việc tính tốn Sắp tới, chúng tơi thử áp dụng thêm tính tốn phân tán nhiều máy lúc để giảm thời gian chạy giải thuật, đặc biệt tập liệu lớn (vài nghìn ghi trở lên) Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng 28 TÀI LIỆU THAM KHẢO [1] C Romero, S Ventura, P G Espejo and C Hervas Data Mining Algorithms to Classify Students In Proceedings of EDM 2008, pp 8-17, 2008 [2] C Marquez-Vera, C Romero and S Ventura Predicting School Failure Using Data Mining In Proceedings of EDM 2011, pp 271-276, 2011 [3] S A Kumar, M.N Vijayalakshmi Efficiency of Decision Trees in Predicting Student’s Academic Performance In CCSEA 2011, CS & IT 02, pp 335-343, 2011 [4] B.K Baradwaj and S Pal Mining Educational Data to Analyze Students’ Performance International Journal of Advanced Computer-Science and Applications Vol 2, No 6, page 9, 2011 [5] Jiawei Han and Micheline Kamber Data Mining:Concepts and Techniques, 3rd Edition Morgan Kaufmann Publishers, 2011 [6] C Heiner, N Heffernan and T Barnes Educational Data Mining In Supplementary Proceedings of the 13th International Conference of Artificial Intelligence in Education AIED 2007 [7] J.F Superby, J.P Vandamme, N Meskens Determination of Factors Influencing the Achievement of the First-year University Students using Data Mining Methods Workshop on Educational Data Mining, pp.37-44, 2006 [8] M Delgado et al Predicting Students’ Marks from Moodle Logs using Neural Network Models In Current Developments in Technology-Assisted Education, Badajoz, pp 586-590, 2006 [9] D Martínez Predicting Student Outcomes Using Discriminant Function Analysis Annual Meeting of the Research and Planning Group California, pp.163-173, 2001 [10] B Minaei-Bidgoli, W Punch Using Genetic Algorithms for Data Mining Optimization in an Educational Web-based System Genetic and Evolutionary Computation, Part II pp.2252–2263, 2003 [11] C.X Ling and V.S Sheng Cost-sensitive Learning and the Class Imbalanced Problem In Encyclopedia of Machine Learning C Sammut (Ed.) Springer 2011 … … Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng ... kỹ thuật tái cân đối liệu tập liệu khơng cân đối, sau xây dựng giải pháp khả thi để giải toán phân lớp đối Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên Phạm Hoàng Dũng với liệu giáo dục,... Ưu điểm Nhược điểm 1.1.3 Phân lớp liệu mạng Naïve Bayes Ưu điểm Nhược điểm 1.1.4 Phân lớp liệu với mạng nơrôn Nhược điểm Ưu điểm Bài tốn Phân lớp khơng cân đối liệu điểm sinh viên. .. đề cân đối lớp toán phân lớp liệu 1.4.1 Độ xác phân lớp với liệu khơng cân đối Tỷ số không cân đối (imbalance ratio) 1.4.2 Các giải pháp giải vấn đề cân đối lớp 1.4.2.1 Các phương pháp mức liệu