1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài toán phân lớp không cân đối cho dữ liệu giáo dục

131 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 131
Dung lượng 2,39 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA PHẠM HỒNG DŨNG BÀI TỐN PHÂN LỚP KHÔNG CÂN ĐỐI CHO DỮ LIỆU GIÁO DỤC Chuyên Ngành: Khoa Học Máy Tính Mã số: 604801 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2012 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: TS Võ Thị Ngọc Châu Cán chấm nhận xét 1: TS Bùi Hoài Thắng Cán chấm nhận xét 2: TS Phạm Văn Chung Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HMC ngày 24 tháng 12 năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch Hội đồng: PGS TS Dương Tuấn Anh GV Phản biện 1: TS Bùi Hoài Thắng GV Phản biện 2: TS Phạm Văn Chung Ủy viên, GV Hướng dẫn: TS Võ Thị Ngọc Châu Thư ký Hội đồng: TS Nguyễn Thanh Hiên Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA …………… i ĐẠI HỌC QUỐC GIA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc -oOo - NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Hoàng Dũng MSHV: 09070427 Ngày, tháng, năm sinh: 11/7/1961 Nơi sinh: Ninh Thuận Chuyên ngành: Khoa học Máy tính Mã số: 604801 1- TÊN ĐỀ TÀI: Bài tốn phân lớp khơng cân đối cho liệu giáo dục 2- NHIỆM VỤ VÀ NỘI DUNG: a Tìm hiểu lý thuyết tốn phân lớp liệu, toán phân lớp liệu giáo dục, b c d e toán phân lớp liệu khơng cân đối Tìm hiểu lý thuyết giải thuật phân lớp phổ biến: C4.5, Naïve Bayes, Neural Network, cách tiếp cận phân lớp với giải thuật di truyền/quy hoạch di truyền Tìm hiểu cơng trình liên quan cho sở lý thuyết đề tài cho sở khoa học việc đánh giá kết đạt luận văn Chuẩn bị liệu thực nghiệm, thực tiền xử lý để có liệu giáo dục trước sau tái cân đối Tiến hành thực nghiệm cho toán phân lớp không cân đối cho liệu giáo dục hệ thống giáo dục tín với giải thuật phân lớp phổ biến cách tiếp cận phân lớp với quy hoạch di truyền Đánh giá cách tiếp cận đề xuất dựa việc phân tích kết thực nghiệm thu theo tiêu chí độ xác phân lớp tính dễ hiểu tri thức khai phá 3- NGÀY GIAO NHIỆM VỤ: ……………… 4- NGÀY HOÀN THÀNH NHIỆM VỤ: 03/12/2012 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS Võ Thị Ngọc Châu Tp HCM, ngày 27 tháng 11 năm 2012 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TS Võ Thị Ngọc Châu TRƯỞNG KHOA QUẢN LÝ CHUYÊN NGÀNH: ii LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 01 tháng 12 năm 2012 Phạm Hồng Dũng iii LỜI CÁM ƠN Tơi xin bày tỏ lòng biết ơn chân thành đến TS Võ Thị Ngọc Châu, Cô tận tâm dẫn, truyền đạt kiến thức kinh nghiệm quý báu cho từ ngày đầu ngày cuối suốt q trình thực luận văn Tơi xin gửi lời cám ơn đến quí Thầy Cơ giáo tham gia giảng dạy chương trình cao học khoa Khoa Học Kỹ Thuật Máy Tính, trường Đại Học Bách Khoa TP Hồ Chí Minh trang bị cho kiến thức tảng quan trọng suốt q trình tơi theo học Và cuối cùng, tơi xin gửi lời cám ơn đến gia đình bạn bè, người động viên suốt thời gian vừa qua iv TÓM TẮT LUẬN VĂN Một toán khai phá liệu hữu ích lĩnh vực giáo dục toán phân lớp (classification) áp dụng liệu giáo dục để dự đoán kết cuối sinh viên giúp cải thiện kết họ Yêu cầu giải thuật phân lớp tốt mơ hình phân lớp thu phải có độ xác dự đốn cao, có tính dễ hiểu người dùng không chuyên khai phá liệu Một vấn đề toán phân lớp liệu giáo dục là, tập liệu giáo dục thường loại tập liệu không cân đối, số sinh viên thường nhiều so với số sinh viên giỏi Nhiều giải thuật phân lớp cổ điển thu kết không tốt tập liệu khơng cân đối, chúng có khuynh hướng khơng ý đến lớp thiểu số, ý đến lớp đa số Hậu mơ hình phân lớp thu không phân loại đắn trường hợp liệu tương ứng với lớp có đại diện Trong số giải thuật thường dùng cho toán phân lớp, giải thuật Neural Network có độ xác cao mơ hình khó hiểu người dùng thời gian chạy thường lớn; giải thuật C4.5 có độ xác cao, chạy nhanh dễ hiểu người dùng, tập liệu có nhiều thuộc tính định thu khó hiểu; giải thuật Nạve Bayes vừa có độ xác khơng cao vừa khó hiểu Khi áp dụng kết hợp biện pháp tiền xử lý lấy mẫu dư (oversampling) lớp thiểu số lấy mẫu thiếu (undersampling) lớp đa số, kết phân lớp tốt hơn, việc tiền xử lý đòi hỏi phải có kiến thức sâu, khơng phù hợp với người dùng không chuyên Luận văn đề xuất cách tiếp cận phân lớp liệu giáo dục không cân đối dựa quy hoạch di truyền (GP), cho mơ hình phân lớp tập luật dạng đơn giản dễ hiểu, có độ xác cao thời gian chạy chấp nhận Giải thuật tích hợp vào cơng cụ phổ biến WEKA để người dùng không chuyên dễ sử dụng, dễ lưu mơ hình nạp lại mơ hình để dự đốn liệu tương lai v ABSTRACT One of the most useful data mining tasks in education is the problem of classification on educational data to predict final results of students and help them to improve their results The requirement for a good classification algorithm is that the discovered classification model must have a great prediction accuracy and it must be comprehensive to users who are not specialists in data mining Another challenge to the classification problem in education is that educational data sets usually are imbalanced ones, since the number of failed students is usually less than that of good/excellent students Many traditional classification algorithms obtained bad results on imbalance datasets, because they are more likely not pay attention to minority classes and favour majority ones instead Consequently, resulting classification models discovered will not appropriately classify new data instances corresponding to the classes having few representations Among the mostly used algorithms for the classification task, Neural Networks have high classification accuracy but cannot produce easy to understand classification models for users and its running time is usually very long; C4.5 can provide decision trees which be easy to interpret, yet their interpretability may diminish the more they become complex; Naïve Bayes networks are both low accuracy and difficult to understand When we combine oversampling the rare classes and undersampling the majority ones, classification performance will be better, but this preprocessing technique requires thorough knowledge, not suitable to non-professional users This thesis proposes a classification approach to imbalance educational data based on genetic programming (GP) whose resulting classification models are sets of classification rules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable running time The proposed algorithm is integrated into the popular tool WEKA which is suitable for nonprofessional users The resulting model is easy to save and reload to classify new data instances in the future vi MỤC LỤC NHIỆM VỤ LUẬN VĂN THẠC SĨ i LỜI CAM ĐOAN .ii LỜI CÁM ƠN ivii TÓM TẮT LUẬN VĂN ivi MỤC LỤC vi DANH MỤC HÌNH ix DANH MỤC BẢNG x DANH MỤC TỪ VIẾT TẮT xii Chương GIỚI THIỆU 1.1 Phát biểu vấn đề 1.2 Tên đề tài 1.3 Mục tiêu phạm vi nghiên cứu đề tài 1.4 Ý nghĩa đề tài 1.4.1 Ý nghĩa khoa học 1.4.2 Ý nghĩa thực tiễn 1.5 Cấu trúc luận văn Chương CƠ SỞ LÝ THUYẾT 2.1 Bài toán phân lớp khai phá liệu 2.1.1 Các khái niệm 2.1.2 Phân lớp cách quy nạp định 13 2.1.3 Phân lớp liệu mạng Naïve Bayes 16 2.1.4 Phân lớp liệu với mạng nơ-rôn 17 2.2 Giải thuật tiến hóa phân lớp 18 vii 2.2.1 Cơ sở lý thuyết GA GP 19 2.2.2 GP ứng dụng GP để giải toán phân lớp 23 2.3 Đánh giá hiệu phân lớp 39 2.3.1 Các độ đo để đánh giá hiệu mơ hình phân lớp 39 2.3.2 Ý nghĩa độ đo 42 2.4 Vấn đề cân đối lớp toán phân lớp liệu 44 2.4.1 Độ xác phân lớp với liệu cân đối lớp 45 2.4.2 Các giải pháp giải vấn đề cân đối lớp 46 Chương CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 53 3.1 Các cơng trình phân lớp với liệu giáo dục 53 3.2 Các cơng trình tái cân đối liệu giáo dục 56 3.3 Các cơng trình ứng dụng giải thuật tiến hóa cho phân lớp liệu giáo dục 58 Chương HƯỚNG TIẾP CẬN ĐỀ TÀI VÀ GIẢI PHÁP 62 4.1 Hướng tiếp cận đề tài 62 4.2 Giải pháp thực 64 4.2.1 Tiền xử lý tập liệu học tập sinh viên 64 4.2.2 Thực phân lớp giải thuật phân lớp phổ biến 70 4.2.3 Giải pháp phân lớp dùng GP đề xuất 74 Chương KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 90 5.1 Môi trường tập liệu thực nghiệm 90 5.2 Kết thực nghiệm giải thuật thông dụng 92 5.2.1 Trên tập liệu lớp không cân đối 92 5.2.2 Trên tập liệu thu gọn lớp 96 5.2.3 Trên tập liệu lớp tái cân đối 99 viii 5.3 Kết thực nghiệm với giải thuật GP vừa thực 102 5.3.1 Kết chạy giải thuật 102 5.3.2 Nhạn xét 104 Chương TỔNG KẾT 108 6.1 Những công việc thực 108 6.2 Đóng góp đề tài 109 6.3 Hướng phát triển 110 TÀI LIỆU THAM KHẢO 111 LÝ LỊCH TRÍCH NGANG 118 QUÁ TRÌNH ĐÀO TẠO 118 Q TRÌNH CƠNG TÁC 118 103 Disc3cIM1, Disc3cIM2 liên tục chuẩn hóa Norm3cIM1 Norm3cIM2, với ba giải thuật thơng dụng có sẵn WEKA mục 5.2 Vấn đề giải thuật là, có q nhiều thơng số cấu hình chọn để chạy nó:  Kích thước quần thể (populationSize): chọn tùy ý;  Số hệ tối đa (generations): chọn tùy ý;  Kiểu lựa chọn cha mẹ (parentSelector): có kiểu để chọn: (1) Tournament Selector, (2) Roulette Wheel Selector, (3) Random Selector, (4) Betters Selector;  Độ sâu tối đa (maxDerivSize): mặc định 20;  Xác suất lai ghép (crossoverProb): mặc định 0.8;  Xác suất tái sinh (copyProb): mặc định 0.05;  Xác suất biến dị (mutationProb): mặc định 0.1 (thật khơng có tác dụng giải thuật này, có mặt theo cấu hình chung mô-đun phân lớp thư viện JCLEC);  Hạt giống để sinh ngẫu nhiên (seed): mặc định 123456789 Một số thực nghiệm ban đầu cho thấy không cần thay đổi năm thông số sau (maxDerivSize, crossoverProb, copyProb, mutationProb, seed), cịn thơng số đầu cần chọn để thực nghiệm (populationSize, generations, parentSelector Kết thực nghiệm cho thấy, kết tốt (về độ xác phân lớp) đạt tập liệu khi: giá trị populationSize chiếm từ 2/3 đến 7/8 số ghi tập liệu (với tập liệu xét số làm tròn thành 900, 1000, 1100 1200), giá trị generations khoảng từ 1500 đến 2500 (cao khơng cần thiết, khơng sinh kết tốt mà lại tốn thêm nhiều thời gian hơn), Betters Selector thường lựa chọn cha mẹ cho kết cao Kết chạy thực nghiệm cho Bảng 5.12 bên Chương 5: Kết thực nghiệm đánh giá 104 Bảng 5.12: Kết chạy giải thuật CST tập liệu lớp Dataset Confusion matrix Acc Se Sp Disc3cDS P=1100, G=1500 S=4 (Betters) Build time: 622.57s a b c 200 0 110 61 19 45 908  classified as a = TN b = BTH c = CTN 90.69% 90.69% 100% 64.33% 93.42% 85.78% 89.06% 94.54% 83.56% Norm3cDS P=900, G=1500 S=4 (Betters) Build time: 407.41s a b c 200 0 28 171 18 134 820  classified as a = TN b = BTH c = CTN 89.05% 89.05% 100% 83.63% 87.76% 91.33% 87.14% 98.85% 92.45% Disc3cIM1 P=1100, G=1500 S=4 (Betters) Build time: 333.5s a b c 448 0 401 43 19 117 312  classified as a = TN b = BTH c = CTN 86.38% 86.38% 100% 89.51% 69.64% 86.38% 79.58% 84.82% 94.75% Disc3cIM2 P=900, G=1500 S=4 (Betters) Build time:1131.8s a b c 439 0 398 40 14 100 391  classified as a = TN b = BTH c = CTN 88.52% 88.52% 100% 90.87% 75.48% 88.72% 82.95% 87.39% 85,44% Norm3cIM1 P=900, G=1500 S=4 (Betters) Build time: 496.33s a b c 448 0 408 39 14 79 355  classified as a = TN b = BTH c = CTN 90.10% 90.10% 100% 91.07% 79.24% 90.10% 85.16% 89.62% 95.54% Norm3cIM2 P=1000 , G=2500 S=4 (Betters) Build time: 727.43s a b c 375 71 427 22 440  classified as a = TN b = BTH c = CTN 92.48% 92.48% 82.60% 100% 95.24% 92.57% 97.53% 88.97% 91.03% 5.3.2 Nhận xét  So sánh CST J48 (giải thuật sinh phân lớp):  Trên tập liệu Disc3cDS: độ xác phân lớp CST đích xác độ đo J48, dễ thấy chênh lệch độ nhạy độ đặc hiệu Chương 5: Kết thực nghiệm đánh giá 105 CST khơng lớn (4.91%), cịn chênh lệch độ nhạy độ đặc hiệu J48 lớn (7.12%) (xem lại Bảng 5.6) Điều chứng tỏ liệu rời rạc, CST bị ảnh hưởng không cân đối lớp so với J48  Trên tập liệu Norm3cDS: độ xác phân lớp CST (1.27%) so với độ xác J48, chênh lệch độ nhạy độ đặc hiệu CST nhỏ (2.28%), chênh lệch độ nhạy độ đặc hiệu J48 lớn đáng kể (5.92%) (xem lại Bảng 5.7) Điều chứng tỏ liệu liên tục, CST bị ảnh hưởng không cân đối lớp so với J48  Trên tập liệu Disc3cIM1: độ xác CST có đáng kể (6.55%) so với độ xác J48, độ chênh lệch độ nhạy độ đặc hiệu CST 0% J48 (xem lại Bảng 5.8)  Trên tập liệu Disc3cIM2: giải thuật CST có độ xác phân lớp đáng kể (6.19%) so với độ xác J48, nhiên chênh lệch độ nhạy độ đặc hiệu CST nhỏ (0.2%), tương tự chênh lệch độ nhạy độ đặc hiệu J48 (0.1%) (xem lại Bảng 5.9)  Trên tập liệu Norm3cIM1: giải thuật CST có độ xác phân lớp khơng nhiều (4.32%) so với độ xác J48, nhiên chênh lệch độ nhạy đặc hiệu CST 0, giống J48 (xem lại Bàng 5.10)  Trên tập liệu Norm3cIM2: giải thuật CST có độ xác phân lớp khơng nhiều (4.24%) so với độ xác J48, nhiên chênh lệch độ nhạy đặc hiệu CST nhỏ (0.09%), gần giống chênh lệch J48 (0.05%) (xem lại Bàng 5.11) Chương 5: Kết thực nghiệm đánh giá 106 Nhìn chung, tập liệu nào, mơ hình phân lớp mà CST sinh không bị ảnh hưởng nhiều không cân đối liệu; nữa, mơ hình có độ dễ hiểu tốt nhiều so với mơ hình phân lớp J48  So sánh CST tập liệu trước sau tái cân đối:  Nhìn chung, độ xác phân lớp CST trước sau tái cân đối không thay đổi Độ chênh lệch độ nhạy độ đặc hiệu CST trước sau không lớn Điều chứng tỏ CST không phụ thuộc vào tình trạng cân đối liệu, phù hợp với nhận định [37] Như vậy, ta sử dụng CST tập liệu không cân đối, không cần tốn thời gian công sức để tái cân đối liệu  Nhưng tính dễ hiểu mơ hình thu từ CST tốt nhiều so với tính dễ hiểu mơ hình thu từ J48 Hình 5.2 cho thấy mơ hình phân lớp thu từ CST tập liệu Disc3cIM1 (trích từ hình kết phân lớp WEKA) bao gồm luật phân lớp đơn giản, ghép chung với thành luật Chú ý rằng, mơ hình gần giống dễ hiểu tương đương với mơ hình thu từ CST tập liệu Disc3cDS Hình 5.3 So với Hình 5.1, rõ ràng mơ hình thu từ CST dễ hiểu nhiều so với mơ hình thu từ J48 Hình 5.2: Mơ hình (tập luật) phân lớp thu từ CST Disc3cIM1 Chương 5: Kết thực nghiệm đánh giá 107 Hình 5.3: Mơ hình (tập luật) phân lớp thu từ CST Disc3cDS Thử xem xét tính hợp lý hai mơ hình trên:  Rule1: IF(c_500303≠CH) THEN (status=TN) Môn c500303 Luận văn Tốt nghiệp, sinh viên đủ điều kiện làm luận văn làm luận văn thường tốt nghiệp, Rule hữu lý  Rule 2: ELSE IF((c_503001=KE)OR(c_503001=CH)) THEN (status=BTH) Môn 503001 Cấu trúc Dữ liệu Giải thuật, mơn khó cung cấp kiến thức để học nhiều môn khác chuyên ngành Khoa học Máy tính; sinh viên chưa làm luận văn đồng thời chưa học mơn thường khơng hồn thành khóa học; Rule hợp lý  Rule 4: ELSE IF((c_006023≠CH)AND(c_004011≠CH) THEN (status=CTN) ELSE (status=CTN) Mơn 006023 Phương pháp tính, mơn học quan trọng, cịn 004011 Cơng tác giáo dục quốc phịng, mơn khơng có tín môn bắt buộc; sinh viên môn Cấu trúc liệu chưa học hai mơn chắn chưa thể tốt nghiệp, Rule hợp lý; cho dù học hai mơn mà chưa làm luận văn chưa thể tốt nghiệp, Rule hợp lý Tuy nhiên, Rule bỏ Chương 5: Kết thực nghiệm đánh giá 108 Chương TỔNG KẾT Trong chương này, tổng kết lại việc làm đề xuất hướng mở rộng để phát triển đề tài 6.1 Những công việc thực Để tài đã:  Thực nhiều biện pháp khác để tiền xử lý liệu, làm liệu dị thường (các điểm số đặc biệt) biến đổi tập liệu giáo dục ban đầu thành tập liệu rời rạc liên tục có chuẩn hóa để tiện cho việc phân lớp  Thực nhiều biện pháp khác để tái cân đối liệu giáo dục thông qua lấy mẫu thiếu ghi đa số lấy mẫu dư ghi thiểu số, nhằm áp dụng giải thuật phân lớp thông dụng chúng, để kiểm nghiệm đặc điểm không phụ thuộc cân đối liệu giải thuật CST thực sau  Thực nhiều giải pháp phân lớp khác cách sử dụng chúng với công cụ khai phá liệu phổ biến WEKA  Hiện thực giải pháp phân lớp liệu giáo dục không cân đối dựa quy hoạch di truyền (GP) thành giải thuật CST nhằm xây dựng mơ hình phân lớp vừa dễ hiểu vừa có độ xác cao (86.38% đến 92.48%, tùy tập liệu cụ thể) Chứng minh CST không phụ thuộc vào cân đối liệu, không cần tái cân đối liệu để sử dụng CST, dễ sử dụng thực tiễn Chương 6: Tổng kết 109  Đề xuất hàm fitness cho CST vừa đơn giản vừa có giá trị phạm vi [0,1] dễ quản lý, giúp cho việc tiến hóa tập luật phân lớp dễ dàng cho kết chắn  Tích hợp CST vào WEKA, cơng cụ có giao diện đồ họa trực quan dễ dùng, điều tạo thuận tiện cho người dùng không chuyên phổ biến giải pháp đề xuất 6.2 Đóng góp đề tài Chứng thực ảnh hưởng việc tái cân đối liệu độ xác phân lớp độ nhạy độ đặc hiệu giải thuật phổ biến C4.5, Naïve Bayes Neural Network Khảo sát đặc điểm biểu diễn cá thể, cách tính hàm fitness, cách áp dụng phép tốn di truyền, cách lựa chọn cá thể cha mẹ, cách kết thúc tiến hóa GP Tổng hợp ưu nhược điểm bật phân lớp dùng GP Đề xuất sử dụng giải thuật phân lớp GP dùng cách biểu diễn cá thể (tập luật phân lớp) có ràng buộc cú pháp chặt chẽ Giải thuật sinh mơ hình tập luật phân lớp có độ xác phân lớp cao dễ hiểu có độ tin cậy cao Tích hợp giải thuật nói vào cơng cụ phân lớp WEKA miễn phí, tiện dụng chạy nhiều hệ điều hành Điều giúp người dùng khơng chun KPDL dễ dàng sử dụng giải thuật Chương 6: Tổng kết 110 6.3 Hướng phát triển Giải thuật phân lớp mà đề tài đề xuất sinh mơ hình phân lớp dễ hiểu, độ xác phân lớp chưa cao Một nghiên cứu cải tiến thêm hàm fitness cho CST thực nhằm đạt độ xác phân lớp cao hơn, ví dụ đến khoảng 95%, giữ ưu điểm khơng phụ thuộc vào tình trạng không cân đối lớp liệu sinh mơ hình phân lớp dễ hiểu Thời gian chạy giải thuật cao, điều chủ yếu phải tính tốn fitness tất hệ tiến hóa, có sử dụng mơ-đun tính tốn song song JCLEC để tăng tốc việc tính tốn Sắp tới, chúng tơi thử áp dụng thêm tính tốn phân tán nhiều máy lúc để giảm thời gian chạy giải thuật, đặc biệt tập liệu lớn (vài nghìn ghi trở lên) Chương 6: Tổng kết 111 TÀI LIỆU THAM KHẢO [1] C Romero, S Ventura, P G Espejo and C Hervas Data Mining Algorithms to Classify Students In Proceedings of EDM 2008, pp 8-17, 2008 [2] C Marquez-Vera, C Romero and S Ventura Predicting School Failure Using Data Mining In Proceedings of EDM 2011, pp 271-276, 2011 [3] S A Kumar, M.N Vijayalakshmi Efficiency of Decision Trees in Predicting Student’s Academic Performance In CCSEA 2011, CS & IT 02, pp 335-343, 2011 [4] B.K Baradwaj and S Pal Mining Educational Data to Analyze Students’ Performance International Journal of Advanced Computer-Science and Applications Vol 2, No 6, page 9, 2011 [5] Jiawei Han and Micheline Kamber Data Mining:Concepts and Techniques, 3rd Edition Morgan Kaufmann Publishers, 2011 [6] C Heiner, N Heffernan and T Barnes Educational Data Mining In Supplementary Proceedings of the 13th International Conference of Artificial Intelligence in Education AIED 2007 [7] J.F Superby, J.P Vandamme, N Meskens Determination of Factors Influencing the Achievement of the First-year University Students using Data Mining Methods Workshop on Educational Data Mining, pp.37-44, 2006 [8] M Delgado et al Predicting Students’ Marks from Moodle Logs using Neural Network Models In Current Developments in Technology-Assisted Education, Badajoz, pp 586-590, 2006 [9] D Martínez Predicting Student Outcomes Using Discriminant Function Analysis Annual Meeting of the Research and Planning Group California, pp.163-173, 2001 [10] B Minaei-Bidgoli, W Punch Using Genetic Algorithms for Data Mining Optimization in an Educational Web-based System Genetic and Evolutionary Computation, Part II pp.2252–2263, 2003 [11] C.X Ling and V.S Sheng Cost-sensitive Learning and the Class Imbalanced Problem In Encyclopedia of Machine Learning C Sammut (Ed.) Springer 2011 Tài liệu tham khảo 112 [12] Kun Liu and Yan Xing A Lightweight Solution to the Educational Data Mining Challenge In KDD Cup 2010 Workshop, July 25, 2010 [13] A Zafra, and S Ventura Predicting student grades in learning management systems with multiple instance genetic programming In Proceedings of the 2nd International Conference on Educational Data Mining (EDM’09), Cordoba, Spain, pp.309–318, July 1–3, 2009 [14] C Elkan The Foundations of Cost-sensitive Learning In Proceedings of the Seventeenth International Joint Conference of Artificial Intelligence, pp 973978 Seattle, Washington Morgan Kaufmann, 2001 [15] S Kotsiantis, D Kanellopoulos and P Pintelas Handling imbalanced datasets: A review Informatica (2007) Vol 31, pp 249-268, Ios Pr Inc, 2007 [16] M Kubat and S Matwin Addressing the curse of imbalanced training sets: One sided selection In Proceedings of the Fourteenth International Conference on Machine Learning, pages 179-186, Nashville, Tennesse, Morgan Kaufmann1997 [17] N V Chawla, L O Hall, K W Bowyer, and W P Kegelmeyer SMOTE: Synthetic Minority Oversampling TEchnique In Journal of Artificial Intelligence Research, 16:321-357, 2002 [18] N Japkowicz Concept-learning in the presence of between-class and withinclass imbalances In Proceedings of the Fourteenth Conference of the Canadian Society for Computational Studies of Intelligence, pp 67-77, 2001 [19] W W Cohen Fast effective rule induction In Proceedings of the Twelfth International Conference on Machine Learning, pp 115-123, 1995 [20] B Raskutti and A Kowalczyk Extreme rebalancing for svms: a case study SIGKDD Explorations, 6(1):60-69, 2004 [21] P Domingos MetaCost: A general met hod for making classifiers costsensitive Proceedings of the Fifth International Conference on Knowledge Discovery and Data Mining, pp 155-164 ACM Press, 1999 [22] R Robu and S Holban A Genetic Algorithm for Classification In Recent Researchs in Computers and Computing (ICCC ’11), pp 52-56, May 2011 Tài liệu tham khảo 113 [23] Puig, A.O., Mansilla, E.B Evolutionary rule-based systems for imbalanced data sets Soft Computing – A Fusion of Foundations, Methodologies and Applications 13(3), 213-225, 2009 [24] A.K Tanwani and M Farooq Classification Potential vs Classification Accuracy: A Comprehensive Study of Evolutionary Algorithms with Biomedical Datasets In Learning Classifier Systems, pp 127-144, Springer-Verlag Berlin Heidelberg 2010 [25] M Affenzeller et al Genetic Algorithms and Genetic Programming – Modern Concepts and Practical Applications Taylor & Francis Group, April 2009 [26] J R Koza A genetic approach to the truck backer upper problem and the intertwined spiral problem In Proceedings of IJCNN International Joint Conference on Neural Networks, vol IV, pp 310-318, IEEE Press, 1992 [27] J R Koza Genetic Programming: On the Programming of Computers by Means of Natural Selection The MIT Press, 1992 [28] M Tomassini A survey of genetic algorithms Annual Reviews of Computational Physics, 3:87=118, 1995 [29] W B Langdon, R Poli Foundations of Genetic Programming Springer Verlag, Berlin Heidelberg New York, 2002 [30] S Bandyopadhyay, S K Pal Classification and Learning Using Genetic Algorithms – Applications in Bioinformatics and Web Intelligence Springer Verlag, Berlin Heidelberg 2007 [31] C.C Bojarczuk, H.S Lopes, A.A Freitas Genetic programming for knowledge discovery in chest pain diagnosis IEEE Eng Med Biol Mag 2000; 19:38-44 [32] W.B Langdon Size Fair and Homologous Tree Crossovers for Tree Genetic Programming In Genetic Programming and Evolvable Machines, Vol 1, Issue 1-2, pp 95-119, April 2000 [33] A.A Freitas Data Mining and Knowledge Discovery with Evolutionary Algorithms Springer Verlag Berlin, 2002 [34] W.B Langdon Size Fair and Homologous Tree Crossover for Tree Genetic Programming In Genetic Programming and Evolvable Machines, Vol 1, Issue 1-2, pp 95-119, April 2000 [35] S Luke Essentials of Metaheuristics Lulu 2009, available for free at http://cs.gmu.edu/~sean/book/metaheuristics/ [36] M.C South The Application of Genetic Algorithms University of Newcastle upon Tyne, 181 pages 1994 Tài liệu tham khảo 114 [37] J K Kishore et al Application of genetic programming for multicategory pattern classification In IEEE Transactions on Evolutionary Computation, 4(3), 242-258, 2000 [38] S Luke Code Growth is Not Caused by Introns In Genetic and Evolutionary Computation Conference, Late Breaking Papers pp 228-235, 2000 [39] C.C Bojarczuk, H.S Lopes and A.A Freitas Discovering Comprehensible Classification Rules using Genetic Programming: A Case Study in a Medical Domain In Proceedings of the Genetic and Evolutionary Computation Conference, pp 953-958 Morgan Kaufmann, 1999 [40] E Carreno, G Leguizamon and N Wagner Evolution of Classification Rules for Comprehensible Knowledge Discovery In IEEE Congress on Evolutionary Computation, pp 1261-1268 2007 [41] A.P Engelbrecht, L Schoeman and S Rouwhorst A Building Block Approach to Genetic Programming for Rule Discovery In Data Mining: A Heuristic Approach Idea Group Publishing, pp 175-189 2002 [42] D.P Muni, N.R Pal and J Das A novel approach to design classifiers using GP In IEEE Transactions on Evolutionary Computation Vol 8, Issue 2, pp 183-196, 2004 [43] J Eggermont Data Mining using Genetic Programming: Classification and Symbolic Regression PhD Thesis, Leiden University, 2005 [44] T Loveard and V Ciesielski Employing nominal attributes in classification using genetic programming 4th Asia Pacific conference on simulated evolution and learning, pp.487-491, Singapore 2002 [45] Hải T.T Trương Phân lớp sinh viên dựa kết học tập Bachelor Thesis, HCM City University of Technology, 2011 [46] T Ito, H Iba, and S Sato Depth-Dependent Crossover for Genetic Programming In Proceedings of the 1998 IEEE World Congress on Computational Intelligence, pp 775-780 Alaska IEEE Press, 1998 [47] P D’haeseleer Context preserving crossover in genetic programming In Proceedings of the 1994 IEEE World Congress on Computational Intelligence, pp 256-261 Florida, USA IEEE 1994 [48] A.A Freitas A survey of evolutionary algorithms for data mining and knowledge discovery In Advances in evolutionary computation, pp 819-845 Springer Verlag Berlin, 2003 [49] S Ventura, C Romero, A Zafra and A Delgado JCLEC: a Java framework for evolutionary computation In Soft Computing – A Fusion of Foundations, Tài liệu tham khảo 115 Methodologies and Applications, Vol 12, No 4, pp 381-392, Springer-Verlag Berlin, Heidelberg, October 2007 [50] I.H Witten, E Frank and M.A Hall Data Mining – Practical Learning Tools and Techniques, 3rd Edition Elsevier Inc., 2011 [51] I.H Witten et al The WEKA Data Mining Software: An Update In SIGKDD Explorations, Vol 11, Issue 1, pp 10-18, 2009 Tài liệu tham khảo 118 LÝ LỊCH TRÍCH NGANG Họ tên: Phạm Hoàng Dũng Ngày sinh: 11/7/1961 Nơi sinh: Ninh Thuận Địa liên lạc: 352/8 Nguyễn Đình Chiểu, P4, Q3, TP Hồ Chí Minh Email: thuong.pham@gmail.com Q TRÌNH ĐÀO TẠO Thời gian 1979 - 1983 Trường đào tạo Chuyên ngành Trường Đại Học Bách Khoa – Đại Cơ khí Động lực Trình độ Kỹ sư Học Quốc Gia TP Hồ Chí Minh 2006 - 2009 Học Viện Bưu Chính Viễn Thông – Điện tử Viễn thông Kỹ sư Cơ sở TP Hồ Chí Minh 2009 - 2012 Trường Đại Học Bách Khoa – Đại Khoa học Máy tính Thạc sỹ Học Quốc Gia TP Hồ Chí Minh Q TRÌNH CƠNG TÁC Thời gian 1983 - 1989 Đơn vị công tác Vị trí cơng tác Cơng ty Kỹ thuật Hóa chất, 31 Hàn Phòng Kỹ thuật Thuyên, Quận 1, TPHCM 1989 - 1995 Cơng ty Nguyễn Chí, 171 Điện Biên Phủ, Cửa hàng trưởng P23 Quận Bình Thạnh, TPHCM 1995 – Nhà sách Minh Khai, 243 Nguyễn Thị Biên dịch viên sách CNTT Minh Khai, Quận 1, Tp HCM Lý lịch trích ngang 119 Lý lịch trích ngang ... TÀI: Bài tốn phân lớp khơng cân đối cho liệu giáo dục 2- NHIỆM VỤ VÀ NỘI DUNG: a Tìm hiểu lý thuyết tốn phân lớp liệu, toán phân lớp liệu giáo dục, b c d e toán phân lớp liệu khơng cân đối Tìm... liệu thực nghiệm, thực tiền xử lý để có liệu giáo dục trước sau tái cân đối Tiến hành thực nghiệm cho toán phân lớp không cân đối cho liệu giáo dục hệ thống giáo dục tín với giải thuật phân lớp. .. hình phân lớp 39 2.3.2 Ý nghĩa độ đo 42 2.4 Vấn đề cân đối lớp toán phân lớp liệu 44 2.4.1 Độ xác phân lớp với liệu cân đối lớp 45 2.4.2 Các giải pháp giải vấn đề cân đối lớp

Ngày đăng: 03/09/2021, 14:37

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w