Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
4,58 MB
Nội dung
BỘ GIÁO DỤC VÀ ðÀO TẠOTRƯỜNG ðẠI HỌC LẠC HỒNG DƯƠNG THÀNH PHẾT XÂYDỰNGHỆTHỐNGDỰ ðOÁN HIỆUSUẤT ðÀO TẠOTẠITRƯỜNGTRUNGCẤPCHUYÊNNGHIỆPLuậnvănThạcsĩ Công nghệ thông tin Khoá 2009-2011 ðồng Nai, Tháng 11 Năm 2011 BỘ GIÁO DỤC VÀ ðÀO TẠOTRƯỜNG ðẠI HỌC LẠC HỒNG DƯƠNG THÀNH PHẾT XÂYDỰNGHỆTHỐNGDỰ ðOÁN HIỆUSUẤT ðÀO TẠOTẠITRƯỜNGTRUNGCẤPCHUYÊNNGHIỆPLuậnvănThạcsĩ Công nghệ thông tin Khoá 2009-2011 Người hướng dẫn khoa học: PGS.TS ðặng Trần Khánh ðồng Nai, Tháng 11 Năm 2011 LỜI CẢM ƠN ðầu tiên, tôi xin trân trọng gửi lời tri ân sâu sắc nhất ñến cán bộ hướng dẫn khoa học, thầy giáo, PGS. TS. ðặng Trần Khánh, người ñã truyền cho tôi nguồn cảm hứng nghiên cứu khoa học, người ñã ñưa tôi ñến với lĩnh vực nghiên cứu này, và là người ñã giảng dạy, hướng dẫn tôi hết sức tận tình trong suốt thời gian học và thực hiện luận văn. Tôi xin bày tỏ lời cảm ơn tới thầy PGS.TS Trần Văn Lăng cùng tất cả quý thầy cô giáo ñã giảng dạy tôi trong suốt hai năm học qua như: TS. Trần Hành, PGS.TS ðỗ Phúc, PGS.TS. Ngô Quốc Tạo, TS. Nguyễn Văn Minh Mẫn .v.v. các nhà khoa học và các thầy giáo trong ban chủ nhiệm khoa Công nghệ thông tin trường ðại học Lạc Hồng. Cuối cùng tôi xin chân thành cảm ơn lãnh ñạo Phòng Giáo dục chuyênnghiệp (Sở Giáo dục & ðào tạo TP.HCM), lãnh ñạo các TrườngTrungcấpchuyênnghiệptại TP.HCM. ðặc biệt là lãnh ñạo trường TC Tây Bắc, nơi tôi ñang công tác ñã cung cấp kho dữ liệu cần thiết ñể thực hiện luận văn. Cám ơn các bạn cùng lớp, ñồng nghiệp và gia ñình ñã giúp ñỡ, tạo ñiều kiện thuận lợi cho tôi trong suốt quá trình học tập cũng như trong thời gian làm luận văn. Tp. HCM, ngày 10 tháng 10 năm 2011 Học viên thực hiện luậnvăn Dương Thành Phết MỤC LỤC Lời cảm ơn Mục lục Bảng từ viết tắt Danh sách bảng biểu Danh sách hình vẽ Mở ñầu .Trang 1 Chương 1: Tổng quan về ñề tài 1.1. Giới thiệu chung về ñề tài 4 1.2. Khảo sát thực tế tại các trường TCCN về hiệusuất ñào tạo 5 1.2.1. Tổng hợp sỉ số học sinh tại các trường TCCN 5 1.2.2. Nguyên nhân của việc giảm sỉ số hàng năm . 9 1.2.3. Tổng hợp số lượng học sinh tốt nghiệptại các trường TCCN 14 1.2.4. Nguyên nhân ảnh hưởng ñến tỷ lệ tốt nghiệp . 17 1.3. Tầm quan trọng và khả năng ứng dụng thực tế của ñề tài 21 1.4. Mục tiêu và giới hạn của ñề tài 21 1.4.1. Mục tiêu của ñề tài . 21 1.4.2. Giới hạn của ñề tài 22 1.5. Phương pháp nghiên cứu và ñánh giá kết quả 23 1.5.1. Phương pháp nghiên cứu 23 1.5.2. ðánh giá kết quả . 24 Chương 2. Tổng quan về khai phá dữ liệu 2.1. Khai phá dữ liệu . 26 2.1.1. Tại sao lại khai phá dữ liệu? 26 2.1.2. ðịnh nghĩa khai phá dữ liệu . 27 2.1.3. Các bước chính trong khám phá tri thức (KDD) . 28 2 2. Các hướng tiếp cận và các kỹ thuật áp dụng trong khai phá dữ liệu 30 2.2.1. Các hướng tiếp cận và các kỹ thuật chính trong khai phá dữ liệu 30 2.2.2. Các dạng dữ liệu có thể khai phá 31 2.3. Ứng dụng của khai phá dữ liệu . 31 2.3.1. Ứng dụng của khai phá dữ liệu 31 2.3.2. Phân loại các hệ khai phá dữ liệu . 32 2.4. Những vấn ñề ñược chú trọng trong khai phá dữ liệu 33 Chương 3. Khai phá dữ liệu dùng cây quyết ñịnh 3.1. Cây quyết ñịnh . 35 3.1.1. ðịnh nghĩa cây quyết ñịnh . 35 3.1.2. Ưu ñiểm của cây quyết ñịnh 35 3.1.3.Vấn ñề xâydựng cây quyết ñịnh . 36 3.1.4. Rút ra các luật từ cây quyết ñịnh 36 3.2. Các thuật toán khai phá dữ liệu bằng cây quyết ñịnh 37 3.2.1. Thuật toán CLS . 37 3.2.2 Thuật toán ID3 38 3.2.3. Thuật toán C4.5 . 40 3.2.4. Thuật toán SLIQ 45 3.2.5. Cắt tỉa cây quyết ñịnh 48 3.2.6. ðánh giá và kết luận về các thuật toán xâydựng cây quyết ñịnh 50 Chương 4: Hiện thực và ñánh giá 4.1. Phát biểu bài toán . 53 4.2. Cơ sở dữ liệu cho bài toán 56 4.3. Hệthống luật 61 4.4. Cài ñặt chương trình . 66 Chương 5: Kết luận và hướng phát triển 5.1. Kết luận . 69 5.2. Hướng phát triển . 70 Tài liệu tham khảo . 71 DANH MỤC BẢNG Bảng 1.1: Tổng hợp sỉ số học sinh tạitrường TC KTKT Sài Gòn . Bảng 1.2: Tổng hợp sỉ số học sinh tạitrường TC CNTT Sài Gòn . Bảng 1.3: Tổng hợp sỉ số học sinh tạitrường TC KTKT Vạn Tường . Bảng 1.4: Tổng hợp sỉ số học sinh tạitrường TC Tin học –Kinh tế Sài Gòn . Bảng 1.5: Tổng hợp sỉ số học sinh tạitrường 4 trườ ng TCCN . Bảng 1.6: Tổng hợp lý do học sinh bỏ học . Bảng 1.7: Tổng hợp số lượng học sinh tốt nghiệptạitrường TC KTKT Sài Gòn . Bảng 1.8: Tổng hợp số lượng học sinh tốt nghiệptạitrường TC CNTT Sài Gòn . Bảng 1.9: Tổng hợp số lượng học sinh tốt nghiệptạitrường TC KTKT Vạn Tường . Bảng 1.10: Tổng hợp số lượng học sinh tốt nghiệptạitrường TC TH–KT Sài Gòn . Bảng 1.11: Tổng hợp số lượng học sinh tốt nghiệptại 4 trường TCCN . Bảng 1.12: Thống kê hiệusuất ñào tạo của các trường TCCN tại TP.HCM Bảng 1.13: Thống kê hiệusuất ñào tạo của trường TCCN Tây Bắc TP.HCM Bảng 4.1: ðiểm chuẩn xét ñiều kiện ñầu vào. Bảng 4.2: Dữ liệu mẫu xác ñịnh hiệusuất ñào tạo Bảng 4.3: Dữ liệu mẫu xác ñịnh tỷ lệ bỏ học Bảng 4.4: Dữ liệu mẫu xác ñịnh tỷ tốt nghiệp Bảng 4.5: Kết quả Hiệusuất ñào tạo Bảng 4.6: Cấu trúc Table Ngành Bảng 4.7: Cấu trúc Table Học sinh Bảng 4.8: Cấu trúc Table Dữ liệu tập luật . Bảng 4.9: Cấu trúc Table Tập luật bỏ học Bảng 4.10: Cấu trúc Table Tập luật tốt nghiệp . Bảng 4.11: Cấu trúc Table Kết quả dự ñoán bỏ học . Bảng 4.12: Cấu trúc Table Kết quả dự ñoán tốt nghiệp DANH MỤC HÌNH Hình 1.1. Hệthốngdự ñoán hiệusuất ñào tạo . Hình 2.1. Lượng dữ liệu ñược tích luỹ tăng mạnh theo thời gian . Hình 2.2. Quá trình khám phá tri thức: Hình 3.1 Cây quyết ñịnh phân lớp mức lương . Hình 4.1 Mô hình ER Hình 4.2: Dữ liệu tập luật bỏ học trong Weka . Hình 4.3: Tập luật bỏ học trong Weka Hình 4.4: Tập luật bỏ học hình cây trong Weka Hình 4.5: Dữ liệu tập luật tốt nghiệp trong Weka Hình 4.6: Tập luật tốt nghiệp trong Weka . Hình 4.7 Tập luật tốt nghiệp hình cây trong Weka Hình 4.8 Màn hình Import dữ liệu . Hình 4.9. Màn hình xem hệthống luật Hình 4.10. Màn hình dự ñoán tỷ lệ bỏ học Hình 4.11. Màn hình dự ñoán tỷ lệ tốt nghiệp . Hình 4.12. Màn hình xem kết quả dự ñoán hiệusuất ñào tạo BẢNG VIẾT TẮT TT Từ hoặc cụm từ Từ viết tắt Từ tiếng Anh 1 Bộ Giáo dục và ðào tạo BGDðT 2 Chế biến CB 3 Cơ sở dữ liệu CSDL Database 4 Công nghệ thông tin CNTT Information technology 5 ðào tạo và Công tác học sinh ðT&CTHS 6 ðiều kiện ðK 7 Giáo dục và ðào tạo GD&ðT 8 Học kỳ HK 9 Học sinh HS 10 Khai phá dữ liệu KPDL Data Mining 11 Kinh doanh KD 12 Kinh tế Kỹ thuật KTKT 13 Nghĩa vụ quân sự NVQS 14 Quyết ñịnh Qð 15 Sản xuất SX 16 Thành phố Hồ Chí Minh Tp.HCM 17 Tốt nghiệp TN 18 Trungcấp TC 19 Trungcấpchuyênnghiệp TCCN 20 Trung học TH 21 Trung học phổ thông THPT 22 Tư thục TT 1 MỞ ðẦU Ứng dụng Công nghệ thông tin trong các lĩnh vực của xã hội ngày càng nhiều, ñiều ñó gắn liền với lượng dữ liệu lưu trữ tại các tổ chức này ngày càng lớn. Tuy nhiên dữ liệu chỉ mang tính chất lưu trữ, báo cáo thống kê, tính toán. Việc vậndụng nguồn tài sản tri thức này ñã và ñang gây hứng thú cho các nhà nghiên cứu. Từ các tập dữ liệu khổng lồ này chúng ta tìm ra những quy luật chưa biết ñến ñể giải thích cho các hiện tượng thực tế. Khám phá tri thức trong Cơ sở dữ liệu (Knowledge Discovery in Databases) ñang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới. Nó có khả năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau. Bước quan trọng nhất của quá trình này là khai phá dữ liệu, giúp người sử dụng thu ñược những tri thức hữu ích từ những cơ sở dữ liệu hoặc các nguồn dữ liệu khổng lồ khác. Rất nhiều doanh nghiệp và tổ chức trên thế giới ñã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt ñộng sản xuất kinh doanh của mình và ñã thu ñược những lợi ích to lớn. Hơn một thập niên trở lại ñây, khai phá dữ liệu (KPDL) ñã trở thành một trong những hướng nghiên cứu chính trong lĩnh vực khoa học máy tính và công nghệ tri thức. Hàng loạt nghiên cứu, ñề xuất ra ñời ñã ñược thử nghiệm và ứng dụng thành công vào ñời sống cùng với hơn mười năm lịch sử cho thấy rằng KPDL là một lĩnh vực nghiên cứu ổn ñịnh, có một nền tảng lý thuyết vững chắc. KPDL bao hàm rất nhiều hướng tiếp cận. Các kỹ thuật chính ñược áp dụng trong lĩnh vực này phần lớn ñược thừa kế từ lĩnh vực cơ sở dữ liệu (CSDL), machine learning, trí tuệ nhân tạo, lý thuyết thông tin, xác suấtthống kê, và tính toán hiệu năng cao. Các bài toán chủ yếu trong KPDL là phân lớp/dự ñoán (classification/prediction), phân cụm (clustering), khai phá luật kết hợp (association rules mining), khai phá chuỗi (sequence mining), v.v. 2 Lĩnh vực này cũng là ñiểm hội tụ và giao thoa của rất nhiều lĩnh vực khác. KPDL ñã và ñang ñược ứng dụng thành công vào thương mại, tài chính và thị trường chứng khoán, sinh học, y học, giáo dục, viễn thông, .v.v. Ý thức ñược ñây là một lĩnh vực nghiên cứu có nhiều triển vọng, tôi ñã chọn hướng nghiên cứu ứng dụng khai phá dữ liệu ñể “Xây dựnghệthốngdự ñoán hiệusuất ñào tạotạiTrườngTrungcấpchuyên nghiệp” cho ñề tàiluậnvăn của mình. Luậnvăn ñược xâydựng dựa trên nền các nghiên cứu ñã có trong lĩnh vực khai phá dữ liệu kể từ năm 1993, ñồng thời tôi cũng mạnh dạn trình bày một vài ñề xuất của riêng mình về các giải pháp quản lý nhằm nâng cao hiệusuất ñào tạo có tính khả thi tại các trườngTrungcấpchuyênnghiệp ngoài công lập tại ñịa bàn TP.HCM. Luậnvăn ñược tổ chức thành 5 chương như sau: − Chương 1 - Giới thiệu tổng quan về ñề tài: Khả năng hữu ích của khai phá dữ liệu ứng dụng vào lĩnh vực giáo dục ñào tạo, cụ thể trong ñề tài ñánh giá hiệusuất ñào tạotại các trườngTrungcấpchuyên nghiệp. Tiến hành khảo sát thực tế về hiệusuất ñào tạotại các trườngTrungcấpchuyên nghiệp, phân tích hiện trạng và nguyên nhân ảnh hưởng. Từ ñó nêu lên ñược tầm quan trọng và khả năng ứng dụng thực tế của ñề tài. Qua ñó xác ñịnh rõ mục tiêu và giới hạn của ñề tài cũng như phương pháp nghiên cứu và ñánh giá kết quả. − Chương 2 - Trình bày tổng quan về KPDL như ñịnh nghĩa thế nào là KPDLvà khám phá tri thức từ cơ sở dữ liệu, các bước chính trong quá trình khám phá tri thức. Chương này cũng ñề cập ñến các kỹ thuật và hướng tiếp cận chính trong KPDL và phân loại các hệthống khai phá theo nhiều tiêu chí khác nhau. Phần cuối của chương này phác họa những ứng dụng chính của lĩnh vực này và những hướng nghiên cứu ñang và sẽ ñược chú trọng trong thời gian tới. . liệu ñể Xây dựng hệ thống dự ñoán hiệu suất ñào tạo tại Trường Trung cấp chuyên nghiệp cho ñề tài luận văn của mình. Luận văn ñược xây dựng dựa trên. ðÀO TẠO TRƯỜNG ðẠI HỌC LẠC HỒNG DƯƠNG THÀNH PHẾT XÂY DỰNG HỆ THỐNG DỰ ðOÁN HIỆU SUẤT ðÀO TẠO TẠI TRƯỜNG TRUNG CẤP CHUYÊN NGHIỆP Luận văn Thạc sĩ Công nghệ