Ý thức được đây là một lĩnh vực nghiên cứu cĩ nhiều triển vọng, tơi đã chọn hướng nghiên cứu ứng dụng khai phá dữ liệu để “Xây dựng hệ thống dự đốn hiệu suất đào tạo tại Trường Trung cấp
Trang 3dẫn khoa học, thầy giáo, PGS TS đặng Trần Khánh, người ựã truyền cho tôi nguồn cảm hứng nghiên cứu khoa học, người ựã ựưa tôi ựến với lĩnh vực nghiên cứu này, và là người ựã giảng dạy, hướng dẫn tôi hết sức tận tình trong suốt thời gian học và thực hiện luận văn
Tôi xin bày tỏ lời cảm ơn tới thầy PGS.TS Trần Văn Lăng cùng tất cả quý thầy cô giáo ựã giảng dạy tôi trong suốt hai năm học qua như: TS Trần Hành, PGS.TS đỗ Phúc, PGS.TS Ngô Quốc Tạo, TS Nguyễn Văn Minh Mẫn v.v các nhà khoa học và các thầy giáo trong ban chủ nhiệm khoa Công nghệ thông tin trường đại học Lạc Hồng
Cuối cùng tôi xin chân thành cảm ơn lãnh ựạo Phòng Giáo dục chuyên nghiệp (Sở Giáo dục & đào tạo TP.HCM), lãnh ựạo các Trường Trung cấp chuyên nghiệp tại TP.HCM đặc biệt là lãnh ựạo trường TC Tây Bắc, nơi tôi ựang công tác ựã cung cấp kho dữ liệu cần thiết ựể thực hiện luận văn Cám
ơn các bạn cùng lớp, ựồng nghiệp và gia ựình ựã giúp ựỡ, tạo ựiều kiện thuận lợi cho tôi trong suốt quá trình học tập cũng như trong thời gian làm luận văn
Tp HCM, ngày 10 tháng 10 năm 2011
Học viên thực hiện luận văn Dương Thành Phết
Trang 4Mục lục
Bảng từ viết tắt
Danh sách bảng biểu
Danh sách hình vẽ
Mở ựầu Trang 1 Chương 1: Tổng quan về ựề tài
1.1 Giới thiệu chung về ựề tài 4
1.2 Khảo sát thực tế tại các trường TCCN về hiệu suất ựào tạo 5
1.2.1 Tổng hợp sỉ số học sinh tại các trường TCCN 5
1.2.2 Nguyên nhân của việc giảm sỉ số hàng năm 9
1.2.3 Tổng hợp số lượng học sinh tốt nghiệp tại các trường TCCN 14
1.2.4 Nguyên nhân ảnh hưởng ựến tỷ lệ tốt nghiệp 17
1.3 Tầm quan trọng và khả năng ứng dụng thực tế của ựề tài 21
1.4 Mục tiêu và giới hạn của ựề tài 21
1.4.1 Mục tiêu của ựề tài 21
1.4.2 Giới hạn của ựề tài 22
1.5 Phương pháp nghiên cứu và ựánh giá kết quả 23
1.5.1 Phương pháp nghiên cứu 23
1.5.2 đánh giá kết quả 24
Chương 2 Tổng quan về khai phá dữ liệu 2.1 Khai phá dữ liệu 26
2.1.1 Tại sao lại khai phá dữ liệu? 26
2.1.2 định nghĩa khai phá dữ liệu 27
2.1.3 Các bước chắnh trong khám phá tri thức (KDD) 28
2 2 Các hướng tiếp cận và các kỹ thuật áp dụng trong khai phá dữ liệu 30
2.2.1 Các hướng tiếp cận và các kỹ thuật chắnh trong khai phá dữ liệu 30 2.2.2 Các dạng dữ liệu có thể khai phá 31
2.3 Ứng dụng của khai phá dữ liệu 31
Trang 5Chương 3 Khai phá dữ liệu dùng cây quyết ựịnh
3.1 Cây quyết ựịnh 35
3.1.1 định nghĩa cây quyết ựịnh 35
3.1.2 Ưu ựiểm của cây quyết ựịnh 35
3.1.3.Vấn ựề xây dựng cây quyết ựịnh 36
3.1.4 Rút ra các luật từ cây quyết ựịnh 36
3.2 Các thuật toán khai phá dữ liệu bằng cây quyết ựịnh 37
3.2.1 Thuật toán CLS 37
3.2.2 Thuật toán ID3 38
3.2.3 Thuật toán C4.5 40
3.2.4 Thuật toán SLIQ 45
3.2.5 Cắt tỉa cây quyết ựịnh 48
3.2.6 đánh giá và kết luận về các thuật toán xây dựng cây quyết ựịnh 50 Chương 4: Hiện thực và ựánh giá 4.1 Phát biểu bài toán 53
4.2 Cơ sở dữ liệu cho bài toán 56
4.3 Hệ thống luật 61
4.4 Cài ựặt chương trình 66
Chương 5: Kết luận và hướng phát triển 5.1 Kết luận 69
5.2 Hướng phát triển 70
Tài liệu tham khảo 71
Trang 6Bảng 1.3: Tổng hợp sỉ số học sinh tại trường TC KTKT Vạn Tường
Bảng 1.4: Tổng hợp sỉ số học sinh tại trường TC Tin học –Kinh tế Sài Gịn
Bảng 1.5: Tổng hợp sỉ số học sinh tại trường 4 trườ ng TCCN
Bảng 1.6: Tổng hợp lý do học sinh bỏ học
Bảng 1.7: Tổng hợp số lượng học sinh tốt nghiệp tại trường TC KTKT Sài Gịn
Bảng 1.8: Tổng hợp số lượng học sinh tốt nghiệp tại trường TC CNTT Sài Gịn
Bảng 1.9: Tổng hợp số lượng học sinh tốt nghiệp tại trường TC KTKT Vạn Tường Bảng 1.10: Tổng hợp số lượng học sinh tốt nghiệp tại trường TC TH–KT Sài Gịn
Bảng 1.11: Tổng hợp số lượng học sinh tốt nghiệp tại 4 trường TCCN
Bảng 1.12: Thống kê hiệu suất đào tạo của các trường TCCN tại TP.HCM
Bảng 1.13: Thống kê hiệu suất đào tạo của trường TCCN Tây Bắc TP.HCM
Bảng 4.1: ðiểm chuẩn xét điều kiện đầu vào
Bảng 4.2: Dữ liệu mẫu xác định hiệu suất đào tạo
Bảng 4.3: Dữ liệu mẫu xác định tỷ lệ bỏ học
Bảng 4.4: Dữ liệu mẫu xác định tỷ tốt nghiệp
Bảng 4.5: Kết quả Hiệu suất đào tạo
Bảng 4.6: Cấu trúc Table Ngành
Bảng 4.7: Cấu trúc Table Học sinh
Bảng 4.8: Cấu trúc Table Dữ liệu tập luật
Bảng 4.9: Cấu trúc Table Tập luật bỏ học
Bảng 4.10: Cấu trúc Table Tập luật tốt nghiệp
Bảng 4.11: Cấu trúc Table Kết quả dự đốn bỏ học
Bảng 4.12: Cấu trúc Table Kết quả dự đốn tốt nghiệp
Trang 7Hình 2.2 Quá trình khám phá tri thức:
Hình 3.1 Cây quyết định phân lớp mức lương
Hình 4.1 Mơ hình ER
Hình 4.2: Dữ liệu tập luật bỏ học trong Weka
Hình 4.3: Tập luật bỏ học trong Weka
Hình 4.4: Tập luật bỏ học hình cây trong Weka
Hình 4.5: Dữ liệu tập luật tốt nghiệp trong Weka
Hình 4.6: Tập luật tốt nghiệp trong Weka
Hình 4.7 Tập luật tốt nghiệp hình cây trong Weka
Hình 4.8 Màn hình Import dữ liệu
Hình 4.9 Màn hình xem hệ thống luật
Hình 4.10 Màn hình dự đốn tỷ lệ bỏ học
Hình 4.11 Màn hình dự đốn tỷ lệ tốt nghiệp
Hình 4.12 Màn hình xem kết quả dự đốn hiệu suất đào tạo
Trang 82 Chế biến CB
4 Công nghệ thông tin CNTT Information technology
5 đào tạo và Công tác học sinh đT&CTHS
Trang 9MỞ ðẦU
Ứng dụng Cơng nghệ thơng tin trong các lĩnh vực của xã hội ngày càng nhiều, điều đĩ gắn liền với lượng dữ liệu lưu trữ tại các tổ chức này ngày càng lớn Tuy nhiên dữ liệu chỉ mang tính chất lưu trữ, báo cáo thống kê, tính tốn Việc vận dụng nguồn tài sản tri thức này đã và đang gây hứng thú cho các nhà nghiên cứu Từ các tập dữ liệu khổng lồ này chúng ta tìm ra những quy luật chưa biết đến để giải thích cho các hiện tượng thực tế
Khám phá tri thức trong Cơ sở dữ liệu (Knowledge Discovery in Databases) đang là một xu hướng quan trọng của nền Cơng nghệ thơng tin thế giới Nĩ cĩ khả năng ứng dụng vào rất nhiều lớp bài tốn thực tế khác nhau Bước quan trọng nhất của quá trình này là khai phá dữ liệu, giúp người sử dụng thu được những tri thức hữu ích từ những cơ sở dữ liệu hoặc các nguồn
dữ liệu khổng lồ khác Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình và
đã thu được những lợi ích to lớn
Hơn một thập niên trở lại đây, khai phá dữ liệu (KPDL) đã trở thành một trong những hướng nghiên cứu chính trong lĩnh vực khoa học máy tính
và cơng nghệ tri thức Hàng loạt nghiên cứu, đề xuất ra đời đã được thử nghiệm và ứng dụng thành cơng vào đời sống cùng với hơn mười năm lịch sử cho thấy rằng KPDL là một lĩnh vực nghiên cứu ổn định, cĩ một nền tảng lý thuyết vững chắc
KPDL bao hàm rất nhiều hướng tiếp cận Các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực cơ sở dữ liệu (CSDL), machine learning, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống
kê, và tính tốn hiệu năng cao Các bài tốn chủ yếu trong KPDL là phân lớp/dự đốn (classification/prediction), phân cụm (clustering), khai phá luật kết hợp (association rules mining), khai phá chuỗi (sequence mining), v.v
Trang 10Lĩnh vực này cũng là điểm hội tụ và giao thoa của rất nhiều lĩnh vực khác KPDL đã và đang được ứng dụng thành cơng vào thương mại, tài chính
và thị trường chứng khốn, sinh học, y học, giáo dục, viễn thơng, v.v Ý thức được đây là một lĩnh vực nghiên cứu cĩ nhiều triển vọng, tơi đã chọn hướng
nghiên cứu ứng dụng khai phá dữ liệu để “Xây dựng hệ thống dự đốn hiệu suất đào tạo tại Trường Trung cấp chuyên nghiệp” cho đề tài luận văn của
mình Luận văn được xây dựng dựa trên nền các nghiên cứu đã cĩ trong lĩnh vực khai phá dữ liệu kể từ năm 1993, đồng thời tơi cũng mạnh dạn trình bày một vài đề xuất của riêng mình về các giải pháp quản lý nhằm nâng cao hiệu suất đào tạo cĩ tính khả thi tại các trường Trung cấp chuyên nghiệp ngồi cơng lập tại địa bàn TP.HCM
Luận văn được tổ chức thành 5 chương như sau:
− Chương 1 - Giới thiệu tổng quan về đề tài: Khả năng hữu ích của khai phá dữ liệu ứng dụng vào lĩnh vực giáo dục đào tạo, cụ thể trong đề tài đánh giá hiệu suất đào tạo tại các trường Trung cấp chuyên nghiệp Tiến hành khảo sát thực tế về hiệu suất đào tạo tại các trường Trung cấp chuyên nghiệp, phân tích hiện trạng và nguyên nhân ảnh hưởng Từ
đĩ nêu lên được tầm quan trọng và khả năng ứng dụng thực tế của đề tài Qua đĩ xác định rõ mục tiêu và giới hạn của đề tài cũng như phương pháp nghiên cứu và đánh giá kết quả
− Chương 2 - Trình bày tổng quan về KPDL như định nghĩa thế nào là KPDLvà khám phá tri thức từ cơ sở dữ liệu, các bước chính trong quá trình khám phá tri thức Chương này cũng đề cập đến các kỹ thuật và hướng tiếp cận chính trong KPDL và phân loại các hệ thống khai phá theo nhiều tiêu chí khác nhau Phần cuối của chương này phác họa những ứng dụng chính của lĩnh vực này và những hướng nghiên cứu đang và sẽ được chú trọng trong thời gian tới
Trang 11− Chương 3 - Khai phá dữ liệu dùng cây quyết định: Từ việc phân tích các kỹ thuật dùng để khai phá dữ liệu thì cây quyết định là lựa chọn phù hợp nhất Tiến hành giới thiệu về kỹ thuật này, từ định nghĩa như thế nào là cây quyết định, đến các ưu điểm, vấn đề xây dựng cây quyết định và rút ra các luật khai phá từ cây quyết định Khi sử dụng kỹ thuật khai phá dùng cây quyết định sẽ cĩ rất nhiều thuật tốn để áp dụng từ CLS, ID3 C4.5, SLQI, cắt tỉa cây quyết định cũng như đánh giá và kết luận về các thuật tốn xây dựng cây quyết định
− Chương 4 - Hiện thực và đánh giá: Ứng dụng cơ sở lý thuyết và khảo sát thực tế để vận dụng vào bài tốn cần giải quyết Từ khởi điểm mơ tả thơng tin bài tốn, tiến hành xây dựng cơ sở dữ liệu để lưu trữ và xử lý Ứng dụng phần mềm mã nguồn mở Weka khai thác dữ liệu trên kho dữ liệu của quá khứ để xây dựng hệ thống các luật Từ hệ thống các luật tiến hành xây dựng chương trình thử nghiệm (với ngơn ngữ lập trình C#) để đưa ra được kết quả dự đốn cho tương lai
− Chương 5: Kết luận và hướng phát triển: Tổng kết luận văn bằng việc nêu lại những cơng việc đã thực hiện được và kết quả đạt được Những đĩng gĩp cĩ tính tích cực vào thực tế, nêu ra những hạn chế và định hướng nghiên cứu phát triển trong tương lai
Trang 12Chương 1
TỔNG QUAN VỀ đỀ TÀI 1.1 Giới thiệu chung về ựề tài
Khai phá dữ liệu (data mining), hiện nay ựang ựược rất nhiều người
chú ý Nó thực sự ựã ựem lại những lợi ắch ựáng kể trong việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn Thế nhưng ựể có ựược những thông tin quý giá, ựáng quan tâm, chúng ta lại phải tốn rất nhiều công sức ựể tìm kiếm nó trong một khối lượng thông tin khổng lồ ấy Xét về lĩnh vực này thì khối lượng thông tin càng lớn công việc càng trở nên khó khăn hơn Những phương pháp thống kê truyền thống, phần lớn ựều ựã ựược ựịnh trước mục ựắch của công việc, và sau ựó chỉ việc sử dụng những phương pháp thắch hợp ựể có ựược những thông tin mà chúng ta cần đối với khai phá dữ liệu ựúng nghĩa như tên gọi của nó, chúng ta ựi tìm ỘmỏỢ, không biết Ộcó mỏ hay không?Ợ Nếu có thì Ộmỏ ựó là vàng, bạc, hay chì ?Ợ Khai phá dữ liệu như là một công cụ, giúp chúng ta tìm ra ỘmỏỢ trong những Ộdãy núi khổng lồỢ, núi càng lớn, càng dài thì hy vọng tìm ra mỏ càng cao nhưng cũng hết sức khó khăn phức tạp
Tất nhiên khi tìm ra ựược những thông tin cuối cùng thì việc ứng dụng những thông tin ựó vào trong thực tế lại ựòi hỏi cả một quá trình vận dụng từ
lý thuyết vào thực tiễn Những luật kết hợp, những mẫu thông tin chưa từng gặp sẽ là tiền ựề cho những dự ựoán, ựể từ ựó có ựược những hoạch ựịnh ựúng cho hướng phát triển trong tương lai, ựây chắnh là những yếu tố mà cơ quan ựơn vị nào cũng cần tới nó, dù ở mức qui mô lớn hay nhỏ
Khai phá dữ liệu trong Giáo dục và đào tạo thật sự là một việc làm có
ý nghĩa, nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học ựáng tin cậy, và ựây cũng chắnh là những thông tin quý giá hỗ trợ rất nhiều trong công tác quản lý giáo dục
Trang 13Hiện nay khai phá dữ liệu ựã ựược ứng dụng rất nhiều trong thực tế, nhất là trong lĩnh vực kinh doanh, y tế, công nghệ sinh học, quân sự, viễn thông, Tuy nhiên trong lĩnh vực Giáo dục và đào tạo, quả thật còn rất ắt
Và bản thân nhận thấy rằng ựây là công cụ có thể ựược áp dụng vào lĩnh vực giáo dục ựể tìm kiếm những vấn ựề cần quan tâm và ựặc biệt là trong các trường Trung cấp chuyên nghiệp Cụ thể tại Trường Trung cấp chuyên nghiệp Tây Bắc TP.HCM
Dữ liệu trong giáo dục có những ựặc ựiểm riêng của nó, ựòi hỏi chúng
ta phải có những phương pháp khám phá phù hợp thì mới phát huy ựược tốc
ựộ, cũng như không gian bộ nhớ Mặt khác ựể có ựược những thông tin mang tắnh xã hội và thực tế cao thì việc chọn phương pháp tiếp cận phải có tắnh thuyết phục
Trong luận văn này, tác giả muốn giới thiệu phương pháp khai phá dữ liệu, từ cơ sở dữ liệu là thông tin ựầu vào của học sinh Trung cấp chuyên nghiệp, ựể xây dựng hệ thống dự ựoán hiệu suất ựào (tỷ lệ tốt nghiệp) Luận văn tập trung nghiên cứu lý thuyết về khai phá dữ liệu dùng cây quyết ựịnh ựể sinh ra tập luật và từ tập luật sẽ tiến hành xây dựng hệ thống dự ựoán tỷ lệ bỏ học, tỷ lệ ựậu tốt nghiệp và từ ựó xác ựịnh ựược hiệu suất ựào tạo tại một trường TCCN
1.2 Khảo sát thực tế tại các trường Trung cấp chuyên nghiệp về hiệu suất ựào tạo
1.2.1 Tổng hợp sỉ số học sinh tại các trường TCCN khóa 2007, 2008 [5]
a) Tổng hợp sỉ số học sinh qua từng học kỳ trường TC KTKT Sài Gòn
Sỉ số HS sau từng học kỳ Sỉ số học sinh sau từng học kỳ
TT Ngành ựào tạo
Sỉ số học sinh ựầu khoá
Trang 14Sỉ số HS sau từng học kỳ Sỉ số học sinh sau từng học kỳ
TT Ngành ñào tạo
Sỉ số học sinh ñầu khoá
521 78,8%
504
76, 2%
487 73,7% 720
650 90,2%
605 84%
534 74,1%
498 69,1%
Bảng 1.1: Tổng hợp sỉ số học sinh tại trường TC KTKT Sài Gòn
b) Tổng hợp sỉ số học sinh qua từng học kỳ trường TC CNTT Sài Gòn
Sỉ số HS sau từng học kỳ Sỉ số học sinh sau từng
học kỳ
TT Ngành
ñào tạo
Sỉ số học sinh ñầu khoá
446 92,3%
408 84,4%
401 83% 1200
1184 98,6%
1104 92%
1010 84,1%
998 83,1
%
Bảng 1.2: Tổng hợp sỉ số học sinh tại trường TC CNTT Sài Gòn
Trang 15c) Tổng hợp sỉ số học sinh qua từng học kỳ trường TC KT-KT Vạn Tường
Sỉ số HS sau từng học kỳ
Sỉ số học sinh sau từng học kỳ
TT Ngành
ñào tạo
Sỉ số học sinh ñầu khoá
100%
1071 89,5%
983 82,1%
968 80,8% 1247
1247 100%
1089 87,3%
1003 80,4%
992 79,5%
Bảng 1.3: Tổng hợp sỉ số học sinh tại trường TC KTKT Vạn Tường
d) Tổng hợp sỉ số học sinh qua từng học kỳ trường TC Tin học –Kinh tế Sài Gòn
Sỉ số HS sau từng học kỳ
Trang 16Sỉ số HS sau từng học kỳ
720 78,7%
684 74,7%
664 72,5% 822
751 94,4%
707 86%
665 80,9%
647 78,7%
Bảng 1.4: Tổng hợp sỉ số học sinh tại trường TC Tin học –Kinh tế Sài Gòn
e) Tổng hợp thực trạng việc bỏ học tại 4 trường TCCN khóa học 2007, 2008
Sau năm thứ 1 Sau năm thứ 2 Trường Khóa học
Sỉ số ñầu khóa
Sỉ số cuối năm
Số nghỉ học
Tỷ lệ nghỉ học %
Sỉ số cuối năm
Số nghỉ học
Tỷ lệ nghỉ học
%
Tỷ lệ bỏ học toàn khóa %
2007 661 521 140 21, 18% 487 34 5, 14% 26, 32% KTKT
Sài gòn 2008 720 605 115 15, 97% 498 107 14, 8% 30, 83%
2007 483 446 37 7, 66% 401 45 9, 91% 17, 57% CNTT
Sài gòn 2008 1184 1104 80 6, 75 998 106 9, 6% 16, 35%
2007 1197 1071 126 10, 5% 968 103 9, 6% 20, 1% KTKT Vạn
tường 2008 1247 1089 158 12, 7% 992 97 8, 9% 21, 6%
2007 915 820 95 10, 38% 664 156 17, 5% 27, 88% THKT
Sài gòn 2008 822 756 66 8, 03% 676 80 9, 73% 17, 76% Tổng cộng: 7229 6412 817 11,30% 5684 728 10,07% 21,37%
Bảng 1.5: Tổng hợp sỉ số học sinh tại trường 4 trường TCCN
Qua các bảng thống kê thực tế về sự biến ñộng sỉ số học sinh tại các
Trang 17trường cho thấy:
- Sau khi vào học một thời gian ngắn, tình trang ñi học thất thường xảy ra
ở một số học sinh, sau ñó một số học sinh bắt ñầu nghỉ học Tình trang này tiếp tục tăng lên cho ñến cuối học kỳ 1 của năm học thứ nhất
- Bước vào học kỳ 2, tình trang này vẫn tiếp tục diễn ra, tuy mức ñộ có phần giảm hơn, cho ñến hết năm học thứ nhất
- Bước vào năm học thứ 2, tình hình học sinh có phần ổn ñịnh hơn, do các em ñã xác ñịnh ñược nhiệm vụ học tập quyết tâm ở lại trường ñể hoàn thành khóa học cho mình
1.2.2 Nguyên nhân của việc giảm sỉ số hàng năm
1.2.2.1 Những nguyên nhân về phía học sinh
Qua thực tế thu thập dữ liệu tại các trường, các lý do mà học sinh nghỉ học ñược tóm lược trong bảng thống kê dưới ñây:
a) Bảng lý do các bạn trong cùng lớp ñã nghỉ học
Phân chia Nội dung
Tổng
số ý kiến
Hoàn toàn ñồng
ý
ðồng ý Lưỡng
lự
Không ñồng ý
Hoàn toàn không ñồng ý
1) ðể ôn thi tiếp ñại học 328 21, 9% 72 42, 7% 140 24, 4% 80 7, 3% 24 3, 7% 12
phù hợp, ñể năm học sau chuyển
Trang 18thông lên cao ñẳng, ñại học còn
- Do bản thân một số học sinh bị hụt hẫng sau khi thi ñại học không ñược, nên tìm chỗ ñể học tạm, chờ ñợi kỳ thi ñại học lần hai, vì vậy số học sinh này không thực sự yên tâm và ổn ñịnh ñể học tập, chỉ khoảng 2 tháng sau khi vào học trung cấp, số học sinh này bắt ñầu tìm chỗ học thêm, vừa học
ở trường Trung cấp, vừa học luyện thi ñại học, việc học ở trường Trung cấp trở nên thất thường và cuối cùng có thể quyết ñịnh bỏ học ñể tập trung cho việc ôn thi ñại học Tình trạng này chủ yếu diễn ra ở học kỳ 1 taị các trường TCCN
- Một số học sinh khác, sau khi thi ñại học không ñạt, ñể ñược tạm hoãn
Trang 19NVQS, thì cách tốt nhất, ñơn giản và hợp pháp lại ít tốn kém do những tiêu cực vẫn ñang tồn tại trong xã hội khi phải tìm cách ñể trì hoãn vấn ñề này, do vậy sau một thời gian ngắn nhập học ở các trường TCCN, số học sinh này sẽ bỏ học Hiện tượng này diễn ra ở nhiều trường, trong nhiều năm qua vì luật NVQS cho phép các thanh niên ñược tạm hoãn làm NVQS trong khi ñang theo học ở các trường ñại học, cao ñẳng, trung cấp chuyên nghiệp, dạy nghề
- Một số học sinh vào học ở các rrường TCCN không phải do tự mình quyết ñịnh cho việc lưạ chọn này, mà có thể do một sự tác ñộng nào ñó, có thể
do cha mẹ, anh chị em trong gia ñình khuyên nhủ vào học ở các trường này, có thể do bạn bè lôi cuốn, nên sau một thời gian ngắn vào học, sinh ra chán nản, cảm thấy việc học không thích hợp nên bỏ học
- Một số học sinh, sau một thời gian vào học ở trường do hoàn cảnh gia ñình thực sự có khó khăn về mặt kinh tế, không ñủ tiền ñể cung cấp cho con,
em ăn học, vì vậy có một số học sinh phải tạm thôi học
- Một số học sinh vì trình ñộ học lực yếu kém, nhiều môn học phải thi lại nhưng vẫn không vượt qua nổi, nên sinh ra chán nản, dẫn ñến tình trạng bỏ học ngang chừng
- Vì học sinh quan niệm rằng con ñường học tiếp liên thông lên ñại học, cao ñẳng khó khăn hơn học sinh trung cấp ñang theo học ở các trường ñại học, cao ñẳng nên sinh ra chán nản bỏ học
1.2.2.2 Một số nguyên nhân về phía nhà trường
- Vì công tác giáo dục chính trị, tư tưởng và quản lý học sinh ở các trường chưa thật tốt, chưa nắm bắt kịp thời những diễn biến tư tưởng của học sinh, nhiều băn khoăn lo lắng của một số học sinh chưa ñược giải tỏa kịp thời dẫn ñến tình trạng chán nản, bỏ học ngang chừng
- Vì việc quản lý học sinh ở các trường chưa thật tốt, không nắm vững tình
Trang 20trạng nghỉ học hàng ngày của học sinh ở các lớp , do vậy có những học nghỉ học nhiều ngày, hoặc ñi học thất thường cũng không nắm vững ñể kịp thời có những biện pháp nhắc nhở hoặc thông báo cho gia ñình biết ñể phối hợp giải quyết
- Vì ñiều kiện cơ sở vật chất, kỹ thuật phục vụ cho việc dạy và học chưa ñáp ứng tốt yêu cầu cho việc nâng cao chất lượng ñào tạo ðặc biệt là trang thiết bị phục vụ cho việc thực tập, rèn luyện kỹ năng nghề nghiệp còn hạn chế, trang thiết bị lạc hậu, chậm ñổi mới, không theo kịp với sự tiến bộ nhanh chóng của khoa học kỹ thuật và công nghệ Do vậy khả năng thực hành nghề của học sinh sau khi tốt nghiệp không ñáp ứng và phù hợp với yêu cầu của thực tế
- Việc chuẩn bị cho học sinh tốt nghiệp ra trường chưa tốt, nhất là tìm ñầu ra cho học sinh sau khi tốt nghiệp, ñiều này ñòi hỏi các trường phải có mối liên kết chặt chẽ, thường xuyên với các cơ sở sản xuất ñể biết ñược khả năng và yêu cầu tiếp nhận nguồn nhân lực của họ, tạo ñiều kiện cho học sinh tốt nghiệp vào làm việc ở ñó
- Vì việc giảng dạy của một số ít Thầy (Cô) giáo chưa thật tốt, học sinh khó hiểu, thi không ñạt gây nên tâm lý chán học rồi bỏ học; một số Thầy (Cô) giáo lên lớp chưa thật nghiêm túc: Vào lớp muộn, về sớm, nghỉ dạy bất thường, không báo trước cho nhà trường, cho học sinh; do vậy, ñã có trường buộc phải thay ñổi giáo viên giữa học kỳ mới thay ñổi ñược không khí học tập trong lớp Số giáo viên trên tuy không nhiều nhưng cũng làm ảnh hưởng ñến sự gắn bó của học sinh với trường
1.2.2.3 Một số nguyên nhân khác
- Một nguyên nhân khác tác ñộng ñến việc bỏ học ngang chừng của học sinh
là không có tiền ñóng học phí do tiêu xài hết số tiền học phí gia ñình ñã cho
Trang 21- Một số học kém, nợ nhiều môn học phải thi lại vẫn không vượt qua ñược nên sinh ra chán nản, bỏ học ngang chừng
Tóm lại: Việc bỏ học ngang chừng của học sinh là một sự tác ñộng tổng hợp
của nhiều nguyên nhân từ phía người học, từ hoạt ñộng của nhà trường trong quá trình ñào tạo, từ những tác ñộng của xã hội vào học sinh
Có thể tập trung ở những nguyên nhân chính sau:
1 ðể ôn thi tiếp ñại học
2 Vì khó khăn về kinh tế của gia ñình, bản thân không thể theo học
3 Vì ngành nghề theo học không phù hợp, muốn năm sau chuyển sang ngành khác
4 Vì học kém nên chán học, theo không kịp chương trình, bạn bè
5 Vì sức khỏe, bệnh tật của bản thân, gia ñình phải về chăm sóc bố
mẹ già bệnh tật không có người giúp ñỡ
9 Vì các Thầy (Cô) giáo ít quan tâm ñộng viên, giúp học sinh hiểu
rõ con ñường ñi lên của mình khi vào học trung cấp chuyên nghiệp
Bởi vậy, ñể duy trì sỉ số học sinh, các trường cần phải thực hiện ñồng
bộ các giải pháp một cách thường xuyên, liên tục trong quá trình ñào tạo của
Trang 22mình; cĩ làm được như vậy mới cĩ khả năng hạn chế được việc bỏ học ngang
chừng của học sinh để duy trì sỉ số trong quá trình đào tạo của trường Muốn vậy nếu cĩ được một hệ thống dự đốn tỷ lệ học sinh bỏ học và đưa ra danh sách những học sinh cĩ khả năng bỏ học để nhà trường, gia đình và học sinh cĩ kế hoạch quan tâm, quản lý thì thật là hữu ích
1.2.3 Tổng hợp số lượng học sinh tốt nghiệp tại các trường TCCN
a) Tổng hợp số lượng học sinh tốt nghiệp tại trường TC KTKT Sài Gịn
Sỉ số HS ðủ
ðK dự thi
TN
Sỉ số HS Tốt nghiệp
Sỉ số HS ðủ
ðK dự thi
TN
Sỉ số HS Tốt nghiệp
TT Ngành đào tạo
Sỉ số học sinh cuối khố
2007
Số lượng Tỷ lệ
Số lượng Tỷ lệ
Sỉ số học sinh cuối khố
cộng: 487 388 79.7% 371 95.6% 498 410 82.3% 405 98.8% Bảng 1.7: Tổng hợp số lượng học sinh tốt nghiệp tại trường TC KTKT Sài Gịn
b) Tổng hợp số lượng học sinh tốt nghiệp tại trường TC CNTT Sài Gịn
Sỉ số HS ðủ
ðK dự thi
TN
Sỉ số HS Tốt nghiệp ðK dự thi TN Sỉ số HS ðủ Sỉ số HS Tốt nghiệp
TT Ngành đào tạo
Sỉ số học sinh cuối khố
2007
Số lượng Tỷ lệ
Số lượng Tỷ lệ
Sỉ số học sinh cuối khố
Trang 23Sỉ số HS ðủ
ðK dự thi
TN
Sỉ số HS Tốt nghiệp ðK dự thi TN Sỉ số HS ðủ Sỉ số HS Tốt nghiệp
TT Ngành ñào tạo
Sỉ số học sinh cuối khoá
2007
Số lượng Tỷ lệ
Số lượng Tỷ lệ
Sỉ số học sinh cuối khoá
2008 lượng Số Tỷ lệ lượng Số Tỷ lệ
Tổng
cộng 401 323 80.5% 315 97.5% 998 870 87.2% 851 97.8%
Bảng 1.8: Tổng hợp số lượng học sinh tốt nghiệp tại trường TC CNTT Sài Gòn
c) Tổng hợp số lượng học sinh tốt nghiệp tại trường TC KTKT Vạn tường
TT Ngành ñào tạo
Sỉ số học sinh cuối khoá
2007
Số lượng Tỷ lệ
Số lượng Tỷ lệ
Sỉ số học sinh cuối khoá
cộng 975 837 85.8% 821 98.1% 991 735 74.2% 712 96.9% Bảng 1.9: Tổng hợp số lượng học sinh tốt nghiệp tại trường TC KTKT Vạn Tường
Trang 24d) Tổng hợp số lượng học sinh tốt nghiệp tại trường TC TH-KT Sài gòn
Sỉ số HS ðủ
ðK dự thi TN Sỉ số HS Tốt nghiệp ðK dự thi TN Sỉ số HS ðủ Sỉ số HS Tốt nghiệp
TT Ngành ñào tạo
Sỉ số học sinh cuối khoá
2007
Số lượng Tỷ lệ
Số lượng Tỷ lệ
Sỉ số học sinh cuối khoá
e) Tổng hợp số lượng học sinh tốt nghiệp tại 4 trường TCCN khóa 2007,2008
Sỉ số HS ðủ
ðK dự thi TN Sỉ số HS Tốt nghiệp ðK dự thi TN Sỉ số HS ðủ Sỉ số HS Tốt nghiệp
TT Trường
Sỉ số học sinh cuối khoá
2007
Số lượng Tỷ lệ
Số lượng Tỷ lệ
Sỉ số học sinh cuối khoá
Trang 251.2.4 Nguyên nhân ảnh hưởng ựến tỷ lệ tốt nghiệp
Qua số liệu khảo sát tại các trường TCCN cho thấy rằng tỷ lệ học sinh tốt nghiệp so với số lượng ựược dự thi tốt nghiệp là rất cao từ 95.6% 99.5% Tuy nhiên số lượng học sinh xét ựủ ựiều kiện dự thi tốt nghiệp so với học sinh cuối khoá là rất thấp từ 79.7% 85.6%
Nguyên nhân chắnh ảnh hưởng ựến số lượng học sinh ựủ ựiều kiện dự thi tốt nghiệp là do học sinh còn nợ học phần Vì theo quy chế ựào tạo trung cấp chuyên nghiệp [6]
đánh giá kết thúc học phần (trắch ựiều 5 quy chế số BGDđT): Trường hợp sau 2 lần thi mà ựiểm trung bình học phần dưới 5,0 thì học sinh nợ học phần này và phải ựăng ký học lại học phần này
40/2007/Qđ-điều kiện ựược dự thi tốt nghiệp (trắch khoản a, mục 1 ựiều 12 quy chế
số 40/2007/Qđ-BGDđT): đã tắch lũy ựủ số học phần quy ựịnh cho chương trình ựào tạo, không còn học phần bị ựiểm dưới 5,0;
Qua thực tế thu thập dữ liệu tại các trường, các lý do mà học sinh không ựủ ựiều kiện ựược dự thi tốt nghiệp là do một số những nguyên nhân chắnh sau ựây
1.2.4.1 Những nguyên nhân về phắa học sinh
- Do bản thân một số học sinh chưa thật sự quan tâm ựến kết quả học tập của mình, sau khi công bố kết quả học tập cuối mỗi học kỳ, không ghi nhận hoặc ựể tâm ựến những học phần học mà mình bị rớt, vì thường xuyên vắng học
- Khi nhà trường có kế hoạch tổ chức học lại, các học sinh này không quan tâm ựăng ký học lại, hoặc do rớt quá nhiều học phần nên ựăng ký học lại không ựầy ựủ, lý do về kinh tế (tiền học phắ học lại) hoặc thời gian học (vì vừa học chắnh khoá vừa học lại, vừa ựi làm thêm
- Do bản thân học sinh học yếu bị rớt quá nhiều học phần nên khi học lại
Trang 26càng nhiều môn hơn nên khả năng lại tiếp tục rớt là rất cao
- Một số học sinh khác, trong thời gian học vì lý do sức khoẻ, hoàn cảnh gia ñình, ñiều kiện kinh tế, nên bỏ học một số học phần dẫn ñến còn nợ học phần ñó
- Một số học sinh vì trình ñộ học lực yếu, kém, nhiều học phần phải thi lại nhưng vẫn không vượt qua nổi, nên chán lại càng chán nhưng gì một lý do nào ñó mà không thể bỏ học
1.2.4.2 Một số nguyên nhân về phía nhà trường
- Vì công tác quản lý học sinh ở các trường chưa thật tốt, chưa nắm bắt kịp thời và giải tỏa tình trạng chán nản trong học tập của học sinh Không nắm ñược tình hình nghỉ học của học sinh, do vậy có những học sinh nghỉ học nhiều ngày, hoặc ñi học thất thường cũng không nắm vững ñể kịp thời có những biện pháp nhắc nhở
- Vì trong công tác quản lý ñào tạo ở các trường chưa thật tốt, trong việc thực hiện kế hoạch tổ chức học lại, học kỳ hè thông báo chưa triệt ñể ñến từng học sinh Việc bố trí các học phần lại cùng lúc nhiều học phần, thậm chí cùng một giờ nhưng các em phải học ñến hai học phần (do các em nợ nhiều học phần và số lượng học sinh nợ mỗi học phần ít nên tổ chức học ghép, hoặc học giảm tiết)
- Vì phương pháp ñánh giá trong công tác giảng dạy của giáo viên chưa thật
sự chuẩn, vẫn tồn tại những học phần mà tỷ lệ rớt >50% sau hai lần thi (sự
kỳ vọng của giáo viên chưa phù hợp với năng lực và kiến thức mà giáo viên ñã truyền ñạt cho học sinh)
- Vì việc giảng dạy của một số ít Thầy (Cô) giáo chưa thật tốt, chưa nghiêm túc về giờ lên lớp, xuống lớp, nội dung và chất lượng của bài giảng thấphọc sinh khó hiểu nên thi không ñạt
- Vì ñiều kiện cơ sở vật chất, kỹ thuật phục vụ cho việc dạy và học chưa ñáp
Trang 27ứng tốt yêu cầu cho việc học nên ảnh hưởng đến kết quả học tập của học sinh
Tĩm lại: Việc khơng đủ điều kiện dự thi tốt nghiệp của học sinh là một sự
tác động tổng hợp của nhiều nguyên nhân từ phía người học, từ hoạt động của nhà trường trong quá trình đào tạo:
Cĩ thể tập trung ở những nguyên nhân chính sau:
hiệu suất đào tạo của trường Muốn vậy nếu cĩ được một hệ thống dự đốn
tỷ lệ học sinh tốt nghiệp và đưa ra danh sách những học sinh cĩ khả năng khơng đạt tốt nghiệp để nhà trường, gia đình và học sinh cĩ kế hoạch quan tâm, quản lý thì thật là hữu ích
1.3 Tầm quan trọng và khả năng ứng dụng vào thực tế của đề tài
Trang 28Theo Sở Giáo dục và đào tạo Thành phố Hồ Chắ Minh (Sở GD&đT TP.HCM) hiệu suất ựào tạo các trường TCCN TP.HCM những năm qua như sau:
TT Năm học Chỉ tiêu
THPT
Tuyển sinh THPT
Hiệu suất đT
Khảo sát thực tế hiệu suất ựào tạo tại 1 trường Trung cấp chuyên nghiệp nơi tác giả ựang công tác:
Cuối khóa Dự thi TN Tốt nghiệp
TT Ngành
SL ựầu khóa SL Tỷ lệ SL Tỷ lệ SL Tỷ lệ
Hiệu suất ựào tạo
Bảng 1.13: Thống kê hiệu suất ựào tạo của trường TCCN Tây Bắc TP.HCM
(Nguồn: Phòng đT&CTHS Trường TC Tây Bắc TP.HCM-2010)
Trong ựó
(1): Tên ngành học
(2): Số lượng ựầu khóa sau khi kết thúc công tác tuyển sinh
Trang 29(3),(4): Số lượng và tỷ lệ học sinh cuối khĩa đã tham gia học tập đến hết học kỳ cuối cùng so với sỉ số đầu khĩa
(5),(6): Số lượng và tỷ lệ học sinh được dự thi tốt nghiệp so với số lượng học sinh cịn học đến cuối khố
(6): Hiệu suất đào tạo (Số lượng được cơng nhận tốt nghiệp so với số lượng đầu khĩa)
Qua thống kê cho thấy số lượng học sinh được tốt nghiệp là rất thấp (hiệu suất đào tạo) Khả năng lớn ảnh hưởng đến hiệu suất đào tạo là tình trạng bỏ học của học sinh và số lượng học sinh khơng đủ điều kiện dự thi tốt nghiệp Xuất phát từ tình hình thực tế nêu trên, làm sao giải quyết được bài tốn nâng cao được hiệu suất đào tạo tại các trường TCCN Một trong những giải pháp đĩ là làm sao dự đốn được tỷ lệ học sinh bỏ học, khả năng đậu tốt nghiệp TCCN của từng học sinh, dẫn đến xác định được hiệu suất đào tạo của mỗi ngành học trong từng trường Từ đĩ nhà trường, gia đình và học sinh
sẽ cĩ các biện pháp để cải tiến sức học, hạn chế tình trạng bỏ học ðặc biệt những nhà quản lý giáo dục sẽ cĩ các chiến lược phối hợp thực hiện để nâng cao được chất lượng đào tạo và hiệu suất đào tạo để đảm bảo Hiệu quả đào tạo
Qua mục tiêu để giải quyết bài tốn dự đốn hiệu suất đào tạo cần giải quyết trình tự 2 bài tốn sau để đi đến kết luận dự đốn hiệu suất đào tạo:
Bài tốn 1: Giải quyết bài tốn dự đốn tỷ lệ bỏ học
Bài tốn 2: Giải quyết bài tốn dự đốn tỷ lệ tốt nghiệp
1.4 Mục tiêu và giới hạn của đề tài
1.4.1 Mục tiêu của đề tài
− Khảo sát hiện trạng, nguyên nhân và các giải pháp để khắc phục tình trạng học sinh bỏ học nhằm duy trì sỉ số học sinh đến cuối khố tại các trường Trung cấp chuyên nghiệp tại TP.HCM
Trang 30− Tổng hợp các số liệu báo cáo thống kê về hiệu suất đào tạo tại các trường Trung cấp chuyên nghiệp (tỷ lệ bỏ học, tỷ lệ đậu tốt nghiệp) để xác định hiệu suất đào tạo tại các trường Trung cấp chuyên nghiệp Tại TP.HCM
− Tìm hiểu và ứng dụng khai phá dữ liệu vào trong lĩnh vực giáo dục và đào tạo Sử dụng cây quyết định một phương pháp thơng dụng và phổ biến trong khai phá dữ liệu
− Ứng dụng phần mềm mã nguồn mở Weka áp dụng trên dữ liệu trong quá khứ các khố đào tạo đã tốt nghiệp để sinh ra các tâp luật sử dụng cây quyết định với thuật tốn ID3,J48
− Từ các tập luật của dữ liệu quá khứ tiến hành xây dựng hệ thống dự đốn hiệu suất đào tạo áp dụng trên dữ liệu hiện tại để dự đốn kết quả trong tương lại
Hình 1.1 : Hệ thống dự đốn hiệu suất đào tạo
1.4.2 Giới hạn của đề tài
Mặc dù đã cĩ nhiều cải tiến, nhiều thuật tốn xây dựng cây quyết định ra đời, nhưng nĩi chung vẫn cịn nhiều vấn đề khĩ khăn phức tạp và nhiều thách thức trong khai phá dữ liệu bằng cây quyết định Như vấn đề dữ
Kho dữ liệu hiện tại
dữ liệu
Áp dụng tập luật
Trang 31liệu bị thiếu giá trị ñối với các thuộc tính trong cơ sở dữ liệu Vấn ñề các cơ
sở dữ liệu rất lớn về số lượng các thuộc tính và về số lượng các bản ghi, vấn
ñề về bộ nhớ… Những vấn ñề này luôn làm ñau ñầu những nhà khoa học Trên thực tế các thuật toán xây dựng cây quyết ñịnh vẫn ñang ñược cải tiến, nghiên cứu và phát triển
Khi triển khai ứng dụng thì gặp khó khăn khi khối lượng dữ liệu của quá khứ chưa ñủ lớn, cũng như các ngành học ñều có sự biến ñộng theo thời gian như thêm ngành mới, ngành học cũ không còn phù hợp với yêu cầu xã hội nên các tập luật ñược sinh ra chưa ñủ, và ñộ chính xác chưa cao
Ngoài phương pháp khai phá dữ liệu bằng cây quyết ñịnh thì khai phá dữ liệu bằng luật kết hợp, luật kết hợp mờ là bài toán cũng ñược nhiều nhà nghiên cứu quan tâm, bởi nó ñược ứng dụng rộng rãi trong các lĩnh vực, cũng như chứa ñựng nhiều hướng mở rộng khác nhau Trong luận văn này cũng chỉ ñã chọn một hướng nhỏ ñể nghiên cứu là sử dụng cây quyết ñịnh Và với cách tiếp cận này có thể mở ñầu cho nhiều hướng nghiên cứu trong tương lai Ngoài ra, chúng ta còn có thể nghiên cứu các thuật toán song song mới áp dụng cho bài toán khai phá luật kết hợp mờ nói riêng và các bài toán khai phá
dữ liệu nói chung Nhằm tận dụng tối ña các bộ xử lý và tối ưu về thời gian cho bài toán khai phá Và phải ñảm bảo các bộ xử lý trong hệ thống giảm ñược tối ña công việc truyền thông và ñồng bộ hóa trong suốt quá trình khai phá
1.5 Phương pháp nghiên cứu và ñánh giá kết quả
1.5.1 Phương pháp nghiên cứu
ðể ñạt ñược mục tiêu của ñề tài, cần phải hoàn thiện theo thứ tự các bước sau:
− Dùng phương pháp phát phiếu trắc nghiệm, thu thập số liệu thống kê, phỏng vấn trực tiếp các ñối tượng có liên quan ñể khảo sát thực tế và
Trang 32phân tắch thực trạng nguyên nhân về khả năng tốt nghiệtp của học sinh tại các trường Trung cấp chuyên nghiệp tại TP.HCM gồm 2 phần nội dung: tỷ lệ học sinh bỏ học tắnh ựến cuối khóa và tỷ lệ thi ựậu tốt nghiệp
− Tìm hiểu các hướng nghiên cứu hiện tại về khai phá dữ liệu trong các lĩnh vực và cụ thể về lĩnh vực Giáo dục đào tạo từ ựó rút ra kết luận ựể chọn lựa phương pháp phù hợp nhất
− Sử dụng nguồn dữ liệu của quá khứ ựể sinh ra các tập luật Kiểm tra và khắc phục ựể ựảm bảo các tập luật là hợp lý hợp lệ
− Xây dựng hệ thống dự ựoán kết quả hiệu suất ựào tạo dựa trên các tập luật ựã xây dựng, có kiểm chứng lại và ựánh giá tắnh ựúng ựắn của các tập luật xem có phù hợp với mục tiêu của ựề tài hay không
− Tiến hành thử nghiệm trên kho dữ liệu hiện tại ựể ựưa ra kết quả dự ựoán trong tương lại đồng thời sử dụng kiến thức trong quản lý ựể ựưa
ra các giải pháp cần thiết nhắm nâng cao Hiệu suất ựào tạo tại các trường Trung cấp chuyên nghiệp
1.5.2 đánh giá kết quả
để kiểm tra xem mục tiêu của ựề tài có thỏa mãn ựược hay không, ta phải tiến hành ựánh giá kết quả ựạt ựược theo thứ tự các bước sau:
− Thiết lập môi trường thực nghiệm
− Dùng hệ thống ựã xây dựng áp dụng tập luật ựã ựược tạo ra từ kho dữ liệu quá khứ (bằng phần mềm mã nguồn mở Weka), kiểm tra tắnh hợp
lý hợp lệ, nếu càng chắnh xác thì hệ thống luật là ựáng tin cậy, cần kết hợp với mức ựộ ưu tiên của giá trị ựiều kiện ựể bổ sung các luật phù hợp
− Tiếp tục áp dụng cho kho dữ liệu khác cũng là của quá khứ ựể ựảm bảo tắnh ựúng ựắn của tập luật
Trang 33− Cuối cùng áp dụng trên kho dữ liệu hiện tại ựể dự ựoán kết quả trong tương lai
đánh giá số liệu thống kê cho biết kết quả dự ựoán có ựộ chắnh xác ựáng tin cậy hay không Nếu xác suất này quá thấp thì chứng tỏ là hệ thống
dự ựoán ựã không ựạt ựược mục tiêu của ựề tài Ngược lại, bằng thực nghiệm, ựã minh chứng thành công vào hệ thống cũ và mục tiêu của ựề tài ựã ựạt ựược
Trang 34Chương 2
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
2.1 Khai phá dữ liệu
2.1.1 Tại sao lại Khai phá dữ liệu?
Hơn một thập niên trở lại đây, lượng thơng tin được lưu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) khơng ngừng tăng lên Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ Người ta ước đốn rằng, lượng thơng tin trên tồn cầu tăng gấp đơi sau khoảng hai năm và theo đĩ số lượng cũng như kích cỡ của các Cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chĩng
Hình 2.1: Lượng dữ liệu được tích luỹ tăng mạnh theo thời gian Chúng ta quả thực đang “ngập” trong dữ liệu, nhưng lại cảm thấy “đĩi” tri thức và thơng tin hữu ích Lượng dữ liệu khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị bởi thơng tin là yếu tố then chốt trong hoạt động kinh doanh vì nĩ giúp những người điều hành và quản lý cĩ một cái nhìn sâu sắc, chính xác, khách quan vào tiến trình kinh doanh trước khi ra quyết định
Khai phá dữ liệu (KPDL): khai thác những thơng tin tiềm ẩn cĩ tính dự đốn từ những CSDL lớn – là một hướng tiếp cận mới với khả năng giúp các
tổ chức chú trọng vào những thơng tin cĩ nhiều ý nghĩa từ những tập hợp dữ liệu lớn (databases, data warehouses, data repositories) mang tính lịch sử
1970 1980 1990 2000
Trang 35Những cơng cụ KPDL cĩ thể dự đốn những xu hướng trong tương lai
và do đĩ cho phép các tổ chức ra những quyết định kịp thời được định hướng bởi tri thức mà KPDL đem lại Sự phân tích dữ liệu một cách tự động và mang tính dự báo của KPDL cĩ ưu thế hơn hẳn so với sự phân tích thơng thường dựa trên những sự kiện trong quá khứ của các hệ hỗ trợ ra quyết định (decision support systems - DSSs) truyền thống trước đây
Cơng cụ KPDL cũng cĩ thể trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây được xem là tốn nhiều thời gian để xử lý Với tất cả những ưu thế trên, KPDL đã chứng tỏ được tính hữu dụng của nĩ trong mơi trường kinh doanh đầy tính cạnh tranh ngày nay Giờ đây, KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực khoa học máy tính và cơng nghệ tri thức
Phạm vi ứng dụng ban đầu của KPDL chỉ là trong lĩnh vực thương mại (bán lẻ) và tài chính (thị trường chứng khốn) Nhưng ngày nay, KPDL đã được ứng dụng rộng rãi trong các lĩnh vực khác như tin-sinh (bio-informatics), viễn thơng (telecommunication), điều trị y học (medical treatment), giáo dục (education), v.v
2.1.2 ðịnh nghĩa Khai phá dữ liệu
Trước khi nêu một vài định nghĩa về KPDL, tơi xin cĩ giải thích nho nhỏ để tránh nhầm lẫn về tên gọi Với những gì tơi trình bày ở trên, chúng ta
cĩ thể hiểu một cách sơ lược rằng KPDL là quá trình tìm kiếm những thơng tin (tri thức) hữu ích, tiềm ẩn và mang tính dự báo trong các tập dữ liệu lớn
Như vậy, chúng ta nên gọi quá trình này là khám phá tri thức (Knowledge
Discovery in Databases – KDD) thay vì là KPDL Tuy nhiên các nhà khoa học trong lĩnh vực này đồng ý với nhau rằng hai thuật ngữ trên là tương đương và cĩ thể thay thế cho nhau Họ lý giải rằng, mục đích chính của quá
Trang 36trình khám phá tri thức là thông tin và tri thức có ích, nhưng ñối tượng mà chúng ta phải xử lý rất nhiều trong suốt quá trình ñó lại chính là dữ liệu
Mặt khác, khi chia các bước trong quá trình khám phá tri thức, một số
nhà nghiên cứu lại cho rằng, KPDL chỉ là một bước trong quá trình khám phá tri thức [5] Như vậy, khi xét ở mức tổng quan thì hai thuật ngữ này là tương
ñương nhau, nhưng khi xét cụ thể thì KPDL ñược xem là một bước trong quá
trình khám phá tri thức
Có rất nhiều ñịnh nghĩa về KPDL, các ñịnh nghĩa này ñều là những ñịnh nghĩa mang tính mô tả Tôi xin trích một vài ñịnh nghĩa ở nguyên bản tiếng Anh nhằm chuyển tải ñược nguyên gốc ý của tác giả và tránh ñược những sai sót chủ quan:
ðịnh nghĩa 1 William J Frawley, Gregory Piatetsky-Shapiro, và Christopher
J Matheus 1991 [6]: “Knowledge discovery in databases, also known Data mining, is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.”
ðịnh nghĩa 2 Marcel Holshemier và Arno Siebes (1994): “Data Mining is
the search for relationships and global patterns that exist in large databases but are ‘hidden’ among the vast amount of data, such as a relationship between patient data and their medical diagnosis These relationships represent valuable knowledge about the database and the objects in the database and, if the database is a faithful mirror, of the real world registered
by the database.”
2.1.3 Các bước chính trong Khám phá tri thức (KDD)
Người ta thường chia quá trình khám phá tri thức thành các bước sau [7] [8]
[9]:
Trang 37Hình 2.2: Các bước trong quá trình khám phá tri thức
- Trích chọn dữ liệu (data selection): Là bước trích chọn những tập dữ liệu cần ñược khai phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban ñầu theo một số tiêu chí nhất ñịnh
- Tiền xử lý dữ liệu (data preprocessing): là bước làm sạch dữ liệu (xử lý với dữ liệu không ñầy ñủ, dữ liệu nhiễu, dữ liệu không nhất quán, v.v.), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, v.v.) Sau bước này, dữ liệu sẽ nhất quán, ñầy ñủ, ñược rút gọn, và ñược rời rạc hóa
- Biến ñổi dữ liệu (data transformation): ðây là bước chuẩn hóa và làm mịn dữ liệu ñể ñưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau
- KPDL (data mining): ðây là bước áp dụng những kỹ thuật khai phá (phần nhiều là các kỹ thuật của machine learning) ñể khai phá, trích chọn ñược những mẫu (patterns) thông tin, những mối liên hệ
Trang 38(relationships) đặc biệt trong dữ liệu ðây được xem là bước quan trọng
và tốn nhiều thời gian nhất của tồn quá trình KDD
- Biểu diễn và đánh giá tri thức (knowledge representation & evaluation): những mẫu thơng tin và mối liên hệ trong dữ liệu đã được khai phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người
sử dụng như đồ thị, cây, bảng biểu, luật, v.v ðồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định
2 2 Các hướng tiếp cận và các kỹ thuật áp dụng trong Khai phá dữ liệu
2.2.1 Các hướng tiếp cận và các kỹ thuật chính trong Khai phá dữ liệu
Các hướng tiếp cận của KPDL cĩ thể được phân chia theo chức năng hay lớp các bài tốn khác nhau Sau đây là một số hướng tiếp cận chính [8]
- Phân lớp và dự đốn (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo
dữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật
của machinelearning như cây quyết định (decision tree), mạng nơron nhân tạo (neural network), v.v Phân lớp cịn được gọi là học cĩ giám
sát (học cĩ thầy –supervised learning)
- Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì cĩ tới 80% trong số họ sẽ mua thêm thịt bị khơ” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị trường chứng khốn, v.v
- Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng cĩ thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khốn vì nĩ cĩ tính dự báo cao
Trang 39- Phân cụm (clustering/segmentation): xếp các ñối tượng theo từng cụm
(số lượng cũng như tên của cụm chưa ñược biết trước Phân cụm còn
ñược gọi là học không giám sát (học không có thầy – unsupervised learning)
- Mô tả khái niệm (concept description & summarization): thiên về mô
tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản
2.2.2 Các dạng dữ liệu có thể khai phá
Do KPDL ñược ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau [8] Sau ñây là một số kiểu dữ liệu ñiển hình
- CSDL quan hệ (relational databases)
- CSDL ña chiều (multidimensional structures, data warehouses)
- CSDL dạng giao dịch (transactional databases)
- CSDL quan hệ - hướng ñối tượng (object-relational databases)
- Dữ liệu không gian và thời gian (spatial and temporal data)
- Dữ liệu chuỗi thời gian (time-series data)
- CSDL ña phương tiện (multimedia databases) như âm thanh (audio), hình ảnh (image), phim ảnh (video), v.v
- Dữ liệu Text và Web (text database & www)
2.3 Ứng dụng của Khai phá dữ liệu
2.3.1 Ứng dụng của Khai phá dữ liệu
KPDL tuy là một lĩnh vực mới nhưng thu hút ñược rất nhiều sự quan tâm của các nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Chúng
ta có thể liệt kê ra ñây một số ứng dụng ñiển hình:
- Phân tích dữ liệu và hỗ trợ ra quyết ñịnh (data analysis & decision support)