Nghiên cứu phương pháp phân lớp dựa trên cây quyết định và ứng dụng bài toán xếp loại tốt nghiệp sinh viên đào tạo theo hệ thống tín chỉ luận văn thạc sĩ ngành công nghệ thông tin
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,27 MB
Nội dung
i TRÍCH YẾU LUẬN VĂN CAO HỌC Họ tên học viên: Phạm Tuấn Hiệp Năm sinh: 1980 Cơ quan cơng tác: Khóa: 25.1 Chun ngành: Cơng nghệ thơng tin Mã số: 8480201 Giáo viên hƣớng dẫn: TS Hoàng Văn Thơng Bộ mơn: Khoa học máy tính Tên luận văn:“Nghiên cứu phương pháp phân lớp dựa định ứng dụng toán xếp loại tốt nghiệp sinh viên đào tạo theo hệ thống tín chỉ” Mục đích nghiên cứu: Tìm hiểu sâu kiến thức khai phá liệu, toán đƣợc giải khai phá liệu, phƣơng pháp xây dựng định, xây dựng thành công hệ thống học máy tạo định từ sở liệu điểm sinh viên Phương pháp nghiên cứu kết đạt được: Phƣơng pháp nghiên cứu: Nghiên cứu lý thuyết kết hợp với cài đặt thực nghiệm, phân tích đánh giá liệu thực tế thuyết Kết đạt đƣợc: Tổng quan sâu vào kiến thức lý khai phá dƣ liệu toán phân lớp, định phƣơng pháp xây dựng định Kết hợp khai phá liệu phƣơng pháp sinh luật dựa định xây dựng toán xếp loại tốt nghiệp sinh viên đào tạo theo hệ thống tín Cài đặt thuật toán ID3, tiến hành kiểm nghiệm thuật toán sở liệu điểm sinh viên khoa Công nghệ thông tin – Trƣờng Đại học Giao thông vận tải ii Điểm bình qn mơn học: Điểm bảo vệ luận văn: TpHCM, ngày tháng năm 2019 Xác nhận giáo viên hƣớng dẫn Học viên thực Xác nhận khoa Phạm Tuấn Hiệp iii ỜI CA OAN Tôi xin cam đoan công tr nh nghiên cứu riêng dƣới hƣớng dẫn khoa học TS Hồng Văn Thơng Các nội dung nghiên cứu, kết đƣợc trình bày luận văn trung thực chƣa công bố dƣới bất k h nh thức trƣớc Những số liệu phục vụ cho việc phân tích, đánh giá, nhận x t đƣợc tác giả thu thập từ ngu n c ghi r phần tài liệu tham khảo Học viên Phạm Tuấn Hiệp iv LỜI CẢM ƠN Tôi xin chân thành cảm ơn TS Hồng Văn Thơng Trƣởng Bộ mơn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Trƣờng Đại học Giao thông Vận tải, ngƣời thầy định hƣớng tận t nh hƣớng dẫn tơi để hồn thành luận văn Tơi xin gửi lời biết ơn chân thành đến quý thầy giáo, giáo Khoa Cơng nghệ thơng tin tận tình giảng dạy, trang bị cho kiến thức quý báu suốt trình học tập Xin cảm ơn tất anh em học viên cao học Khóa 25.1, cảm ơn cán viên chức Phòng đào tạo sau đại học – Trƣờng Đại học Giao thông Vận tải tạo điều kiện giúp đỡ suốt q trình học tập trƣờng Cuối tơi xin cảm ơn gia đ nh, bạn bè, đ ng nghiệp tạo điều kiện thời gian, tinh thần vật chất suốt thời gian học tập hồn thành luận văn v MỤC LỤC TRÍCH YẾU LUẬN VĂN CAO HỌC i LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC v KÝ HIỆU VÀ TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG BIỂU viii DANH MỤC CÁC HÌNH VẼ ix PHẦN MỞ ĐẦU 1 Tính cấp thiết đề tài Đối tƣợng nghiên cứu Phạm vi nghiên cứu Mục tiêu nghiên cứu đề tài Phƣơng pháp nghiên cứu Kết cấu luận văn CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP 1 Tổng quan khai phá liệu 1 Khái niệm 1 Kiến trúc hệ thống khai phá liệu Các hƣớng tiếp cận kỹ thuật khai phá liệu Phân lớp 1.2.2 Phân cụm 1.2.3 Luật kết hợp 10 Các dạng liệu c thể khai phá 11 Một số ứng dụng khai phá liệu 12 Bài toán phân lớp 13 1.5.1 Bài toán 13 Một số phƣơng pháp giải toán phân lớp 14 Kết luận chƣơng 17 vi CHƢƠNG CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 18 Tổng quan định 18 2 Thiết kế định 19 2 Xử lý liệu 19 2 Tạo 19 2 Tiêu chuẩn tách 19 2 Tiêu chuẩn dừng 20 2 Tỉa 20 Phƣơng pháp tổng quát xây dựng định 20 Phƣơng pháp xây dựng định ID3 23 Tiêu chí lựa chọn thuộc tính để phân lớp 23 Thuật toán ID3 24 Độ phức tạp tính tốn 31 Phƣơng pháp xây dựng định C4 32 Giới thiệu 32 Xác định điểm chia tốt 32 2.5.3 Một số vấn đề với thuộc tính 33 Thuộc toán C4 35 Kết luận chƣơng 37 CHƢƠNG PHƢƠNG PHÁP XẾP LOẠI NGHIỆP TỐT NGHIỆP SINH VIÊN DỰA TRÊN CÂY QUYẾT ĐỊNH 38 Bài toán xếp loại kết học tập sinh viên 38 Tổ chức đào tào xếp loại sinh viên Khoa CNTT 41 3.3 Xây dựng định xếp loại tốt nghiệp sinh viên 42 3 Tiền xử lý liệu 42 3 Cài đặt thuật toán xây dựng mô h nh định 54 Thử nghiệm đánh giá 56 Kết luận chƣơng 58 KẾT LUẬN 60 TÀI LIỆU THAM KHẢO 61 vii KÝ HIỆU VÀ TỪ VIẾT TẮT Các từ viết tắt: CSDL Cơ sở liệu DT Cây định (Decision Tree) ID3 Iterative Dichotomiser IG Information Gain CART Classification and Regression Trees CHAID Chi-square Automatic Interaction Detection viii DANH MỤC CÁC BẢNG BIỂU Bảng Bảng định minh họa Ví dụ 21 Bảng 2 Bảng định minh họa thuật toán ID3 27 Bảng Tập liệu c giá trị liên tục 33 Bảng Trích bảng điểm tích lũy học phần sinh viên 42 Bảng Bảng tổng hợp kết học tập sinh viên 43 Bảng 3 Bảng tổng hợp kết học tập sinh viên K55 khoa Công nghệ thông tin 44 Bảng Thống kê số sinh viên đƣợc xếp loại A, B, C tập liệu học 56 Bảng Tổng hợp kết xếp loại tốt nghiệp sinh viên định với thử nghiệm 90% học 10% kiểm tra 57 Bảng Thống kê số sinh viên đƣợc xếp loại A, B, C tập liệu học 57 Bảng Tổng hợp kết xếp loại tốt nghiệp sinh viên định với thử nghiệm 90% học 10% kiểm tra 58 ix DANH MỤC CÁC HÌNH VẼ H nh 1 Quá tr nh khai phá liệu H nh Kiến trúc hệ thống khai phá liệu H nh Mô tả luật kết hợp 11 H nh Bài toán phân lớp 14 Hình Xây dựng mô h nh phân lớp 15 H nh Ƣớc lƣợng độ xác mơ h nh 16 H nh Phân lớp liệu 16 H nh Ví dụ định ứng với bảng định 22 H nh 2 Cây định bƣớc đầu ví dụ 2 29 Hình 2.3 Cây định đƣợc xây dựng theo thuật toán ID3 ứng với Bảng định 2 31 Hình 2.4 Minh họa phân chia thuộc tính liên tục 35 H nh Sơ đ Xây dựng sử dụng mô h nh định xếp loại kết tốt nghiệp sinh viên 40 H nh Biểu đ thống kê số sinh viên đƣợc xếp loại A (Giỏi), B (Khá), C (Trung bình) 53 H nh 3 Biểu đ thống kê tổng số điểm loại điểm liệu 54 H nh Sơ đ kiến trúc cài đặt ứng dụng xếp loại sinh viên 54 H nh Các lớp g i Data 55 H nh Các lớp g i DecisionTree 55 PHẦN MỞ ẦU Tính cấp thiết đề tài Ngày với phát triển công nghệ thông tin, bƣớc vào cơng nghiệp 4.0 tảng trí tuệ nhân tạo, tự động hóa hệ thống thông minh Trƣớc yêu cầu thực tế nghiên cứu phát triển ứng dụng công nghệ thông tin ngày mạnh mẽ Nhiều hƣớng nghiên cứu mở nhƣ: trí tuệ nhân tạo, khai phá liệu, rô bốt, hệ không ngƣời lái,… Nh n chung tất hƣớng nhắm tới việc tạo hệ thống thơng minh có khả lập luận Một hƣớng nghiên cứu giải bƣớc đầu cho yêu cầu khai phá liệu nhằm xây dựng dựng đƣợc mơ hình có khả dự đốn với thơng tin tƣơng lai Trong khai phá liệu đƣợc chia thành nhiều toán khác nhƣ phân lớp, phân cụm, nhận dạng mẫu, luật kết hợp Bài toán phân lớp liệu tốn điển hình lĩnh vực khai phá liệu Nhiều phƣơng pháp đề xuất để giải toán nhƣ định, mạng nơ ron, máy v c tơ hỗ trợ (SVM), hệ mờ dựa luật, [7] Một hƣớng tiếp cận hiệu có ứng dụng nhiều thực tiễn đ định đƣợc Quinland đề xuất lần đầu cuối năm 1970 đầu năm 1980 [8] Quinland phát triển thành công phần mềm gọi ID3 Kết nghiên cứu tiếp tục đƣợc E B Hunt, J Marin, P T Stone Quinlan phát triển thành công C4.5 khắc phục số hạn chế ID3 Cho đến định có nhiều phiên cải tiến nhƣ CART, CHAID, [5] Ở Việt Nam nay, theo qui chế đào tạo đại học Bộ Giáo dục đào tạo hầu hết trƣờng đại học, cao đẳng chuyển từ đào tạo niên chế sang đào tạo theo tín giống nhƣ giáo dục tiên tiến giới Với hệ thống đào tạo theo tín th điểm mơn học đƣợc cho chữ: A, B, C, D, F [2] Với điểm chữ xếp loại đƣợc sinh 48 133 1405264 11 10 12 0 C C 134 1406022 10 14 13 0 C C 135 1406848 12 12 14 1 0 C C 136 1406968 17 10 10 0 C C 137 1407108 18 0 C C 138 1407585 16 15 0 C C 139 1407976 2 16 14 0 0 C C 140 1420960 1 10 13 0 B B 141 9135012 1 14 10 0 C C 142 1408698 2 12 17 0 C C 143 1408927 3 12 11 0 C C 144 1409191 2 19 10 0 C C 145 1409431 16 13 0 C C 146 1400146 2 19 13 0 C C 147 1400814 14 10 12 0 C C 148 1401198 3 18 16 0 C C 149 1401381 2 2 19 12 0 C C 150 8814029 3 14 12 11 0 C C 151 1403380 19 14 0 C C 152 1420454 1 17 11 0 C C 153 1403912 13 15 0 C C 154 1404353 1 13 19 0 C C 155 1428192 18 13 0 C C 156 1404470 15 15 0 C C 157 1405292 2 16 12 0 C C 158 1405476 20 9 1 0 C C 159 1405650 18 16 0 C C 160 1405829 16 12 0 C C 161 1406039 1 18 13 0 0 C C 162 1407005 2 15 14 0 C C 163 1407397 17 12 0 C C 164 1408258 14 14 0 B B 165 1400149 13 15 0 C C 166 1400764 2 21 10 0 C C 49 167 1401008 13 18 1 0 C C 168 1404368 15 13 0 C C 169 1420576 13 16 0 B B 170 1405315 3 19 16 0 0 C C 171 1405563 17 14 1 0 C C 172 1406598 2 17 13 0 C C 173 1407049 2 2 17 12 1 0 C C 174 1407218 3 13 16 0 B B 175 1407634 22 0 C C 176 1407707 2 17 0 B B 177 1408192 3 13 11 0 C C 178 1401144 18 13 1 0 C C 179 1420303 12 17 0 C C 180 1404231 3 14 12 0 C C 181 1405614 1 14 19 1 0 C C 182 1406964 15 10 0 C C 183 1407575 2 12 14 0 C C 184 1407687 13 0 C C 185 1408224 15 12 0 C C 186 1408417 2 11 15 0 B B 187 1409124 2 2 14 13 0 C C 188 1408696 1 3 10 19 0 C C 189 1428405 2 13 12 11 0 C C 190 1400330 2 13 14 0 C C 191 1400588 3 12 17 5 0 C C 192 1400803 3 15 13 0 C C 193 1401294 15 12 0 C C 194 1401746 2 2 19 0 C C 195 1404301 17 14 0 C C 196 1405264 3 14 12 0 C C 197 1406022 11 12 12 0 C C 198 1406848 12 10 16 1 0 C C 199 1406968 17 10 10 0 C C 200 1407108 2 18 0 C C 50 201 1407585 2 14 14 10 0 C C 202 1407976 16 14 0 0 C C 203 1420960 1 10 10 12 0 B B 204 9135012 1 11 10 0 C C 205 1408698 2 11 19 0 C C 206 1408927 2 11 13 0 C C 207 1409191 2 10 17 10 0 C C 208 1409431 14 13 0 C C 209 1400146 18 12 0 C C 210 1400814 3 13 11 12 0 C C 211 1401198 18 14 0 C C 212 1401381 2 2 19 11 0 C C 213 8814029 14 12 11 0 C C 214 1403380 3 18 14 0 C C 215 1420454 13 12 7 0 C C 216 1403912 15 14 0 C C 217 1404353 1 14 17 0 C C 218 1428192 3 15 13 0 C C 219 1404470 16 14 0 C C 220 1405292 3 15 11 0 C C 221 1405476 20 0 C C 222 1405650 19 16 2 0 C C 223 1405829 19 0 C C 224 1406039 1 16 13 10 0 0 C C 225 1407005 14 13 6 0 C C 226 1407397 18 11 5 0 C C 227 1408258 3 15 14 0 B B 228 1400149 13 13 11 0 C C 229 1400764 2 21 11 0 C C 230 1401008 2 10 19 1 0 C C 231 1404368 18 13 1 0 C C 232 1420576 13 13 0 B B 233 1405315 3 16 17 0 C C 234 1405563 15 12 10 0 C C 51 235 1406598 2 17 13 0 C C 236 1407049 2 2 17 13 0 C C 237 1407218 3 14 16 0 B B 238 1407634 17 11 0 C C 239 1407707 2 6 12 15 0 B B 240 1408192 3 17 10 0 C C 241 1401144 18 11 1 0 C C 242 1420303 10 19 0 C C 243 1404231 3 19 10 0 C C 244 1405614 1 12 17 1 0 C C 245 1406964 12 14 0 C C 246 1407575 2 13 18 0 C C 247 1407687 12 11 0 C C 248 1408224 13 14 6 0 C C 249 1408417 3 10 14 0 B B 250 1409124 2 2 15 12 0 C C 251 1408696 1 3 18 0 B B 252 1428405 2 14 11 11 0 C C 253 1400330 2 13 15 0 C C 254 1400588 3 11 17 0 C C 255 1400803 3 15 13 0 C C 256 1401294 14 12 0 C C 257 1401746 2 2 17 11 0 C C 258 1404301 16 14 0 C C 259 1405264 3 12 14 0 C C 260 1406022 10 13 12 0 C C 261 1406848 11 10 17 1 0 C C 262 1406968 17 11 0 C C 263 1407108 2 17 0 C C 264 1407585 14 13 11 0 C C 265 1407976 2 16 14 0 0 C C 266 1420960 0 30 0 A A 267 9135012 1 12 9 0 C C 268 1408698 2 11 19 0 C C 52 269 1408927 3 11 13 0 C C 270 1409191 2 10 16 10 0 C C 271 1409431 15 12 0 C C 272 1400146 2 18 12 0 C C 273 1400814 13 12 11 0 C C 274 1401198 3 17 15 0 C C 275 1401381 2 2 18 11 0 C C 276 8814029 3 15 11 11 0 C C 277 1403380 18 14 0 C C 278 1420454 1 14 12 0 C C 279 1403912 16 13 0 C C 280 1404353 1 14 19 0 C C 281 1428192 15 14 0 C C 282 1404470 15 14 0 C C 283 1405292 2 16 10 0 C C 284 1405476 21 10 0 C C 285 1405650 12 10 11 0 C C 286 1405829 2 12 12 0 B B 287 1406039 1 15 8 0 C C 288 1407005 2 15 13 0 C C 289 1407397 18 11 0 C C 290 1408258 14 15 0 B B 291 1400149 14 13 0 C C 292 1400764 2 22 0 C C 293 1401008 11 19 1 0 C C 294 1404368 1 2 13 22 0 A A 295 1420576 1 11 15 0 C C 296 1405315 17 17 0 0 C C 297 1405563 4 0 16 13 0 C C 298 1406598 2 16 15 0 C C 299 1407049 2 16 13 0 C C 300 1407218 2 13 16 0 B B 301 1407634 0 20 9 0 C C 302 1407707 2 11 17 0 B B 53 303 1408192 13 11 0 C C 304 1401144 18 12 1 0 C C 305 1420303 12 17 0 C C 306 1404231 16 11 0 C C 307 1405614 2 15 18 1 0 C C 308 1406964 3 15 10 7 0 C C 309 1407575 2 12 16 0 C C 310 1407687 2 13 0 C C 311 1408224 2 15 13 0 C C 312 1408417 3 10 15 0 B B 313 1409124 2 15 12 0 C C 314 1408696 2 11 18 0 C C 315 1428405 15 11 10 0 C C 300 250 200 150 100 50 A B C Hình 3.2 Biểu đồ thống kê số sinh viên xếp loại A (Giỏi), B (Khá), C (Trung bình) 54 4500 4000 3500 3000 2500 2000 1500 1000 500 D2 C2 B2 A2 D3 C3 B3 A3 D4 C4 B4 A4 Hình 3.3 Biểu đồ thống kê tổng số điểm loại điểm liệu Từ biểu đ ta thấy số, kết học tập sinh viên chủ yếu rơi vào điểm D, C, B với mơn tín chỉ, với mơn tín thỉ kết học tập nhìn chung phân bố cho loại A, B, C D 3.3.2 Cài đặt thuật toán xây dựng mơ hình định Chúng tơi tiến hành cài đặt thuật toán xây dựng định ID3 ngôn ngữ lập tr nh C# môi trƣờng phát triển Visual studio 2013 Cấu trúc phần mềm g m gói chính: Gói Data thực nhiệm vụ đọc liệu, gói DecisionTree thực nhiệm vụ xây dựng định gói StudentClassification thực thiện nhiệm vụ phân loại sinh viên việc sử dụng hai gói Data DecisionTree Hình 3.4 Sơ đồ kiến trúc cài đặt ứng dụng xếp loại sinh viên 55 Hệ thống phần mềm đƣợc tổ chức thành gói: + Gói Data có nhiệm vụ đọc, xử lý liệu phù hợp với liệu đầu vào thuật toán xây dựng định, gói g m lớp FRSDatatable FRSRow Hình 3.5 Các lớp gói Data + Gói DecisionTree có nhiệm vụ nhận liệu từ gói Data xây dựng định tƣơng ứng với liệu nhận, gói g m 10 lớp nhƣ tr nh bày h nh dƣới Hình 3.6 Các lớp gói DecisionTree Gói StudentClassification thực phân loại (xếp loại) sinh viên đƣa vào kết học tập sinh viên vector (D2, C2, B2, A2, D3, C3, B3, A3, D4, C4, B4, A4, DA) thống kê số điểm đạt loại D, C, B, A 56 3.4 Thử nghiệm đánh giá Chúng tiến hành thử nghiệm đánh giá tập liệu cho bảng 3.3 cách chia ngẫu nhiên tập liệu thành hai tập: tập học tập kiểm tra ngẫu Thử nghiệm thứ sử dụng 90% mẫu liệu để học xây dựng định 10% lại dùng để kiểm tra Thử nghiệm thứ hai sử dụng 80% mẫu liệu để học xây dựng định 20% lại dùng để kiểm tra Lƣu ý: việc phân chia tập liệu học kiểm tra phải thỏa mãn yêu cầu đ tập huấn luyện phải có mặt đầy đủ sinh viên đƣợc xếp loại tốt nghiệp loại A, B, C Yêu cầu nhằm đảm bảo xây dựng c đủ nhánh để phân lớp cho tất loại kết tốt nghiệp - Thử nghiệm thứ chia tập liệu theo tỉ lệ 90% học 10% kiểm tra Bảng 3.4 Thống kê số sinh viên xếp loại A, B, C tập liệu học ần thử nghiệm Số mẫu liệu học Số mẫu kiểm tra 284 Số sinh viên đƣợc xếp loại A B C 31 27 255 284 31 27 256 284 31 26 257 284 31 25 257 284 31 26 256 284 31 28 254 284 31 26 256 284 31 24 258 284 31 24 258 10 284 31 26 257 57 Bảng 3.5 Tổng hợp kết xếp loại tốt nghiệp sinh viên định với thử nghiệm 90% học 10% kiểm tra Trên tập huấn luyện Trên tập kiểm tra Số SV Xếp Số SV xếp Tỉ lệ Số SV Xếp Số SV xếp Tỉ lệ loại loại sai loại loại sai 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% 284 100% 31 100% - Thử nghiệm thứ hai chia tập liệu theo tỉ lệ 80% học 20% kiểm tra Bảng 3.6 Thống kê số sinh viên xếp loại A, B, C tập liệu học ần thử nghiệm 10 Số mẫu liệu học 252 252 252 252 252 252 252 252 252 252 Số mẫu kiểm tra 63 63 63 63 63 63 63 63 63 63 Số sinh viên đƣợc xếp loại A B C 22 1 22 2 24 24 21 25 26 23 24 21 10 58 Bảng 3.7 Tổng hợp kết xếp loại tốt nghiệp sinh viên định với thử nghiệm 90% học 10% kiểm tra Trên tập huấn luyện Trên tập kiểm tra Số SV Xếp Số SV xếp Tỉ lệ Số SV Xếp Số SV Tỉ lệ loại loại sai loại xếp loại sai 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% 252 100% 63 100% Từ kết thí nghiệm tổng hợp bảng 3.5 3.7 thấy định xây dựng đƣợc xếp loại xác kết học tập sinh viên tập huân luyện tập kiểm tra Từ c thể kết luận phƣơng pháp xếp loại kết tốt nghiệp sinh viên phƣơng pháp đề xuất luận văn tin cậy áp dụng đƣợc thực tế 3.4 Kết luận chƣơng Trong chƣơng luận văn đề xuất phƣơng pháp xếp loại tốt nghiệp sinh viên trực tiếp từ kết học tập đƣợc cho điểm chữ Phƣơng pháp xếp loại đƣợc thực dựa định đƣợc xây dựng từ 59 sở liệu đƣợc xếp loại dựa xếp loại chuyên gia đƣợc xếp loại dựa cơng thức tính điểm số Phƣơng pháp đề xuất đƣợc thử nghiệm tập liệu g m 315 sinh viên tốt nghiệp khoa Công nghệ thông tin trƣờng Đại học giao thông vận tải Kết thử nghiệm cho phƣơng pháp đề xuất xếp loại tốt nghiệp sinh viên xác 100% Điều cho thấy phƣơng pháp đề xuất tin cậy áp dụng đƣợc vào xếp loại tốt nghiệp sinh viên trực tiếp điểm chữ thay v điểm số 60 KẾT LUẬN Khai phá liệu ngày nhận đƣợc nhiều quan tâm cộng đ ng nghiên cứu, liệu ngày phong phú tiềm ẩn nhiều thông tin có giá trị Việc thực xếp loại kết tốt nghiệp sinh viên theo qui chế 43 giáo dục cho thấy có nhiều bất cập Việc chuyển đổi điểm hệ 10 làm mát liệu làm tính cơng sinh viên nhƣ phân tích chƣơng Từ bất cập luận văn đề xuất phƣơng pháp xếp loại tốt nghiệp trực tiếp điểm chữ, phƣơng pháp đề xuất đƣợc thử nghiệm tập liệu thực tế cho kết tin cậy Luận văn đạt đƣợc số kết sau đây: 1) Tóm tắt đƣợc kiến thức tổng quan khai phá liệu 2) Trình bày tóm tắt phƣơng pháp xây dựng định ID3, C4.5 3) Đề xuất phƣơng pháp xếp loại tốt nghiệp sinh viên dựa định 4) Tiến hành cài đặt thuật toán xây dựng định ID3 thực thử nghiệm xếp loại tốt nghiệp sở liệu 315 sinh viên tốt nghiệp khoa Công nghệ thông tin trƣờng Đại học Giao thông vận tải Kết thử nghiệm cho thấy phƣơng pháp đề xuất đáng tin cậy áp dụng vào thực tiễn 61 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] Quyết định số 43/2007/QĐ-BGDĐT Bộ Giáo dục Đào tạo: Ban hành Quy chế đào tạo đại học cao đẳng hệ quy theo hệ thống tín Nguyễn Thanh Thủy (2001), Khai phá liệu - Kỹ thuật ứng dụng, NXB Khoa học kỹ thuật Đỗ Phúc (2006), Giáo tr nh khai thác liệu, NXB Đại học Quốc gia TP H Chí Minh R Agrawal, R Srikant (1994), “Fast Algorithms for Minging Assosiation Rules” R Agrawal, T Imielinski, and A Swami (1993), Mining association rules between sets of items in large databases In proc of he ACM SIGMOD Conference on Management of data, Washington D.C J Han and M Kamber (2001), Data Mining: Concepts and Techniques, Hacours Science and Technology Company, USA Ho Tu Bao (1996) Introduction to Knowledge Discovery and Data mining Institute of Information Technology National Center for Natural Science and Technology John Ross Quilan (1986), Induction of Decision Trees, Kluwer Academic Publishers, Boston - Manufactured in The Netherlands John Ross Quilan (1990), “Decision trees and decision making”, IEEE transactions on Man and Cybernetics, (20), pp 339-346 Agrawal and J.Shafer (1996), "Parallel mining of association rules", In IEEE trans, on Knowledge and Data Engg, 8(6), pp 962-969 Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen, and A Inkeri Verkamo (1996), Advances in Knowledge Discovery and Data Mining, pp 307-328, AAAI Press D Hand, H Mannila and P Smyth (2001), Principles of Data Mining, The MIT Press, London, England I H Witten and E Frank (2000), Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers, New York J Han and M Kamber (2006), Data Mining: Concepts and Techniques, 2nd Edition, Morgan Kaufmann Publishers 62 [15] M Kantardzic (2003), Data Mining: Concepts, Models, Method, and Algorithms, John Wiley & Sons, New York, NY [16] T Mitchell (1999), "Machine Learning and Data Mining", Communications of the ACM, 42(11), pp 30-36 [17] U M Fayyad, G Piatetsky-Shapiro, P.Smyth and R Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA