Xây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng Tháp
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG -
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung
thực và chƣa hề đƣợc sử dụng để bảo vệ một học vị nào Mọi sự giúp đỡ cho
việc thực hiện luận văn này đã đƣợc cảm ơn và thông tin trích dẫn trong luận
văn đã đƣợc chỉ rõ nguồn gốc rõ ràng và đƣợc phép công bố
TP.HCM, ngày…tháng…năm
Học viên thực hiện luận văn
Trần Tuấn Anh
Trang 3LỜI CÁM ƠN
Để hoàn thành luận văn này, em xin tỏ lòng biết ơn sâu sắc đến Thầy TS
Dương Minh Đức, đã tận tình hướng dẫn trong suốt quá trình làm luận văn
Em chân thành cám ơn quý Thầy, Cô ở Trường Học Viện Công Nghệ Bưu
Chính Viễn Thông TPHCM đã tận tình truyền đạt kiến thức trong những năm
em học tập Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là
nền tảng trong quá trình nghiên cứu luận văn mà còn là hành trang quí báu để
em bước vào đời cách vững chắc và tự tin
Cuối cùng em xin kính chúc quý Thầy, Cô dồi dào sức khỏe và thành công
trong sự nghiệp cao quý
TP.HCM, ngày…tháng…năm
Học viên thực hiện luận văn
Trần Tuấn Anh
Trang 4MỤC LỤC
Lời cam đoan i
Lời cám ơn ii
Mục lục iii
Danh mục các thuật ngữ, chữ viết tắt vi
Danh sách bảng vii
Danh sách hình vẽ viii
MỞ ĐẦU 1
CHƯƠNG I - GIỚI THIỆU 1.1 Lý do chọn đề tài 3
1.2 Mục đích nghiên cứu 5
1.3 Đối tượng và phạm vi nghiên cứu 6
1.4 Phương pháp nghiên cứu 6
1.5 Ý nghĩa khoa học và thực tiễn của luận văn 7
1.6 Cấu trúc luận văn 7
CHƯƠNG II - CƠ SỞ LÝ THUYẾT 2.1 Khái niệm về khai phá dữ liệu 9
2.1.1 Định nghĩa khai phá dữ liệu 9
2.1.2 Những nhóm bài toán của khai phá dữ liệu 10
2.1.3Những lợi thế và thách thức của khai phá dữ liệu 12
2.2 Các bước xây dựng một giải pháp về khai phá dữ liệu 14
2.2.1 Mô hình luồng dữ liệu 14
2.2.2 Vòng đời của một hệ thống khai phá dữ liệu 14
2.3 Kiến trúc của một hệ thống khai phá dữ liệu điển hình 19
2.4 Khai phá dữ liệu trong lĩnh vực giáo dục 20
2.4.1 Tầm quan trọng của khai phá dữ liệu trong lĩnh vực giáo dục 20
Trang 52.4.2 Các ứng dụng của khai phá dữ liệu trong lĩnh vực giáo dục 21
2.5 Một số kỹ thuật khai phá dữ liệu trong phân lớp, dự báo 24
2.5.1 Cây quyết định 24
2.5.2 Phân lớp Nạve Bayes 27
2.5.3 Mạng nơ ron nhân tạo 31
2.5.4 Khai phá luật kết hợp 35
2.6 Khai phá dữ liệu với hệ quản trị CSDL Microsft SQL Server 38
2.6.1 Giới thiệu chung 38
2.6.2.Ngơn ngữ truy vấn khai phá dữ liệu DMX (Data Mining Extensions) 40 2.6.3 Bộ cơng cụ SQL Server Business Intelligence Development Studio 42
2.6.4 Lập trình khai phá dữ liệu với Analysis Services APIs 43
2.7 Kết luận chương 2 45
CHƯƠNG 3 -MƠ HÌNH ĐỀ XUẤT 3.1 Giải pháp dự đốn kết quả học tập của sinh viên 47
3.1.1 Liệt kê lộ trình học của một sinh viên 47
3.1.2 Dự đốn kết quả học tập cuối khĩa của sinh viên 49
3.2 Xây dựng cơ sở dữ liệu cho hệ thống 50
3.3 Xây dựng hệ thống dự đốn kết quả học tập 54
3.3.1 Xây dựng các mơ hình 54
3.3.2 Đánh giá các mơ hình 55
3.3.3 Thiết kế hệ thống dự đốn kết quả học tập 62
CHƯƠNG IV - THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Thực nghiệm, đánh giá trên hệ thống 65
4.2 Kết luận chương 4 70
Trang 6KẾT LUẬN VÀ KIẾN NGHỊ 71 TÀI LIỆU THAM KHẢO 73 PHỤ LỤC 74
Trang 7DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt
ANN
Tiếng Anh Artificial Neural Network
Tiếng Việt Mạng nơron nhân tạo
BBP Boosting – Based Perceptron
BIDS Bussiness Intelligence Development
Studio
DMX Data Mining Extensions Phần mở rộng khai phá dữ
Trang 8DANH SÁCH BẢNG
Bảng 2.1: Lựa chọn các thuật toán khai phá dữ liệu theo mục đích 39 Bảng 3.1: Bảng dữ liệu xây dựng hệ thống dự đoán kết quả học tập 52
Trang 9DANH SÁCH HÌNH VẼ
Hình 2.1: Các bước xây dựng một hệ thống khai phá dữ liệu 10
Hình 2.2: Mơ hình luồng dữ liệu 14
Hình 2.3: Kiến trúc của hệ thống khai phá dữ liệu điển hình 19
Hình 2.4 Biểu diễn cây quyết định cơ bản 24
Hình 2.5: Cây quyết định cho việc chơi Tennis 25
Hình 2.6: Nơ ron sinh học 31
Hình 2.7: Mơ hình học cĩ giám sát 34
Hình 2.8: Mơ hình học khơng giám sát 35
Hình 2.9: Hình ảnh tổng quan về khai phá dữ liệu với SQL 2008 38
Hình 3.1: Quy trình xử lý dữ liệu đầu vào 50
Hình 3.2: Mơ hình CSDL quan hệ được thu thập để xây dựng hệ thống 51
Hình 3.3: Một phần bảng các lộ trình học theo ngành 52
Hình 3.4: Một phần dữ liệu xây dựng hệ thống 53
Hình 3.5: Sự phụ thuộc của thuộc tính dự đốn vào các thuộc tính khác 54
Hình 3.6: Lựa chọn Lift Chart với Predict Value=”K” 56
Hình 3.7: Kết quả Lift Chart với Ketqua=”K” cho 04 mơ hình 56
Hình 3.8: Kết quả Lift Chart khơng xác định giá trị thuộc tính dự đốn 58
Hình 3.9: Classification Matrix của 04 mơ hình 59
Hình 3.10: Biểu đồ so sánh mức độ chính xác các mơ hình 61
Hình 3.11: Sơ đồ hoạt động của hệ thống 63
Hình 4.1: Kết quả dự đốn kết quả học tập với mơ hình Nạve Bayes 65
Hình 4.2: Kết quả dự đốn kết quả học tập với mơ hình Cây quyết định 66
Hình 4.3: Kết quả dự đốn kết quả học tập với mơ hình Luật kết hợp 66
Hình 4.4: Kết quả dự đốn kết quả học tập với mơ hình Neural Network 67
Hình 4.5: Kết quả dự đốn học tập với sinh viên nam 68
Hình 4.6: Kết quả dự đốn học tập với sinh viên nữ 69
Hình 4.7: Xem chi tiết một lộ trình học 70
Trang 10MỞ ĐẦU
Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu (CSDL) đã đem lại những lợi ích vô cùng to lớn cho nhân loại Cùng với sự phát triển của công nghệ thông tin (CNTT) và ứng dụng của nó trong đời sống - kinh tế - xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống CSDL có kích thước lớn Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong mọi lĩnh vực thì vấn đề tìm ra các thông tin hữu ích trong các CSDL lớn ngày càng trở thành mục tiêu quan trọng của các cơ quan,
tổ chức, doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức Được đánh giá sẽ tao ra cuộc cách mạng trong thế kỷ
21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các lĩnh vực như: thương mại, tài chính, thị trường chứng khoán, y học, thiên văn học, sinh học, giáo dục, viễn thông
Hiện nay, đa số các trường đại học và cao đẳng ở nước ta đã chuyển từ đào tạo theo niên chế sang đào tạo theo tín chỉ Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ Việc lựa chọn các môn học trong từng học kỳ (hay còn gọi là chọn lộ trình học) để sao cho kết quả học tập là cao nhất có thể là một việc hết sức khó khăn đối với các sinh viên Vì vậy, việc dự đoán kết quả học tập để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp nhằm đạt được kết quả học tập cao nhất được đặc biệt quan tâm Đó cũng là khó khăn chung không chỉ của sinh viên,
mà còn của các cố vấn học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong trường Các giảng viên chuyên trách không thể tiếp cận toàn bộ dữ liệu về điểm của sinh viên Ngay cả với các cấp quản lý, bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu lớn để đưa ra những tư vấn tốt trong việc chọn lộ trình học cho mỗi sinh viên không phải là khả thi
Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chưa được quan tâm đúng mức Đã có một số công trình được công bố sử dụng hồ sơ cá nhân cũng như điểm đầu vào để dự báo kết quả học
Trang 112
tập toàn khoá hoặc giai đoạn của sinh viên, nhưng các công trình nghiên cứu có sử dụng lộ trình học để dự đoán kết quả học tập còn rất hiếm
Vì vậy, đề tài “Xây dựng công cụ dự đoán kết quả học tập của sinh viên Đại
học Đồng Tháp” đi sâu vào việc khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh
đầu vào kết hợp với lộ trình học để dự đoán kết quả học tập của sinh viên Đề tài tiến hành nghiên cứu các kỹ thuật cho phép phân lớp, dự báo trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng các mô hình dự đoán kết quả học tập của sinh viên bằng công cụ SQL Server Business Intelligence Development Studio Từ đó, đánh giá
và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng và xây dựng chương trình dự đoán kết quả học tập cho mỗi sinh viên Kết quả dự đoán đó
có thể được dùng để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp để đạt được kết quả học tập cao nhất
Trang 12CHƯƠNG I -GIỚI THIỆU 1.1 Lý do chọn đề tài
Hiện nay, hầu hết các trường Đại học đã chuyển từ hình thức đào tạo theo niên chế sang đào tạo theo học chế tín chỉ Đào tạo theo tín chỉ xem người học là
trung tâm của quá trình đào tạo “Tín chỉ” là đơn vị căn bản để đo khối lượng kiến
thức và đánh giá kết quả học tập của sinh viên Đặc trưng của hệ thống này là kiến thức được cấu trúc thành các học phần Lượng kiến thức dành cho sinh viên gồm hai khối cơ bản: giáo dục đại cương và giáo dục chuyên môn Mỗi khối kiến thức có
2 nhóm học phần: học phần bắt buộc là những kiến thức tiên quyết bắt buộc sinh viên phải học và thi đạt mới được học tiếp sang học phần khác; nhóm học phần tự chọn gồm những kiến thức cần thiết nhưng sinh viên được chọn theo hướng dẫn của nhà trường
Học phần là khối lượng kiến thức tương đối trọn vẹn, thuận tiện cho sinh viên tích luỹ trong quá trình học tập Phần lớn học phần có khối lượng từ 2 đến 4 tín chỉ, nội dung được bố trí giảng dạy trọn vẹn và phân bố đều trong một học kỳ
Một tín chỉ được quy định bằng 15 tiết học lý thuyết; 30 - 45 tiết thực hành, thí nghiệm hoặc thảo luận; 45 - 90 giờ thực tập tại cơ sở; 45 - 60 giờ làm tiểu luận, bài tập lớn hoặc đồ án, khoá luận tốt nghiệp
Đối với những học phần lý thuyết hoặc thực hành, thí nghiệm, để tiếp thu được một tín chỉ sinh viên phải dành ít nhất 30 giờ chuẩn bị cá nhân
Hiệu trưởng các trường quy định cụ thể số tiết, số giờ đối với từng học phần cho phù hợp với đặc điểm của trường
Đối với những chương trình, khối lượng của từng học phần đã được tính theo đơn vị học trình, thì 1,5 đơn vị học trình được quy đổi thành 1 tín chỉ
Trang 13F (dưới 4,0) Sinh viên có học phần bắt buộc bị điểm F phải đăng ký học lại học phần đó ở một trong các học kỳ tiếp theo cho đến khi đạt điểm A, B, C hoặc D
Hạng tốt nghiệp được xác định theo điểm trung bình chung tích lũy của toàn khóa học, như sau: loại Xuất sắc: từ 3,6 đến 4; loại Giỏi: từ 3,2 đến 3,59; loại Khá:
Sinh viên được phép kéo dài chương trình học (trong một khoảng thời gian nhất định theo quy định riêng từng trường) nếu điều kiện kinh tế không cho phép hoặc do ốm đau, bệnh tật buộc họ phải nghỉ học giữa chừng thì sinh viên đó vẫn được tiếp tục theo học sau đó mà không bị ảnh hưởng gì khi quay lại tiếp tục chương trình học
Sinh viên còn có thể chuyển đổi chuyên ngành mình đang theo học một cách khá dễ dàng mà không phải học lại từ đầu Nếu biết sắp xếp những tín chỉ giống nhau giữa hai ngành một cách hợp lý, sinh viên có thể hoàn toàn tốt nghiệp được hai chương trình học trong một thời gian giảm đáng kể so với hình thức đào tạo theo niên chế
Một lợi thế quan trọng nữa của hệ tín chỉ là cho phép sinh viên có những sự lựa chọn chương trình học theo sở thích của mình
Về phương pháp học tập, sinh viên có thể phát huy tối đa năng lực tự nghiên cứu và kỹ năng làm việc theo nhóm Việc quy định số tiết học sinh viên tự nghiên
cứu ở nhà giúp sinh viên có thể phát huy tối đa năng lực tự nghiên cứu cũng như
Trang 14nâng cao ý thức học tập của mình Hơn nữa, ở hầu hết các mơn học sinh viên được
tự nghiên cứu, thảo luận và làm việc theo nhĩm với những đề tài khác nhau Đặc biệt, việc phải thuyết trình về đề tài của các nhĩm giúp sinh viên tự tin hơn khi làm việc trước đám đơng
Qua những phân tích về lợi thế và thách thức của đào tạo theo tín chỉ ở trên, cĩ thể thấy rằng, đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng quy trình đào tạo là một việc hết sức khĩ khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ cịn rất mới mẻ Xuất phát từ thực tế đĩ, việc dự đốn kết quả học tập để tư vấn lựa chọn lộ trình học cho sinh viên theo ngành học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa
Bài tốn dự đốn kết quả học tập của sinh viên theo lộ trình học gồm hai bước:
Bước 1: Liệt kê tồn bộ lộ trình học cĩ thể của một sinh viên theo ngành học
mà sinh viên đĩ đã chọn
Bước 2: Dự đốn kết quả học tập cuối khĩa của sinh viên theo tất cả các lộ
trình ở trên Chọn ra lộ trình với kết quả dự đốn cho ra kết quả học tập tốt nhất để
tư vấn cho sinh viên Nếu cĩ nhiều lộ trình cĩ cùng kết quả thì sinh viên cĩ thể tự chọn một trong số các lộ trình học đĩ sao cho phù hợp nhất với năng lực, sở thích
và các điều kiện khác của bản thân
1.2 Mục đích nghiên cứu
- Nghiên cứu kỹ thuật khai phá dữ liệu: cây quyết định, Nạve Bayes, mạng
nơ ron nhân tạo, luật kết hợp
- Nghiên cứu kỹ về các hệ thống dự đốn kết quả học tập cho sinh viên đào tạo theo tín chỉ, xác định bài tốn cụ thể là xây dựng cơng cụ liệt kê tất cả các lộ trình học cho mỗi ngành học và gắn lộ trình học với mỗi sinh viên, thu thập, tiền xử
lý và xử lý các bộ dữ liệu đào tạo phục vụ cho mục đích nghiên cứu của luận văn
- Nghiên cứu các kỹ thuật khai phá dữ liệu sử dụng cơng cụ Business Intelligence Development Studio (BIDS), ngơn ngữ truy vấn khai phá dữ liệu DMX
Trang 15và kỹ thuật lập trình khai phá dữ liệu với Analysis Services APIs trên hệ quản trị cơ
sở dữ liệu Microsoft SQL Server
- Xây dựng ứng dụng dự đốn kết quả học tập nhằm tư vấn cho sinh viên lựa chọn lộ trình học phù hợp dựa trên bộ dữ liệu đã thu thập được, tiến hành đánh giá mức độ hiệu quả của các mơ hình dự đốn để lựa chọn mơ hình cho kết quả dự đốn tốt nhất
1.3 Đối tượng và phạm vi nghiên cứu
- Nghiên cứu cơ sở lý thuyết về khai phá dữ liệu, tập trung vào các kỹ thuật khai phá dữ liệu áp dụng cho các mơ hình dự báo như: Cây quyết định, Nạve Bayes, mạng nơ ron nhân tạo và luật kết hợp
- Tìm hiểu các vấn đề liên quan đến dữ liệu đào tạo, phương pháp tiền xử lý
dữ liệu, các hệ thống dự đốn kết quả học tập của sinh viên, bộ dữ liệu đào tạo (gồm kết quả học tập, thơng tin cá nhân của sinh viên đã tốt nghiệp các chuyên ngành đào tạo khác nhau trong trường Đại học Đồng Tháp)
- Nghiên cứu các cơng trình, bài báo liên quan đến các mơ hình dự đốn kết quả học tập của sinh viên trong và ngồi nước
1.4 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý luận: Thu thập, đọc hiểu, phân tích thơng tin dữ liệu từ các tài liệu, giáo trình, sách và các bài báo liên quan đến khai phá dữ liệu và ứng dụng trong dự đốn kết quả học tập cho sinh viên
- Phương pháp nghiên cứu thực tiễn: Tiến hành nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đĩ để xây dựng mơ hình dự đốn kết quả học tập của sinh viên dựa vào các thơng tin đầu vào Đề tài tiến hành so sánh kết quả của các kỹ thuật để lựa chọn kỹ thuật cho kết quả chính xác nhất Từ đĩ, xây dựng chương trình dự đốn kết quả học tập cho mỗi sinh viên
để tư vấn cho sinh viên chọn lộ trình học phù hợp nhất sao cho đạt kết quả học tập tốt nhất Dữ liệu để kiểm định mơ hình được thu thập từ bộ dữ liệu đào tạo thực tế nên mang tính khách quan và chính xác cao
Trang 161.5 Ý nghĩa khoa học và thực tiễn của luận văn
Việc áp dụng hệ thống dự đốn kết quả học tập vào trường Đại học Đồng Tháp đào tạo theo học chế tín chỉ sẽ hỗ trợ rất tốt cho các sinh viên trong quá trình lựa chọn mơn học và lộ trình học phù hợp với bản thân, qua đĩ nâng cao chất lượng giáo dục đào tạo của trường, tiết kiệm chi phí, thời gian cho cơng tác tổ chức đăng
ký học lại, thi lại, chấm thi … cho cán bộ, giáo viên và sinh viên và các nhà quản lý đào tạo
1.6 Cấu trúc luận văn
Luận văn gồm cĩ phần mở đầu, kết luận và 04 chương, cụ thể như sau:
Chương I Giới thiệu
Nêu lý do chọn đề tài, tổng quan về đề tài, mục đích nghiên cứu, đối tượng
và phạm vi nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài
Chương II: Cơ sở lý thuyết
Nghiên cứu các cơ sở lý thuyết khai phá dữ liệu, các bước xây dựng giải pháp khai phá dữ liệu, kiến trúc của một hệ thống khai phá dữ liệu, tìm hiểu các vấn
đề liên quan đến khai phá dữ liệu trong lĩnh vực giáo dục
Tìm hiểu các kỹ thuật khai phá dữ liệu sử dụng trong bài tốn phân lớp và dự báo như: cây quyết định, phân lớp Nạve Bayes, mạng nơ ron nhân tạo và luật kết hợp
Tìm hiểu kỹ thuật khai phá dữ liệu trên hệ quản trị CSDL MS SQL Server sử dụng bộ cơng cụ SQL Server Business Intelligence Development Studio, ngơn ngữ truy vấn khai phá dữ liệu DMX (Data Mining Extensions) và kỹ thuật lập trình khai phá dữ liệu với Analysis Services APIs sử dụng đối tượng ADOMD.NET
Chương III Mơ hình đề xuất
Mơ tả ứng dụng, xây dựng bài tốn liệt kê lộ trình học cho từng ngành học,
dự đốn kết quả cho các lộ trình, từ đĩ giúp sinh viên cĩ thể lựa chọn lộ trình học phù hợp với ngành mình đang theo học Thu thập và xử lý các dữ liệu liên quan để phát triển hệ thống
Trang 17Xây dựng hệ thống dự đốn kết quả học tập trên bộ dữ liệu đã thu thập được (gồm dữ liệu thơng tin tuyển sinh đầu vào kết hợp với lộ trình học của sinh viên theo ngành học) sử dụng bộ cơng cụ SQL Server Business Intelligence Development Studio với các mơ hình Cây quyết định, Nạve Bayes, Neural Networks, Luật kết hợp
Chương IV Thực nghiệm và đánh giá
Tiến hành thực nghiệm, đánh giá trên các mơ hình, lựa chọn mơ hình cho kết quả dự báo tốt nhất để sử dụng trong hệ thống dự đốn kết quả học tập, giúp sinh viên cĩ thể chọn ra lộ trình học phù hợp với điều kiện và năng lực của bản thân để đạt kết quả tốt nghiệp cao nhất
Trang 18CHƯƠNG II - CƠ SỞ LÝ THUYẾT 2.1 Khái niệm về khai phá dữ liệu
2.1.1 Định nghĩa khai phá dữ liệu
Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lượng lớn các
dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong
Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp
vụ như: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp ERP, các hệ thống quản lý khách hàng CRM, hay từ tác công cụ lưu trữ thông tin trên web…
Đây là những khối dữ liệu lớn nhưng những thông tin mà nó thể hiện ra thì lộn xộn và “nghèo” đối với người dùng Kích thước của khối dữ liệu lớn đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ Khai phá dữ liệu sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu, nạo vét dữ liệu…Trên thực tế, nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL KDD là như nhau Còn một số người chỉ coi khai phá dữ liệu là một bước trong quá trình khám phá tri thức trong cơ sở dữ liệu Quá trình này gồm một
số bước lập được thể hiện trong hình sau
Trang 19Hình 2.1: Các bước xây dựng một hệ thống khai phá dữ liệu [1]
Ý nghĩa cụ thể của các bước như sau:
- Lựa chọn dữ liệu liên quan đến bài toán quan tâm
- Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực
- Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá
- Khai phá dữ liệu, trích xuất ra các mẫu dữ liệu
- Đánh giá mẫu
- Sử dụng tri thức khai phá được
Trong thực tế, thuật ngữ khai phá dữ liệu thông dụng và sử dụng rộng rãi hơn thuật ngữ khám phá tri thức trong cơ sở dữ liệu Theo hướng ứng dụng người ta thường chia khai phá dữ liệu là một quá trình trong đó gồm nhiều bước nhỏ, mà ta
sẽ trình bày chi tiết ở mục tiếp theo: Các bước xây dựng một giải pháp về khai phá
dữ liệu
2.1.2 Những nhóm bài toán của khai phá dữ liệu
Khai phá dữ liệu có thể được dùng để giải quyết hàng trăm bài toán với những mục đích và nhiệm vụ khác nhau Dựa trên bản chất tự nhiên của các bài toán đó, người ta có thể nhóm các bài toán đó thành những nhóm sau:
2.1.2.1 Phân loại
Trang 20Bài tốn phân loại là một trong những bài tốn phổ biến nhất của khai phá dữ liệu, ví dụ như: phân tích xem loại khách hàng nào cĩ khả năng cao nhất sẽ chuyển sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của cơng ty (churn analysis), quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi loại khách hàng…
Phân loại là tổ chức dữ liệu trong các lớp cho trước, cịn được gọi là học cĩ quan sát Phân loại sử dụng các nhãn lớp cho trước để sắp xếp các đối tượng Trong
đĩ, cĩ một tập huấn luyện gồm các đối tượng đã được kết hợp với các nhãn đã biết Những thuật tốn học cĩ quan sát sẽ được áp dụng cho tập các đối tượng cần phân loại để từ đĩ mơ hình phân loại chúng
Một số thuật tốn dùng trong bài tốn phân loại như: cây quyết định, mạng
nơ ron, mạng Nạve Bayes
2.1.2.2 Phân cụm
Bài tốn phân cụm hay cịn gọi là phân đoạn Điểm khác với bài tốn phân loại là ở đây các nhãn lớp chưa biết và khơng cĩ tập luyện Các đối tượng được phân loại dựa trên các thuộc tính tương đồng giữa chúng Bài tốn phân lớp hay cịn gọi là học khơng cĩ giám sát
2.1.2.3 Bài tốn phân tích luật kết hợp
Bài tốn này đơi khi cịn gọi là bài tốn phân tích giỏ hàng bởi vì nĩ được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài tốn lựa chọn hàng hĩa
Trang 21xảy ra, còn loại kia là dự đoán để phân lớp dựa trên một tập huấn luyện và giá trị thuộc tính của đối tượng Trong phạm vi luận văn sẽ sử dụng loại dự đoán thứ hai 2.1.2.6 Phân tích chuỗi
Phân tích chuỗi được sử dụng để tìm ra các mẫu trong một loạt các giá trị hay trạng thái rời rạc Ví dụ như việc chọn mua hàng của khách hàng có thể mô hình là một chuỗi dữ liệu Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C… là một chuỗi các trạng thái rời rạc Trong khi đó thời gian lại là chuỗi số liên tục
Phân tích chuỗi và phân tích luật kết hợp giống nhau ở chỗ đều phân tích tập hợp các đối tượng hay trạng thái Điểm khác nhau là mô hình chuỗi phân tích sự chuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi mỗi một mặt hàng trong giỏ hàng là như nhau và độc lập Với mô hình chuỗi, việc chọn mặt hàng A trước mặt hàng B hay chọn mặt hàng B trước A sau là khác nhau Còn ở mô hình kết hợp thì cả hai trường hợp là như nhau
Chưa có một kỹ thuật chuẩn cho bài toán này Nó vẫn còn đang là chủ đề mở hiện đang tiếp tục nghiên cứu
2.1.3Những lợi thế và thách thức của khai phá dữ liệu
2.1.3.1 Lợi thế
Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như hệ
cơ sở dữ liệu, thống kê xác suất, trực quan hóa…Thêm vào đó khai phá dữ liệu còn
có thể áp dụng các kỹ thuật như mạng nơ ron, lý thuyết tập thô, tập mờ, biểu diễn tri thức…nên khai phá dữ liệu có một số lợi thế so với các phương pháp trên Sau đây
Trang 22là một vài so sánh của các chuyên gia giữa khai phá dữ liệu một số phương pháp truyền thống:
Phương pháp học máy: đây là một phương pháp có nhiều đóng góp cho bài
toán phân lớp, nhận dạng Tuy nhiên, phương pháp học máy chủ yếu được áp dụng trong các cơ sở dữ liệu ít biến động, đầy đủ, tập dữ liệu không quá lớn Trên thực tế, các cơ sở dữ liệu thường không đầy đủ, chứa nhiều nhiễu và biến đổi liên tục Trong trường hợp này người ta sử dụng khai phá dữ liệu
Phương pháp thống kê: mặc dù thống kê là nền tảng của lý thuyết khai phá
dữ liệu nhưng có thể thấy rõ những tồn tại của phương pháp này mà khai phá dữ liệu đã giải quyết được:
- Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng các tri thức sẵn có về lĩnh vực
- Kết quả phân tích của thống kê có thể sẽ có rất nhiều và khó có thể làm rõ được
- Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu
2.1.3.2 Thách thức
Bên cạnh những lợi thế trên, khai phá vẫn còn những thách thức:
- Chưa có những hệ thống giao diện lập trình ứng dụng API chuẩn nên tạo ra những khó khăn cho các kỹ sư tích hợp, phát triển ứng dụng
- Yêu cầu kỹ sư phải có nền tảng toán vững chắc trong khi đa số các kỹ sư chỉ thành thạo với các kỹ thuật cơ sở dữ liệu, ngôn ngữ lập trình
- Tiếp tục là những thách thức về nguồn nhân lực: Phân tích dữ liệu ngày càng trở nên quan trọng, tuy nhiên hầu hết những kỹ sư vẫn chưa hiểu và thành thào các kỹ thuật phân tích dữ liệu
Những hạn chế của các thuật toán: Hầu hết các thuật toán đều khá là tổng
quát, nó sinh ra nhiều luật Mặc dù các luật sinh ra đa số đều hữu ích nhưng ta vẫn phải đo độ đáng quan tâm của các mẫu nên vẫn cần sự can thiệp của các chuyên gia nghiệp vụ Nhiều lĩnh vực mới, ví dụ như phân tích chuỗi DNA trong công nghệ
Trang 23sinh học hiện vẫn chưa tìm được thuật toán chuyên dụng hiệu quả, đang là những đề tài mở để nghiên cứu
2.2 Các bước xây dựng một giải pháp về khai phá dữ liệu
2.2.1 Mô hình luồng dữ liệu
Hình 2.2: Mô hình luồng dữ liệu [1]
Những hệ thống phần mềm kinh doanh lưu trữ các dữ liệu giao dịch trong các cơ sở dữ liệu xử lý giao dịch trực tuyến Những dữ liệu này được chuyển vào kho dữ liệu Những CSDL xử lý phân tích trực tuyến có thể được xây dựng từ những dữ liệu trong kho dữ liệu
Những mũi tên từ khai phá dữ liệu đi ra cho biết khai phá dữ liệu có thể được
áp dụng trong tất cả các bước, từ trực tiếp những ứng dụng kinh doanh đến phân tích trực tuyến
2.2.2 Vòng đời của một hệ thống khai phá dữ liệu
Có rất nhiều tác giả đưa ra các bước của một hệ thống khai phá dữ liệu, mọi
sự phân chia chỉ mang tính chất tương đối và tư tưởng chủ đạo của nó là như sau:
- Bước 1: Xác định mục tiêu bài toán
Trang 24- Bước 5: Đánh giá mô hình hay đánh giá mẫu
- Bước 6: Báo cáo
- Bước 7: Dự đoán
- Bước 8: Tích hợp vào ứng dụng
- Bước 9: Quản lý mô hình
2.2.2.1 Bước 1: Xác định mục tiêu bài toán
Cũng giống như bất kỳ một dự án thông thường nào, bước đầu tiên trong quá trình khai phá dữ liệu đó là phải xác định rõ được mục tiêu, nhiệm vụ của bài toán Đồng thời bên cạnh đó là sự phân công trách nhiệm ở một mức độ nào đó nhằm đảm bảo dự án được triển khai một cách có hiệu quả
Một vấn đề cũng rất quan trọng được đặt ra đó là “giải pháp khai phá dữ liệu
có thực sự là cần thiết cho vấn đề đó không?” Câu trả lời cho câu hỏi quan trọng này là phải xác định thật chính xác mục tiêu của bài toán, cần xem mục tiêu của bài toán có thuộc trong các bài toán của khai phá dữ liệu mà ta đã trình bày bên trên không? Nó đòi hỏi sự cộng tác giữa các chuyên gia kinh doanh trong lĩnh vực đó và chuyên gia công nghệ, chuyên gia phân tích dữ liệu
2.2.2.2 Bước 2: Thu thập dữ liệu
Sau khi xác định được mục tiêu, nhiệm vụ của bài toán, ta tiến hành thu thập các dữ liệu liên quan Dữ liệu có thể được thu thập từ nhiều nguồn: các cơ sở dữ liệu của xử lý giao dịch trực tuyến, từ các tệp lưu trữ thông tin trên web, từ các kho
Làm sạch và chuyển đổi dữ liệu là một bước rất quan trọng trong một dự ắn khai phá dữ liệu
Trang 25Làm sạch dữ liệu: Mục đích của làm sạch dữ liệu là loại bỏ những dữ liệu
thừa, không nhất quán, có chứa nhiễu Quá trình làm sạch dữ liệu sẽ cố gắng thêm giá trị vào những giá trị bị thiếu, làm mịn các điểm nhiễu và sửa lại các dữ liệu không nhất quán Sau đây là một số kỹ thuật áp dụng cho quá trình làm sạch dữ liệu:
- Xử lý các dữ liệu bị thiếu: Có rất nhiều nguyên nhân của việc dữ liệu thiếu
Ví dụ khách hàng đôi khi không điền đầy đủ các thông tin bắt buộc…Một số giải pháp:
+ Bỏ qua mẫu dữ liệu đó nếu mẫu dữ liệu chứa nhiều thuộc tính thiếu giá trị + Dùng một hằng số thay thế, thường là giá trị trung bình của thuộc tính để thêm vào, hoặc giá trị trung bình của các mẫu trong cùng một lớp với mẫu có giá trị thiếu
+ Sử dụng các giá trị có xác suất cao nhất
- Loại bỏ các điểm biên: Các điểm biên có thể được phát hiện bằng cách sử dụng phương pháp phân cụm dữ liệu, hay hồi quy…
- Dữ liệu không nhất quán: Dữ liệu có thể không nhất quán với nhau trong các bản ghi của một số giao dịch Một số có thể được sửa lại một cách thủ công Ví
dụ những lỗi do việc nhập dữ liệu gây ra Ngoài ra còn có những lỗi được tạo ra trong quá trình tích hợp dữ liệu…
Chuyển đổi dữ liệu: Mục đích của quá trình chuyển đổi dữ liệu là đưa dữ
liệu về dạng phù hợp với thuật toán khai phá Sau đây là một số kỹ thuật áp dụng cho quá trình chuyển đổi dữ liệu:
- Chuyển đổi kiểu dữ liệu: Đây là một kỹ thuật đơn giản nhất Ví dụ như chuyển đổi các cột dữ liệu kiểu logic sang kiểu nguyên và ngược lại Lý do là một
số thuật toán khai phá dữ liệu thực thi tốt hơn trên dữ liệu kiểu nguyên trong khi số khác thì ngược lại
- Nhóm: Đây cũng là một kỹ thuật nhóm các giá trị trong một cột lại để giảm
sự phức tạp: Ví dục: Cột nghề nghiệp có thể có những giá trị khác nhau như: Kỹ sư
Trang 26phần mềm, kỹ sư truyền thông, kỹ sư cơ khí… thì chúng ta có thể nhóm chúng lại thành nhóm kỹ sư
- Tập hợp: trong phương pháp này các thao tác tập hợp được áp dụng Ví dụ: chúng ta muốn phân loại khách hàng dựa trên những thông tin sử dụng điện thoại hàng tháng của khách hàng Những thông tin lưu trữ trong cơ sở dữ liệu là rất chi tiết,
vì thế chúng ta có thể tập hợp chúng lại thành một vài thuộc tính tổng hợp như: Tổng
số cuộc gọi hay thời gian trung bình của các cuộc gọi
- Tổng quát hóa: Dữ liệu ở mức thấp (dữ liệu nguyên thủy) có thể được thay thế bằng các khái niệm ở mức cao hơn bằng cách sử dụng cây phân cấp ngữ cảnh
Ví dụ: Những thuộc tính thành phố có thể được tổng quát hóa mức cao hơn như quốc gia
- Chuẩn hóa: dữ liệu của thuộc tính sẽ được đưa về 1 khoảng xác định, ví dụ như: [-1,0,1,0]
2.2.2.4 Bước 4: Xây dựng mô hình
Sau khi xác định rõ được mục tiêu, nhiệm vụ của bài toán, rồi tiến hành chuẩn bị dữ liệu bao gồm làm sạch và chuyển đổi, ta tiến hành chọn lựa và xây dựng mô hình Ta xac định xem loại bài toán của ta thuộc loại nào: phân loại, kết hợp hay phân đoạn…
Đối với mỗi bài toán trong khai phá dữ liệu đều có nhiều mô hình để giải quyết, mỗi mô hình được xây dựng dựa trên một thuật toán hoặc kết hợp một vài thuật toán với nhau Để lựa chọn chính xác mô hình nào tốt hơn là khó khăn vì nó phụ thuộc vào nhiều yếu tố bài toán Chúng ta nên thử giải quyết bài toán bằng nhiều mô hình khác nhau rồi tiến hành so sánh lựa chọn, để tìm ra mô hình tối ưu nhất, thích hợp nhất với bài toán của ta
Ví dụ: Mối quan hệ giữa các thuộc tính mà đơn giản thì ta có thể áp dụng thuật toán cây quyết định để xây dựng mô hình, nhưng khi mối quan hệ phức tạp thì dùng thuật toán mạng nơtron lại hiệu quả tốt hơn
2.2.2.5 Bước 5: Đánhgiá mô hình, đánh giá mẫu
Trang 27Sau khi áp dụng một số các mô hình chúng ta sẽ đánh giá lựa chọn xem mô hình nào tốt hơn
Điểm chú ý là bên cạnh công cụ hỗ trợ như Lift Chart…thì chúng ta còn phải dựa vào sự hiểu biết của người dùng đối với dữ liệu
- Các mẫu đưa ra có dễ hiểu đối với con người không?
- Các mẫu đưa ra có đúng với các dữ liệu thử với một mức độ chắc chắn nào
Có hai loại báo cáo: Báo cáo dự đoán và báo cáo về tìm ra các mẫu
Trong hợp khai phá dữ liệu vào ứng dụng là bước cuối cùng trong khai phá
dữ liệu, kết thúc vòng quay của quá trình khai phá dữ liệu
Mục tiêu của bước này là đưa tri thức tìm kiếm được vào sử dụng
2.2.2.9 Bước 9: Quản lý mô hình
Trang 28Mỗi một mô hình khai phá dữ liệu đều có một vòng đời phát triển Trong khá nhiều lĩnh vực kinh doanh, các mẫu là khá ổn định vì thế mô hình không nhất thiết phải thường xuyên huấn luyện lại Tuy vậy, trong một số trường hợp các mẫu này là thay đổi thường xuyên Ví dụ như các kho lưu trữ sách trên mạng Với việc các sách mới được nhập mới hàng ngày, điều đó đồng nghĩa với việc các luật kết hợp mới xuất hiện hàng ngày Chính vì thế mà thời gian sống của mô hình trong trường hợp này là giới hạn lại, mô hình mới phải được tạo ra liên tục và việc tạo ra mô hình là phải tự động
Cũng giống như tất cả các dữ liệu khác, dữ liệu khai phá cũng cần được báo mật vì đa số đó là các dữ liệu “nhạy cảm”, quan trọng
2.3 Kiến trúc của một hệ thống khai phá dữ liệu điển hình
Kiến trúc của một hệ thống khai phá dữ liệu thường gồm những thành phần chính sau:
Hình 2.3:Kiến trúc của hệ thống khai phá dữ liệu điển hình [1]
Giao diện đồ họa người dùng
Đánh giá mẫu
Máy khai phá dữ liệu
Máy chủ CSDL/Kho dữ liệu Làm sạch dữ liệu Lọc
Trang 29Trong sơ đồ trên, bước khai phá dữ liệu có thể tương tác với người sử dụng hoặc với cơ sở tri thức Những mẫu dữ liệu tìm được sẽ được hiển thị cho người sử dụng xem và có thể được lưu lại như là tri thức mới trong cơ sở tri thức
- Cơ sở dữ liệu, kho dữ liệu hoặc các thiết bị lưu trữ thông tin khác:có thể gồm một hoặc một tập các cơ sở dữ liệu, kho dữ liệu, bảng tính hoặc các thiết bị lưu trữ thông tin Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thực hiện trên dữ liệu này
- Máy chủ cơ sở dữ liệu hoặc kho dữ liệu: có nhiệm vụ đưa ra các dữ liệu liên quan cho hệ thống, dựa vào yêu cầu khai phá dữ liệu của người sử dụng
- Cơ sở tri thức là miền tri thức được sử dụng để hướng dẫn việc tìm kiếm hoặc đánh giá độ đáng quan tâm của các mẫu tìm được
- Máy khai phá dữ liệu: là bộ phận thiết yếu của hệ thống khai phá dữ liệu, gồm một số mô đun chức năng như: phân loại, phân cum, tìm luật kết hợp, phân tích độ lệch…
- Đánh giá mẫu: thành phần này thường sử dụng các hép đo độ đáng quan tâm của các mẫu, tương tác với các mô đun khai phá dữ liệu, nhằm hướng sự tìm kiếm vào các mẫu quan tâm, các mẫu có giá trị tri thức
- Giao diện đồ họa người dùng: là mô đun giao tiếp giữa người dùng vafh ệ thống khai phá dữ liệu, cho phép người dùng tương tác với hệ thống như chỉ định nhiệm vụ khai phá dữ liệu, cung cấp thông tin cho quá trình tìm kiếm, trực quan hóa các mẫu tìm được, …
2.4 Khai phá dữ liệu trong lĩnh vực giáo dục
2.4.1 Tầm quan trọng của khai phá dữ liệu trong lĩnh vực giáo dục
Hiện đã có rất nhiều nghiên cứu về ứng dụng khai phá dữ liệu cho giáo dục Những khai phá dữ liệu trong giáo dục đã nổi bật lên như là một lĩnh vực nghiên cứu độc lập trong những năm gần đây, mà cao điểm là năm 2008 với sự thành lập hội nghị quốc tế về khai phá dữ liệu giáo dục, và những bài báo về khai phá dữ liệu
giáo dục Đó là “Applying Data Mining Techniques to e-Learning Problems” của
Félix Castrol, Alfredo Vellido1, Àngela Nebotl, và Francisco Mugica3,
Trang 30“Recommendation in Higher Education Using Data Mining Techniques” của César Vialardi, Javier Bravo, Leila Shafti, Álvaro Ortigosa, “Using Association Rules for
Course Recommendation” của Narimel Bendakir và Esma A¨ımeur
Các nhà nghiên cứu về việc khai phá dữ liệu trong giáo dục tập trung vào nhiều vấn đề bao gồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với
sự giúp đỡ của máy tính, kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố được kết hợp với các sinh viên không có khả năng hoặc thiếu định hướng trong quá trình học tập Mỗi lĩnh vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mô hình hướng đối tượng sinh viên Các mô hình sinh viên thể hiện thông tin về một nét đặc trưng hay tình trạng của sinh viên, như kiến thức hiện tại của sinh viên, động cơ thúc đẩy học tập, quan điểm nguyện vọng của sinh viên, … Việc ứng dụng khai phá dữ liệu trong giáo dục đóng vai trò rất quan trọng trong việc phát triển giáo dục cũng như trợ giúp đáng kể cho các hoạt động giáo dục
2.4.2 Các ứng dụng của khai phá dữ liệu trong lĩnh vực giáo dục
2.4.2.1 Các ứng dụng hướng đến học sinh, sinh viên
Dự đoán kết quả lựa chọn ngành học: Cho một kho dữ liệu lưu giữ các
thông tin về kết quả học tập của sinh viên đã tốt nghiệp Hãy tìm ra những quy luật lựa chọn các chuyên ngành một cách hợp lý sao cho đạt được kết quả tốt nhất Nhằm mục đích này người ta mong muốn nhận được từ dữ liệu những phát biểu như: “80% sinh viên học tốt môn Kinh tế chính trị và Tiếng Anh khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”, … Để đạt được những phát biểu như trên, chúng ta sử dụng các thuật toán Khai phá luật kết hợp từ cơ sở dữ liệu Trong
luận văn thạc sĩ "Phương pháp khai phá dữ liệu bằng cây quyết định" (năm 2012)
của Phạm Duy An, Học viện Công nghệ Bưu chính Viễn thông, tác giả đã đề xuất
sử dụng cây quyết định để xây dựng ứng dụng tư vấn lựa chọn chuyên ngành học cho sinh viên trường Đại học Phương Đông"
Dự đoán kết quả lựa chọn môn học:Cho một kho dữ liệu các thông tin về
kết quả học tập của sinh viên Hãy dự đoán kết quả cho sinh viên lựa chọn các môn
Trang 31học cho học kỳ sau dựa trên kết quả của các học kỳ trước sao cho kết quả học tập của kỳ sao là cao nhất Để thực hiện việc này, chúng ta cần sử dụng các thuật toán Khai phá dữ liệu ở dạng phân lớp và dự đoán như Cây quyết định, mạng Naive
Bayes, Neural Network hay luật kết hợp Trong luận văn "Khai phá dữ liệu cho tư
vấn lựa chọn môn học" (năm 2010) của Phạm Thị Phúc, Học viện Công nghệ Bưu
chính viễn thông, tác giả đã sử dụng phần mềm khai phá dữ liệu WEKA để sinh luật kết hợp và ứng dụng để xây dựng một hệ thống tư vấn môn học cho sinh viên
Dự đoán kết quả lựa chọn lộ trình học:Cho một kho dữ liệu đào tạo (theo
hình thức tín chỉ) bao gồm các môn học (học phần) tương ứng với các ngành học và các học kỳ (gọi là chương trình đào tạo), cùng với các thông tin về kết quả học tập của các sinh viên đã tốt nghiệp Hãy dự đoán kết quả cho các sinh viên mới vào trường cách lựa chọn một lộ trình học phù hợp nhất cho ngành học mà sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trường của sinh viên là cao nhất Đây chính là bài toán mà luận văn hướng đến Để thực hiện việc này, chúng ta cần sử dụng các thuật toán Khai phá dữ liệu ở dạng phân lớp và dự đoán như Cây quyết định, mạng
Naive Bayes, Neural Network hay luật kết hợp Trong bài báo "Ứng dụng khai phá
dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên" (năm 2012) của
Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh, các tác giả cũng sử dụng kỹ thuật khai phá dữ liệu để dự đoán kết quả học tập dựa trên lộ trình học của sinh viên
2.4.2.2 Các ứng dụng hướng đến giáo viên
Phân loại học sinh, sinh viên:Đánh giá, phân loại học sinh, sinh viên để đưa
ra những phương pháp và hình thức dạy học thích hợp là việc thường xuyên phải làm trong quá trình giáo dục Đánh giá từng mặt, đánh giá một số mặt và đánh giá toàn thể phẩm chất, năng lực của học sinh đều có ý nghĩa vô cùng quan trọng và đều
có ảnh hưởng lớn tới kết quả giáo dục Đánh giá đúng sẽ dẫn đến những quyết định đúng đắn Đánh giá sai hậu quả sẽ khôn lường Tuy nhiên đánh giá là một việc rất khó Vấn đề càng khó khi thông tin về đối tượng được đánh giá là rất lớn và dàn trải
Trang 32Việc phân nhóm các học sinh, sinh viên (theo năng lực một cách đúng đắn) vào các lớp học khác nhau để đào tạo sẽ nâng cao chất lượng giáo dục Đối với các học sinh giỏi, chương trình đào tạo có thể khác, dạy phần cơ sở nhanh hơn, tập trung vào các phần nâng cao để bồi dưỡng học sinh giỏi, các học sinh yếu, kém phải dạy thật chậm, giảng giải chi tiết và hướng đến các kiến thức căn bản, cơ sở…Nếu trong lớp học các học sinh giỏi và yếu kém học cùng nhau sẽ dễ xảy ra tình trạng người học giỏi thiếu hứng thú với việc học khi giáo viên ra đề quá dễ và dạy quá chậm, hoặc người học yếu, kém không thể theo được chương trình khi giáo viên dạy quá nhanh và ra đề quá khó…
Để thực hiện việc phân loại học sinh, sinh viên như trên, một phương pháp tốt nhất đó chính là sử dụng các kỹ thuật khai phá dữ liệu với các thuật toán phân cụm, phân lớp như Cây quyết định, K-mean, mạng SOM (Kohonen) với thông tin đầu vào là dữ liệu về các học sinh, sinh viên như điểm tổng kết các năm trước, điểm
thi tuyển sinh, điểm ưu tiên, vùng, miền, giới tính …Trong luận văn thạc sĩ "Phân
cụm dữ liệu bằng mạng Kohonen dựa trên độ đo mức tương tự giữa các tập mờ trực cảm" (năm 2013) của Vương Thị Hải Xuyến, Đại học Sư phạm Hà nội, tác giả đã
dùng kỹ thuật khai phá dữ liệu với mạng Kohonen để phân cụm học sinh, sinh viên theo năng lực, hỗ trợ các giáo viên trong việc vận dụng phương pháp dạy học hướng năng lực
2.4.2.3 Các ứng dụng hướng đến nhà quản lý giáo dục
Dự đoán kết quả hoạch địch các chiến lược, chính sách giáo dục:việc
khai phá dữ liệu giáo dục có thể đưa ra cho những nhà quản lý giáo dục các thông tin hữu ích như:
- Xu hướng sinh viên đăng ký học các ngành nghề nào đó tăng hay giảm: với thông tin này, nhà quản lý có thể đưa ra những kế hoạch đào tạo, đầu tư cho từng ngành phù hợp hơn theo từng giai đoạn
- Tỷ lệ nghỉ học, bỏ học và khả năng xuống khóa, bị đuổi học có chiều hướng gia tăng: nhà quản lý sẽ có những biện pháp để cảnh báo và chấn chỉnh lại hoạt động đào tạo một cách kịp thời
Trang 33- Kết quả học tập của các khóa có xu hướng giảm xuống hoặc tốt lên: nếu kết quả giảm thì nhà quản lý cần xem lại các chính sách và chương trình đào tạo để xem
đã thực sự phù hợp với sinh viên hay chưa và điều chỉnh kịp thời nếu cần, còn kết quả tốt thì sẽ tiếp tục duy trì vì chính sách đào tạo đang đi đúng hướng
2.5 Một số kỹ thuật khai phá dữ liệu trong phân lớp, dự báo
Hình 2.4 Biểu diễn cây quyết định cơ bản [1]
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định
Ví dụ 2.1: Một người có chơi tennis hay không?
Trang 34Hình 2.5: Cây quyết định cho việc chơi Tennis [1]
2.5.1.2 Biểu diễn cây quyết định
Cây quyết định phân lớp các trường hợp cụ thể bằng cách sắp đặt chúng từ trên xuống và bắt đầu từ nút gốc và đi xuống các nút lá:
Mỗi nút trong biểu diễn một thuộc tính cần kiểm tra giá trị (an attribute to be tested) đối với các ví dụ kiểm tra giá trị (an attribute to be tested) đối với các
ví dụ
Mỗi nhánh từ một nút sẽ tương ứng với một giá trị có thể của thuộc tính gắn với nút đó trị có thể của thuộc tính gắn với nút đó
Mỗi nút lá biểu diễn một phân lớp (a classification)
Một cây quyết định học được sẽ phân lớp đối với một ví dụ, bằng cách duyệt cây từ nút gốc đến một nút lá → Nhãn lớp gắn với nút lá đó sẽ được gán cho
ví dụ cần phân lớp
Một cây quyết định biểu diễn một phép tuyển (disjunction) của các kết hợp (conjunctions) của các ràng buộc đối với của các kết hợp (conjunctions) của các ràng buộc đối với các giá trị thuộc tính của các ví dụ
Mỗi đường đi (path) từ nút gốc đến một nút lá sẽ tương ứng với một kết hợp (conjunction) của các kiểm tra giá trị thuộc tính (attribute tests)
Cây quyết định (bản thân nó) chính là một phép tuyển (disjunction) của các kết hợp (conjunctions) này
Trang 35Ví dụ 2.2: Trở lại ví dụ 2.1 ở trên, ta hoàn toàn có thể biểu diễn cây quyết định bằng đại số quan hệ như sau để thể hiện quyết định chơi tennis:
[(Outlook=Sunny) ∧ (Humidity=Normal)]
∨ (Outlook=Overcast) ∨ (Outlook Overcast)
∨ [(Outlook=Rain) ∧ (Wind=Weak)]
2.5.1.3 Các bước chính xây dựng cây quyết định
Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:
a Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp
b Cắt tỉa cây: Là việc làm dùng để tối ưu hoá cây Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá
c Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào
2.5.1.4 Cây quyết định so với kỹ thuật khai phá khác
So với các phương pháp KPDL khác, cây quyết định là một trong những hình thức mô tả dữ liệu tương đối đơn giản, trực quan, dễ hiểu đối với người dùng nhưng lại hiệu quả nên được sử dụng nhiều Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thống kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền Trong số những mô hình đó, cây quyết định được đánh giá là một công cụ mạnh, phổ biến đặt biệt là thích hợp cho DM nói chung cho phân lớp dữ liệu nói riêng
Một số ưu điểm của cây quyết định
- Khả năng sinh ra các quy tắc hiểu được:
- Khả năng thực thi trong những lĩnh vực hướng quy tắc:
- Dễ dàng tính toán trong khi phân lớp:
- Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc:
Trang 36- Thể hiện rõ ràng những thuộc tính tốt nhất:
- Quá trình xây dựng cây tương đối đơn giản:
- Cĩ khả năng thực hiện tốt đối với dữ liệu lớn trong thời gian ngắn:
Một số điểm yếu của cây quyết định
Song song những sức mạnh nổi bật trên, cây quyết định cũng cĩ điểm yếu
Đĩ là:
Cây quyết định khơng thích hợp lắm với mục tiêu là dự đốn giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi xuất ngân hàng… Cây quyết định cũng khĩ giải quyết với thời gian liên tục
Dễ xảy ra lỗi khi cĩ nhiều lớp Một số cây quyết định chỉ thao tác với lớp giá trị nhị phân dạng yes/no hay acept/reject Dễ xảy ra lỗi khi số ví dụ đào tạo là nhỏ và càng nhanh hơn với cây mà cĩ nhiều tầng hay cĩ nhiều nhánh trên một node
Chi phí tính tốn đắt để học: do phải đi qua nhiều node để đến node lá cuối cùng Tại từng node, cần tính tốn mật độ (hay tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác sắp xếp lại tập dữ liệu theo thứ tự giá trị của từng thuộc tính đĩ Sau đĩ mới cĩ thể chọn được một thuộc tính phát triển và tương ứng là một phân chia tốt nhất
2.5.2 Phân lớp Nạve Bayes
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
Xác suất xảy ra A của riêng nĩ, khơng quan tâm đến B, kí hiệu là P(A) và đọc là xác suất của A Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm (prior), nĩ là "tiên nghiệm" theo nghĩa rằng nĩ khơng quan tâm đến bất kỳ thơng tin nào về B
Trang 37 Xác suất xảy ra B của riêng nó, không quan tâm đến A, kí hiệu là P(B) và đọc là "xác suất của B" Đại lƣợng này còn gọi là hằng số chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện
A đang muốn biết
Xác suất xảy ra B khi biết A xảy ra, kí hiệu là P(B|A) và đọc là "xác suất của
B nếu có A" Đại lƣợng này gọi là khả năng (likelihood) xảy ra B khi biết A
đã xảy ra Chú ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra A khi biết B
Khi biết ba đại lƣợng trên, xác suất của A khi biết B cho bởi công thức:
( ) ( ) ( )
( )
Từ đó dẫn tới:
( ) ( ) ( ∩ ) ( ) ( ) Khi có n giả thuyết thì:
( ) ∑ ( ) ( )
( ) ( )
2.5.2.2Mô hình Phân lớp Naive Bayes (NBC)
Mô hình phân lớp Bayes đƣợc áp dụng nhiều nhất trong thực tế là môhình phân lớp Naive Bayes
Phân lớp Naive Bayes ra đời giúp cho việc tính đơn giản hơn dựa trên việc ứng dụng lý thuyết Bayes Tính toán các xác suất đó với giả thiết là các thuộc tính độc lập với nhau (không phụ thuộc nhau) [6]
Cho {C1, C2,… Cn} là phân hoạch của không gian mẫu C (đƣợc xem là các lớp Ci) Không gian thể hiện X bao gồm tất cả các thể hiện đƣợc mô tả trên tập thuộc tính (a1, a2, …an) và hàm đích f(x) có thể nhận bất kỳ giá trị nào trong C (f(x)=Ci | i=1,…,n) Không gian thể hiện X đƣợc xem là các ví dụ học Khi có mộtthể hiện mới với bộ giá trị <a1, a2,…,an>, bộ phân lớp sẽ dự đoán giá trị hàm đích f(x) hoặc lớp cho thể hiện mới này (f(x) {C1, C2,… Cn})
Cách tiếp cận Bayes để phân lớp một thể hiện mới là lấy giá trị đích có xác suất cao nhất Cmax của thể hiện này Hay nói cách khác, định lý Bayes đƣợc sử dụng
( )
Trang 38để chọn giả thuyết có xác suất cao nhất từ tập mẫu huấn luyện, giả thuyết này được gọi là giả thuyết cực đại xác suất hậu nghiệm MAP – Maximum A Posterior:
= ( ) ( ) (Cùng mẫu số ( ,…, )nên ta bỏ qua so sánh mẫu)
Các P(Ci) được tính bằng cách đếm số lần có mặt của giá trị đích Ci trong tập
dữ liệu học Tuy nhiên để tính ( ,…, ), bộ phân lớp Naive Bayes dựa trên việc đơn giản hóa các giả định ban đầu là các giá trị thuộc tính độc lập điều kiện với giá trị đích cho trước
Nói cách khác, xác suất của một thể hiện quan sát được <a1, a2, …,an> trên mỗi lớp ci sẽ là tích của các khả năng của từng thuộc tính riêng biệt trên ci:
( ) ∏ ( )
Công thức (3) được viết lại:
2.5.2.3Các bước thực hiện thuật toán Naive Bayes
Bước 1: Huấn luyện Naive Bayes (dựa vào tập dữ liệu), tính P(Ci) và ( | )
Bước 2: Phân lớp ( ), ta cần tính xác suất thuộc từng phân lớp khi đã biết trước được gán vào lớp có xác suất lớn nhất theo công thức:
( )
( )
( )
Trang 39( ) ∏ ( | )
Để tránh trường hợp giá trị P(Xk|Ci) = 0 do không có mẫu nào trong DL huấn luyện thỏa mãn tử số, ta làm trơn bằng cách thêm một số mẫu ảo:
Khi đó: Công thức tính P(Ci) đã làm trơn Laplace:
( ) | |
Trong đó:
|Ci,D|: số mẫu huấn luyện thuộc phân lớp i
|D|: số mẫu trong tập huấn luyện
m: số phân lớp
2.5.2.4 Một số ưu điểm của phương pháp Naive Bayes
- Phương pháp học Naive Bayes tính xác suất rõ ràng cho các giả định bằng cách đếm tần suất của các kết hợp dữ liệu khác nhau trong tập dữ liệu huấn luyện để tính xác suất
- Mỗi mẫu học quan sát được có thể giảm hoặc tăng xác suất dự đoán một giả định là đúng đắn điều này cho ta một cách tiếp cận thiết kế một hệ thống học uyển chuyển hơn các hệ thống khác và loại trừ một giả định nếu nó thấy có sự không nhất quán bất kỳ mẫu đơn lẻ nào
- Kiến thức biết trước có thể kết hợp với dữ liệu quan sát được để xác định khả năng của một giả định Trong đó kiến thức biết trước có được bằng cách phân phối xác suất trên toàn bộ dữ liệu quan sát được
- Phương pháp Naive Bayes cung cấp xác suất dự đoán Mỗi thể hiện mới được phân lớp bằng cách kết hợp nhiều dự đoán của nhiều giả định
- Phương pháp Naive Bayes phù hợp các bài toán có yêu cầu về chi phí xuất hiện của các giá trị thuộc tính
- Thiết kế hệ thống phân lớp thường dễ dàng hơn so với các phương pháp khác
- Các thuộc tính trong tập mẫu học phải độc lập với điều kiện
Trang 40- Độ chính xác thuật toán phân lớp phụ thuộc nhiều vào tập dữ liệu học ban đầu
2.5.3 Mạng nơ ron nhân tạo
2.5.3.1 Giới thiệu về mạng nơ ron nhân tạo
Hình 2.6: Nơ ron sinh học [4]
Một trong những phương pháp điển hình giải quyết bài toán học máy là thiết lập các mạng nơron nhân tạo Mạng nơron nhân tạo chưa tiếp cận được sự phức tạp của bộ não Tuy nhiên, do mô phỏng hoạt động học trong não mà về cơ bản có hai
sự tương quan giữa mạng nơron nhân tạo và nơron sinh học Thứ nhất, cấu trúc tạo thành chúng đều là các thiết bị tính toán đơn giản (với mạng nơron sinh học đó là các tế bào thân còn với mạng nhân tạo thì đơn giản hơn nhiều) được liên kết chặt chẽ với nhau Thứ hai, các liên kết giữa các nơron quyết định chức năng hoạt động của mạng
Mạng nơron, được xem như hoặc là mô hình liên kết (connectionist model), hoặc là mô hình phân bố song song (parallel-distributed model) và có các thành phần phân biệt sau đây:
1) Tập các đơn vị xử lý;
2) Trạng thái kích hoạt hay đầu ra của đơn vị xử lý;
3) Liên kết giữa các đơn vị, mỗi liên kết được xác định bởi một trọng sốwji
cho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn vị i;
4) Luật lan truyền quyết định cách tính tín hiệu ra của đơn vị từ đầu vàocủa nó;
5) Hàm kích hoạt, xác định mức độ kích hoạt khác dựa trên mức độ kíchhoạt hiện tại;