Với mong muốn được góp phần cung cấp thêm thông tin hữu ích cho công việc quản lý chất lượng đào tạo của nhà trường, đề tài này nghiên cứu một kỹ thuật còn khá mới đối với nước ta là kỹ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
- -
Tp HCM, ngày ……tháng ……năm 2005
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên : BÀNH THU THẢO Giới tính : Nữ
Ngày tháng năm sinh : 24/05/1979 Nơi sinh : Tây Ninh
Chuyên ngành : Công nghệ thông tin MSHV : 00703187
I TÊN ĐỀ TÀI: Tìm hiểu các giải thuật data mining, tìm kiếm các ứng dụng trên
kết quả học tập của sinh viên khoa Công nghệ thông tin
II NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu cơ sở lý thuyết về kỹ thuật máy học và khai phá dữ liệu
- Tìm hiểu các giải thuật máy học và khai phá dữ liệu cơ bản
- Tìm hiểu công cụ hiện thực kỹ thuật khai phá dữ liệu Weka
- Tìm hiểu cơ sở dữ liệu điểm của sinh viên khoa Công nghệ thông tin, trường Đại học Bách Khoa Tp.HCM
- Xây dựng các ứng dụng phù hợp với thực tế
III NGÀY GIAO NHIỆM VỤ (Ngày ký Quyết định giao đề tài) :
IV NGÀY HOÀN THÀNH NHIỆM VỤ :
V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Tiến sĩ NGUYỄN ĐỨC CƯỜNG
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN
QUẢN LÝ CHUYÊN NGÀNH
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua TRƯỞNG PHÒNG ĐT - SĐH Ngày…….tháng …….năm …… TRƯỞNG KHOA QL NGÀNH
Trang 2MỤC LỤC
CHƯƠNG 1 1
GIỚI THIỆU 1
1.1 Đặt vấn đề 1
1.2 Mục tiêu của đề tài 2
1.3 Cấu trúc bài báo cáo 2
CHƯƠNG 2 4
CƠ SỞ LÝ THUYẾT 4
2.1 Máy học và khai phá dữ liệu 4
2.1.1 Giới thiệu máy học 4
2.1.2 Khai phá dữ liệu 5
2.2 Quá trình khai phá dữ liệu 6
2.2.1 Tìm hiểu nghiệp vụ (Business Understanding) 6
2.2.2 Tìm hiểu dữ liệu (Data Understanding) 7
2.2.3 Chuẩn bị dữ liệu (Data Preparation) 9
2.2.4 Mô hình hoá dữ liệu (Data Modeling) 9
2.2.5 Đánh giá (Evaluation) 9
2.2.6 Triển khai (Deployment) 10
2.3 Các giải thuật khai phá dữ liệu cơ bản 10
2.3.1 Luật kết hợp (Association rule) 10
2.3.1.1 Định nghĩa 10
2.3.1.2 Giải thuật Apriori 11
2.3.2 Data clustering 14
2.3.2.1 Hierarchical clustering 15
2.3.2.2 Partitioning clustering 17
2.3.2.3 K-means 17
2.4 Giới thiệu công cụ WEKA 19
2.5 Tổng kết 21
CHƯƠNG 3 22
MÔ TẢ BÀI TOÁN 22
3.1 Đặt vấn đề 22
3.2 Giải quyết vấn đề 22
Trang 33.2.1 Mô tả bài toán 22
3.2.2 Phân tích bài toán 23
3.2.2.1 Bài toán đánh giá mối quan hệ giữa các môn học 24
3.2.2.2 Bài toán tìm kiếm các vấn đề bất thường trong các môn học 25
3.2.3 Xác định độ đo 31
3.2.4 Mô tả dữ liệu 32
3.3 Kết luận 35
CHƯƠNG 4 36
ĐÁNH GIÁ MỐI QUAN HỆ GIỮA CÁC MÔN HỌC 36
4.1 Giới thiệu bài toán 36
4.2 Bổ sung thực nghiệm 39
4.2.1 Xét mối quan hệ giữa cặp môn học M1 và M2 39
4.2.2 Xét mối quan hệ giữa cặp môn học M3 và M4 51
4.2.3 Sử dụng công cụ hỗ trợ để tìm kiếm các luật liên kết 58
4.3 Kết luận 61
CHƯƠNG 5 62
TÌM KIẾM CÁC VẤN ĐỀ BẤT THƯỜNG CỦA CÁC MÔN HỌC 62
5.1 Giới thiệu bài toán 62
5.2 Phân tích bài toán 62
5.3 Bổ sung thực nghiệm 67
5.4 Quy trình hóa quá trình tìm kiếm các vấn đề bất thường trong các môn học 71 5.4.1 Mô tả dữ liệu 71
5.4.2 Đánh giá kết quả của các môn học thuộc Khoa Công nghệ thông tin 71
5.4.2.1 Chuẩn bị dữ liệu đưa vào mô hình phân nhóm 71
5.4.2.2 Mô hình hóa dữ liệu 74
5.4.2.3 Đánh giá kết quả 78
5.4.3 Đánh giá kết quả của tất cả các môn học 78
5.4.3.1 Chuẩn bị dữ liệu 78
5.4.3.2 Mô hình hóa dữ liệu 81
5.4.3.3 Đánh giá kết quả 84
5.4.4 Đánh giá kết quả thu được từ việc phân nhóm dữ liệu của các môn học 84
5.4.4.1 Phân tích kết quả 84
Trang 45.4.4.2 Tìm kiếm các môn học thuộc nhóm dữ liệu đột biến 86
5.5 Tổng kết 88
CHƯƠNG 6 89
TỔNG KẾT - HƯỚNG PHÁT TRIỂN 89
6.1 Tổng kết 89
6.2 Hướng phát triển 90
TÀI LIỆU THAM KHẢO 91
PHỤ LỤC 95
Trang 5DANH MỤC HÌNH
Hình 2.1 - Quá trình khai phá dữ liệu [15] 8
Hình 2.2 - Giải thuật tìm các luật liên kết 13
Hình 2.3 - Giải thuật Apriori 13
Hình 2.4 - Giải thuật để tạo các tập k phần tử từ tập frequent k-1 itemset 13
Hình 2.5 - Khoảng cách Euclidean giữa hai điểm 16
Hình 2.6 - Dendrogram 16
Hình 2.7 - Giải thuật K-means 18
Hình 2.8 - WEKA Explorer 20
Hình 3.1- Sự tương tác giữa các yếu tố ảnh hưởng tới hiệu quả môn học 28
Hình 4.1 - Kết quả đánh môn học M1 và M2 ở HK1 năm học 1999-2000 40
Hình 4.2 - Kết quả đánh giá của tất cả sinh viên ở môn học M1 và M2 48
Hình 4.3 - Kết quả đánh giá M3 và M4 (chọn M3 ở học kỳ 1 năm 1998) 54
Hình 4.4 - Kết quả đánh giá M3 và M4 (chọn M3 ở học kỳ 2 năm 1998) 54
Hình 4.5 - Kết quả đánh giá M3 và M4 qua tất cả các học kỳ 56
Hình 4.6 - Quá trình xử lý dữ liệu kết quả môn học M3 và M4 60
Hình 4.7 - Kết quả xử lý dữ liệu kết quả môn học M3 và M4 60
Hình 5.1 - Biểu đồ thống kê kết quả môn C1 – Học kỳ 2 năm 1998 64
Hình 5.2 - Biểu đồ thống kê kết quả môn C1 qua các học kỳ 64
Hình 5.3 - Tập tin dữ liệu nhập cntt.arff 73
Hình 5.4 - Quá trình đưa tập tin dữ liệu nhập cntt.arff vào WEKA 73
Hình 5.5 - Quá trình phân nhóm tập dữ liệu cntt.arff 75
Hình 5.6 - Kết quả thu được từ quá trình phân nhóm dữ liệu trong tập tin cntt.arff 76
Hình 5.7 - Biểu đồ các nhóm dữ liệu của khoa Công nghệ thông tin 77
Hình 5.8 - Tập tin all_subjects.arff 79
Hình 5.9 - Quá trình đưa tập tin dữ liệu nhập all_subjects.arff vào WEKA 80
Hình 5.10 - Quá trình phân nhóm tập dữ liệu all_subjects.arff 82
Hình 5.11 - Biểu đồ các nhóm dữ liệu của các khoa khác 83
Hình 5.12 - Kết quả các môn học thuộc nhóm 1 và 2 87
Hình 5.13 - Kết quả các môn học thuộc nhóm 3 87
Trang 6DANH MỤC BẢNG
Bảng 3.1 - Độ ảnh hưởng của các nhân tố ảnh hưởng tới môn học 28
Bảng 3.2 - Phân loại điểm sinh viên dựa trên thang định danh 34
Bảng 3.3 - Một số bảng dữ liệu sử dụng trong đề tài 34
Bảng 4.1 - Bảng đánh giá kết quả mối quan hệ giữa hai môn học 38
Bảng 4.2 - Kết quả đánh giá môn học M1 và M2 ở HK1 năm học 1999-2000 40
Bảng 4.3 - Kết quả học tập của sinh viên trong trường hợp A1 qua các học kỳ 41
Bảng 4.4 - Kết quả học tập của sinh viên trong trường hợp C1 qua các học kỳ 43
Bảng 4.5 - Kết quả học tập của các sinh viên trong trường hợp A2 45
Bảng 4.6 - Kết quả học tập của các sinh viên trong trường hợp C2 45
Bảng 4.7 - Kết quả học tập của tất cả sinh viên ở môn học M1 và M2 48
Bảng 4.8 - Tỉ lệ đột biến trong trường hợp A1 49
Bảng 4.9 - Tỉ lệ đột biến trong trường hợp A2 49
Bảng 4.10 - Tỉ lệ đột biến trong trường hợp C2 49
Bảng 4.11 - Kết quả đánh giá mối quan hệ giữa M3 và M4 (chọn M3 ở học kỳ 1-1998) 52 Bảng 4.12 - Kết quả đánh giá mối quan hệ giữa M3 và M4 (chọn M3 ở học kỳ 2-1998) 52 Bảng 4.13 - Kết quả đánh giá mối quan hệ giữa M3 và M4 (chọn M3 ở học kỳ 1-1999) 52 Bảng 4.14 - Kết quả đánh giá mối quan hệ giữa M3 và M4 (chọn M3 ở học kỳ 2-1999) 53 Bảng 4.15 - Kết quả đánh giá mối quan hệ M3 và M4 qua tất cả các học kỳ 56
Bảng 4.16 - Dữ liệu nhập dùng để đánh giá mối quan hệ giữa M3 và M4 59
Bảng 5.1 - Thống kê điểm môn học C1 63
Bảng 5.2 - Kết quả môn học trong học kỳ 1 năm học 1998 68
Bảng 5.3 - Kết quả môn học C1 trong các học kỳ 70
Bảng 5.4 - Thông tin chi tiết của các nhóm dữ liệu của khoa Công nghệ thông tin 77
Bảng 5.5 - Thông tin chi tiết của các nhóm dữ liệu của các khoa khác 83
Trang 7xã hội, mỗi tổ chức giáo dục đòi hỏi cần phải có một cơ chế quản lý chất lượng giáo dục tốt Trường Đại học Bách khoa Tp.Hồ Chí Minh nhìn chung được đánh giá cao về chất lượng dạy và học Tuy nhiên, nhà trường cần phải liên duy trì và hoàn thiện chất lượng giáo dục Để thực hiện tốt điều này, nhà trường cần rất nhiều nguồn thông tin về quá trình tổ chức và thực hiện giảng dạy Với mong muốn được góp phần cung cấp thêm thông tin hữu ích cho công việc quản lý chất lượng đào tạo của nhà trường, đề tài này nghiên cứu một kỹ thuật còn khá mới đối với nước ta là kỹ thuật khai phá dữ liệu, tìm hiểu và ứng dụng kỹ thuật này trên cơ
sở dữ liệu điểm của sinh viên, cụ thể là sinh viên Khoa Công nghệ thông tin, nhằm phát hiện ra các thông tin hữu dụng
Hiện tại trên thế giới, các công trình nghiên cứu cũng như các ứng dụng của khai phá dữ liệu đã được phát triển khá rộng rãi và cũng đạt được các kết quả rất khả quan Các ứng dụng này phần lớn được áp dụng trong các lĩnh vực thương mại (phân tích dữ liệu tài chính, xây dựng các hệ thống hỗ trợ ra quyết định, định hướng kinh doanh,…), khoa học (phân tích hình ảnh) Riêng đối với giáo dục trên thế giới, các nghiên cứu và các ứng dụng có liên quan đến khai phá dữ liệu còn khá ít, nhưng kết quả đạt được cũng rất tốt
Đầu tiên phải kể đến là ứng dụng “Data mining applications in higher education”
Trang 8phân tích và biểu diễn dữ liệu của các tổ chức giáo dục sẽ tìm ra các phương pháp
để phân phối tài nguyên, nhân lực đạt hiệu quả cao nhất, đưa ra các giải pháp góp phần cải tiến kết quả học tập của sinh viên Bài báo chỉ trình bày dạng ý tưởng chứ không đưa ra phương pháp cụ thể
Kế đến là ứng dụng LON-CAPA (Behrouz Minaei-Bigdoli, Deborah A.Kashy, Gred Kortemeyer, William F.Punch - Michigan State University) [23] Mục tiêu chính của ứng dụng này là tìm hiểu thông tin về tình hình sinh viên tham gia học tập qua mạng, họ đã học như thế nào, sau đó đưa ra các giải pháp để giúp họ học tập thành công
Đối với Việt Nam thì đây là một đề tài rất mới trong tất cả các lĩnh vực kể cả trong lĩnh vực giáo dục Mục đích chính của đề tài là nghiên cứu kỹ thuật mới này, tìm hiểu các giải thuật cơ bản được sử dụng để thực hiện khai phá dữ liệu Ngoài ra, đề tài còn có một nhiệm vụ quan trọng khác là nghiên cứu khả năng vận dụng của khai phá dữ liệu vào lĩnh vực giáo dục, cụ thể là tìm kiếm các ứng dụng phù hợp với thực tế của môi trường đào tạo khoa Công nghệ thông tin, trường Đại học Bách khoa Tp.Hồ Chí Minh
1.2 Mục tiêu của đề tài
Mục tiêu chính của đề tài nghiên cứu là:
- Tìm hiểu cơ sở lý thuyết về kỹ thuật máy học và khai phá dữ liệu
- Tìm hiểu các giải thuật máy học và khai phá dữ liệu cơ bản
- Tìm hiểu công cụ hiện thực kỹ thuật khai phá dữ liệu Weka
- Tìm hiểu cơ sở dữ liệu điểm của sinh viên khoa Công nghệ thông tin, trường Đại học Bách Khoa Tp.HCM
- Xây dựng các ứng dụng phù hợp với thực tế
1.3 Cấu trúc bài báo cáo
Nội dung báo cáo bao gồm 6 chương, được tổ chức như sau:
Chương 1: Đặt vấn đề, xác định mục tiêu của đề tài
Trang 9Chương 2: Giới thiệu về đề tài, trình bày tổng quan về kỹ thuật máy học, khai phá
dữ liệu và công cụ hiện thực Weka Trình bày nội dung 2 giải thuật học cơ bản là Luật liên kết và Phân nhóm dữ liệu
Chương 3: Mô tả 2 bài toán chính được xem xét trong đề tài Bài toán thứ nhất là
đánh giá mối quan hệ giữa các môn học Bài toán thứ hai là phát hiện các vấn đề bất thường trong một số môn học
Chương 4: Bài toán mối quan hệ giữa các môn học
Chương 5: Bài toán các vấn đề bất thường trong một số môn học
Chương 6: Tổng kết, đánh giá và nêu các hướng phát triển
Trang 10CHƯƠNG 2
CƠ SỞ LÝ THUYẾT
2.1 Máy học và khai phá dữ liệu
2.1.1 Giới thiệu máy học
Một trong những mục tiêu quan trọng của các nghiên cứu trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligent) là tạo ra sự thông minh cho máy Nếu máy tính có trí thông minh, nó sẽ có khả năng học được những tri thức mới để cải thiện hiệu suất của chính
nó Những tri thức được học từ máy thậm chí còn có thể mở mang thêm kiến thức cho con người Chính vì thế kỹ thuật máy học (Machine learning) là chìa khóa quan trọng trong lĩnh vực trí tuệ nhân tạo
Máy học bao gồm các kỹ thuật thu thập, học hỏi các khái niệm, kinh nghiệm, chiến lược giải quyết vấn đề thông qua các mẫu thông tin theo một cách thức gần giống như con người học Thông qua việc tương tác với môi trường, một máy tính thông minh sẽ
có khả năng quan sát, nhận định, sau đó rút trích ra các tri thức hữu ích
Có 2 phương pháp học:
- Học có điều khiển (Supervised learning): phương pháp học này được sử dụng khi
đã biết trước những tri thức đích, việc học sẽ tìm ra phương cách để dẫn đến tri thức đích
- Học không có điều khiển (Unsupervised learning): đây là quá trình phát hiện các mẫu (pattern) mới từ dữ liệu quá khứ Các mẫu mới giúp ta hiểu rõ thêm các thông tin về dữ liệu và các thông tin này là rất hữu ích Phương pháp học này thường được dùng trong các trường hợp ta cần trả lời cho các câu hỏi: Thông tin
gì có trong dữ liệu? Có mẫu thông tin nào bất thường không?
Thông thường thì phương pháp học không có điều khiển cần phải có sự tương tác với người sử dụng, vì các giải thuật chỉ tìm ra các mẫu thông tin có trong dữ liệu và chỉ
Trang 11có con người mới có khả năng nhận định mức độ quan trọng hay ý nghĩa các mẫu thông tin đó
Kỹ thuật phân loại (Classification) là một trong những công việc chính trong quá trình học có điều khiển Phân loại dữ liệu là quá trình kiểm tra các thuộc tính của dữ liệu và gán cho nó vào các loại, các nhóm đã được định nghĩa trước
Kỹ thuật phân nhóm (Data clustering) là một loại phương pháp học không có điều khiển Phân nhóm là chia một nhóm dữ liệu thành nhiều nhóm con tương tự nhau Các đối tượng trong cùng một nhóm là tương tự với tất cả các đối tượng khác trong nhóm
Kỹ thuật phân nhóm dữ liệu thường được dùng để phát hiên các nguyên lý, các quy tắc tiềm ẩn tồn tại trong dữ liệu
Xem xét về mặt bản chất, phần thông tin quá khứ chưa được xem xét cũng rất có thể chứa đựng một số tri thức mặc dù người sử dụng không biết nhưng lại rất hữu dụng, hoặc là họ có thể biết nhưng không có khả năng phân tích vì lý do nó quá lớn về kích thước và quá nhiều chiều Một vấn đề được đặt ra ở đây là vậy phải làm thế nào để phân tích khối lượng dữ liệu quá lớn này Chính vì thế, một lĩnh vực mới của ngành khoa học máy tính ra đời nhằm đáp ứng yêu cầu này là kỹ thuật khai phá dữ liệu (Data mining)
Trang 12Khai phá dữ liệu có thể được xem là sự phát triển tự nhiên của ngành công nghệ thông tin nhằm góp phần giải quyết vấn đề “Dư thừa dữ liệu nhưng thiếu thông tin”, vì lí do
là lượng dữ liệu lớn được thu thập trong cơ sở dữ liệu đã vượt quá khả năng phân tích của con người
Các định nghĩa về khai phá dữ liệu [16]:
- Khai phá dữ liệu là khoa học rút trích các thông tin hữu ích từ các dữ liệu quá khứ với mục đích giúp cải tiến các quyết định trong tương lai
- Một định nghĩa khác, khai phá dữ liệu còn là một quá trình truy xuất các thông tin ngầm, thông tin quá khứ chưa được biết đến, thông tin hữu ích tiềm ẩn như các quy luật (rules), quy tắc, các ràng buộc của các dữ liệu được chứa trong cơ sở dữ liệu
Khai phá dữ liệu có cùng mục tiêu với kỹ thuật máy học là “learning from data” nên các giải thuật máy học đóng vai trò trung tâm quá trình khai phá dữ liệu Tuy nhiên, thông thường thì tập hợp dữ liệu cần khai phá thường lớn hơn từ 10 đến 100 lần so với tập hợp dữ liệu của máy học về cả số lượng thuộc tính lẫn số lượng đối tượng Do vậy, thường thì thời gian cần để khai phá dữ liệu là rất dài Thêm vào đó, mặc dù kích thước bộ nhớ của máy tính gần đây đã tăng rất nhanh, tuy nhiên trong một vài trường hợp vẫn không thể đáp ứng được mức độ tăng của dữ liệu, nên việc ứng dụng các kỹ thuật probabilistic, sampling, buffering, parallel,… vào trong các giải thuật máy học là rất cần thiết
2.2 Quá trình khai phá dữ liệu
Theo tài liệu CRISP-DM (CRoss-Industry Standard Process for Data Mining) [15], chu kỳ sống của một dự án khai phá dữ liệu nói chung bao gồm 6 giai đoạn (Hình 2.1) thứ tự diễn ra giữa các giai đoạn thường không cần thiết phải qui định 1 cách cứng nhắc
2.2.1 Tìm hiểu nghiệp vụ (Business Understanding)
Giai đoạn khởi đầu là tập trung tìm hiểu các đối tượng và yêu cầu dự án từ góc nhìn nghiệp vụ Từ đó định nghĩa các vấn đề cần khai phá dữ liệu Để có thể phát biểu một vấn đề một cách đầy đủ và chi tiết thì kinh nghiệm và tri thức thực tế trong lĩnh vực
Trang 13nghiệp vụ liên quan là rất cần thiết, do vậy cần phải có sự phối hợp 1 cách chặt chẽ giữa các chuyên gia nghiệp vụ và các chuyên gia khai phá dữ liệu Trong trường hợp không thể xác định được các vấn đề cụ thể cần tìm kiếm thì ít nhất cũng xây dựng được tập hợp các giả thuyết ban đầu diễn đạt các vấn đề này
2.2.2 Tìm hiểu dữ liệu (Data Understanding)
Người phát triển ứng dụng có nhiệm vụ phải tìm hiểu dữ liệu, làm quen với dữ liệu, tìm hiểu các kiến thức về cấu trúc, ngữ nghĩa các thực thể của dữ liệu… và phải tập hợp được các dữ liệu cần thiết, những kiến thức ban đầu này rất có ích cho giai đoạn
mô hình qua dữ liệu và đánh giá kết quả cuối cùng
Trang 14Hình 2.1 - Quá trình khai phá dữ liệu [15]
Trang 152.2.3 Chuẩn bị dữ liệu (Data Preparation)
Quá trình chuẩn bị dữ liệu là xác định các kỹ thuật cần dùng để xử lý trước dữ liệu nhằm biến đổi, cải tiến chất lượng dữ liệu sao cho phù hợp với yêu cầu của giải thuật
dùng để khai phá dữ liệu
Đa số các giải thuật khai phá dữ liệu chỉ có thể làm việc với các tập hợp đơn và phẳng Tất cả các cơ sở dữ liệu quan hệ, phân bố hay hướng đối tượng đều phải được chuyển sang cơ sở dữ liệu với 1 bảng duy nhất Trong thực tế, hầu hết các dữ liệu đều chứa 1
số dữ liệu không bình thường tức mang các giá trị không thông dụng, không nhất quán hoặc mang các giá trị rỗng… do bị lỗi trong quá trình tính toán, xử lý hoặc ghi xuống
cơ sở dữ liệu
Một số kỹ thuật xử lý trước bao gồm:
- Xử lý các giá trị bị mất/ khuyết
- Loại bỏ sự trùng lấp thông tin
- Chuẩn hoá dữ liệu
- Rời rạc hoá dữ liệu
- Loại bỏ dữ liệu phức tạp…
Quá trình chuẩn bị dữ liệu ngoài các công việc xử lý trước dữ liệu như đã nêu trên còn
phải bao gồm cả quá trình giảm số chiều dữ liệu
2.2.4 Mô hình hoá dữ liệu (Data Modeling)
Các vấn đề được xác định ở giai đoạn 1 chủ yếu được phân tích và xử lý ở giai đoạn này, giai đoạn xử lý dữ liệu để tìm ra nguyên tắc ẩn hoặc chưa biết Nhiệm vụ quan trọng ở giai đoạn này là xác định các giải thuật thích hợp cho vấn đề đã được xác định
ở trên Thực tế, tuơng ứng với một loại vấn đề khai phá dữ liệu thường có nhiều giải thuật khác nhau có thể áp dụng được, và mỗi giải thuật thường có yêu cầu đặc trưng về thông số, hình thức của dữ liệu Do vậy vấn đề quay lui về giai đoạn tiền xử lý dữ liệu
thường rất cần thiết
Trang 16Các kết quả có được từ giai đoạn mô hình hoá nói trên phải được trao đổi với người sử dụng để họ đánh giá, đóng góp ý kiến Hầu hết các kỹ thuật đều cần được người phát triển ứng dụng giải thích cho người sử dụng hiểu, một số kỹ thuật cần phải được chuyển sang dạng thức khác dễ hiểu hơn như dùng hình ảnh, đồ thị, biểu đồ,… Tuy nhiên, không phải mô hình khai phá dữ liệu nào cũng luôn cho ra được kết quả hoặc cho kết quả với độ chính xác mong muốn Vì thế sau khi kết quả được đánh giá, nếu không thỏa mãn hoặc không phù hợp với yêu cầu của người sử dụng thì quá trình khai
phá dữ liệu cần thiết phải được thực hiện lại
2.2.6 Triển khai (Deployment)
Đa số các mô hình khai phá dữ liệu được sử dụng để hỗ trợ quá trình ra quyết định Nếu các tri thức mang lại từ các giai đoạn được chấp nhận thì các kết quả đó cần thiết phải được tổ chức, biểu diễn lại ở các hình thức khác Khách hàng không cần hàng trăm trang số liệu đánh giá kết quả vì họ thực sự không hiểu, không thể vận dụng chúng, họ chỉ mong muốn có được kết quả ở đinh dạng có thể sử dụng được, đơn giản
và tiện lợi Thông thường thì kết quả của khai phá dữ liệu có thể triển khai trên các trang Web, hoặc 1 hình thức báo cáo mà khách hàng yêu cầu
2.3 Các giải thuật khai phá dữ liệu cơ bản
2.3.1 Luật kết hợp (Association rule)
2.3.1.1 Định nghĩa
Luật kết hợp (Associatin rule) là kỹ thuật khai mỏ dữ liệu dùng để phát hiện các mối quan hệ giữa các đối tượng trong cơ sở dữ liệu và đặc trưng của dữ liệu được áp dụng cho kỹ thuật học này thường là dữ liệu ở dạng nhị phân 0,1 và dữ liệu rải rác Luật kết hợp là một trong những kỹ thuật thông dụng dùng trong các hệ thống học không có điều khiển dùng để tìm kiếm mẫu thông tin cục bộ [25]
Sau các ứng dụng đầu tiên của luật kết hợp được áp dụng trong lĩnh vực thương mại, luật kết hợp trở thành một đề tài nghiên cứu được quan tâm nhiều và được ứng dụng trên nhiều lĩnh vực khác nhau, và giải thuật Apriori được xem như là giải thuật cơ bản nhất
Trang 17Định nghĩa luật kết hợp [25]:
Cho:
- I: là một tập các item, thường là ở dạng nhị phân
- Transaction T, T cũng là một tập các item, được gọi là itemset (T là một vector nhị phân), T ⊂ I
- Toàn bộ tập dữ liệu D, D là một tập hợp các T Một tập itemset chứa k items sẽ được gọi là k-itemset
Luật kết hợp giữa hai itemset A và B có dạng A => B, trong đó A ∩ B = ∅
Mỗi luật kết hợp được đánh giá dựa trên 2 thông số support và confidence:
- Support: chỉ phạm vi của một luật kết hợp, là số lượng mẫu dữ liệu áp dụng đúng luật kết hợp này, chính là phần trăm tập dữ liệu D chứa A ∪ B
- Confidence: độ chính xác của luật kết hợp, chính là phần trăm transaction chứa đồng thời A và B so với transaction chứa A
2.3.1.2 Giải thuật Apriori
Giải thuật Apriori nhận dữ liệu nhập là một tập các dữ liệu, giới hạn minimum support
min_sup và minimum confidence min_conf, và trả về kết quả cuối cùng là các luật kết hợp có support lớn hơn min_sup và confidence lớn hơn min_conf
Quá trình tìm kiếm các luật kết hợp được chia thành 2 giai đoạn:
Giai đoạn 1: Tìm tất cả các tập các items có support lớn hơn giới hạn min_sup, các tập này được gọi là frequent itemsets
Giai đoạn 2: Sử dụng các frequent itemsets để tìm ra các luật có confidence lớn hơn
giới hạn min_conf được trình bảy trong Hình 2.2
Giải thuật Apriori được trình bày trong Hình 2.3
Giải thuật để tạo Ck từ tập frequent k-1 itemset Lk-1 từ Hình 2.4
Trang 18Ưu điểm của kỹ thuật luật kết hợp:
o Kết quả tạo ra rất rõ ràng và dễ hiểu
o Không cần xác định trước mục tiêu của quá trình khai phá dữ liệu
o Giải thuật được áp dụng rất đơn giản
Hạn chế của kỹ thuật luật kết hợp:
o Độ phức tạp tính toán của giải thuật tăng theo hàm mũ
Nếu dữ liệu có n thuộc tính thì tổng số itemsets được tạo ra là 2n – 1
Trang 19Với mỗi frequent itemset, F, tạo ra tất cả các tập con khác rỗng
của F
Với mỗi tập con khác rỗng s của F thì
Tạo ra luật (F-s) => s, nếu support(F-s)/support (s) >=
min_conf
Kết thúc
Hình 2.2 - Giải thuật tìm các luật liên kết
Ck : C k: Set of candidates k-itemsets
Lk : Set of frequent k-itemsets
L1 = {frequent 1-itemsets};
for (k = 2; L k-1 !=∅; k++) do begin
C k = New candidates generated from L k-1;
foreach transaction t trong cơ sở dữ liệu do
tăng số đếm của tất cả các candidates in C k nếu nó
có trong t
L k = candidates in C k with min support
end
return ∪k L k;
Hình 2.3 - Giải thuật Apriori
Join : Kết Lk-1 với Lk-1, điều kiện kết là k-1 items đầu tiên là
Trang 202.3.2 Data clustering
Theo các quan điểm đã nêu, phân nhóm dữ liệu mà một kỹ thuật phân tích dữ liệu quan trọng trong việc phân nhóm các đối tượng tự nhiên hoặc trừu tượng Phương pháp này cho phép những đối tượng với những đặc tính phổ biến chung được gộp lại với nhau thành một nhóm để thuận tiện cho quá trình xử lý sau này Kỹ thuật phân nhóm dữ liệu là kỹ thuật học không điều khiển, tức không cần xác định trước mục tiêu, không cần xác định biến mục tiêu nào đang cần được tiên đoán, không có sự phân biệt giữa biến phụ thuộc hay biến độc lập Chính điều này làm cho nó trở thành một công
cụ xử lý hữu hiệu được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau
Các khái niệm cơ bản
(a) Phép đo tính tương tự:
Để xác định xem các đối tượng có tương tự nhau hay không là dựa trên các thuộc tính biểu diễn cho đối tượng đó, kỹ thuật phân nhóm sẽ sử dụng đơn vị đo lường khoảng cách để đo lường sự tương tự giữa 2 đối tượng Trong số các đơn vị đo lường được sử dụng thì đơn vị đo
khoảng cách Euclidean là phổ biến nhất
Giả sử ta có 2 đối tượng C1 và C2, các đối tượng được biểu diễn bởi 2 giá trị x và y, C1(x1,y1) và C2(x2,y2) Hai đối tượng được biểu diễn trên hệ trục tọa độ xy (Hình 2.5)
Theo lý thuyết Pythagorus thì khoảng cách Euclidean giữa C1 và C2 được xác định theo công thức:
2 1 2 2 1
(b) Định nghĩa nhóm: là xác định các đặc trưng của nhóm, cụ thể xác định hình dạng
của nó (lồi hay tùy ý), đường viền của nhóm (đường thẳng hay cong, rõ hay mờ) Và
Trang 21đơn vị đo sự tương tự cũng như mối quan hệ giữa các nhóm cũng cần phải được xác định, các nhóm là phân biệt nhau (disjoint) hay trùng lắp (overlapping)
(c) Tiêu chuẩn của nhóm: là xác định tiêu chuẩn để phân nhóm, có thể 1 hoặc nhiều
tiêu chuẩn Đồng thời cũng phải xác định cấu trúc để xây dựng nhóm (dạng cây, dạng
đồ thị hay dạng danh sách)
(d) Số nhóm: tùy theo phương pháp phân nhóm và đặc tính của dữ liệu, ta phải xác
định số nhóm cần được phân ra sao cho hợp lý
Trên đây là một số thông số cơ bản dùng để xác định các nhóm dữ liệu, do việc xác định các thông số có thể khác nhau dẫn đến việc tiếp cận kỹ thuật phân nhóm cũng khác nhau, có nhiều hơn 10 cách [12] Trong đó kỹ thuật phân nhóm truyền thống chia thành 2 loại: hierarchical clustering và partitioning clustering
2.3.2.1 Hierarchical clustering
Hierarchical clustering xây dựng sự phân cấp cho các nhóm hay nói cách khác là tạo ra một cây các nhóm, được gọi là dendrogram (Hình 2.6) Mỗi node sẽ chứa các nhóm con, các nút lá sẽ là các đối tượng dữ liệu Hình dạng của các nhóm không được xác định trước Và các nhóm là phân biệt nhau
Tiêu chuẩn để xây dựng dendrogram là cực tiểu hóa sự tương tự giữa các node anh em
Kỹ thuật hierarchical clustering được phân thành 2 loại chính: agglomerative up) và divisive (top-down) Giải thuật agglomerative bắt đầu với tất cả các đối tượng
(bottom-dữ liệu, mỗi đối tượng được xem là một nhóm, sau đó liên kết đệ quy với nhau để tạo thành các nhóm gần giống nhau nhất Giải thuật divisive bắt đầu với 1 nhóm duy nhất chứa tất cả các dữ liệu, sau đó phân chia đệ quy thành các nhóm gần giống nhau nhất Các giải thuật cứ tiếp tục được thực hiện cho đến khi thỏa mãn điều kiện dừng, thông thường đó chính là số nhóm được xác định trước
Trang 22Hình 2.5 - Khoảng cách Euclidean giữa hai điểm
Trang 232.3.2.2 Partitioning clustering
Mỗi nhóm là một nhóm các dữ liệu, được đại diện bằng tâm của nhóm Một đối tượng
sẽ thuộc vào nhóm mà khoảng cách từ nó đến tâm của nhóm là gần nhất Hình dạng của nhóm là một đa giác lồi Các nhóm là phân biệt nhau
Kỹ thuật partitioning clustering tiêu biểu là giải thuật K-means
Giải thuật K-means là công cụ phân nhóm thông dụng nhất được sử dụng trong các ứng dụng khoa học, ứng dụng công nghiệp bởi tính chất đơn giản và hiệu quả tính toán cao
Trong đề tài này, tôi cũng đã sử dụng giải thuật K-means để phân tích dữ liệu nhằm tìm kiếm các vấn đề bất thường tiềm ẩn trong kết quả học tập của sinh viên
Phần tiếp sau đây là một số chi tiết cơ bản về giải thuật K-means
2.3.2.3 K-means
Theo tài liệu tham khảo [14], giải thuật K-means rất đơn giản (Hình 2.7) Mỗi nhóm (clusters) được đại diện bởi tâm của nó Số nhóm là thông số được định nghĩa trước Tiêu chuẩn phân nhóm của giải thuật K-means là cực tiểu hóa sự chênh lệch giữa các đối tượng với các tâm, khoảng cách được sử dụng ở đây là khoảng cách Euclidean K-means nhận dữ liệu nhập là các dữ liệu có thuộc tính dạng số học Có rất nhiều cách để hiện thực giải thuật này, nhưng kết quả cơ bản vẫn giống nhau
Tóm lại, việc giới thiệu tổng quan quá trình khai phá dữ liệu và các giải thuật học cơ bản trên đây đã chứng minh được rằng quá trình khai phá dữ liệu phụ thuộc vào rất nhiều yếu tố khác nhau Việc chọn lựa giải thuật học cho phù hợp với dữ liệu cần phân tích và phù hợp với yêu cầu thực tế là vấn đề rất khó khăn Bất kỳ một giai đoạn nào trong quá trình khai phá dữ liệu bị thực hiện không chính xác cũng có thể dẫn đến kết quả bị sai lệch
Để giải quyết các vấn đề được nêu ra, đề tài sử dụng công cụ WEKA, để hỗ trợ một phần trong giai đoạn mô hình hóa dữ liệu Phần tiếp theo đây sẽ giới thiệu tổng quan
về công cụ WEKA
Trang 24Step 1: Chọn các đối tượng bất kỳ làm tâm cho K nhóm
Step 2: Với mỗi đối tượng trong tập huấn luyện, gán vào nhóm gần
nhất và cập nhật lại tâm của các nhóm
Step 3: Nếu tiêu chuẩn gom nhóm đã thõa (tức là tâm các nhóm
không thay đối) thì giải thuật dừng
Ngược lại, quay lại bước 2
Hình 2.7 - Giải thuật K-means
Trang 252.4 Giới thiệu công cụ WEKA
WEKA (Waikato Environment for Knowleged Analysis) [31]: là phần mềm máy học/khai phá dữ liệu được thực hiện bằng ngôn ngữ Java, bởi Witten và Frank WEKA đã được kiểm tra trên hệ điều hành Unix, Windows và Macintosh Phần mềm được cung cấp bởi GNU License với mục đích phục vụ cho nghiên cứu, học tập và ứng dụng Phần mềm có thể được tải về miễn phí từ địa chỉ
http:/ww.cs.waikato.ac.nz/~ml/WEKA
WEKA cung cấp giao diện thống nhất cho từng giải thuật học khác nhau hỗ trợ cho các quá trình xử lý trước dữ liệu, xử lý sau và đánh giá kết quả Các công việc có thể thực hiện khi sử dụng WEKA là: chúng ta có thể xử lý trước dữ liệu, đưa dữ liệu vào
1 lược đồ học, phân tích kết quả thu được từ quá trình phân loại (classification) mà không cần viết 1 mã chương trình nào cả Hơn thế nữa WEKA còn cho phép chúng ta truy xuất vào thư viện này từ chương trình Java riêng của mình, hoặc cho phép bổ sung và kiểm tra một lược đồ học mà tự ta xây dựng…
Chúng ta có thể tương tác với WEKA theo cách gõ lệnh trực tiếp hoặc tưong tác qua giao diện trực quan do WEKA cung cấp gọi là Explorer (hình 2.8)
Trang 26Hình 2.8 - WEKA Explorer
Trang 27Một số đặc điểm chính của WEKA:
- WEKA chỉ có thể phân tích dưới dạng đơn và phẳng, bảng dữ liệu đơn này phải được chuyển sang dạng file cục bộ định dạng AREF (Attribute- Relation File Format- là dạng thông dụng nhất) hoặc ở dạng csv …
- Dữ liệu cũng có thể được đọc từ một URL nào đó hoặc trực tiếp từ 1 cơ sở dữ liệu
Công cụ hỗ trợ quá trình chuẩn bị dữ liệu trong WEKA có tên gọi là filters WEKA cho phép sàng lọc dữ liệu theo nhiều yêu cầu khác nhau: xoá 1 thuộc tính, thêm 1 thuộc tính, rời rạc hoá dữ liệu, hợp nhất hai giá trị cùng một thuộc tính , chuyển đổi kiểu, xử lý các thuộc tính mang giá trị rỗng…
- Ngoài ra, filters còn hỗ trợ một kỹ thuật quan trọng khác là cho phép chọn lựa thuộc tính (Attribute Selection) dùng để làm giảm số chiều của dữ liệu nhập
- Hiện tại WEKA cung cấp hơn 10 lược đồ máy học khác nhau nhằm phục vụ cho
kỹ thuật phân loại dữ liệu (classify), các lược đồ được gọi là các classifier, thuộc package Weka.Classifiers
- Đối với kỹ thuật clustering: WEKA cung cấp 5 giải thuật khác nhau trong đó có hiện thực giải thuật K-means có tên là SimpleKMeans, thuộc package Weka.Clusterers
- Đối với kỹ thuật association rule: Weka hiện thực 2 giải thuật, trong đó có giải thuật cơ bản là Apriori
2.5 Tổng kết
Chương 2 này đã trình bày tổng quan về máy học, khai phá dữ liệu, quá trình khai phá
dữ liệu, công cụ hỗ trợ Weka và hai giải thuật học cơ bản là Apriori và K-Means Các chương tiếp theo sau đây sẽ ứng dụng các giải thuật học này trên cơ sở dữ liệu điểm của sinh viên để giải quyết các bài toán phù hợp với thực tế
Trang 28- Chương trình, nội dung và tổ chức đào tạo
- Giảng dạy, học tập và đánh giá kết quả học tập
- Sự tiến bộ và thành quả học tập của sinh viên
Trong đề tài này, tôi tìm hiểu các vấn đề có liên quan đến việc đánh giá kết quả học tập của sinh viên, cụ thể là ứng dụng kỹ thuật khai phá dữ liệu để tìm kiếm các tri thức hữu dụng dựa trên kết quả học tập của sinh viên khoa công nghệ thông tin trường Đại học Bách Khoa TPHCM
3.2 Giải quyết vấn đề
3.2.1 Mô tả bài toán
Khả năng ứng dụng của khai phá dữ liệu trong lĩnh vực giáo dục rất lớn, ta có thể xây dựng một số giả thuyết về các ứng dụng đặc trưng như sau:
Trang 29- Cơ bản nhất là truy tìm các mối quan hệ giữa các môn học hoặc các quy luật tiềm ẩn tồn tại bên trong môn học
- Theo dõi và phân loại sinh viên, dựa vào kết quả phân loại, ta có thể hỗ trợ sinh viên trong việc định hướng nghề nghiệp, hoặc là phân loại nhóm sinh viên để phát hiện kịp thời các thành phần cá biệt, ví dụ quá yếu kém, để từ đó nhà trường có thể giúp đỡ họ trước khi quá muộn
- Dự đoán kết quả tốt nghiệp của sinh viên dựa trên các thông tin cá nhân và kết quả học tập của sinh viên
Sau khi nghiên cứu các giả thuyết và tìm hiểu tình hình thực tế kết hợp cùng công việc tìm hiểu dữ liệu học tập quá khứ của sinh viên khoa Công nghệ thông tin, trong đề tài này tôi tập trung xem xét 2 bài toán sau:
- Đánh giá các mối quan hệ giữa các môn học trong chương trình đào tạo, cụ thể
là mối quan hệ dạng tiên quyết Việc đánh giá nhằm mục đích là khẳng định tính chính xác, hoặc tìm ra cấi bất thường của các mối quan hệ nếu có
- Phát hiện các vấn đề bất thường trong việc giảng dạy và đánh giá của các môn học
3.2.2 Phân tích bài toán
Khái niệm đánh giá (assessment): bất kỳ thủ pháp nào được sử dụng để tập hợp, thu thập thông tin (quan sát, phỏng vấn, nghiên cứu hồ sơ, nghiên cứu văn bản, nghiên cứu sản phẩm,… bảng hỏi, trắc nghiệm) về đối tượng cần đánh giá, nhằm mục đích nào đó (làm quyết định, xác định hiệu quả xấu tốt, so sánh với chuẩn…) đều được gọi là đánh giá [9]
Đánh giá mối quan hệ giữa các môn học ở đây là quá trình thu thập và phân tích thông tin nhờ sử dụng các phương pháp của khai phá dữ liệu (data mining) trên cơ sở dữ liệu của sinh viên như: chuẩn bị dữ liệu, phân loại, phân nhóm, thống kê,… để tìm kiếm các mối quan hệ, quy luật giữa các môn học đã và đang tồn tại ẩn bên trong cơ sở dữ liệu
Trang 30Trong quá trình phát triển của các trường đại học, việc đánh giá chương trình đào tạo
là một khâu không thể thiếu Với mục tiêu hỗ trợ công việc đánh giá này thì việc đánh giá riêng rẽ từng môn học, mối quan hệ giữa các môn học là cũng rất cần thiết
Đánh giá nhằm mục đích nhận định thực trạng, trên cơ sở đó định hướng để điều chỉnh, điều khiển một cách hợp lý hoạt động học tập của người học và hoạt động giảng dạy của người dạy
Dựa vào Quy chế học vụ cấp Đại học hệ chính qui tập trung của trường Đại học Bách Khoa TPHCM, sinh viên thuộc các khoa khác nhau sẽ phải học theo chương trình đào tạo tương ứng của khoa mình
Chương trình đào tạo (Curriculum) là một văn bản pháp qui về kế hoạch tổ chức đào tạo một văn bằng, bao gồm: mục tiêu đào tạo, nội dung và yêu cầu bắt buộc, tự chọn hay tùy ý, phân bố thời lượng của các môn học; kế hoạch thực hiện chương trình … [8]
Chương trình đào tạo của sinh viên khoa công nghệ thông tin được đính kèm trong phụ lục
Sau đây ta sẽ xem xét từng bài toán cụ thể:
3.2.2.1 Bài toán đánh giá mối quan hệ giữa các môn học
Tùy theo yêu cầu về mặt kiến thức, mỗi môn học có thể có một hay nhiều môn học tiên quyết, một hay nhiều môn học trước, một hay nhiều môn học song hành
Trong đó, mối quan hệ học trước và tiên quyết có nhiều điểm tương đồng, tuy nhiên,
do dựa vào chương trình đào tạo thực tế của khoa CNTT hiện tại thì không tồn tại các cặp môn học có mối quan hệ tiên quyết, mà chỉ tồn tại mối quan hệ song hành và học trước
Ở bài toán này, ta sẽ đánh giá mối quan hệ học trước giữa các môn học
Các mối quan hệ này đã được xác định sẵn trong chương trình đào tạo Khi thiết kế chương trình đào tạo và nội dung môn học, mối quan hệ học trước giữa hai môn học được xác định khi nội dung của môn học trước sẽ cung cấp nền tảng cho môn học sau
Trang 31Như vậy việc học tập và kết quả đánh giá của sinh viên trên 2 môn học này sẽ có mối liên quan một chiều
Do vậy, ta có thể khẳng định mục tiêu chính của việc đánh giá các mối quan hệ này là một khâu trong quá trình đi tìm câu trả lời cho câu hỏi “Hiệu quả tác động của chương trình đào tạo lên sinh viên có đem lại kết quả mong muốn hay không?”, câu hỏi mà các nhà quản lý giáo dục luôn rất quan tâm
3.2.2.2 Bài toán tìm kiếm các vấn đề bất thường trong các môn học
Mục tiêu của bài toán này là dựa vào kết quả học tập của sinh viên, ta hi vọng rằng có thể phát hiện được một số vấn đề bất thường: ví dụ môn học A quá dễ hay môn học B quá khó, nhằm góp phần cải thiện chương trình đào tạo ngày càng phù hợp với thực tế yêu cầu
Để đánh giá được kết quả học tập của sinh viên, sau đây ta sẽ tìm hiểu các yếu tố có ảnh hưởng đến kết quả này Kết quả học tập là kết quả cuối cùng của quá trình học tập,
do vậy để đảm bảo tính chính xác cho việc đánh giá được đúng ta cần phải tìm hiểu các quá trình học tập của sinh viên
Quá trình học tập có thể được chia làm 3 giai đoạn chính: thiết kế đề cương, thực thi (giảng dạy môn học) và biểu hiện bên ngoài (đánh giá kết quả)
Ở từng giai đoạn khác nhau, cách tiếp cận khác nhau (tiếp cận mục tiêu, tiếp cận nội dung, tiếp cận quá trình) dẫn đến các yếu tố ảnh hưởng đến quá trình học các môn học cũng rất khác nhau
Trang 32Vậy mối quan hệ học trước do người thiết kế chương trình học thiết lập đã được người thiết kế đề cương chi tiết cho các môn học hiện thực thế nào?
Quá trình học của sinh viên tại Đại học Bách Khoa được chia thành 2 giai đoạn: giai đoạn Đại cương và giai đoạn Chuyên ngành
Cụ thể hoá cho mối quan hệ giữa A và B: A là môn học trước của môn học B
- Trường hợp A và B ở 2 giai đoạn khác nhau: cụ thể A là môn học thuộc giai đoạn Đại cương, B là môn học thuộc giai đoạn Chuyên ngành 2 giai đoạn khác nhau điều đó có nghĩa là 2 người quản lý 2 môn học A và B là khác nhau Vì thế khi thiết kế đề cương môn học A, giảng viên đã không quan tâm đến kiến thức của môn học B vì lý do giảng viên này không biết môn học B Vậy điều này có làm ảnh hưởng đến mối quan hệ học trước hay không?
- Trường hợp A và B cùng thuộc giai đoạn Chuyên ngành: tức cùng người quản
lý, người quản lý này thông suốt chương trình học, nên khi xem xét, kiểm duyệt
đề cương môn học A thì có quan tâm xem xét đến môn học B và ngược lại, đây
có thể được xem là yếu tố thuận lợi cho các môn học có mối quan hệ loại này
B Thực thi
Quá trình thực thi chịu sự tác động chính từ 2 quá trình chính yếu: giảng dạy và học tập Và chính quá trình thực thi là quá trình tạo ra nhiều ảnh hưởng nhất đến hiệu quả môn học
Xin được trích dẫn ở đây một vài thông tin thực tế được công bố theo tài liệu của Trung tâm đảm bảo chất lượng đào tạo và Nghiên cứu phát triển giáo dục [3]
Hiệu quả môn học được định nghĩa là sự tổng hợp của những kiến thức, kỹ năng và sự hài lòng mà sinh viên tiếp nhận được sau khi học môn học đó
Phương pháp phân tích các yếu tố chính (Principal component factor analysis) được sử dụng để tính trọng số của các nhân tố chính ảnh hưởng đến Hiệu quả môn học
Mô hình và bảng số liệu về sự tương tác giữa các yếu tố ảnh hưởng tới hiệu quả môn học được trình bày lần lượt ở Hình 3.1 và Bảng 3.1
Nhìn bảng số liệu ta nhận thấy rõ nhân tố Phương pháp giảng dạy và Chương trình môn học là hai nhân tố có độ ảnh hưởng lớn nhất đến hiệu quả môn học
Trang 33Quá trình giảng dạy:
Tác nhân chủ yếu tác động lên quá trình giảng dạy chính là giảng viên và chương trình môn học
Đối với giảng viên:
Các vấn đề gây ra sự ảnh hưởng đến quá trình học tập là:
- Kiến thức chuyên môn: kiến thức chuyên môn của giảng viên càng cao thì chất lượng bài giảng càng tăng
- Phương pháp giảng dạy: giảng viên sử dụng phương pháp cổ điển là bảng phấn hay sử dụng phương pháp hiện đại, máy chiếu hình, các thiết bị thực hành,…
- Phong cách giảng dạy: truyền đạt kiến thức 1 chiều (độc thoại) hay có sự tương tác qua lại giữa giảng viên và sinh viên (đối thoại)
- Một số yếu tố khác: thâm niên, tính tình,…
Đối với chương trình môn học:
- Kiến thức chuyên môn nhận được và kỹ năng chuyên môn mà môn học cung cấp cho sinh viên: đây là vấn đề mà theo kết quả khảo sát của nhiều trường đại học trong và ngoài nước đánh giá và yếu tố quan trọng nhất tác động lên quá trình học tập của sinh viên, khối lượng kiến thức này quá nhiều hay quá ít có gây ra một sự ảnh hưởng nhất định
Trang 34Hình 3.1 - Sự tương tác giữa các yếu tố ảnh hưởng tới hiệu quả môn học
Bảng 3.1 - Độ ảnh hưởng của các nhân tố ảnh hưởng tới môn học
Phương pháp giảng dạy 0,828
Chương trình môn học 0,727
Điều kiện cơ sở vật chất 0,591
Trang 35- Nội dung môn học: nhạt nhẽo hay mới mẻ, trừu tượng hay cụ thể, gần gũi với thực tế Trên thực tế, ở bậc Đại học của nước ta, gần như không có sự thay đổi
về hệ thống bài giảng trong nhiều năm liền [6]
- Mối liên kết giữa lý thuyết và thực hành: những môn học có mối liên kết này được đánh giá là gây nhiều hứng thú hơn cho sinh viên
- Tài liệu tham khảo hỗ trợ cho môn học: quá ít hay quá khó tìm sẽ gây trở ngại lớn cho quá trình học tập của sinh viên
Quá trình học tập:
Nhân tố chính là sinh viên tham gia học môn học:
- Thái độ học tập: tích cực hay thụ động, có niềm đam mê, khát khao đạt được những thành tích mới không?
- Phương pháp học tập: học hiểu, có khả năng tư duy tốt hay chỉ là học thuộc lòng, chỉ đơn thuần là cố gắng ghi nhớ các thông tin của giảng viên nêu ra
- Vấn đề tâm lý: chính là sở thích của sinh viên, một sinh viên học một môn học nào đó với tâm lý thiếu sự thích thú thì khó mà có thể đạt được kết quả tốt được
Các tác động bên ngoài khác:
- Giảng đường, thư viện, phòng thí nghiệm, nơi vui chơi giải trí, cơ sở hạ tầng
- Thời lượng, phân bổ thời gian: nhà trường sắp xếp cho sinh viên học cùng một môn học trong 1 khoảng thời gian liên tục quá dài có thể gây tâm lý mệt mỏi, chán nản, thiếu tập trung
- Thời tiết xấu ảnh hưởng đến chất lượng dạy và học:
C Biểu hiện bên ngoài:
Biểu hiện bên ngoài của các môn học là kết quả học tập của sinh viên, đó chính là kết quả có được thông qua việc đánh giá kết quả học tập của sinh viên
Việc đánh giá kết quả học tập là cũng là một trong số các yếu tố mang nhiều tác động
Trang 36Các phương pháp đánh giá kết quả học tập: thi 1 lần cuối kỳ, hoặc kết hợp giữa thi cuối kỳ với các hình thức khác: kiểm tra, bài tập, bài tập lớn, là chuyên đề nghiên cứu…
Các hình thức kiểm tra chính: vấn đáp, trắc nghiệm, thi viết
Đối với từng hình thức khác nhau, sự ảnh hưởng của nó lên kết quả học tập cũng khác nhau:
Hình thức vấn đáp là phương pháp đánh giá khá tốt Nó cho phép người dạy kiểm tra được sự hiểu biết thực sự của người học, chống tình trạng học thuộc mà không hiểu;
nó cũng giúp cho người học rèn luyện kỹ năng diễn đạt, ứng xử trong giao tiếp nói, khả năng tư duy logic Song do số lượng câu hỏi không nhiều, không bao quát hết toàn
bộ nội dung môn học, dẫn đến người học có thể học tủ, học lệch, học vẹt Kết quả thi đôi khi còn phụ thuộc vào tâm lý và quan hệ thầy trò Thi vấn đáp thường thích hợp với lớp có lượng thí sinh ít, không phù hợp với thực tế của trường BK TPHCM
Hình thức thi viết là phương pháp khá phổ biến hiện nay, một kiểu cổ điển trong giáo dục, và trường Bách Khoa TPHCM cũng được sử dụng rất phổ biến Hình thức này rất thích hợp khi số thầy cô không nhiều nhưng có thể kiểm tra cùng một lúc được nhiều người học Đối với người học khi thi viết, yếu tố tâm lý ít bị ảnh hưởng hơn so với thi vấn đáp và thi viết cũng có khả năng rèn luyện kỹ năng tư duy logic, thể hiện cảm xúc và sự liên tưởng Điểm yếu của thi viết là không thể phủ hết chương trình khi chỉ có vài câu trong một đề thi, người học dễ sa vào học tủ Khi chấm thi không loại trừ yếu tố chủ quan của thầy khi đánh giá cho điểm Việc tổ chức thi viết thường khó tránh được hiện tượng quay cóp, gian lận
Hình thức trắc nghiệm, có nhiều ưu điểm hơn cả vì đề trắc nghiệm có nhiều câu hỏi nhỏ, bao trùm toàn bộ nội dung chương trình của môn học Việc chấm điểm bài trắc nghiệm mang tính khách quan, các điểm số tin cậy và ổn định mà không phụ thuộc vào yếu tố chủ quan của người chấm Tuy nhiên không đánh giá được cách diễn đạt tư tưởng và văn từ, cảm thụ, ý tưởng sáng tạo, tình cảm của học sinh, vì vậy không thật
Trang 37ưu điểm và phù hợp với các môn khoa học xã hội và nhân văn hoặc nghệ thuật, các môn cần phân tích, liên hệ các sự kiện, …
Tương ứng hình thức kiểm tra, nội dung của bài kiểm tra cũng đóng vai trò quan trọng, nội dung bài kiểm tra có bao trùm hết khối kiến thức mà môn học cung cấp hay không?
Tóm lại, câu hỏi chính yếu được đặt ra là “Liệu rằng bài kiểm tra có thật sự đánh giá được quá trình học của sinh viên hay không?”
3.2.3 Xác định độ đo
Đánh giá kết quả học tập là sự xác nhận của giáo viên đối với mức độ đạt được của học sinh, sinh viên theo những chuẩn mực giá trị mục tiêu đào tạo của nhà trường hay từng bài học, môn học Những chuẩn mực giá trị ấy có thể qui ra thành điểm số để chấm điểm gọi là đánh giá định lượng
Đánh giá định lượng là đánh giá cụ thể bằng điểm số Cách đánh giá này đã được áp dụng từ lâu và rất phổ biến trong lịch sử giáo dục của nhiều nước, có nơi lấy điểm trên
10, có nơi lấy điểm trên 20 nhưng cũng có nơi lấy điểm trên 5, 10, 20 hay 5 là những tiêu chí hoàn hảo cho một đơn vị được đánh giá (bài làm, môn học hay một phẩm chất nào đó của sinh viên) Các mức độ thấp hơn được phân định từ điểm 0 đến dưới 5/10
là yếu kém, từ 5 đến dưới 6.5/10 là trung bình, từ 6.5 đến dưới 8/10 là khá và từ 8 đến 10/10 là giỏi [5]
Theo Quy chế học vụ cấp Đại học hệ Chính quy tập trung tại trường BK [8]:
Kết quả học tập của mỗi môn học đươc thể hiện qua các mức điểm theo thang điểm 10, điểm được định dạng là số thực, và được làm tròn đến 1 số lẻ sau dấu phẩy, điểm >=5 là đạt, <5 là rớt
Vì lí do điểm định dạng số thực nên nếu ta đánh giá kết quả dựa trên số điểm thì từ 0 đến 10 có quá nhiều số, quá tỉ mỉ Nhưng trên quan điểm thực tế: 3 hay 4 điểm là như nhau, đều rớt, 9 tương đương 10, tâm trạng của sinh viên đạt điểm 9 và điểm 10 là gần như nhau, tâm trạng của sinh viên bị 3 điểm và 4 điểm buồn như nhau vì đều bị rớt
Trang 38Công cụ đo lường đặc trưng của các nghiên cứu nói chung gồm 4 kiểu thang đo: thang định danh (nominal scale), thang định hạng (ordinal scale), thang định khoảng (interval scale) và thang định tỉ lệ (ratio scale) [9]
Thang định danh: là một kiểu đánh giá sự vật, hiện tượng hay đặc tính theo tên gọi,
theo danh hiệu/nhãn hiệu, hoặc theo phạm trù
Thang định hạng: là một kiểu đánh giá phân loại sự vật, hiện tượng hay đặc tính theo
thứ bậc hay trật tự
Thang định khoảng: là một kiểu đánh giá phân loại sự vật, hiện tượng hay đặc tính
theo những đơn vị phân loại bằng nhau ở bất kỳ khoảng nào trên thang đo
Khi muốn phân loại mọi người theo học lực thông thường người ta sử dụng thang định danh để phân loại: kém, yếu, trung bình, trung bình khá, khá, giỏi, xuất sắc,… Thang định danh là phép đo có tính khái quát không nhằm cung cấp thông tin chính xác về sự khác biệt cá nhân, mà chỉ nhằm mục đích đánh giá bản chất của thuộc tính
Vì vậy, ta có thể phân loại điểm sinh viên dựa trên thang định danh như ở Bảng 3.1 Các bài toán được xem xét trong các chương sau sẽ sử dụng thang định danh này
3.2.4 Mô tả dữ liệu
- Nguồn dữ liệu: Phòng đào tạo trường Đại học Bách Khoa TPHCM
- Định dạng dữ liệu: ban đầu dữ liệu được lưu trữ dạng Foxpro, sau đó được nhóm sinh viên Bùi Đức Duy và Trần Ngọc Vĩnh chuyển sang Oracle trong đề tài luận văn tốt nghiệp đại học “Xây dựng ứng dụng thực hiện các nghiệp vụ hàng ngày cho phòng đào tạo” do thầy Lê Thành Sách hướng dẫn [1]
- Độ phức tạp của cơ sở dữ liệu:
o Cơ sở dữ liệu được thiết kế từ đề tài luận văn trên là 231 bảng
o Chi tiết về một số bảng dữ liệu chính được sử dụng trong đề tài được trình bày trong Bảng 3.3
Trang 39o Chi tiết về dữ liệu của Khoa Công nghệ thông tin bao gồm:
+ Số lượng môn học: 132 môn học (bao gồm các các môn học của tất cả các loại hình đào tạo khác)
+ Số lượng sinh viên: 3678 + Số lượng dữ liệu điểm các môn học của Khoa Công nghệ thông tin: 58150 dòng
Để đảm bảo yêu cầu về tính bí mật, một số thông tin cụ thể là mã số môn học, tên môn học, mã số sinh viên, họ tên sinh viên đã được mã hóa trong đề tài này
Trang 40Bảng 3.2 - Phân loại điểm sinh viên dựa trên thang định danh
Bảng 3.3 - Một số bảng dữ liệu sử dụng trong đề tài
Tên bảng Số lượng record
CT_GIANG_DAY 52200
DIEM 939473 MON_HOC 3722
MH_TRUOC 1380
SINH_VIEN 28939