Chương 3. PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN
3.3. Kết quả phân cụm bằng thuật toán K-means
3.3.3. Phân cụm dựa trên điểm trung bình môn toán và môn văn
Ở trong các trường trung học cơ sở hai môn mang tính quyết định hình thành tư duy và nhân cách học sinh là môn toán và môn văn. Hai môn này Bộ giáo dục cũng đánh giá cao hơn các môn khác cụ thể là việc tính điểm trung bình các môn học thì hai môn nay được tính hệ số 2 các môn khác hệ số 1. Hai môn này là môn chủ đạo. Hàng năm, các tỉnh tuyển sinh chuyển cấp đều thi hai môn học này. Trong kỳ thi tốt nghiệp trung học cơ sở luôn thi tốt nghiệp hai môn học này.
Do vậy ta xem xét kết quả học tập của học sinh từ hai môn học này cũng nhằm mục đích xem có sự liên hệ, sự ảnh hưởng qua lại lẫn nhau giữa hai môn học nhằm giúp cho nhà trường có các định hướng tốt hơn trong quá trình giảng dạy và học tập của học sinh.
Để phân tích kết quả học tập của môn toán ảnh hưởng đến kết quả học tập của môn văn như thế nào, luận văn thực hiện các công việc phân cụm như sau:
- Phân cụm học sinh dựa trên điểm trung bình mô toán thành 4 cụm. Kết quả phân cụm theo môn toán ở Bảng 3.7 (mục 3.3.2.1)
- Với mỗi cụm toán tìm được, thực hiện phân cụm theo kết quả học tập môn văn. Kết quả thu được ở Bảng 3.9 như sau:
54
Bảng 3.9. Phân cụm theo môn toán và môn văn Cụm theo môn toán
Xuất sắc (Cụm 1, 68 học
sinh)
Giỏi (Cụm 2, 68 học
sinh)
Khá (Cụm 3, 50 học
sinh)
Trung bình (Cụm 4, 22 học sinh) Số
lượng
Tỷ lệ Số
lượng
Tỷ lệ Số
lượng
Tỷ lệ Số
lượng
Tỷ lệ
Cụm theo môn văn
Xuất sắc
(cụm 4) 32 47.1% 24 35.3% 19 38% 1 4.5%
Giỏi
(cụm 2) 14 20.6% 18 26.5% 5 10% 4 18.2%
Khá
(cụm 1) 12 17.6% 11 16.1% 16 32% 7 31.8%
Trung bình (cụm 3)
10 14.7% 15 22.1% 10 20% 10 45.4%
Xét cụm xuất sắc của môn toán (cụm 1 môn toán) thì ta nhận thấy trong 68 học sinh học xuất sắc môn toán thì có 32 học sinh học xuất sắc môn văn, chiếm tỷ lệ 47.1%. Vậy ta nhận thấy việc học giỏi môn toán sẽ dẫn đến việc các em có thể học giỏi môn xã hội cũng là cao. Ngược lại, nếu xét cụm trung bình môn toán (cụm 4 môn toán) thì trong tổng số 22 học sinh học trung bình môn toán thì chỉ có 01 em học giỏi môn văn, còn lại phần lớn là học trung bình môn văn. Do đó, việc học giỏi môn toán ảnh hưởng nhiều đến học giỏi các môn xã hội.
3.4. Kết luận chương
Trong chương này, luận văn đã phát biểu bài toán phân cụm kết quả học tập của học sinh lớp 9 trường Trung học cơ sở Chu Văn An thành phố Thái Nguyên, lựa chọn thuật toán phân cụm là K-means, công cụ thực hiện là ngôn ngữ phân tích dữ liệu R. Trên cơ sở đó, luận văn trình bày kết quả thử nghiệm phân cụm trên 208 học sinh lớp 9. Kết quả phân cụm có ý nghĩa quan trọng trong công tác quản lý đào tạo của Trường và hỗ trợ, tư vấn cho học sinh lớp 9 thi vào các trường chuyên cấp 3 của tỉnh.
55 KẾT LUẬN 1. Những kết quả chính của luận văn
Luận văn tổng hợp những vấn đề cơ bản trong khai phá dữ liệu và đi sâu trình bày về phân cụm dữ liệu, một trong những kỹ thuật phổ biến nhất của khai phá dữ liệu. Trong lĩnh vực phân cụm dữ liệu, chúng ta đã có được một số thành quả nhất định. Hiện nay, các hệ thống cơ sở dữ liệu ngày càng phát triển đa dạng, nhu cầu về khám phá tri thức trong cơ sở dữ liệu ngày càng lớn, do đó việc nghiên cứu các mô hình dữ liệu mới và áp dụng được các phương pháp phân cụm dữ liệu mới là một xu thế tất yếu, vừa có ý nghĩa trong khoa học cũng như trong thực tiễn.
Chương 1, luận văn đã trình bày những nét tổng quan về phân cụm dữ liệu, bao gồm những vấn đề như khám phá tri thức, khai phá dữ liệu và phân cụm dữ liệu.
Trên cơ sở đó, Chương 2 đi sâu về giới thiệu các phương pháp phân cụm dữ liệu các thuật toán phân cụm dữ liệu, trong đó có một số thuật toán là nền tảng của các phương pháp tiếp cận, một số thuật toán là mở rộng, cải tiến của các thuật toán cơ sở để giải quyết được đa dạng dữ liệu, xử lý các vấn đề nhiễu hoặc ngoại lai.
Chương 3 áp dụng thuật toán phân cụm K-means đã trình bày trong Chương 2 để giải quyết bài toán phân cụm kết quả học tập của học sinh trường Trung học cơ sở Chu Văn An.
Tóm lại, phân cụm dữ liệu đang là một lĩnh vực đang được quan tâm nghiên cứu nhiều, có phạm vi ứng dụng rộng, liên quan đến nhiều ngành khoa học khác nhau. Trong quá trình làm luận văn, tác giả đã cố gắng nghiên cứu, sưu tầm, tập trung trình bày các vấn đề một cách tổng hợp nhất nhưng do trình độ và thời gian có hạn, phạm vi trình bày của lĩnh vực nghiên cứu rộng, do vậy, luận văn này chắc chắn còn có nhiều hạn chế và thiếu sót, nhiều vấn đề còn để mở cho những hướng nghiên cứu tiếp theo. Tác giả rất mong nhận được các ý kiến đánh giá, đóng góp, chỉ bảo của các thầy cô giáo và bạn bè.
56 2. Hướng nghiên cứu tiếp theo
Trong thời gian tới, tác giả luận văn sẽ tiếp tục tìm hiểu các mô hình dữ liệu đặc thù, lựa chọn kỹ thuật phân cụm dữ liệu phù hợp nhằm xây dựng được những ứng dụng trong thực tiễn. Hướng nghiên cứu cụ thể như sau:
- Tập trung nghiên cứu phát triển những vấn đề còn để mở dựa trên những kiến thức cơ sở đã trình bày.
- Xây dựng và phát triển các kỹ thuật phân cụm mờ.
- Kết hợp các kỹ thuật phân cụm với các kỹ thuật khác như luật kết hợp để giải quyết một số ứng dụng trong thực tế.
57
TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt
1. Bùi Công Cường (2005): “Một số hướng mới trong công nghệ tri thức và khai phá dữ liệu”. Viện toán học, Trường thu “Hệ mờ và ứng dụng" lần thứ 4.
2. Bùi Công Cường, Nguyễn Doãn Phước (2001): “Hệ mờ, hệ Nơron và ứng dụng”, Nhà xuất bản KHKT.
Tài liệu tiếng Anh
3. K. Jain and R. C. Dubes (1988), Algorithms for Clustering Data, Printice Hall.
4. D. Fisher (1987), Knowledge acquisition via incremental conceptual clustering, Machine Learning.
5. D. Gibson, J. Kleinberg and P. Raghavan (1998), Clustering categorical data:
An approach based on dynamic systems, In Proc, VLDB’98.
6. Douglass Cutting, David Karger, Jan Pedersen and John W. Tukey (1992), Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen.
7. Ho Tu Bao (2000), Knowledge Discovery And Data Mining, Institute of Information HiTechnology, National Center for Natural Science and Technology.
8. O. Zamir and O. Etzioni (1999), Groupera dynamic clustering interface to web search results, In Proceedings of the Eighth International World Wide Web Conference, Toronto, Canada, M. Steinbach, G.
9. L. Kaufman and P. J. Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons.
10. Spath H (1980): “Clustring Analysis Algorithms ”, Ellis Horwood.