Data mining on the learning outcomes of students at a college in Van Lang Ha Noi NXB H. : ĐHCN, 2012 Số trang 95 tr. + Nguyễn Đăng Nhƣợng Trƣờng Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin; Mã số: 60 48 05
Khai phá dữ liệu về kết quả học tập của học sinh trƣờng Cao đẳng nghề Văn Lang Hà Nội Data mining on the learning outcomes of students at a college in Van Lang Ha Noi NXB H. : ĐHCN, 2012 Số trang 95 tr. + Nguyễn Đăng Nhƣợng Trƣờng Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin; Mã số: 60 48 05 Cán bộ hƣớng dẫn khoa học: PGS.TS. Đỗ Trung Tuấn Năm bảo vệ: 2012 Abstract. Giới thiệu tổng quát về quá trình phát hiện tri thức nói chung và khai phá dữ liệu nói riêng. Đặc biệt nhấn mạnh về Kỹ thuật phân cụm. Nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu: phân cụm phân chia, phân cụm phân cấp, phân cụm dựa trên mật độ và phân cụm dựa trên lƣới. Trình bày một số kết quả đã đạt đƣợc khi tiến hành áp dụng các giải thuật khai phá dữ liệu để khai thác thông tin từ điểm học sinh của trƣờng Cao đẳng nghề Văn Lang Hà Nội. Sự ảnh hƣởng của vùng miền, của hoàn cảnh gia đình, dân tộc, đạo đức… đến kết quả học tập của học sinh, phân loại kết quả học tập để đánh giá một cách nhanh chóng nhận thức của ngƣời học. Từ đó có những điều chỉnh giảng dạy của giáo viên phù hợp với năng lực ngƣời học. Keywords: Hệ thống thông tin; Khai phá dữ liệu; Kết quả học tập; Học sinh; Trƣờng Cao đẳng nghề Văn Lang Content. I. MỞ ĐẦU Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang đƣợc nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nƣớc trên thế giới, tại Việt Nam kỹ thuật này tƣơng đối còn mới mẻ tuy nhiên cũng đang đƣợc nghiên cứu và dần đƣa vào ứng dụng. Bƣớc quan trọng nhất của quá trình này là Khai phá dữ liệu giúp ngƣời sử dụng thu đƣợc những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác. Vì vậy, trong luận văn này, tôi sẽ đề cập tới kỹ thuật thƣờng dùng trong Khai phá dữ liệu đó là phân cụm. Bố cục tóm tắt luận văn gồm: Phần I. Tổng quan về phát hiện tri thức và khai phá dữ liệu Phần này giới thiệu một cách tổng quát về quá trình phát hiện tri thức nói chung và khai phá dữ liệu nói riêng. Đặc biệt nhấn mạnh về kỹ thuật chính đƣợc nghiên cứu trong luận văn đó là Kỹ thuật phân cụm. Phần II. Kỹ thuật phân cụm Kỹ thuật phân cụm cũng đƣợc chia làm nhiều kiểu: phân cụm phân chia, phân cụm phân cấp, phân cụm dựa trên mật độ và phân cụm dựa trên lƣới. Phần III. Kết quả phân cụm học tập của sinh viên. Phần này trình bày một số kết quả đã đạt đƣợc khi tiến hành áp dụng các giải thuật khai phá dữ liệu để khai thác thông tin từ điểm học sinh của trƣờng Cao đẳng nghề Văn Lang Hà Nội. Sự ảnh hƣởng của vùng miền, của hoàn cảnh gia đình, dân tộc, đạo đức… đến kết quả học tập của học sinh, phân loại kết quả học tập để đánh giá một cách nhanh chóng nhận thức của ngƣời học. Từ đó có những điều chỉnh giảng dạy của giáo viên phù hợp với năng lực ngƣời học. II. CHƢƠNG 1. TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU A. 1. 1. Về khai phá dữ liệu Định nghĩa: Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện những tri thức mới, tiềm ẩn hữu dụng từ những dữ liệu đã thu thập được. B. 1. 2. Quá trình khai phá tri thức trong cơ sở dữ liệu 1. Gom dữ liệu 2. Trích lọc dữ liệu 3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu 4. Chuyển đổi dữ liệu 5. Khai phá dữ liệu 6. Đánh giá các luật và biểu diễn tri thức C. 1. 3. Các kỹ thuật khai phá dữ liệu 1) 1. 3. 1. Khai phá dữ liệu dự đoán a) 1. 3. 1. 1. Phân loại Mục tiêu của phƣơng pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình phân loại dữ liệu thƣờng gồm 2 bƣớc: Xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu. b) 1. 3. 1. 2. Hồi quy Phƣơng pháp hồi qui khác với phân loại dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân loại dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc. 2) 1. 3. 2. Khai phá dữ liệu mô tả a) 1. 3. 2. 1. Phân cụm Mục tiêu chính của phƣơng pháp phân cụm dữ liệu là nhóm các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng một cụm là tƣơng đồng còn các đối tƣợng thuộc các cụm khác nhau sẽ không tƣơng đồng. b) 1. 3. 2. 2. Luật kết hợp Mục tiêu của phƣơng pháp này là phát hiện và đƣa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. D. 1.4. Lợi thế của khai phá dữ liệu so với các phương pháp khác 1) 1. 4. 1. Học máy Phƣơng pháp học máy chủ yếu đƣợc áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không quá lớn. 2) 1. 4. 2. Hệ chuyên gia Các hệ chuyên gia nắm bắt các tri thức cần thiết cho một bài toán nào đó. Các kỹ thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia con ngƣời. 3) 1. 4. 3. Thống kê Các phƣơng pháp thống kê không phù hợp với các kiểu dữ liệu có cấu trúc. Thống kê hoàn toàn tính toán trên dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực quan tâm. Các kết quả của phân tích thống kê có thể rất nhiều và khó có thể làm rõ đƣợc. Các phƣơng pháp thống kê cần có sự hƣớng dẫn của ngƣời dùng để xác định phân tích dữ liệu nhƣ thế nào và ở đâu. E. 1. 5. Các ứng dụng của phát hiện tri thức và những thách thức đối với phát hiện tri thức 1) 1. 5. 1. Các ứng dụng của phát hiện tri thức Các kỹ thuật KDD có thể đƣợc áp dụng vào trong nhiều lĩnh vực: Thông tin thƣơng mại: Phân tích dữ liệu tiếp thị và bán hàng, phân tích vốn đầu tƣ, chấp thuận cho vay, phát hiện gian lận . Thông tin sản xuất: Điều khiển và lập lịch, quản lý mạng, phân tích kết quả thí nghiệm . Thông tin khoa học: Địa lý: Phát hiện động đất . Giáo dục đào tạo: Phân luồng học sinh, áp dụng các phƣơng pháp dạy học tích cực để nâng cao chất lƣợng giáo dục 2) 1. 5. 2. Những thách thức đối với phát hiện tri thức 1. Số chiều cao 2. Thay đổi dữ liệu và tri thức 3. Dữ liệu thiếu và bị nhiễu 4. Mối quan hệ phức tạp giữa các trƣờng 5. Tính dễ hiểu của các mẫu 6. Ngƣời dùng tƣơng tác và tri thức sẵn có 7. Tích hợp với các hệ thống khác III. CHƢƠNG 2. KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU A. 2. 1. Khái niệm thống kê Thống kê là một hệ thống các phƣơng pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trƣng của đối tƣợng nghiên cứu nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định. B. 2. 2. Khái niệm phân cụm (a) Định nghĩa : Cho x làm một tập dữ liệu: X = { x 1 , x 2 , …. , x n } . Ta định nghĩa m-phân cụm của X nhƣ một sự phân chia X thành m tập (cụm) C 1 , C 2 , …. , C m sao cho thỏa mãn 3 điều kiện: (a) Hình 2. 1. Gom cụm Các yêu cầu điển hình của phân cụm trong khai phá dữ liệu: 1. Khả năng mở rộng 2. Khả năng xử lí các kiểu khác nhau của thuộc tính 3. Phát hiện các cụm với hình dạng tuỳ ý 4. Các yêu cầu tối thiểu cho miền tri thức để xác định rõ các tham số đầu vào 5. Khả năng giải quyết dữ liệu nhiễu 6. Sự không nhạy cảm khi sắp xếp các bản ghi đầu vào 7. Số chiều 8. Phân cụm dựa trên ràng buộc 9. Khả năng diễn dịch và tính tiện lợi C. 2. 4. Phân loại các phương pháp phân cụm chính Hiện có một số lƣợng lớn các giải thuật phân cụm trong các tài liệu. Việc lựa chọn giải thuật phân cụm tuỳ thuộc vào kiểu dữ liệu cho sẵn, mục đích riêng và ứng dụng. Nếu nhƣ phép phân tích cụm đƣợc dùng nhƣ một công cụ mô tả hay thăm dò thì có thể thử một vài giải thuật trên cùng dữ liệu để xem xem dữ liệu có thể thể hiện đƣợc điều gì. Nhìn chung, các phƣơng pháp phân cụm chính đƣợc phân thành các loại sau: 1) 2. 4. 1. Các phương pháp phân chia Cho trƣớc một cơ sở dữ liệu với n đối tƣợng hay các bộ dữ liệu, một phƣơng pháp phân chia đƣợc xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện cho một cụm, k ≤ n. Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả mãn các yêu cầu sau: (1) Mỗi nhóm phải chứa ít nhất một đối tƣợng, (2) Mỗi đối tƣợng phải thuộc về chính xác một nhóm. Cho trƣớc k là số lƣợng các phần chia cần xây dựng. Sau đó nó dùng kỹ thuật lặp lại việc định vị, kỹ thuật này cố gắng cải thiện sự phân chia bằng cách gỡ bỏ các đối tƣợng từ nhóm này sang nhóm khác. Tiêu chuẩn là các đối tƣợng trong cùng cụm là "gần" hay có quan hệ với nhau, ngƣợc lại, các đối tƣợng của các cụm khác nhau lại "tách xa" hay rất khác nhau. Trong phân cụm dựa trên phép phân chia, hầu hết các ứng dụng làm theo một trong hai phƣơng pháp phổ biến: (1) Giải thuật K-means với mỗi cụm đƣợc đại diện bởi giá trị trung bình của các đối tƣợng trong cụm; (2) Giải thuật k-medoids với mỗi cụm đƣợc đại diện bởi một trong số các đối tƣợng định vị gần tâm của cụm. Các phƣơng pháp phân cụm này làm việc tốt khi tìm kiếm các cụm có hình cầu trong các cơ sở dữ liệu có kích thƣớc từ nhỏ tới trung bình. 2. 4. 2. Các phương pháp phân cấp Một phƣơng pháp phân cấp tạo một phân tích phân cấp tập các đối tƣợng dữ liệu đã cho. Một phƣơng pháp phân cấp có thể đƣợc phân loại nhƣ tích đống hay phân chia. Tiếp cận tích đống còn đƣợc gọi là tiếp cận dƣới-lên. Tiếp cận phân ly còn đƣợc gọi là tiếp cận trên-xuống. Sự kết hợp của việc lặp lại việc định vị và phân ly phân cấp sẽ thuận lợi bởi trƣớc tiên sử dụng giải thuật phân ly phân cấp và sau đó cải tiến kết quả sử dụng định vị lặp. Nhiều giải thuật phân cụm mở rộng nhƣ BIRCH và CURE đƣợc phát triển dựa trên một tiếp cận tích hợp nhƣ vậy. 2) 2. 4. 3. Các phương pháp dựa trên mật độ Ý tƣởng chung đó là tiếp tục phát triển cụm cho trƣớc với điều kiện là mật độ (số các đối tƣợng hay các điểm dữ liệu) trong "lân cận" vƣợt quá ngƣỡng, tức là đối với mỗi điểm dữ liệu trong phạm vi một cụm cho trƣớc thì lân cận trong vòng bán kính đã cho chứa ít nhất một số lƣợng điểm tối thiểu. Một phƣơng pháp nhƣ vậy có thể đƣợc dùng để lọc ra nhiễu và khám phá ra các cụm có hình dạng bất kỳ. DBSCAN là một phƣơng pháp dựa trên mật độ điển hình, nó tăng trƣởng các cụm theo một ngƣỡng mật độ. OPTICS là một phƣơng pháp dựa trên mật độ, nó tính toán một thứ tự phân cụm tăng dần cho phép phân tích cụm tự động và tƣơng tác. 3) 2. 4. 4. Các phương pháp dựa trên lưới Một phƣơng pháp dựa trên lƣới lƣợng tử hoá không gian đối tƣợng vào trong một số hữu hạn các ô hình thành nên một cấu trúc lƣới. Sau đó nó thực hiện tất cả các thao tác phân cụm trên cấu trúc lƣới (tức là trên không gian đã lƣợng tử hoá). STING là một ví dụ điển hình của phƣơng pháp dựa trên lƣới. WaveCluster và CLIQUE là hai giải thuật phân cụm dựa trên cả lƣới và mật độ. Nhiều giải thuật phân cụm tích hợp các ý tƣởng của một vài phƣơng pháp phân cụm, bởi vậy việc phân loại giải thuật đó không dễ nhƣ loại giải thuật chỉ phụ thuộc vào duy nhất một loại phƣơng pháp phân cụm. Hơn nữa, nhiều ứng dụng có thể có giới hạn phân cụm với yêu cầu tích hợp một số kỹ thuật phân cụm. IV. CHƢƠNG 3. PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƢỜNG CAO ĐẲNG NGHỀ VĂN LANG HÀ HỘI A. 3. 1. Giới thiệu lịch sử phát triển Trƣờng Cao đẳng nghề Văn Lang Hà Nội đƣợc thành lập theo quyết định số 130/QĐ-BLĐTBXH ngày 22/01/2009 của Bộ trƣởng Bộ Lao động Thƣơng binh và Xã hội.Các khoa của nhà trƣờng gồm các ngành nghề cụ thể nhƣ sau: 1. Khoa Công nghệ thông tin. 2. Khoa Kế toán-Ngân hàng 3. Khoa Du lịch 4. Khoa Thƣ viện-Thiết bị 5. Khoa Cơ khí 6. Khoa Điện-Điện tử 3. 2. Yêu cầu xây dựng cơ sở dữ liệu học sinh Bài toán đặt ra đối với hệ thống cơ sở dữ liệu là phân tích số liệu theo một số chủ đề quan tâm, phục vụ công tác quản lý đào tạo, nhƣ liệt kê sau : 1. Kết quả học tập của học sinh: Giỏi, khá, trung bình, yếu, kém 2. Kết quả vùng miền đến kết quả học tập đó nhƣ thế nào. 3. Các dân tộc khác nhau có kết quả học tập ra sao. 4. Hoàn cảnh gia đình, đạo đức lối sống của học sinh 5. Phân tích số liệu ảnh hƣởng của các môn học tự nhiên đến các môn học xã hội và ngƣợc lại, ở đây cụ thể là môn học toán, văn ảnh hƣởng đến các môn học khác nhƣ thế nào. Nhu cầu xử lý dữ liệu theo nhu cầu của nhà trƣờng cần đƣợc phân tích theo các chủ đề, chiều khác nhau. Chúng đƣợc chi tiết hoá theo bảng sau: Phân tích theo chủ đề Giỏi Khá TB Yếu Kém Điểm trung bình môn học X X X X X Hoàn cảnh gia đình X X X X X Vùng miền X X X X X Liên quan giữa Môn toán và các môn xã hội X X X X X Dân tộc X X X X X Đơn vị hành chính, Tỉnh huyện X X X X X Đạo đức X X X X X (i) Bảng 3. 1 Các chiều phân tích theo chủ đề B. 3. 3. Công cụ xử lý dữ liệu cùng với phân cụm Công cụ SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp-thông tin đƣợc thu thập trực tiếp từ đối tƣợng nghiên cứu. Thông tin đƣợc xử lý là thông tin định lƣợng (có ý nghĩa về mặt thống kê). Một vài nhận xét về công cụ này : • SPSS là một bộ chƣơng trình mà nhiều ngƣời sử dụng ƣa thích do nó rất dễ sử dụng; • SPSS có một giao diện giữa ngƣời và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực hiện. Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét; • SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhƣng nói chung khá phức tạp và không trực giác. • SPSS có một bộ soạn thảo dữ liệu tƣơng tự nhƣ Excel. • SPSS có một giao diện giữa ngƣời và máy rất đơn giản để tạo ra các đồ thị và khi đã tạo đƣợc một đồ thị, nhờ giao diện này mà ngƣời sử dụng có thể tuỳ ý hiệu chỉnh đồ thị cũng nhƣ hoàn thiện chúng. Các đồ thị có chất lƣợng rất cao và có thể dán vào các tài liệu khác, thí dụ nhƣ Word hoặc Powerpoint. SPSS có ngôn ngữ cú pháp để tạo ra các đồ thị. SPSS mạnh về lĩnh vực đồ thị và lập biểu bảng, báo cáo tổng hợp số liệu. 1) * Phạm vi thực hiện Với bài toán đặt ra, việc phân tích, thiết kế và xây dựng CSDL phải đáp ứng các chủ đề nhƣ trên nhƣng điểm trung bình môn học của học sinh là quan trọng nhất vì học sinh có kết quả học tập tốt sẽ thúc đẩy sự phát triển của nhà trƣờng, động cơ học tập của học sinh và giảng dạy của giáo viên. Một số câu hỏi đƣợc đặt ra trong công tác quản lý giáo dục: 1. Học sinh ở vùng nào thì có kết quả học tập tốt hơn, dân tộc nào có kết quả học tập cao hơn; 2. Ảnh hƣởng của các vùng miền đến kết quả học tập của học sinh nhƣ thế nào ? 3. Môn toán học tốt có tác động đến kết quả của các môn khác không ? đặc biết các môn khoa học xã hội; 4. Đánh giá hạnh kiểm có ý nghĩa ra sao : Các em có đạo đức tốt thì kết quả học tập có tốt không… 5. Phân lớp học sinh thế nào là hiệu quả nhất. Việc phân cụm dữ liệu dựa trên kết quả học tập, tu dƣỡng của học sinh sẽ giải quyết các yêu cầu trên. Hay nói khác đi, trả lời các câu hỏi trên, ngƣời ta đã phân hoạch các học sinh theo các cụm khác nhau. Các tìm hiểu lý thuyết trong các chƣơng trên sẽ làm nền cho thực nghiệm. C. 3. 3. Áp dụng phân cụm học sinh tại trường Cao đẳng nghề Văn Lang Hà Nội 1) 3. 3. 1. Xây dựng CSDL học sinh STT Tên trƣờng Kiểu dữ liệu Độ rộng trƣờng Phần thập phân Mô tả 1 MHS String 9 Mã học sinh 2 Ho_dem String 20 Họ đệm 3 Ten String 9 Tên học sinh 4 NGÀYSINH Date 11 Ngày sinh 5 GT String 4 Giới tính 6 Noi_o String 13 Nơi ở 7 Khu_vuc String 24 Khu vực 8 Dan_toc String 8 Dân tộc 9 HCGĐ String 15 Hoàn cảnh gia đình 10 MN String 6 Mã ngành học 11 TOAN Numeric 4 1 Điểm TB môn toán 12 LY Numeric 4 1 Điểm TB môn Lý 13 HOA Numeric 4 1 Điểm TB môn Hoá 14 Sinh Numeric 4 1 Điểm TB môn Sinh 15 Van Numeric 4 1 Điểm TB môn Văn 16 su Numeric 4 1 Điểm TB môn Sử 17 dia Numeric 4 1 Điểm TB môn Địa 18 anh Numeric 4 1 Điểm TB môn Anh 19 DTB Numeric 12 1 Điểm trung bình các môn học 20 Dao_duc String 5 0 Đạo đức 21 Cluster Numeric 8 0 Phân cụm chính k meas 22 KC_cum Numeric 15 2 Khoảng cách giữa các thành viên đến cụm 23 Cum_toan Numeric 8 0 Phân cụm môn toán 24 Kc_toan Numeric 15 2 Khoảng cách giữa các thành viên đến cụm toán 25 Cum_van Numeric 8 0 Cụm Văn 26 Kc_van Numeric 15 2 Khoảng cách giữa các thành viên đến cụm văn (i) Bảng 3. 3. Bảng xây dựng CSDL học sinh Ở bảng CSDL trên thì khu vực ta chia ra nhƣ sau: 1. Khu vực Đồng bằng sông Hồng, Trung du và miền núi phía Bắc, và Bắc trung bộ. Trong đó Đồng bằng sông Hồng gồm các tỉnh: Hà Nội, Hà Tây, Vĩnh phúc, Bắc Ninh, Quảng Ninh, Hải Dƣơng, Hải Phòng, Hƣng Yên, Thái Bình, Hà Nam, Nam Định, Ninh Bình. 2. Khu vực Trung du và miền núi phía Bắc gồm: Hà Giang, Cao Bằng, Bắc Kạn, Tuyên Quang, Lào Cai, Yên Bái, Thái Nguyên, Lạng Sơn, Bắc Giang, Phú Thọ, Điện Biên, Lai Châu, Sơn La, Hoà Bình. 3. Khu vực Bắc Trung Bộ gồm: Thanh Hoá, Nghệ An, Hà Tĩnh, Quảng Bình, Quảng Trị, Thừa thiên Huế. Các môn học đƣợc đƣa vào phân tích là môn học cuối lớp 12. Ở đây luận văn định nghĩa : ĐTB là tổng trung bình các môn học trong đó môn toán và môn văn tính hệ số 2. Các trƣờng nhƣ Cluster, cụm_toán, cum_van: là phân cụm theo thuật toán K-means để phân loại học sinh vào các cụm nhƣ; Giỏi, khá, trung bình, yếu, kém. Các trƣờng nhƣ KC_toan, KC_van, Kc_cum là tính giá trị khoảng cách từ đối tƣợng đang xét đến trung tâm cụm. Xét kết quả học tập của học sinh khi tham gia phân cụm tổng số là 711 học sinh của khoá 5. (b) Hình 3. 1. Kết quả học tập của học sinh khi tham gia phân cụm Ở hình trên ta nhận thấy kết quả học tập của học sinh tập trung nhiều ở điểm trung bình các môn học từ 5.0 đến 6.0. Đặc biệt số lƣợng học sinh nhiều nhất có kết quả học tập từ 5.5 đến 5.7 và nhiều nhất là 5.6. Đây là một kết quả phản ánh đầu vào học sinh còn thấp, chiếm tỉ lệ cao các học sinh có kết quả trung bình và trung bình yếu. Số lƣợng của 3 loại điểm trung bình 5.5; 5.6 và 5.7 tƣơng ứng là 54; 63; 57 học sinh tổng số là 174 học sinh chiếm 24.5% tức là chiếm 1/4 tổng số học sinh ta tham gia phân tích. 2) 3. 3. 2. Kết quả phân cụm theo thuật toán k-means Mở chƣơng trình SPSS và phân cụm kết quả học tập của học sinh theo thuật toán K-means. Với kết quả học tập nhƣ trên, ngƣời dùng có thể xác định hình dạng cụm để thuận lợi cho việc phân tích, đáp ứng nhu cầu của quản lý giáo dục. Luận văn nhất trí phân chia làm 5 cụm: nhằm phản ánh đối tƣợng học sinh theo 5 cách đánh giá của Bộ giáo dục và đào tạo là : Giỏi, khá, trung bình, yếu, kém. Kết quả học tập của học sinh sau khi đƣợc phân ra 5 cụm, có các khoảng điểm cụ thể nhƣ sau: Cụm 1-TC 6.5 2-TC 7.9 3 TC 5.3 4-TC 4.7 5-TC 5.9 (6.3-7.3) (7.4-8.4) (5.0-5.6) (3.8-4.9) (5.7-6.2) Số lƣợng Tỉ lệ Số lƣợng Tỉ lệ Số lƣợng Tỉ lệ Số lƣợng Tỉ lệ Số lƣợng Tỉ lệ 82 11.5% 3 0.4% 315 44.3% 98 13.8% 213 30% (i) Bảng 3. 4. Kết quả phân cụm và số lƣợng cụ thể từng cụm Theo kết quả phân cụm trên thì ta có thể thấy: Đối chiếu với kết quả xếp loại của Bộ giáo dục và đào tạo thì: Cụm 1 là cụm có kết quả học sinh đạt loại khá Cụm 2 là cụm giỏi Cụm 3 và cụm 5 là cụm trung bình Cụm 4 là cụm yếu. Trong đó cụm 3 dạng trung bình thấp và cụm 5 là trung bình cao. Nhìn vào bảng số liệu trên ta nhận thấy tỉ lệ điểm của học sinh có tỉ lệ điểm thấp chiếm tỉ lệ cao. Do vậy nhà trƣờng tuyển sinh chủ yếu là các đối tƣợng có kết quả học tập đạt kết quả thấp trong các trƣờng trung học phổ thông. Vùng Các cụm 1-TC 6.5 2-TC 7.9 3-TC 5.3 4-TC 4.7 5-TC 5.9 (6.3-7.3) (7.4-8.4) (5.0-5.6) (3.8-4.9) (5.7-6.2) SL % SL % SL % SL % SL % Bắc trung bộ 12 14.5% 0 0.0% 36 43.4% 7 8.40% 28 33.7% ĐB sông Hồng 45 13.3% 3 0.9% 142 42.0% 43 12.7% 105 31.1% Trung 25 8.6% 0 0.0% 137 47.2% 48 16.6% 80 27.6%