Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)
i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRỊNH ANH TUẤN PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG PHÂN CỤM SINH HỌC TRƢỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn: TS.Nguyễn Long Giang THÁI NGUYÊN - 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CAM ĐOAN Tác giả Trịnh Anh Tuấn xin cam kết nội dung Luận văn chƣa đƣợc nộp cho chƣơng trình cấp cao học nhƣ chƣơng trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngoài phần đƣợc trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii LỜI CẢM ƠN Để hoàn thành đƣợc luận văn này, trƣớc hết xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học Cơng nghệ Việt Nam tận tình hƣớng dẫn, bảo, định hƣớng, đóng góp ý kiến quý báu suốt trình thực luận văn Tôi xin chân thành cảm ơn thầy, cô giáo Bộ mơn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Phòng Đào tạo Sau đại học - Nghiên cứu Khoa học, Trƣờng Đại học Công nghệ thông tin truyền thông Thái Nguyên tạo điều kiện tốt để tơi hồn thành khóa học Xin cám ơn đồng nghiệp trƣờng Trung học sở Chu Văn An thành phố Thái Nguyên trợ giúp nhiều thời gian qua Trong trình thực Luận văn, cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận đƣợc bảo vào đóng góp tận tình thầy để luận văn em đƣợc hoàn thiện Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH .viii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tƣợng phạm vi nghiên cứu 1.4 Phƣơng pháp nghiên cứu 1.5 Cấu trúc luận văn Chƣơng TỔNG QUAN 1.1 Quá trình khám phá tri thức 1.2 Khai phá liệu 1.2.1 Khái niệm khai phá liệu 1.2.2 Các kỹ thuật khai phá liệu 1.3 Phân cụm liệu 1.3.1 Khái niệm phân cụm liệu 1.3.2 Một số vấn đề phân cụm liệu 1.3.3 Mục tiêu phân cụm liệu 10 1.3.4 Các bước phân cụm liệu .10 1.3.5 Yêu cầu phân cụm liệu 11 1.3.6 Ứng dụng phân cụm liệu 12 1.4 Kết luận chƣơng 13 Chƣơng CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU .14 2.1 Kiểu liệu 14 2.1.1 Phân loại kiểu liệu dựa kích thước miền .14 2.1.2 Phân loại kiểu liệu dựa hệ đo 14 2.2 Phép đo độ tƣơng tự phép đo khoảng cách 16 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v 2.2.1 Khái niệm tương tự không tương tự 16 2.2.2 Phép đo khoảng cách .17 2.3 Phƣơng pháp phân cụm phân hoạch 18 2.3.1 Giới thiệu phương pháp 18 2.3.2 Thuật toán K-MEANS 19 2.3.3 Thuật toán PAM .21 2.4 Phƣơng pháp phân cụm phân cấp 24 2.4.1 Giới thiệu phương pháp 24 2.4.2 Thuật toán HERACHICAL .25 2.4.3 Thuật toán BIRCH 28 2.5 Phƣơng pháp phân dựa mật độ 31 2.5.1 Giới thiệu phương pháp 31 2.5.2 Thuật toán DBSCAN 32 2.6 Phƣơng pháp phân cụm dựa lƣới 36 2.6.1 Giới thiệu phương pháp 36 2.6.2 Thuật toán STING 37 2.7 Kết luận chƣơng 40 Chƣơng PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƢỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN 41 3.1 Bài toán phân cụm kết học tập học sinh trƣờng trung học sở Chu Văn An…………………………………………………………………………………….41 3.1.1 Giới thiệu trường Trung học sở Chu Văn An 41 3.1.2 Bảng liệu kết học tập học sinh 42 3.1.3 Bài toán phân cụm kết học tập học sinh 43 3.2 Lựa chọn phƣơng pháp, công cụ 44 3.2.1 Lựa chọn ngôn ngữ R thực phân cụm 44 3.2.2 Các bước thực phân cụm ngôn ngữ R .46 3.3 Kết phân cụm thuật toán K-means 48 3.3.1 Phân cụm học sinh dựa kết học tập 48 3.3.2 Phân cụm học sinh dựa điểm trung bình mơn 52 3.3.3 Phân cụm dựa điểm trung bình mơn tốn mơn văn .53 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi 3.4 Kết luận chƣơng 54 KẾT LUẬN .55 TÀI LIỆU THAM KHẢO 57 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 3.1 Bảng liệu kết học tập học sinh 43 Bảng 3.2 Phân cụm theo kết học tập 48 Bảng 3.3 Thống kê phân cụm theo địa bàn hành 49 Bảng 3.4 Thống kê phân cụm theo hồn cảnh gia đình 50 Bảng 3.5 Thống kê phân cụm theo dân tộc 51 Bảng 3.6 Thống kê phân cụm theo giới tính 52 Bảng 3.7 Phân cụm theo điểm trung bình mơn tốn 52 Bảng 3.8 Phân cụm theo điểm trung bình môn văn 53 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii DANH MỤC CÁC HÌNH Hình 1.1 Q trình khám phá tri thức Hình 1.2 Quy trình phân cụm Hình 2.1 Khởi tạo đối tƣợng medoid 22 Hình 2.2 Cây CF đƣợc dùng thuật toán BIRCH 29 Hình 2.3 Ý tƣởng thuật tốn phân cụm phân cấp 31 Hình 2.4 Lân cận với ngƣỡng điểm p 32 Hình 2.5 Mật độ liên lạc 33 Hình 2.6 Mật độ liên thơng 34 Hình 2.7 Các mức lƣới khác q trình truy vấn 38 Hình Website trƣờng Trung học sở Chu Văn An 41 Hình 3.2 Cơ cấu tổ chức trƣờng Trung học sở Chu Văn An 42 Hình 3.3 Thống kê số học sinh theo điểm tốn 47 Hình 3.4 Kết phân cụm 48 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Sự phát triển nhanh chóng ứng dụng cơng nghệ thông tin Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật năm gần tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin từ sở liệu khổng lồ nhằm mục đích dự báo, hỗ trợ định, bên cạnh phƣơng pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phƣơng pháp, kỹ thuật phần mềm hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin, lĩnh vực đƣợc gọi khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) Khai phá liệu khám phá tri thức lĩnh vực quan trọng ngành Công nghệ thơng tin với mục tiêu tìm kiếm tri thức có ích, cần thiết, tiềm ẩn chƣa đƣợc biết trƣớc sở liệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Khai phá liệu xem nhiệm vụ quan trọng trình khám phá tri thức từ sở liệu, bao gồm ba bƣớc chính: thu thập tiền xử lý liệu; lựa chọn thuật toán khai phá liệu; đánh giá kết biểu diễn tri thức Các toán quan trọng khai phá liệu bao gồm: phân lớp (classification); hồi quy (regression); phân cụm (clustering); khai phá luật kết hợp (rule association)… Các kỹ thuật, công cụ sử dụng khai phá liệu bao gồm: định; mạng nơron nhân tạo; thuật toán di truyền; kỹ thuật phân lớp, phân cụm; phƣơng pháp thống kê nhƣ phân tích tƣơng quan, phân tích phƣơng sai, hồi quy đơn biến, đa biến Khai phá liệu có nhiều ứng dụng lĩnh vực khác đời sống nhƣ: phân tích, dự báo kinh tế, tài chính; chuẩn đốn bệnh y tế; tin sinh học; hỗ trợ trình sản xuất, kinh doanh Phân cụm (clustering) tốn có vai trò quan trọng khai phá liệu có nhiều ứng dụng thực tiễn Mục tiêu phƣơng pháp phân cụm liệu q trình nhóm đối tƣợng tƣơng tự sở liệu vào cụm cho đối tƣợng cụm tƣơng đồng, đối tƣợng thuộc Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn cụm khác không tƣơng đồng Điểm mạnh phân cụm liệu đƣa đƣợc cấu trúc có ích cụm đối tƣợng tìm thấy trực tiếp từ liệu mà khơng cần tri thức sở Giống nhƣ cách tiếp cận học máy, phân cụm liệu đƣợc hiểu nhƣ phƣơng pháp học khơng có thầy (unsupervised learning) Khơng giống nhƣ phân lớp liệu, phân cụm liệu khơng đòi hỏi phải định nghĩa trƣớc mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Trong phƣơng pháp biết kết cụm thu đƣợc nhƣ bắt đầu q trình Vì vậy, cần có chuyên gia để đánh giá cụm thu đƣợc Phân cụm liệu đƣợc sử dụng nhiều ứng dụng phân đoạn thị trƣờng, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, phân loại, đánh giá học sinh, sinh viên trƣờng học… Ngồi ra, phân cụm liệu đƣợc sử dụng nhƣ bƣớc tiền xử lí cho thuật toán khai phá liệu khác Là ngƣời công tác lĩnh vực giáo dục phổ thông, với mong muốn áp dụng kiến thức học phƣơng pháp phân cụm vào toán thực tiễn phân cụm học sinh trƣờng Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: “Phân cụm liệu ứng dụng phân cụm học sinh trường Trung học sở Chu Văn An” 1.2 Mục tiêu đề tài Nắm bắt đƣợc cách tổng thể phƣơng pháp phân cụm khai phá liệu Trên sở đó, áp dụng kỹ thuật phân cụm vào giải toán thực tiễn địa phƣơng nơi tác giả làm việc phân cụm kết học tập học sinh trƣờng Trung học sở Chu Văn An, thành phố Thái Nguyên 1.3 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài phƣơng pháp phân cụm liệu khai phá liệu sở liệu kết học tập học sinh trƣờng Trung học sở Chu Văn An, thành phố Thái Nguyên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 44 thống kê theo chủ đề sau nhằm phục vụ công tác quản lý đào tạo Trƣờng: - Thống kê theo nơi sinh (NOISINH) nhằm trả lời câu hỏi học sinh vùng có kết học tập tốt - Thống kê theo dân tộc (DANTOC) nhằm trả lời câu hỏi học sinh dân tộc có kết học tập tốt - Thống kê theo hoàn cảnh gia đình (HCGD) xem hồn cảnh gia đình có ảnh hƣởng đến kết học tập nhƣ nào? - Thống kê theo giới tính (GIOITINH) xem giới tính (Nam/Nữ) có ảnh hƣởng đến kết học tập nhƣ nào? 2) Phân cụm học sinh dựa điểm trung bình mơn Tốn, Lý, Hóa, Văn, Sử, Địa, Sinh… nhằm tƣ vấn, định hƣớng cho học sinh lựa chọn thi vào khối chuyên cấp Tỉnh Ví dụ, phân cụm dựa điểm trung bình mơn Tốn hỗ trợ tƣ vấn cho học sinh cụm giỏi toán thi vào cấp chuyên toán Tỉnh 3) Phân cụm có ràng buộc theo điểm TB mơn tốn (TOAN) điểm TB mơn văn (VAN) xem mơn tốn học tốt có tác động đến kết học tập môn học xã hội khác không (chọn môn văn điển hình) ? 3.2 Lựa chọn phƣơng pháp, công cụ 3.2.1 Lựa chọn ngôn ngữ R thực phân cụm Ngơn ngữ R Phân tích số liệu biểu đồ thƣờng đƣợc tiến hành phần mềm thông dụng nhƣ SAS, SPSS, Stata, Statistica, S-Plus Đây phần mềm đƣợc công ty phần mềm phát triển giới thiệu thị trƣờng khoảng ba thập niên qua, đƣợc trƣờng đại học, trung tâm nghiên cứu công ty toàn giới sử dụng cho giảng dạy nghiên cứu Nhƣng chi phí để sử dụng phần mềm tuơng đối đắt tiền, số trƣờng đại học nƣớc phát triển khơng có khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 45 mới, với chủ trƣơng mã nguồn mở, cho tất thành viên ngành thống kê học tốn học giới sử dụng cách thống hoàn toàn miễn phí Năm 1996, báo quan trọng tính tốn thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman thuộc Trƣờng đại học Auckland, New Zealand phát hoạ ngôn ngữ cho phân tích thống kê mà họ đặt tên R [17] Sáng kiến đƣợc nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến nay, qua chƣa đầy 10 năm phát triển, ngày có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lƣới triệu ngƣời sử dụng R, số tăng nhanh Có thể nói vòng 10 năm nữa, vai trò phần mềm thống kê thƣơng mại khơng lớn nhƣ thời gian qua Vậy R ? Nói cách ngắn gọn, R phần mề sử dụng cho phân tích thống kê vẽ biểu đồ Về chất, R ngơn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, ngƣời ta sử dụng R để phát triển thành phần mềm chuyên môn Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Khi tải R xuống máy tính, bƣớc cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hƣớng dẫn cách cài đặt hình Đây bƣớc đơn giản, cần phút việc cài đặt R hồn tất Tài liệu cần tải về, tùy theo phiên bản, nhƣng thƣờng có tên bắt đầu mẫu tự R số phiên (version) Tài liệu khoảng 26 MB, địa cụ thể để tải là: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 46 http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Phương pháp phân cụm Luận văn lựa chọn thuật toán phân cụm K-means để thử nghiệm với toán phân cụm kết học tập học sinh trƣờng Trung học sở Chu Văn An 3.2.2 Các bước thực phân cụm ngôn ngữ R Giả sử tệp liệu kết học tập học sinh sử dụng để thực nghiệm D:\DEMO\KHOI9.CSV (tệp excel) Phần tiếp theo, luận văn mô tả bƣớc thực lệnh ngôn ngữ R thực thuật toán K-means liệu thực nghiệm Nạp liệu vào vùng làm việc R - Dịch chuyển trỏ tới thƣ mục làm việc: setwd("D:/DEMO") - Đặt đƣờng dẫn tới tệp làm việc: path=paste(getwd(),"/KHOI9.CSV",sep="") - Nạp liệu vào vùng làm việc từ tệp KHOI09.CSV: dat = read.csv(path,header=TRUE,sep=",") Mô tả liệu - Phân bố số học sinh theo điểm trung bình mơn: plot(dat[,20],ylab="Trung bình mơn",xlab="Số học sinh",main="Biểu đồ mơ tả học sinh theo TBCM",pch=20,col=3) - Thống kê số học sinh theo điểm tốn: hist(dat[,5],col=2,ylab="Số lƣợng học sinh",xlab="Điểm tốn",main="Biểu đồ thơng kê học sinh theo điểm tốn") Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 47 Hình 3.3 Thống kê số học sinh theo điểm toán Biểu đồ cho thấy phân lớn học sinh tập trung từ 7.5 đến 9.5 điểm Trong 208 học sinh có khoảng 32 học sinh 7.5 đến 8, 40 học sinh có điểm tốn đến 8.5, 32 học sinh có điểm tốn 8.5 đến 34 học sinh có điểm khoảng đến 9.5 Thực thuật toán K-means Giả sử phân cụm học sinh theo trƣờng điểm toán (TOAN) điểm văn (VAN) với số cụm 03 - Lấy trƣờng cần phân cụm vào ma trận số X gồm trƣờng toán, văn: X = datN[,1:2] - Thiết lập vùng làm việc: set.seed(1) - Sử dụng thuật toán K-means phân X thành 03 cụm, với tâm cụm đƣợc lấy ngẫu nhiên khoảng [1,10]: km = kmeans(X,3, nstart=10) - Vẽ cặp phân cụm giữ điểm toán điểm văn: plot(X[c(1,2)], col =(km$cluster +1), main="K-Means result with clusters", pch=20, cex=2) - Hiện thị tâm cụm: points(km$centers,col=c(2,3,4), pch=8,cex=4) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 48 Hình 3.4 Kết phân cụm 3.3 Kết phân cụm thuật toán K-means Số liệu sử dụng thực nghiệm bảng kết học tập 208 học sinh lớp năm học 2014-2015 trƣờng Trung học sở Chu Văn An (có cấu trúc nhƣ Bảng 3.1) 3.3.1 Phân cụm học sinh dựa kết học tập Để thuận lợi cho việc phân tích đáp ứng nhu cầu quản lý đào tạo, luận văn phân chia liệu thử nghiệm thành 03 cụm nhằm phản ánh đánh giá học sinh theo 03 mức: xuất sắc, giỏi, Trong trƣờng hợp tổng quát phân thành nhiều cụm khác đáp ứng nhu cầu quản lý nhà trƣờng Kết phân cụm 208 học sinh theo kết học tập đƣợc cho Bảng 3.2 dƣới đây: Bảng 3.2 Phân cụm theo kết học tập Các cụm Cụm Cụm Cụm Tâm cụm 8.4 (8.0-8.7) Tâm cụm 7.6 (6.5-7.9) Tâm cụm 9.2 (8.8-9.9) Số lƣợng Tỷ lệ Số lƣợng Tỷ lệ Số lƣợng Tỷ lệ 88 42,3% 35 16,8% 85 40,9% Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 49 Theo kết phân cụm Bảng 3.2 ta có: Cụm cụm có kết học sinh đạt loại giỏi, số lƣợng học sinh 88, chiếm 42,3%, bao gồm học sinh có điểm trung bình từ 8.0 đến 8.7 Cụm cụm có kết học sinh đạt loại khá, chiếm 16,8%, bao gồm học sinh có điểm trung bình từ 6.5 đến 7.9 Cụm cụm có kết học sinh đạt xuất sắc, chiếm 40,9%, bao gồm học sinh có điểm trung bình từ 8.8 đến 9.9 Sau có kết phân cụm, luận văn thực thống kê số liệu cụm theo chủ đề phục vụ cho công tác quản lý đào tạo trƣờng Kết thống kê đƣợc trình bày mục 3.3.1.1 Thống kê theo địa bàn hành (nơi sinh) Bảng 3.3 Thống kê phân cụm theo địa bàn hành Nơi sinh Cụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lƣợng Các cụm Cụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lƣợng Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lƣợng Huyện Phú Lương 4.5% 0% 3.5% Thành phố Thái Nguyên 76 86.3% 32 91.4% 73 85.9% Huyện Đại Từ 3.4% 2.8% 2.3% Huyện Phú Bình 1.1% 0% 0% Thị xã Bắc Kạn 2.2% 0% 1.1% Huyện Võ Nhai 2.2% 2.8% 1.1% Huyện Chí Linh 0% 2.8% 0% Huyện Phổ Yên 0% 0% 1.1% Huyện Đồng Hỷ 0% 0% 3.5% Thị xã Hà Giang 0% 0% 1.1% Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 Kết thống kê cho thấy: Cụm cụm có kết học sinh đạt loại xuất sắc, tập trung chủ yếu thành phố Thái Nguyên 73 học sinh, chiếm 85,9% Cụm cụm có kết học sinh đạt loại giỏi, tập trung chủ yếu thành phố Thái Nguyên 32 học sinh, chiếm 86,3% Cụm cụm có kết học sinh đạt loại khá, tập trung chủ yếu thành phố Thái Nguyên 76 học sinh, chiếm 91,4% Điều dễ hiểu học sinh trƣờng Trung học sở Chu Văn An chủ yếu đến từ thành phố Thái Nguyên 3.3.1.2 Thống kê theo hồn cảnh gia đình (HCGD) Bảng 3.4 Thống kê phân cụm theo hồn cảnh gia đình Hồn cảnh gia đình Tiểu thương Cụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lƣợng 24 27.2% Các cụm Cụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lƣợng 13 37.1% Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lƣợng 21 24.7% Công nhân 17 19.3% 25.7% 22 25.9% Nông dân 10.2% 8.6% 14 16.5% Cán viên chức 38 43.2% 10 28.6% 24 28.2% 4.7% Con thương binh Kết thống kê cho thấy: Cụm cụm có kết học sinh đạt loại xuất sắc, tỷ lệ cao gia đình cán viên chức (28.2%), thấp em nông dân (16.5%) Cụm cụm có kết học sinh đạt loại giỏi, tập trung chủ yếu gia đình cán viên chức, chiếm 43,2%, thấp em nơng dân (10.2%) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51 Cụm cụm có kết học sinh đạt loại khá, gia đình tiểu thƣơng chiếm tỷ lệ cao (37.1%) Tóm lại, phân cụm theo hồn cảnh gia đình ta nhận thấy học sinh xuất sắc giỏi tập trung nhiều gia đình cán viên chức 3.3.1.3 Thống kê theo dân tộc (DANTOC) Bảng 3.5 Thống kê phân cụm theo dân tộc Các cụm Dân tộc Cụm Tâm cụm 8.4 Cụm Tâm cụm 7.6 Cụm Tâm cụm 9.2 (8.0-8.7) (6.5-7.9) (8.8-9.9) Số lƣợng Tỷ lệ Số lƣợng Tỷ lệ Số lƣợng Tỷ lệ Kinh 66 75% 33 94.3% 75 88.2% Tày 16 18.2% 2.8% 4.7% Nùng 3.4% 0% 2.3% Sán Dìu 2.3% 0% 1.2% Dao 1.1% 0% 0% Cờ lao 0% 2.8% 1.2% Hoa 0% 0% 1.2% Cống 0% 0% 1.2% Kết thống kê cho thấy học sinh xuất sắc, giỏi tập trung chủ yếu dân tộc Kinh, nguyên nhân học sinh dân tộc Kinh chiếm tỷ lệ chủ yếu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 3.3.1.4 Thống kê theo giới tính (GIOITINH) Bảng 3.6 Thống kê phân cụm theo giới tính Các cụm Giới tính Cụm Cụm Cụm Tâm cụm 8.4 Tâm cụm 7.6 Tâm cụm 9.2 (8.0-8.7) (6.5-7.9) (8.8-9.9) Số lƣợng Tỷ lệ Số lƣợng Tỷ lệ Số lƣợng Nam 44 50% 24 68.6% 30 35.3% Nữ 44 50% 11 31.4% 55 64.7% Kết thống kê cho thấy, cụm học sinh xuất sắc, số học sinh nữ cao số học sinh nam Ở cụm học sinh học khá, số lƣợng học sinh nữ nhỏ số học sinh nam Nhƣ vậy, học sinh nữ có xu hƣớng học tốt học sinh nam 3.3.2 Phân cụm học sinh dựa điểm trung bình mơn Thực phân cụm học sinh theo điểm trung bình mơn thành 04 cụm tƣơng ứng với kết xuất sắc, giỏi, khá, trung bình 3.3.2.1 Phân cụm dựa điểm trung bình mơn tốn (TOAN) Bảng 3.7 Phân cụm theo điểm trung bình mơn tốn Cụm Tâm cụm 9.2 Số Tỷ lệ lƣợng 68 32.7% Cụm Tâm cụm 8.3 Số Tỷ lệ lƣợng 68 32.8% Cụm Tâm cụm 7.4 Số Tỷ lệ lƣợng 50 24% Cụm Tâm cụm 6.5 Số lƣợng Tỷ lệ 22 10.5% Nhƣ vậy, cụm tƣơng ứng với kết xuất sắc, cụm tƣơng ứng với kết giỏi, cụm tƣơng ứng với kết khá, cụm tƣơng ứng với kết trung bình Kết phân cụm cho thấy, cụm bao gồm 68 học sinh học xuất sắc mơn tốn (chiếm tỷ lệ 32.7%) Do đó, 68 học sinh đƣợc tƣ vấn thi vào cấp chuyên Toán 3.3.2.2 Phân cụm dựa điểm trung bình mơn văn (VAN) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 53 Bảng 3.8 Phân cụm theo điểm trung bình mơn văn Cụm Tâm cụm 7.8 Số Tỷ lệ lƣợng 52 25% Cụm Tâm cụm 8.7 Số Tỷ lệ lƣợng 58 27.9% Cụm Tâm cụm 6.9 Số Tỷ lệ lƣợng 32 15.4% Cụm Tâm cụm 9.4 Số lƣợng Tỷ lệ 66 31.7% Nhƣ vậy, cụm tƣơng ứng với kết khá, cụm tƣơng ứng với kết giỏi, cụm tƣơng ứng với kết trung bình, cụm tƣơng ứng với kết xuất sắc Kết phân cụm cho thấy, cụm bao gồm 66 học sinh học xuất sắc môn văn (chiếm tỷ lệ 31.7%) Do đó, 66 học sinh đƣợc tƣ vấn thi vào cấp chuyên văn Phân cụm tƣơng tự môn học khác để thực tƣ vấn học sinh thi vào khối chuyên cấp tỉnh 3.3.3 Phân cụm dựa điểm trung bình mơn tốn mơn văn Ở trƣờng trung học sở hai mơn mang tính định hình thành tƣ nhân cách học sinh môn tốn mơn văn Hai mơn Bộ giáo dục đánh giá cao môn khác cụ thể việc tính điểm trung bình mơn học hai mơn đƣợc tính hệ số mơn khác hệ số Hai môn môn chủ đạo Hàng năm, tỉnh tuyển sinh chuyển cấp thi hai môn học Trong kỳ thi tốt nghiệp trung học sở thi tốt nghiệp hai môn học Do ta xem xét kết học tập học sinh từ hai môn học nhằm mục đích xem có liên hệ, ảnh hƣởng qua lại lẫn hai môn học nhằm giúp cho nhà trƣờng có định hƣớng tốt trình giảng dạy học tập học sinh Để phân tích kết học tập mơn tốn ảnh hƣởng đến kết học tập mơn văn nhƣ nào, luận văn thực công việc phân cụm nhƣ sau: - Phân cụm học sinh dựa điểm trung bình mơ tốn thành cụm Kết phân cụm theo mơn tốn Bảng 3.7 (mục 3.3.2.1) - Với cụm tốn tìm đƣợc, thực phân cụm theo kết học tập môn văn Kết thu đƣợc Bảng 3.9 nhƣ sau: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 Bảng 3.9 Phân cụm theo mơn tốn mơn văn Xuất sắc (Cụm 1, 68 học sinh) Số Tỷ lệ lƣợng Cụm theo mơn tốn Giỏi Khá (Cụm 2, 68 học (Cụm 3, 50 học sinh) sinh) Số Tỷ lệ Số Tỷ lệ lƣợng lƣợng Trung bình (Cụm 4, 22 học sinh) Số Tỷ lệ lƣợng Xuất sắc (cụm 4) 32 47.1% 24 35.3% 19 38% 4.5% Giỏi (cụm 2) 14 20.6% 18 26.5% 10% 18.2% Khá (cụm 1) 12 17.6% 11 16.1% 16 32% 31.8% Trung bình (cụm 3) 10 14.7% 15 22.1% 10 20% 10 45.4% Cụm theo môn văn Xét cụm xuất sắc mơn tốn (cụm mơn tốn) ta nhận thấy 68 học sinh học xuất sắc mơn tốn có 32 học sinh học xuất sắc mơn văn, chiếm tỷ lệ 47.1% Vậy ta nhận thấy việc học giỏi mơn tốn dẫn đến việc em học giỏi môn xã hội cao Ngƣợc lại, xét cụm trung bình mơn tốn (cụm mơn tốn) tổng số 22 học sinh học trung bình mơn tốn có 01 em học giỏi mơn văn, lại phần lớn học trung bình mơn văn Do đó, việc học giỏi mơn tốn ảnh hƣởng nhiều đến học giỏi môn xã hội 3.4 Kết luận chƣơng Trong chƣơng này, luận văn phát biểu toán phân cụm kết học tập học sinh lớp trƣờng Trung học sở Chu Văn An thành phố Thái Nguyên, lựa chọn thuật tốn phân cụm K-means, cơng cụ thực ngơn ngữ phân tích liệu R Trên sở đó, luận văn trình bày kết thử nghiệm phân cụm 208 học sinh lớp Kết phân cụm có ý nghĩa quan trọng cơng tác quản lý đào tạo Trƣờng hỗ trợ, tƣ vấn cho học sinh lớp thi vào trƣờng chuyên cấp tỉnh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 55 KẾT LUẬN Những kết luận văn Luận văn tổng hợp vấn đề khai phá liệu sâu trình bày phân cụm liệu, kỹ thuật phổ biến khai phá liệu Trong lĩnh vực phân cụm liệu, có đƣợc số thành định Hiện nay, hệ thống sở liệu ngày phát triển đa dạng, nhu cầu khám phá tri thức sở liệu ngày lớn, việc nghiên cứu mơ hình liệu áp dụng đƣợc phƣơng pháp phân cụm liệu xu tất yếu, vừa có ý nghĩa khoa học nhƣ thực tiễn Chƣơng 1, luận văn trình bày nét tổng quan phân cụm liệu, bao gồm vấn đề nhƣ khám phá tri thức, khai phá liệu phân cụm liệu Trên sở đó, Chƣơng sâu giới thiệu phƣơng pháp phân cụm liệu thuật toán phân cụm liệu, có số thuật tốn tảng phƣơng pháp tiếp cận, số thuật toán mở rộng, cải tiến thuật toán sở để giải đƣợc đa dạng liệu, xử lý vấn đề nhiễu ngoại lai Chƣơng áp dụng thuật tốn phân cụm K-means trình bày Chƣơng để giải toán phân cụm kết học tập học sinh trƣờng Trung học sở Chu Văn An Tóm lại, phân cụm liệu lĩnh vực đƣợc quan tâm nghiên cứu nhiều, có phạm vi ứng dụng rộng, liên quan đến nhiều ngành khoa học khác Trong trình làm luận văn, tác giả cố gắng nghiên cứu, sƣu tầm, tập trung trình bày vấn đề cách tổng hợp nhƣng trình độ thời gian có hạn, phạm vi trình bày lĩnh vực nghiên cứu rộng, vậy, luận văn chắn có nhiều hạn chế thiếu sót, nhiều vấn đề để mở cho hƣớng nghiên cứu Tác giả mong nhận đƣợc ý kiến đánh giá, đóng góp, bảo thầy giáo bạn bè Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 56 Hƣớng nghiên cứu Trong thời gian tới, tác giả luận văn tiếp tục tìm hiểu mơ hình liệu đặc thù, lựa chọn kỹ thuật phân cụm liệu phù hợp nhằm xây dựng đƣợc ứng dụng thực tiễn Hƣớng nghiên cứu cụ thể nhƣ sau: - Tập trung nghiên cứu phát triển vấn đề để mở dựa kiến thức sở trình bày - Xây dựng phát triển kỹ thuật phân cụm mờ - Kết hợp kỹ thuật phân cụm với kỹ thuật khác nhƣ luật kết hợp để giải số ứng dụng thực tế Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 57 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Bùi Công Cƣờng (2005): “Một số hướng công nghệ tri thức khai phá liệu” Viện toán học, Trƣờng thu “Hệ mờ ứng dụng" lần thứ Bùi Cơng Cƣờng, Nguyễn Dỗn Phƣớc (2001): “Hệ mờ, hệ Nơron ứng dụng”, Nhà xuất KHKT Tài liệu tiếng Anh K Jain and R C Dubes (1988), Algorithms for Clustering Data, Printice Hall D Fisher (1987), Knowledge acquisition via incremental conceptual clustering, Machine Learning D Gibson, J Kleinberg and P Raghavan (1998), Clustering categorical data: An approach based on dynamic systems, In Proc, VLDB’98 Douglass Cutting, David Karger, Jan Pedersen and John W Tukey (1992), Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen Ho Tu Bao (2000), Knowledge Discovery And Data Mining, Institute of Information HiTechnology, National Center for Natural Science and Technology O Zamir and O Etzioni (1999), Groupera dynamic clustering interface to web search results, In Proceedings of the Eighth International World Wide Web Conference, Toronto, Canada, M Steinbach, G L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons 10 Spath H (1980): “Clustring Analysis Algorithms ”, Ellis Horwood Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 58 11 MacQuenn J.B: “Some methods for classification and Analysis of multivariate observations” Processings of the Symposium on Mathematical Statistics and Probability, 5th Beckley, Vol University of California Press 12 M Ester, H.-P Kriegel, J Sander and X Xu (1996), A density-based algorithm for discovering clusters in large spatial databases, KDD'96 13 M R Anderberg (1973), Cluster Analysis for Applications, Academic Press 14 P Arabie, L J Hubert and G De Soete (1996), Clustering and Classification, World Scietific 15 P Michaud (1997), Clustering techniques, Future Generation Computer systems 16 T Zhang, R Ramakrishnan and M Livny (1996), BIRCH : an efficient data clustering method for very large databases, SIGMOD'96 17 Ihaka R, Gentleman R, R: A language for data analysis and graphics, Journal of Computational and Graphical Statistics 1996, pp 299-314 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... tiễn phân cụm học sinh trƣờng Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: Phân cụm liệu ứng dụng phân cụm học sinh trường Trung học sở Chu Văn. .. 40 Chƣơng PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƢỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN 41 3.1 Bài toán phân cụm kết học tập học sinh trƣờng trung học sở Chu Văn An ………………………………………………………………………………….41... toán phân cụm liệu, bao gồm phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lƣới, phân cụm dựa mơ hình, phân cụm mờ… Chương 3: Trình bày kết thử nghiệm số thuật toán phân