Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở chu văn an

67 156 0
Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở chu văn an

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ii LỜI CAM ĐOAN Tác giả Trịnh Anh Tuấn xin cam kết nội dung Luận văn chưa nộp cho chương trình cấp cao học chương trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngồi phần trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn iii iiii LỜI CẢM ƠN Để hoàn thành luận văn này, trước hết xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học Công nghệ Việt Nam tận tình hướng dẫn, bảo, định hướng, đóng góp ý kiến quý báu suốt q trình thực luận văn Tơi xin chân thành cảm ơn thầy, giáo Bộ môn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Phòng Đào tạo Sau đại học - Nghiên cứu Khoa học, Trường Đại học Công nghệ thông tin truyền thông Thái Nguyên tạo điều kiện tốt để tơi hồn thành khóa học Xin cám ơn đồng nghiệp trường Trung học sở Chu Văn An thành phố Thái Nguyên trợ giúp nhiều thời gian qua Trong trình thực Luận văn, cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy để luận văn em hoàn thiện Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn Chương TỔNG QUAN 1.1 Quá trình khám phá tri thức 1.2 Khai phá liệu 1.2.1 Khái niệm khai phá liệu 1.2.2 Các kỹ thuật khai phá liệu 1.3 Phân cụm liệu 1.3.1 Khái niệm phân cụm liệu 1.3.2 Một số vấn đề phân cụm liệu 1.3.3 Mục tiêu phân cụm liệu 10 1.3.4 Các bước phân cụm liệu .10 1.3.5 Yêu cầu phân cụm liệu 11 1.3.6 Ứng dụng phân cụm liệu 12 1.4 Kết luận chương 13 Chương CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU .14 2.1 Kiểu liệu 14 2.1.1 Phân loại kiểu liệu dựa kích thước miền 14 2.1.2 Phân loại kiểu liệu dựa hệ đo 14 2.2 Phép đo độ tương tự phép đo khoảng cách 16 v 2.2.1 Khái niệm tương tự không tương tự 16 2.2.2 Phép đo khoảng cách .17 2.3 Phương pháp phân cụm phân hoạch 18 2.3.1 Giới thiệu phương pháp 18 2.3.2 Thuật toán K-MEANS 19 2.3.3 Thuật toán PAM .21 2.4 Phương pháp phân cụm phân cấp 24 2.4.1 Giới thiệu phương pháp 24 2.4.2 Thuật toán HERACHICAL .25 2.4.3 Thuật toán BIRCH 28 2.5 Phương pháp phân dựa mật độ 31 2.5.1 Giới thiệu phương pháp 31 2.5.2 Thuật toán DBSCAN 32 2.6 Phương pháp phân cụm dựa lưới 36 2.6.1 Giới thiệu phương pháp 36 2.6.2 Thuật toán STING 37 2.7 Kết luận chương 40 Chương PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG TRUNG HỌC SỞ CHU VĂN AN 41 3.1 Bài toán phân cụm kết học tập học sinh trường trung học sở Chu Văn An…………………………………………………………………………………….41 3.1.1 Giới thiệu trường Trung học sở Chu Văn An 41 3.1.2 Bảng liệu kết học tập học sinh 42 3.1.3 Bài toán phân cụm kết học tập học sinh 43 3.2 Lựa chọn phương pháp, công cụ 44 3.2.1 Lựa chọn ngôn ngữ R thực phân cụm 44 3.2.2 Các bước thực phân cụm ngôn ngữ R 46 3.3 Kết phân cụm thuật toán K-means 48 3.3.1 Phân cụm học sinh dựa kết học tập 48 3.3.2 Phân cụm học sinh dựa điểm trung bình mơn 52 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi 3.3.3 Phân cụm dựa điểm trung bình mơn tốn mơn văn 53 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi i 3.4 Kết luận chương 54 KẾT LUẬN .55 TÀI LIỆU THAM KHẢO 57 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 3.1 Bảng liệu kết học tập học sinh 43 Bảng 3.2 Phân cụm theo kết học tập 48 Bảng 3.3 Thống kê phân cụm theo địa bàn hành 49 Bảng 3.4 Thống kê phân cụm theo hồn cảnh gia đình 50 Bảng 3.5 Thống kê phân cụm theo dân tộc 51 Bảng 3.6 Thống kê phân cụm theo giới tính 52 Bảng 3.7 Phân cụm theo điểm trung bình mơn tốn 52 Bảng 3.8 Phân cụm theo điểm trung bình mơn văn 53 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii DANH MỤC CÁC HÌNH Hình 1.1 Q trình khám phá tri thức Hình 1.2 Quy trình phân cụm Hình 2.1 Khởi tạo đối tượng medoid 22 Hình 2.2 Cây CF dùng thuật toán BIRCH 29 Hình 2.3 Ý tưởng thuật tốn phân cụm phân cấp 31 Hình 2.4 Lân cận với ngưỡng  điểm p 32 Hình 2.5 Mật độ liên lạc 33 Hình 2.6 Mật độ liên thông 34 Hình 2.7 Các mức lưới khác q trình truy vấn 38 Hình Website trường Trung học sở Chu Văn An 41 Hình 3.2 cấu tổ chức trường Trung học sở Chu Văn An 42 Hình 3.3 Thống kê số học sinh theo điểm toán 47 Hình 3.4 Kết phân cụm 48 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Sự phát triển nhanh chóng ứng dụng cơng nghệ thơng tin Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật năm gần tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin từ sở liệu khổng lồ nhằm mục đích dự báo, hỗ trợ định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phương pháp, kỹ thuật phần mềm hỗ trợ tiến trình khám phá, phân tích, tổng hợp thơng tin, lĩnh vực gọi khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) Khai phá liệu khám phá tri thức lĩnh vực quan trọng ngành Công nghệ thông tin với mục tiêu tìm kiếm tri thức ích, cần thiết, tiềm ẩn chưa biết trước sở liệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nước tham gia nghiên cứu Khai phá liệu xem nhiệm vụ quan trọng trình khám phá tri thức từ sở liệu, bao gồm ba bước chính: thu thập tiền xử lý liệu; lựa chọn thuật toán khai phá liệu; đánh giá kết biểu diễn tri thức Các toán quan trọng khai phá liệu bao gồm: phân lớp (classification); hồi quy (regression); phân cụm (clustering); khai phá luật kết hợp (rule association)… Các kỹ thuật, công cụ sử dụng khai phá liệu bao gồm: định; mạng nơron nhân tạo; thuật toán di truyền; kỹ thuật phân lớp, phân cụm; phương pháp thống kê phân tích tương quan, phân tích phương sai, hồi quy đơn biến, đa biến Khai phá liệu nhiều ứng dụng lĩnh vực khác đời sống như: phân tích, dự báo kinh tế, tài chính; chuẩn đốn bệnh y tế; tin sinh học; hỗ trợ trình sản xuất, kinh doanh Phân cụm (clustering) toán vai trò quan trọng khai phá liệu nhiều ứng dụng thực tiễn Mục tiêu phương pháp phân cụm liệu trình nhóm đối tượng tương tự sở liệu vào cụm cho đối tượng cụm tương đồng, đối tượng thuộc Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn cụm khác không tương đồng Điểm mạnh phân cụm liệu đưa cấu trúc ích cụm đối tượng tìm thấy trực tiếp từ liệu mà khơng cần tri thức sở Giống cách tiếp cận học máy, phân cụm liệu hiểu phương pháp học thầy (unsupervised learning) Khơng giống phân lớp liệu, phân cụm liệu khơng đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu họcdụ (learning by example) Trong phương pháp biết kết cụm thu bắt đầu q trình Vì vậy, cần chun gia để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, phân loại, đánh giá học sinh, sinh viên trường học… Ngoài ra, phân cụm liệu sử dụng bước tiền xử lí cho thuật tốn khai phá liệu khác Là người công tác lĩnh vực giáo dục phổ thông, với mong muốn áp dụng kiến thức học phương pháp phân cụm vào toán thực tiễn phân cụm học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: “Phân cụm liệu ứng dụng phân cụm học sinh trường Trung học sở Chu Văn An” 1.2 Mục tiêu đề tài Nắm bắt cách tổng thể phương pháp phân cụm khai phá liệu Trên sở đó, áp dụng kỹ thuật phân cụm vào giải toán thực tiễn địa phương nơi tác giả làm việc phân cụm kết học tập học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài phương pháp phân cụm liệu khai phá liệu sở liệu kết học tập học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 44 thống kê theo chủ đề sau nhằm phục vụ công tác quản lý đào tạo Trường: - Thống kê theo nơi sinh (NOISINH) nhằm trả lời câu hỏi học sinh vùng kết học tập tốt - Thống kê theo dân tộc (DANTOC) nhằm trả lời câu hỏi học sinh dân tộc kết học tập tốt - Thống kê theo hồn cảnh gia đình (HCGD) xem hồn cảnh gia đình ảnh hưởng đến kết học tập nào? - Thống kê theo giới tính (GIOITINH) xem giới tính (Nam/Nữ) ảnh hưởng đến kết học tập nào? 2) Phân cụm học sinh dựa điểm trung bình mơn Tốn, Lý, Hóa, Văn, Sử, Địa, Sinh… nhằm tư vấn, định hướng cho học sinh lựa chọn thi vào khối chuyên cấp Tỉnh Ví dụ, phân cụm dựa điểm trung bình mơn Tốn hỗ trợ tư vấn cho học sinh cụm giỏi toán thi vào cấp chuyên toán Tỉnh 3) Phân cụm ràng buộc theo điểm TB mơn tốn (TOAN) điểm TB mơn văn (VAN) xem mơn tốn học tốt tác động đến kết học tập môn học xã hội khác không (chọn môn văn điển hình) ? 3.2 Lựa chọn phương pháp, cơng cụ 3.2.1 Lựa chọn ngôn ngữ R thực phân cụm Ngơn ngữ R Phân tích số liệu biểu đồ thường tiến hành phần mềm thông dụng SAS, SPSS, Stata, Statistica, S-Plus Đây phần mềm công ty phần mềm phát triển giới thiệu thị trường khoảng ba thập niên qua, trường đại học, trung tâm nghiên cứu cơng ty tồn giới sử dụng cho giảng dạy nghiên cứu Nhưng chi phí để sử dụng phần mềm tuơng đối đắt tiền, số trường đại học nước phát triển khơng khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm 45 mới, với chủ trương mã nguồn mở, cho tất thành viên ngành thống kê học tốn học giới sử dụng cách thống hồn tồn miễn phí Năm 1996, báo quan trọng tính toán thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman thuộc Trường đại học Auckland, New Zealand phát hoạ ngơn ngữ cho phân tích thống kê mà họ đặt tên R [17] Sáng kiến nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến nay, qua chưa đầy 10 năm phát triển, ngày nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, mạng lưới triệu người sử dụng R, số tăng nhanh thể nói vòng 10 năm nữa, vai trò phần mềm thống kê thương mại khơng lớn thời gian qua Vậy R ? Nói cách ngắn gọn, R phần mề sử dụng cho phân tích thống kê vẽ biểu đồ Về chất, R ngơn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Khi tải R xuống máy tính, bước cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình Đây bước đơn giản, cần phút việc cài đặt R hoàn tất Tài liệu cần tải về, tùy theo phiên bản, thường tên bắt đầu mẫu tự R số phiên (version) Tài liệu khoảng 26 MB, địa cụ thể để tải là: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 46 http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Phương pháp phân cụm Luận văn lựa chọn thuật toán phân cụm K-means để thử nghiệm với toán phân cụm kết học tập học sinh trường Trung học sở Chu Văn An 3.2.2 Các bước thực phân cụm ngôn ngữ R Giả sử tệp liệu kết học tập học sinh sử dụng để thực nghiệm D:\DEMO\KHOI9.CSV (tệp excel) Phần tiếp theo, luận văn mô tả bước thực lệnh ngôn ngữ R thực thuật toán K-means liệu thực nghiệm Nạp liệu vào vùng làm việc R - Dịch chuyển trỏ tới thư mục làm việc: setwd("D:/DEMO") - Đặt đường dẫn tới tệp làm việc: path=paste(getwd(),"/KHOI9.CSV",sep="") - Nạp liệu vào vùng làm việc từ tệp KHOI09.CSV: dat = read.csv(path,header=TRUE,sep=",") Mô tả liệu - Phân bố số học sinh theo điểm trung bình mơn: plot(dat[,20],ylab="Trung bình mơn",xlab="Số học sinh",main="Biểu đồ mơ tả học sinh theo TBCM",pch=20,col=3) - Thống kê số học sinh theo điểm tốn: hist(dat[,5],col=2,ylab="Số lượng học sinh",xlab="Điểm tốn",main="Biểu đồ thơng kê học sinh theo điểm tốn") Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 47 Hình 3.3 Thống kê số học sinh theo điểm toán Biểu đồ cho thấy phân lớn học sinh tập trung từ 7.5 đến 9.5 điểm Trong 208 học sinh khoảng 32 học sinh 7.5 đến 8, 40 học sinh điểm tốn đến 8.5, 32 học sinh điểm tốn 8.5 đến 34 học sinh điểm khoảng đến 9.5 Thực thuật toán K-means Giả sử phân cụm học sinh theo trường điểm toán (TOAN) điểm văn (VAN) với số cụm 03 - Lấy trường cần phân cụm vào ma trận số X gồm trường toán, văn: X = datN[,1:2] - Thiết lập vùng làm việc: set.seed(1) - Sử dụng thuật toán K-means phân X thành 03 cụm, với tâm cụm lấy ngẫu nhiên khoảng [1,10]: km = kmeans(X,3, nstart=10) - Vẽ cặp phân cụm giữ điểm toán điểm văn: plot(X[c(1,2)], col =(km$cluster +1), main="K-Means result with clusters", pch=20, cex=2) - Hiện thị tâm cụm: points(km$centers,col=c(2,3,4), pch=8,cex=4) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 48 Hình 3.4 Kết phân cụm 3.3 Kết phân cụm thuật toán K-means Số liệu sử dụng thực nghiệm bảng kết học tập 208 học sinh lớp năm học 2014-2015 trường Trung học sở Chu Văn An (có cấu trúc Bảng 3.1) 3.3.1 Phân cụm học sinh dựa kết học tập Để thuận lợi cho việc phân tích đáp ứng nhu cầu quản lý đào tạo, luận văn phân chia liệu thử nghiệm thành 03 cụm nhằm phản ánh đánh giá học sinh theo 03 mức: xuất sắc, giỏi, Trong trường hợp tổng quát phân thành nhiều cụm khác đáp ứng nhu cầu quản lý nhà trường Kết phân cụm 208 học sinh theo kết học tập cho Bảng 3.2 đây: Bảng 3.2 Phân cụm theo kết học tập Các cụm Cụm Cụm Cụm Tâm cụm 8.4 (8.0-8.7) Tâm cụm 7.6 (6.5-7.9) Tâm cụm 9.2 (8.8-9.9) Số lượng Tỷ lệ Số lượng Tỷ lệ Số lượng Tỷ lệ 88 42,3% 35 16,8% 85 40,9% Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 49 Theo kết phân cụm Bảng 3.2 ta có:  Cụm cụm kết học sinh đạt loại giỏi, số lượng học sinh 88, chiếm 42,3%, bao gồm học sinh điểm trung bình từ 8.0 đến 8.7  Cụm cụm kết học sinh đạt loại khá, chiếm 16,8%, bao gồm học sinh điểm trung bình từ 6.5 đến 7.9  Cụm cụm kết học sinh đạt xuất sắc, chiếm 40,9%, bao gồm học sinh điểm trung bình từ 8.8 đến 9.9 Sau kết phân cụm, luận văn thực thống kê số liệu cụm theo chủ đề phục vụ cho công tác quản lý đào tạo trường Kết thống kê trình bày mục 3.3.1.1 Thống kê theo địa bàn hành (nơi sinh) Bảng 3.3 Thống kê phân cụm theo địa bàn hành Nơi sinh Cụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lượng Các cụm Cụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lượng Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lượng Huyện Phú Lương 4.5% 0% 3.5% Thành phố Thái Nguyên 76 86.3% 32 91.4% 73 85.9% Huyện Đại Từ 3.4% 2.8% 2.3% Huyện Phú Bình 1.1% 0% 0% Thị xã Bắc Kạn 2.2% 0% 1.1% Huyện Võ Nhai 2.2% 2.8% 1.1% Huyện Chí Linh 0% 2.8% 0% Huyện Phổ Yên 0% 0% 1.1% Huyện Đồng Hỷ 0% 0% 3.5% Thị xã Hà Giang 0% 0% 1.1% Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 Kết thống kê cho thấy:  Cụm cụm kết học sinh đạt loại xuất sắc, tập trung chủ yếu thành phố Thái Nguyên 73 học sinh, chiếm 85,9%  Cụm cụm kết học sinh đạt loại giỏi, tập trung chủ yếu thành phố Thái Nguyên 32 học sinh, chiếm 86,3%  Cụm cụm kết học sinh đạt loại khá, tập trung chủ yếu thành phố Thái Nguyên 76 học sinh, chiếm 91,4% Điều dễ hiểu học sinh trường Trung học sở Chu Văn An chủ yếu đến từ thành phố Thái Nguyên 3.3.1.2 Thống kê theo hoàn cảnh gia đình (HCGD) Bảng 3.4 Thống kê phân cụm theo hồn cảnh gia đình Hồn cảnh gia đình Cụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lượng Các cụm Cụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lượng Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lượng Tiểu thương 24 27.2% 13 37.1% 21 24.7% Công nhân 17 19.3% 25.7% 22 25.9% Nông dân 10.2% 8.6% 14 16.5% Cán viên chức 38 43.2% 10 28.6% 24 28.2% 4.7% Con thương binh Kết thống kê cho thấy:  Cụm cụm kết học sinh đạt loại xuất sắc, tỷ lệ cao gia đình cán viên chức (28.2%), thấp em nông dân (16.5%)  Cụm cụm kết học sinh đạt loại giỏi, tập trung chủ yếu gia đình cán viên chức, chiếm 43,2%, thấp em nơng dân (10.2%) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51  Cụm cụm kết học sinh đạt loại khá, gia đình tiểu thương chiếm tỷ lệ cao (37.1%) Tóm lại, phân cụm theo hồn cảnh gia đình ta nhận thấy học sinh xuất sắc giỏi tập trung nhiều gia đình cán viên chức 3.3.1.3 Thống kê theo dân tộc (DANTOC) Bảng 3.5 Thống kê phân cụm theo dân tộc Các cụm Dân tộc Cụm Cụm Cụm Tâm cụm 8.4 Tâm cụm 7.6 Tâm cụm 9.2 (8.0-8.7) (6.5-7.9) (8.8-9.9) Số Tỷ lệ lượng Số Tỷ lệ lượng Số Tỷ lệ lượng Kinh 66 75% 33 94.3% 75 88.2% Tày 16 18.2% 2.8% 4.7% Nùng 3.4% 0% 2.3% Sán Dìu 2.3% 0% 1.2% Dao 1.1% 0% 0% Cờ lao 0% 2.8% 1.2% Hoa 0% 0% 1.2% Cống 0% 0% 1.2% Kết thống kê cho thấy học sinh xuất sắc, giỏi tập trung chủ yếu dân tộc Kinh, nguyên nhân học sinh dân tộc Kinh chiếm tỷ lệ chủ yếu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 3.3.1.4 Thống kê theo giới tính (GIOITINH) Bảng 3.6 Thống kê phân cụm theo giới tính Các cụm Giới tính Cụm Cụm Cụm Tâm cụm 8.4 Tâm cụm 7.6 Tâm cụm 9.2 (8.0-8.7) (6.5-7.9) (8.8-9.9) Số Tỷ lệ Số lượng Tỷ lệ Số lượng lượng Nam 44 50% 24 68.6% 30 35.3% Nữ 44 50% 11 31.4% 55 64.7% Kết thống kê cho thấy, cụm học sinh xuất sắc, số học sinh nữ cao số học sinh nam Ở cụm học sinh học khá, số lượng học sinh nữ nhỏ số học sinh nam Như vậy, học sinh nữ xu hướng học tốt học sinh nam 3.3.2 Phân cụm học sinh dựa điểm trung bình môn Thực phân cụm học sinh theo điểm trung bình mơn thành 04 cụm tương ứng với kết xuất sắc, giỏi, khá, trung bình 3.3.2.1 Phân cụm dựa điểm trung bình mơn tốn (TOAN) Bảng 3.7 Phân cụm theo điểm trung bình mơn tốn Cụm Tâm cụm 9.2 Số Tỷ lệ lượng 68 32.7% Cụm Tâm cụm 8.3 Số Tỷ lệ lượng 68 32.8% Cụm Tâm cụm 7.4 Số Tỷ lệ lượng 50 24% Cụm Tâm cụm 6.5 Số lượng Tỷ lệ 22 10.5% Như vậy, cụm tương ứng với kết xuất sắc, cụm tương ứng với kết giỏi, cụm tương ứng với kết khá, cụm tương ứng với kết trung bình Kết phân cụm cho thấy, cụm bao gồm 68 học sinh học xuất sắc mơn tốn (chiếm tỷ lệ 32.7%) Do đó, 68 học sinhvấn thi vào cấp chuyên Toán 3.3.2.2 Phân cụm dựa điểm trung bình mơn văn (VAN) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 53 Bảng 3.8 Phân cụm theo điểm trung bình mơn văn Cụm Tâm cụm 7.8 Số Tỷ lệ lượng 52 25% Cụm Tâm cụm 8.7 Số Tỷ lệ lượng 58 27.9% Cụm Tâm cụm 6.9 Số Tỷ lệ lượng 32 15.4% Cụm Tâm cụm 9.4 Số lượng Tỷ lệ 66 31.7% Như vậy, cụm tương ứng với kết khá, cụm tương ứng với kết giỏi, cụm tương ứng với kết trung bình, cụm tương ứng với kết xuất sắc Kết phân cụm cho thấy, cụm bao gồm 66 học sinh học xuất sắc môn văn (chiếm tỷ lệ 31.7%) Do đó, 66 học sinhvấn thi vào cấp chuyên văn Phân cụm tương tự môn học khác để thực tư vấn học sinh thi vào khối chuyên cấp tỉnh 3.3.3 Phân cụm dựa điểm trung bình mơn tốn môn văntrường trung học sở hai mơn mang tính định hình thành tư nhân cách học sinh mơn tốn môn văn Hai môn Bộ giáo dục đánh giá cao môn khác cụ thể việc tính điểm trung bình mơn học hai mơn tính hệ số mơn khác hệ số Hai môn môn chủ đạo Hàng năm, tỉnh tuyển sinh chuyển cấp thi hai môn học Trong kỳ thi tốt nghiệp trung học sở thi tốt nghiệp hai môn học Do ta xem xét kết học tập học sinh từ hai môn học nhằm mục đích xem liên hệ, ảnh hưởng qua lại lẫn hai môn học nhằm giúp cho nhà trường định hướng tốt trình giảng dạy học tập học sinh Để phân tích kết học tập mơn tốn ảnh hưởng đến kết học tập môn văn nào, luận văn thực công việc phân cụm sau: - Phân cụm học sinh dựa điểm trung bình mơ tốn thành cụm Kết phân cụm theo mơn tốn Bảng 3.7 (mục 3.3.2.1) - Với cụm tốn tìm được, thực phân cụm theo kết học tập môn văn Kết thu Bảng 3.9 sau: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 Bảng 3.9 Phân cụm theo mơn tốn mơn văn Xuất sắc (Cụm 1, 68 học sinh) Số Tỷ lệ lượng Xuất sắc (cụm 4) Cụm theo môn văn Giỏi (cụm 2) Khá (cụm 1) Trung bình (cụm 3) Cụm theo mơn toán Giỏi Khá (Cụm 2, 68 học (Cụm 3, 50 học sinh) sinh) Số Tỷ lệ Số Tỷ lệ lượng lượng Trung bình (Cụm 4, 22 học sinh) Số Tỷ lệ lượng 32 47.1% 24 35.3% 19 38% 4.5% 14 20.6% 18 26.5% 10% 18.2% 12 17.6% 11 16.1% 16 32% 31.8% 10 14.7% 15 22.1% 10 20% 10 45.4% Xét cụm xuất sắc môn tốn (cụm mơn tốn) ta nhận thấy 68 học sinh học xuất sắc mơn tốn 32 học sinh học xuất sắc môn văn, chiếm tỷ lệ 47.1% Vậy ta nhận thấy việc học giỏi môn tốn dẫn đến việc em học giỏi môn xã hội cao Ngược lại, xét cụm trung bình mơn tốn (cụm mơn tốn) tổng số 22 học sinh học trung bình mơn tốn 01 em học giỏi mơn văn, lại phần lớn học trung bình mơn văn Do đó, việc học giỏi mơn tốn ảnh hưởng nhiều đến học giỏi môn xã hội 3.4 Kết luận chương Trong chương này, luận văn phát biểu toán phân cụm kết học tập học sinh lớp trường Trung học sở Chu Văn An thành phố Thái Nguyên, lựa chọn thuật toán phân cụm K-means, công cụ thực ngôn ngữ phân tích liệu R Trên sở đó, luận văn trình bày kết thử nghiệm phân cụm 208 học sinh lớp Kết phân cụm ý nghĩa quan trọng công tác quản lý đào tạo Trường hỗ trợ, tư vấn cho học sinh lớp thi vào trường chuyên cấp tỉnh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 55 KẾT LUẬN Những kết luận văn Luận văn tổng hợp vấn đề khai phá liệu sâu trình bày phân cụm liệu, kỹ thuật phổ biến khai phá liệu Trong lĩnh vực phân cụm liệu, số thành định Hiện nay, hệ thống sở liệu ngày phát triển đa dạng, nhu cầu khám phá tri thức sở liệu ngày lớn, việc nghiên cứu mơ hình liệu áp dụng phương pháp phân cụm liệu xu tất yếu, vừa ý nghĩa khoa học thực tiễn Chương 1, luận văn trình bày nét tổng quan phân cụm liệu, bao gồm vấn đề khám phá tri thức, khai phá liệu phân cụm liệu Trên sở đó, Chương sâu giới thiệu phương pháp phân cụm liệu thuật toán phân cụm liệu, số thuật tốn tảng phương pháp tiếp cận, số thuật toán mở rộng, cải tiến thuật toán sở để giải đa dạng liệu, xử lý vấn đề nhiễu ngoại lai Chương áp dụng thuật tốn phân cụm K-means trình bày Chương để giải toán phân cụm kết học tập học sinh trường Trung học sở Chu Văn An Tóm lại, phân cụm liệu lĩnh vực quan tâm nghiên cứu nhiều, phạm vi ứng dụng rộng, liên quan đến nhiều ngành khoa học khác Trong trình làm luận văn, tác giả cố gắng nghiên cứu, sưu tầm, tập trung trình bày vấn đề cách tổng hợp trình độ thời gian hạn, phạm vi trình bày lĩnh vực nghiên cứu rộng, vậy, luận văn chắn nhiều hạn chế thiếu sót, nhiều vấn đề để mở cho hướng nghiên cứu Tác giả mong nhận ý kiến đánh giá, đóng góp, bảo thầy giáo bạn bè Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 56 Hướng nghiên cứu Trong thời gian tới, tác giả luận văn tiếp tục tìm hiểu mơ hình liệu đặc thù, lựa chọn kỹ thuật phân cụm liệu phù hợp nhằm xây dựng ứng dụng thực tiễn Hướng nghiên cứu cụ thể sau: - Tập trung nghiên cứu phát triển vấn đề để mở dựa kiến thức sở trình bày - Xây dựng phát triển kỹ thuật phân cụm mờ - Kết hợp kỹ thuật phân cụm với kỹ thuật khác luật kết hợp để giải số ứng dụng thực tế Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 57 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Bùi Công Cường (2005): “Một số hướng công nghệ tri thức khai phá liệu” Viện toán học, Trường thu “Hệ mờ ứng dụng" lần thứ Bùi Cơng Cường, Nguyễn Dỗn Phước (2001): “Hệ mờ, hệ Nơron ứng dụng”, Nhà xuất KHKT Tài liệu tiếng Anh K Jain and R C Dubes (1988), Algorithms for Clustering Data, Printice Hall D Fisher (1987), Knowledge acquisition via incremental conceptual clustering, Machine Learning D Gibson, J Kleinberg and P Raghavan (1998), Clustering categorical data: An approach based on dynamic systems, In Proc, VLDB’98 Douglass Cutting, David Karger, Jan Pedersen and John W Tukey (1992), Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen Ho Tu Bao (2000), Knowledge Discovery And Data Mining, Institute of Information HiTechnology, National Center for Natural Science and Technology O Zamir and O Etzioni (1999), Groupera dynamic clustering interface to web search results, In Proceedings of the Eighth International World Wide Web Conference, Toronto, Canada, M Steinbach, G L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons 10 Spath H (1980): “Clustring Analysis Algorithms ”, Ellis Horwood Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 11 MacQuenn J.B: “Some methods for classifcation and Analysis of multivariate observations” Processings of the Symposium on Mathematical Statistics and Probability, th Beckley, Vol University of California Press 12 M Ester, H.-P Kriegel, J Sander and X Xu (1996), A density-based algorithm for discovering clusters in large spatial databases, KDD'96 13 M R Anderberg (1973), Cluster Analysis for Applications, Academic Press 14 P Arabie, L J Hubert and G De Soete (1996), Clustering and Classifcation, World Scietific 15 P Michaud (1997), Clustering techniques, Future Generation Computer systems 16 T Zhang, R Ramakrishnan and M Livny (1996), BIRCH : an effcient data clustering method for very large databases, SIGMOD'96 17 Ihaka R, Gentleman R, R: A language for data analysis and graphics, Journal of Computational and Graphical Statistics 1996, pp 299-314 ... phân cụm học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: Phân cụm liệu ứng dụng phân cụm học sinh trường Trung học sở Chu Văn An ... 40 Chương PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN 41 3.1 Bài toán phân cụm kết học tập học sinh trường trung học sở Chu Văn An ………………………………………………………………………………….41... phương pháp phân cụm khai phá liệu Trên sở đó, áp dụng kỹ thuật phân cụm vào giải toán thực tiễn địa phương nơi tác giả làm việc phân cụm kết học tập học sinh trường Trung học sở Chu Văn An, thành

Ngày đăng: 23/05/2018, 09:30

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan