Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
801,88 KB
Nội dung
i LỜI CAM ĐOAN Tác giả Trịnh Anh Tuấn xin cam kết nội dung Luận văn chưa nộp cho chương trình cấp cao học chương trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngoài phần trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn ii LỜI CẢM ƠN Để hoàn thành luận văn này, trước hết xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học Công nghệ Việt Nam tận tình hướng dẫn, bảo, định hướng, đóng góp ý kiến quý báu suốt trình thực luận văn Tôi xin chân thành cảm ơn thầy, cô giáo Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Phòng Đào tạo Sau đại học - Nghiên cứu Khoa học, Trường Đại học Công nghệ thông tin truyền thông Thái Nguyên tạo điều kiện tốt để hoàn thành khóa học Xin cám ơn đồng nghiệp trường Trung học sở Chu Văn An thành phố Thái Nguyên trợ giúp nhiều thời gian qua Trong trình thực Luận văn, cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy cô để luận văn em hoàn thiện Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH .vii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn Chương TỔNG QUAN 1.1 Quá trình khám phá tri thức 1.2 Khai phá liệu 1.2.1 Khái niệm khai phá liệu 1.2.2 Các kỹ thuật khai phá liệu 1.3 Phân cụm liệu 1.3.1 Khái niệm phân cụm liệu 1.3.2 Một số vấn đề phân cụm liệu 1.3.3 Mục tiêu phân cụm liệu 10 1.3.4 Các bước phân cụm liệu 10 1.3.5 Yêu cầu phân cụm liệu 11 1.3.6 Ứng dụng phân cụm liệu 12 1.4 Kết luận chương 13 Chương CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 14 2.1 Kiểu liệu 14 2.1.1 Phân loại kiểu liệu dựa kích thước miền 14 2.1.2 Phân loại kiểu liệu dựa hệ đo 14 2.2 Phép đo độ tương tự phép đo khoảng cách 16 iv 2.2.1 Khái niệm tương tự không tương tự 16 2.2.2 Phép đo khoảng cách 17 2.3 Phương pháp phân cụm phân hoạch 18 2.3.1 Giới thiệu phương pháp 18 2.3.2 Thuật toán K-MEANS 19 2.3.3 Thuật toán PAM 21 2.4 Phương pháp phân cụm phân cấp 24 2.4.1 Giới thiệu phương pháp 24 2.4.2 Thuật toán HERACHICAL 25 2.4.3 Thuật toán BIRCH 28 2.5 Phương pháp phân dựa mật độ 31 2.5.1 Giới thiệu phương pháp 31 2.5.2 Thuật toán DBSCAN 32 2.6 Phương pháp phân cụm dựa lưới 36 2.6.1 Giới thiệu phương pháp 36 2.6.2 Thuật toán STING 37 2.7 Kết luận chương 40 Chương PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN .41 3.1 Bài toán phân cụm kết học tập học sinh trường trung học sở Chu Văn An…………………………………………………………………………………….41 3.1.1 Giới thiệu trường Trung học sở Chu Văn An 41 3.1.2 Bảng liệu kết học tập học sinh 42 3.1.3 Bài toán phân cụm kết học tập học sinh 43 3.2 Lựa chọn phương pháp, công cụ 44 3.2.1 Lựa chọn ngôn ngữ R thực phân cụm 44 3.2.2 Các bước thực phân cụm ngôn ngữ R 46 3.3 Kết phân cụm thuật toán K-means 48 3.3.1 Phân cụm học sinh dựa kết học tập 48 3.3.2 Phân cụm học sinh dựa điểm trung bình môn 52 3.3.3 Phân cụm dựa điểm trung bình môn toán môn văn 53 v 3.4 Kết luận chương 54 KẾT LUẬN 55 TÀI LIỆU THAM KHẢO .57 vi DANH MỤC CÁC BẢNG Bảng 3.1 Bảng liệu kết học tập học sinh 43 Bảng 3.2 Phân cụm theo kết học tập 48 Bảng 3.3 Thống kê phân cụm theo địa bàn hành 49 Bảng 3.4 Thống kê phân cụm theo hoàn cảnh gia đình 50 Bảng 3.5 Thống kê phân cụm theo dân tộc 51 Bảng 3.6 Thống kê phân cụm theo giới tính 52 Bảng 3.7 Phân cụm theo điểm trung bình môn toán 52 Bảng 3.8 Phân cụm theo điểm trung bình môn văn 53 vii DANH MỤC CÁC HÌNH Hình 1.1 Quá trình khám phá tri thức Hình 1.2 Quy trình phân cụm Hình 2.1 Khởi tạo đối tượng medoid 22 Hình 2.2 Cây CF dùng thuật toán BIRCH 29 Hình 2.3 Ý tưởng thuật toán phân cụm phân cấp 31 Hình 2.4 Lân cận với ngưỡng điểm p 32 Hình 2.5 Mật độ liên lạc 33 Hình 2.6 Mật độ liên thông 34 Hình 2.7 Các mức ô lưới khác trình truy vấn 38 Hình Website trường Trung học sở Chu Văn An 41 Hình 3.2 Cơ cấu tổ chức trường Trung học sở Chu Văn An 42 Hình 3.3 Thống kê số học sinh theo điểm toán 47 Hình 3.4 Kết phân cụm 48 MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Sự phát triển nhanh chóng ứng dụng công nghệ thông tin Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật năm gần tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin từ sở liệu khổng lồ nhằm mục đích dự báo, hỗ trợ định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phương pháp, kỹ thuật phần mềm hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin, lĩnh vực gọi khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) Khai phá liệu khám phá tri thức lĩnh vực quan trọng ngành Công nghệ thông tin với mục tiêu tìm kiếm tri thức có ích, cần thiết, tiềm ẩn chưa biết trước sở liệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nước tham gia nghiên cứu Khai phá liệu xem nhiệm vụ quan trọng trình khám phá tri thức từ sở liệu, bao gồm ba bước chính: thu thập tiền xử lý liệu; lựa chọn thuật toán khai phá liệu; đánh giá kết biểu diễn tri thức Các toán quan trọng khai phá liệu bao gồm: phân lớp (classification); hồi quy (regression); phân cụm (clustering); khai phá luật kết hợp (rule association)… Các kỹ thuật, công cụ sử dụng khai phá liệu bao gồm: định; mạng nơron nhân tạo; thuật toán di truyền; kỹ thuật phân lớp, phân cụm; phương pháp thống kê phân tích tương quan, phân tích phương sai, hồi quy đơn biến, đa biến Khai phá liệu có nhiều ứng dụng lĩnh vực khác đời sống như: phân tích, dự báo kinh tế, tài chính; chuẩn đoán bệnh y tế; tin sinh học; hỗ trợ trình sản xuất, kinh doanh Phân cụm (clustering) toán có vai trò quan trọng khai phá liệu có nhiều ứng dụng thực tiễn Mục tiêu phương pháp phân cụm liệu trình nhóm đối tượng tương tự sở liệu vào cụm cho đối tượng cụm tương đồng, đối tượng thuộc cụm khác không tương đồng Điểm mạnh phân cụm liệu đưa cấu trúc có ích cụm đối tượng tìm thấy trực tiếp từ liệu mà không cần tri thức sở Giống cách tiếp cận học máy, phân cụm liệu hiểu phương pháp học thầy (unsupervised learning) Không giống phân lớp liệu, phân cụm liệu không đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Trong phương pháp biết kết cụm thu bắt đầu trình Vì vậy, cần có chuyên gia để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, phân loại, đánh giá học sinh, sinh viên trường học… Ngoài ra, phân cụm liệu sử dụng bước tiền xử lí cho thuật toán khai phá liệu khác Là người công tác lĩnh vực giáo dục phổ thông, với mong muốn áp dụng kiến thức học phương pháp phân cụm vào toán thực tiễn phân cụm học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: “Phân cụm liệu ứng dụng phân cụm học sinh trường Trung học sở Chu Văn An” 1.2 Mục tiêu đề tài Nắm bắt cách tổng thể phương pháp phân cụm khai phá liệu Trên sở đó, áp dụng kỹ thuật phân cụm vào giải toán thực tiễn địa phương nơi tác giả làm việc phân cụm kết học tập học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài phương pháp phân cụm liệu khai phá liệu sở liệu kết học tập học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên Phạm vi nghiên cứu đề tài áp dụng số phương pháp phân cụm vào việc giải toán phân cụm kết học tập học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên 1.4 Phương pháp nghiên cứu Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết, luận văn tổng hợp kết nghiên cứu phương pháp phân cụm liệu khai phá liệu Về nghiên cứu thực nghiệm, luận văn cài đặt thử nghiệm số thuật toán phân cụm liệu học sinh trường Trung học sở Chu Văn An 1.5 Cấu trúc luận văn Cấu trúc luận văn gồm: mở đầu, ba chương chính, kết luận tài liệu tham khảo Phần mở đầu: Lý chọn đề tài bố cục luận văn Chương 1: Giới thiệu tổng quan khai phá liệu phân cụm liệu Chương 2: Trình bày số phương pháp thuật toán phân cụm liệu, bao gồm phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, phân cụm dựa mô hình, phân cụm mờ… Chương 3: Trình bày kết thử nghiệm số thuật toán phân cụm để giải toán phân cụm học sinh trường Trung học sở Chu Văn An, bao gồm phát biểu toán, lựa chọn thuật toán, công cụ phát triển (lập trình, sở liệu), đánh giá kết thử nghiệm Phần kết luận: Tóm tắt kết đạt hướng phát triển tiếp đề tài 44 thống kê theo chủ đề sau nhằm phục vụ công tác quản lý đào tạo Trường: - Thống kê theo nơi sinh (NOISINH) nhằm trả lời câu hỏi học sinh vùng có kết học tập tốt - Thống kê theo dân tộc (DANTOC) nhằm trả lời câu hỏi học sinh dân tộc có kết học tập tốt - Thống kê theo hoàn cảnh gia đình (HCGD) xem hoàn cảnh gia đình có ảnh hưởng đến kết học tập nào? - Thống kê theo giới tính (GIOITINH) xem giới tính (Nam/Nữ) có ảnh hưởng đến kết học tập nào? 2) Phân cụm học sinh dựa điểm trung bình môn Toán, Lý, Hóa, Văn, Sử, Địa, Sinh… nhằm tư vấn, định hướng cho học sinh lựa chọn thi vào khối chuyên cấp Tỉnh Ví dụ, phân cụm dựa điểm trung bình môn Toán hỗ trợ tư vấn cho học sinh cụm giỏi toán thi vào cấp chuyên toán Tỉnh 3) Phân cụm có ràng buộc theo điểm TB môn toán (TOAN) điểm TB môn văn (VAN) xem môn toán học tốt có tác động đến kết học tập môn học xã hội khác không (chọn môn văn điển hình) ? 3.2 Lựa chọn phương pháp, công cụ 3.2.1 Lựa chọn ngôn ngữ R thực phân cụm Ngôn ngữ R Phân tích số liệu biểu đồ thường tiến hành phần mềm thông dụng SAS, SPSS, Stata, Statistica, S-Plus Đây phần mềm công ty phần mềm phát triển giới thiệu thị trường khoảng ba thập niên qua, trường đại học, trung tâm nghiên cứu công ty toàn giới sử dụng cho giảng dạy nghiên cứu Nhưng chi phí để sử dụng phần mềm tuơng đối đắt tiền, số trường đại học nước phát triển khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm 45 mới, với chủ trương mã nguồn mở, cho tất thành viên ngành thống kê học toán học giới sử dụng cách thống hoàn toàn miễn phí Năm 1996, báo quan trọng tính toán thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman thuộc Trường đại học Auckland, New Zealand phát hoạ ngôn ngữ cho phân tích thống kê mà họ đặt tên R [17] Sáng kiến nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến nay, qua chưa đầy 10 năm phát triển, ngày có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên toàn cầu, có mạng lưới triệu người sử dụng R, số tăng nhanh Có thể nói vòng 10 năm nữa, vai trò phần mềm thống kê thương mại không lớn thời gian qua Vậy R ? Nói cách ngắn gọn, R phần mề sử dụng cho phân tích thống kê vẽ biểu đồ Về chất, R ngôn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí (recreational mathematics), tính toán ma trận (matrix), đến phân tích thống kê phức tạp Vì ngôn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Khi tải R xuống máy tính, bước cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình Đây bước đơn giản, cần phút việc cài đặt R hoàn tất Tài liệu cần tải về, tùy theo phiên bản, thường có tên bắt đầu mẫu tự R số phiên (version) Tài liệu khoảng 26 MB, địa cụ thể để tải là: 46 http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Phương pháp phân cụm Luận văn lựa chọn thuật toán phân cụm K-means để thử nghiệm với toán phân cụm kết học tập học sinh trường Trung học sở Chu Văn An 3.2.2 Các bước thực phân cụm ngôn ngữ R Giả sử tệp liệu kết học tập học sinh sử dụng để thực nghiệm D:\DEMO\KHOI9.CSV (tệp excel) Phần tiếp theo, luận văn mô tả bước thực lệnh ngôn ngữ R thực thuật toán K-means liệu thực nghiệm Nạp liệu vào vùng làm việc R - Dịch chuyển trỏ tới thư mục làm việc: setwd("D:/DEMO") - Đặt đường dẫn tới tệp làm việc: path=paste(getwd(),"/KHOI9.CSV",sep="") - Nạp liệu vào vùng làm việc từ tệp KHOI09.CSV: dat = read.csv(path,header=TRUE,sep=",") Mô tả liệu - Phân bố số học sinh theo điểm trung bình môn: plot(dat[,20],ylab="Trung bình môn",xlab="Số học sinh",main="Biểu đồ mô tả học sinh theo TBCM",pch=20,col=3) - Thống kê số học sinh theo điểm toán: hist(dat[,5],col=2,ylab="Số lượng học sinh",xlab="Điểm toán",main="Biểu đồ thông kê học sinh theo điểm toán") 47 Hình 3.3 Thống kê số học sinh theo điểm toán Biểu đồ cho thấy phân lớn học sinh tập trung từ 7.5 đến 9.5 điểm Trong 208 học sinh có khoảng 32 học sinh 7.5 đến 8, 40 học sinh có điểm toán đến 8.5, 32 học sinh có điểm toán 8.5 đến 34 học sinh có điểm khoảng đến 9.5 Thực thuật toán K-means Giả sử phân cụm học sinh theo trường điểm toán (TOAN) điểm văn (VAN) với số cụm 03 - Lấy trường cần phân cụm vào ma trận số X gồm trường toán, văn: X = datN[,1:2] - Thiết lập vùng làm việc: set.seed(1) - Sử dụng thuật toán K-means phân X thành 03 cụm, với tâm cụm lấy ngẫu nhiên khoảng [1,10]: km = kmeans(X,3, nstart=10) - Vẽ cặp phân cụm giữ điểm toán điểm văn: plot(X[c(1,2)], col =(km$cluster +1), main="K-Means result with clusters", pch=20, cex=2) - Hiện thị tâm cụm: points(km$centers,col=c(2,3,4), pch=8,cex=4) 48 Hình 3.4 Kết phân cụm 3.3 Kết phân cụm thuật toán K-means Số liệu sử dụng thực nghiệm bảng kết học tập 208 học sinh lớp năm học 2014-2015 trường Trung học sở Chu Văn An (có cấu trúc Bảng 3.1) 3.3.1 Phân cụm học sinh dựa kết học tập Để thuận lợi cho việc phân tích đáp ứng nhu cầu quản lý đào tạo, luận văn phân chia liệu thử nghiệm thành 03 cụm nhằm phản ánh đánh giá học sinh theo 03 mức: xuất sắc, giỏi, Trong trường hợp tổng quát phân thành nhiều cụm khác đáp ứng nhu cầu quản lý nhà trường Kết phân cụm 208 học sinh theo kết học tập cho Bảng 3.2 đây: Bảng 3.2 Phân cụm theo kết học tập Các cụm Cụm Cụm Cụm Tâm cụm 8.4 (8.0-8.7) Tâm cụm 7.6 (6.5-7.9) Tâm cụm 9.2 (8.8-9.9) Số lượng Tỷ lệ Số lượng Tỷ lệ Số lượng Tỷ lệ 88 42,3% 35 16,8% 85 40,9% 49 Theo kết phân cụm Bảng 3.2 ta có: Cụm cụm có kết học sinh đạt loại giỏi, số lượng học sinh 88, chiếm 42,3%, bao gồm học sinh có điểm trung bình từ 8.0 đến 8.7 Cụm cụm có kết học sinh đạt loại khá, chiếm 16,8%, bao gồm học sinh có điểm trung bình từ 6.5 đến 7.9 Cụm cụm có kết học sinh đạt xuất sắc, chiếm 40,9%, bao gồm học sinh có điểm trung bình từ 8.8 đến 9.9 Sau có kết phân cụm, luận văn thực thống kê số liệu cụm theo chủ đề phục vụ cho công tác quản lý đào tạo trường Kết thống kê trình bày mục 3.3.1.1 Thống kê theo địa bàn hành (nơi sinh) Bảng 3.3 Thống kê phân cụm theo địa bàn hành Nơi sinh Cụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lượng Các cụm Cụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lượng Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lượng Huyện Phú Lương 4.5% 0% 3.5% Thành phố Thái Nguyên 76 86.3% 32 91.4% 73 85.9% Huyện Đại Từ 3.4% 2.8% 2.3% Huyện Phú Bình 1.1% 0% 0% Thị xã Bắc Kạn 2.2% 0% 1.1% Huyện Võ Nhai 2.2% 2.8% 1.1% Huyện Chí Linh 0% 2.8% 0% Huyện Phổ Yên 0% 0% 1.1% Huyện Đồng Hỷ 0% 0% 3.5% Thị xã Hà Giang 0% 0% 1.1% 50 Kết thống kê cho thấy: Cụm cụm có kết học sinh đạt loại xuất sắc, tập trung chủ yếu thành phố Thái Nguyên 73 học sinh, chiếm 85,9% Cụm cụm có kết học sinh đạt loại giỏi, tập trung chủ yếu thành phố Thái Nguyên 32 học sinh, chiếm 86,3% Cụm cụm có kết học sinh đạt loại khá, tập trung chủ yếu thành phố Thái Nguyên 76 học sinh, chiếm 91,4% Điều dễ hiểu học sinh trường Trung học sở Chu Văn An chủ yếu đến từ thành phố Thái Nguyên 3.3.1.2 Thống kê theo hoàn cảnh gia đình (HCGD) Bảng 3.4 Thống kê phân cụm theo hoàn cảnh gia đình Hoàn cảnh gia đình Tiểu thương Cụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lượng 24 27.2% Các cụm Cụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lượng 13 37.1% Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lượng 21 24.7% Công nhân 17 19.3% 25.7% 22 25.9% Nông dân 10.2% 8.6% 14 16.5% Cán viên chức 38 43.2% 10 28.6% 24 28.2% 4.7% Con thương binh Kết thống kê cho thấy: Cụm cụm có kết học sinh đạt loại xuất sắc, tỷ lệ cao gia đình cán viên chức (28.2%), thấp em nông dân (16.5%) Cụm cụm có kết học sinh đạt loại giỏi, tập trung chủ yếu gia đình cán viên chức, chiếm 43,2%, thấp em nông dân (10.2%) 51 Cụm cụm có kết học sinh đạt loại khá, gia đình tiểu thương chiếm tỷ lệ cao (37.1%) Tóm lại, phân cụm theo hoàn cảnh gia đình ta nhận thấy học sinh xuất sắc giỏi tập trung nhiều gia đình cán viên chức 3.3.1.3 Thống kê theo dân tộc (DANTOC) Bảng 3.5 Thống kê phân cụm theo dân tộc Các cụm Dân tộc Cụm Tâm cụm 8.4 (8.0-8.7) Cụm Tâm cụm 7.6 (6.5-7.9) Cụm Tâm cụm 9.2 (8.8-9.9) Số lượng Tỷ lệ Số lượng Tỷ lệ Số lượng Tỷ lệ Kinh 66 75% 33 94.3% 75 88.2% Tày 16 18.2% 2.8% 4.7% Nùng 3.4% 0% 2.3% Sán Dìu 2.3% 0% 1.2% Dao 1.1% 0% 0% Cờ lao 0% 2.8% 1.2% Hoa 0% 0% 1.2% Cống 0% 0% 1.2% Kết thống kê cho thấy học sinh xuất sắc, giỏi tập trung chủ yếu dân tộc Kinh, nguyên nhân học sinh dân tộc Kinh chiếm tỷ lệ chủ yếu 52 3.3.1.4 Thống kê theo giới tính (GIOITINH) Bảng 3.6 Thống kê phân cụm theo giới tính Các cụm Giới tính Cụm Tâm cụm 8.4 (8.0-8.7) Cụm Tâm cụm 7.6 (6.5-7.9) Cụm Tâm cụm 9.2 (8.8-9.9) Số Số Số Tỷ lệ lượng Tỷ lệ lượng lượng Nam 44 50% 24 68.6% 30 35.3% Nữ 44 50% 11 31.4% 55 64.7% Kết thống kê cho thấy, cụm học sinh xuất sắc, số học sinh nữ cao số học sinh nam Ở cụm học sinh học khá, số lượng học sinh nữ nhỏ số học sinh nam Như vậy, học sinh nữ có xu hướng học tốt học sinh nam 3.3.2 Phân cụm học sinh dựa điểm trung bình môn Thực phân cụm học sinh theo điểm trung bình môn thành 04 cụm tương ứng với kết xuất sắc, giỏi, khá, trung bình 3.3.2.1 Phân cụm dựa điểm trung bình môn toán (TOAN) Bảng 3.7 Phân cụm theo điểm trung bình môn toán Cụm Tâm cụm 9.2 Số Tỷ lệ lượng 68 32.7% Cụm Tâm cụm 8.3 Số Tỷ lệ lượng 68 32.8% Cụm Tâm cụm 7.4 Số Tỷ lệ lượng 50 24% Cụm Tâm cụm 6.5 Số lượng Tỷ lệ 22 10.5% Như vậy, cụm tương ứng với kết xuất sắc, cụm tương ứng với kết giỏi, cụm tương ứng với kết khá, cụm tương ứng với kết trung bình Kết phân cụm cho thấy, cụm bao gồm 68 học sinh học xuất sắc môn toán (chiếm tỷ lệ 32.7%) Do đó, 68 học sinh tư vấn thi vào cấp chuyên Toán 3.3.2.2 Phân cụm dựa điểm trung bình môn văn (VAN) 53 Bảng 3.8 Phân cụm theo điểm trung bình môn văn Cụm Tâm cụm 7.8 Số Tỷ lệ lượng 52 25% Cụm Tâm cụm 8.7 Số Tỷ lệ lượng 58 27.9% Cụm Tâm cụm 6.9 Số Tỷ lệ lượng 32 15.4% Cụm Tâm cụm 9.4 Số lượng Tỷ lệ 66 31.7% Như vậy, cụm tương ứng với kết khá, cụm tương ứng với kết giỏi, cụm tương ứng với kết trung bình, cụm tương ứng với kết xuất sắc Kết phân cụm cho thấy, cụm bao gồm 66 học sinh học xuất sắc môn văn (chiếm tỷ lệ 31.7%) Do đó, 66 học sinh tư vấn thi vào cấp chuyên văn Phân cụm tương tự môn học khác để thực tư vấn học sinh thi vào khối chuyên cấp tỉnh 3.3.3 Phân cụm dựa điểm trung bình môn toán môn văn Ở trường trung học sở hai môn mang tính định hình thành tư nhân cách học sinh môn toán môn văn Hai môn Bộ giáo dục đánh giá cao môn khác cụ thể việc tính điểm trung bình môn học hai môn tính hệ số môn khác hệ số Hai môn môn chủ đạo Hàng năm, tỉnh tuyển sinh chuyển cấp thi hai môn học Trong kỳ thi tốt nghiệp trung học sở thi tốt nghiệp hai môn học Do ta xem xét kết học tập học sinh từ hai môn học nhằm mục đích xem có liên hệ, ảnh hưởng qua lại lẫn hai môn học nhằm giúp cho nhà trường có định hướng tốt trình giảng dạy học tập học sinh Để phân tích kết học tập môn toán ảnh hưởng đến kết học tập môn văn nào, luận văn thực công việc phân cụm sau: - Phân cụm học sinh dựa điểm trung bình mô toán thành cụm Kết phân cụm theo môn toán Bảng 3.7 (mục 3.3.2.1) - Với cụm toán tìm được, thực phân cụm theo kết học tập môn văn Kết thu Bảng 3.9 sau: 54 Bảng 3.9 Phân cụm theo môn toán môn văn Xuất sắc (Cụm 1, 68 học sinh) Số Tỷ lệ lượng Cụm theo môn văn Cụm theo môn toán Giỏi Khá (Cụm 2, 68 học (Cụm 3, 50 học sinh) sinh) Số Tỷ lệ Số Tỷ lệ lượng lượng Trung bình (Cụm 4, 22 học sinh) Số Tỷ lệ lượng Xuất sắc (cụm 4) 32 47.1% 24 35.3% 19 38% 4.5% Giỏi (cụm 2) 14 20.6% 18 26.5% 10% 18.2% Khá (cụm 1) 12 17.6% 11 16.1% 16 32% 31.8% Trung bình (cụm 3) 10 14.7% 15 22.1% 10 20% 10 45.4% Xét cụm xuất sắc môn toán (cụm môn toán) ta nhận thấy 68 học sinh học xuất sắc môn toán có 32 học sinh học xuất sắc môn văn, chiếm tỷ lệ 47.1% Vậy ta nhận thấy việc học giỏi môn toán dẫn đến việc em học giỏi môn xã hội cao Ngược lại, xét cụm trung bình môn toán (cụm môn toán) tổng số 22 học sinh học trung bình môn toán có 01 em học giỏi môn văn, lại phần lớn học trung bình môn văn Do đó, việc học giỏi môn toán ảnh hưởng nhiều đến học giỏi môn xã hội 3.4 Kết luận chương Trong chương này, luận văn phát biểu toán phân cụm kết học tập học sinh lớp trường Trung học sở Chu Văn An thành phố Thái Nguyên, lựa chọn thuật toán phân cụm K-means, công cụ thực ngôn ngữ phân tích liệu R Trên sở đó, luận văn trình bày kết thử nghiệm phân cụm 208 học sinh lớp Kết phân cụm có ý nghĩa quan trọng công tác quản lý đào tạo Trường hỗ trợ, tư vấn cho học sinh lớp thi vào trường chuyên cấp tỉnh 55 KẾT LUẬN Những kết luận văn Luận văn tổng hợp vấn đề khai phá liệu sâu trình bày phân cụm liệu, kỹ thuật phổ biến khai phá liệu Trong lĩnh vực phân cụm liệu, có số thành định Hiện nay, hệ thống sở liệu ngày phát triển đa dạng, nhu cầu khám phá tri thức sở liệu ngày lớn, việc nghiên cứu mô hình liệu áp dụng phương pháp phân cụm liệu xu tất yếu, vừa có ý nghĩa khoa học thực tiễn Chương 1, luận văn trình bày nét tổng quan phân cụm liệu, bao gồm vấn đề khám phá tri thức, khai phá liệu phân cụm liệu Trên sở đó, Chương sâu giới thiệu phương pháp phân cụm liệu thuật toán phân cụm liệu, có số thuật toán tảng phương pháp tiếp cận, số thuật toán mở rộng, cải tiến thuật toán sở để giải đa dạng liệu, xử lý vấn đề nhiễu ngoại lai Chương áp dụng thuật toán phân cụm K-means trình bày Chương để giải toán phân cụm kết học tập học sinh trường Trung học sở Chu Văn An Tóm lại, phân cụm liệu lĩnh vực quan tâm nghiên cứu nhiều, có phạm vi ứng dụng rộng, liên quan đến nhiều ngành khoa học khác Trong trình làm luận văn, tác giả cố gắng nghiên cứu, sưu tầm, tập trung trình bày vấn đề cách tổng hợp trình độ thời gian có hạn, phạm vi trình bày lĩnh vực nghiên cứu rộng, vậy, luận văn chắn có nhiều hạn chế thiếu sót, nhiều vấn đề để mở cho hướng nghiên cứu Tác giả mong nhận ý kiến đánh giá, đóng góp, bảo thầy cô giáo bạn bè 56 Hướng nghiên cứu Trong thời gian tới, tác giả luận văn tiếp tục tìm hiểu mô hình liệu đặc thù, lựa chọn kỹ thuật phân cụm liệu phù hợp nhằm xây dựng ứng dụng thực tiễn Hướng nghiên cứu cụ thể sau: - Tập trung nghiên cứu phát triển vấn đề để mở dựa kiến thức sở trình bày - Xây dựng phát triển kỹ thuật phân cụm mờ - Kết hợp kỹ thuật phân cụm với kỹ thuật khác luật kết hợp để giải số ứng dụng thực tế 57 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Bùi Công Cường (2005): “Một số hướng công nghệ tri thức khai phá liệu” Viện toán học, Trường thu “Hệ mờ ứng dụng" lần thứ Bùi Công Cường, Nguyễn Doãn Phước (2001): “Hệ mờ, hệ Nơron ứng dụng”, Nhà xuất KHKT Tài liệu tiếng Anh K Jain and R C Dubes (1988), Algorithms for Clustering Data, Printice Hall D Fisher (1987), Knowledge acquisition via incremental conceptual clustering, Machine Learning D Gibson, J Kleinberg and P Raghavan (1998), Clustering categorical data: An approach based on dynamic systems, In Proc, VLDB’98 Douglass Cutting, David Karger, Jan Pedersen and John W Tukey (1992), Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen Ho Tu Bao (2000), Knowledge Discovery And Data Mining, Institute of Information HiTechnology, National Center for Natural Science and Technology O Zamir and O Etzioni (1999), Groupera dynamic clustering interface to web search results, In Proceedings of the Eighth International World Wide Web Conference, Toronto, Canada, M Steinbach, G L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons 10 Spath H (1980): “Clustring Analysis Algorithms ”, Ellis Horwood 58 11 MacQuenn J.B: “Some methods for classification and Analysis of multivariate observations” Processings of the Symposium on Mathematical Statistics and Probability, 5th Beckley, Vol University of California Press 12 M Ester, H.-P Kriegel, J Sander and X Xu (1996), A density-based algorithm for discovering clusters in large spatial databases, KDD'96 13 M R Anderberg (1973), Cluster Analysis for Applications, Academic Press 14 P Arabie, L J Hubert and G De Soete (1996), Clustering and Classification, World Scietific 15 P Michaud (1997), Clustering techniques, Future Generation Computer systems 16 T Zhang, R Ramakrishnan and M Livny (1996), BIRCH : an efficient data clustering method for very large databases, SIGMOD'96 17 Ihaka R, Gentleman R, R: A language for data analysis and graphics, Journal of Computational and Graphical Statistics 1996, pp 299-314 [...]... với các dữ liệu nhiễu hoặc ngoại lai - Ít nhạy cảm với thứ tự của dữ liệu vào: Cùng một tập dữ liệu khi đưa vào phân nhóm với các thứ tự khác nhau thì không ảnh hưởng đến kết quả phân cụm - Thích nghi với dữ liệu đa chiều: Thuật toán áp dụng hiệu quả cho dữ liệu với số chiều khác nhau - Dễ hiểu và dễ sử dụng 1.3.6 Ứng dụng của phân cụm dữ liệu Phân cụm là một công cụ quan trọng trong một số ứng dụng sau:... Phân cụm dữ liệu 1.3.1 Khái niệm về phân cụm dữ liệu Phân cụm dữ liệu (PCDL) là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin hữu ích cho việc ra quyết định Như vậy phân cụm dữ liệu là kỹ thuật sử dụng quan sát đối tượng để nhóm các đối tượng thành các cụm hoặc chia một tập dữ liệu ban đầu... cơ bản dựa trên các phương pháp tiếp cận như [5], [10], [11]: - Phương pháp phân cụm phân hoạch - Phương pháp phân cụm phân cấp - Phương pháp phân cụm dựa trên mật độ 18 - Phương pháp phân cụm dựa trên lưới - Phương pháp phân cụm có dữ liệu ràng buộc - Phương pháp phân cụm mờ 2.3 Phương pháp phân cụm phân hoạch 2.3.1 Giới thiệu phương pháp Phương pháp phân cụm phân hoạch nhằm phân một tập hợp dữ liệu. .. vậy, do Kmeans phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn Tuy nhiên, nhược điểm của K-means chỉ là áp dụng với dữ liệu có thuộc tính số và rất phù hợp với các cụm có dạng hình cầu, K-means còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán K-means phụ thuộc nhiều vào các tham số đầu vào như: số cụm k và k trọng... các nhóm dữ liệu [14, 15] 1.3.2 Một số vấn đề trong phân cụm dữ liệu - Xử lý nhiễu: Hầu hết các dữ liệu sử dụng để phân cụm đều bị nhiễu do quá trình thu thập thiếu chính xác hay thiếu đầy đủ Vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân tích cụm dữ liệu Dữ liệu bị nhiễu là dữ liệu không chính xác hay là dữ liệu khuyết... dụng cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể được cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện nay đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp được áp dụng rộng rãi trong lĩnh vực khai phá dữ liệu 2.4.2 Thuật toán HERACHICAL... cụm đó - Centroid (Trung tâm): là khoảng cách giữa hai trung tâm của cụm Phần tiếp theo, luận văn trình bày các phương pháp phân cụm dữ liệu Có rất nhiều kỹ thuật tiếp cận và ứng dụng trong thực tế của phân cụm dữ liệu Nhìn chung, các kỹ thuật phân cụm đều hướng tới hai mục tiêu là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Tuy nhiên, các kỹ thuật phân cụm có thể được phân. .. thuộc tính tương ứng 10 - Dò tìm phần tử ngoại lai: Phần tử ngoại lai là một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong cơ sở dữ liệu Loại bỏ những dữ liệu kiểu này để tránh ảnh hưởng đến kết quả phân cụm - Phân cụm đang là vấn đề mở và khó: Vì phân cụm đang phải giải quyết nhiều vấn đề cơ bản như: Xây dựng hàm tính độ tương tự, xây dựng các tiêu chu n phân cụm, xây dựng mô... hiện tại Ngoài các ứng dụng phổ biến đã được biết tới, thời gian gần đây, phân cụm dữ liệu đã mở rộng phạm vi ứng dụng Các kỹ thuật phân cụm đã được sử dụng trong các lĩnh vực như: Nhận dạng mẫu, so sánh, phân lớp, Kỹ thuật phân cụm là sự kết hợp từ nhiều phương pháp khác nhau như: Toán, vật lý, thống kê, khoa học máy tính, trí tuệ nhân tạo, cơ sở dữ liệu [7] Hiện nay, phân cụm dữ liệu đã được nhiều... cụm dữ liệu được trình bày trong Chương 2 14 Chương 2 CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 2.1 Kiểu dữ liệu Trong phân cụm, các đối tượng dữ liệu thường được diễn tả dưới dạng các đặc tính hay còn gọi là thuộc tính (Các kiểu dữ liệu và các thuộc tính dữ liệu được xem là tương đương) Các thuộc tính này là các tham số cho giải quyết vấn đề phân cụm và sự lựa chọn chúng có tác động đến kết quả phân cụm Phân ... 40 Chương PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN .41 3.1 Bài toán phân cụm kết học tập học sinh trường trung học sở Chu Văn An ………………………………………………………………………………….41... thức học phương pháp phân cụm vào toán thực tiễn phân cụm học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: Phân cụm liệu ứng dụng. .. kết học tập học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên 3 Phạm vi nghiên cứu đề tài áp dụng số phương pháp phân cụm vào việc giải toán phân cụm kết học tập học sinh trường Trung