Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
2,4 MB
Nội dung
ii LỜI CAM ĐOAN Tác giả Trịnh Anh Tuấn xin cam kết nội dung Luận văn chưa nộp cho chương trình cấp cao học chương trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngồi phần trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn iii iiii LỜI CẢM ƠN Để hoàn thành luận văn này, trước hết xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học Công nghệ Việt Nam tận tình hướng dẫn, bảo, định hướng, đóng góp ý kiến quý báu suốt q trình thực luận văn Tơi xin chân thành cảm ơn thầy, cô giáo Bộ môn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Phòng Đào tạo Sau đại học - Nghiên cứu Khoa học, Trường Đại học Công nghệ thông tin truyền thông Thái Nguyên tạo điều kiện tốt để tơi hồn thành khóa học Xin cám ơn đồng nghiệp trườngTrunghọcsởChuVănAn thành phố Thái Nguyên trợ giúp nhiều thời gian qua Trong trình thực Luận văn, cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy để luận văn em hoàn thiện Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn Chương TỔNG QUAN 1.1 Quá trình khám phá tri thức 1.2 Khai phá liệu 1.2.1 Khái niệm khai phá liệu 1.2.2 Các kỹ thuật khai phá liệu 1.3 Phâncụmliệu 1.3.1 Khái niệm phâncụmliệu 1.3.2 Một sốvấn đề phâncụmliệu 1.3.3 Mục tiêu phâncụmliệu 10 1.3.4 Các bước phâncụmliệu .10 1.3.5 Yêu cầu phâncụmliệu 11 1.3.6 Ứngdụngphâncụmliệu 12 1.4 Kết luận chương 13 Chương CÁC PHƯƠNG PHÁP PHÂNCỤMDỮLIỆU .14 2.1 Kiểu liệu 14 2.1.1 Phân loại kiểu liệu dựa kích thước miền 14 2.1.2 Phân loại kiểu liệu dựa hệ đo 14 2.2 Phép đo độ tương tự phép đo khoảng cách 16 v 2.2.1 Khái niệm tương tự không tương tự 16 2.2.2 Phép đo khoảng cách .17 2.3 Phương pháp phâncụmphân hoạch 18 2.3.1 Giới thiệu phương pháp 18 2.3.2 Thuật toán K-MEANS 19 2.3.3 Thuật toán PAM .21 2.4 Phương pháp phâncụmphân cấp 24 2.4.1 Giới thiệu phương pháp 24 2.4.2 Thuật toán HERACHICAL .25 2.4.3 Thuật toán BIRCH 28 2.5 Phương pháp phân dựa mật độ 31 2.5.1 Giới thiệu phương pháp 31 2.5.2 Thuật toán DBSCAN 32 2.6 Phương pháp phâncụm dựa lưới 36 2.6.1 Giới thiệu phương pháp 36 2.6.2 Thuật toán STING 37 2.7 Kết luận chương 40 Chương PHÂNCỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNGTRUNGHỌCCƠSỞCHUVĂNAN 41 3.1 Bài toán phâncụm kết học tập họcsinhtrườngtrunghọcsởChuVăn An…………………………………………………………………………………….41 3.1.1 Giới thiệu trườngTrunghọcsởChuVănAn 41 3.1.2 Bảng liệu kết học tập họcsinh 42 3.1.3 Bài toán phâncụm kết học tập họcsinh 43 3.2 Lựa chọn phương pháp, công cụ 44 3.2.1 Lựa chọn ngôn ngữ R thực phâncụm 44 3.2.2 Các bước thực phâncụm ngôn ngữ R 46 3.3 Kết phâncụm thuật toán K-means 48 3.3.1 Phâncụmhọcsinh dựa kết học tập 48 3.3.2 Phâncụmhọcsinh dựa điểm trung bình mơn 52 Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn vi 3.3.3 Phâncụm dựa điểm trung bình mơn tốn mơn văn 53 Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn vi i 3.4 Kết luận chương 54 KẾT LUẬN .55 TÀI LIỆU THAM KHẢO 57 Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 3.1 Bảng liệu kết học tập họcsinh 43 Bảng 3.2 Phâncụm theo kết học tập 48 Bảng 3.3 Thống kê phâncụm theo địa bàn hành 49 Bảng 3.4 Thống kê phâncụm theo hồn cảnh gia đình 50 Bảng 3.5 Thống kê phâncụm theo dân tộc 51 Bảng 3.6 Thống kê phâncụm theo giới tính 52 Bảng 3.7 Phâncụm theo điểm trung bình mơn tốn 52 Bảng 3.8 Phâncụm theo điểm trung bình mơn văn 53 Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn viii DANH MỤC CÁC HÌNH Hình 1.1 Q trình khám phá tri thức Hình 1.2 Quy trình phâncụm Hình 2.1 Khởi tạo đối tượng medoid 22 Hình 2.2 Cây CF dùng thuật toán BIRCH 29 Hình 2.3 Ý tưởng thuật tốn phâncụmphân cấp 31 Hình 2.4 Lân cận với ngưỡng điểm p 32 Hình 2.5 Mật độ liên lạc 33 Hình 2.6 Mật độ liên thông 34 Hình 2.7 Các mức lưới khác q trình truy vấn 38 Hình Website trườngTrunghọcsởChuVănAn 41 Hình 3.2 Cơ cấu tổ chức trườngTrunghọcsởChuVănAn 42 Hình 3.3 Thống kê sốhọcsinh theo điểm toán 47 Hình 3.4 Kết phâncụm 48 Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Sự phát triển nhanh chóng ứngdụng cơng nghệ thơng tin Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật năm gần tạo nhiều sởliệu khổng lồ Để khai thác hiệu nguồn thông tin từ sởliệu khổng lồ nhằm mục đích dự báo, hỗ trợ định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phương pháp, kỹ thuật phần mềm hỗ trợ tiến trình khám phá, phân tích, tổng hợp thơng tin, lĩnh vực gọi khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) Khai phá liệu khám phá tri thức lĩnh vực quan trọng ngành Công nghệ thông tin với mục tiêu tìm kiếm tri thức có ích, cần thiết, tiềm ẩn chưa biết trước sởliệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nước tham gia nghiên cứu Khai phá liệu xem nhiệm vụ quan trọng trình khám phá tri thức từ sở liệu, bao gồm ba bước chính: thu thập tiền xử lý liệu; lựa chọn thuật toán khai phá liệu; đánh giá kết biểu diễn tri thức Các toán quan trọng khai phá liệu bao gồm: phân lớp (classification); hồi quy (regression); phâncụm (clustering); khai phá luật kết hợp (rule association)… Các kỹ thuật, công cụ sử dụng khai phá liệu bao gồm: định; mạng nơron nhân tạo; thuật toán di truyền; kỹ thuật phân lớp, phân cụm; phương pháp thống kê phân tích tương quan, phân tích phương sai, hồi quy đơn biến, đa biến Khai phá liệucó nhiều ứngdụng lĩnh vực khác đời sống như: phân tích, dự báo kinh tế, tài chính; chuẩn đốn bệnh y tế; tin sinh học; hỗ trợ trình sản xuất, kinh doanh Phâncụm (clustering) toán có vai trò quan trọng khai phá liệucó nhiều ứngdụng thực tiễn Mục tiêu phương pháp phâncụmliệu trình nhóm đối tượng tương tự sởliệu vào cụm cho đối tượng cụm tương đồng, đối tượng thuộc Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn cụm khác không tương đồng Điểm mạnh phâncụmliệu đưa cấu trúc có ích cụm đối tượng tìm thấy trực tiếp từ liệu mà khơng cần tri thức sở Giống cách tiếp cận học máy, phâncụmliệu hiểu phương pháp học thầy (unsupervised learning) Khơng giống phân lớp liệu, phâncụmliệu khơng đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phâncụmliệu cách học quan sát (learning by observation), phân lớp liệuhọc ví dụ (learning by example) Trong phương pháp biết kết cụm thu bắt đầu q trình Vì vậy, cần có chun gia để đánh giá cụm thu Phâncụmliệu sử dụng nhiều ứngdụngphân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, phân loại, đánh giá học sinh, sinh viên trường học… Ngoài ra, phâncụmliệu sử dụng bước tiền xử lí cho thuật tốn khai phá liệu khác Là người công tác lĩnh vực giáo dục phổ thông, với mong muốn áp dụng kiến thức học phương pháp phâncụm vào toán thực tiễn phâncụmhọcsinhtrườngTrunghọcsởChuVăn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: “Phân cụmliệuứngdụngphâncụmhọcsinhtrườngTrunghọcsởChuVăn An” 1.2 Mục tiêu đề tài Nắm bắt cách tổng thể phương pháp phâncụm khai phá liệu Trên sở đó, áp dụng kỹ thuật phâncụm vào giải toán thực tiễn địa phương nơi tác giả làm việc phâncụm kết học tập họcsinhtrườngTrunghọcsởChuVăn An, thành phố Thái Nguyên 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài phương pháp phâncụmliệu khai phá liệusởliệu kết học tập họcsinhtrườngTrunghọcsởChuVăn An, thành phố Thái Nguyên Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 44 thống kê theo chủ đề sau nhằm phục vụ công tác quản lý đào tạo Trường: - Thống kê theo nơi sinh (NOISINH) nhằm trả lời câu hỏi họcsinh vùng có kết học tập tốt - Thống kê theo dân tộc (DANTOC) nhằm trả lời câu hỏi họcsinh dân tộc có kết học tập tốt - Thống kê theo hồn cảnh gia đình (HCGD) xem hồn cảnh gia đình có ảnh hưởng đến kết học tập nào? - Thống kê theo giới tính (GIOITINH) xem giới tính (Nam/Nữ) có ảnh hưởng đến kết học tập nào? 2) Phâncụmhọcsinh dựa điểm trung bình mơn Tốn, Lý, Hóa, Văn, Sử, Địa, Sinh… nhằm tư vấn, định hướng cho họcsinh lựa chọn thi vào khối chuyên cấp Tỉnh Ví dụ, phâncụm dựa điểm trung bình mơn Tốn hỗ trợ tư vấn cho họcsinhcụm giỏi toán thi vào cấp chuyên toán Tỉnh 3) Phâncụmcó ràng buộc theo điểm TB mơn tốn (TOAN) điểm TB mơn văn (VAN) xem mơn tốn học tốt có tác động đến kết học tập môn học xã hội khác không (chọn môn văn điển hình) ? 3.2 Lựa chọn phương pháp, cơng cụ 3.2.1 Lựa chọn ngôn ngữ R thực phâncụm Ngơn ngữ R Phân tích sốliệu biểu đồ thường tiến hành phần mềm thông dụng SAS, SPSS, Stata, Statistica, S-Plus Đây phần mềm công ty phần mềm phát triển giới thiệu thị trường khoảng ba thập niên qua, trường đại học, trung tâm nghiên cứu cơng ty tồn giới sử dụng cho giảng dạy nghiên cứu Nhưng chi phí để sử dụngphần mềm tuơng đối đắt tiền, sốtrường đại học nước phát triển khơng có khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm 45 mới, với chủtrương mã nguồn mở, cho tất thành viên ngành thống kê học tốn học giới sử dụng cách thống hồn tồn miễn phí Năm 1996, báo quan trọng tính toán thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman thuộc Trường đại học Auckland, New Zealand phát hoạ ngơn ngữ cho phân tích thống kê mà họ đặt tên R [17] Sáng kiến nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến nay, qua chưa đầy 10 năm phát triển, ngày có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lưới triệu người sử dụng R, số tăng nhanh Có thể nói vòng 10 năm nữa, vai trò phần mềm thống kê thương mại khơng lớn thời gian qua Vậy R ? Nói cách ngắn gọn, R phần mề sử dụng cho phân tích thống kê vẽ biểu đồ Về chất, R ngơn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Khi tải R xuống máy tính, bước cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình Đây bước đơn giản, cần phút việc cài đặt R hoàn tất Tài liệu cần tải về, tùy theo phiên bản, thường có tên bắt đầu mẫu tự R số phiên (version) Tài liệu khoảng 26 MB, địa cụ thể để tải là: Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 46 http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Phương pháp phâncụm Luận văn lựa chọn thuật toán phâncụm K-means để thử nghiệm với toán phâncụm kết học tập họcsinhtrườngTrunghọcsởChuVănAn 3.2.2 Các bước thực phâncụm ngôn ngữ R Giả sử tệp liệu kết học tập họcsinh sử dụng để thực nghiệm D:\DEMO\KHOI9.CSV (tệp excel) Phần tiếp theo, luận văn mô tả bước thực lệnh ngôn ngữ R thực thuật toán K-means liệu thực nghiệm Nạp liệu vào vùng làm việc R - Dịch chuyển trỏ tới thư mục làm việc: setwd("D:/DEMO") - Đặt đường dẫn tới tệp làm việc: path=paste(getwd(),"/KHOI9.CSV",sep="") - Nạp liệu vào vùng làm việc từ tệp KHOI09.CSV: dat = read.csv(path,header=TRUE,sep=",") Mô tả liệu - Phân bố sốhọcsinh theo điểm trung bình mơn: plot(dat[,20],ylab="Trung bình mơn",xlab="Số học sinh",main="Biểu đồ mơ tả họcsinh theo TBCM",pch=20,col=3) - Thống kê sốhọcsinh theo điểm tốn: hist(dat[,5],col=2,ylab="Số lượng học sinh",xlab="Điểm tốn",main="Biểu đồ thơng kê họcsinh theo điểm tốn") Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 47 Hình 3.3 Thống kê sốhọcsinh theo điểm toán Biểu đồ cho thấy phân lớn họcsinh tập trung từ 7.5 đến 9.5 điểm Trong 208 họcsinhcó khoảng 32 họcsinh 7.5 đến 8, 40 họcsinhcó điểm tốn đến 8.5, 32 họcsinhcó điểm tốn 8.5 đến 34 họcsinhcó điểm khoảng đến 9.5 Thực thuật toán K-means Giả sử phâncụmhọcsinh theo trường điểm toán (TOAN) điểm văn (VAN) với sốcụm 03 - Lấy trường cần phâncụm vào ma trận số X gồm trường toán, văn: X = datN[,1:2] - Thiết lập vùng làm việc: set.seed(1) - Sử dụng thuật toán K-means phân X thành 03 cụm, với tâm cụm lấy ngẫu nhiên khoảng [1,10]: km = kmeans(X,3, nstart=10) - Vẽ cặp phâncụm giữ điểm toán điểm văn: plot(X[c(1,2)], col =(km$cluster +1), main="K-Means result with clusters", pch=20, cex=2) - Hiện thị tâm cụm: points(km$centers,col=c(2,3,4), pch=8,cex=4) Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 48 Hình 3.4 Kết phâncụm 3.3 Kết phâncụm thuật toán K-means Sốliệu sử dụng thực nghiệm bảng kết học tập 208 họcsinh lớp năm học 2014-2015 trườngTrunghọcsởChuVănAn (có cấu trúc Bảng 3.1) 3.3.1 Phâncụmhọcsinh dựa kết học tập Để thuận lợi cho việc phân tích đáp ứng nhu cầu quản lý đào tạo, luận vănphân chia liệu thử nghiệm thành 03 cụm nhằm phản ánh đánh giá họcsinh theo 03 mức: xuất sắc, giỏi, Trong trường hợp tổng quát phân thành nhiều cụm khác đáp ứng nhu cầu quản lý nhà trường Kết phâncụm 208 họcsinh theo kết học tập cho Bảng 3.2 đây: Bảng 3.2 Phâncụm theo kết học tập Các cụmCụmCụmCụm Tâm cụm 8.4 (8.0-8.7) Tâm cụm 7.6 (6.5-7.9) Tâm cụm 9.2 (8.8-9.9) Số lượng Tỷ lệ Số lượng Tỷ lệ Số lượng Tỷ lệ 88 42,3% 35 16,8% 85 40,9% Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 49 Theo kết phâncụm Bảng 3.2 ta có: Cụmcụmcó kết họcsinh đạt loại giỏi, số lượng họcsinh 88, chiếm 42,3%, bao gồm họcsinhcó điểm trung bình từ 8.0 đến 8.7 Cụmcụmcó kết họcsinh đạt loại khá, chiếm 16,8%, bao gồm họcsinhcó điểm trung bình từ 6.5 đến 7.9 Cụmcụmcó kết họcsinh đạt xuất sắc, chiếm 40,9%, bao gồm họcsinhcó điểm trung bình từ 8.8 đến 9.9 Sau có kết phân cụm, luận văn thực thống kê sốliệucụm theo chủ đề phục vụ cho công tác quản lý đào tạo trường Kết thống kê trình bày mục 3.3.1.1 Thống kê theo địa bàn hành (nơi sinh) Bảng 3.3 Thống kê phâncụm theo địa bàn hành Nơi sinhCụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lượng Các cụmCụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lượng Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lượng Huyện Phú Lương 4.5% 0% 3.5% Thành phố Thái Nguyên 76 86.3% 32 91.4% 73 85.9% Huyện Đại Từ 3.4% 2.8% 2.3% Huyện Phú Bình 1.1% 0% 0% Thị xã Bắc Kạn 2.2% 0% 1.1% Huyện Võ Nhai 2.2% 2.8% 1.1% Huyện Chí Linh 0% 2.8% 0% Huyện Phổ Yên 0% 0% 1.1% Huyện Đồng Hỷ 0% 0% 3.5% Thị xã Hà Giang 0% 0% 1.1% Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 50 Kết thống kê cho thấy: Cụmcụmcó kết họcsinh đạt loại xuất sắc, tập trungchủ yếu thành phố Thái Nguyên 73 học sinh, chiếm 85,9% Cụmcụmcó kết họcsinh đạt loại giỏi, tập trungchủ yếu thành phố Thái Nguyên 32 học sinh, chiếm 86,3% Cụmcụmcó kết họcsinh đạt loại khá, tập trungchủ yếu thành phố Thái Nguyên 76 học sinh, chiếm 91,4% Điều dễ hiểu họcsinhtrườngTrunghọcsởChuVănAnchủ yếu đến từ thành phố Thái Nguyên 3.3.1.2 Thống kê theo hoàn cảnh gia đình (HCGD) Bảng 3.4 Thống kê phâncụm theo hồn cảnh gia đình Hồn cảnh gia đình Cụm Tâm cụm 8.4 (8.0-8.7) Số Tỷ lệ lượng Các cụmCụm Tâm cụm 7.6 (6.5-7.9) Số Tỷ lệ lượng Cụm Tâm cụm 9.2 (8.8-9.9) Số Tỷ lệ lượng Tiểu thương 24 27.2% 13 37.1% 21 24.7% Công nhân 17 19.3% 25.7% 22 25.9% Nông dân 10.2% 8.6% 14 16.5% Cán viên chức 38 43.2% 10 28.6% 24 28.2% 4.7% Con thương binh Kết thống kê cho thấy: Cụmcụmcó kết họcsinh đạt loại xuất sắc, tỷ lệ cao gia đình cán viên chức (28.2%), thấp em nông dân (16.5%) Cụmcụmcó kết họcsinh đạt loại giỏi, tập trungchủ yếu gia đình cán viên chức, chiếm 43,2%, thấp em nơng dân (10.2%) Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 51 Cụmcụmcó kết họcsinh đạt loại khá, gia đình tiểu thương chiếm tỷ lệ cao (37.1%) Tóm lại, phâncụm theo hồn cảnh gia đình ta nhận thấy họcsinh xuất sắc giỏi tập trung nhiều gia đình cán viên chức 3.3.1.3 Thống kê theo dân tộc (DANTOC) Bảng 3.5 Thống kê phâncụm theo dân tộc Các cụm Dân tộc CụmCụmCụm Tâm cụm 8.4 Tâm cụm 7.6 Tâm cụm 9.2 (8.0-8.7) (6.5-7.9) (8.8-9.9) Số Tỷ lệ lượng Số Tỷ lệ lượng Số Tỷ lệ lượng Kinh 66 75% 33 94.3% 75 88.2% Tày 16 18.2% 2.8% 4.7% Nùng 3.4% 0% 2.3% Sán Dìu 2.3% 0% 1.2% Dao 1.1% 0% 0% Cờ lao 0% 2.8% 1.2% Hoa 0% 0% 1.2% Cống 0% 0% 1.2% Kết thống kê cho thấy họcsinh xuất sắc, giỏi tập trungchủ yếu dân tộc Kinh, nguyên nhân họcsinh dân tộc Kinh chiếm tỷ lệ chủ yếu Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 52 3.3.1.4 Thống kê theo giới tính (GIOITINH) Bảng 3.6 Thống kê phâncụm theo giới tính Các cụm Giới tính CụmCụmCụm Tâm cụm 8.4 Tâm cụm 7.6 Tâm cụm 9.2 (8.0-8.7) (6.5-7.9) (8.8-9.9) Số Tỷ lệ Số lượng Tỷ lệ Số lượng lượng Nam 44 50% 24 68.6% 30 35.3% Nữ 44 50% 11 31.4% 55 64.7% Kết thống kê cho thấy, cụmhọcsinh xuất sắc, sốhọcsinh nữ cao sốhọcsinh nam Ở cụmhọcsinhhọc khá, số lượng họcsinh nữ nhỏ sốhọcsinh nam Như vậy, họcsinh nữ có xu hướng học tốt họcsinh nam 3.3.2 Phâncụmhọcsinh dựa điểm trung bình môn Thực phâncụmhọcsinh theo điểm trung bình mơn thành 04 cụm tương ứng với kết xuất sắc, giỏi, khá, trung bình 3.3.2.1 Phâncụm dựa điểm trung bình mơn tốn (TOAN) Bảng 3.7 Phâncụm theo điểm trung bình mơn tốn Cụm Tâm cụm 9.2 Số Tỷ lệ lượng 68 32.7% Cụm Tâm cụm 8.3 Số Tỷ lệ lượng 68 32.8% Cụm Tâm cụm 7.4 Số Tỷ lệ lượng 50 24% Cụm Tâm cụm 6.5 Số lượng Tỷ lệ 22 10.5% Như vậy, cụm tương ứng với kết xuất sắc, cụm tương ứng với kết giỏi, cụm tương ứng với kết khá, cụm tương ứng với kết trung bình Kết phâncụm cho thấy, cụm bao gồm 68 họcsinhhọc xuất sắc mơn tốn (chiếm tỷ lệ 32.7%) Do đó, 68 họcsinh tư vấn thi vào cấp chuyên Toán 3.3.2.2 Phâncụm dựa điểm trung bình mơn văn (VAN) Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 53 Bảng 3.8 Phâncụm theo điểm trung bình mơn vănCụm Tâm cụm 7.8 Số Tỷ lệ lượng 52 25% Cụm Tâm cụm 8.7 Số Tỷ lệ lượng 58 27.9% Cụm Tâm cụm 6.9 Số Tỷ lệ lượng 32 15.4% Cụm Tâm cụm 9.4 Số lượng Tỷ lệ 66 31.7% Như vậy, cụm tương ứng với kết khá, cụm tương ứng với kết giỏi, cụm tương ứng với kết trung bình, cụm tương ứng với kết xuất sắc Kết phâncụm cho thấy, cụm bao gồm 66 họcsinhhọc xuất sắc môn văn (chiếm tỷ lệ 31.7%) Do đó, 66 họcsinh tư vấn thi vào cấp chuyên vănPhâncụm tương tự môn học khác để thực tư vấnhọcsinh thi vào khối chuyên cấp tỉnh 3.3.3 Phâncụm dựa điểm trung bình mơn tốn môn văn Ở trườngtrunghọcsở hai mơn mang tính định hình thành tư nhân cách họcsinh mơn tốn môn văn Hai môn Bộ giáo dục đánh giá cao môn khác cụ thể việc tính điểm trung bình mơn học hai mơn tính hệ số mơn khác hệ số Hai môn môn chủ đạo Hàng năm, tỉnh tuyển sinh chuyển cấp thi hai môn học Trong kỳ thi tốt nghiệp trunghọcsở thi tốt nghiệp hai môn học Do ta xem xét kết học tập họcsinh từ hai môn học nhằm mục đích xem có liên hệ, ảnh hưởng qua lại lẫn hai môn học nhằm giúp cho nhà trườngcó định hướng tốt trình giảng dạy học tập họcsinh Để phân tích kết học tập mơn tốn ảnh hưởng đến kết học tập môn văn nào, luận văn thực công việc phâncụm sau: - Phâncụmhọcsinh dựa điểm trung bình mơ tốn thành cụm Kết phâncụm theo mơn tốn Bảng 3.7 (mục 3.3.2.1) - Với cụm tốn tìm được, thực phâncụm theo kết học tập môn văn Kết thu Bảng 3.9 sau: Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 54 Bảng 3.9 Phâncụm theo mơn tốn mơn văn Xuất sắc (Cụm 1, 68 học sinh) Số Tỷ lệ lượng Xuất sắc (cụm 4) Cụm theo môn văn Giỏi (cụm 2) Khá (cụm 1) Trung bình (cụm 3) Cụm theo mơn toán Giỏi Khá (Cụm 2, 68 học (Cụm 3, 50 học sinh) sinh) Số Tỷ lệ Số Tỷ lệ lượng lượng Trung bình (Cụm 4, 22 học sinh) Số Tỷ lệ lượng 32 47.1% 24 35.3% 19 38% 4.5% 14 20.6% 18 26.5% 10% 18.2% 12 17.6% 11 16.1% 16 32% 31.8% 10 14.7% 15 22.1% 10 20% 10 45.4% Xét cụm xuất sắc môn tốn (cụm mơn tốn) ta nhận thấy 68 họcsinhhọc xuất sắc mơn tốn có 32 họcsinhhọc xuất sắc môn văn, chiếm tỷ lệ 47.1% Vậy ta nhận thấy việc học giỏi môn tốn dẫn đến việc em học giỏi môn xã hội cao Ngược lại, xét cụmtrung bình mơn tốn (cụm mơn tốn) tổng số 22 họcsinhhọctrung bình mơn tốn có 01 em học giỏi mơn văn, lại phần lớn họctrung bình mơn văn Do đó, việc học giỏi mơn tốn ảnh hưởng nhiều đến học giỏi môn xã hội 3.4 Kết luận chương Trong chương này, luận văn phát biểu toán phâncụm kết học tập họcsinh lớp trườngTrunghọcsởChuVănAn thành phố Thái Nguyên, lựa chọn thuật toán phâncụm K-means, công cụ thực ngôn ngữ phân tích liệu R Trên sở đó, luận văn trình bày kết thử nghiệm phâncụm 208 họcsinh lớp Kết phâncụmcó ý nghĩa quan trọng công tác quản lý đào tạo Trường hỗ trợ, tư vấn cho họcsinh lớp thi vào trường chuyên cấp tỉnh Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 55 KẾT LUẬN Những kết luận văn Luận văn tổng hợp vấn đề khai phá liệu sâu trình bày phâncụm liệu, kỹ thuật phổ biến khai phá liệu Trong lĩnh vực phâncụm liệu, cósố thành định Hiện nay, hệ thống sởliệu ngày phát triển đa dạng, nhu cầu khám phá tri thức sởliệu ngày lớn, việc nghiên cứu mơ hình liệu áp dụng phương pháp phâncụmliệu xu tất yếu, vừa có ý nghĩa khoa học thực tiễn Chương 1, luận văn trình bày nét tổng quan phâncụm liệu, bao gồm vấn đề khám phá tri thức, khai phá liệuphâncụmliệu Trên sở đó, Chương sâu giới thiệu phương pháp phâncụmliệu thuật toán phâncụm liệu, cósố thuật tốn tảng phương pháp tiếp cận, số thuật toán mở rộng, cải tiến thuật toán sở để giải đa dạng liệu, xử lý vấn đề nhiễu ngoại lai Chương áp dụng thuật tốn phâncụm K-means trình bày Chương để giải toán phâncụm kết học tập họcsinhtrườngTrunghọcsởChuVănAn Tóm lại, phâncụmliệu lĩnh vực quan tâm nghiên cứu nhiều, có phạm vi ứngdụng rộng, liên quan đến nhiều ngành khoa học khác Trong trình làm luận văn, tác giả cố gắng nghiên cứu, sưu tầm, tập trung trình bày vấn đề cách tổng hợp trình độ thời gian có hạn, phạm vi trình bày lĩnh vực nghiên cứu rộng, vậy, luận văn chắn có nhiều hạn chế thiếu sót, nhiều vấn đề để mở cho hướng nghiên cứu Tác giả mong nhận ý kiến đánh giá, đóng góp, bảo thầy giáo bạn bè Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 56 Hướng nghiên cứu Trong thời gian tới, tác giả luận văn tiếp tục tìm hiểu mơ hình liệu đặc thù, lựa chọn kỹ thuật phâncụmliệu phù hợp nhằm xây dựngứngdụng thực tiễn Hướng nghiên cứu cụ thể sau: - Tập trung nghiên cứu phát triển vấn đề để mở dựa kiến thức sở trình bày - Xây dựng phát triển kỹ thuật phâncụm mờ - Kết hợp kỹ thuật phâncụm với kỹ thuật khác luật kết hợp để giải sốứngdụng thực tế Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 57 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Bùi Công Cường (2005): “Một số hướng công nghệ tri thức khai phá liệu” Viện toán học, Trường thu “Hệ mờ ứng dụng" lần thứ Bùi Cơng Cường, Nguyễn Dỗn Phước (2001): “Hệ mờ, hệ Nơron ứng dụng”, Nhà xuất KHKT Tài liệu tiếng Anh K Jain and R C Dubes (1988), Algorithms for Clustering Data, Printice Hall D Fisher (1987), Knowledge acquisition via incremental conceptual clustering, Machine Learning D Gibson, J Kleinberg and P Raghavan (1998), Clustering categorical data: An approach based on dynamic systems, In Proc, VLDB’98 Douglass Cutting, David Karger, Jan Pedersen and John W Tukey (1992), Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen Ho Tu Bao (2000), Knowledge Discovery And Data Mining, Institute of Information HiTechnology, National Center for Natural Science and Technology O Zamir and O Etzioni (1999), Groupera dynamic clustering interface to web search results, In Proceedings of the Eighth International World Wide Web Conference, Toronto, Canada, M Steinbach, G L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons 10 Spath H (1980): “Clustring Analysis Algorithms ”, Ellis Horwood Số hóa Trung tâm Họcliệu – ĐHTN http://www.lrc.tnu.edu.vn 11 MacQuenn J.B: “Some methods for classifcation and Analysis of multivariate observations” Processings of the Symposium on Mathematical Statistics and Probability, th Beckley, Vol University of California Press 12 M Ester, H.-P Kriegel, J Sander and X Xu (1996), A density-based algorithm for discovering clusters in large spatial databases, KDD'96 13 M R Anderberg (1973), Cluster Analysis for Applications, Academic Press 14 P Arabie, L J Hubert and G De Soete (1996), Clustering and Classifcation, World Scietific 15 P Michaud (1997), Clustering techniques, Future Generation Computer systems 16 T Zhang, R Ramakrishnan and M Livny (1996), BIRCH : an effcient data clustering method for very large databases, SIGMOD'96 17 Ihaka R, Gentleman R, R: A language for data analysis and graphics, Journal of Computational and Graphical Statistics 1996, pp 299-314 ... phân cụm học sinh trường Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: Phân cụm liệu ứng dụng phân cụm học sinh trường Trung học sở Chu Văn An ... 40 Chương PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN 41 3.1 Bài toán phân cụm kết học tập học sinh trường trung học sở Chu Văn An ………………………………………………………………………………….41... phương pháp phân cụm khai phá liệu Trên sở đó, áp dụng kỹ thuật phân cụm vào giải toán thực tiễn địa phương nơi tác giả làm việc phân cụm kết học tập học sinh trường Trung học sở Chu Văn An, thành