Dissertation outline i Số hóa bởi Trung tâm Học liệu – ĐHTN http //www lrc tnu edu vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRỊNH ANH TUẤN PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG[.]
i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRỊNH ANH TUẤN PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG PHÂN CỤM SINH HỌC TRƢỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn: TS.Nguyễn Long Giang THÁI NGUYÊN - 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CAM ĐOAN Tác giả Trịnh Anh Tuấn xin cam kết nội dung Luận văn chƣa đƣợc nộp cho chƣơng trình cấp cao học nhƣ chƣơng trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngoài phần đƣợc trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii LỜI CẢM ƠN Để hoàn thành đƣợc luận văn này, trƣớc hết xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học Cơng nghệ Việt Nam tận tình hƣớng dẫn, bảo, định hƣớng, đóng góp ý kiến quý báu suốt trình thực luận văn Tôi xin chân thành cảm ơn thầy, cô giáo Bộ mơn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Phịng Đào tạo Sau đại học - Nghiên cứu Khoa học, Trƣờng Đại học Công nghệ thông tin truyền thông Thái Nguyên tạo điều kiện tốt để tơi hồn thành khóa học Xin cám ơn đồng nghiệp trƣờng Trung học sở Chu Văn An thành phố Thái Nguyên trợ giúp nhiều thời gian qua Trong trình thực Luận văn, cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận đƣợc bảo vào đóng góp tận tình thầy để luận văn em đƣợc hoàn thiện Thái Nguyên, tháng năm 2016 Tác Giả Trịnh Anh Tuấn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH .viii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tƣợng phạm vi nghiên cứu 1.4 Phƣơng pháp nghiên cứu 1.5 Cấu trúc luận văn Chƣơng TỔNG QUAN 1.1 Quá trình khám phá tri thức 1.2 Khai phá liệu 1.2.1 Khái niệm khai phá liệu 1.2.2 Các kỹ thuật khai phá liệu 1.3 Phân cụm liệu 1.3.1 Khái niệm phân cụm liệu 1.3.2 Một số vấn đề phân cụm liệu 1.3.3 Mục tiêu phân cụm liệu 10 1.3.4 Các bước phân cụm liệu .10 1.3.5 Yêu cầu phân cụm liệu 11 1.3.6 Ứng dụng phân cụm liệu 12 1.4 Kết luận chƣơng 13 Chƣơng CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU .14 2.1 Kiểu liệu 14 2.1.1 Phân loại kiểu liệu dựa kích thước miền .14 2.1.2 Phân loại kiểu liệu dựa hệ đo 14 2.2 Phép đo độ tƣơng tự phép đo khoảng cách 16 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v 2.2.1 Khái niệm tương tự không tương tự 16 2.2.2 Phép đo khoảng cách .17 2.3 Phƣơng pháp phân cụm phân hoạch 18 2.3.1 Giới thiệu phương pháp 18 2.3.2 Thuật toán K-MEANS 19 2.3.3 Thuật toán PAM .21 2.4 Phƣơng pháp phân cụm phân cấp 24 2.4.1 Giới thiệu phương pháp 24 2.4.2 Thuật toán HERACHICAL .25 2.4.3 Thuật toán BIRCH 28 2.5 Phƣơng pháp phân dựa mật độ 31 2.5.1 Giới thiệu phương pháp 31 2.5.2 Thuật toán DBSCAN 32 2.6 Phƣơng pháp phân cụm dựa lƣới 36 2.6.1 Giới thiệu phương pháp 36 2.6.2 Thuật toán STING 37 2.7 Kết luận chƣơng 40 Chƣơng PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƢỜNG TRUNG HỌC CƠ SỞ CHU VĂN AN 41 3.1 Bài toán phân cụm kết học tập học sinh trƣờng trung học sở Chu Văn An…………………………………………………………………………………….41 3.1.1 Giới thiệu trường Trung học sở Chu Văn An 41 3.1.2 Bảng liệu kết học tập học sinh 42 3.1.3 Bài toán phân cụm kết học tập học sinh 43 3.2 Lựa chọn phƣơng pháp, công cụ 44 3.2.1 Lựa chọn ngôn ngữ R thực phân cụm 44 3.2.2 Các bước thực phân cụm ngôn ngữ R .46 3.3 Kết phân cụm thuật toán K-means 48 3.3.1 Phân cụm học sinh dựa kết học tập 48 3.3.2 Phân cụm học sinh dựa điểm trung bình mơn 52 3.3.3 Phân cụm dựa điểm trung bình mơn tốn mơn văn .53 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi 3.4 Kết luận chƣơng 54 KẾT LUẬN .55 TÀI LIỆU THAM KHẢO 57 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 3.1 Bảng liệu kết học tập học sinh 43 Bảng 3.2 Phân cụm theo kết học tập 48 Bảng 3.3 Thống kê phân cụm theo địa bàn hành 49 Bảng 3.4 Thống kê phân cụm theo hồn cảnh gia đình 50 Bảng 3.5 Thống kê phân cụm theo dân tộc 51 Bảng 3.6 Thống kê phân cụm theo giới tính 52 Bảng 3.7 Phân cụm theo điểm trung bình mơn tốn 52 Bảng 3.8 Phân cụm theo điểm trung bình môn văn 53 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii DANH MỤC CÁC HÌNH Hình 1.1 Q trình khám phá tri thức Hình 1.2 Quy trình phân cụm Hình 2.1 Khởi tạo đối tƣợng medoid 22 Hình 2.2 Cây CF đƣợc dùng thuật toán BIRCH 29 Hình 2.3 Ý tƣởng thuật tốn phân cụm phân cấp 31 Hình 2.4 Lân cận với ngƣỡng điểm p 32 Hình 2.5 Mật độ liên lạc 33 Hình 2.6 Mật độ liên thơng 34 Hình 2.7 Các mức lƣới khác q trình truy vấn 38 Hình Website trƣờng Trung học sở Chu Văn An 41 Hình 3.2 Cơ cấu tổ chức trƣờng Trung học sở Chu Văn An 42 Hình 3.3 Thống kê số học sinh theo điểm tốn 47 Hình 3.4 Kết phân cụm 48 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Sự phát triển nhanh chóng ứng dụng cơng nghệ thông tin Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật năm gần tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin từ sở liệu khổng lồ nhằm mục đích dự báo, hỗ trợ định, bên cạnh phƣơng pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phƣơng pháp, kỹ thuật phần mềm hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin, lĩnh vực đƣợc gọi khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) Khai phá liệu khám phá tri thức lĩnh vực quan trọng ngành Công nghệ thơng tin với mục tiêu tìm kiếm tri thức có ích, cần thiết, tiềm ẩn chƣa đƣợc biết trƣớc sở liệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Khai phá liệu xem nhiệm vụ quan trọng trình khám phá tri thức từ sở liệu, bao gồm ba bƣớc chính: thu thập tiền xử lý liệu; lựa chọn thuật toán khai phá liệu; đánh giá kết biểu diễn tri thức Các toán quan trọng khai phá liệu bao gồm: phân lớp (classification); hồi quy (regression); phân cụm (clustering); khai phá luật kết hợp (rule association)… Các kỹ thuật, công cụ sử dụng khai phá liệu bao gồm: định; mạng nơron nhân tạo; thuật toán di truyền; kỹ thuật phân lớp, phân cụm; phƣơng pháp thống kê nhƣ phân tích tƣơng quan, phân tích phƣơng sai, hồi quy đơn biến, đa biến Khai phá liệu có nhiều ứng dụng lĩnh vực khác đời sống nhƣ: phân tích, dự báo kinh tế, tài chính; chuẩn đốn bệnh y tế; tin sinh học; hỗ trợ trình sản xuất, kinh doanh Phân cụm (clustering) tốn có vai trị quan trọng khai phá liệu có nhiều ứng dụng thực tiễn Mục tiêu phƣơng pháp phân cụm liệu q trình nhóm đối tƣợng tƣơng tự sở liệu vào cụm cho đối tƣợng cụm tƣơng đồng, đối tƣợng thuộc Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn cụm khác không tƣơng đồng Điểm mạnh phân cụm liệu đƣa đƣợc cấu trúc có ích cụm đối tƣợng tìm thấy trực tiếp từ liệu mà khơng cần tri thức sở Giống nhƣ cách tiếp cận học máy, phân cụm liệu đƣợc hiểu nhƣ phƣơng pháp học khơng có thầy (unsupervised learning) Khơng giống nhƣ phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trƣớc mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Trong phƣơng pháp biết kết cụm thu đƣợc nhƣ bắt đầu q trình Vì vậy, cần có chuyên gia để đánh giá cụm thu đƣợc Phân cụm liệu đƣợc sử dụng nhiều ứng dụng phân đoạn thị trƣờng, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, phân loại, đánh giá học sinh, sinh viên trƣờng học… Ngồi ra, phân cụm liệu cịn đƣợc sử dụng nhƣ bƣớc tiền xử lí cho thuật toán khai phá liệu khác Là ngƣời công tác lĩnh vực giáo dục phổ thông, với mong muốn áp dụng kiến thức học phƣơng pháp phân cụm vào toán thực tiễn phân cụm học sinh trƣờng Trung học sở Chu Văn An, thành phố Thái Nguyên dựa vào kết học tập, tác giả luận văn chọn đề tài: “Phân cụm liệu ứng dụng phân cụm học sinh trường Trung học sở Chu Văn An” 1.2 Mục tiêu đề tài Nắm bắt đƣợc cách tổng thể phƣơng pháp phân cụm khai phá liệu Trên sở đó, áp dụng kỹ thuật phân cụm vào giải toán thực tiễn địa phƣơng nơi tác giả làm việc phân cụm kết học tập học sinh trƣờng Trung học sở Chu Văn An, thành phố Thái Nguyên 1.3 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài phƣơng pháp phân cụm liệu khai phá liệu sở liệu kết học tập học sinh trƣờng Trung học sở Chu Văn An, thành phố Thái Nguyên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn