Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)

71 600 5
Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)Phân cụm đồ thị dữ liệu và ứng dụng (LV thạc sĩ)

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRẦN HÀ PHƯƠNG PHÂN CỤM ĐỒ THỊ DỮ LIỆU ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRẦN HÀ PHƯƠNG PHÂN CỤM ĐỒ THỊ DỮ LIỆU ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS TS ĐOÀN VĂN BAN THÁI NGUYÊN - 2016 i LỜI CAM ĐOAN Tên là: Trần Hà Phương Sinh ngày: Học viên lớp cao học CHK13 - Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Hiện công tác tại: Xin cam đoan: Đề tài “Phân cụm đồ thị liệu ứng dụng” Thầy giáo PGS.TS Đoàn Văn Ban hướng dẫn công trình nghiên cứu riêng Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai hoàn toàn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Thái Nguyên, ngày 14 tháng năm 2016 Tác giả luận văn Trần Hà Phương ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban, luận văn với đề tài “Phân cụm đồ thị liệu ứng dụng”đã hoàn thành Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban tận tình dẫn, giúp đỡ hoàn thành luận văn Khoa sau Đại học Trường Đại học công nghệ thông tin truyền thông giúp đỡ trình học tập thực luận văn Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ suốt trình học tập, thực hoàn thành luận văn Thái Nguyên, ngày 16 tháng năm 2016 Tác giả luận văn Trần Hà Phương iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC BẢNG vi DANH MỤC CÁC HÌNH ẢNH vii MỞ ĐẦU 1 Tính khoa học cấp thiết đề tài Mục tiêu, đối tượng phạm vi nghiên cứu đề tài Phương pháp luận nghiên cứu Nội dung bố cục luận văn CHƯƠNG 1TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU .4 1.1 Khái niệm, mục tiêu bước phân cụm liệu 1.1.1 Phân cụm liệu gì? .4 1.1.2 Các mục tiêu phân cụm liệu 1.1.3 Các bước để phân cụm 1.2 Một số khái niệm cần thiết tiếp cận phân cụm liệu 1.2.1 Phân loại kiểu liệu 1.2.2 Độ đo tương tự phi tương tự 1.3 Những kỹ thuật tiếp cận phân cụm liệu 11 1.3.1 Phương pháp phân cụm phân hoạch 12 1.3.2 Phương pháp phân cụm phân cấp 12 1.3.3 Phương pháp phân cụm dựa mật độ 13 1.3.4 Phương pháp phân cụm dựa lưới 14 1.3.5 Phương pháp phân cụm dựa mô hình .15 1.3.6 Phương pháp phân cụm liệu có liên kết .15 1.4 Các ứng dụng phân cụm liệu 16 1.5 Các yêu cầu vấn đề tồn phân cụm liệu 18 1.5.1 Các yêu cầu phân cụm liệu 18 1.5.2 Những vấn đề tồn phân cụm liệu 19 1.6 Tổng kết chương 20 iv CHƯƠNG THUẬT TOÁN PHÂN CỤM ĐỒ THỊ DỮ LIỆU 22 2.1 Tổng quan lý thuyết đồ thị 22 2.1.1 Giới thiệu chung 22 2.1.2 Biểu diễn đồ thị máy tính 23 2.2 Mô hình đồ thị liệu 27 2.3 Độ đo phân cụm đồ thị liệu .28 2.3.1 Độ đo cho phân cụm liệu nói chung 28 2.3.2 Độ đo cho phân cụm đồ thị 30 2.4 Một số thuật toán phân cụm liệu dựa đồ thị 31 2.4.1 Thuật toán CHAMELEON 31 2.4.2 Thuật toán phân cụm quang phổ 33 2.4.3 Thuật toán phân cụm phân cấp 35 2.5 Kết luận chương .46 CHƯƠNG ỨNG DỤNG THUẬT TOÁN ĐỒ THỊ QUANG PHỔ TRONG VIỆC PHÂN LOẠI KẾT QUẢ HỌC TẬP CỦA HỌC SINH 47 3.1 Đặt vấn đề .47 3.2 Xây dựng chương trình ứng dụng 49 3.2.1 Mục đích chương trình 49 3.2.2 Cơ sở liệu 49 3.2.3 Các bước thực 49 3.2.4 Môi trường cài đặt 50 3.2.5 Cài đặt 50 3.3 Các chức chương trình 51 3.3.1 Chương trình 51 3.3.2 Biểu diễn liệu theo đồ thị 52 3.3.3 Phân cụm liệu đồ thị quang phổ 52 3.4 Đánh giá hiệu thuật toán phân cụm liệu đồ thị quang phổ 54 3.5 Kết luận chương .58 KẾT LUẬN HƯỚNG PHÁT TRIỂN .59 TÀI LIỆU THAM KHẢO 61 v DANH MỤC CÁC TỪ VIẾT TẮT Từ cụm từ BDCM CA Từ tiếng Anh Binding data Từ tiếng Việt Clustering Phương pháp phân cụm liệu Methods có liên kết Continuous Attribute Thuộc tính liên tục Cơ sở liệu CSDL Discrette Attribute Thuộc tính rời rạc DBM Density-Based Methods Phương pháp dựa mật độ GBM Grid-Based Methods Phương pháp dựa lưới HM Hierarchical Methods Phương pháp phân cấp DA MBCM Model-Based Clustering Phương pháp dựa mô hình Methods phân cụm MC Markov Clustering Phân cụm theo mô hình Markov MST Minimum Spanning Tree Cây khung nhỏ Partitioning Methods Phương pháp phân họach Random Walk Algorithm Thuật toán bước ngẫu nhiên Star Clustering Phân cụm hình PM RWA SC SCA Spectral Clustering Algorithm Thuật toán phân cụm quang phổ SOM Self-Organizing Map Mạng tự tổ chức vi DANH MỤC BẢNG Bảng 3.1 Các module chương trình 51 vii DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Ví dụ phân cụm liệu [7] Hình 1.2 Ví dụ phân cụm đối tượng dựa khoảng cách [7] Hình 1.3 Ví dụ phân cụm đối tượng dựa kích cỡ [7] Hình 1.4 Các bước trình phân cụm Hình 1.5 Các chiến lược phân cụm phân cấp [11] 13 Hình 1.6 Cấu trúc phân cụm liệu dựa lưới 14 Hình 2.1 Ví dụ mô hình đồ thị 22 Hình 2.2 Phân loại đồ thị 23 Hình 2.3 Ma trận kề vô hướng (trên) có hướng (dưới) .25 Hình 2.4 Ma trận trọng số vô hướng (trên) có hướng (dưới) 26 Hình 2.5 Ma trận liên thuộc vô hướng (trên) có hướng (dưới) 27 Hình 2.6 Minh họa thuật toán CHAMELEON 32 Hình 2.7 Nguyên lý chung AntTree 36 Hình 2.8 Kiến trúc khác SOM SOMTree 41 Hình 2.9 Phân việc từ treec old cho treec .44 tree c Hình 2.10 Tách subtreex khỏi đưa vào list 45 Hình 2.11 Tái liên kết subtreex vào treec 45 old Hình 3.1 Màn hình chương trình .51 Hình 3.2 Biểu diễn liệu theo đồ thị .52 Hình 3.3 Phân cụm liệu đồ thị quang phổ với liệu vào liệu kiểm tra 53 Hình 3.4 Phân cụm liệu đồ thị quang phổ với liệu vào điểm học sinh 54 Hình 3.5 Kết phân cụm liệu dạng ba cụm Gaussian với 1000 mẫu liệu 55 Hình 3.6 Kết phân cụm liệu dạng ba cụm Gaussian với độ lớn 100, 1000, 3000 mẫu liệu .55 Hình 3.7 Kết phân cụm liệu dạng hai nửa vầng trăng với kích thước liệu ba cụm Gaussian với độ lớn 7500 mẫu liệu 56 Hình 3.8 Kết phân cụm liệu dạng hai nửa vầng trăng với hai thuật toán K mean (trái) đồ thị quang phổ (phải) 56 Hình 3.9 Kết phân cụm liệu điểm học sinh với số cụm khác 57 MỞ ĐẦU Tính khoa học cấp thiết đề tài Phân cụm vấn đề phổ biến lĩnh vực nhận dạng mẫu, học máy khai thác liệu Hiện tại, thực tế có nhiều thuật toán phân cụm công bố Tuy nhiên, không tồn thuật toán phân cụm cho tất loại liệu, thuật toán phân cụm liên tục đề xuất Kết là, người dùng phải chọn thuật toán thích hợp từ nhiều ứng viên để đạt kết xác Trong thực tế, việc lựa chọn thuật toán phân cụm liệu phù hợp khó khăn người sử dụng thường kiến thức tiên nghiệm đa dạng phức tạp liệu Để phần giảm bớt nhược điểm trên, thuật toán phân cụm dựa đồ thị đề xuất ưu điểm khả xử lý liệu đa dạng có cấu trúc Bản chất thuật toán biểu diễn liệu dựa đồ thị phân cụm thành phần theo thuật toán thiết kế riêng Đồ thị cấu trúc toán học sử dụng để đại diện cho mối quan hệ cặp đối tượng từ tập hợp xác định Đồ thị chứa đỉnh (đại diện cho đối tượng) cạnh nối đỉnh (đại diện cho mối quan hệ đối tượng cặp) Đây phương pháp cấu trúc liệu quan trọng sử dụng nhiều lĩnh vực khai thác liệu, xử lý ngôn ngữ tự nhiên, tìm kiếm thông tin khai thác thông tin Trong phân cụm, tương đồng đối tượng phân cụm diễn tả đồ thị có trọng số Trong đó, đối tượng đỉnh tương đồng trọng số cạnh Bài toán phân cụm đơn giản hóa toán phân cụm đồ thị mà nhiệm vụ tách đồ thị phụ dày đặc kết nối thưa thớt khỏi dựa khái niệm mật độ nội cụm so với khoảng cách liên cụm Với lý trên, tác giả chọn đề tài “Phân cụm đồ thị liệu ứng dụng” làm đề tài nghiên cứu luận văn tốt nghiệp thạc sĩ chuyên ngành Khoa học máy tính 48 Như hiểu khối lớp có 4/5 học sinh trung bình Một cách chi tiết hơn, ta nói: 400 học sinh trung bình có 100 học sinh 8.0, 200 học sinh từ 6.5 đến cận 8.0, 100 học sinh từ 5.0 đến cận 6.0 Như hiểu sâu sắc khối lớp có 1/5 học sinh giỏi, 2/5 học sinh v.v… Như vậy, việc phân loại kết học tập học sinh nhà trường chuyện đơn giản Nó đòi hỏi người đánh giá phải có đầu tư, nghiên cứu, tìm tòi sáng tạo nhằm đưa phân tích, đánh giá đắn nhất, xác kết học tập học sinh, từ đề định hướng, hoạch định cho nhà trường việc: đầu tư bồi dưỡng giáo viên môn yếu, phát học sinh giỏi để bồi dưỡng, học sinh để phụ đạo, có kế hoạch tăng giờ, tăng tiết, định hướng nghề nghiệp cho học sinh dựa sở thích, khiếu môn học v.v… Tuy nhiên, việc đánh giá dựa người mang tính cứng nhắc, áp đặt Ví dụ luôn chọn mức điểm, mức giỏi điểm để phân học sinh thành ba cụm kém, trung bình giỏi Mặt khác, cần phân chia với số cụm lớn việc xác định mức điểm ranh giới cụm thường mang cảm tính, không xác Thực tế điều phải dựa phân bố mẫu liệu kết học tập Nhược điểm giải việc đánh giá thực máy với thuật toán phân cụm hợp lý mà phân cụm đồ thị lựa chọn cho đa số liệu [9] Như trình bày chương 2, thuật toán phân cụm đồ thị quang phổ cho lựa chọn phù hợp cho đa số toán phân cụm liệu tính đơn giản, dễ cài đặt biểu diễn liệu dạng có cấu trúc Vì vậy, học viên định lựa chọn thuật toán cho việc “phân tích, đánh giá kết học tập học sinh” Bên cạnh đó, học viên chứng minh hiệu thuật toán qua việc tiến hành đánh giá liệu thường cộng đồng khoa học dùng làm tiêu chí so sánh thuật toán phân cụm như: liệu dạng Gauusian 2, cụm, liệu dạng hai nửa vầng trăng (đối xứng không đối xứng) 49 3.2 Xây dựng chương trình ứng dụng 3.2.1 Mục đích chương trình Chương trình ứng dụng xây dựng với hai mục đích - Đánh giá hiệu hoạt động thuật toán phân cụm đồ thị quang phổ: Để chứng minh hiệu hoạt động tốt thuật toán phân cụm đồ thị quang phổ, chương trình cho phép thực phân cụm số mẫu liệuphân bố đặc biệt với số cụm biết trước - Chứng minh khả áp dụng thuật toán phân cụm đồ thị quang phổ cho toán phân loại học sinh: Dựa điểm trung bình môn học để phân cụm liệu nhằm phân loại, đưa nhìn đa dạng hơn, đa chiều hơn, nhiều góc độ khác điểm số giúp cho nhà quản lý giáo dục có thêm sở để đánh giá đắn nhất, xác tình hình học tập học sinh, hoạt động giảng dạy giáo viên từ đề định hướng, hoạch định cho nhà trường việc nâng cao chất lượng giáo dục 3.2.2 Cơ sở liệu Để thực chương trình, học viên chuẩn bị số liệu sau: - Các liệu để đánh giá thuật toán phân cụm: Bao gồm liệu theo dạng hai nửa vầng trăng (đối xứng không đối xứng), liệu dạng cụm theo phân bố Gaussian (đối xứng không đối xứng) - Dữ liệu điểm học sinh: Cơ sở liệu học sinh lưu trữ phần mềm quản lý điểm trường Trong liệu thông thường có từ phần mềm quản trị sở liệu, quan trọng điểm trung bình môn học Chiều liệu với số lượng môn học có điểm 3.2.3 Các bước thực Để thực phân cụm theo thuật toán quang phổ ta phải tiến hành bước sau:  Bước Chuẩn bị sở liệu  Bước Biểu diễn liệu điểm học sinh dạng đồ thị Trong bước này, ta lựa chọn số loại đồ thị để biểu diễn từ điểm số học sinh như: 50 - Đồ thị k láng giềng (đối xứng) không đối xứng quan hệ láng giềng quan hệ một Khi chọn dạng đồ thị ta phải chọn số lượng láng giềng cho đỉnh - Đồ thị Epsilon láng giềng (đối xứng không đối xứng) Sau lựa chọn dạng đồ thị cần biểu diễn, ta tiến hành xây dựng ma trận tương tự Độ tương tự hai điểm liệu (hai đỉnh đồ thị) biểu diễn   dạng: s  xi , x j   exp  xi  x j / 2  gọi độ rộng hạt  Bước Phân cụm liệu từ kết biểu diễn Sau biểu diễn liệu dạng đồ thị, tùy thuộc số lượng cụm K định Ta tiến hành phân cụm liệu theo bước: Tính toán K giá trị vecto riêng v1….vk ma trận tương tự dựa ma trận Laplacian chuẩn hóa không chuẩn hóa - Xây dựng ma trận V với cột vecto riêng - Biểu diễn điểm liệu Zi theo hàng V - Phân cụm điểm Zi nhờ thuật toán K mean 3.2.4 Môi trường cài đặt Chương trình ứng dụng xây dựng giao diện GUI phần mềm Matlab 2015a Sở dĩ học viên lựa chọn xây dựng phần mềm mô Matlab phần mềm chuyên dụng cho tính toán số liệu dạng ma trận Ngoài ra, Matlab tích hợp nhiều công cụ hỗ trợ cho việc tính toán, biểu diễn liệu theo đồ thị Các công bố phương pháp phân cụm liệu đa phần sử dụng Matlab nên tiện cho việc so sánh đánh giá hiệu phương pháp 3.2.5 Cài đặt Mã nguồn chương trình bao gồm số module mô tả Bảng 3.1 51 Bảng 3.1 Các module chương trình Giải thích Module main.m Cài đặt giao diện chương trình ứng main.fig dụng, có hỗ trợ giao tiếp với người dùng Tính toán khoảng cách điểm, tính toán Graphs.m ma trận tương tự thể quan hệ Graphs.fig điểm, lựa chọn dạng đồ thị biểu diễn liệu theo cấu trúc đồ thị Chọn số lượng cụm, phân cụm liệu biểu SpectralClustering.m diễn theo đồ thị dựa việc xác định K vecto SpectralClustering.fig riêng biểu diễn điểm liệu theo K vecto riêng 3.3 Các chức chương trình 3.3.1 Chương trình Hình 3.1 Màn hình chương trình Hình 3.1 mô tả giao diện chương trình Từ giao diện cho phép người sử dụng minh họa trình biểu diễn liệu điểm học sinh theo cấu trúc đồ thị nhờ thao tác Biểu diễn đồ thị liệu, Xem xét trực quan trình phân cụm liệu để đánh giá kết học tập click vào chức Phân cụm liệu Chức Kết thúc thực việc giải phóng biến thoát chương trình Biểu diễn đồ thị liệu 52 3.3.2 Biểu diễn liệu theo đồ thị Hình 3.2 Biểu diễn liệu theo đồ thị Hình 3.2 mô tả chi tiết việc biểu diễn liệu điểm học sinh theo đồ thị Số chiều liệu cần biểu diễn tương ứng với số lượng điểm trung bình môn học (trong trường hợp 2) Từ giá trị điểm, chương trình tính ma trận tương tự (tương ứng với độ rộng hạt sigma) hiển thị lên mật độ phân bố ma trận tương tự lược đồ phân bố ma trận Tùy theo việc lựa chọn dạng đồ thị mà kết biểu diễu liệu khác Chương trình cho phép người sử dụng so sánh trực quan hai kiểu biểu diễn đồ thị Như Hình 3.2 đồ thị Epsilon có trọng số với giá trị   0.47266 đồ thị KNN đối xứng với số láng giềng k=5 (giá trị  k thay đổi nhờ trượt) Sau thao tác Cập nhật, ta quan sát bậc đỉnh đồ thị, ma trận kề số điểm thành phần hai loại đồ thị 3.3.3 Phân cụm liệu đồ thị quang phổ Hình 3.3 mô tả chi tiết bước việc thực phân cụm liệu Chương trình cho phép lựa chọn hai loại liệu để phân cụm, liệu để kiểm tra tính đắn thuật toán, liệu điểm số thực học sinh 53 Hình 3.3 Phân cụm liệu đồ thị quang phổ với liệu vào liệu kiểm tra Để xác định xem thuật toán phân cụm có xác không, ta tạo 500 mẫu liệu ngẫu nhiên có phân bố dạng hai nửa vầng trăng có số chiều 11 (một mẫu liệu gồm 11 thành phần) với xác suất xuất 0,5 cho nửa phương sai 0.04 (đây loại liệu thường sử dụng để đánh giá chung cho nhiều thuật toán phân cụm) [7] Lựa chọn loại đồ thị biểu diễn đồ thị Epsilon láng giềng đối xứng với tham số Epsilon 0.43 Ma trận tương tự tính với độ rộng hạt sigma 0.1 Chương trình tính toán 10 vecto riêng ma trận tương tự hiển thị lên hình vecto với giá trị riêng tương ứng Dữ liệu biểu diễn theo vecto riêng phân cụm theo K mean (như trình bày phần 2.4.2) Kết phân cụm với số cụm N=2 xác theo liệu giả định Điều chứng tỏ thuật toán phân cụm đồ thị quang phổ hoạt động tốt Hình 3.4 mô tả kết hoạt động chương trình phân cụm liệu điểm học sinh gồm 560 mẫu với số chiều (điểm trung bình môn Toán, Văn, Anh) Ở ta lựa chọn loại đồ thị biểu diễn đồ thị K láng giềng đối xứng với số lượng láng giềng K=10 Ma trận tương tự tính với độ rộng hạt sigma Khi lựa chọn số lượng cụm 3, thuật toán trả kết là: 54 - Có 111 em với điểm trung bình ba môn nhỏ 5.6 (biểu thị màu xanh dương) - Có 385 em đạt kết điểm trung bình ba môn nhỏ 7.6 lớn 5.6 (biểu thị màu đỏ) - Còn lại 64 em có kết điểm trung bình ba môn lớn 7.6 (biểu thị màu đen) Về mặt trực quan, thấy việc phân liệu với số cụm tương đối xác Thêm vào đó, dựa kết thu được, ta định đánh giá học sinh làm ba mức thuật toán cho ta ba cụm với giá trị giới hạn điểm trung bình học sinh 5.6 7.6 Điều khó thực phân loại học sinh dựa theo cảm tính người Hình 3.4 Phân cụm liệu đồ thị quang phổ với liệu vào điểm học sinh 3.4 Đánh giá hiệu thuật toán phân cụm liệu đồ thị quang phổ Sau cài đặt chương trình thử nghiệm, luận văn tiến hành đánh giá hiệu thuật toán phân cụm đồ thị quang phổ số mẫu liệu lớn nhằm làm rõ tốc độ hội tụ thuật toán phân cụm đồ thị quang phổ với số lượng liệu lớn Hình 3.5 Hình 3.6 mô tả kết thuật toán phân cụm liệu đồ thị quang phổ liệu dạng ba cụm Gaussian với kích thước (Hình 3.5) không (Hình 3.6) Kết cho thấy xác phân cụm thuật 55 toán Thời gian hoạt động thuật toán đến cho kết phân cụm nhỏ 1s Điều cho thấy tốc độ hội tụ thuật toán nhanh Hình 3.5 Kết phân cụm liệu dạng ba cụm Gaussian với 1000 mẫu liệu Hình 3.6 Kết phân cụm liệu dạng ba cụm Gaussian với độ lớn 100, 1000, 3000 mẫu liệu Hình 3.7 minh họa kết thuật toán với liệu vào 7500 mẫu theo dạng hai nửa vầng trăng Có thể thấy rằng, liệu lớn làm cho thời gian tính toán tăng tốc độ hội rụ thuật toán giảm Tuy nhiên, so với kích thước lớn mẫu liệu đầu vào, thời gian tính toán 1,09 s (vẫn nhỏ áp dụng vào thực tế) 56 Hình 3.7 Kết phân cụm liệu dạng hai nửa vầng trăng với kích thước liệu ba cụm Gaussian với độ lớn 7500 mẫu liệu Trong Hình 3.8, luận văn so sánh kết thuật toán phân cụm liệu đồ thị quang phổ thuật toán K mean truyền thống Có thể kết luận trường hợp này, thuật toán phân cụm đồ thị quang phổ cho kết phân cụm tốt thuật toán K mean truyền thống Hình 3.8 Kết phân cụm liệu dạng hai nửa vầng trăng với hai thuật toán K mean (trái) đồ thị quang phổ (phải) Tiếp theo, luận văn tập trung phân loại kết học tập học sinh dựa chương trình cài đặt 57 Hình 3.9 Kết phân cụm liệu điểm học sinh với số cụm khác Hình 3.9 thể liệu điểm thu thập 200 mẫu điểm trung bình môn học (Toán, Lý, Hóa, Anh, Văn, Sinh) học sinh phổ thông (mỗi mẫu liệu có số chiều 6) Dựa kết điểm thu được, chương trình tính toán ma trận tương tự mẫu liệu biểu diễn liệu theo dạng đồ thị K láng giềng (K=10) Tiếp kết phân cụm với số cụm 2, 3, Kết cho phép phân lực học sinh viên theo nhóm khác tùy thuộc yêu cầu người đánh giá Chọn số cụm muốn chia lớp làm nhóm giỏi bình thường Khi số cụm ta phân lớp thành nhóm yếu, kém, trung bình, khá, giỏi Trong trường hợp phân liệu thành cụm kết phân loại trả lớp sau: - Có 46 em học lực yếu với điểm trung bình sáu môn nhỏ 3.1 (biểu thị màu xanh nước biển) - Có 31 em đạt học lực kết điểm trung bình sáu môn nhỏ nằm khoảng từ 3.1 đến 4.7 (biểu thị màu xanh cây) - Có 48 em học lực trung bình có kết điểm trung bình sáu môn nằm khoảng từ 4.7 đến 7.2 (biểu thị màu đen) - Có 24 em học lực có kết điểm trung bình sáu môn nằm khoảng từ 7.2 đến 8.5 (biểu thị màu xanh dương) 58 - Còn lại 51 em học lực giỏi có kết điểm trung bình sáu môn lớn 8.5 (biểu thị màu đỏ) 3.5 Kết luận chương Nội dung chương trình bày việc thiết kế chương trình ứng dụng đánh giá kết học tập học sinh dựa thuật toán phân cụm liệu đồ thị quang phổ nhằm phân tích, đánh giá kết học tập học sinh dựa điểm trung bình môn Kết phân cụm bước đầu nhiều giúp cho Ban giám hiệu nhà trường, nhà quản lý giáo dục có nhìn nhiều chiều hơn, đa dạng hơn, nhiều góc cạnh điểm số học sinh từ thu số kết : việc phân lớp, lựa chọn học sinh giỏi để bồi dưỡng, phát học sinh yếu để phụ đạo … đề kế hoạch giảng dạy, tăng tăng tiết, định hướng nghề nghiệp cho học sinh qua việc chọn ban khối thi Đại học v.v… Các bước phân tích, tiến hành nội dung chương mô tả chi tiết Từ việc xây dựng ma trân độ đo tương tự điểm liệu n chiều, đến việc xác định vecto riêng, biểu diễn loại đồ thị khác phân cụm với số lượng cụm tùy chọn Bên cạnh đó, nội dung chương đánh giá hiệu hoạt động thuật toán phân cụm liệu đồ thị quang phổ tập mẫu liệuphân bố phức tạp như: Dữ liệu có dạng hai nửa vầng trăng (cân không cân bằng), liệu có dạng hai ba cụm Gaussian (cân không cân bằng) Đây mẫu liệu thường công trình công bố nước sử dụng để đánh giá hiệu thuật toán phân cụm, từ tạo khẳng định đánh giá hiệu hoạt động thuật toán phân cụm liệu đồ thị quang phổ 59 KẾT LUẬN HƯỚNG PHÁT TRIỂN Sau thời gian tìm hiểu nghiên cứu, luận văn trình bày vấn đề sau theo đề cương đưa ra: - Nghiên cứu tổng quan đánh giá phương pháp phân cụm, nghiên cứu sâu phương pháp phân cụm liệu dựa đồ thị - Nghiên cứu số thuật toán phương pháp phân cụm dựa đồ thị như: Chameleon, phân cụm đồ thị quang phổ (Spectral Clustering), phân cụm phân cấp theo đồ thị (thuật toán AntTree SOMTree) Đánh giá ưu nhược điểm thuật toán - Cài đặt phần mềm thử nghiệm mô chương trình phân tích đánh giá kết học tập học sinh theo thuật toán phân cụm đồ thị quang phổ, đánh giá hiệu hoạt động thuật toán Trong trình tìm hiểu hoàn thành luận văn, đạt số kết định kiến thức, thực tế, thân học viên nhận thấy phân cụm khai phá liệu lĩnh vực nghiên cứu rộng lớn đầy triển vọng bao hàm nhiều phương pháp, kỹ thuật, nhiều hướng nghiên cứu, tiếp cận khác Vì vậy, sở mà luận văn thực đạt được, hướng phát triển sau luận văn sau: - Về thực tiễn: phát triển thành toán với số liệu lớn hơn, bao quát hơn, nhiều chọn lựa Đưa thêm phương pháp tìm kiến tối ưu nhằm hỗ trợ xác định tham số phù hợp dạng đồ thị cần biểu diễn, số lượng láng giềng, độ rộng hạt sigma - Về lý thuyết: tiếp tục nghiên cứu tiếp phương pháp, cách tiếp cận phân cụm liệu như: phân cụm thống kê, phân cụm khái niệm, phân cụm mờ, phân cụm mạng KOHONEN… tìm kiếm, so sánh chọn lựa thuật toán tối ưu để giải toán đưa 60 Mặc cố gắng tập trung nghiên cứu tham khảo nhiều tài liệu, báo, tạp chí khoa học nước, trình độ có nhiều giới hạn tránh khỏi thiếu sót hạn chế, mong bảo đóng góp nhiều quý thầy cô giáo nhà khoa học… Một lần học viên xin cảm ơn Thầy giáo PGS TS Đoàn Văn Ban tận tình giúp đỡ, hướng dẫn thời gian thực đề tài, cảm ơn giúp đỡ gia đình, bạn bè đồng nghiệp thời gian qua Thái Nguyên ngày 14 tháng 06 năm 2016 Người thực Trần Hà Phương 61 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] N H T Anh, Giáo trình Khai thác liệu ứng dụng, Đại học KHTN TP Hồ Chí Minh, 2009 [2] T Q Chiến, Giáo trình lý thuyết đồ thị ứng dụng, Đại Học Đà Nẵng, 2007 [3] Vũ Lan Phương (2006), Nghiên cứu cài đặt số giải thuật phân cụm phân lớp, Luận văn thạc sĩ, Đại học Bách khoa Hà Nội Tài liệu tiếng Anh [4] D J C L B H Istvan Jonyer, "Graph-Based Hierarchical Conceptual Clustering," Journal of Machine Learning Research, vol 2, pp 19-43, 2001 [5] D N Quang, "New models for hierarchical and topological clustering, Ph D Thesis," PARIS 13 UNIVERSITY - SORBONNE PARIS CITÉ, 2013 [6] J H a M Kamber, Data Mining Concepts and Techniques, Canada: Intelligent Database Systems Research Lab School of Computing Science, Simon Fraser University, 2007, p Chapter & Chapter [7] M Matteucci, "A Tutorial on Clustering Algorithms," [Online] Available: http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/index.html [8] O R.Zaiane, Principles of knowledge discovery in databases, University of Alberta, Fall 2001 [9] S E Schaeffer., "Graph clustering," Computer Science Review, vol 1, no 1, p 27–64, August 2007 [10] U Luxburg, "A tutorial on spectral clustering," Statistics and Computing, vol 17, December 2007 [11] G V A O e C G Hanene Azzag, "A hierarchical ant based clustering algorithm and its use in three real-world applications," European Journal of Operational Research, vol 179, no 3, June 2007 [12] T Kohonen, Self-Organizing Maps, Third Edition, Heidelberg: Springer, 2001 62 Các trang Web [13] http://www.ml.uni-saarland.de/code/GraphDemo/GraphDemo.htm [14] http://en.wikipedia.org/wiki/Cluster_analysis [15] http://en.wikipedia.org/wiki/Graph_partition ... quan phân cụm liệu - Nghiên cứu toán phân cụm liệu; Giới thiệu số phương pháp phân cụm liệu phổ biến như: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, phân cụm. .. liệu theo đồ thị .52 Hình 3.3 Phân cụm liệu đồ thị quang phổ với liệu vào liệu kiểm tra 53 Hình 3.4 Phân cụm liệu đồ thị quang phổ với liệu vào điểm học sinh 54 Hình 3.5 Kết phân cụm. .. pháp phân cụm phân hoạch phân cụm phân cấp, nghĩa kết thu phương pháp phân cấp cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch phân cụm phân cấp hai phương pháp phân cụm liệu

Ngày đăng: 18/03/2017, 11:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan