1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHÂN cụm dữ LIỆU với GIẢI THUẬT k MEANS (DATA CLUSTERING WITH k MEANS ALGORITHM)

21 329 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 1,13 MB

Nội dung

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐÀO TẠO CHẤT LƯỢNG CAO NGÀNH CÔNG NGHỆ THÔNG TIN  BÁO CÁO ĐỒ ÁN ĐỀ TÀI: PHÂN CỤM DỮ LIỆU VỚI GIẢI THUẬT K-MEANS (DATA CLUSTERING WITH K-MEANS ALGORITHM) GVHD: TS Trần Nhật Quang TP Hồ Chí Minh, tháng 12 năm 2018 MỤC LỤC DANH MỤC CÁC HÌNH Hình Các loại kỹ thuật phân cụm[5] Hình Use Case Diagram Hình Kiểm thử với liệu chiều không chồng lấp F1_score = Hình Kiểm thử với liệu chiều không chồng lấp F1_score = Hình Kiểm thử với liệu chiều chồng lấp F1_score=0.6962 Hình Kiểm thử với liệu chiều chồng lấp F1_score=0.7976 Hình Ảnh chưa thêm nhiễu Hình Cú pháp thêm nhiễu cho hình Hình Tất hình ảnh thêm nhiễu Hình 10 Một số ảnh liệu đầu vào Hình 11 Kiểm thử với liệu thực tế F1_score max = Hình 12 Kiểm thử với liệu thực tế F1_score nhỏ = 0.5180 Hình 13 Kiểm thử với liệu thực tế (gán tâm) F1_score = DANH MỤC CÁC BẢNG NỘI DUNG I Mô tả project Lý xây dựng phần mềm Với tình hình phát triển công nghệ nay, thì liệu lưu trữ nhiều thiết bị lưu trữ Vậy nên việc phân loại tập liệu lớn ngày trở nên khó khăn Con người với cách làm thủ công thì tốn rất nhiều thời gian, chí khơng thể phân loại hết Do đó, việc xây dựng phần mềm giúp người phân loại liệu nhu cầu thiết yếu Trong đồ án này, sử dụng thuật toán k-means clustering để viết phần mềm nhằm giải quết vấn đề Giới thiệu phân cụm liệu Bản chất phân cụm ta hiểu qui trình tìm cách nhóm đối tượng cho vào cụm (clusters), cho đối tượng cụm tương tự (similar) đối tượng khác cụm thì không tương tự (disimilar) [5] Hình Các loại kỹ thuật phân cụm[5] Mục đích phân cụm tìm chất bên nhóm liệu Các thuật toán phân cụm (Clustering Algorthms) sinh cụm (clusters) Kỹ thuật phân cụm áp dụng nhiều lĩnh vực [5]: • Marketing: Góm nhóm sản phẩm độc đáo,khách hàng… • Sinh học: Dùng để phân cụm loài động, thực vật theo số thuốc tính,… • Medicine: Phân loại thuốc theo thuốc tính vi khuẩn tăng hiệu thuốc • Khoa học máy tính: xử lý ngơn ngữ tự nhiên, phân loại hình ảnh, • Xã hội: xác định khu vực thường xảy vụ phạm tội, phân cụm trường có thuộc tính tương tự, • Hóa học: tìm cấu trúc tương đồng nhiều hợp chất hóa học khác nhau, • Library: Theo dõi độc giả, sách, dự đốn nhu cầu độc giả… • Insurance, finance: Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đốn xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds) • WWW: Phân loại tài liệu (document classification), phân loại người dùng web (clustering weblog)… Các phương pháp đánh giá thường sử dụng dể đánh giá chất lượng phân cụm gồm: accuracy score, confusion matrix, ROC curve, Area Under the Curve, Precision and Recall, F1 score, Top R error[2] Mỗi phương pháp lại có thuốc tính đánh giá riêng nên tùy tốn mà ta chọn phương pháp phù hợp Và đồ án chúng em sử dụng F1 score (một trường hợp đặc biệt F measure [6]) để đánh giá F1 score trung bình điều hồ (harmonic mean) Precision Recall[3] • TP (True Positive): định nghĩa điểm liệu tương tự phân vào cụm • FP (False Positive): định nghĩa điểm liệu khác phân vào cụm • TN (True Negative): định nghĩa điểm liệu khác phân khác cụm • FN (False Negative): đinh nghĩa điểm liệu giống phân vào cụm khác Precision định nghĩa tỉ lệ số điểm thuộc thuộc lớp dương (TP) sau phân cụm số điểm phân loại thuộc lớp dương (TP+FP) Recall định nghĩa ngược lại, tỉ lệ số điểm thuộc lớp âm (TN) sau phâm cụm số điểm phân loại thuộc lớp âm (TN+FN) Giới thiệu thuật toán k-means Thuật toán k-means MacQueen giới thiệu báo ông vào năm 1967 [4] k-means thuật toán phân hoạch thuộc nhóm thuật tốn máy học khơng cần định hướng trước (unsupervised machine learning) biết đến rộng rãi Thuật tốn khơng cần q trình huấn luyện để học, ghi nhớ mô hình tri thức tách biệt với trình chạy Điều đồng nghĩa với việc, k-means cho kết cuối đoán trước khác liệu đầu vào k-means sử dụng ta có tập hợp gồm nhiều liệu khơng dán nhãn (dữ liệu chưa phân loại theo nhóm hay danh mục) Mục tiêu thuật toán tìm k nhóm tập liệu với k cho trước Thuật toán xử lý dựa thao tác lặp (iterative) để gán điểm liệu vào k nhóm dự vào thuộc tính (feature) cho điểm liệu Các điểm liệu phân nhóm (cluster) theo tiêu chí tương đồng thuộc tính chúng Kết thuật tốn k-means là[7]: - k điểm trung tâm (centroid) k nhóm (cluster) k điểm dùng để tiếp tục gán nhãn cho liệu chúng thêm vào tập liệu ban - đầu Nhãn cho tập điểm liệu (mỗi điểm liệu gán cho nhóm xác định ứng với điểm trung tâm) Mơ tả tóm tắt bước thuật tốn: Đầu vào: Dữ liệu số k (cụm) cần tìm Đầu ra: Các tâm cụm liệu thuộc tâm Bước 1: Chọn ngẫu nhiên k tâm (centroid) cho k cụm (cluster) Bước 2: Tính khoảng cách đối tượng đến k tâm Bước 3: Phân điểm liệu vào cụm (cluster) có tâm (centroid) gần Bước Xác đinh lại tâm Bằng việc tính giá trị trung bình điểm liệu thuộc cụm (cluster) Bước 5: Quay lại bước đến tâm không xê dịch gặp điều kiện dừng Use case diagram Hình Use Case Diagram Mô tả use case diagram Bảng Mô tả Actor TT Tên Actor Ý nghĩa Người dùng thông thường sử dụng phần mềm User Bảng Mô tả Use case ( program, program1, program3 ) không thực thao tác ảnh hưởng đến chương trình (ClassData & class_k_means) diagram TT Tên use case Dùng Ý nghĩa • Người dùng (user) nhập vào tất giá trị sau:số liệu giả lập điểm tạo cụm (m), số chiều (dim), Phân cụm số cụm (k), số chiều liệu (dim), điều kiện dừng (minDist), khoảng giá trị toạ độ điểm cụm (zonedata) cần tạo khớp với số cụmĐủ yêu cầu thì chương trình bắt đầu chạy chương trình tạo liệu giả lập dựa liệu nhập vào -> khởi tạo tâm -> phân cụm -> tính F1• score Sau chạy chương trình, với liệu chiều thì có bước vẽ đồ thị xuất F1-score Còn với liệu nhiều chiều thì vẽ đồ thị suất F1-score Dùng • Người dùng (user) nhập vào tất giá trị sau: số liệu thực tế liệu thuộc cụm liệu thực tế (m), số (hình ảnh) cụm liệu thực tế (k), số chiều liệu thực Phân cụm tế (dim), điều kiện dừng (minDist), tên tên đường dẫn chứa liệu thực tế (foder) • Đủ yêu cầu thì chương trình bắt đầu chạy, chương trình đọc liệu thật vào chương trình -> khởi tạo true_lb -> khởi tạo tâm -> phân cụm -> tính F1-score • Sau chạy chương trình xuất giá trị F1-score vì giá trị số chiều (dim) lớn = 1024 nên vẽ đồ thị II Thực Thiết kế lớp Bảng Thiết kế lớp TT Tên lớp ClassData Class_K_means Tên sinh viên phụ trách viết Hứa Văn Lâm Mục đích lớp chương trình Dùng để tạo/đọc liệu vẽ đồ thị Nguyễn Hoàng Kim Dùng để phân cụm liệu tính F1-score Bảng Các Phương Thức lớp ClassData 10 TT Tên phương thức Mục đích Tên file, stt dòng chứa khai báo Tên SV phụ trách viết genData(obj,zonedata) Input: obj(obj.m, obj.k, obj.dim), zonedata Tạo liệu giả lập ClassData.m Vẽ đồ thị cho liệu ClassData.m Dòng 11 Cả hai Output: dataAray, true_lb PlotData(obj,b) Input:obj(obj.dim, obj.dataArray),b(b.learned) Dòng 36 Cả hai Output: Đồ thị biểu diễn liệu docfile(obj) Input: obj, image Đọc image Output: obj.dataArray ClassData.m Dòng 19 Hứa Văn Lâm Bảng Các phương thức lớp Class_K_mean TT Tên phương thức Compute_Dist(pA,pB) Input: pA, pB Output: Dist initCenter(obj,a) Input: obj(obj.k), a(a.m,a.dataArray) Output: Centers Mục đích Tên file, stt dòng chứa khai báo Tên SV phụ trách viết Tính Class_K_me khoảng ans.m Cả hai cách Dòng 13 điểm Tạo trọng tâm ngẫu nhiên cho cụm Class_K_me Hứa ans.m Văn Lâm Dòng 20 Thực phân cụm liệu Class_K_me Hứa ans.m Văn Lâm Dòng 28 Tính tốn độ xác thuật tốn Class_K_me ans.m Cả hai Dòng 86 Clustering(obj,a) Input: obj(obj.k, obj.dataCenter, obj.minDist), a(a.m, a.dataArray) Output: Trả cụm liệu label học từ thuật toán Compute_F1_score(obj,a) Input: obj(obj.learned_lb), a(a.true_lb) Output: Kết F1 thuộc đoạn [0;1] 11 Cài đặt kiểm thử 2.1 Phân cụm liệu giả lập Với liệu điểm chiều (x,y) không chồng lấp lên thì ta có kết F1_score ln = Dữ liệu chiều: Hình Kiểm thử với liệu chiều không chồng lấp F1_score = 12 Với liệu chiều không chồng lấp ta kết tương tự: Hình Kiểm thử với liệu chiều không chồng lấp F1_score = Ở chúng em có ví dụ tập liệu chiều, qua khơng có nghĩa nhiều chiều thì phân cụm Mà việc vẽ đồ thị cho liệu nhiều chiều điều bất khả thi Chúng ta biết F1_score tập liệu nhiều chiều 13 Đối với cụm liệu chồng lấp: ví dụthuật tốn k-means chạy khơng hiệu Số điểm thuộc khu vực chồng lấp nhiều thì thuật toán không hiệu Với liệu chiều chồng lấp ta thu kết sau: Hình Kiểm thử với liệu chiều chồng lấp F1_score=0.6962 14 Với liệu chiều tương tự, qua nhiều lần kiểm thử thì kết F1-score không lần lên giá trị 1: Hình Kiểm thử với liệu chiều chồng lấp F1_score=0.7976 2.1 Phân cụm liệu thực tế Trong thực tế, việc phân loại tự động hình ảnh giống cần thiết Vì với số lượng hình ảnh lớn thì việc lựa chọn thủ công tốn nhiều thời gian Trong thí nghiệm này, hình ảnh chữ số từ – phân loại sử dụng thuật toán k-means Mỗi hình có kích cỡ 32 x 32 = 1024 pixels 15 Hình Ảnh chưa thêm nhiễu Cách tạo file hình: Những hình ảnh chúng em sử dụng phần mềm Paint để thiết kế với kích thước khung ảnh 32*32 gán ký tự số (từ 0->9) vào hình ảnh Vậy chúng em tạo 10 hình ban đầu hình có chép Và sau chúng em sử dụng hàm Imnoise Matlab để thêm nhiễu vào hình nhằm mục đích tạo khác biệt cho chép hình Sau thêm nhiễu chúng em xuất tất hình thư mục có tên folder (thư mục chứa 100 ảnh thêm nhiễu) Vậy hình hoàn toàn khác nhờ điểm nhiễu tạo cách ngẫu nhiên Hình Cú pháp thêm nhiễu cho hình Những hình thêm nhiễu 16 Hình Tất hình ảnh thêm nhiễu Hình 10 Một số ảnh liệu đầu vào Kiểm thử với liệu mô tất giá trị pixel 100 hình thêm nhiễu Ở phần mềm đáp ứng nhu cầu phân loại hình ảnh cho 100 hình này, bao 17 gồm 10 cụm: hình 0, hình 1, hình 2, hình 3, hình 4, hình 5, hình 6, hình 7, hình 8, hình Tập liệu: folder (100 hình ảnh thêm nhiễu) Do hiệu suất thuật toán k-means phụ thuộc vào việc khởi tạo tâm, nên khởi tạo tâm cách ngẫu nhiên, chương trình cho kết khác Cụ thể, lần chạy thử chúng em thu kết quả: giá trị F1_score nằm khoảng từ 0.5180 Hình 11 Kiểm thử với liệu thực tế F1_score max = đến Hình 12 Kiểm thử với liệu thực tế F1_score nhỏ = 0.5180 18 Ngược lại, khởi tạo tâm phần tử nhóm khác nhau, chương trình ln hoạt động tốt F1_score=1 Có nghĩa việc lựa chọn tâm ban đầu có ảnh hưởng lớn tới kết Hình 13 Kiểm thử với liệu thực tế (gán tâm) F1_score = III Phân công công việc thành viên Bảng Phân công công việc Tên Sinh Viên Hứa Văn Lâm Nguyễn Hồng Kim Đóng góp Mơ tả khái qt công việc 70% Tìm kiếm thông tin cho chương trình (những thông tin liên quan đến k-means), viết code cho chương trình, viết báo cáo 30% Tìm hiểu số thông tin liên quan đến k-means, F1score 19 IV Kết luận Chương trình giải vấn đề phân cụm liệu, giả lập thực tế Cụ thể, chương trình phân cụm liệu kiểm chứng liệu kiểm thử Vậy nên chương trình phần gọi ổn định tốt Khó khăn lớn nhóm giới hạn thời gian làm đồ án, vào khoảng thời gian cuối kỳ nên có thời gian cho chương trình (ứng dụng) Tuy nhiên nhờ có thầy Trần Nhật Quang, thầy đôn đốc, nhắc nhở chúng em nên vấn đề tạm giải Ưu điểm chương trình áp dụng thuật tốn k-means là: dễ cho việc cài đặt sử dụng Ngôn ngữ Matlab với IDE dễ sử dụng nên việc code dễ dàng Với chương trình thì liệu tách rời thì độ xác cao Và việc khởi tạo số cụm cách hợp lý đưa kết tốt Nhược điểm chương trình: liệu chồng lấp thì không cao Và việc yêu cầu số lượng cụm khởi tạo tâm theo số cụm cách ngẫu nhiên, thì gây ảnh hưởng lớn đến kết quả, minh chứng thí nghiệm phân cụm liệu thực tế trên, nên việc phải khởi tạo tâm cụm cách hợp lý cần lưu ý 20 TÀI LIỆU THAM KHẢO [1] Tiep Vu (2017, January 1) Bài 4: K-means Clustering Retrieved from https://machinelearningcoban.com/2017/01/01/kmeans/ [2] Tiep Vu (2018, January 3) Bài 33: Các phương pháp đánh giá hệ thống phân lớp Retrieved from https://machinelearningcoban.com/2017/08/31/evaluation/ [3] ClustEval | F1-Score (n.d.) Retrieved from https://clusteval.sdu.dk/1/clustering_quality_measures/18 [4] MacQueen, J (1967, June) Some methods for classification and analysis of multivariate observations In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability (Vol 1, No 14, pp 281-297) [5] Thuật toán K-Means với toán phân cụm liệu - BIS (n.d.) Retrieved from http://bis.net.vn/forums/t/374.aspx [6] Evaluation of clustering (n.d.) Retrieved from https://nlp.stanford.edu/IRbook/html/htmledition/evaluation-of-clustering-1.html [7] K-Mean ứng Dụng (n.d.) Retrieved from https://www.ieev.org/2017/05/kmean-va-ung-dung.html [8] Clustering - K-means (n.d.) Retrieved from https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html 21 ... loại k thuật phân cụm[ 5] Mục đích phân cụm tìm chất bên nhóm liệu Các thuật toán phân cụm (Clustering Algorthms) sinh cụm (clusters) K thuật phân cụm áp dụng nhiều lĩnh vực [5]: • Marketing:... Các loại k thuật phân cụm[ 5] Hình Use Case Diagram Hình Kiểm thử với liệu chiều không chồng lấp F1_score = Hình Kiểm thử với liệu chiều không chồng lấp F1_score = Hình Kiểm thử với liệu chiều... nghĩa với việc, k- means cho k t cuối khơng thể đốn trước khác liệu đầu vào k- means sử dụng ta có tập hợp gồm nhiều liệu không dán nhãn (dữ liệu chưa phân loại theo nhóm hay danh mục) Mục tiêu thuật

Ngày đăng: 12/06/2019, 14:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w