Nghiên cứu thuật toán phân cụm dữ liệu mờ và ứng dụng

78 0 0
Nghiên cứu thuật toán phân cụm dữ liệu mờ và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đánh giá theo chất lượng cụm ...45 Trang 7 DANH MỤC CÁC TỪ VIẾT TẮT CSDL Cơ sở dữ liệu MF Hàm liên thuộc của phần tử x trong AFCM Fuzzy C-means SSFCM Thuật toán phân cụm bán giám sát mờ

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN -o0o SOUKSAKHONE BOUTDYVONG NGHIÊN CỨU THUẬT TOÁN PHÂN CỤM DỮ LIỆU MỜ VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, Năm 2022 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN -o0o SOUKSAKHONE BOUTDYVONG NGHIÊN CỨU THUẬT TOÁN PHÂN CỤM DỮ LIỆU MỜ VÀ ỨNG DỤNG Chuyên ngành : Khoa học máy tính Mã số : 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học : TS VŨ ĐỨC THÁI Thái nguyên, Năm 2022 LỜI CẢM ƠN Luận văn này được hoàn thành trong khóa đào tạo thạc sỹ của trường Đại học Công nghệ thông tin và truyền thông Thái Nguyên, dưới sự hướng dẫn khoa học của thầy TS Vũ Đức Thái; Em xin chân thành bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn, người đã tạo cho em một phương pháp nghiên cứu khoa học đúng đắn, tinh thần làm việc nghiêm túc; thầy đã dành nhiều thời gian và công sức để trao đổi, thảo luận và hướng dẫn em giải quyết các nội dung đề ra để đạt mục tiêu và đúng kế hoạch; Em cũng xin bày tỏ lòng biết ơn sâu sắc tới Ban Giám hiệu, các cán bộ, nhân viên của Trường ĐH Công nghệ Thông tin và Truyền thông Thái Nguyên, đã tạo điều kiện tốt cho chúng em sinh hoạt học tập trong trường; cám ơn các thầy, cô giáo đã tận tình giảng dạy và khích lệ, động viên em vượt qua những khó khăn trong học tập hoàn thành khóa học Em xin chân thành cảm ơn Phòng Đào tạo, Phòng KHCN&HTQT đã tạo mọi điều kiện thuận lợi, hỗ trợ em trong suốt thời gian học tập tại trường; Cuối cùng, em xin cảm ơn bạn bè, người thân và gia đình đã giúp đỡ, động viên, ủng hộ em cả về vật chất và tinh thần để em có thể hoàn thành tốt luận văn cũng như khóa học của mình HỌC VIÊN Souksakhone BOUTDYVONG i LỜI CAM ĐOAN Tôi xin cam đoan rằng các kết quả trình bày trong luận văn này là hoàn toàn trung thực và không trùng lặp với các luận văn trước đây Nguồn tài liệu sử dụng cho việc hoàn thành luận văn là các nguồn tài liệu mở Các thông tin, tài liệu trong luận văn đã được ghi rõ nguồn gốc Thái Nguyên, Ngày tháng năm 2022 Tác giả luận văn Souksakhone BOUTDYVONG ii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT .v DANH MỤC HÌNH vi DANH MỤC BẢNG vii ĐẶT VẤN ĐỀ 1 CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ LÝ THUYẾT TẬP MỜ 3 1.1 Một số kiến thức cơ sở .3 1.1.1 Tập mờ 3 1.2 Phân cụm 6 1.3 Phương pháp giải bài toán tối ưu đa mục tiêu 8 1.3.1 Phương pháp nhân tử Lagrange 8 1.3.2 Phương pháp thỏa dụng mờ 10 1.4 Kết luận 11 CHƯƠNG 2 NGHIÊN CỨU MỘT SỐ THUẬT TOÁN PHÂN CỤM MỜ 12 2.1 Phân cụm mờ (Fuzzy C-means – FCM) 12 2.2 Thuật toán phân cụm bán giám sát mờ chuẩn (SSFCM) 13 2.3 Phân cụm bán giám sát mờ an toàn 18 2.3.1 Phân cụm bán giám sát mờ an toàn C-Means (Safe Semi-supervised Fuzzy c- Means Clustering (S3FCM)) 18 2.3.2 Phương pháp phân cụm bán giám sát an toàn có trọng số độ tin cậy (Confidence- weighted safe semi-supervised clustering) (CS3FCM) 19 2.4 Phân cụm mờ viễn cảnh 21 2.4.1 Tập mờ viễn cảnh 21 2.4.2 Phân cụm mờ viễn cảnh .22 2.5 Thuật toán phân cụm bán giám sát mờ lai ghép .24 2.6 Thuật toán phân cụm bán giám sát mờ có đặc trưng không gian 29 2.7 Thuật toán phân cụm bán giám sát mờ SSFC-SC cho ảnh nha khoa .36 2.7.1 Mô hình hóa phân đoạn ảnh nha khoa .36 2.7.3 Nhận xét .41 2.8 Kết luận chương .42 CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ MỘT SỐ THUẬT TOÁN PHÂN CỤM .43 3.1 Các điều kiện thực nghiệm .43 iii 3.2 Kết quả thực nghiệm trên bộ dữ liệu UCI 44 3.2.1 Đánh giá theo độ chính xác phân cụm 44 3.2.2 Đánh giá theo chất lượng cụm 45 3.2.3 Đánh giá theo thời gian tính toán 46 3.2.4 Nhận xét .46 3.3 Kết quả thực nghiệm trên bộ dữ liệu ảnh hoa 47 3.4 Kết luận chương .48 KẾT LUẬN 49 1 Kết quả đạt được 49 2 Hạn chế 49 3 Hướng phát triển 49 TÀI LIỆU THAM KHẢO .51 PHỤ LỤC MÃ NGUỒN .53 iv DANH MỤC CÁC TỪ VIẾT TẮT CSDL Cơ sở dữ liệu MF Hàm liên thuộc của phần tử x trong A FCM Fuzzy C-means SSFCM Thuật toán phân cụm bán giám sát mờ chuẩn eSFCM Thuật toán phân cụm bán giám sát mờ theo quy tắc entropy SSFCMBP Thuật toán phân cụm bán giám sát mờ của Bouchachia và Pedrycz S3FCM Phân cụm bán giám sát mờ an toàn C-Means CS3FCM Phương pháp phân cụm bán giám sát an toàn có trọng số độ tin FC-PFS Thuật toán phân cụm mờ viễn cảnh CA Độ chính xác phân cụm DB Chỉ số chất lượng cụm Davies–Bouldin UCI Bộ dữ liệu học máy UCI v DANH MỤC HÌNH Hình 1.1 Một số dạng hàm thuộc cơ bản 3 Hình 2.1 Lược đồ tổng quan của phương pháp lai ghép 25 Hình 2.2 Ảnh đầu vào cỡ 9x9 .27 Hình 2.3 Ảnh nhị phân của ảnh đầu vào khi áp dụng phương pháp Otsu 27 Hình 2.4 Lược đồ hoạt động của thuật toán mới 30 Hình 2.5 Cách tính LBP .32 Hình 2.6 Cửa sổ đông nhất thích ứng 37 Hình 3.1 Kết quả phân cụm ảnh 1: (a) ảnh gốc; (b): CS3FCM; (c): FCPFS .47 Hình 3.2 Kết quả phân cụm ảnh 2: (a) ảnh gốc; (b): CS3FCM; (c): FCPFS .47 Hình 3.3 Kết quả phân cụm ảnh 3: (a) ảnh gốc; (b): CS3FCM; (c): FCPFS .48 vi DANH MỤC BẢNG Bảng 2.1 Ma trận độ thuộc cuối cùng của FCM 35 Bảng 2.2 Xác định u1 35 Bảng 2.3 Các định các đặc trưng nha khoa 35 Bảng 2.4 Xác định u2 36 Bảng 2.5 Xác định ma trận bổ trợ 36 Bảng 3.1 Dữ liệu UCI dùng cho thực nghiệm 44 Bảng 3.2 Giá trị độ chính xác phân cụm 44 Bảng 3.3 Giá trị chất lượng phân cụm theo độ đo DB 45 Bảng 3.4 Thời gian tính toán 46 vii ĐẶT VẤN ĐỀ Ngày nay, khai phá dữ liệu (Datamining) đã trở thành một trong những xu hướng nghiên cứu phổ biến trong lĩnh vực học máy và công nghệ tri thức Nhiều thành tựu của Datamining đã được áp dụng trong thực tế nhận dạng ảnh viễn thám, ảnh nha khoa, tim, phổi Datamining có nhiều hướng quan trọng và một trong hướng đó là phân cụm dữ liệu (Data Clustering) Phân cụm dữ liệu là quá trình phân chia tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong cụm “tương tự’’ (similer) với nhau và các phần tử trong các cụm khác nhau sẽ “phi tương tự’’ (dissimiler) với nhau Cho đến nay nhiều phương pháp, thuật toán phát triển trong nghiên cứu phân cụm như: nghiên cứu các độ đo, độ đo mờ, bán kính cụm… [13] Trong đó, nghiên cứu các vấn đề về phân cụm bán giám sát kết hợp với machine learning là một nhánh nghiên cứu ứng dụng nhiều trong thực tiễn Nhóm tác giả Haitao Gan, Yingle Fan , Zhizeng Luo , Rui Huang , Zhi Yang [10] đề xuất phân nhóm bán giám sát an toàn có trọng số tin cậy trong đó kiến thức trước đó được đưa ra dưới dạng nhãn lớp Trong một số ứng dụng, một số mẫu có thể bị người dùng dán nhãn sai Do đó, ý tưởng cơ bản là các mẫu khác nhau nên có tác động hoặc tâm sự khác nhau đối với nhóm Trong thuật toán sử dụng phân nhóm không được giám sát để thực hiện phân vùng tập dữ liệu và tính toán ma trận nhầm lẫn chuẩn hóa được sử dụng để ước tính độ tin cậy an toàn của mỗi mẫu được gắn nhãn dựa trên giả định rằng một mẫu được phân nhóm chính xác phải có độ tin cậy cao Nhóm Haitao Gan, Yingle Fan, Zhizeng Luo, Qizhong Zhang [11] phát triển phân nhóm bán giám sát an toàn nhất quán đồng nhất cục bộ trong đó nhãn lớp được đưa ra như kiến thức trước Ý tưởng cơ bản là các dự đoán của một mẫu và mẫu không dán nhãn đồng nhất gần nhất của nó phải giống nhau khi mẫu được dán nhãn có rủi ro Thuật toán khai thác tích cực các mẫu được gắn nhãn bằng cách hạn chế các kết quả đầu ra tương ứng để là các nhãn lớp đã cho khi các nhãn được dán nhãn có thể hữu ích Theo nghĩa này, các dự đoán của các mẫu được gắn nhãn trong thuật toán là sự cân bằng giữa các nhãn lớp đã cho và các dự đoán của địa phương láng giềng đồng nhất Để xác minh tính hiệu quả của thuật toán, nhóm nghiên cứu đã tiến hành một loạt thử nghiệm trên một số bộ dữ liệu UCI Kết quả cho thấy thuật toán hoạt động tốt hơn thuật toán không được giám sát tương ứng và phương pháp phân cụm bán giám sát ngay cả khi tỷ lệ dán nhãn sai lên tới 30% [11] Hiện nay, các phương pháp phân cụm đã và đang được phát triển và áp dụng nhiều trong các lĩnh vực khác nhau, bao gồm: nhận dạng, phân tích dữ liệu, nghiên cứu thị trường, mô hình hệ thống, xử lý ảnh,…Thông thường, mỗi phương pháp phân 1

Ngày đăng: 22/03/2024, 11:07

Tài liệu cùng người dùng

Tài liệu liên quan