Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,52 MB
Nội dung
Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – Lê Tuấn Tú – 2011 – ĐH CNTT&TT MỞ ĐẦU Ngày hệ thống thông tin nói chung, sở liệu lĩnh vực kinh tế, kỹ thuật nói riêng ln chứa đựng tính bất định, hoạt động mơi trường thiếu thơng tin, chịu tác động không mong muốn từ môi trường Đã có nhiều nghiên cứu ngồi nước quan tâm đến việc hình thành luật từ liệu khơng thực phương pháp khai phá liệu nói chung mà cịn xây dựng lý thuyết tập mờ Bài toán cho xây dựng luật mờ từ liệu thực theo nhiều phương pháp phân lớp, xây dưng định, phân cụm mờ Trong hệ thống suy diễn mờ xây dựng từ liệu, thường phụ thuộc vào phân hoạch mờ Các phân hoạch không gian với độ lớn không gian phụ thuộc vào biến vào/ra Thuật toán phân cụm mờ kỹ thuật thích hợp để phát phân hoạch mờ Thuật toán phân cụm mờ phương pháp thường sử dụng nhận dạng mẫu cho kết mơ hình tốt nhiều trường hợp Do đó, sử dụng thuật tốn clustering để cung cấp số lượng tối ưu cụm cần thiết theo phương pháp lặp, thơng qua để tìm tối ưu hệ thống suy luận mờ (FIS) Mơ hình tối ưu thơng số thuật tốn clustering sử dụng phương pháp bình phương cực tiểu liệu thực tế liệu mơ hình mờ, tìm kiếm sử dụng giải thuật di truyền Với phương pháp tiếp cận luận văn thử nghiệm liệu tạo từ ban đầu qua để xây dựng mơ hình mờ tối ưu cho ứng dụng thực tế Luận văn bao gồm nội dung sau: Chương 1: Trình bày tổng quan phân cụm liệu Chương 2: Giới thiệu kỹ thuật phân cụm liệu Chương 3: Sử dụng thuật toán phân cụm trừ để xây dụng hệ luật Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – Lê Tuấn Tú – 2011 – ĐH CNTT&TT CHƢƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu Mục đích phân cụm liệu (PCDL) nhằm khám phá cấu trúc liệu để thành lập nhóm liệu từ tập liệu lớn, theo cho phép người ta sâu vào phân tích nghiên cứu cho cụm liệu nhằm khám phá tìm kiếm thơng tin tiềm ẩn, hữu ích phục vụ cho việc định Ví dụ “Nhóm khách hàng sở liệu (CSDL) ngân hàng có vốn đầu tư vào bất động sản cao”… Như vậy, PCDL phương pháp xử lý thơng tin quan trọng phổ biển, nhằm khám phá mối liên hệ mẫu liệu cách tổ chức chúng thành cụm Ta khái quát hóa khái niệm PCDL: PCDL kĩ thuật khai phá liệu (KPDL), nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên, tiềm ẩn, quan trọng tập liệu lớn từ cung cấp thơng tin, tri thức hữu ích cho việc định Như vậy, PCDL trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm “tương tự” với phần tử cụm khác “phi tương tự” với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định phương pháp phân cụm Trong PCDL khái niệm hai nhiều đối tượng xếp vào cụm chúng có chung định nghĩa khái niệm chúng xấp xỉ với khái niệm mô tả cho trước Trong học máy, PCDL xem vấn đề học giám sát, phải giải vấn đề tìm cấu trúc tập hợp liệu chưa biết trước thông tin lớp hay thông tin tập huấn luyện Trong nhiều trường Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – Lê Tuấn Tú – 2011 – ĐH CNTT&TT hợp, phân lớp xem vấn đề học có giám sát PCDL bước phân lớp liệu, PCDL khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm liệu Trong KPDL, người ta nghiên cứu phương pháp phân tích cụm có hiệu hiệu suất cao CSDL lớn Những mục tiêu trước tiên nghiên cứu tập trung vào khả mở rộng phương pháp phân cụm, tính hiệu phương pháp phân cụm với hình dạng phức tạp, kĩ thuật cho phân cụm với nhiều kiểu liệu có kích cỡ lớn phương pháp cho PCDL tường minh liệu dạng số hỗn hợp CSDL lớn PCDL sử dụng rộng rãi nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích liệu, xử lý ảnh, nghiên cứu thị trường Hình 1.1 Ví dụ phân cụm tập liệu vay nợ thành cụm Vấn đề thường gặp PCDL hầu hết liệu cần cho phân cụm có chứa liệu “nhiễu” q trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lý liệu nhằm khắc phục loại bỏ “nhiễu” trước bước vào giai đoạn phân tích PCDL “nhiễu” đối tượng liệu khơng xác đối tượng liệu khuyết thiếu thông tin số thuộc tính Một kỹ thuật xử lý nhiễu phổ biến việc thay giá trị thuộc tính đối tượng “nhiễu” giá trị thuộc tính tương ứng đối tượng liệu gần Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – Lê Tuấn Tú – 2011 – ĐH CNTT&TT Ngoài ra, dị tìm phần tử ngoại lai hướng nghiên cứu quan trọng PCDL, chức xác định nhóm nhỏ đối tượng liệu “khác thường” so với liệu khác CSDL - tức đối tượng liệu khơng tn theo hành vi mơ hình liệu - nhằm tránh ảnh hưởng chúng tới trình kết PCDL Khám phá phần tử ngoại lai phát triển ứng dụng viễn thơng, dị tìm gian lận thương mại… Tóm lại, PCDL vấn đề khó người ta phải giải vấn đề sau: - Biểu diễn liệu - Xây dựng hàm tính độ tượng tự - Xây dựng tiêu chuẩn phân cụm - Xây dựng mơ hình cho cấu trúc cụm liệu - Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo - Xây dựng thủ tục biểu diễn đánh giá kết phân cụm Theo nghiên cứu đến chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc cụm liệu Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc cụm liệu khác nhau, với cách thức biểu diễn khác có thuật toán phân cụm phù hợp PCDL vấn đề mở khó người ta cần phải giải nhiều vấn đề đề cập cách trọn vẹn phù hợp với nhiều dạng liệu khác Đặc biệt đối tượng với liệu hỗn hợp, ngày tăng trưởng không ngừng hệ quản trị liệu, thách thức lớn lĩnh vực KPDL thập kỷ đặc biệt lĩnh vực KPDL phương pháp phân cụm liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – Lê Tuấn Tú – 2011 – ĐH CNTT&TT Mục tiêu phân cụm liệu xác định chất nhóm tập liệu chưa có nhãn Nhưng để định tạo thành cụm tốt Nó khơng có tiêu chuẩn tuyệt đối “tốt” mà khơng phụ thuộc vào kết phân cụm Vì vậy, địi hỏi người sử dụng phải cung cấp tiêu chẩn này, theo mà kết phân cụm đáp ứng u cầu Ví dụ, quan tâm đến việc tìm đại diện cho nhóm đồng (rút gọn liệu), tìm kiếm “các cụm tự nhiên” mơ tả thuộc tính chưa biết (kiểu liệu tự nhiên) tìm kiếm đối tượng khác thường (dị tìm phần tử ngoại lai) 1.2 Các ứng dụng phân cụm liệu Phân cụm liệu công cụ quan trọng số ứng dụng Sau số ứng dụng nó: Giảm liệu: Giả sử ta có lượng lớn liệu (N) Phân cụm nhóm liệu thành m cụm liệu dễ nhận thấy m