1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân cụm mờ sử dụng tập mờ loại hai khoảng

66 1,1K 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 4,29 MB

Nội dung

THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮTFCM Fuzzy C-means Fuzzy Clustering Phân cụm mờ Data Mining Khai phá dữ liệu T1FS – Type 1 Fuzzy Set Tập mờ loại một T2FS – Type 2 Fuzzy Set Tập mờ loại hai IT

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

SỬ DỤNG TẬP MỜ LOẠI HAI KHOẢNG

Sinh viên thực hiện : Nguyễn Thị Thi

Lớp HTTT – K50

Giáo viên hướng dẫn: PGS.TS Trần Đình Khang

HÀ NỘI 6-2010

Trang 2

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

1 Thông tin về sinh viên

Họ và tên sinh viên: NGUYỄN THỊ THI

Điện thoại liên lạc: 01689.401.387 Email: thint.bkit2510@gmail.com

Lớp: Hệ thống thông tin K50 Hệ đào tạo: Chính quy

Đồ án tốt nghiệp được thực hiện tại: Bộ môn Hệ thống thông tin

Thời gian làm ĐATN: Từ ngày 22 / 2 / 2010 đến 29 / 5 /2010

2 Mục đích nội dung của ĐATN

Nghiên cứu và nắm rõ các khái niệm cơ bản về tập mờ mờ loại một và hai, cũng nhưnhững ứng dụng của chúng trong lĩnh vực phân cụm dữ liệu Qua đó rút ra được nhữngnhận xét và đánh giá về hiệu quả của việc ứng dụng logic mờ vào quá trình phân cụm dữliệu

3 Các nhiệm vụ cụ thể của ĐATN

-Nghiên cứu, tìm hiểu các kiến thức liên quan về phân cụm dữ liệu cũng như hệ logic mờloại một và loại 2

-Đọc, hiểu, nắm rõ phương pháp phân cụm dữ liệu sử dụng tập mờ loại hai khoảng, dựatrên phương pháp phân cụm dữ liệu cơ sở là FCM

-Cài đặt, mô phỏng phương pháp đó trên môi trường Matlab để kiểm nghiệm

-Tiến hành thử nghiệm phân cụm với các bộ dữ liệu khác nhau, từ đó so sánh về hiệu quảcủa phương pháp với các phương pháp phân cụm dữ liệu khác

4 Lời cam đoan của sinh viên:

Tôi – Nguyễn Thị Thi- cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS.TS Trần Đình Khang

Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳcông trình nào khác

Hà Nội, ngày 29 tháng 5 năm2010

Tác giả ĐATN

Nguyễn Thị Thi

5 Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo vệ:

Hà Nội, ngày tháng năm

Giáo viên hướng dẫn

PGS TS.Trần Đình Khang

Trang 3

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới thầy giáo, PGS TS Trần Đình Khang Thầy

đã tạo điều kiện về vật chất lẫn tinh thần cũng như trực tiếp hướng dẫn, chỉ bảo nghiêm khắc tôi trong suốt quá trình thực tập tốt nghiệp và giai đoạn làm đồ án này.

Tôi xin chân thành cảm ơn thầy giáo, ThS Phan Anh Phong, giảng viên khoa Công nghệ thông tin, trường Đại học Vinh đã cung cấp những tài liệu chuyên môn

và những định hướng trong quá trình làm đồ án tốt nghiệp

Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo khoa Công nghệ thông tin trường Đại học Bách Khoa Hà Nội đã giảng dạy, giúp đỡ tôi trong suốt quá trình học tập tại trường.

Cuối cùng tôi xin gửi lời cảm ơn thương yêu nhất đến gia đình và bạn bè đã quan tâm và khuyến khích tôi trong suốt thời gian học tập và hoàn thành đồ án.

Trang 4

TÓM TẮT

Mỗi lĩnh vực khoa học kĩ thuật đều có một miền ứng dụng của mình Khoa học

kỹ thuật lấy tính “chính xác” làm cơ sở xây dựng và phát triển sẽ có 1 miền ứngdụng và cũng có những giới hạn xác định không thể vượt qua và nó chỉ có khả năng

mô phỏng lại một phần thế giới thực tế Liệu có một lý thuyết toán học nào chophép mô hình hóa phần thế giới thực mà con người vẫn chỉ có nhận thức, mô tảbằng ngôn ngữ tự nhiên vốn hàm chứa những thông tin không chính xác, khôngchắc chắn hay không?

Phát hiện ra nhu cầu tất yếu đó, năm 1965 L.A Zadeh đã sáng tạo ra lý thuyết tập

mờ (Fuzzy Sets Theory) và đặt nền móng cho việc xây dựng một loạt các lý thuyếtquan trọng dựa trên cơ sở lý thuyết tập mờ Mở đầu là tập mờ loại một( Type-1fuzzy sets) với độ thuộc rõ sau đó là tập mờ loại hai (Type-2 fuzzy sets) với độthuộc là tập mờ loại một Do tính phức tạp của tập mờ loại hai trong các bài toánứng dụng nên Zadeh tiếp tiếp tục đưa ra lý thuyết tập mờ loại hai khoảng (Intervaltype-2 fuzzy sets) vào năm 1975 để đơn giản hóa bài toán Tập mờ loại hai khoảngngày càng được khẳng định vị trí ưu việt của mình trong việc cải thiện và nâng caochất lượng xử lý thông tin so với nhiều phương pháp khác

Đặc biệt đối với bài toán phân cụm dữ liệu, việc tính toán và xử lý thông tin dựatrên tập mờ loại một rất đơn giản nhưng kết quả phân cụm chỉ đạt kết quả tốt vớicác tập mẫu tạo ra các cụm bằng nhau Điều này đã ảnh hưởng không nhỏ tới khảnăng ứng dụng của tập mờ vào giải quyết các bài toán phân cụm vì các tập mẫu nhưvậy rất khó gặp trong thực tế Chính vì vậy, những năm trở lại đây, lý thuyết tập mờloại hai khoảng nhận được rất nhiều sự quan tâm nghiên cứu của nhiều nhà khoahọc đối với bài toán phân cụm bởi tính đơn giản của tập mờ loại hai khoảng

Phân cụm mờ sử dụng tập mờ loại hai khoảng là hướng nghiên cứu quan trọngtrong việc giải quyết bài toán phân cụm với tập dữ liệu ứng dụng trong thực tế Vớimục đích tìm hiểu nghiên cứu về tập mờ loại hai khoảng với bài tóan phân cụm,được sự hướng dẫn của PGS.TS Trần Đình Khang – Khoa CNTT - Đại Học Bách

Khoa Hà Nội, tôi lựa chọn đề tài “Phân cụm mờ sử dụng tập mờ loại hai

khoảng” Đề tài thực hiện tìm hiểu nghiên cứu những vấn đề cơ bản của bài toán

phân cụm và áp dụng với tập mờ loại hai khoảng

Trang 5

ABSTRACT OF THE THESIS

Each scientific field has a technical application of his domain Computerscience techniques to get "accurate" as the basis of construction and developmentwill have an application domain and also determine the limits can not overcome and

it is only capable of simulating the real world part International Is there amathematical theory that allows modeling the real world where people are stillaware, described using natural language which contains inaccurate information, notsure or not?

Discovered that essential needs, in 1965 LA Zadeh invented Fuzzy setstheory and laid the foundation for building a series of important theories based onfuzzy set theory Prologue is Type-1 fuzzy sets with the fuzzy then Type-2 fuzzysets with a kind of a Type 1 fuzzy sets Due to the complexity of fuzzy sets in thetwo types of application problems should Zadeh to continue to offer two kinds oftheories about Type-2 interval fuzzy sets in 1975 to simplify the problem Type-2interval fuzzy sets asserted its position to improve and enhance the quality ofinformation processing in comparison with other methods

Especially for clustering, calculations and information processing based onType 1 fuzzy sets a simple category but only clusters the results achieved betterresults with the sample clusters created equal This was not small to affect theability of fuzzy set applications to solve the problem because the sampledistribution clustering so difficult in practice to meet Therefore, the recent years,Type 2 interval fuzzy sets get a lot of attention of many research scientists for thecluster graph is calculated by simple Type 2 interval fuzzy sets

Fuzzy clustering with Type 2 interval fuzzy sets research about theimportance of solving the problem of clustering in real applications With the aim tostudies on fuzzy clustering with Type 2 interval , with the guidance of Prof TranDinh Khang - Faculty of Information Technology - Hanoi University ofTechnology, I selected the topic "Fuzzy clustering using Type 2 interval fuzzy sets".Themes of research done to learn the basics of graph clusters and Type 2 intervalfuzzy sets approx

Trang 6

MỤC LỤC

LỜI CẢM ƠN 3

ABSTRACT OF THE THESIS 5

Each scientific field has a technical application of his domain Computer science techniques to get "accurate" as the basis of construction and development will have an application domain and also determine the limits can not overcome and it is only capable of simulating the real world part International Is there a mathematical theory that allows modeling the real world where people are still aware, described using natural language which contains inaccurate information, not sure or not? 5

Discovered that essential needs, in 1965 LA Zadeh invented Fuzzy sets theory and laid the foundation for building a series of important theories based on fuzzy set theory Prologue is Type-1 fuzzy sets with the fuzzy then Type-2 fuzzy sets with a kind of a Type 1 fuzzy sets Due to the complexity of fuzzy sets in the two types of application problems should Zadeh to continue to offer two kinds of theories about Type-2 interval fuzzy sets in 1975 to simplify the problem Type-2 interval fuzzy sets asserted its position to improve and enhance the quality of information processing in comparison with other methods 5

Especially for clustering, calculations and information processing based on Type 1 fuzzy sets a simple category but only clusters the results achieved better results with the sample clusters created equal This was not small to affect the ability of fuzzy set applications to solve the problem because the sample distribution clustering so difficult in practice to meet Therefore, the recent years, Type 2 interval fuzzy sets get a lot of attention of many research scientists for the cluster graph is calculated by simple Type 2 interval fuzzy sets 5

Fuzzy clustering with Type 2 interval fuzzy sets research about the importance of solving the problem of clustering in real applications With the aim to studies on fuzzy clustering with Type 2 interval , with the guidance of Prof Tran Dinh Khang - Faculty of Information Technology - Hanoi University of Technology, I selected the topic "Fuzzy clustering using Type 2 interval fuzzy sets" Themes of research done to learn the basics of graph clusters and Type 2 interval fuzzy sets approx 5

MỤC LỤC 6

DANH MỤC BẢNG VÀ HÌNH VẼ 8

THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 10

THUẬT NGỮ 10

Ý NGHĨA 10

FCM 10

Fuzzy C-means 10

Fuzzy Clustering 10

Phân cụm mờ 10

Data Mining 10

Khai phá dữ liệu 10

T1FS – Type 1 Fuzzy Set 10

Tập mờ loại một 10

T2FS – Type 2 Fuzzy Set 10

Tập mờ loại hai 10

IT2FS – Interval Type 2 Fuzzy Set 10

Tập mờ loại hai khoảng 10

FOU – Footprint Of Uncertainty 10

Chân đế của sự không chắc chắn 10

Membership Function 10

Hàm thuộc 10

Trang 7

UMF – Upper Membership Function 10

Hàm thuộc trên 10

LMF – Lower Membership Function 10

Hàm thuộc dưới 10

Centroid of T2FS 10

Trọng tâm của tập mờ loại hai 10

Fuzzifier 10

Độ mờ hóa 10

Type-reducer 10

Khối giảm loại 10

Defuzzifier 10

Khối giải mờ 10

Interative Algorithm 10

Giải thuật lặp 10

Embedded T1FS 10

Tập mờ loại một nhúng 10

Embedded T2FS 10

Tập mờ loại hai nhúng 10

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 11

CHƯƠNG 2 ỨNG DỤNG TẬP MỜ LOẠI HAI KHOẢNG VÀO PHÂN CỤM DỮ LIỆU .32

2.6 Kết luận 45

CHƯƠNG 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG PHÂN CỤM MỜ SỬ DỤNG TẬP MỜ LOẠI HAI KHOẢNG 46

CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ 58

4.1 Các kết quả 58

TỔNG KẾT 65

Trang 8

DANH MỤC BẢNG VÀ HÌNH VẼ

LỜI CẢM ƠN 3

ABSTRACT OF THE THESIS 5

Each scientific field has a technical application of his domain Computer science techniques to get "accurate" as the basis of construction and development will have an application domain and also determine the limits can not overcome and it is only capable of simulating the real world part International Is there a mathematical theory that allows modeling the real world where people are still aware, described using natural language which contains inaccurate information, not sure or not? 5

Discovered that essential needs, in 1965 LA Zadeh invented Fuzzy sets theory and laid the foundation for building a series of important theories based on fuzzy set theory Prologue is Type-1 fuzzy sets with the fuzzy then Type-2 fuzzy sets with a kind of a Type 1 fuzzy sets Due to the complexity of fuzzy sets in the two types of application problems should Zadeh to continue to offer two kinds of theories about Type-2 interval fuzzy sets in 1975 to simplify the problem Type-2 interval fuzzy sets asserted its position to improve and enhance the quality of information processing in comparison with other methods 5

Especially for clustering, calculations and information processing based on Type 1 fuzzy sets a simple category but only clusters the results achieved better results with the sample clusters created equal This was not small to affect the ability of fuzzy set applications to solve the problem because the sample distribution clustering so difficult in practice to meet Therefore, the recent years, Type 2 interval fuzzy sets get a lot of attention of many research scientists for the cluster graph is calculated by simple Type 2 interval fuzzy sets 5

Fuzzy clustering with Type 2 interval fuzzy sets research about the importance of solving the problem of clustering in real applications With the aim to studies on fuzzy clustering with Type 2 interval , with the guidance of Prof Tran Dinh Khang - Faculty of Information Technology - Hanoi University of Technology, I selected the topic "Fuzzy clustering using Type 2 interval fuzzy sets" Themes of research done to learn the basics of graph clusters and Type 2 interval fuzzy sets approx 5

MỤC LỤC 6

DANH MỤC BẢNG VÀ HÌNH VẼ 8

THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 10

THUẬT NGỮ 10

Ý NGHĨA 10

FCM 10

Fuzzy C-means 10

Fuzzy Clustering 10

Phân cụm mờ 10

Data Mining 10

Khai phá dữ liệu 10

T1FS – Type 1 Fuzzy Set 10

Tập mờ loại một 10

T2FS – Type 2 Fuzzy Set 10

Tập mờ loại hai 10

IT2FS – Interval Type 2 Fuzzy Set 10

Tập mờ loại hai khoảng 10

FOU – Footprint Of Uncertainty 10

Chân đế của sự không chắc chắn 10

Membership Function 10

Hàm thuộc 10

UMF – Upper Membership Function 10

Hàm thuộc trên 10

LMF – Lower Membership Function 10

Trang 9

Hàm thuộc dưới 10

Centroid of T2FS 10

Trọng tâm của tập mờ loại hai 10

Fuzzifier 10

Độ mờ hóa 10

Type-reducer 10

Khối giảm loại 10

Defuzzifier 10

Khối giải mờ 10

Interative Algorithm 10

Giải thuật lặp 10

Embedded T1FS 10

Tập mờ loại một nhúng 10

Embedded T2FS 10

Tập mờ loại hai nhúng 10

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 11

CHƯƠNG 2 ỨNG DỤNG TẬP MỜ LOẠI HAI KHOẢNG VÀO PHÂN CỤM DỮ LIỆU .32

2.6 Kết luận 45

CHƯƠNG 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG PHÂN CỤM MỜ SỬ DỤNG TẬP MỜ LOẠI HAI KHOẢNG 46

CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ 58

4.1 Các kết quả 58

TỔNG KẾT 65

Trang 10

THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT

FCM Fuzzy C-means

Fuzzy Clustering Phân cụm mờ

Data Mining Khai phá dữ liệu

T1FS – Type 1 Fuzzy Set Tập mờ loại một

T2FS – Type 2 Fuzzy Set Tập mờ loại hai

IT2FS – Interval Type 2 Fuzzy Set Tập mờ loại hai khoảng

FOU – Footprint Of Uncertainty Chân đế của sự không chắc chắn

Membership Function Hàm thuộc

UMF – Upper Membership Function Hàm thuộc trên

LMF – Lower Membership Function Hàm thuộc dưới

Centroid of T2FS Trọng tâm của tập mờ loại hai

Fuzzifier Độ mờ hóa

Type-reducer Khối giảm loại

Defuzzifier Khối giải mờ

Interative Algorithm Giải thuật lặp

Embedded T1FS Tập mờ loại một nhúng

Embedded T2FS Tập mờ loại hai nhúng

Trang 11

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về phân cụm dữ liệu

1.1.1 Giới thiệu về phân cụm dữ liệu

Ở một mức cơ bản nhất, ta có khái niệm về phân cụm như sau:

"Phân cụm dữ liệu là một kỹ thuật trong DATA MINING, nhằm tìm kiếm,

phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định"

Như vậy, Phân cụm là quá trình phân chia một tập dữ liệu ban đầu thành cáccụm dữ liệu sao cho các phần tử trong một cụm "tương tự" (Similar) với nhau vàcác phần tử trong các cụm khác nhau sẽ "phi tương tự" (Dissimilar) với nhau Sốcác cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc

có thể được tự động xác định của phương pháp phân cụm

Trong học máy, phân cụm dữ liệu được xem là vấn đề học không có giámsát, vì nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các dữ liệu chưabiết trước các thông tin về lớp hay các thông tin về tập ví dụ huấn luyện Trongnhiều trường hợp, khi phân lớp (Classification) được xem vấn đề học có giám sátthì phân cụm dữ liệu là một bước trong phân lớp dữ liệu, trong đó Phân cụm dữ liệu

sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu

Một vấn đề thường gặp trong phân cụm dữ liệu, đó là hầu hết các dữ liệu cầnphân cụm đều có chứa dữ liệu "nhiễu" (noise) do quá trình thu thập thiếu chính xáchoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệunhằm khắc phục hoặc loại bỏ "nhiễu" trước khi bước vào giai đoạn phân phân cụm

dữ liệu "Nhiễu" ở đây có thể là các đối tượng dữ liệu không không chính xác, hoặc

là các đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính Một trong các

kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đốitượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất

Ngoài ra, dò tìm phần tử ngoại lai (Outlier) là một trong những hướng nghiêncứu quan trọng trong Phân cụm dữ liệu, cũng như trong Data Mining, chức năng

của nó là xác định một nhóm nhỏ các đối tượng dữ liệu "khác thường" so với các

dữ liệu trong CSDL - tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc

mô hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới kết quả của Phân cụm dữliệu

Tóm lại, phân cụm dữ liệu nhằm lắm giữ lượng thông tin khổng lồ, vì xử lýmọi thông tin như một thực thể đơn lẻ là không thể Vì vậy chúng ta phân loại các

Trang 12

thực thể thành các nhóm, mỗi nhóm được đặc trưng bởi các thuộc tính chung của tất

cả các thực thể mà nó chứa

Các bước cơ bản để phân cụm gồm có:

•Chọn lựa các đặc trưng: các đặc trưng được chọn lựa một cách hợp lý để có thể

“mã hoá” nhiều thông tin liên quan đến phân cụm dữ liệu Mục tiêu chính làphải giảm thiểu sự dư thừa thông tin giữa các đặc trưng Các đặc trưng cần đượctiền xử lý trước khi dùng chúng trong các bước sau

•Tiêu chuẩn phân cụm: tùy theo từng tập dữ liệu tạo ra các cụm khác nhau màchúng ta có tiêu chuẩn phân cụm khác nhau Chẳng hạn, một cụm loại chặt(compact) của các véc tơ đặc trưng trong không gian l-chiều có thể dễ nhận thấytheo một tiêu chuẩn, trong khi một cụm “dài và mỏng” lại có thể được dễ nhậnthấy bởi một tiêu chuẩn khác Tiêu chuẩn phân loại có thể được diễn đạt bởihàm chi phí

•Thuật toán phân cụm: sử dụng các giải thuật phân cụm khác nhau nhằm sáng tỏcấu trúc cụm của tập dữ liệu

•Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắncủa nó Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp

•Giải thích kết quả: trong nhiều trường hợp, chuyên gia trong lĩnh vực ứng dụngphải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và phân tích

để đưa ra các kết quả đúng đắn

Trong một số trường hợp nên có cả bước phân tích khuynh hướng phân cụm, trongbước này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấutrúc phân cụm Ví dụ như: tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọi

cố gắng phân cụm đều là vô nghĩa

Các lựa chọn khác nhau của các đặc trưng, tiêu chuẩn phân cụm có thể dẫn tớicác kết quả phân cụm khác nhau Do đó việc lựa chọn một cách hợp lý nhất, hoàntoàn dựa vào kiến thức và kinh nghiệm của chuyên gia

Theo các nghiên cứu, đến nay chưa có một phương pháp phân cụm tổng quátnào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa,các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữliệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phâncụm phù hợp Phân cụm dữ liệu đang là vấn đề mở và khó, vì cần phải đi giải quyếtnhiều vấn đề cơ bản như đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiềudạng dữ liệu khác nhau, đặc biệt là đối với các dữ liệu hỗn hợp, đang ngày càngtăng trưởng không ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong nhữngthách thức lớn trong lĩnh vực Data Mining trong những thập kỷ tiếp theo

Trang 13

1.1.2 Các ứng dụng của phân cụm dữ liệu

của nó:

Giảm dữ liệu: Giả sử ta có một lượng lớn dữ liệu (N) Phân cụm sẽ nhóm

các dữ liệu này thành C cụm dữ liệu dễ nhận thấy và C << N Sau đó xử lýmỗi cụm như một đối tượng đơn

Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên của

dữ liệu và phải được kiểm tra bởi việc dùng một số tập dữ liệu khác

Kiểm định giả thuyết: Ta sẽ phân cụm để xét xem có tồn tại một cụm nào đó

trong tập dữ liệu thoả mãn các giả thuyết đã cho hay không Chẳng hạn xemxét giả thuyết sau đây: “Các công ty lớn đầu tư ra nước ngoài”

Để kiểm tra điều này, ta áp dụng kỹ thuật phân cụm với một tập các đại diện lớn cáccông ty Giả sử rằng mỗi công ty được đặc trưng bởi một tầm vóc, các hoạt độngnước ngoài của nó và khả năng hoàn thành các dự án thành công Nếu sau khi phâncụm, một cụm các công ty được hình thành gồm các công ty lớn và có đầu tư ranước ngoài (không quan tâm đến khả năng hoàn thành vốn các dự án thành công)thì giả thuyết đã được củng cố bởi kỹ thuật phân cụm đã được thực hiện

Dự đoán dựa trên các cụm: Đầu tiên ta sẽ phân cụm một tập dữ liệu thành

các cụm mang đặc điểm của các dạng mà nó chứa Sau đó, khi có một dạngmới chưa biết ta sẽ xác định xem nó sẽ có khả năng thuộc về một cụm nàonhất và dự đoán được một số đặc điểm của dạng này nhờ các đặc trưngchung của cả cụm

1.1.3 Kiểu dữ liệu và độ đo tương tự

Trong Phân cụm dữ liệu, các đối tượng dữ liệu cần phân cụm có thể là con

người, nhà, tiền lương, các thực thể,… Các đối tượng này thường được diễn tả dưới

dạng các đặc trưng hay còn gọi là thuộc tính của nó Các thuộc tính này là các tham

số cho giải quyết vấn đề Phân cụm

Cho một CSDL X chứa N đối tượng trong không gian k chiều Một mẫu j

được biểu diễn dưới dạng: xj=(x1,x2, ,xk); với là các đặc trưng hoặc thuộctính tương ứng của các đối tượng xj

Đặc điểm của các thuộc tính

Thuộc tính liên tục (Continuous Attribute): nếu miền giá trị của nó của nó là

vô hạn không đếm được, nghĩa là giữa hai giá trị tồn tại vô số giá trị khác.Thí dụ như các thuộc tính về màu, nhiệt độ hoặc cường độ âm thanh

Trang 14

Thuộc tính rời rạc (DiscretteAttribute): Nếu miền giá trị của nó là tập hữu

hạn, đếm được Thí dụ như các thuộc tính về số serial của một cuốn sách,

số thành viên trong một gia đình, …

Lớp các thuộc tính nhị phân là trường hợp đặc biệt của thuộc tính rời rạc mà miền

giá trị của nó chỉ có 2 phần tử được diễn tả như : Yes / No hoặc Nam/Nữ, False/true,

1.1.4 Khái niệm về tương tự và phi tương tự

Khi các đặc tính của dữ liệu được xác định, người ta đi tìm cách thích hợp đểxác định "khoảng cách" giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây làcác hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm

này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar)

giữa các đối tượng dữ liệu Giá trị của hàm tính độ đo tương tự càng lớn thì sựgiống nhau giữa đối tượng càng lớn và ngược lại, còn hàm tính độ phi tương tự tỉ lệnghịch với hàm tính độ tương tự Độ tương tự hoặc độ phi tương tự có nhiều cách

để xác định, chúng thường được đo bằng koảng cách giữa các đối tượng Tất cả cáccách đo độ tương tự đều phụ thuộc vào kiểu thuộc tính mà chúng ta phân tích Thí

dụ, đối với thuộc tính hạng mục (Categorical) người ta không sử dụng độ đo

khoảng cách mà sử dụng một hướng hình học của dữ liệu

Tất cả các độ đo dưới đây được xác định trong không gian metric Bất kỳmột metric nào cũng là một độ đo, nhưng điều ngược lại không đúng Để tránh sự

nhầm lẫn, thuật ngữ độ đo ở đây đề cập đến hàm tính độ tương tự hoặc hàm tính độ

phi tương tự Một không gian metric là một tập trong đó có xác định các "khoảng cách" giữa từng cặp phần tử, với những tính chất thông thường của khoảng cách

hình học Nghĩa là, một tập x (các phần tử của nó có thể là những đối tượng bất kỳ)các đối tượng dữ liệu trong CSDL X như đã đề cập ở trên được gọi là một khônggian metric nếu:

• Với mỗi cặp phần tử x,y thuộc X đều xác định một số thực d(x,y), theo mộtquy tắc nào đó, được gọi là khoảng cách giữa x và y

• Quy tắc nói trên thoả mãn hệ tính chất sau :

(i) d(x,y)>0 nếu x ≠y

(ii) d(x,y)=0 nếu x =y

(iii) d(x,y) = d(y,x) với mọi x,y

(iv) d(x,y) ≤ d(x,z)+d(z,y)

Hàm d(x,y) được gọi là một metric của không gian Các phần tử x,y được gọi là cácđiểm của không gian này

Trang 15

Sau đây là các phép đo độ tương tự đối với các mẫu:

Theo khoảng cách: Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng

dữ liệu x, y được xác định bằng các metric khoảng cách như sau:

o Khoảng cách Minskowski : , trong đó q là

Thuộc tính định danh : Độ đo phi tương tự giữa hai đối tượng x và y được

định nghĩa như sau : , trong đó m là số thuộc tính đối sánhtương ứng trùng nhau, và p là tổng số các thuộc tính

Thuộc tính có thứ tự : Phép đo độ phi tương tự giữa các đối tượng dữ liệu

với thuộc tính thứ tự được thực hiện như sau, ở đây ta giả sử i là thuộc tính

thứ tự có Mi giá trị (Mi kích thước miền giá trị) :

o Các trạng thái Mi được sắp thứ tự như sau : [1…Mi], chúng ta có thểthay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại ri, với ri

{1…Mi}

o Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậychúng ta chuyển đổi chúng về cùng miền giá trị [0,1] bằng cách thựchiện phép biến đổi sau cho mỗi thuộc tính :

o Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với

các giá trị , đây cũng chính là độ phi tương tự của thuộc tính cóthứ tự

Thuộc tính tỉ lệ : sử dụng công thức tính logarit cho mỗi thuộc tính xi, thí dụ

qi = log(xi), lúc này qi đóng vai trò như thuộc tính khoảng (Interval -Scale).phép biến đổi logarit này thích hợp trong trường hợp các giá trị của thuộc tính

là số mũ

Trang 16

Trong thực tế, khi tính độ đo tương tự dữ liệu, người ta chỉ xem xét một phần cácthuộc tính đặc trưng đối với các kiểu dữ liệu hoặc là đánh trọng số cho cho tất cảcác thuộc tính dữ liệu Trong một số trường hợp, người ta loại bỏ đơn vị đo của cácthuộc tính dữ liệu bằng cách chuẩn hoá chúng, hoặc gán trọng số cho mỗi thuộc tínhgiá trị trung bình, độ lệch chuẩn Các trọng số này có thể sử dụng trong các độ đokhoảng cách trên, thí dụ với mỗi thuộc tính dữ liệu đã được gán trọng số tương ứng

wi ( ), độ tương đồng dữ liệu được xác định như sau :

Thêm vào đó, các véc tơ trong một cụm là tương tự nhau hơn so với các véc

tơ thuộc cụm khác Lượng hoá thuật ngữ tương tự và không tương tự phụ thuộc rất

nhiều vào các loại của cụm Chẳng hạn, loại cụm chặt thì có một số độ đo phù hợp,trong khi loại cụm có hình dáng dài và mỏng lại phù hợp hơn với các độ đo khác(xem hình 1.1) Với định nghĩa trên, mỗi véc tơ chỉ thuộc về một cụm riêng nên loạiphân cụm này đôi khi còn được gọi là chặt hay rõ (hard or crisp)

Hình 1.1 Hình dạng của các loại cụm (a) Các cụm chặt (b) Các cụm dài và mỏng (c) Cáccụm dạng cầu và elipxôit

Trang 17

1.2 Những kỹ thuật tiếp cận trong phân cụm dữ liệu

Các kỹ thuật áp dụng để giải quyết vấn đề phân cụm dữ liệu đều hướng tớihai mục tiêu chung : Chất lượng của các cụm khám phá được và tốc độ thực hiệncủa thuật toán Hiện nay, các kỹ phân cụm dữ liệu có thể phân loại theo các cáchtiếp cận chính sau:

1.2.1 Phân cụm phân hoạch

Phương pháp phân cụm phân hoạch nhằm phân một tập dữ liệu có n phần tửcho trước thành k nhóm dữ liệu sao cho : mỗi phần tử dữ liệu chỉ thuộc về mộtnhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu ít nhất một phần tử dữ liệu Cácthuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưutoàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân

hoạch có thể được Chính vì vậy, trên thực tế người ta thường đi tìm giải pháp tối

ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm mục tiêu để đánh giá chấtlượng của các cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữliệu Với chiến lược này, thông thường người ta bắt đầu khởi tạo một phân hoạchban đầu cho tập dữ liệu theo phép ngẫu nhiên hoặc theo heuristic, và liên tục tinhchỉnh nó cho đến khi thu được một phân hoạch mong muốn, thoả mãn rằng buộccho trước Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phâncụm, bằng cách tính các giá trị đo độ tương tự giữa các đối tượng dữ liệu và sắp xếpcác giá trị này, sau đó thuật toán lựa chọn một giá trị trong dãy sắp xếp sao cho hàmmục tiêu đạt giá trị tối thiểu Như vậy, ý tưởng chính của thuật toán phân cụm phânhoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm.Một số thuật toán phân cụm phân hoạch điển hình như k-means, PAM, CLARA,CLARANS,…

1.2.2 Phân cụm dữ liệu phân cấp

Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có

dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Cây phân

cụm có thể được xây dựng theo hai phương pháp tổng quát: phương pháp trênxuống (Top down) và phương pháp dưới lên (Bottum up)

đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hànhnhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trungtâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhómđược hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đếnkhi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụngchiến lược ăn tham trong quá trình phân cụm

đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm

Trang 18

được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tựnào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiệndừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quátrình phân cụm.

Thí dụ : Hình 1.2 dưới đây là một thí dụ sử dụng hai chiến lược phân cụm phân cấp

khác nhau như đã trình bày ở trên

Hình 1.2: Các chiến lược phân cụm phân cấpMột số thuật toán phân cụm phân cấp điển hình như CURE, BIRCH, …

Thực tế áp dụng, có nhiều trường hợp người ta kết hợp cả hai phương pháp phâncụm phân hoạch và phương phân cụm phân cấp, nghĩa là kết quả thu được củaphương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phâncụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổđiển, hiện nay đã có nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được

áp dụng phổ biến trong Data Mining

1.2.3 Phân cụm dữ liệu dựa trên mật độ

Phương pháp này nhóm các đối tượng theo hàm mật độ xác định Mật độđược định nghĩa như là số các đối tượng lân cận của một đối tượng dữ liệu theo mộtngưỡng nào đó Trong cách tiếp cận này, khi một cụm dữ liệu đã xác định thì nótiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lâncận của các đối tượng này phải lớn hơn một ngưỡng đã được xác định trước.Phương pháp phân cụm dựa vào mật độ của các đối tượng để xác định các cụm dữliệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Tuy vậy, việc xác địnhcác tham số mật độ của thuật toán rất khó khăn, trong khi các tham số này lại có tácđộng rất lớn đến kết quả phân cụm dữ liệu

g sau.ĩnh vực phân cụm

dữ liệu

các yêu cầu này sẽ được

đề cập

cụ thể hơn khi đi vào khảo sát một số thuật toán

Bottorn up

Bottorn down

Trang 19

Hình 1.3 dưới đây là một minh hoạ về các cụm dữ liệu với các hình thù khác nhaudựa trên mật độ được khám phá từ 3 CSDL khác nhau.

Hình 1.3: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật phân cụm dữ

liệu dựa trên mật độMột số thuật toán phân cụm dữ liệu dựa trên mật độ điển hình như DBSCAN,OPTICS, DENCLUE, …

1.2.4 Phân cụm dữ liệu dựa trên lưới

Kỹ thuật phân cụm dựa trên mật độ không thích hợp với dữ liệu nhiều chiều, đểgiải quyết cho đòi hỏi này, người ta đã sử dụng phương pháp phân cụm dựa trênlưới Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để phân cụm, phương phápnày chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Thí dụ như dữ liệu đượcbiểu diễn dưới dạng cấu trúc hình học của đối tượng trong không gian cùng với cácquan hệ, các thuộc tính, các hoạt động của chúng Mục tiêu của phương pháp này làlượng hoá tập dữ liệu thành các ô (Cell), các cell này tạo thành cấu trúc dữ liệu lưới,sau đó các thao tác phân cụm làm việc với các đối tượng trong từng Cell này Cáchtiếp cận dựa trên lưới này không di chuyển các đối tượng trong các cell mà xâydựng nhiều mức phân cấp của nhóm các đối tượng trong một cell Trong ngữ cảnhnày, phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chỉ

có điều chúng không trộn các Cell Do vậy các cụm không dựa trên độ đo khoảngcách (hay còn gọi là độ đo tương tự đối với các dữ liệu không gian) mà nó đượcquyết định bởi một tham số xác định trước Ưu điểm của phương pháp phân cụmdựa trên lưới là thời gian xử lý nhanh và độc lập với số đối tượng dữ liệu trong tập

dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số cell trong mỗi chiều củakhông gian lưới Một thí dụ về cấu trúc dữ liệu lưới chứa các cell trong không giannhư hình 1.4 sau :

CSDL 1 CSDL 2 CSDL 3

Trang 20

Hình 1.4: Mô hình cấu trúc dữ liệu lướiMột số thuật toán phân cụm dữ liệu dựa trên cấu trúc lưới điển hình như: STING,WAVECluster, CLIQUE,…

1.2.5 Phân cụm dữ liệu dựa trên mô hình

Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số môhình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lượcphân cụm phân hoạch hoặc chiến lược phân cụm phân cấp, dựa trên cấu trúc hoặc

mô hình mà chúng giả định về tập dữ liệu và cách mà chúng tinh chỉnh các mô hìnhnày để nhận dạng ra các phân hoạch

Phương pháp phân cụm dữ liệu dựa trên mô hình cố gắng khớp giữa dữ liệu với môhình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phốixác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai tiếp cận chính :

Mô hình thống kê và Mạng Nơron Phương pháp này gần giống với phương pháp

dựa trên mật độ, bởi vì chúng phát triển các cụm riêng biệt nhằm cải tiến các môhình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cốđịnh và không sử dụng cùng một khái niệm mật độ cho các cụm

1.2.6 Phân cụm dữ liệu có ràng buộc

Sự phát triển của phân cụm dữ liệu không gian trên CSDL lớn đã cung cấpnhiều công cụ tiện lợi cho việc phân tích thông tin địa lý, tuy nhiên hầu hết cácthuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộctrong thế giới thực cần phải được thoả mãn trong quá trình phân cụm dữ liệu Đểphân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thựchiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toánphân cụm

Thực tế, các phương pháp trên đã và đang được phát triển và áp dụng nhiềutrong phân cụm Đến nay, đã có một số nhánh nghiên cứu được phát triển trên cơ

sở của các phương pháp tiếp cận đã trình bày ở trên như sau :

Mức 1 (mức cao nhất ) có thể

chỉ chứa một Cell

Cell mức i-1 có thể tương ứng

với 4 cell của mức i

Tầng 1 Tầng i-1 Tầng i

Trang 21

Phân cụm thống kê : Dựa trên các khái niệm phân tích thống kê, nhánh

nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng,nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số

Phân cụm khái niệm : Các kỹ thuật phân cụm được phát triển áp dụng cho dữ

liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng

xử lý

Phân cụm mờ : Sử dụng kỹ thuật mờ để phân cụm, trong đó một đối tượng

dữ liệu có thể thuộc vào nhiều cụm dữ liệu khác nhau Các thuật toán thuộcloại này chỉ ra lược đồ phân cụm thích hợp với tất cả hoạt động đời sốnghàng ngày, chúng chỉ xử lý các dữ liệu thực không chắc chắn Thuật toánphân cụm mờ quan trọng nhất là thuật toán FCM (Fuzzy c-means)

Phân cụm mạng Kohonen : loại phân cụm này dựa trên khái niệm của các

mạng nơ ron Mạng Kohnen có tầng nơ ron vào và các tầng nơ ron ra Mỗi

nơ ron của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối với tất cả các nơ ron của tầng ra Mỗi liên kết được gắn liềnvới một trọng số nhằm xác định vị trí của nơ ron ra tương ứng

Tóm lại, các kỹ thuật phân cụm dữ liệu đã trình bày ở trên đã được sử dụngrộng rãi trong thực tế, thế nhưng hầu hết chúng chỉ nhằm áp dụng cho tập dữ liệuvới cùng một kiểu thuộc tính

1.2.7 Các yêu cầu cần thiết cho tạo dựng kỹ thuật phân cụm dữ liệu

Việc xây dựng, lựa chọn một thuật toán phân cụm là bước then chốt cho việc giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm, mục đích của ứng dụng trong thực tế hoặc xác định độ ưu tiên giữa chất lượngcủa các cụm hay tốc độ thực hiện thuật toán

Hầu hết các nghiên cứu và phát triển thuật toán phân cụm dữ liệu đều nhằmthoả mãn các yêu cầu cơ bản sau:

Có khả năng mở rộng (Scalability) : Một số thuật toán có thể ứng

dụng tốt cho tập dữ liệu nhỏ ( khoảng 200 bản ghi dữ liệu ) nhưng không hiệu quảkhi áp dụng cho tập dữ liệu lớn (Khoảng 1 triệu bản ghi)

Thích nghi với các kiểu dữ liệu khác nhau : Thuật toán có thể áp dụng

hiệu quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau như dữliệu kiểu số, kiểu nhị phân, dữ liệu kiểu hạng mục, và thích nghi với kiểu dữ liệuhỗn hợp giữa các dữ liệu đơn trên

Trang 22

Khám phá ra các cụm với hình thù bất kỳ: do hầu hết các CSDL có

chứa nhiều cụm dữ liệu với các hình thù khác nhau như : hình lõm, hình cầu, hìnhque, …Vì vậy, để khám phá được các cụm có tính tự nhiên thì các thuật toán phâncụm cần phải có khả năng khám phá ra các cụm có hình thù bất kỳ

Tối thiểu lượng tri thức cần cho xác định các tham số vào: do các giá

trị đầu vào thường rất ảnh hưởng đến thuật toán phân cụm và rất phức tạp để xácđịnh các giá trị vào thích hợp đối với các CSDL lớn

Ít nhạy cảm với thứ tự của dữ liệu vào : Cùng một tập dữ liệu, khi

đưa vào xử lý cho thuật toán phân cụm dữ liệu với các thứ tự vào của các đối tượng

dữ liệu ở các lần thực hiện khác nhau thì không ảnh hưởng lớn đến kết quả phâncụm

Khả năng thích nghi với dữ liệu nhiễu cao : Hầu hết các dữ liệu phân

cụm trong Data Mining đều chứa đựng các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệurác Thuật toán phân cụm không những hiệu quả đối với các dữ liệu nhiễu mà còntránh dẫn đến chất lượng phân cụm thấp do nhạy cảm với nhiễu

Ít nhạy cảm với các tham số đầu vào : Nghĩa là giá trị của các tham

số đầu vào khác nhau ít gây ra các thay đổi lớn đối với kết quả phân cụm

Thích nghi với dữ liệu đa chiều : Thuật toán có khả năng áp dụng

hiệu quả cho dữ liệu có số chiều khác nhau

Dễ hiểu, cài đặt và khả dụng.

Các yêu cầu này đồng thời là các tiêu chí để đánh giá hiệu quả của các phương phápphân cụm dữ liệu, đây là các thách thức cho các nhà nghiên cứ trong lĩnh vực phâncụm dữ liệu các yêu cầu này sẽ được đề cập cụ thể hơn khi đi vào khảo sát một sốthuật toán phân cụm ở chương sau

1.3 Lý thuyết tập mờ

1.3.1 Tập mờ loại một

Khái niệm tập mờ (Fuzzy sets)

Một tập mờ là một hàm số, gọi là hàm thuộc(MemberShip function) xác địnhtrên khoảng giá trị U mà đối số xác định cho bởi:

Hay với

A là nhãn mờ của biến x, mang ý nghĩa ngôn ngữ nào đó, mô tả định tính thuộc tínhcủa đối tượng Ví dụ như: gầy, cao, béo được gọi là hàm thuộc của tập mờ A

Trang 23

Tập mờ thường được biểu diễn như sau:

Và tập mờ

Đó là khái niệm cơ bản của tập mờ thông thường, còn gọi là tập mờ loại một Các

hệ mờ được xây dựng từ tập mờ này đã được ứng dụng rất nhiều trong thực tiễn.Tuy nhiên các hệ mờ loại 1 tiềm ẩn các khó khăn nhất định Đó là để phát triển bất

cứ hệ logic mờ nào, người thiết kế phải xây dựng hàm thuộc cho tập mờ

1.3.2 Các phép toán tập hợp

Trong lý thuyết tập mờ, các phép toán tập hợp được định nghĩa thông qua các

hàm thuộc của chúng Giả sử A và B là hai tập mờ xác định trên không gian X được

đặc trưng bởi các hàm thuộc tương ứng là và

Trang 24

Ví dụ : Cho hai tập mờ A và B có hàm thuộc được xác định như sau:

Hình 1.5 dưới đây mô tả các hàm thuộc và

Hình 1.5: Các hàm thuộc của các tập mờ

Từ ví dụ này cho thấy phép hợp, giao của một tập mờ với phần bù của nó có kếtquả khác so với trong tập rõ: và

Ngoài các phép toán maximum và minimum, ta có thể định nghĩa các phép hợp

và phép giao khác cho tập mờ Chẳng hạn, Zadeh định nghĩa hai phép toán hợp vàgiao cho tập mờ như sau:

▪ Phép hợp:

▪ Phép giao:

Sau đó, Klir và Yuan định nghĩa hai phép toán conorm cho phép hợp và norm cho phép giao sử dụng cho tập mờ:

Trang 25

t-Phép toán t-conorm (còn gọi là s-norms) được sử dụng cho phép hợp, được kýhiệu là Maximum và phép tổng đại số là phép toán t-conorm Dưới đây là hai ví

Trên đây là khái niệm cơ bản của tập mờ thông thường, từ đây được gọi là tập

mờ loại một Các hệ mờ được xây dựng từ tập mờ này đã được ứng dụng rất nhiềutrong thực tiễn Tuy nhiên, các hệ mờ loại một tiềm ẩn những khó khăn nhất định

Đó là để phát triển bất cứ hệ logic mờ nào, người thiết kế phải xây dựng hàm thuộccho các tập mờ sử dụng trong hệ Khi khó xác định hàm thuộc của các tập mờ thì hệ

mờ loại một là có giới hạn

Năm 1975, Zadeh giới thiệu khái niệm tập mờ loại hai nhằm giải quyết vấn đềtrên Thay vì độ thuộc là một số rõ trong [0, 1], tập mờ loại hai có độ thuộc là mộttập mờ loại một trên đoạn [0, 1] Nhờ đó mà tập mờ loại hai có khả năng mô hình

và cực tiểu hoá sự không chắc chắn Phần tiếp theo sẽ đề cập đến khái niệm và cácphép toán của tập mờ loại hai

1.3.3 Tập mờ loại hai

Đối với tập mờ loại một, độ thuộc của các phần tử là các giá trị số thực trongkhoảng [0, 1] Trong trường hợp chúng ta không thể xác định được giá trị độ thuộccủa các phần tử, khi đó chúng ta có sử dụng các tập mờ loại một đề biểu diễn giá trị

độ thuộc đó Mở rộng tập mờ loại một bằng cách cho phép các độ thuộc là các tập

mờ loại một trong khoảng [0, 1] ta được khái niệm tập mờ loại hai Một trongnhững ưu điểm của tập mờ loại hai so với tập mờ loại một đó là nó cho phép biểu

nếu y=0 nếu x=0 nếu ngược lại

nếu y=1 nếu x=1 nếu ngược lại

Trang 26

diễn các giá trị độ thuộc bằng các giá trị mờ, các giá trị ngôn ngữ chứ không phải làcác giá trị số hoàn toàn chính xác.

phép ở đây biểu thị tập hợp tất cả các giá trị có thể chấp nhận của x và u

Hình 1.7 diễn tả cho các giá trị x và u rời rạc

Với X = {1, 2, 3, 4, 5} và U = {0, 0.2, 0.4, 0.6, 0.8}, J1 = {0, 0.2, 0.4}, J2 = {0,0.2, 0.4, 0.6, 0.8}, J3 = {0.6, 0.8} và J4 = J1 Trong đồ thị, chúng ta chỉ thể hiện cácgiá trị trong J1, …, J5 có giá trị 0 Mỗi đường thẳng đứng đậm trong hìnhthể hiện một giá trị , tương ứng với một cặp giá trị (x, u) xác định

hàm thuộc loại một, (c) FOU

Trang 27

Trong Định nghĩa, giới hạn các giá trị u: u Jx [0, 1], điều này phù hợp vớiràng buộc của một tập mờ loại một: 0 1 Nếu vết mờ (như trong ví dụHình 1.6 (b)) biến mất thì hàm thuộc loại hai sẽ giảm thành hàm thuộc loại một.

Hơn nữa, việc giới hạn 0 1 cũng phù hợp ràng buộc giá trị của mộthàm thuộc nằm trong khoảng [0,1]

1.3.3.2 Hàm thuộc thứ cấp

Tại mỗi giá trị của x, x = x’, mặt phẳng hai chiều mà các trục của nó là u và

được gọi là một lát cắt dọc của Một hàm thuộc thứ cấp là mộtlát cắt dọc của Hàm thuộc thứ cấp chính là với x’ X và

Trang 28

Jx là độ thuộc sơ cấp của x, ở đây Jx [0,1] với x X.

1.3.3.4 Chân đế của sự không chắc chắn(Footprint of Uncertainty)

Độ không chắc chắn trong các độ thuộc sơ cấp của một tập mờ loại hai, , là mộtmiền giới hạn, được gọi là chân đế của độ không chắc chắn (FOU) FOU là hợp củatất cả các độ thuộc sơ cấp

FOU( ) =

Về mặt ý nghĩa hình học, FOU mô tả trực quan độ không chắc chắn của tập mờ loạihai, nó là biểu diễn hình học toàn bộ miền trị cho tất cả các độ thuộc thứ cấp củamột hàm thuộc loại hai Trong các ứng dụng, FOU là một căn cứ đầu tiên để chúng

ta lựa chọn các hàm thuộc loại hai phù hợp.Vùng tô đen trong Hình 1.8 (a) minhhọa FOU của một tập mờ loại hai

1.3.4 Tập mờ loại hai khoảng (Interval type-2 Fuzzy sets)

Tập mờ loại hai khoảng là trường hợp đặc biệt của tập mờ loại hai khi mà độ thuộcthứ cấp của chúng đều bằng 1 Tức là khi đó ta không quan tâm đến chiều thứ 3 củatập mờ loại hai

Biểu diễn của tập mờ loại hai

Hình 1.8: (a): Miền tô đen là FOU của một tập mờ loại

hai Độ thuộc sơ cấp Jx1 và Jx2 tại điểm x1 và x2

(a)u

Trang 29

Hình 1.9: (a) tập mờ loại hai khoảng (b) khoảng độ thuộc sơ cấp của mỗi mẫu x

1.3.5 Tập mờ loại hai nhúng

Trong không gian rời rạc X và U, lấy N điểm tương ứng từ

, mỗi điểm này có độ thuộc thứ cấp là Khi đó tập mờ loại hai nhúng được biểu diễn:

Số lượng các tập mờ loại hai nhúng trong là

Trang 30

1.3.6 Tập mờ loại một nhúng

Trong không gian rời rạc X và U, tập mờ loại một nhúng gồm N thành phần,

tương ứng là các và được biểu diễn:

Tập mờ là hợp của tất cả các thành phần sơ cấp của và do đó có tất cả các tập mờ loại một nhúng

Ví dụ : Trong hình 1.11 Tập loại một nhúng gắn với tập mờ loại hai nhúng nàylà:

Hình 1.11: Ví dụ về tập mờ loại hai nhúngcủa tập mờ loại hai ở Hình 1.2.1

1.3.7 Biểu diễn tập mờ loại hai theo các tập mờ nhúng

Gọi là tập mờ loại hai nhúng thứ j của tập mờ loại hai , ta có:

với:

Khi đó có thể được biểu diễn như là hợp của tất cả các tập mờ loại hai nhúng như sau

Trang 31

với

Ví dụ 1.2.9 Xét tập mờ loại hai

Tập mờ này có và nên có tất cả 6 tập mờ nhúng là:

1.4 Kết luận

Chương này đã trình bày các khái niệm về tập mờ loại một, tập mờ loại hai cùngvới các phép toán tập hợp trên chúng và bài toán phân cụm dữ liệu Một trongnhững ưu điểm của tập mờ loại hai khoảng là độ phức tạp trong quá trình tính toánđược giảm thiểu do hàn thuộc thứ cấp của tất cả các mẫu đều được coi là 1.Tiếptheo, chương 2 sẽ trình bày việc sử dụng tập mờ loại hai khoảng vào bài toán phâncụm mờ

Trang 32

CHƯƠNG 2 ỨNG DỤNG TẬP MỜ LOẠI HAI KHOẢNG VÀO PHÂN CỤM DỮ LIỆU 2.1 Định nghĩa phân cụm dựa vào khái niệm tập mờ

Một sự phân cụm mờ X thành C cụm được mô tả bằng C hàm thuộc saocho:

đã áp dụng lý thuyết về tập mờ trong Phân cụm dữ liệu để giải quyết cho trườnghợp này, cách thức kết hợp này được gọi là phân cụm mờ Trong phương pháp phâncụm mờ, độ phụ thuộc của đối tượng dữ liệu xk tới cụm thứ i (uik) có giá trị thuộckhoảng [0,1] Ý tưởng trên đã được giới thiệu bởi Ruspini (1969) và được Dunn ápdụng năm 1973 nhằm xây dựng một phương pháp phân cụm mờ dựa trên tối thiểuhoá hàm mục tiêu Bezdek (1982) đã tổng quát hoá phương pháp này và xây dựngthành thuật toán phân cụm mờ c-means có sử dụng trọng số mũ

Trang 33

K-means là thuật toán Phân cụm dữ liệu rõ và C-Means là thuật toán phâncụm mờ tương ứng, hai thuật toán này cùng sử dụng chung một chiến lược phâncụm dữ liệu Thuật toán C-means mờ hay còn gọi tắt là thuật toán FCM (Fuzzy Cmeans-FCM) đã được áp dụng thành công trong giải quyết một số lớn trong nhậndạng mẫu, xử lý ảnh, y học, … Tuy nhiên, nhược điểm lớn nhất của thuật toán FCM

là nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu, nghĩa là các trung tâmcụm có thể nằm xa so với trung tâm thực của cụm Đã có nhiều các phương pháp đềxuất để cải tiến cho nhược điểm trên của thuật toán FCM bao gồm : Phân cụm dựatrên xác suất (keller, 1993), phân cụm nhiễu mờ (Dave, 1991) Và gần đây mộtphương pháp phân cụm mờ sử dụng tập mờ loại hai đã khắc phục đáng kể nhượcđiểm trên

2.3 Thuật toán K-means

Ý tưởng: chia tập dữ liệu X gồm n phần tử : thành k cụm S

để cực tiểu hóa hàm mục tiêu của k-means

là tâm của cụm j

Giải thuật k-means

1 Chọn tâm cụm vj bất kìvới mỗi cụm

2 Tính khoảng cách : khoảng cách giữa mẫu đến tâm cụm

3 Gắn các mẫu vào các cụm S

Cập nhật lại :

4 Kiểm tra tâm v của các cụm

nếu không thỏa mãn thì cập nhật tâm v và quay trở lại bước 2

Ngày đăng: 10/01/2015, 09:46

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w