THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮTFCM Fuzzy C-means Fuzzy Clustering Phân cụm mờ Data Mining Khai phá dữ liệu T1FS – Type 1 Fuzzy Set Tập mờ loại một T2FS – Type 2 Fuzzy Set Tập mờ loại hai IT
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
SỬ DỤNG TẬP MỜ LOẠI HAI KHOẢNG
Sinh viên thực hiện : Nguyễn Thị Thi
Lớp HTTT – K50
Giáo viên hướng dẫn: PGS.TS Trần Đình Khang
HÀ NỘI 6-2010
Trang 2PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1 Thông tin về sinh viên
Họ và tên sinh viên: NGUYỄN THỊ THI
Điện thoại liên lạc: 01689.401.387 Email: thint.bkit2510@gmail.com
Lớp: Hệ thống thông tin K50 Hệ đào tạo: Chính quy
Đồ án tốt nghiệp được thực hiện tại: Bộ môn Hệ thống thông tin
Thời gian làm ĐATN: Từ ngày 22 / 2 / 2010 đến 29 / 5 /2010
2 Mục đích nội dung của ĐATN
Nghiên cứu và nắm rõ các khái niệm cơ bản về tập mờ mờ loại một và hai, cũng nhưnhững ứng dụng của chúng trong lĩnh vực phân cụm dữ liệu Qua đó rút ra được nhữngnhận xét và đánh giá về hiệu quả của việc ứng dụng logic mờ vào quá trình phân cụm dữliệu
3 Các nhiệm vụ cụ thể của ĐATN
-Nghiên cứu, tìm hiểu các kiến thức liên quan về phân cụm dữ liệu cũng như hệ logic mờloại một và loại 2
-Đọc, hiểu, nắm rõ phương pháp phân cụm dữ liệu sử dụng tập mờ loại hai khoảng, dựatrên phương pháp phân cụm dữ liệu cơ sở là FCM
-Cài đặt, mô phỏng phương pháp đó trên môi trường Matlab để kiểm nghiệm
-Tiến hành thử nghiệm phân cụm với các bộ dữ liệu khác nhau, từ đó so sánh về hiệu quảcủa phương pháp với các phương pháp phân cụm dữ liệu khác
4 Lời cam đoan của sinh viên:
Tôi – Nguyễn Thị Thi- cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS.TS Trần Đình Khang
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳcông trình nào khác
Hà Nội, ngày 29 tháng 5 năm2010
Tác giả ĐATN
Nguyễn Thị Thi
5 Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo vệ:
Hà Nội, ngày tháng năm
Giáo viên hướng dẫn
PGS TS.Trần Đình Khang
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới thầy giáo, PGS TS Trần Đình Khang Thầy
đã tạo điều kiện về vật chất lẫn tinh thần cũng như trực tiếp hướng dẫn, chỉ bảo nghiêm khắc tôi trong suốt quá trình thực tập tốt nghiệp và giai đoạn làm đồ án này.
Tôi xin chân thành cảm ơn thầy giáo, ThS Phan Anh Phong, giảng viên khoa Công nghệ thông tin, trường Đại học Vinh đã cung cấp những tài liệu chuyên môn
và những định hướng trong quá trình làm đồ án tốt nghiệp
Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo khoa Công nghệ thông tin trường Đại học Bách Khoa Hà Nội đã giảng dạy, giúp đỡ tôi trong suốt quá trình học tập tại trường.
Cuối cùng tôi xin gửi lời cảm ơn thương yêu nhất đến gia đình và bạn bè đã quan tâm và khuyến khích tôi trong suốt thời gian học tập và hoàn thành đồ án.
Trang 4TÓM TẮT
Mỗi lĩnh vực khoa học kĩ thuật đều có một miền ứng dụng của mình Khoa học
kỹ thuật lấy tính “chính xác” làm cơ sở xây dựng và phát triển sẽ có 1 miền ứngdụng và cũng có những giới hạn xác định không thể vượt qua và nó chỉ có khả năng
mô phỏng lại một phần thế giới thực tế Liệu có một lý thuyết toán học nào chophép mô hình hóa phần thế giới thực mà con người vẫn chỉ có nhận thức, mô tảbằng ngôn ngữ tự nhiên vốn hàm chứa những thông tin không chính xác, khôngchắc chắn hay không?
Phát hiện ra nhu cầu tất yếu đó, năm 1965 L.A Zadeh đã sáng tạo ra lý thuyết tập
mờ (Fuzzy Sets Theory) và đặt nền móng cho việc xây dựng một loạt các lý thuyếtquan trọng dựa trên cơ sở lý thuyết tập mờ Mở đầu là tập mờ loại một( Type-1fuzzy sets) với độ thuộc rõ sau đó là tập mờ loại hai (Type-2 fuzzy sets) với độthuộc là tập mờ loại một Do tính phức tạp của tập mờ loại hai trong các bài toánứng dụng nên Zadeh tiếp tiếp tục đưa ra lý thuyết tập mờ loại hai khoảng (Intervaltype-2 fuzzy sets) vào năm 1975 để đơn giản hóa bài toán Tập mờ loại hai khoảngngày càng được khẳng định vị trí ưu việt của mình trong việc cải thiện và nâng caochất lượng xử lý thông tin so với nhiều phương pháp khác
Đặc biệt đối với bài toán phân cụm dữ liệu, việc tính toán và xử lý thông tin dựatrên tập mờ loại một rất đơn giản nhưng kết quả phân cụm chỉ đạt kết quả tốt vớicác tập mẫu tạo ra các cụm bằng nhau Điều này đã ảnh hưởng không nhỏ tới khảnăng ứng dụng của tập mờ vào giải quyết các bài toán phân cụm vì các tập mẫu nhưvậy rất khó gặp trong thực tế Chính vì vậy, những năm trở lại đây, lý thuyết tập mờloại hai khoảng nhận được rất nhiều sự quan tâm nghiên cứu của nhiều nhà khoahọc đối với bài toán phân cụm bởi tính đơn giản của tập mờ loại hai khoảng
Phân cụm mờ sử dụng tập mờ loại hai khoảng là hướng nghiên cứu quan trọngtrong việc giải quyết bài toán phân cụm với tập dữ liệu ứng dụng trong thực tế Vớimục đích tìm hiểu nghiên cứu về tập mờ loại hai khoảng với bài tóan phân cụm,được sự hướng dẫn của PGS.TS Trần Đình Khang – Khoa CNTT - Đại Học Bách
Khoa Hà Nội, tôi lựa chọn đề tài “Phân cụm mờ sử dụng tập mờ loại hai
khoảng” Đề tài thực hiện tìm hiểu nghiên cứu những vấn đề cơ bản của bài toán
phân cụm và áp dụng với tập mờ loại hai khoảng
Trang 5ABSTRACT OF THE THESIS
Each scientific field has a technical application of his domain Computerscience techniques to get "accurate" as the basis of construction and developmentwill have an application domain and also determine the limits can not overcome and
it is only capable of simulating the real world part International Is there amathematical theory that allows modeling the real world where people are stillaware, described using natural language which contains inaccurate information, notsure or not?
Discovered that essential needs, in 1965 LA Zadeh invented Fuzzy setstheory and laid the foundation for building a series of important theories based onfuzzy set theory Prologue is Type-1 fuzzy sets with the fuzzy then Type-2 fuzzysets with a kind of a Type 1 fuzzy sets Due to the complexity of fuzzy sets in thetwo types of application problems should Zadeh to continue to offer two kinds oftheories about Type-2 interval fuzzy sets in 1975 to simplify the problem Type-2interval fuzzy sets asserted its position to improve and enhance the quality ofinformation processing in comparison with other methods
Especially for clustering, calculations and information processing based onType 1 fuzzy sets a simple category but only clusters the results achieved betterresults with the sample clusters created equal This was not small to affect theability of fuzzy set applications to solve the problem because the sampledistribution clustering so difficult in practice to meet Therefore, the recent years,Type 2 interval fuzzy sets get a lot of attention of many research scientists for thecluster graph is calculated by simple Type 2 interval fuzzy sets
Fuzzy clustering with Type 2 interval fuzzy sets research about theimportance of solving the problem of clustering in real applications With the aim tostudies on fuzzy clustering with Type 2 interval , with the guidance of Prof TranDinh Khang - Faculty of Information Technology - Hanoi University ofTechnology, I selected the topic "Fuzzy clustering using Type 2 interval fuzzy sets".Themes of research done to learn the basics of graph clusters and Type 2 intervalfuzzy sets approx
Trang 6MỤC LỤC
LỜI CẢM ƠN 3
ABSTRACT OF THE THESIS 5
Each scientific field has a technical application of his domain Computer science techniques to get "accurate" as the basis of construction and development will have an application domain and also determine the limits can not overcome and it is only capable of simulating the real world part International Is there a mathematical theory that allows modeling the real world where people are still aware, described using natural language which contains inaccurate information, not sure or not? 5
Discovered that essential needs, in 1965 LA Zadeh invented Fuzzy sets theory and laid the foundation for building a series of important theories based on fuzzy set theory Prologue is Type-1 fuzzy sets with the fuzzy then Type-2 fuzzy sets with a kind of a Type 1 fuzzy sets Due to the complexity of fuzzy sets in the two types of application problems should Zadeh to continue to offer two kinds of theories about Type-2 interval fuzzy sets in 1975 to simplify the problem Type-2 interval fuzzy sets asserted its position to improve and enhance the quality of information processing in comparison with other methods 5
Especially for clustering, calculations and information processing based on Type 1 fuzzy sets a simple category but only clusters the results achieved better results with the sample clusters created equal This was not small to affect the ability of fuzzy set applications to solve the problem because the sample distribution clustering so difficult in practice to meet Therefore, the recent years, Type 2 interval fuzzy sets get a lot of attention of many research scientists for the cluster graph is calculated by simple Type 2 interval fuzzy sets 5
Fuzzy clustering with Type 2 interval fuzzy sets research about the importance of solving the problem of clustering in real applications With the aim to studies on fuzzy clustering with Type 2 interval , with the guidance of Prof Tran Dinh Khang - Faculty of Information Technology - Hanoi University of Technology, I selected the topic "Fuzzy clustering using Type 2 interval fuzzy sets" Themes of research done to learn the basics of graph clusters and Type 2 interval fuzzy sets approx 5
MỤC LỤC 6
DANH MỤC BẢNG VÀ HÌNH VẼ 8
THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 10
THUẬT NGỮ 10
Ý NGHĨA 10
FCM 10
Fuzzy C-means 10
Fuzzy Clustering 10
Phân cụm mờ 10
Data Mining 10
Khai phá dữ liệu 10
T1FS – Type 1 Fuzzy Set 10
Tập mờ loại một 10
T2FS – Type 2 Fuzzy Set 10
Tập mờ loại hai 10
IT2FS – Interval Type 2 Fuzzy Set 10
Tập mờ loại hai khoảng 10
FOU – Footprint Of Uncertainty 10
Chân đế của sự không chắc chắn 10
Membership Function 10
Hàm thuộc 10
Trang 7UMF – Upper Membership Function 10
Hàm thuộc trên 10
LMF – Lower Membership Function 10
Hàm thuộc dưới 10
Centroid of T2FS 10
Trọng tâm của tập mờ loại hai 10
Fuzzifier 10
Độ mờ hóa 10
Type-reducer 10
Khối giảm loại 10
Defuzzifier 10
Khối giải mờ 10
Interative Algorithm 10
Giải thuật lặp 10
Embedded T1FS 10
Tập mờ loại một nhúng 10
Embedded T2FS 10
Tập mờ loại hai nhúng 10
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 11
CHƯƠNG 2 ỨNG DỤNG TẬP MỜ LOẠI HAI KHOẢNG VÀO PHÂN CỤM DỮ LIỆU .32
2.6 Kết luận 45
CHƯƠNG 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG PHÂN CỤM MỜ SỬ DỤNG TẬP MỜ LOẠI HAI KHOẢNG 46
CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ 58
4.1 Các kết quả 58
TỔNG KẾT 65
Trang 8DANH MỤC BẢNG VÀ HÌNH VẼ
LỜI CẢM ƠN 3
ABSTRACT OF THE THESIS 5
Each scientific field has a technical application of his domain Computer science techniques to get "accurate" as the basis of construction and development will have an application domain and also determine the limits can not overcome and it is only capable of simulating the real world part International Is there a mathematical theory that allows modeling the real world where people are still aware, described using natural language which contains inaccurate information, not sure or not? 5
Discovered that essential needs, in 1965 LA Zadeh invented Fuzzy sets theory and laid the foundation for building a series of important theories based on fuzzy set theory Prologue is Type-1 fuzzy sets with the fuzzy then Type-2 fuzzy sets with a kind of a Type 1 fuzzy sets Due to the complexity of fuzzy sets in the two types of application problems should Zadeh to continue to offer two kinds of theories about Type-2 interval fuzzy sets in 1975 to simplify the problem Type-2 interval fuzzy sets asserted its position to improve and enhance the quality of information processing in comparison with other methods 5
Especially for clustering, calculations and information processing based on Type 1 fuzzy sets a simple category but only clusters the results achieved better results with the sample clusters created equal This was not small to affect the ability of fuzzy set applications to solve the problem because the sample distribution clustering so difficult in practice to meet Therefore, the recent years, Type 2 interval fuzzy sets get a lot of attention of many research scientists for the cluster graph is calculated by simple Type 2 interval fuzzy sets 5
Fuzzy clustering with Type 2 interval fuzzy sets research about the importance of solving the problem of clustering in real applications With the aim to studies on fuzzy clustering with Type 2 interval , with the guidance of Prof Tran Dinh Khang - Faculty of Information Technology - Hanoi University of Technology, I selected the topic "Fuzzy clustering using Type 2 interval fuzzy sets" Themes of research done to learn the basics of graph clusters and Type 2 interval fuzzy sets approx 5
MỤC LỤC 6
DANH MỤC BẢNG VÀ HÌNH VẼ 8
THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 10
THUẬT NGỮ 10
Ý NGHĨA 10
FCM 10
Fuzzy C-means 10
Fuzzy Clustering 10
Phân cụm mờ 10
Data Mining 10
Khai phá dữ liệu 10
T1FS – Type 1 Fuzzy Set 10
Tập mờ loại một 10
T2FS – Type 2 Fuzzy Set 10
Tập mờ loại hai 10
IT2FS – Interval Type 2 Fuzzy Set 10
Tập mờ loại hai khoảng 10
FOU – Footprint Of Uncertainty 10
Chân đế của sự không chắc chắn 10
Membership Function 10
Hàm thuộc 10
UMF – Upper Membership Function 10
Hàm thuộc trên 10
LMF – Lower Membership Function 10
Trang 9Hàm thuộc dưới 10
Centroid of T2FS 10
Trọng tâm của tập mờ loại hai 10
Fuzzifier 10
Độ mờ hóa 10
Type-reducer 10
Khối giảm loại 10
Defuzzifier 10
Khối giải mờ 10
Interative Algorithm 10
Giải thuật lặp 10
Embedded T1FS 10
Tập mờ loại một nhúng 10
Embedded T2FS 10
Tập mờ loại hai nhúng 10
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 11
CHƯƠNG 2 ỨNG DỤNG TẬP MỜ LOẠI HAI KHOẢNG VÀO PHÂN CỤM DỮ LIỆU .32
2.6 Kết luận 45
CHƯƠNG 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG PHÂN CỤM MỜ SỬ DỤNG TẬP MỜ LOẠI HAI KHOẢNG 46
CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ 58
4.1 Các kết quả 58
TỔNG KẾT 65
Trang 10THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
FCM Fuzzy C-means
Fuzzy Clustering Phân cụm mờ
Data Mining Khai phá dữ liệu
T1FS – Type 1 Fuzzy Set Tập mờ loại một
T2FS – Type 2 Fuzzy Set Tập mờ loại hai
IT2FS – Interval Type 2 Fuzzy Set Tập mờ loại hai khoảng
FOU – Footprint Of Uncertainty Chân đế của sự không chắc chắn
Membership Function Hàm thuộc
UMF – Upper Membership Function Hàm thuộc trên
LMF – Lower Membership Function Hàm thuộc dưới
Centroid of T2FS Trọng tâm của tập mờ loại hai
Fuzzifier Độ mờ hóa
Type-reducer Khối giảm loại
Defuzzifier Khối giải mờ
Interative Algorithm Giải thuật lặp
Embedded T1FS Tập mờ loại một nhúng
Embedded T2FS Tập mờ loại hai nhúng
Trang 11CHƯƠNG 1
CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về phân cụm dữ liệu
1.1.1 Giới thiệu về phân cụm dữ liệu
Ở một mức cơ bản nhất, ta có khái niệm về phân cụm như sau:
"Phân cụm dữ liệu là một kỹ thuật trong DATA MINING, nhằm tìm kiếm,
phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định"
Như vậy, Phân cụm là quá trình phân chia một tập dữ liệu ban đầu thành cáccụm dữ liệu sao cho các phần tử trong một cụm "tương tự" (Similar) với nhau vàcác phần tử trong các cụm khác nhau sẽ "phi tương tự" (Dissimilar) với nhau Sốcác cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc
có thể được tự động xác định của phương pháp phân cụm
Trong học máy, phân cụm dữ liệu được xem là vấn đề học không có giámsát, vì nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các dữ liệu chưabiết trước các thông tin về lớp hay các thông tin về tập ví dụ huấn luyện Trongnhiều trường hợp, khi phân lớp (Classification) được xem vấn đề học có giám sátthì phân cụm dữ liệu là một bước trong phân lớp dữ liệu, trong đó Phân cụm dữ liệu
sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu
Một vấn đề thường gặp trong phân cụm dữ liệu, đó là hầu hết các dữ liệu cầnphân cụm đều có chứa dữ liệu "nhiễu" (noise) do quá trình thu thập thiếu chính xáchoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệunhằm khắc phục hoặc loại bỏ "nhiễu" trước khi bước vào giai đoạn phân phân cụm
dữ liệu "Nhiễu" ở đây có thể là các đối tượng dữ liệu không không chính xác, hoặc
là các đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính Một trong các
kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đốitượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất
Ngoài ra, dò tìm phần tử ngoại lai (Outlier) là một trong những hướng nghiêncứu quan trọng trong Phân cụm dữ liệu, cũng như trong Data Mining, chức năng
của nó là xác định một nhóm nhỏ các đối tượng dữ liệu "khác thường" so với các
dữ liệu trong CSDL - tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc
mô hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới kết quả của Phân cụm dữliệu
Tóm lại, phân cụm dữ liệu nhằm lắm giữ lượng thông tin khổng lồ, vì xử lýmọi thông tin như một thực thể đơn lẻ là không thể Vì vậy chúng ta phân loại các
Trang 12thực thể thành các nhóm, mỗi nhóm được đặc trưng bởi các thuộc tính chung của tất
cả các thực thể mà nó chứa
Các bước cơ bản để phân cụm gồm có:
•Chọn lựa các đặc trưng: các đặc trưng được chọn lựa một cách hợp lý để có thể
“mã hoá” nhiều thông tin liên quan đến phân cụm dữ liệu Mục tiêu chính làphải giảm thiểu sự dư thừa thông tin giữa các đặc trưng Các đặc trưng cần đượctiền xử lý trước khi dùng chúng trong các bước sau
•Tiêu chuẩn phân cụm: tùy theo từng tập dữ liệu tạo ra các cụm khác nhau màchúng ta có tiêu chuẩn phân cụm khác nhau Chẳng hạn, một cụm loại chặt(compact) của các véc tơ đặc trưng trong không gian l-chiều có thể dễ nhận thấytheo một tiêu chuẩn, trong khi một cụm “dài và mỏng” lại có thể được dễ nhậnthấy bởi một tiêu chuẩn khác Tiêu chuẩn phân loại có thể được diễn đạt bởihàm chi phí
•Thuật toán phân cụm: sử dụng các giải thuật phân cụm khác nhau nhằm sáng tỏcấu trúc cụm của tập dữ liệu
•Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắncủa nó Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp
•Giải thích kết quả: trong nhiều trường hợp, chuyên gia trong lĩnh vực ứng dụngphải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và phân tích
để đưa ra các kết quả đúng đắn
Trong một số trường hợp nên có cả bước phân tích khuynh hướng phân cụm, trongbước này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấutrúc phân cụm Ví dụ như: tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọi
cố gắng phân cụm đều là vô nghĩa
Các lựa chọn khác nhau của các đặc trưng, tiêu chuẩn phân cụm có thể dẫn tớicác kết quả phân cụm khác nhau Do đó việc lựa chọn một cách hợp lý nhất, hoàntoàn dựa vào kiến thức và kinh nghiệm của chuyên gia
Theo các nghiên cứu, đến nay chưa có một phương pháp phân cụm tổng quátnào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa,các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữliệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phâncụm phù hợp Phân cụm dữ liệu đang là vấn đề mở và khó, vì cần phải đi giải quyếtnhiều vấn đề cơ bản như đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiềudạng dữ liệu khác nhau, đặc biệt là đối với các dữ liệu hỗn hợp, đang ngày càngtăng trưởng không ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong nhữngthách thức lớn trong lĩnh vực Data Mining trong những thập kỷ tiếp theo
Trang 131.1.2 Các ứng dụng của phân cụm dữ liệu
của nó:
• Giảm dữ liệu: Giả sử ta có một lượng lớn dữ liệu (N) Phân cụm sẽ nhóm
các dữ liệu này thành C cụm dữ liệu dễ nhận thấy và C << N Sau đó xử lýmỗi cụm như một đối tượng đơn
• Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên của
dữ liệu và phải được kiểm tra bởi việc dùng một số tập dữ liệu khác
• Kiểm định giả thuyết: Ta sẽ phân cụm để xét xem có tồn tại một cụm nào đó
trong tập dữ liệu thoả mãn các giả thuyết đã cho hay không Chẳng hạn xemxét giả thuyết sau đây: “Các công ty lớn đầu tư ra nước ngoài”
Để kiểm tra điều này, ta áp dụng kỹ thuật phân cụm với một tập các đại diện lớn cáccông ty Giả sử rằng mỗi công ty được đặc trưng bởi một tầm vóc, các hoạt độngnước ngoài của nó và khả năng hoàn thành các dự án thành công Nếu sau khi phâncụm, một cụm các công ty được hình thành gồm các công ty lớn và có đầu tư ranước ngoài (không quan tâm đến khả năng hoàn thành vốn các dự án thành công)thì giả thuyết đã được củng cố bởi kỹ thuật phân cụm đã được thực hiện
• Dự đoán dựa trên các cụm: Đầu tiên ta sẽ phân cụm một tập dữ liệu thành
các cụm mang đặc điểm của các dạng mà nó chứa Sau đó, khi có một dạngmới chưa biết ta sẽ xác định xem nó sẽ có khả năng thuộc về một cụm nàonhất và dự đoán được một số đặc điểm của dạng này nhờ các đặc trưngchung của cả cụm
1.1.3 Kiểu dữ liệu và độ đo tương tự
Trong Phân cụm dữ liệu, các đối tượng dữ liệu cần phân cụm có thể là con
người, nhà, tiền lương, các thực thể,… Các đối tượng này thường được diễn tả dưới
dạng các đặc trưng hay còn gọi là thuộc tính của nó Các thuộc tính này là các tham
số cho giải quyết vấn đề Phân cụm
Cho một CSDL X chứa N đối tượng trong không gian k chiều Một mẫu j
được biểu diễn dưới dạng: xj=(x1,x2, ,xk); với là các đặc trưng hoặc thuộctính tương ứng của các đối tượng xj
Đặc điểm của các thuộc tính
• Thuộc tính liên tục (Continuous Attribute): nếu miền giá trị của nó của nó là
vô hạn không đếm được, nghĩa là giữa hai giá trị tồn tại vô số giá trị khác.Thí dụ như các thuộc tính về màu, nhiệt độ hoặc cường độ âm thanh
Trang 14• Thuộc tính rời rạc (DiscretteAttribute): Nếu miền giá trị của nó là tập hữu
hạn, đếm được Thí dụ như các thuộc tính về số serial của một cuốn sách,
số thành viên trong một gia đình, …
Lớp các thuộc tính nhị phân là trường hợp đặc biệt của thuộc tính rời rạc mà miền
giá trị của nó chỉ có 2 phần tử được diễn tả như : Yes / No hoặc Nam/Nữ, False/true,
…
1.1.4 Khái niệm về tương tự và phi tương tự
Khi các đặc tính của dữ liệu được xác định, người ta đi tìm cách thích hợp đểxác định "khoảng cách" giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây làcác hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm
này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi tương tự (Dissimilar)
giữa các đối tượng dữ liệu Giá trị của hàm tính độ đo tương tự càng lớn thì sựgiống nhau giữa đối tượng càng lớn và ngược lại, còn hàm tính độ phi tương tự tỉ lệnghịch với hàm tính độ tương tự Độ tương tự hoặc độ phi tương tự có nhiều cách
để xác định, chúng thường được đo bằng koảng cách giữa các đối tượng Tất cả cáccách đo độ tương tự đều phụ thuộc vào kiểu thuộc tính mà chúng ta phân tích Thí
dụ, đối với thuộc tính hạng mục (Categorical) người ta không sử dụng độ đo
khoảng cách mà sử dụng một hướng hình học của dữ liệu
Tất cả các độ đo dưới đây được xác định trong không gian metric Bất kỳmột metric nào cũng là một độ đo, nhưng điều ngược lại không đúng Để tránh sự
nhầm lẫn, thuật ngữ độ đo ở đây đề cập đến hàm tính độ tương tự hoặc hàm tính độ
phi tương tự Một không gian metric là một tập trong đó có xác định các "khoảng cách" giữa từng cặp phần tử, với những tính chất thông thường của khoảng cách
hình học Nghĩa là, một tập x (các phần tử của nó có thể là những đối tượng bất kỳ)các đối tượng dữ liệu trong CSDL X như đã đề cập ở trên được gọi là một khônggian metric nếu:
• Với mỗi cặp phần tử x,y thuộc X đều xác định một số thực d(x,y), theo mộtquy tắc nào đó, được gọi là khoảng cách giữa x và y
• Quy tắc nói trên thoả mãn hệ tính chất sau :
(i) d(x,y)>0 nếu x ≠y
(ii) d(x,y)=0 nếu x =y
(iii) d(x,y) = d(y,x) với mọi x,y
(iv) d(x,y) ≤ d(x,z)+d(z,y)
Hàm d(x,y) được gọi là một metric của không gian Các phần tử x,y được gọi là cácđiểm của không gian này
Trang 15Sau đây là các phép đo độ tương tự đối với các mẫu:
• Theo khoảng cách: Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng
dữ liệu x, y được xác định bằng các metric khoảng cách như sau:
o Khoảng cách Minskowski : , trong đó q là
• Thuộc tính định danh : Độ đo phi tương tự giữa hai đối tượng x và y được
định nghĩa như sau : , trong đó m là số thuộc tính đối sánhtương ứng trùng nhau, và p là tổng số các thuộc tính
• Thuộc tính có thứ tự : Phép đo độ phi tương tự giữa các đối tượng dữ liệu
với thuộc tính thứ tự được thực hiện như sau, ở đây ta giả sử i là thuộc tính
thứ tự có Mi giá trị (Mi kích thước miền giá trị) :
o Các trạng thái Mi được sắp thứ tự như sau : [1…Mi], chúng ta có thểthay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại ri, với ri
{1…Mi}
o Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậychúng ta chuyển đổi chúng về cùng miền giá trị [0,1] bằng cách thựchiện phép biến đổi sau cho mỗi thuộc tính :
o Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với
các giá trị , đây cũng chính là độ phi tương tự của thuộc tính cóthứ tự
• Thuộc tính tỉ lệ : sử dụng công thức tính logarit cho mỗi thuộc tính xi, thí dụ
qi = log(xi), lúc này qi đóng vai trò như thuộc tính khoảng (Interval -Scale).phép biến đổi logarit này thích hợp trong trường hợp các giá trị của thuộc tính
là số mũ
Trang 16Trong thực tế, khi tính độ đo tương tự dữ liệu, người ta chỉ xem xét một phần cácthuộc tính đặc trưng đối với các kiểu dữ liệu hoặc là đánh trọng số cho cho tất cảcác thuộc tính dữ liệu Trong một số trường hợp, người ta loại bỏ đơn vị đo của cácthuộc tính dữ liệu bằng cách chuẩn hoá chúng, hoặc gán trọng số cho mỗi thuộc tínhgiá trị trung bình, độ lệch chuẩn Các trọng số này có thể sử dụng trong các độ đokhoảng cách trên, thí dụ với mỗi thuộc tính dữ liệu đã được gán trọng số tương ứng
wi ( ), độ tương đồng dữ liệu được xác định như sau :
Thêm vào đó, các véc tơ trong một cụm là tương tự nhau hơn so với các véc
tơ thuộc cụm khác Lượng hoá thuật ngữ tương tự và không tương tự phụ thuộc rất
nhiều vào các loại của cụm Chẳng hạn, loại cụm chặt thì có một số độ đo phù hợp,trong khi loại cụm có hình dáng dài và mỏng lại phù hợp hơn với các độ đo khác(xem hình 1.1) Với định nghĩa trên, mỗi véc tơ chỉ thuộc về một cụm riêng nên loạiphân cụm này đôi khi còn được gọi là chặt hay rõ (hard or crisp)
Hình 1.1 Hình dạng của các loại cụm (a) Các cụm chặt (b) Các cụm dài và mỏng (c) Cáccụm dạng cầu và elipxôit
Trang 171.2 Những kỹ thuật tiếp cận trong phân cụm dữ liệu
Các kỹ thuật áp dụng để giải quyết vấn đề phân cụm dữ liệu đều hướng tớihai mục tiêu chung : Chất lượng của các cụm khám phá được và tốc độ thực hiệncủa thuật toán Hiện nay, các kỹ phân cụm dữ liệu có thể phân loại theo các cáchtiếp cận chính sau:
1.2.1 Phân cụm phân hoạch
Phương pháp phân cụm phân hoạch nhằm phân một tập dữ liệu có n phần tửcho trước thành k nhóm dữ liệu sao cho : mỗi phần tử dữ liệu chỉ thuộc về mộtnhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu ít nhất một phần tử dữ liệu Cácthuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưutoàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân
hoạch có thể được Chính vì vậy, trên thực tế người ta thường đi tìm giải pháp tối
ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm mục tiêu để đánh giá chấtlượng của các cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữliệu Với chiến lược này, thông thường người ta bắt đầu khởi tạo một phân hoạchban đầu cho tập dữ liệu theo phép ngẫu nhiên hoặc theo heuristic, và liên tục tinhchỉnh nó cho đến khi thu được một phân hoạch mong muốn, thoả mãn rằng buộccho trước Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phâncụm, bằng cách tính các giá trị đo độ tương tự giữa các đối tượng dữ liệu và sắp xếpcác giá trị này, sau đó thuật toán lựa chọn một giá trị trong dãy sắp xếp sao cho hàmmục tiêu đạt giá trị tối thiểu Như vậy, ý tưởng chính của thuật toán phân cụm phânhoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm.Một số thuật toán phân cụm phân hoạch điển hình như k-means, PAM, CLARA,CLARANS,…
1.2.2 Phân cụm dữ liệu phân cấp
Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có
dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Cây phân
cụm có thể được xây dựng theo hai phương pháp tổng quát: phương pháp trênxuống (Top down) và phương pháp dưới lên (Bottum up)
đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hànhnhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trungtâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhómđược hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đếnkhi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụngchiến lược ăn tham trong quá trình phân cụm
đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm
Trang 18được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tựnào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiệndừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quátrình phân cụm.
Thí dụ : Hình 1.2 dưới đây là một thí dụ sử dụng hai chiến lược phân cụm phân cấp
khác nhau như đã trình bày ở trên
Hình 1.2: Các chiến lược phân cụm phân cấpMột số thuật toán phân cụm phân cấp điển hình như CURE, BIRCH, …
Thực tế áp dụng, có nhiều trường hợp người ta kết hợp cả hai phương pháp phâncụm phân hoạch và phương phân cụm phân cấp, nghĩa là kết quả thu được củaphương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phâncụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổđiển, hiện nay đã có nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được
áp dụng phổ biến trong Data Mining
1.2.3 Phân cụm dữ liệu dựa trên mật độ
Phương pháp này nhóm các đối tượng theo hàm mật độ xác định Mật độđược định nghĩa như là số các đối tượng lân cận của một đối tượng dữ liệu theo mộtngưỡng nào đó Trong cách tiếp cận này, khi một cụm dữ liệu đã xác định thì nótiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lâncận của các đối tượng này phải lớn hơn một ngưỡng đã được xác định trước.Phương pháp phân cụm dựa vào mật độ của các đối tượng để xác định các cụm dữliệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Tuy vậy, việc xác địnhcác tham số mật độ của thuật toán rất khó khăn, trong khi các tham số này lại có tácđộng rất lớn đến kết quả phân cụm dữ liệu
g sau.ĩnh vực phân cụm
dữ liệu
các yêu cầu này sẽ được
đề cập
cụ thể hơn khi đi vào khảo sát một số thuật toán
Bottorn up
Bottorn down
Trang 19Hình 1.3 dưới đây là một minh hoạ về các cụm dữ liệu với các hình thù khác nhaudựa trên mật độ được khám phá từ 3 CSDL khác nhau.
Hình 1.3: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật phân cụm dữ
liệu dựa trên mật độMột số thuật toán phân cụm dữ liệu dựa trên mật độ điển hình như DBSCAN,OPTICS, DENCLUE, …
1.2.4 Phân cụm dữ liệu dựa trên lưới
Kỹ thuật phân cụm dựa trên mật độ không thích hợp với dữ liệu nhiều chiều, đểgiải quyết cho đòi hỏi này, người ta đã sử dụng phương pháp phân cụm dựa trênlưới Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để phân cụm, phương phápnày chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Thí dụ như dữ liệu đượcbiểu diễn dưới dạng cấu trúc hình học của đối tượng trong không gian cùng với cácquan hệ, các thuộc tính, các hoạt động của chúng Mục tiêu của phương pháp này làlượng hoá tập dữ liệu thành các ô (Cell), các cell này tạo thành cấu trúc dữ liệu lưới,sau đó các thao tác phân cụm làm việc với các đối tượng trong từng Cell này Cáchtiếp cận dựa trên lưới này không di chuyển các đối tượng trong các cell mà xâydựng nhiều mức phân cấp của nhóm các đối tượng trong một cell Trong ngữ cảnhnày, phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chỉ
có điều chúng không trộn các Cell Do vậy các cụm không dựa trên độ đo khoảngcách (hay còn gọi là độ đo tương tự đối với các dữ liệu không gian) mà nó đượcquyết định bởi một tham số xác định trước Ưu điểm của phương pháp phân cụmdựa trên lưới là thời gian xử lý nhanh và độc lập với số đối tượng dữ liệu trong tập
dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số cell trong mỗi chiều củakhông gian lưới Một thí dụ về cấu trúc dữ liệu lưới chứa các cell trong không giannhư hình 1.4 sau :
CSDL 1 CSDL 2 CSDL 3
Trang 20Hình 1.4: Mô hình cấu trúc dữ liệu lướiMột số thuật toán phân cụm dữ liệu dựa trên cấu trúc lưới điển hình như: STING,WAVECluster, CLIQUE,…
1.2.5 Phân cụm dữ liệu dựa trên mô hình
Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số môhình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lượcphân cụm phân hoạch hoặc chiến lược phân cụm phân cấp, dựa trên cấu trúc hoặc
mô hình mà chúng giả định về tập dữ liệu và cách mà chúng tinh chỉnh các mô hìnhnày để nhận dạng ra các phân hoạch
Phương pháp phân cụm dữ liệu dựa trên mô hình cố gắng khớp giữa dữ liệu với môhình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phốixác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai tiếp cận chính :
Mô hình thống kê và Mạng Nơron Phương pháp này gần giống với phương pháp
dựa trên mật độ, bởi vì chúng phát triển các cụm riêng biệt nhằm cải tiến các môhình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cốđịnh và không sử dụng cùng một khái niệm mật độ cho các cụm
1.2.6 Phân cụm dữ liệu có ràng buộc
Sự phát triển của phân cụm dữ liệu không gian trên CSDL lớn đã cung cấpnhiều công cụ tiện lợi cho việc phân tích thông tin địa lý, tuy nhiên hầu hết cácthuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộctrong thế giới thực cần phải được thoả mãn trong quá trình phân cụm dữ liệu Đểphân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thựchiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toánphân cụm
Thực tế, các phương pháp trên đã và đang được phát triển và áp dụng nhiềutrong phân cụm Đến nay, đã có một số nhánh nghiên cứu được phát triển trên cơ
sở của các phương pháp tiếp cận đã trình bày ở trên như sau :
Mức 1 (mức cao nhất ) có thể
chỉ chứa một Cell
Cell mức i-1 có thể tương ứng
với 4 cell của mức i
Tầng 1 Tầng i-1 Tầng i
Trang 21• Phân cụm thống kê : Dựa trên các khái niệm phân tích thống kê, nhánh
nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng,nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số
• Phân cụm khái niệm : Các kỹ thuật phân cụm được phát triển áp dụng cho dữ
liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng
xử lý
• Phân cụm mờ : Sử dụng kỹ thuật mờ để phân cụm, trong đó một đối tượng
dữ liệu có thể thuộc vào nhiều cụm dữ liệu khác nhau Các thuật toán thuộcloại này chỉ ra lược đồ phân cụm thích hợp với tất cả hoạt động đời sốnghàng ngày, chúng chỉ xử lý các dữ liệu thực không chắc chắn Thuật toánphân cụm mờ quan trọng nhất là thuật toán FCM (Fuzzy c-means)
• Phân cụm mạng Kohonen : loại phân cụm này dựa trên khái niệm của các
mạng nơ ron Mạng Kohnen có tầng nơ ron vào và các tầng nơ ron ra Mỗi
nơ ron của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối với tất cả các nơ ron của tầng ra Mỗi liên kết được gắn liềnvới một trọng số nhằm xác định vị trí của nơ ron ra tương ứng
Tóm lại, các kỹ thuật phân cụm dữ liệu đã trình bày ở trên đã được sử dụngrộng rãi trong thực tế, thế nhưng hầu hết chúng chỉ nhằm áp dụng cho tập dữ liệuvới cùng một kiểu thuộc tính
1.2.7 Các yêu cầu cần thiết cho tạo dựng kỹ thuật phân cụm dữ liệu
Việc xây dựng, lựa chọn một thuật toán phân cụm là bước then chốt cho việc giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm, mục đích của ứng dụng trong thực tế hoặc xác định độ ưu tiên giữa chất lượngcủa các cụm hay tốc độ thực hiện thuật toán
Hầu hết các nghiên cứu và phát triển thuật toán phân cụm dữ liệu đều nhằmthoả mãn các yêu cầu cơ bản sau:
• Có khả năng mở rộng (Scalability) : Một số thuật toán có thể ứng
dụng tốt cho tập dữ liệu nhỏ ( khoảng 200 bản ghi dữ liệu ) nhưng không hiệu quảkhi áp dụng cho tập dữ liệu lớn (Khoảng 1 triệu bản ghi)
• Thích nghi với các kiểu dữ liệu khác nhau : Thuật toán có thể áp dụng
hiệu quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau như dữliệu kiểu số, kiểu nhị phân, dữ liệu kiểu hạng mục, và thích nghi với kiểu dữ liệuhỗn hợp giữa các dữ liệu đơn trên
Trang 22• Khám phá ra các cụm với hình thù bất kỳ: do hầu hết các CSDL có
chứa nhiều cụm dữ liệu với các hình thù khác nhau như : hình lõm, hình cầu, hìnhque, …Vì vậy, để khám phá được các cụm có tính tự nhiên thì các thuật toán phâncụm cần phải có khả năng khám phá ra các cụm có hình thù bất kỳ
• Tối thiểu lượng tri thức cần cho xác định các tham số vào: do các giá
trị đầu vào thường rất ảnh hưởng đến thuật toán phân cụm và rất phức tạp để xácđịnh các giá trị vào thích hợp đối với các CSDL lớn
• Ít nhạy cảm với thứ tự của dữ liệu vào : Cùng một tập dữ liệu, khi
đưa vào xử lý cho thuật toán phân cụm dữ liệu với các thứ tự vào của các đối tượng
dữ liệu ở các lần thực hiện khác nhau thì không ảnh hưởng lớn đến kết quả phâncụm
• Khả năng thích nghi với dữ liệu nhiễu cao : Hầu hết các dữ liệu phân
cụm trong Data Mining đều chứa đựng các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệurác Thuật toán phân cụm không những hiệu quả đối với các dữ liệu nhiễu mà còntránh dẫn đến chất lượng phân cụm thấp do nhạy cảm với nhiễu
• Ít nhạy cảm với các tham số đầu vào : Nghĩa là giá trị của các tham
số đầu vào khác nhau ít gây ra các thay đổi lớn đối với kết quả phân cụm
• Thích nghi với dữ liệu đa chiều : Thuật toán có khả năng áp dụng
hiệu quả cho dữ liệu có số chiều khác nhau
• Dễ hiểu, cài đặt và khả dụng.
Các yêu cầu này đồng thời là các tiêu chí để đánh giá hiệu quả của các phương phápphân cụm dữ liệu, đây là các thách thức cho các nhà nghiên cứ trong lĩnh vực phâncụm dữ liệu các yêu cầu này sẽ được đề cập cụ thể hơn khi đi vào khảo sát một sốthuật toán phân cụm ở chương sau
1.3 Lý thuyết tập mờ
1.3.1 Tập mờ loại một
Khái niệm tập mờ (Fuzzy sets)
Một tập mờ là một hàm số, gọi là hàm thuộc(MemberShip function) xác địnhtrên khoảng giá trị U mà đối số xác định cho bởi:
Hay với
A là nhãn mờ của biến x, mang ý nghĩa ngôn ngữ nào đó, mô tả định tính thuộc tínhcủa đối tượng Ví dụ như: gầy, cao, béo được gọi là hàm thuộc của tập mờ A
Trang 23Tập mờ thường được biểu diễn như sau:
Và tập mờ
Đó là khái niệm cơ bản của tập mờ thông thường, còn gọi là tập mờ loại một Các
hệ mờ được xây dựng từ tập mờ này đã được ứng dụng rất nhiều trong thực tiễn.Tuy nhiên các hệ mờ loại 1 tiềm ẩn các khó khăn nhất định Đó là để phát triển bất
cứ hệ logic mờ nào, người thiết kế phải xây dựng hàm thuộc cho tập mờ
1.3.2 Các phép toán tập hợp
Trong lý thuyết tập mờ, các phép toán tập hợp được định nghĩa thông qua các
hàm thuộc của chúng Giả sử A và B là hai tập mờ xác định trên không gian X được
đặc trưng bởi các hàm thuộc tương ứng là và
Trang 24Ví dụ : Cho hai tập mờ A và B có hàm thuộc được xác định như sau:
Hình 1.5 dưới đây mô tả các hàm thuộc và
Hình 1.5: Các hàm thuộc của các tập mờ
Từ ví dụ này cho thấy phép hợp, giao của một tập mờ với phần bù của nó có kếtquả khác so với trong tập rõ: và
Ngoài các phép toán maximum và minimum, ta có thể định nghĩa các phép hợp
và phép giao khác cho tập mờ Chẳng hạn, Zadeh định nghĩa hai phép toán hợp vàgiao cho tập mờ như sau:
▪ Phép hợp:
▪ Phép giao:
Sau đó, Klir và Yuan định nghĩa hai phép toán conorm cho phép hợp và norm cho phép giao sử dụng cho tập mờ:
Trang 25t-Phép toán t-conorm (còn gọi là s-norms) được sử dụng cho phép hợp, được kýhiệu là Maximum và phép tổng đại số là phép toán t-conorm Dưới đây là hai ví
Trên đây là khái niệm cơ bản của tập mờ thông thường, từ đây được gọi là tập
mờ loại một Các hệ mờ được xây dựng từ tập mờ này đã được ứng dụng rất nhiềutrong thực tiễn Tuy nhiên, các hệ mờ loại một tiềm ẩn những khó khăn nhất định
Đó là để phát triển bất cứ hệ logic mờ nào, người thiết kế phải xây dựng hàm thuộccho các tập mờ sử dụng trong hệ Khi khó xác định hàm thuộc của các tập mờ thì hệ
mờ loại một là có giới hạn
Năm 1975, Zadeh giới thiệu khái niệm tập mờ loại hai nhằm giải quyết vấn đềtrên Thay vì độ thuộc là một số rõ trong [0, 1], tập mờ loại hai có độ thuộc là mộttập mờ loại một trên đoạn [0, 1] Nhờ đó mà tập mờ loại hai có khả năng mô hình
và cực tiểu hoá sự không chắc chắn Phần tiếp theo sẽ đề cập đến khái niệm và cácphép toán của tập mờ loại hai
1.3.3 Tập mờ loại hai
Đối với tập mờ loại một, độ thuộc của các phần tử là các giá trị số thực trongkhoảng [0, 1] Trong trường hợp chúng ta không thể xác định được giá trị độ thuộccủa các phần tử, khi đó chúng ta có sử dụng các tập mờ loại một đề biểu diễn giá trị
độ thuộc đó Mở rộng tập mờ loại một bằng cách cho phép các độ thuộc là các tập
mờ loại một trong khoảng [0, 1] ta được khái niệm tập mờ loại hai Một trongnhững ưu điểm của tập mờ loại hai so với tập mờ loại một đó là nó cho phép biểu
nếu y=0 nếu x=0 nếu ngược lại
nếu y=1 nếu x=1 nếu ngược lại
Trang 26diễn các giá trị độ thuộc bằng các giá trị mờ, các giá trị ngôn ngữ chứ không phải làcác giá trị số hoàn toàn chính xác.
phép ở đây biểu thị tập hợp tất cả các giá trị có thể chấp nhận của x và u
Hình 1.7 diễn tả cho các giá trị x và u rời rạc
Với X = {1, 2, 3, 4, 5} và U = {0, 0.2, 0.4, 0.6, 0.8}, J1 = {0, 0.2, 0.4}, J2 = {0,0.2, 0.4, 0.6, 0.8}, J3 = {0.6, 0.8} và J4 = J1 Trong đồ thị, chúng ta chỉ thể hiện cácgiá trị trong J1, …, J5 có giá trị 0 Mỗi đường thẳng đứng đậm trong hìnhthể hiện một giá trị , tương ứng với một cặp giá trị (x, u) xác định
hàm thuộc loại một, (c) FOU
Trang 27Trong Định nghĩa, giới hạn các giá trị u: u Jx [0, 1], điều này phù hợp vớiràng buộc của một tập mờ loại một: 0 1 Nếu vết mờ (như trong ví dụHình 1.6 (b)) biến mất thì hàm thuộc loại hai sẽ giảm thành hàm thuộc loại một.
Hơn nữa, việc giới hạn 0 1 cũng phù hợp ràng buộc giá trị của mộthàm thuộc nằm trong khoảng [0,1]
1.3.3.2 Hàm thuộc thứ cấp
Tại mỗi giá trị của x, x = x’, mặt phẳng hai chiều mà các trục của nó là u và
được gọi là một lát cắt dọc của Một hàm thuộc thứ cấp là mộtlát cắt dọc của Hàm thuộc thứ cấp chính là với x’ X và
Trang 28Jx là độ thuộc sơ cấp của x, ở đây Jx [0,1] với x X.
1.3.3.4 Chân đế của sự không chắc chắn(Footprint of Uncertainty)
Độ không chắc chắn trong các độ thuộc sơ cấp của một tập mờ loại hai, , là mộtmiền giới hạn, được gọi là chân đế của độ không chắc chắn (FOU) FOU là hợp củatất cả các độ thuộc sơ cấp
FOU( ) =
Về mặt ý nghĩa hình học, FOU mô tả trực quan độ không chắc chắn của tập mờ loạihai, nó là biểu diễn hình học toàn bộ miền trị cho tất cả các độ thuộc thứ cấp củamột hàm thuộc loại hai Trong các ứng dụng, FOU là một căn cứ đầu tiên để chúng
ta lựa chọn các hàm thuộc loại hai phù hợp.Vùng tô đen trong Hình 1.8 (a) minhhọa FOU của một tập mờ loại hai
1.3.4 Tập mờ loại hai khoảng (Interval type-2 Fuzzy sets)
Tập mờ loại hai khoảng là trường hợp đặc biệt của tập mờ loại hai khi mà độ thuộcthứ cấp của chúng đều bằng 1 Tức là khi đó ta không quan tâm đến chiều thứ 3 củatập mờ loại hai
Biểu diễn của tập mờ loại hai
Hình 1.8: (a): Miền tô đen là FOU của một tập mờ loại
hai Độ thuộc sơ cấp Jx1 và Jx2 tại điểm x1 và x2
(a)u
Trang 29Hình 1.9: (a) tập mờ loại hai khoảng (b) khoảng độ thuộc sơ cấp của mỗi mẫu x
1.3.5 Tập mờ loại hai nhúng
Trong không gian rời rạc X và U, lấy N điểm tương ứng từ
, mỗi điểm này có độ thuộc thứ cấp là Khi đó tập mờ loại hai nhúng được biểu diễn:
Số lượng các tập mờ loại hai nhúng trong là
Trang 301.3.6 Tập mờ loại một nhúng
Trong không gian rời rạc X và U, tập mờ loại một nhúng gồm N thành phần,
tương ứng là các và được biểu diễn:
Tập mờ là hợp của tất cả các thành phần sơ cấp của và do đó có tất cả các tập mờ loại một nhúng
Ví dụ : Trong hình 1.11 Tập loại một nhúng gắn với tập mờ loại hai nhúng nàylà:
Hình 1.11: Ví dụ về tập mờ loại hai nhúngcủa tập mờ loại hai ở Hình 1.2.1
1.3.7 Biểu diễn tập mờ loại hai theo các tập mờ nhúng
Gọi là tập mờ loại hai nhúng thứ j của tập mờ loại hai , ta có:
với:
Khi đó có thể được biểu diễn như là hợp của tất cả các tập mờ loại hai nhúng như sau
Trang 31với
Ví dụ 1.2.9 Xét tập mờ loại hai
Tập mờ này có và nên có tất cả 6 tập mờ nhúng là:
1.4 Kết luận
Chương này đã trình bày các khái niệm về tập mờ loại một, tập mờ loại hai cùngvới các phép toán tập hợp trên chúng và bài toán phân cụm dữ liệu Một trongnhững ưu điểm của tập mờ loại hai khoảng là độ phức tạp trong quá trình tính toánđược giảm thiểu do hàn thuộc thứ cấp của tất cả các mẫu đều được coi là 1.Tiếptheo, chương 2 sẽ trình bày việc sử dụng tập mờ loại hai khoảng vào bài toán phâncụm mờ
Trang 32CHƯƠNG 2 ỨNG DỤNG TẬP MỜ LOẠI HAI KHOẢNG VÀO PHÂN CỤM DỮ LIỆU 2.1 Định nghĩa phân cụm dựa vào khái niệm tập mờ
Một sự phân cụm mờ X thành C cụm được mô tả bằng C hàm thuộc saocho:
đã áp dụng lý thuyết về tập mờ trong Phân cụm dữ liệu để giải quyết cho trườnghợp này, cách thức kết hợp này được gọi là phân cụm mờ Trong phương pháp phâncụm mờ, độ phụ thuộc của đối tượng dữ liệu xk tới cụm thứ i (uik) có giá trị thuộckhoảng [0,1] Ý tưởng trên đã được giới thiệu bởi Ruspini (1969) và được Dunn ápdụng năm 1973 nhằm xây dựng một phương pháp phân cụm mờ dựa trên tối thiểuhoá hàm mục tiêu Bezdek (1982) đã tổng quát hoá phương pháp này và xây dựngthành thuật toán phân cụm mờ c-means có sử dụng trọng số mũ
Trang 33K-means là thuật toán Phân cụm dữ liệu rõ và C-Means là thuật toán phâncụm mờ tương ứng, hai thuật toán này cùng sử dụng chung một chiến lược phâncụm dữ liệu Thuật toán C-means mờ hay còn gọi tắt là thuật toán FCM (Fuzzy Cmeans-FCM) đã được áp dụng thành công trong giải quyết một số lớn trong nhậndạng mẫu, xử lý ảnh, y học, … Tuy nhiên, nhược điểm lớn nhất của thuật toán FCM
là nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu, nghĩa là các trung tâmcụm có thể nằm xa so với trung tâm thực của cụm Đã có nhiều các phương pháp đềxuất để cải tiến cho nhược điểm trên của thuật toán FCM bao gồm : Phân cụm dựatrên xác suất (keller, 1993), phân cụm nhiễu mờ (Dave, 1991) Và gần đây mộtphương pháp phân cụm mờ sử dụng tập mờ loại hai đã khắc phục đáng kể nhượcđiểm trên
2.3 Thuật toán K-means
Ý tưởng: chia tập dữ liệu X gồm n phần tử : thành k cụm S
để cực tiểu hóa hàm mục tiêu của k-means
là tâm của cụm j
Giải thuật k-means
1 Chọn tâm cụm vj bất kìvới mỗi cụm
2 Tính khoảng cách : khoảng cách giữa mẫu đến tâm cụm
3 Gắn các mẫu vào các cụm S
Cập nhật lại :
4 Kiểm tra tâm v của các cụm
nếu không thỏa mãn thì cập nhật tâm v và quay trở lại bước 2