7. Bố cục của luận văn
2.3.1. Tổng quan về phân cụm mờ
2.3.1.1. Tổng quan
Trong cuộc sống, có thể nói chúng ta đã gặp rất nhiều ứng dụng của bài toán phân cụm. Chẳng hạn như bài toán phân loại kết quả học tập cho học sinh trong nhà trường hay bài toán đưa thư trong ngành bưu điện,… Đó chính là một ứng dụng của bài toán phân cụm rõ.
Đối với bài toán phân cụm rõ ta có thể định nghĩa như sau: Cho tập dữ liệu mẫu X, ta phải kiểm tra rằng các điểm dữ liệu của nó xem có giống với đặc điểm của nhóm nào nhất thì ta gán điểm dữ liệu đó vào trong nhóm đó và khẳng định nó thuộc nhóm đã gán.
Ví dụ 2.7. Phân loại kết quả học tập của học sinh X. Kết quả học tập DTB5.0: Xếp loại học lực yếu.
Kết quả học tập 5.0DTB7.0: Xếp loại học lực trung bình. Kết quả học tập 7.0DTB8.0: Xếp loại học lực khá.
Kết quả học tập 8.0DTB9.0: Xếp loại học lực giỏi. Kết quả học tập DTB ≥ 9.0 : Xếp loại học lực xuất sắc. Trong đó DTB là điểm trung bình của học sinh X.
Tuy nhiên, trong thực tế không phải lúc nào bài toán phân cụm rõ cũng áp dụng được.
Ví dụ 2.8. Phân loại lương của giáo viên với tiêu chuẩn sau: Những người có lương khoảng 8 triệu trở lên thì được xếp vào nhóm người cao, ngược lại xếp vào nhóm người thấp. Vậy những người có lương 7.950.000 thì ta xếp vào nhóm người nào?
Đối với những bài toán như vậy, chúng ta cần phải đưa vào khái niệm bài toán phân cụm mờ. Trong phương pháp phân cụm như đã giới thiệu trong nội dung của
chương 1, phương pháp phân cụm tức là phân hoạch một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được xác định tốt. Tuy nhiên trong thực tế, đường biên giữa các cụm có thể mờ, các cụm có thể chồng lên nhau, nghĩa là một số các đối tượng dữ liệu thuộc về nhiều cụm khác nhau, do đó mô hình này không mô tả được đặc điểm chung của dữ liệu thực. Vì vậy người ta đã áp dụng lý thuyết về tập mờ trong phân cụm dữ liệu để giải quyết cho những trường hợp này. Cách thức kết hợp này được gọi là phân cụm mờ. Phân cụm mờ là phương pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua bậc thành viên. Ruspini (1970) [6] giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm của tập dữ liệu và đề xuất một thuật toán để tính toán tối ưu phân hoạch mờ. Dunn (1974) [8] mở rộng phương pháp phân cụm và đã phát triển thành thuật toán phân cụm mờ. Ý tưởng của thuật toán chính là xây đựng một phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu. Bezdek (1981) [7], [9] đã cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và được chứng minh với độ hội tụ của các thuật toán là cực tiểu cục bộ.
2.3.1.2. Các bước phân cụm dữ liệu mờ
Hình 2.6: Các bước phân cụm mờ
Trong sơ đồ các bước phận cụm dữ liệu mờ trên, áp dụng vào bài toán tôi đang nghiên cứu thì giai đoạn đầu vào giá trị rõ là các nhận xét của những người theo dõi thi đua như tổ trưởng chuyên môn hiệu phó phụ trách thi đua, hiệu trưởng, giai đoạn Fuzzy hóa là giai đoạn chuyển dữ liệu rõ sang dữ liệu mờ theo hàm triamf của MATLAB để khởi tạo ma trận U mờ. Do đây là đề tài nghiên cứu về phân cụm vì có những giáo viên có thể chuyên môn rất tốt, tác phong rất tốt nhưng việc thực hiện chủ trương đường lối thì không thực hiện, có những giáo viên chuyên môn không tốt nhưng tác phong và thực hiện chủ trương đường lối rất tốt. Nên hướng nghiên cứu
không dùng suy diễn mờ để suy ra kết quả mà dùng phương pháp phân cụm mờ để phân tích kết quả thành các cụm, Do đó dùng tri thức là hàm fuzzy-c-means để phân các cụm trên ma trận U và giải mờ để hiện kết quả các cụm với dữ liệu rõ có những đặc điểm tương đồng của giáo viên.