Các phương pháp phân cụm dữ liệu và phân cụm mờ

MỤC LỤC

Toán tử mờ có ngưỡng

Đẳng cấu giữa các t-chuẩn có ngưỡng

Hơn nữa, nếu T là liên tục, Archimedean, chặt, nilpotent, hỗn hợp thì Tf cũng là liên tục, Archimedean, chặt, nilpotent, hỗn hợp tương ứng. Chú ý rằng, từ đây về sau, trong các phát biểu về hàm sinh, nếu không có chú thích gì, chúng tôi chỉ đề cập đến các hàm sinh nhân tính.

Kéo theo có ngưỡng

Từ [28], ta có kết quả sau về tính không duy nhất của phép phủ định đối với hai t-chuẩn và t-đối chuẩn đối ngẫu với nhau. Bên cạnh đó, ta còn có một cách khác để xây dựng phép phủ định dựa vào hàm L-sinh của các t-chuẩn nilpotent [28].

Các toán tử mờ tham số

Sau đây chúng ta sẽ tiến hành khảo sát một số họ toán tử mờ tham số và việc tạo ra các toán tử mờ có ngưỡng từ chúng. Chứng minh: Rừ ràng họ t-chuẩn Jane Doe #1-Hamacher là đơn điệu khụng tăng theo a dựa vào công thức định nghĩa của họ tham số. Họ t-chuẩn Aczél-Alsina là đơn điệu không giảm theo r Chứng minh: Xét t1, t2 là hai t-chuẩn thuộc họ với các hàm sinh cộng tính.

Chứng minh: Xét hai t-chuẩn t1, t2 thuộc họ với hai hàm sinh cộng tính g1, g2 tương ứng, ta xét các trường hợp sau.

LUẬT KẾT HỢP MỜ

Giới thiệu

Siêu thị của chúng ta có một lượng lớn các chủng loại mặt hàng, vấn đề đặt ra đối với nhà quản lý siêu thị là cần quyết định nên bán những mặt hàng nào, những mặt hàng nào nên đặt cạnh nhau, tóm lại là cách thức bày các mặt hàng trên các giá hàng nhằm thu lợi nhuận lớn nhất. Trong [40] chỉ ra rằng, hầu hết các cơ sở dữ liệu khoa học hay kinh doanh, các thuộc tính thường có khả năng diễn đạt cao hơn là chỉ gồm có dạng boolean, các thuộc tính thường có dạng biểu diễn số liên tục như tuổi, số vốn, hay được chia khoảng như mức thu nhập (thấp, trung bình, cao…). Các luật này có thể được phát biểu dạng như sau: “45% người trong độ tuổi [40-50], đã kết hôn có hai ô tô.” Nhằm tận dụng các thuật toán đã có đối với bài toán luật kết hợp boolean, [40] đưa ra cách giải quyết phân hoạch miền giá trị của các thuộc tính thành các khoảng và sau đó kết hợp các khoảng rời nhau để cho lời giải của bài toán.

Lấy ví dụ, đối với các luật kết hợp mờ dạng “Những người giàu, nhiều tuổi thường thích đi du lịch”, việc sử dụng ngưỡng khi phân tích mức độ giàu cũng như mức độ nhiều tuổi là rất có ý nghĩa đối với những nhà quản lý hoạch định phương án tiếp thị kinh doanh của một công ty du lịch.

Mô tả bài toán

    Trong thực tế, việc sử dụng các toán tử mờ có ngưỡng có thể có những ý nghĩa nhất định trong việc phân tích các dữ liệu. Lấy ví dụ, đối với các luật kết hợp mờ dạng “Những người giàu, nhiều tuổi thường thích đi du lịch”, việc sử dụng ngưỡng khi phân tích mức độ giàu cũng như mức độ nhiều tuổi là rất có ý nghĩa đối với những nhà quản lý hoạch định phương án tiếp thị kinh doanh của một công ty du lịch. Xét Lkv là một từ mô tả thuộc tính Iv của cơ sở dữ liệu. Lấy ví dụ hàm thuộc ứng với từ. “thấp” trong mô tả thuộc tính lượng xăng tiêu thụ trung bình trên 100km của xe biểu diễn mức độ đúng đắn của việc sử dụng từ “thấp” khi mô tả một lượng xăng x nào đó, nghĩa là mức độ đúng đắn của mệnh đề “lượng xăng tiêu thụ x là thấp”. i) Mv là tập tất cả các hàm thuộc biểu diễn các từ mô tả thuộc tính Iv. ii) LI là tập tất cả các tập từ mô tả các thuộc tính của I, LI được gọi là mô tả của I. iii) MI là tập tất cả các tập các hàm thuộc biểu diễn các từ trong mô tả LI của I, MI được gọi là biểu diễn của I ứng với LI. Như trong [35] đã chỉ ra, chúng ta chỉ quan tâm tới những luật kết hợp có độ quan trọng và độ chắc chắn đủ lớn, sau đây, chúng ta sẽ tìm hiểu về các tiêu chuẩn đánh giá một luật kết hợp mờ. Lấy ví dụ, đối với thuộc tính lượng xăng tiêu thụ trung bình của xe máy, nếu độ thuộc của giá trị này vào từ “rất cao” là lớn, chúng ta nên và cần thiết sử dụng những xem xét khác với các trường hợp khác.

    Cho trước một tập thuộc tính I, LI là tập các từ mô tả I, MI là tập các hàm thuộc biểu diễn I ứng với LI, D là một cơ sở dữ liệu trên I, mục tiêu của chúng tôi là tìm các luật dạng “Nếu X là A thì Y là B” có biểu diễn hình thức <X,A>.

    Không gian tìm kiếm

      Chứng minh: Ta có mỗi một thuộc tính có thể xuất hiện hoặc không xuất hiện trong một mệnh đề, và nếu xuất hiện thì có thể sử dụng một trong k từ để mô tả nó, như thế số mệnh đề có thể có (tính cả mệnh đề rỗng, nghĩa là mệnh đề không có thuộc tính nào) sẽ là: (k+1)|I|. Thay vào đó, ở đây, chúng ta sử dụng phương pháp phát triển từ bài toán luật kết hợp Boolean [3] đó là tạo ra mệnh đề ứng viên sau đó xác định độ độ hỗ trợ của chúng để tìm tất cả các mệnh đề đáng kể. Chứng minh: Thật vậy, với mỗi thuộc tính có thể hoặc không xuất hiện trong một mệnh đề, nếu xuất hiện thì có thể xuất hiện hoặc ở phần đầu hoặc ở phần thân, và có thể sử dụng một trong k từ để mô tả, nghĩa là ta có (2k+1)|I| luật có thể có.

      Do đó, nếu một phần đầu của một luật kết hợp chỉ tạo từ tập thuộc tính I và tập từ mô tả A là không tin chắc thì mọi phần đầu chứa nó cũng sẽ cho một luật không tin chắc tạo từ tập thuộc tính I và tập từ A.

      Thuật toán

        Nếu số lượng các mệnh đề độ dài k+1 ứng viên là quá lớn để lưu trữ trong bộ nhớ chính, quá trình tạo ứng viên sẽ ngừng lại và tiến hành tính toán độ hỗ trợ của các ứng viên đã được tạo ra. Nhưng sau đó, trong bước lặp tiếp theo, thay vì tính các mệnh đề ứng viên độ dài k+2, phần còn lại của các các mệnh đề ứng viên độ dài k+1 sẽ được tạo ra và đếm cho đến khi đã sinh được tất cả các mệnh đề đáng kể độ dài k+1. Thuật toán tìm luật kết hợp cũng tương tự như thuật toán tìm mệnh đề, bắt đầu từ các mệnh đề đáng kể, xác định các phần đầu ứng viên, sau đó kiểm tra xem các phần đầu ứng viên có làm cho luật trở thành tin chắc không.

        Chú ý rằng ở đây, mỗi khi xét một mệnh đề đáng kể, tập từ mô tả nó là hoàn toàn xác định, do đó, mặc dù khi kiểm tra, chúng ta phải kiểm tra các từ này, nhưng trong các bước tạo tập ứng viên chỉ cần quan tâm các thuộc tính mà không cần quan tâm tới các từ (dòng 8, 12-14) □.

        Vấn đề mờ hoá dữ liệu

          Để giải quyết các vấn đề trên, và cũng để phục vụ cho việc nghiên cứu những cơ sở dữ liệu thuộc những lĩnh vực mà chúng tôi không phải chuyên gia, chúng tôi đề nghị phương pháp tạo các tập từ cũng như các hàm thuộc tương ứng một cách tự động. Trong khoảng 30 năm trở lại đây, phân cụm dữ liệu có rất nhiều ứng dụng trong nhiều lĩnh vực như y tế (phân loại bệnh), hoá học (phân nhóm các hợp chất), xã hội học (phân lớp thống kê),… Mục đích chính của công tác phân cụm dữ liệu là nhận dạng cấu trúc hay các cụm có trong dữ liệu, nghĩa là tìm cách chia dữ liệu thành các nhóm trong đó dữ liệu trong một nhóm là gần gũi với nhau theo một nghĩa nào đó. Các phương pháp cấu trúc tỏ ra rất thành công trong các ứng dụng sinh học (tạo ra các phân loại động hay thực vật), tuy nhiên chúng lại tỏ ra yếu kém do không bao giờ có thể sửa đổi được những thao tác đã được tiến hành trước đó.

          Một khi phương pháp tích tụ tiến hành kết hợp các cụm thì các đối tượng trong đó sẽ luôn luôn ở trong cùng một cụm, một khi phương pháp chia nhỏ chia tác hai đối tượng, chúng sẽ không bao giờ được nhóm trở lại trong cùng một cụm.

          Các Module chương trình

            Dữ liệu cũng có thể được mờ hoá theo phương pháp FCM hay theo phương pháp sử dụng số mờ tam giác, sau đó dữ liệu được xuất ra dưới dạng mờ (file .FDF). Người sử dụng lựa chọn sử dụng t-chuẩn hay t-chuẩn có ngưỡng, nếu sử dụng t-chuẩn có ngưỡng thì nhập dữ liệu đầu vào là các ngưỡng (file .TF). Các luật được ghi theo thứ tự gồm các thuộc tính ở phần thân, các từ mô tả phần thân, các thuộc tính ở phần đầu, các từ mô tả phần đầu, độ hỗ trợ, độ quan trọng và độ chắc chắn của luật.

            Module cũng cho phép người dùng xuất kết quả tính toán ra file (file .PF chứa các mệnh đề đáng kể và file .RF chứa các luật quan tâm).

            Hình 2: Module frmDataMiner
            Hình 2: Module frmDataMiner

            Cấu trúc các file dữ liệu

            Quá trình tìm kiếm mệnh đề và tìm kiếm luật dựa trên ngưỡng độ quan trọng và ngưỡng độ tin cậy do người dùng cung cấp. Mỗi mệnh đề được ghi theo thứ tự gồm các thuộc tính, các từ mô tả các thuộc tính tương ứng, độ hỗ trợ, độ quan trọng. Các thuộc tính được ký hiệu bằng các chữ cái in hoa, các từ được ký hiệu bằng các chữ số.

            File chứa các mệnh đề đáng kể, mỗi mệnh đề được ghi trên một dòng theo cấu trúc đã mô tả ở trên.

            Cơ sở dữ liệu chạy thử nghiệm

              Các ngưỡng được ghi tuần tự theo từng thuộc tính và theo từng từ mô tả thuộc tính đó. File chứa các luật, mỗi luật được ghi trên một dòng theo cấu trúc đã mô tả ở trên.