Phân lớp dựa trên độ tương tự mờ

1.3.1 Phân lớp dữ liệu

Phân lớp dữ liệu(classification) là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Phân lớp là dự đoán giá trị rời rạc dựa trên bộ giá trị biết trước của đối tượng. Quá trình phân lớp dữ liệu gồm hai bước:

• Bước học (learning): Quá trình học nhằm xây dựng mơ hình mơ tả một tập các lớp dữ liệu hay các khái niệm định trước. Đầu vào của q trình này là các mẫu có chung một danh sách thuộc tính, trong đó có thuộc tính phân lớp. Đầu ra thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết định, công thức logic, hay mạng nơron, ...;

• Bước phân lớp(classification): Bước này dùng mơ hình đã xây dựng ở bước trước để phân lớp dữ liệu mới.

Ước lượng độ chính xác của thuật tốn phân lớp cho phép dự đốn được độ chính xác của các kết quả phân lớp những dữ liệu tương lai. Độ chính xác cịn giúp so sánh các mơ hình phân lớp khác nhau. Hai phương pháp đánh giá phổ biến làholdoutvàk-fold cross-validation.

• Phương pháp holdout: Dữ liệu đưa ra được phân chia ngẫu nhiên thành hai phần: tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Thông thường 23 dữ liệu được sử dụng là dữ liệu huấn luyện, phần cịn lại là dữ liệu kiểm tra.

• Phương pháp k-fold cross validation: Tập dữ liệu ban đầu được chia ngẫu nhiên thành k tập con có kích thước xấp xỉ nhau D1, D2, ..., Dk. Quá trình

học và kiểm tra được thực hiệnklần. Tại lần lặp thứi,Dilà tập dữ liệu kiểm tra, các tập còn lại hợp thành tập dữ liệu huấn luyện (i = 1, . . . ,k). Độ chính xác của mơ hình là tổng số mẫu phân lớp đúng từklần lặp chia cho số mẫu của tập dữ liệu ban đầu.

Các kỹ thuật phân lớp tiêu biểu là: cây quyết định (Decision tree), phương pháp Bayesian(Bayesian based classifier),K-hàng xóm gần nhất(K-nearest neighbor

classifier), mạng nơron (neural network), phương pháp véc-tơ tựa (Support Vector

Machine, SVM),luật kết hợp(association rules) ... .

Luận án quan tâm đến phân lớp dựa trên độ tương tự mờ và độ tương tự mờ trực cảm.

1.3.2 Độ tương tự mờ

Độ tương tự là công cụ quan trọng giúp xác định mức độ giống nhau giữa hai đối tượng. Đây là khái niệm có nhiều ứng dụng trong các bài toán liên quan đến nhận dạng mẫu như phân lớp, phân cụm và truy vấn thông tin. Kể từ khi Zadeh [68] đưa ra khái niệm tập mờ, nhiềuđộ tương tự mờ(fuzzy similarity measure) được đề xuất nhằm xác định sự giống nhau giữa các đối tượng mơ hồ, khơng rõ ràng. Có nhiều cách xây dựng độ tương tự mờ, chẳng hạn: dựa vào hàm thuộc, các phép toán tập hợp và khoảng cách. Năm 2014, Baccour và các cộng sự [3] đưa ra khái niệm độ tương tự mờ trên cơ sở khái quát các định nghĩa trước đó.

Định nghĩa 1.30. [3] Cho tậpX 6= ∅. Ánh xạsim : F(X)× F(X) → [0, 1], cho tương ứng hai tập mờ trên X với một số thực, được gọi là một độ tương tự mờ trênXnếu như:

1. Đối xứng:sim(A,B) = sim(B,A), với mọi A,B ∈ F (X); 2. Phản xạ:sim(A,B) = 1⇔ A = B, với mọi A,B ∈ F (X);

3. Đơn điệu: Nếu A ⊂ B ⊂ C thì sim(A,B) ≥ sim(A,C) và sim(B,C) ≥

sim(A,C), với mọi A,B,C ∈ F (X).

Trong trường hợp X là tập hữu hạn, giả sử X chứa n phần tử, |X| = n (n ∈

(i =1, . . . ,n). Lực lượng của A, ký hiệu bởi|A|, được định nghĩa là tổng độ thuộc

của tất cả các phần tử củaX vào A, nghĩa là |A| = ∑n

i=1

µiA. Baccour [3] hệ thống lại một số độ tương tự mờ choA,B ∈ F(X)như sau:

1. sim1(A,B) = 1n ∑n i=1 min(µiA,µiB) max(µi A,µiB); 2. sim2(A,B) = 1n ∑n i=1 1− µiA−µiB ; 3. sim3(A,B) = 2n ∑n i=1 min(µi A,µiB) µiA+µiB ; 4. sim4(A,B) = max(|A|,|B|)|A∩B| ; 5. sim5(A,B) = min(|A|,|B|)|A∩B| ; 6. sim6(A,B) = ||A∩A∪¯¯ B|B|¯¯ ; 7. sim7(A,B) = |A∩¯ B|¯

max(|A|,|¯ B|¯ ); 8. sim8(A,B) = |A∩¯ B|¯

min(|A|,|¯ B|¯ ).

Trong định nghĩasim3, ta quy ước 00 = 12. Trong các định nghĩa còn lại, quy ước 00 =1.

Độ tương tự mờ sớm được Turksen và Zhong [45] ứng dụng trong xấp xỉlập luận tương tự (analogical reasoning) (năm 1988). Xấp xỉ lập luận tương tự, một sự kết hợp giữa lý thuyết mờ và lập luận tương tự, là quá trình rút ra một kết luận dựa trên các giả thiết gần đúng. Về cơ bản, quá trình xấp xỉ lập luận tương tự trong hệ chuyên gia dựa trên luật (rule-based expert system) gồm hai bước. Đầu tiên, ta sử dụng biến ngôn ngữ để biểu diễn tri thức của chuyên gia. Ở bước sau, với mỗi sự kiệnPi0, ta tính độ tương tự giữaPi0 và giả thiết của các luật để xác định các luật được kích hoạt. Nếu luậtRj : Pj → Qj được kích hoạt, thì kết luận tương ứng làQ0j = MF Qj với MF là hàm hiệu chỉnh (modification function) được xác định dựa vào độ tương tự giữaPi0 vàPj.

Năm 2000, Candan và các cộng sự [7] ứng dụng độ tương tự mờ để tìm kiếm trong cơ sở dữ liệu đa phương tiện. Dữ liệu đa phương tiện phức tạp, được mô tả dựa trên cách chúng được thấy, ngữ nghĩa và mối quan hệ về không gian, thời

gian giữa các đối tượng con. Do đó, dữ liệu đa phương tiện có thể được biểu diễn nhờ khái niệm tập mờ. Ngoài ra, câu truy vấn cũng không rõ ràng do người dùng khơng thể định lượng một cách chính xác những yêu cầu của mình về dữ liệu đa phương tiện. Truy vấn cơ sở dữ liệu đa phương tiện thực chất là trả về những dữ liệu mà độ tương tự mờ giữa dữ liệu ấy và câu truy vấn vượt quá một ngưỡng nào đó.

1.3.3 Độ tương tự mờ trực cảm

Độ tương tự mờ trực cảm là sự mở rộng của độ tương tự mờ. Năm 2016, Baccour [4] đưa ra khái niệm sau đây trên cơ sở khái quát những tính chất chung của các độ tương tự mờ trực cảm được đề xuất trước đó.

Định nghĩa 1.31. [4] Cho tập X 6= ∅. Ánh xạ sim : I F(X)× I F(X) → [0, 1]

cho tương ứng hai tập mờ trực cảm trên X với một số thực, được gọi là một độ tương tự mờ trực cảm nếu như:

1. Đối xứng:sim(A,B) = sim(B,A), với mọi A,B ∈ I F (X); 2. Phản xạ:sim(A,B) = 1⇔ A = B, với mọi A,B ∈ I F (X);

3. Đơn điệu: nếu A ⊂ B ⊂ C thì sim(A,B) ≥ sim(A,C) và sim(B,C) ≥

sim(A,C), với mọi A,B,C ∈ I F (X).

Giả sử |X| = n. Với mỗi A ∈ I F (X), ký hiệu µiA và νiA theo thứ tự là độ thuộc và độ không thuộc của phần tử thứ i trong X vào A (i = 1, . . . ,n). Có rất nhiều độ tương tự cho tập mờ trực cảm. XétA,B ∈ I F, sau đây là một số độ do Baccour [4] liệt kê lại:

1. sim1(A,B) = 1n ∑n

i=1

min(µiA,µiB)+min(νiA,νiB) max(µi

A,µiB)+max(νi

A,νiB), với quy ước 00 = 1;

2. sim2(A,B) = n ∑ i=1(min(µi A,µiB)+min(νi A,νBi)) n ∑ i=1(max(µi A,µiB)+max(νi

A,νBi)), với quy ước 00 = 1;

3. sim3 =1− 12 maxiµiA−µiB +maxiνiA−νBi ; 4. sim4(A,B) = 1− n ∑ i=1(|µi A−µi B|+|νi A−νi B|) n ∑ i=1(µi

5. sim5(A,B) = 1− 1−exp −12 ∑n i=1(|µiA−µi B|+|νiA−νi B|) 1−exp(−n) ; 6. sim6(A,B) = 1− 1−exp −1 2 n ∑ i=1 q µiA−√ µiB + q νiA−√ νBi 1−exp(−n) .

Độ tương tự mờ trực cảm có thể ứng dụng trong nhiều bài toán như ra quyết định [60], chẩn đoán y khoa [42] và nhận dạng mẫu [29, 31].

Gộp dựa trên thứ tự giữa các từ

Gộp dựa trên chỉ số của các từ