Bài toán cân bằng dữ liệu - CẬP NHẬT TẬP XẤP XỈ TR- 123docz.net

Chương 3 CẬP NHẬT TẬP XẤP XỈ TRONG KHÔNG GIAN XẤP XỈ PHỦ ĐỘNG

4.1 Bài toán cân bằng dữ liệu

Như đã trình bày ở Chương 1, dữ liệu không cân bằng là một nguyên nhân gây ra vấn đề không nhất quán là dữ liệu mất cân bằng [54]. Một tập dữ liệu bị mất cân bằng khi số lượng đối tượng trong một số lớp lớn hơn nhiều so với các lớp khác. Các lớp như vậy được gọi là lớp đa số. Các lớp có số lượng thành viên nhỏ hơn được gọi là các lớp thiểu số.

Để giảm độ mất cân bằng của dữ liệu, Caballero và các cộng sự [12] đã tính toác các xấp xỉ và miền dương của mỗi lớp trong tập huấn luyện. Các đối tượng dùng trong giai đoạn huấn luyện sau đó được chọn theo hai cách. Cách thứ nhất, họ cố gắng xóa các đối tượng thuộc miền biên. Cách thứ hai là sử dụng thuật toán lân cận gần nhất (nearest neighbourhood algorithm) để dán nhãn lại các đối tượng trong miền biên. Tuy nhiên, các phương pháp này chỉ phù hợp với các bảng quyết định có tập thuộc tính rõ ràng.

Trên thực tế, đã có nhiều nghiên cứu sử dụng những ưu điểm của tập thô để nâng cao hiệu suất phân loại khi cân bằng các tập đa số và thiểu số [18], [44], [70], [71], [83]. Jensen và Cornelis đã đề xuất thuật toán trích chọn đối tượng thô mờ gọi là thuật toán FRIS. Ý tưởng của phương pháp này là sử dụng tư cách thành viên của các đối tượng trong miền dương để xác định xem giữ lại đối tượng nào và loại bỏ những đối tượng nào. Việc lựa chọn này dựa trên việc xem xét mối quan hệ giữa các đối tượng sau đó đo lường các đối tượng đó và so sánh với một ngưỡng cho trước để giữ lại các đối tượng chất lượng của miền dương. Phương pháp này chỉ sử dụng một ngưỡng chung cho

tất cả các lớp nên có thể một số đối tượng có chất lượng có thể cũng bị loại bỏ.

Có hai cách tiếp cận chính sử dụng tập thô mờ để đối phó với dữ liệu không cân bằng. Hướng đầu tiên là sự kết hợp của các phương pháp cân bằng và kỹ thuật loại bỏ nhiễu dựa trên tập thô. Phương pháp này được thực hiện qua ba bước :

Bước 1 : Các tập thô mờ trước tiên được sử dụng để tính toán chất lượng của từng đối tượng, sau đó loại bỏ các đối tượng chất lượng thấp, giữ lại các đối tượng đảm bảo chất lượng.

Bước 2 : Sử dụng kỹ thuật cân bằng Synthetic Minority Oversampling Technique (SMOTE) để tạo nên một tập ứng cử viên từ các đối tượng được giữ lại ở bước 1[18].

Bước 3 : Các tập thô mờ được sử dụng lại để chọn các đối tượng chất lượng từ các tập ứng cử viên.

Thuật toán này được kí hiệu là FRPSS. Do phải thực hiện ba bước để chọn đối tượng nên phương pháp này đòi hỏi tốn nhiều thời gian hơn so với các phương pháp khác.

Hướng tiếp cận thứ hai là sử dụng các tiêu chí khác nhau để xác định các ngưỡng khác nhau cho các lớp đa số và thiểu số. Sử dụng ngưỡng nhỏ cho lớp thiểu số để chọn được nhiều đối tượng hơn từ các lớp này [80]. Ưu điểm của hướng tiếp cận này là bằng cách sử dụng nhiều ngưỡng khác nhau nên giúp giữ được nhiều đối tượng chất lượng hơn ở các lớp thiểu số.

Trong mục này luận án trình bày các khảo sát về hàm thành viên giữa các đối tượng trên tập thuộc tính, hàm đo lường chất lượng của một đối tượng trong mỗi lớp và thuật toán chọn đối tượng để cân bằng dữ liệu theo hướng tiếp cận thứ hai [80], làm cơ sở để đánh giá những ưu và nhược điểm của phương pháp này. Từ đó đề xuất những thuật toán cải tiến để đạt hiệu quả cân bằng dữ liệu tốt hơn.

4.1.1 Hàm đo lường chất lượng

Định nghĩa 4.1.[80] Cho bảng quyết định 𝐼 = (𝑈, 𝐴 ∪ {𝑑}), ℛ (𝑥, 𝑦) và 𝜇ℛ (𝑥, 𝑦) lần lượt là quan hệ mờ và hàm thành viên giữa các đối tượng 𝑥, 𝑦 ∈ 𝑈 trên thuộc tính 𝑎 ∈ 𝐴. Hàm thành viên của quan hệ ℛ trên một tập thuộc tính 𝑃 ⊆ 𝐴 được định nghĩa như sau:

𝜇ℛ (𝑥, 𝑦) = 𝒯 𝜇ℛ (𝑥, 𝑦) (4.1) Trong đó 𝒯 là một 𝑇 −norm.

Trong thực tế, có nhiều cách để tính hàm thành viên của một quan hệ mờ giữa hai đối tượng. Cũng có thể sử dụng đối tượng dựa trên sự tương tự như chuẩn của khoảng cách Euclide. Việc sử dụng cách nào phụ thuộc vào đặc điểm của từng hệ thống.

Định nghĩa 4.2. [80] Cho 𝒳 là một tập mờ trong 𝑋 và 𝛼 ∈ [0; 1]. Hàm đo lường chất lượng của một đối tượng đối với lớp 𝑋 theo quan hệ ℛ được định nghĩa như sau:

𝜇𝒳ℛ(𝑥) = 𝛼𝜇 ℛ𝒳(𝑥) + (1 − 𝛼)𝜇

ℛ𝒳(𝑥) (4.2) Trong đó 𝛼 ∈ [0; 1] và 𝒳 là một tập mờ trong 𝑋.

Trong công thức trên, lưu ý rằng 𝑥 có thể thuộc hoặc không thuộc 𝑋.

Định nghĩa 4.3. [80] Giả sử 𝑋 và 𝑌 là hai lớp trong tập dữ liệu mất cân bằng. 𝑋 là lớp thiểu số và 𝑌 là lớp đa số; và 𝑡 và 𝑡 là các ngưỡng trích chọn cho lớp thiểu số và lớp đa số. Gọi 𝒳 và 𝒴 lần lượt là các tập mờ trên lớp thiểu số 𝑋 và lớp đa số 𝑌. ℛ là quan hệ mờ trên tập vũ trụ. Tập hợp các đối tượng được chọn cho giai đoạn huấn luyện được định nghĩa như sau:

𝑆 = 𝑥 ∈ 𝑋 𝜇𝒳ℛ(𝑥) ≥ 𝑡 ∪ 𝑥 ∈ 𝑌 𝜇𝒴ℛ(𝑥) ≥ 𝑡 (4.3) 4.1.2 Thuật toán MFRIS1

Ý tưởng chính của thuật toán là dùng hàm đo lường được cho trong công thức (4.2) để đo lường tất cả các đối tượng trong lớp đa số và lớp thiểu số. So sánh với các ngưỡng của mỗi lớp và chọn các đối tượng cho tập huấn luyện [80].

Thuật toán được thể hiện như sau:

Thuật toán 4.1. MFRIS1: Thuật toán thứ nhất: Chọn hoặc loại bỏ các đối tượng cho cả các lớp đa số và thiểu số

Dữ liệu 𝑋, 𝑌 là các lớp thiểu số và đa số

𝑡 , 𝑡 là các ngưỡng lựa chọn của lớp thiểu số và đa số Kết quả Bảng quyết định 𝑆 = (𝑈, 𝐴 ∪ {𝑑})

Tính mức độ thành viên của mối quan hệ giữa các đối tượng: 𝜇ℛ(𝑥, 𝑦);

Tính toán mức độ thành viên gần đúng cho mỗi lớp;

Tính toán đo lường chất lượng của tất cả các đối tượng đối với các lớp đa số và thiểu số

𝑆 ← ∅

For 𝑥 ∈ 𝑋 do

If 𝜇𝒳ℛ(𝑥) ≥ 𝑡 then 𝑆 ← 𝑆 ∪ {𝑥}

End if End for For 𝑥 ∈ 𝑌 do

If 𝜇𝒴ℛ(𝑥) ≥ 𝑡 then 𝑆 ← 𝑆 ∪ {𝑥}

End if End for

Trong thuật toán này, tùy thuộc vào nhãn của các đối tượng, phép đo chất lượng của mọi đối tượng trên các lớp của chúng sẽ được so sánh với các ngưỡng đối của lớp thiểu số hoặc đa số. Điều này có nghĩa là một đối tượng sẽ bị xóa khỏi tập huấn luyện nếu nó có chất lượng thấp ngay cả khi nó thuộc các lớp thiểu số. Nếu muốn giữ nhiều đối tượng ở các lớp thiểu số hơn thì có thể đưa ra nhiều ngưỡng khác nhau.

4.1.3 Thuật toán MFRIS2

Ngoài ra, luận án cũng trình bày thuật toán thứ hai để chọn các đối tượng được đề xuất trong [80]. Ý tưởng của thuật toán này là giữ tất cả các đối tượng trong các lớp thiểu số trong khi loại bỏ hoặc dán nhãn lại một số đối tượng trong các lớp đa số. Như vậy, một số đối tượng trong lớp đa số sẽ được chuyển sang lớp thiểu số, điều này sẽ làm giảm sự mất cân bằng của dữ liệu.

Gọi 𝑋, 𝑌 là họ các lớp thiểu số và đa số tương ứng. Đặt 𝒳 , 𝒴 là các tập mờ tương ứng trên 𝑋 , 𝑌. Ngưỡng của các lớp thiểu số và đa số là 𝑡 và 𝑡 . Tập hợp các đối tượng mà nhãn có thể được thay đổi được định nghĩa như sau:

𝑆 → = ⋃ 𝑥 ∈ 𝑌 𝜇𝒴ℛ(𝑥) < 𝑡 ∧ sup 𝜇𝒳ℛ(𝑥) − 𝑡 ≥ 0 (4.4) Từ định nghĩa trên, có một số đối tượng được dán nhãn trong các lớp đa số có thể được thay đổi thành nhãn trong lớp thiểu số. Tập các lớp thiểu số khả dĩ được định nghĩa như sau:

𝑍(𝑥) = ⋃ 𝑋 𝜇𝒳ℛ(𝑥) ≥ 𝑡 , 𝑥 ∈ 𝑆 → (4.5) Tiếp theo, tính toán lại lớp các hàm thành viên của các đối tượng 𝑥 ∈ 𝑆 → ∩ 𝑌 là 𝜇𝒳 (𝑥) = 𝜇𝒴 (𝑥); 𝜇𝒴 (𝑥) = 0 với 𝑚 thỏa mãn 𝑋 ∈ 𝑍(𝑥); 𝜇𝒳 (𝑥) ≥ 𝜇𝒳(𝑥), ∀𝑖, 𝑋 ∈ 𝑍(𝑥).

Cuối cùng, các trường hợp được chọn cho giai đoạn huấn luyện có thể được định nghĩa là:

𝑆 = (⋃ 𝑋 ) ⋃ ⋃ 𝑥 ∈ 𝑌 𝜇𝒴ℛ (𝑥) ≥ 𝑡 ⋃ 𝑆 → (4.6) Thuật toán MFRIS2 được mô tả như sau:

Thuật toán 4.2. MFRIS2: Thuật toán thứ hai: Chọn, loại bỏ, hoặc dán nhãn lại các đối tượng cho lớp đa số

Dữ liệu 𝑋, 𝑌 là các lớp thiểu số và đa số

𝑡 , 𝑡 là các ngưỡng lựa chọn của lớp thiểu số và đa số Kết quả Bảng quyết định 𝑆 = (𝑈, 𝐴 ∪ {𝑑})

Tính mức độ thành viên của mối quan hệ giữa các đối tượng: 𝜇ℛ(𝑥, 𝑦);

Tính toán mức độ thành viên gần đúng cho mỗi lớp;

Tính toán đo lường chất lượng của tất cả các đối tượng trong lớp đa số 𝑆 ← ∅

𝑆 → ← ∅ For 𝑥 ∈ 𝑌 do

If 𝜇𝒴ℛ(𝑥) ≥ 𝑡 then 𝑆 ← 𝑆 ∪ {𝑥}

Else

if 𝜇𝒳ℛ(𝑥) ≥ 𝑡 then 𝜇𝒳ℛ(𝑥) ← 𝜇𝒴ℛ(𝑥) 𝜇𝒴ℛ(𝑥) ← 0

𝑆 → ← 𝑆 → ∪ {𝑥}

End if End if End for

𝑆 ← 𝑆 ∪ 𝑆 ∪ 𝑆 → 4.1.4 Nhận xét

Qua hai thuật toán trên ta nhận thấy, thuật toán MFRIS1 dùng hàm đo lường để đo chất lượng của các đối tượng trên tất cả các lớp đa số và thiểu số để loại những đối tượng chất lượng thấp hơn so với ngưỡng đưa ra. Tuy nhiên, thuật toán này chưa tối ưu trong việc cân bằng dữ liệu bởi vì một đối tượng thuộc lớp thiểu số vẫn bị loại bỏ nếu như chất lượng của nó thấp hơn ngưỡng đưa ra.

Đối với thuật toán MFRIS2, ta thấy thuật toán hoạt động tốt trong dữ liệu mất cân bằng cao, bởi vì đã giữ lại các đối tượng trong lớp thiểu số và chỉ đo lường các đối tượng trong các lớp đa số. Tuy nhiên, nếu chất lượng của đối tượng ban đầu trong các lớp dương thấp, thì có thể dẫn đến hiệu suất thấp.

Ngoài ra, trong các nghiên cứu trước đây, các phương pháp chủ yếu cải thiện hiệu suất phân loại bằng cách thay đổi ngưỡng cho các lớp thiểu số và đa số. Khi đó, phải chọn các ngưỡng cho mỗi tập dữ liệu theo cách thủ công.

Hơn nữa, trong một số trường hợp, chất lượng của các đối tượng trong các lớp không thể phân biệt được, do đó không thể làm sạch các tập dữ liệu. Hình 4.1, hàng thứ hai cho thấy một ví dụ về biểu đồ của các lớp xấp xỉ âm với độ phân tán thấp của tập dữ liệu. Tất cả các đối tượng trong lớp âm đều có cùng độ thành viên xấp xỉ trung bình là 0,8. Do đó, trong khi tối ưu hóa các ngưỡng, sẽ cố gắng phân bổ các giá trị thành viên nếu các vấn đề như vậy xảy ra.

Hình 4. 1. Biểu đồ hiển thị phân phối của các xấp xỉ và xấp xỉ trung bình của tập dữ liệu

Bởi vì các đối tượng được chọn hay loại bỏ dựa trên việc so sánh mức

độ chất lượng với các ngưỡng. Do đó, có thể sử dụng chất lượng của các đối tượng làm ứng cử viên ngưỡng [80]. Sau đó, sử dụng chiến lược loại bỏ dần để kiểm tra và tính toán độ chính xác trên dữ liệu học tập. Tuy nhiên, điều này dẫn đến hàng nghìn lần huấn luyện và kiểm tra khi số lượng đối tượng lớn.

Xuất phát từ vấn đề này luận án cải tiến hai thuật toán MFRIS1, MFRIS2 và đề xuất thuật toán tối ưu hóa các ngưỡng.