KHÁI QUÁT VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG
Các khái niệm cơ bản của lý thuyết tập thô
Một tập dữ liệu có thể được biểu diễn dưới dạng bảng, trong đó mỗi hàng đại diện cho một đối tượng, trường hợp hoặc sự kiện, và mỗi cột thể hiện một thuộc tính, tính chất hoặc số đo có thể đo được Theo lý thuyết tập thô, bảng dữ liệu này được gọi là hệ thông tin Hệ thông tin được định nghĩa là một bộ đôi 𝐼𝑆 = (𝑈, 𝐴), với 𝑈 là tập hợp hữu hạn, không rỗng các đối tượng, và 𝐴 là tập hợp hữu hạn, không rỗng các thuộc tính.
𝑎 ∈ 𝐴 là một ánh xạ 𝑎 ∶ 𝑈 → 𝑉 𝑎 , trong đó 𝑉 𝑎 ký hiệu miền giá trị của 𝑎
2.2.2 Quan hệ không phân biệt được và các xấp xỉ của một tập hợp Định nghĩa 2.2 [8] Cho hệ thông tin là một bộ tứ 𝐼𝑆 = (𝑈, 𝐴) Mỗi tập con các thuộc tính 𝐵 ⊆ 𝐴 xác định một quan hệ, ký hiệu là 𝐼𝑁𝐷(𝐵), gọi là quan hệ không phân biệt được, như sau:
Nếu hai đối tượng (𝑢, 𝑣) ∈ 𝐼𝑁𝐷(𝐵) thì hai đối tượng này sẽ không phân biệt được bởi các thuộc tính thuộc tập 𝐵
Rõ ràng, quan hệ 𝐼𝑁𝐷(𝐵) là một quan hệ tương đương, phân chia tập hợp 𝑈 thành các lớp tương đương rời nhau Hai đối tượng thuộc cùng một lớp nếu chúng có giá trị giống nhau đối với 𝐵 Tập hợp 𝑈/𝐼𝑁𝐷(𝐵) (hay viết tắt là 𝑈/𝐵) đại diện cho tất cả các lớp tương đương của 𝐼𝑁𝐷(𝐵) Đối với mọi đối tượng 𝑥 ∈ 𝑈, ký hiệu [𝑥] 𝐵 biểu thị lớp tương đương của quan hệ 𝐼𝑁𝐷(𝐵) chứa phần tử 𝑥, và được gọi là lớp tương đương của 𝑥 trong quan hệ này.
𝑈, B-xấp xỉ dưới của 𝑋, ký hiệu là 𝐵(𝑋), và 𝐵-xấp xỉ trên của 𝑋, ký hiệu là 𝐵(𝑋), được định nghĩa tương ứng như sau:
Trong định nghĩa 𝐵𝑋 = {𝑢 ∈ 𝑈: [𝑢] 𝐵 ∩ 𝑋 ≠ ∅}, nếu đối tượng 𝑥 thuộc vào 𝐵𝑋, thì 𝑥 chắc chắn thuộc vào tập 𝑋 Ngược lại, nếu 𝑥 thuộc vào 𝐵𝑋, thì 𝑥 có thể thuộc vào tập 𝑋 Rõ ràng, ta có mối quan hệ 𝐵𝑋 ⊆ 𝑋 ⊆ 𝐵𝑋 Tập 𝑋 được gọi là định nghĩa được khi 𝐵𝑋 = 𝐵𝑋; nếu không, 𝑋 được xem là tập thô với B-biên.
Trong hệ thống thông tin 𝐼𝑆 = (𝑈, 𝐴), một tập thô 𝑋 có thể được xấp xỉ bằng 𝐵𝑋 và/hoặc 𝐵𝑋, với 𝐵 ⊆ 𝐴 và 𝑋 ⊆ 𝑈 Độ chính xác của việc xấp xỉ tập 𝑋 thông qua 𝐵 được định nghĩa rõ ràng, cho thấy mối liên hệ giữa các tập hợp trong hệ thống.
Trong suốt luận án này, |𝑋| ký hiệu số phần tử của tập 𝑋 Định nghĩa 2.5 [8] Cho hệ thông tin 𝐼𝑆 = (𝑈, 𝐴), 𝐵 ⊆ 𝐴 và 𝑋 ⊆ 𝑈 Độ thô (roughness) của 𝑋 đối với 𝐵 được định nghĩa là
Hiển nhiên, 0 ≤ 𝑅 𝐵 (𝑋) ≤ 1 Nếu 𝑅 𝐵 (𝑋) = 0, thì 𝐵𝑋 = 𝐵𝑋, 𝐵-biên của 𝑋 là tập rỗng, và 𝑋 là tập rõ đối với 𝐵 Nếu 𝑅 𝐵 (𝑋) < 1, thì 𝐵𝑋 ⊂ 𝐵𝑋, 𝐵-biên của 𝑋 là khác rỗng, và 𝑋 là tập thô đối với 𝐵
2.2.3 Bảng quyết định Định nghĩa 2.6 [8, 10] Bảng quyết định là một hệ thông tin dạng 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}), trong đó 𝑑 ∉ 𝐶 là một thuộc tính riêng biệt được gọi là thuộc tính quyết định Các thuộc tính trong 𝐶 được gọi là các thuộc tính điều kiện Định nghĩa 2.7 [8, 10] Cho 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) là một bảng quyết định và tập con thuộc tính điều kiện 𝐵 ⊆ 𝐶 Vùng dương của 𝑑 đối với 𝐵, ký hiệu là 𝑃𝑂𝑆 𝐵 (𝑑), được xác định như sau
Vùng dương 𝑃𝑂𝑆 𝐵 (𝑑) bao gồm các đối tượng có thể phân loại vào các lớp quyết định thông qua việc kiểm tra các thuộc tính trong 𝐵 Nếu 𝑃𝑂𝑆 𝐵 (𝑑) = 𝑈, bảng quyết định 𝐷𝑇 sẽ nhất quán; ngược lại, nếu không, bảng quyết định 𝐷𝑇 sẽ không nhất quán Theo Định nghĩa 2.8, trong bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}), thuộc tính 𝑐𝐶 được coi là không cần thiết nếu không ảnh hưởng đến tính nhất quán của bảng quyết định.
Trong lý thuyết quyết định, một thuộc tính \(c\) được coi là cần thiết nếu nó không thể bị loại bỏ mà không làm mất khả năng phân lớp đúng các đối tượng Bảng quyết định \(D_T = (U, C \cup \{d\})\) được xem là độc lập khi mọi thuộc tính \(c \in C\) đều cần thiết, và tập hợp tất cả các thuộc tính cần thiết được gọi là tập lõi, ký hiệu là \(Core(C)\) Hơn nữa, một tập hợp các thuộc tính \(R \subseteq A\) được gọi là một rút gọn của bảng quyết định \(D_T\) nếu nó là tập con tối thiểu mà vẫn thỏa mãn điều kiện \(POS_R(d) = POS_C(d)\), tức là nó có khả năng phân lớp đúng các đối tượng trong \(U\) như toàn bộ tập thuộc tính \(C\).
Có nhiều tập rút gọn của 𝐶, và tập hợp tất cả các tập rút gọn của bảng quyết định DT được ký hiệu là 𝑅𝑒𝑑(𝐶) Một thuộc tính được coi là cần thiết khi nó xuất hiện trong mọi tập rút gọn của 𝐶, điều này được thể hiện rõ trong mệnh đề sau.
Mệnh đề 2.1 [8, 10] Cho bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) Ta có:
(2.8) Định nghĩa 2.11 [8, 10] Cho bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) Với tập con 𝐵 ⊆
𝐶, độ phụ thuộc 𝛾 𝐵 (𝑑) của 𝑑 vào 𝐵 được định nghĩa như sau:
Rõ ràng, 0 ≤ 𝛾 𝐵 (𝑑) ≤ 1 Nếu 𝛾 𝐵 (𝑑) = 1, thì ta nói rằng 𝑑 phụ thuộc hoàn toàn vào
𝐵, còn nếu 0 < 𝛾 𝐵 (𝑑) < 1, thì 𝑑 phụ thuộc vào 𝐵 với mức độ 𝛾 𝐵 (𝑑) Khi 𝛾 𝐵 (𝑑) = 0, ta nói rằng 𝑑 không phụ thuộc vào 𝐵
2.2.4 Các khái niệm lý thuyết thông tin liên quan
Hệ thống thông tin 𝐼𝑆 = (𝑈, 𝐴) bao gồm các thuộc tính 𝑎 ∈ 𝐴, trong đó 𝐼𝑆 có thể được coi là một quần thể thống kê và 𝑎 là một biến ngẫu nhiên rời rạc.
𝑉 𝑎 = {𝑥 1 , 𝑥 2 , … , 𝑥 𝑚 }, 𝑈/𝐼𝑁𝐷(𝑎) = {𝑋 1 , 𝑋 2 , … , 𝑋 𝑚 } Khi đó, phân phối xác suất của 𝑎 có thể được xác định bởi:
Xác suất của biến rời rạc 𝑎 có giá trị 𝑥𝑖 được tính bằng công thức 𝑃(𝑎 = 𝑥𝑖) = 𝑃(𝑥𝑖) = |𝑋𝑖| / |𝑈|, với 𝑖 = 1, … , 𝑚 Các phân phối xác suất khác cũng có thể được xác định tương tự, trong đó 𝑃(𝑎, 𝑏) biểu thị phân phối xác suất chung của 𝑎 và 𝑏, trong khi 𝑃(𝑎|𝑏) là phân phối xác suất có điều kiện của 𝑎 khi biết 𝑏.
𝑎 cho trước 𝑏 Giả sử 𝑈 𝐼𝑁𝐷(𝑎)⁄ = {{𝑋 1 , 𝑋 2 , … , 𝑋 𝑚 }} và 𝑈 𝐼𝑁𝐷(𝑏)⁄ = {{𝑌 1 , 𝑌 2 , … , 𝑌 𝑛 }}, khi đó
𝑖 = 1, … , 𝑚, 𝑗 = 1, … , 𝑛 Định nghĩa 2.12 [26] Cho hệ thông tin 𝐼𝑆 = (𝑈, 𝐴) và thuộc tính 𝑎 ∈ 𝐴 Shannon entropy (gọi tắt là entropy) của 𝑎 là một đại lượng 𝐻(𝑎) xác định theo công thức sau:
Entropy 𝐻(𝑎) là thước đo mức độ hỗn loạn trong vectơ cột liên kết với thuộc tính 𝑎, với giá trị nhỏ nhất là 0 khi các thành phần trong vectơ giống nhau và giá trị lớn nhất là 𝑙𝑜𝑔 2 |𝑉 𝑎 | khi tất cả các thành phần khác nhau Mức độ hỗn loạn tăng lên khi giá trị entropy cao hơn Khái niệm entropy có thể được áp dụng cho cả hai và nhiều thuộc tính trong hệ thông tin 𝐼𝑆 = (𝑈, 𝐴) với các thuộc tính 𝑎, 𝑏 ∈ 𝐴.
Entropy đồng thời của 𝑎 và 𝑏 là một đại lượng 𝐻(𝑎, 𝑏) xác định theo công thức sau:
Entropy 𝐻(𝑎, 𝑏) biểu thị mức độ không chắc chắn của hai thuộc tính 𝑎 và 𝑏 Định nghĩa 2.14 [26] Cho hệ thông tin 𝐼𝑆 = (𝑈, 𝐴) và hai thuộc tính 𝑎, 𝑏 ∈ 𝐴
Entropy có điều kiện của 𝑎 khi đã biết 𝑏 là đại lượng 𝐻(𝑎|𝑏) xác định bởi:
H(a|b) xác định mức độ entropy, hay độ không chắc chắn, còn lại của thuộc tính a khi giá trị của thuộc tính b đã được biết Sử dụng các công thức (2.11), (2.12) và (2.13), chúng ta có thể tính toán được lượng thông tin này.
𝐻(𝑎|𝑏) = 𝐻(𝑎, 𝑏) − 𝐻(𝑏) (2.14) Định nghĩa 2.15 [26] Cho hệ thông tin 𝐼𝑆 = (𝑈, 𝐴) và hai thuộc tính 𝑎, 𝑏 ∈ 𝐴 Thông tin tương hỗ giữa hai thuộc tính 𝑎 và 𝑏 được định nghĩa:
Thông tin tin tương hỗ 𝐼(𝑎; 𝑏) là một hàm không âm và đối xứng, với 𝐼(𝑎; 𝑏) ≥ 0 và 𝐼(𝑎; 𝑏) = 𝐼(𝑏; 𝑎) Nó đại diện cho lượng thông tin mà 𝑎 và 𝑏 chia sẻ, cho thấy thông tin về thuộc tính này có thể giảm độ không chắc chắn của thuộc tính kia bao nhiêu Thông tin tin tương hỗ giữa 𝑎 và 𝑏 còn được gọi là thông tin bổ sung về 𝑎 khi biết 𝑏 Trong hệ thông tin 𝐼𝑆 = (𝑈, 𝐴) với hai thuộc tính 𝑎, 𝑏 ∈ 𝐴, biến thể thông tin chuẩn hóa 𝑁𝑉𝐼(𝑎, 𝑏) được xác định theo cách cụ thể.
𝐻(𝑎, 𝑏) (2.16) Định lý 2.1 [27] 𝑁𝑉𝐼(𝑎, 𝑏) là một metric trên không gian của các thuộc tính, nghĩa là đối với mọi 𝑎, 𝑏, 𝑐 ∈ 𝐴, ta đều có:
(i) 𝑁𝑉𝐼(𝑎, 𝑏) ≥ 0 và đẳng thức xảy ra khi và chỉ khi 𝑎 = 𝑏,
(iii) 𝑁𝑉𝐼(𝑎, 𝑏) + 𝑁𝑉𝐼(𝑏, 𝑐) ≥ 𝑁𝑉𝐼(𝑎, 𝑐) Để chứng minh NVI là một metric, trước hết ta chứng minh bất đẳng thức sau
𝐻(𝑎|𝑏) ≤ 𝐻(𝑎|𝑐) + 𝐻(𝑐|𝑏) (2.17) trong đó 𝑎, 𝑏 và 𝑐 là 3 thuộc tính bất kỳ
Thật vậy, ta có 𝐻(𝑎|𝑐) ≤ 𝐻(𝑎, 𝑐|𝑏) = 𝐻(𝑎|𝑐, 𝑏) + 𝐻(𝑐|𝑏) ≤ 𝐻(𝑎|𝑐) + 𝐻(𝑐|𝑏) (bất đẳng thức cuối cùng đúng vì khi có thêm điều kiện luôn làm giảm entropy)
Để chứng minh rằng NVI là một metric, trước tiên cần nhận thấy rằng NVI(a, b) luôn lớn hơn hoặc bằng 0, với dấu bằng xảy ra khi a = b Hơn nữa, NVI(a, b) bằng NVI(b, a) Do đó, để hoàn tất chứng minh, chúng ta chỉ cần xác nhận rằng NVI thỏa mãn bất đẳng thức tam giác, tức là NVI(a, b) phải nhỏ hơn hoặc bằng NVI(a, b) cộng với NVI(c, a).
Sử dụng bất đẳng thức (2.17) và các phép tính đại số đơn giản ta có:
Hoán đổi 𝑎 và 𝑏 để thu được một bất đẳng thức tương tự khác:
Cộng (2.18) và (2.19) lại với nhau chúng ta được:
𝐻(𝑎, 𝑏) = 𝑁𝑉𝐼(𝑎, 𝑏) , bất đẳng thức (2.20) có nghĩa là:
Một số thuật toán hiệu quả của lý thuyết tập thô
Bài viết này giới thiệu các thuật toán hiệu quả cho việc xử lý bảng dữ liệu lớn, bao gồm các thuật toán tìm lớp tương đương, tập xấp xỉ trên, tập xấp xỉ dưới và miền dương.
Thuật toán 2.1 xác định lớp tương đương từ tập đối tượng 𝑈 và tập thuộc tính 𝐵 Đầu ra của thuật toán là tập các lớp tương đương 𝐿 trong 𝑈 dựa trên quan hệ 𝐼𝑁𝐷(𝐵), tương ứng với việc phân hoạch 𝑈 theo 𝐼𝑁𝐷(𝐵).
Ngược lại: Thực hiện bước 3
Nếu 𝑥 và 𝑦 không thể phân biệt được qua tập thuộc tính 𝐵 Thì : 𝑃 = 𝑃 ∪ {𝑦};
Thuật toán 2.2 Thuật toán xác định xấp xỉ dưới Đầu vào: Tập đối tượng 𝑈, tập thuộc tính 𝐵, tập các đối tượng 𝑋 Đầu ra: Tập các đối tượng 𝐵𝑋
Xác định phân hoạch 𝑃 của tập vũ trụ 𝑈 theo quan hệ 𝐼𝑁𝐷(𝐵) Bước 2: 𝑈 1 = 𝑈
Ngược lại: Thực hiện bước 5
Tìm lớp tương đương 𝑃 𝑖 ∈ P sao cho: 𝑥 ∈ 𝑃 𝑖
Thuật toán 2.3 Thuật toán xác định xấp xỉ trên Đầu vào: Tập đối tượng 𝑈, tập thuộc tính 𝐵, tập các đối tượng 𝑋 Đầu ra: Tập các đối tượng 𝐵̅𝑋
Xác định phân hoạch 𝑃 của tập vũ trụ 𝑈 theo quan hệ𝐼𝑁𝐷(𝐵)s
Ngược lại: Thực hiện bước 5
Tìm lớp tương đương 𝑃 𝑖 ∈ P sao cho: 𝑥 ∈ 𝑃 𝑖
Thuật toán 2.4 Thuật toán xác định miền dương Đầu vào: Hệ thông tin 𝑆 = (𝑈, 𝐴, 𝑉, 𝑓), 𝐴 = 𝐶 ∪ 𝐷 Đầu ra: Tập các đối tượng 𝑃𝑂𝑆 𝐶 (𝐷)
Bước 1: Xác định các lớp tương đương 𝑋 1 𝐶 , 𝑋 2 𝐶 , … 𝑋 𝑚 𝐶 của quan hệ 𝐼𝑁𝐷(𝐶) Bước 2: 𝑃𝑂𝑆 𝐶 (𝐷) = ∅
Nếu: mọi đối tượng trong 𝑋 𝑖 𝐶 bằng nhau tại tất cả các thuộc tính trong 𝐷
Các thuật toán này có độ phức tạp thời gian là 𝑂(𝑘𝑛𝑙𝑜𝑔𝑛) và độ phức tạp không gian là 𝑂(𝑛), trong đó 𝑛 đại diện cho số đối tượng trong tập 𝑈 và 𝑘 là số thuộc tính trong tập 𝐴.
Ứng dụng của lý thuyết tập thô trong khám phá tri thức từ cơ sở dữ liệu
Lý thuyết tập thô có nhiều ứng dụng trong quá trình khám phá tri thức từ dữ liệu, giúp cải thiện hiệu quả phân tích và xử lý thông tin Dưới đây là một số ứng dụng cụ thể của lý thuyết này trong việc khai thác tri thức từ cơ sở dữ liệu.
Tiền xử lý dữ liệu là bước quan trọng trong phân tích, trong đó lý thuyết tập thô được áp dụng để rút gọn và làm sạch dữ liệu Lý thuyết này giúp giải quyết hiệu quả các vấn đề liên quan đến chất lượng dữ liệu, từ đó tạo nền tảng vững chắc cho các phân tích tiếp theo.
- Xử lý các giá trị thiếu
Rời rạc hóa dữ liệu là một phương pháp quan trọng trong lý thuyết tập thô, cho phép chúng ta tạo ra các phép rời rạc hóa dữ liệu mà vẫn bảo toàn các lớp quyết định trong bảng quyết định.
Trong lý thuyết tập thô, việc lựa chọn thuộc tính trong khai phá dữ liệu được chuyển thành bài toán tìm tập thuộc tính rút gọn Các công cụ bao gồm quan hệ không phân biệt giữa các cá thể và các thuật toán tìm tập rút gọn giúp xác định tập thuộc tính nhỏ nhất, loại bỏ những thuộc tính dư thừa và không cần thiết Dựa trên tập thuộc tính rút gọn này, người ta có thể phát hiện các quy luật chung hoặc mẫu biểu diễn dữ liệu.
(2) Khai phá dữ liệu Trong công đoạn khai phá dữ liệu, lý thuyết tập thô có thể được sử dụng giải quyết các vấn đề sau [9, 10, 11, 13, 28]:
Phân lớp dữ liệu là mục tiêu chính của lý thuyết tập thô, hiện nay các công cụ tập thô đã có khả năng giải quyết vấn đề phân lớp trong cả hai trường hợp: bảng thông tin nhất quán và không nhất quán.
Gom cụm dữ liệu là một lĩnh vực nghiên cứu quan trọng, không chỉ giúp giải quyết hiệu quả bài toán phân lớp mà còn được cải tiến thông qua việc ứng dụng lý thuyết tập thô Gần đây, nhiều nghiên cứu đã chỉ ra sự tiềm năng của lý thuyết này trong việc nâng cao hiệu suất và độ chính xác của các phương pháp gom cụm.
Phát hiện luật kết hợp là quá trình quan trọng trong phân tích dữ liệu, trong đó phép phân tích sự phụ thuộc giữa các thuộc tính trong lý thuyết tập thô được áp dụng để xác định và lượng hóa mức độ kết hợp giữa các tập thuộc tính.
Lý thuyết tập thô là công cụ quan trọng trong việc khám phá tri thức từ cơ sở dữ liệu, nhưng vẫn còn tồn tại một số hạn chế trong kết quả nghiên cứu và ứng dụng Các hạn chế nổi bật của lý thuyết tập thô kinh điển bao gồm [9, 10, 11, 13].
- Dữ liệu khai phá phải là rời rạc, trong khi phần lớn các cơ sở dữ liệu thực tiễn thường chứa cả các thuộc tính liên tục
Dữ liệu khai phá cần phải đầy đủ và không bị nhiễu, trong khi thực tế, nhiều cơ sở dữ liệu thường gặp tình trạng thiếu hụt và chứa nhiều thông tin nhiễu.
- Tri thức khám phá được dựa trên lý thuyết tập thô thường nhạy cảm với sự biến động của dữ liệu
- Các thuật toán khai phá dữ liệu dựa vào lý thuyết tập thô thường có độ phức tạp cao
Lý thuyết tập thô đã được ứng dụng rộng rãi trong quá trình khám phá tri thức từ dữ liệu, trong đó rút gọn thuộc tính là một ứng dụng quan trọng Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để xác định tập con các thuộc tính cốt yếu trong cơ sở dữ liệu Đối với bảng quyết định, rút gọn thuộc tính nhằm tìm tập con nhỏ nhất của các thuộc tính điều kiện mà vẫn bảo toàn thông tin cần thiết cho phân lớp Nhiều phương pháp tính toán tập rút gọn đã được nghiên cứu, bao gồm phương pháp sử dụng ma trận phân biệt, phương pháp dựa trên miền dương, phương pháp sử dụng đại số quan hệ và phương pháp dựa trên entropy thông tin.
Gom cụm dữ liệu là một ứng dụng quan trọng trong lý thuyết tập thô trong khai phá dữ liệu Gần đây, việc sử dụng tập thô để phân loại gom cụm dữ liệu đã thu hút sự quan tâm đáng kể từ cộng đồng nghiên cứu trong lĩnh vực khai phá dữ liệu.
(1) Lý thuyết tập thô là công cụ phân tích hiệu quả dữ liệu phân loại;
Lý thuyết tập thô cho phép xử lý sự không chắc chắn của dữ liệu, điều này rất quan trọng trong các ứng dụng thực tế Mặc dù đã có nhiều thuật toán gom cụm dữ liệu phân loại được đề xuất trong những năm qua, nhưng chúng chưa được thiết kế để giải quyết sự không chắc chắn trong quá trình gom cụm Việc xử lý sự không chắc chắn này là cần thiết, vì trong nhiều trường hợp, ranh giới giữa các cụm không rõ ràng.
Kết luận chương 2
Chương 2 được chia thành ba phần chính: đầu tiên, khái quát lý thuyết về tập thô cùng các khái niệm liên quan; tiếp theo là quy trình khám phá tri thức từ cơ sở dữ liệu, sử dụng các kỹ thuật khai phá dữ liệu cơ bản; cuối cùng, phần ứng dụng của lý thuyết tập thô trong lĩnh vực khai phá dữ liệu.
Các khái niệm cơ bản trong chương này là nền tảng cho việc nghiên cứu và đề xuất các phương pháp mới nhằm tìm tập rút gọn trong bảng quyết định, cũng như gom cụm dữ liệu phân loại sử dụng tập thô, sẽ được trình bày trong các chương tiếp theo.
LỰA CHỌN THUỘC TÍNH SỬ DỤNG LÝ THUYẾT TẬP THÔ
Khái quát về bài toán lựa chọn thuộc tính
Lựa chọn thuộc tính trong khai phá dữ liệu có thể thực hiện qua các kỹ thuật thích hợp, tùy thuộc vào yêu cầu cụ thể của bài toán Các kỹ thuật này được chia thành hai loại chính: biến đổi thuộc tính và lựa chọn thuộc tính.
Biến đổi thuộc tính là quá trình chuyển đổi không gian thuộc tính ban đầu thành không gian thuộc tính mới với số chiều thấp hơn Các kỹ thuật này thường tạo ra tập thuộc tính mới không có ý nghĩa vật lý rõ ràng, gây khó khăn cho người sử dụng trong việc hiểu và áp dụng.
Lựa chọn thuộc tính là quá trình chọn lọc một tập hợp con thuộc tính từ tập ban đầu nhằm loại bỏ các thuộc tính không liên quan và dư thừa Mục tiêu của quá trình này là cải thiện chất lượng dữ liệu và giảm độ phức tạp về thời gian và không gian trong phân tích Tuy nhiên, việc tính toán tất cả các tập rút gọn hoặc tìm kiếm một tập rút gọn tối ưu với số thuộc tính nhỏ nhất là một bài toán NP-khó.
Trong thực tế, việc tìm kiếm tất cả các tập rút gọn thường không cần thiết; thay vào đó, chỉ cần xác định một tập rút gọn tốt nhất dựa trên tiêu chuẩn đánh giá cụ thể Vì lý do này, nhiều thuật toán heuristic đã được nghiên cứu và đề xuất nhằm tìm kiếm các tập rút gọn xấp xỉ hiệu quả.
Các thuật toán này giúp giảm thiểu đáng kể khối lượng tính toán, cho phép áp dụng hiệu quả đối với các bài toán có khối lượng dữ liệu lớn Bài viết dưới đây sẽ trình bày khái quát về các kỹ thuật này.
Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn bước cơ bản sau
(1) Tạo lập tập con để đánh giá
(3) Kiểm tra điều kiện dừng
Hiện nay, có hai phương pháp chính để lựa chọn thuộc tính: tiếp cận lọc (filter) và đóng gói (wrapper) Mỗi phương pháp này tập trung vào các khía cạnh khác nhau, một bên chú trọng vào việc rút gọn kích thước dữ liệu, trong khi bên còn lại nhằm nâng cao độ chính xác của mô hình.
Với phương pháp filter, các thuộc tính được lựa chọn dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu, được gọi là độ quan trọng của thuộc tính Đến nay, đã có nhiều phương pháp được đề xuất để đánh giá độ quan trọng của các thuộc tính này.
Cách tiếp cận wrapper khác biệt với phương pháp filter ở chỗ nó lựa chọn thuộc tính bằng cách sử dụng thuật khai phá dữ liệu Độ chính xác của kết quả khai phá sẽ được xem xét làm tiêu chuẩn để chọn các tập con thuộc tính phù hợp.
Cách tiếp cận filter mang lại lợi thế về thời gian tính toán nhanh, nhưng do không sử dụng thông tin nhãn lớp nên độ chính xác thường không cao Gần đây, nhiều nhà nghiên cứu đã đề xuất các phương pháp lựa chọn thuộc tính mới, trong đó có cách tiếp cận lai ghép nhằm kết hợp ưu điểm của cả filter và wrapper.
Có hai loại cách tiếp cận trong bài toán lựa chọn thuộc tính: có giám sát và không có giám sát Sự phân loại này phụ thuộc vào việc có sử dụng thông tin nhãn lớp của các đối tượng hay không.
Quy trình tạo lập các tập con thuộc tính là một bước quan trọng trong việc lựa chọn thuộc tính, bao gồm việc tìm kiếm liên tiếp để tạo ra các tập con phục vụ cho việc đánh giá và lựa chọn Quy trình này bao gồm việc xác định điểm xuất phát, hướng tìm kiếm và chiến lược tìm kiếm tập con Với 𝑛 thuộc tính trong tập dữ liệu ban đầu, tổng số tập con khác rỗng sẽ là 2^𝑛 − 1, cho thấy việc tìm kiếm tập con tối ưu theo một tiêu chuẩn nào đó là rất khó khăn, ngay cả khi 𝑛 không lớn Do đó, phương pháp hiệu quả nhất để tìm tập con thuộc tính tối ưu là tạo ra và so sánh các tập con một cách tuần tự.
Mỗi tập con được sinh ra từ một thủ tục sẽ được đánh giá theo tiêu chuẩn nhất định và so sánh với tập con tốt nhất trước đó Nếu tập con mới tốt hơn, nó sẽ thay thế tập cũ Quá trình tìm kiếm tập con thuộc tính tối ưu sẽ dừng lại khi một trong bốn điều kiện sau xảy ra.
- Đã thu được số thuộc tính quy định;
- Số bước lặp quy định cho quá trình lựa chọn đã hết;
- Việc thêm vào hay loại bớt một thuộc tính nào đó không cho một tập con tốt hơn;
- Đã thu được tập con tối ưu theo tiêu chuẩn đánh giá
Để xác định tập con tốt nhất, cần tiến hành các phép kiểm định nhằm so sánh kết quả khai phá với tập thuộc tính "tốt nhất" và tập thuộc tính ban đầu trên nhiều tập dữ liệu thực hoặc nhân tạo khác nhau.
Có hai phương pháp chính để tạo lập các tập con trong việc chọn lựa thuộc tính, đó là phương pháp bổ sung dần (Forward Generation) và phương pháp loại bỏ dần (Backward Generation).
Phương pháp bổ sung dần bắt đầu từ tập rỗng và thêm vào từng thuộc tính tốt nhất theo tiêu chuẩn đánh giá Quá trình này tiếp tục cho đến khi tất cả các thuộc tính của tập dữ liệu ban đầu được sử dụng hết hoặc khi tìm ra tập con tối ưu.
Các phương pháp lựa chọn thuộc tính sử dụng lý thuyết tập thô
Trong cộng đồng tập thô, thuật toán lựa chọn thuộc tính tập trung vào việc tìm kiếm các rút gọn (reducts) của tập thuộc tính, nhằm tối ưu hóa số lượng thuộc tính mà vẫn đảm bảo thông tin cần thiết cho khai phá dữ liệu Tuy nhiên, việc tìm kiếm tất cả các tập rút gọn là một thách thức lớn, vì với n thuộc tính, số lượng tập con lên tới 2^n - 1, dẫn đến sự gia tăng theo cấp số nhân khi n tăng Do đó, việc tìm kiếm tất cả các tập rút gọn chỉ khả thi khi n ở mức tương đối nhỏ.
Trong thực tiễn, việc tìm kiếm một tập rút gọn tốt nhất thường quan trọng hơn là tìm tất cả các tập rút gọn Do đó, nhiều thuật toán heuristic đã được phát triển để tìm ra các tập rút gọn xấp xỉ, giúp giảm khối lượng tính toán và áp dụng hiệu quả cho các tập dữ liệu lớn Những thuật toán này sử dụng các khái niệm từ lý thuyết tập thô để xác định tiêu chuẩn đánh giá mức độ cần thiết của các thuộc tính, từ đó các tiêu chí này trở thành các hàm heuristic hướng dẫn quá trình lựa chọn thuộc tính trong các thuật toán.
Các phương pháp heuristic thường sử dụng hai chiến lược chính để tìm kiếm tập rút gọn: bổ sung dần và loại bỏ dần Chiến lược bổ sung dần bắt đầu từ tập rỗng hoặc tập lõi Core, liên tục thêm một thuộc tính cho đến khi đạt được tập rút gọn Ngược lại, chiến lược loại bỏ dần bắt đầu từ tập hợp đầy đủ các thuộc tính và loại bỏ từng thuộc tính cho đến khi có được một rút gọn Đặc điểm của tập rút gọn cho thấy rằng các thuật toán áp dụng chiến lược loại bỏ dần luôn dẫn đến một tập rút gọn.
Bài viết này trình bày thuật toán kinh điển để tìm tất cả các tập rút gọn bằng cách sử dụng ma trận không phân biệt Ngoài ra, nó cũng đề cập đến một số thuật toán heuristic nhằm tìm tập rút gọn xấp xỉ cho bảng quyết định, bao gồm các phương pháp dựa trên hàm đo độ phụ thuộc, các phép toán trong đại số quan hệ và phương pháp sử dụng entropy thông tin Các thuật toán heuristic này có độ phức tạp tính toán theo thời gian là đa thức, cho phép áp dụng hiệu quả trên các bảng dữ liệu lớn.
3.3.1 Phương pháp lựa chọn thuộc tính sử dụng ma trận phân biệt
Phương pháp lựa chọn thuộc tính bằng ma trận phân biệt giúp xác định tất cả các tập rút gọn trong bảng quyết định với số lượng thuộc tính tương đối nhỏ.
Trong bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}), với 𝑈 = {𝑢 1 , 𝑢 2 , , 𝑢 𝑛 } là tập các đối tượng và 𝐶 = {𝑐 1 , 𝑐 2 , , 𝑐 𝑚 } là tập các thuộc tính điều kiện, thuộc tính điều kiện 𝑑 được thêm vào để tìm tất cả các tập rút gọn Theo Skowron [28], thuật toán tìm kiếm này dựa trên khái niệm ma trận phân biệt và hàm phân biệt Định nghĩa ma trận phân biệt 𝐷𝑇 là ma trận 𝑀(𝐷𝑇) có kích thước 𝑛 × 𝑛, trong đó các phần tử 𝑚 𝑖𝑗 được xác định theo cách cụ thể.
Ma trận 𝑀(𝐷𝑇) là một ma trận đối xứng, trong đó mỗi phần tử 𝑚 𝑖𝑗 biểu thị một tập hợp các thuộc tính điều kiện Tập hợp này cho phép phân biệt hai đối tượng 𝑢 𝑖 và 𝑢 𝑗 khi khoảng cách 𝑑(𝑢 𝑖 ) và 𝑑(𝑢 𝑗 ) không bằng nhau Ngược lại, nếu khoảng cách này bằng nhau, phần tử 𝑚 𝑖𝑗 sẽ là một tập rỗng.
Hàm phân biệt của 𝐷𝑇 là hàm 𝑓 𝐷𝑇 của các biến Bool 𝑐 1 ∗ , 𝑐 2 ∗ , , 𝑐 𝑚 ∗ cho tương ứng với các biến điều kiện 𝑐 1 , 𝑐 2 , , 𝑐 𝑚 trong 𝐷𝑇 và được xây dựng như sau [28]:
- Với mỗi 𝑢 𝑖 ∈ 𝑈, lập biểu thức 𝑓 𝐷𝑇 (𝑢 𝑖 ) = ⋀ 𝑖≠𝑗 ∨ 𝑚 𝑖𝑗 , trong đó
● ∨ 𝑚 𝑖𝑗 là biểu thức tuyển của tất cả các biến Bool ứng với các biến 𝑐 ∈ 𝑚 𝑖𝑗 , nếu
● ∨ 𝑚 𝑖𝑗 = 𝑓𝑎𝑙𝑠𝑒 nếu 𝑚 𝑖𝑗 = ∅ và 𝑑(𝑢 𝑖 ) ≠ 𝑑(𝑢 𝑗 ) (Trường hợp thứ ba này xảy ra đối với bảng quyết định không nhất quán)
- Khi đã có các biểu thức 𝑓 𝐷𝑇 (𝑢 𝑖 ), tính
(3.2) Để đơn giản hóa ký hiệu, người ta thường bỏ đi các dấu * chỉ các biến Bool
Mệnh đề 3.1 [28] Cho bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) với 𝑛 đối tượng và 𝑚 thuộc tính và có ma trận phân biệt 𝑀(𝐷𝑇) = (𝑚 𝑖𝑗 ) Khi đó:
2) Tập tất cả các tiền đề nguyên tố của hàm phân biệt 𝑓 𝐷𝑇 chính là tập tất cả các tập rút gọn của bảng quyết định 𝐷𝑇
Trên cơ sở khẳng định 2) của mệnh đề 3.1, quá trình tìm tất cả các tập rút gọn của một bảng quyết định bao gồm hai bước sau:
- Thiết lập ma trận phân biệt 𝑀(𝐷𝑇) = (𝑚 𝑖𝑗 ) theo công thức (3.1);
- Xây dựng hàm phân biệt theo công thức (3.2);
Using the absorption law of Boolean algebra, we can transform a function from Conjunctive Normal Form (CNF) to Disjunctive Normal Form (DNF) This process involves applying specific rules to simplify and restructure logical expressions for enhanced clarity and efficiency.
Mỗi đơn thức trong dạng tuyển chuẩn tắc sẽ trở thành một tiền đề nguyên tố của 𝑓 𝐷𝑇, từ đó tạo thành một tập rút gọn cho bảng quyết định 𝐷𝑇.
Khi 𝑚 cố định, việc tìm 𝐶𝑜𝑟𝑒(𝐷𝑇) có độ phức tạp thời gian là 𝑂(𝑛²) Đồng thời, bài toán xác định tất cả các tiền đề nguyên tố của 𝑓 𝐷𝑇 cũng là NP-khó, dẫn đến việc tìm tất cả các tập rút gọn và tìm tập rút gọn nhỏ nhất của một bảng quyết định cũng thuộc loại NP-khó.
Ví dụ 3.1 Xét bảng quyết định như trong Bảng 3.1
Bảng 3.1 Bảng quyết định ví dụ 3.1
Ma trận phân biệt của bảng này được trình bày trong Bảng 3.2 Đặc biệt, đây là một ma trận đối xứng, do đó chúng ta chỉ cần trình bày phần tam giác dưới của ma trận.
Bảng 3.2 Ma trận phân biệt của Bảng quyết định 3.1 u 1 u 2 u 3 u 4 u 5 u 6 u 1 u 2 {c} u 3 {c} u 4 {a, c} {a, c} u 5 {a, b} {a, b, c} u 6 {a, c} {c} {b, c}
Từ ma trận phân biệt Bảng 3.2, ta có:
Tính toán tương tự ta có
Suy ra hai tập rút gọn của bảng quyết định đã cho là: R 1 ={a,c} và R 2 ={b,c} Tập lõi là {c}
Việc tìm kiếm tất cả các tập rút gọn bằng phương pháp ma trận phân biệt rất tốn kém và không khả thi cho các tập dữ liệu lớn.
3.3.2 Phương pháp rút gọn thuộc tính dựa vào độ phụ thuộc
Phương pháp dựa vào độ phụ thuộc sử dụng hàm đo độ phụ thuộc do Pawlak định nghĩa để đánh giá mức độ ý nghĩa của các thuộc tính Phương pháp này còn được gọi là phương pháp dựa vào vùng dương, vì giá trị độ phụ thuộc hoàn toàn được xác định bởi vùng dương Cụ thể, trong bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}), với tập con 𝐵 ⊆, độ phụ thuộc được xác định thông qua các thuộc tính trong vùng dương.
𝐶, độ phụ thuộc 𝛾 𝐵 (𝑑) của 𝑑 vào 𝐵 được định nghĩa như sau:
(3.3) trong đó 𝑃𝑂𝑆 𝐵 (𝑑) là miền B-dương của d được xác định theo công thức 2.6 đã được trình bày trong chương 2
Rõ ràng, 0 ≤ 𝛾 𝐵 (𝑑) ≤ 1 Nếu 𝛾 𝐵 (𝑑) = 1, thì ta nói rằng 𝑑 phụ thuộc hoàn toàn vào
𝐵, còn nếu 0 < 𝛾 𝐵 (𝑑) < 1, thì 𝑑 phụ thuộc vào 𝐵 với mức độ 𝛾 𝐵 (𝑑) Khi 𝛾 𝐵 (𝑑) = 0, ta nói rằng 𝑑 không phụ thuộc vào 𝐵
Mệnh đề 3.2 [30] Cho bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) Khi đó:
1) Nếu 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) là nhất quán thì POS C (d) = U
Thuật toán QuickReduct thực hiện việc tính toán tập rút gọn mà không cần sinh ra tất cả các tập con ứng viên Nó áp dụng chiến lược tìm kiếm bổ sung dần, bắt đầu từ một tập rỗng và lần lượt thêm vào từng thuộc tính, nhằm tối đa hóa độ phụ thuộc cho đến khi đạt giá trị tối đa có thể Đối với bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}), với 𝐵 ⊆ 𝐶, mức ý nghĩa của mỗi thuộc tính 𝑎 ∈ 𝐵 đối với 𝐵 và d trong 𝐷𝑇 được đo bằng các chỉ số thích hợp.
𝑆𝐼𝐺(𝑎, 𝐵, 𝑑) là số đo mức biến động giá trị của hàm đo độ phụ thuộc 𝛾 𝐵 (𝑑) khi loại bỏ thuộc tính 𝑎 khỏi tập 𝐵
Thuật toán QuickReduct là một phương pháp tiêu biểu sử dụng độ phụ thuộc theo nghĩa Pawlak, nhằm tìm kiếm một tập rút gọn xấp xỉ thông qua chiến thuật bổ sung dần.
Thuật toán 3.1 Thuật toán QuickReduct Đầu vào: Bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) Đầu ra: Tập rút gọn 𝑅
(1) Tính độ phụ thuộc Pawlak: 𝛾 𝐶 (𝑑)
Đề xuất thuật toán rút gọn thuộc tính dựa vào gom cụm ACBRC
Bài viết này giới thiệu thuật toán ACBRC (Tính toán tập rút gọn dựa trên gom cụm thuộc tính) nhằm tìm tập rút gọn xấp xỉ trong bảng quyết định Thuật toán này tập trung vào việc gom cụm thuộc tính để tối ưu hóa quá trình rút gọn dữ liệu.
3.4.1 Ý tưởng và những định nghĩa cơ bản
Thuật toán ACBRC gồm ba giai đoạn chính: đầu tiên, loại bỏ các thuộc tính không liên quan; thứ hai, phân chia các thuộc tính có liên quan thành các cụm thích hợp bằng phương pháp gom cụm phân hoạch xung quanh medoids (PAM) kết hợp với biến thể thông tin chuẩn hóa; cuối cùng, chọn một thuộc tính đại diện từ mỗi cụm có độ liên quan cao nhất với thuộc tính quyết định Kết quả là một tập rút gọn xấp xỉ của các thuộc tính được lựa chọn.
3.4.2 Giới thiệu thuật toán k-medoids
Thuật toán k-medoids là một phương pháp gom cụm tương tự như k-means, nhằm phân chia tập dữ liệu thành 𝑘 cụm Mỗi cụm trong k-medoids được đại diện bởi một medoid, là đối tượng có khoảng cách trung bình nhỏ nhất đến các thành viên khác trong cụm, thể hiện vị trí trung tâm của cụm Khác với k-means, nơi tâm cụm được tính bằng véc tơ trung bình, k-medoids sử dụng medoid, giúp giảm thiểu ảnh hưởng của các giá trị ngoại lai Thuật toán này có thể hoạt động với bất kỳ ma trận khoảng cách nào, mang lại sự linh hoạt và chính xác hơn trong việc phân tích dữ liệu.
Thuật toán gom cụm phổ biến nhất theo cách tiếp cận k-medoids là thuật toán PAM (Phân vùng xung quanh Medoids) Thuật toán PAM thực hiện các bước sau để phân nhóm dữ liệu hiệu quả.
Thuật toán 3.5 Thuật toán PAM Đầu vào: Bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}), số lượng các cụm 𝑘 Đầu ra: 𝑘 cụm đối tượng
Bước 1: Chọn ngẫu nhiên k đối tượng làm k-medoids
Bước 2:Gán mọi đối tượng cho medoid gần nhất đối với nó
Bước 3: Tính tổng chi phí E cho cấu hình gom cụm thu được bằng cách sử dụng công thức:
Với 𝑥 là một đối tượng trong cụm 𝐶 𝑖 , 𝑚 𝑖 là medoid hiện tại của 𝐶 𝑖 và giá trị tuyệt đối |𝑥 − 𝑚 𝑖 | là khoảng cách giữa 𝑥 và 𝑚 𝑖
Bước 4: Đối với mỗi medoid 𝑚: Đối với mỗi điểm dữ liệu không phải là medoid 𝑥
Hoán đổi 𝑚 và 𝑥 và tính tổng chi phí 𝐸 ′ của cấu hình cụm thu được;
Bước 5: Nếu 𝐸 ′ < 𝐸, 𝑚 được thay bằng 𝑥;
Bước 6: Tiếp tục lặp lại các bước 4 và 5 cho đến khi không còn sự thay đổi nào ở các medoids Độ phức tạp của thuật toán PAM trong mỗi lần lặp (bước 3-4) là 𝑂(𝑘(𝑛 − 𝑘)²), trong đó 𝑛 đại diện cho số đối tượng trong tập dữ liệu và 𝑘 là số cụm Tổng độ phức tạp của thuật toán PAM là 𝑂(𝑛²𝑘²).
Phương pháp k-medoids có độ phức tạp cao hơn k-means, nhưng lại đảm bảo rằng các trung tâm của cụm là các đối tượng có trong dữ liệu, điều này rất quan trọng trong việc lựa chọn thuộc tính dựa vào gom cụm Việc tìm ra thuộc tính đại diện cho mỗi cụm là cần thiết, do đó, trong thuật toán lựa chọn thuộc tính bằng cách gom cụm, ACBRC đã đề xuất sử dụng phương pháp k-medoids.
Thuật toán PAM đã được tích hợp sẵn trong ngôn ngữ lập trình R, cho phép người dùng tính toán bằng cách sử dụng hàm pam() trong gói “cluster” Để áp dụng thuật toán này, người dùng cần chỉ định số cụm k Tuy nhiên, R còn cung cấp phiên bản nâng cao của hàm pam() là pamk() trong gói “fpc”, không yêu cầu người dùng xác định số cụm k Thay vào đó, pamk() thực hiện việc gom cụm dựa trên phương pháp phân vùng quanh các medoids, với số lượng cụm được ước tính thông qua “chiều rộng hình bóng trung bình tối ưu” (optimum average silhouette width).
Cách tiếp cận hình bóng trung bình (average silhouette) đánh giá chất lượng của phép gom cụm dựa trên mức độ phù hợp của từng đối tượng trong cụm Chiều rộng hình bóng trung bình càng cao cho thấy kết quả gom cụm càng tốt Phương pháp này tính toán hình bóng trung bình cho các kết quả gom cụm với số cụm k khác nhau, và số cụm tối ưu k là số cụm tối đa hóa hình bóng trung bình trong phạm vi có thể.
3.4.3 Thuật toán rút gọn thuộc tính dựa vào gom cụm ACBRC
Trong bảng quyết định, các thuộc tính không liên quan và thừa không chỉ không cải thiện độ chính xác của dự đoán mà còn có thể gây ảnh hưởng tiêu cực đến thuật toán phân lớp Do đó, việc rút gọn thuộc tính để loại bỏ các thuộc tính không cần thiết là rất quan trọng Một tập con thuộc tính tốt cần phải bao gồm các thuộc tính tương đồng với thuộc tính quyết định nhưng không tương đồng lẫn nhau Chương này đề xuất ACBRC, một thuật toán tính toán tập rút gọn xấp xỉ dựa trên gom cụm thuộc tính, giúp xử lý hiệu quả các thuộc tính không liên quan và dư thừa trong bảng quyết định Để hiểu rõ hơn về thuật toán, phần này sẽ trình bày các khái niệm liên quan đến gom cụm thuộc tính trong bảng quyết định.
Mức độ không liên quan giữa thuộc tính điều kiện \( a_i \in C \) và thuộc tính quyết định \( d \) được đo bằng giá trị khoảng cách \( NVI(a_i, d) \) Giá trị này phản ánh độ đo biến thể thông tin chuẩn hóa giữa thuộc tính \( a_i \) và thuộc tính \( a_j \) theo định nghĩa tại Chương 2 Cụ thể, nếu giá trị khoảng cách \( NVI(a_i, d) \) càng lớn, thì mức độ không liên quan giữa chúng càng nhỏ Ngoài ra, cho \( G \) là một cụm thuộc tính, thuộc tính \( a_R \in G \) được coi là thuộc tính đại diện của cụm nếu và chỉ nếu nó đáp ứng các tiêu chí nhất định.
Công thức (3.10) chỉ ra rằng 𝑎 𝑅 là thuộc tính có mối liên hệ mạnh nhất, đồng thời được coi là thuộc tính tiêu biểu cho tất cả các thuộc tính trong cụm 𝐺.
Trong thuật toán ACBRC, độ đo khoảng cách NVI có giá trị tối đa là 1 Chúng tôi quy định rằng nếu NVI(Xi, d) lớn hơn ngưỡng δ = 0.98, thì thuộc tính ai được xác định là không liên quan đến d; ngược lại, ai sẽ là thuộc tính liên quan Qua các thử nghiệm với các giá trị ngưỡng khác nhau, đặc biệt là δ = 0.95, 0.98 và 0.99, chúng tôi nhận thấy δ = 0.98 là ngưỡng tốt nhất để loại bỏ các thuộc tính không liên quan.
Sử dụng các định nghĩa trên, thuật toán ACBRC là quá trình bao gồm ba công đoạn liên tiếp, với khung hoạt động được thể hiện trong hình 3.1
Các công đoạn là như sau:
Để tối ưu hóa tập thuộc tính điều kiện, trước tiên cần loại bỏ các thuộc tính không liên quan Khoảng cách 𝑁𝑉𝐼(𝑎, 𝑑) được tính cho từng thuộc tính điều kiện 𝑎 so với thuộc tính quyết định 𝑑 Các thuộc tính có giá trị 𝑁𝑉𝐼(𝑎, 𝑑) lớn cho thấy mức độ không liên quan cao, dẫn đến khả năng phân lớp thấp Do đó, những thuộc tính có mức độ không liên quan lớn hơn 0,98 sẽ được loại bỏ khỏi tập thuộc tính điều kiện ban đầu.
(2) Gom cụm các thuộc tính có liên quan bằng cách sử dụng hàm pamk() trong gói R
Hệ thống R sử dụng độ đo khoảng cách NVII với hàm "fpc" Hàm pamk() là phiên bản nâng cao của pam(), cho phép hoạt động với bất kỳ ma trận khoảng cách nào mà không yêu cầu người dùng cung cấp số cụm k Thay vào đó, pamk() thực hiện thuật toán gom cụm PAM và ước tính số cụm thông qua phương pháp chiều rộng hình bóng trung bình tối ưu.
Cuối cùng, từ mỗi cụm thuộc tính, chúng ta chọn một thuộc tính có mức độ liên quan mạnh nhất với thuộc tính quyết định Thuộc tính này sẽ đại diện cho tất cả các thuộc tính trong cụm, trong khi các thuộc tính khác sẽ bị loại bỏ Tập hợp các thuộc tính đại diện được chọn từ các cụm sẽ tạo thành tập rút gọn xấp xỉ.
Hình 3.1 Hình minh họa thuật toán ACBRC
Tựa code của thuật toán ACBRC là như sau:
Thuật toán 3.6 Thuật toán ACBRC Đầu vào: Bảng quyết định 𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}),ngưỡng không liên quan 𝛿 = 0.98 Đầu ra: Tập rút gọn xấp xỉ Red
// Loại bỏ các thuộc tính không liên quan
Loại bỏ các thuộc tính không liên quan
Lựa chọn thuộc tính đại diện
Tập rút gọn xấp xỉ
Loại bỏ những thuộc tính dư thừa
//Tính ma trận khoảng cách NVI giữa các cặp thuộc tính
(8) Sử dụng hàm pamk() trong gói R “fpc” để gom cụm các thuộc tính trong
3.4.4 Kết quả thực nghiệm thuật toán ACBRC
Thuật toán lựa chọn thuộc tính đề xuất ACBRC được cài đặt bằng ngôn ngữ lập trình
Kết luận chương 3
Mục đích của việc lựa chọn thuộc tính là giảm số lượng thuộc tính trong tập dữ liệu, loại bỏ những thuộc tính dư thừa và không liên quan mà vẫn giữ lại thông tin cần thiết cho khai phá dữ liệu Chương 3 đã trình bày tổng quan về lựa chọn thuộc tính, các phương pháp chính để tìm tập rút gọn trong bảng quyết định, và giới thiệu thuật toán mới ACBRC dựa trên phương pháp gom cụm thuộc tính Thuật toán ACBRC gồm ba giai đoạn: giai đoạn đầu loại bỏ các thuộc tính không liên quan, giai đoạn hai phân chia các thuộc tính có liên quan thành các cụm thông qua phương pháp gom cụm phân hoạch xung quanh Medoids PAM kết hợp với biến thể Thông tin Chuẩn hóa, và giai đoạn ba chọn thuộc tính đại diện từ mỗi cụm dựa trên độ liên quan cao nhất với thuộc tính quyết định Các thuộc tính được lựa chọn tạo thành một tập rút gọn xấp xỉ.
Thuật toán ACBRC đã chứng minh hiệu quả trong việc giảm số thuộc tính trong các tập dữ liệu để khai phá quy tắc phân lớp Nghiên cứu này đã được công bố trên tạp chí Journal of Computer Science and Cybernetics.
[CT2] năm 2022 và có thể làm tiền đề cho các hướng nghiên cứu phát triển tiếp theo.
GOM CỤM DỮ LIỆU SỬ DỤNG LÝ THUYẾT TẬP THÔ
Khái quát bài toán gom cụm dữ liệu
Gom cụm dữ liệu (Data Clustering) là một kỹ thuật quan trọng trong khai thác dữ liệu và học máy, được định nghĩa là việc nhóm các đối tượng trong tập hợp 𝐷 = {𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 } thành các cụm sao cho các đối tượng cùng lớp tương đồng, trong khi các đối tượng thuộc các cụm khác nhau không tương đồng Đây là một phương pháp học không có giám sát (unsupervised learning), nghĩa là không có thông tin trước về cách phân nhóm các đối tượng Kỹ thuật này có ứng dụng rộng rãi trong nhiều lĩnh vực như nhận dạng mẫu, tin sinh học, y học, truy xuất thông tin và thị giác máy tính, đồng thời cũng có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai thác dữ liệu khác.
4.2.1 Các bước giải bài toán gom cụm dữ liệu
Thông thường, quá trình giải bài toán gom cụm dữ liệu gồm các bước sau đây [1, 7,
Bước 1: Lựa chọn thuộc tính là quá trình chọn lọc các thuộc tính hợp lệ cho mục tiêu gom cụm trong tập dữ liệu, giúp loại bỏ những thuộc tính dư thừa và tối ưu hóa hiệu quả của thuật toán gom cụm.
Bước 2: Lựa chọn thuật toán phân cụm là rất quan trọng, cần đảm bảo thuật toán phù hợp với tập dữ liệu và yêu cầu bài toán Việc xây dựng hàm tính độ tương tự giữa các đối tượng và tiêu chí gom cụm là những yếu tố chính để quyết định lựa chọn thuật toán gom cụm hiệu quả.
Bước 3: Xác nhận tính hợp lệ của các kết quả là rất quan trọng Để thực hiện điều này, các phương pháp phổ biến bao gồm kỹ thuật trực quan, tiêu chuẩn đánh giá và so sánh với các thuật toán khác Tuy nhiên, khi làm việc với tập dữ liệu lớn, việc áp dụng kỹ thuật trực quan trở nên khó khăn.
Bước 4 trong quy trình là lý giải kết quả, nơi các chuyên gia trong lĩnh vực ứng dụng sẽ phối hợp để kiểm chứng, phân tích và giải thích kết quả, từ đó đưa ra những kết luận chính xác cho người sử dụng.
4.2.2 Các loại phương pháp gom cụm dữ liệu
Hiện nay, có nhiều thuật toán gom cụm được đề xuất trong tài liệu, và việc lựa chọn thuật toán phù hợp phụ thuộc vào loại dữ liệu cũng như mục đích ứng dụng Các phương pháp gom cụm có thể được phân loại thành sáu loại chính: phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ, và dựa trên mô hình Trong số đó, phương pháp phân hoạch và phân cấp là hai phương pháp phổ biến nhất.
Phương pháp phân hoạch (Partitioning methods) là kỹ thuật gom cụm cho tập dữ liệu gồm 𝑛 đối tượng, nhằm chia các đối tượng thành 𝑘 cụm sao cho mỗi cụm chứa ít nhất một đối tượng và mỗi đối tượng chỉ thuộc về một cụm duy nhất Chìa khóa của phương pháp này là sử dụng hàm tiêu chuẩn để đánh giá chất lượng của các cụm và hướng dẫn quá trình tìm kiếm phân hoạch dữ liệu Thông thường, phương pháp bắt đầu bằng cách khởi tạo một phân hoạch ngẫu nhiên cho tập dữ liệu và liên tục tinh chỉnh cho đến khi đạt được phân hoạch mong muốn, dựa trên các giá trị đo độ tương tự hoặc không tương tự giữa các đối tượng Các thuật toán gom cụm dựa trên phương pháp phân hoạch thường áp dụng chiến lược tham lam (Greedy) để tìm kiếm tất cả các phân hoạch, dẫn đến độ phức tạp thuật toán rất lớn.
Một số thuật toán gom cụm phân hoạch điển hình như k-means, k-modes, PAM (Partitioning Around Medoids), CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications) v.v [1]
Phương pháp phân cấp (Hierarchical methods) trong gom cụm phân cấp tạo ra cấu trúc cây cho tập dữ liệu Có hai phương pháp chính: phân chia dần từ trên xuống (Divisive - Top down) và gộp dần từ dưới lên (Agglomerative - Bottom up) Phương pháp phân chia dần bắt đầu với tất cả các đối tượng trong một cụm và chia nhỏ chúng dựa trên độ tương tự cho đến khi đạt điều kiện dừng Ngược lại, phương pháp gộp bắt đầu với từng đối tượng riêng lẻ và nhóm chúng theo độ tương tự cho đến khi đạt yêu cầu kết thúc Cả hai phương pháp đều thể hiện chiến lược tham lam trong quá trình gom cụm, tạo nên các thuật toán gom cụm phân cấp hiệu quả.
• Kết quả gom cụm là một cây các cụm;
• Thuật toán có tốc độ xử lý nhanh;
• Thuật toán không bắt buộc phải khai báo trước số cụm 𝑘 đầu vào
Một số thuật toán gom cụm phân cấp điển hình: BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies), CURE (Clustering Using REpresentatives), ROCK, v.v
Phương pháp gom cụm dựa trên mật độ sử dụng mật độ của các đối tượng để xác định các cụm dữ liệu, với mật độ được định nghĩa là số lượng đối tượng lân cận trong một ngưỡng nhất định Phương pháp này có khả năng phát hiện các cụm dữ liệu với hình dạng đa dạng, chẳng hạn như hình chữ “S” hoặc hình oval Tuy nhiên, việc xác định các tham số mật độ của thuật toán là một thách thức lớn, vì những tham số này có ảnh hưởng đáng kể đến kết quả của quá trình gom cụm dữ liệu.
Several density-based clustering algorithms are commonly used for data grouping, including DBSCAN (Density-Based Spatial Clustering of Applications with Noise), OPTICS (Ordering Points To Identify the Clustering Structure), and DENCLUE (DENsity-based LUstEring) These methods effectively identify clusters within data while handling noise and varying densities.
Phương pháp gom cụm dựa trên lưới (Grid-based methods) được đề xuất để giải quyết vấn đề xử lý dữ liệu nhiều chiều, mà phương pháp gom cụm dựa trên mật độ không đáp ứng hiệu quả Mục tiêu của phương pháp này là lượng tử hoá không gian đối tượng thành các ô (Cell) trong cấu trúc dữ liệu lưới, sau đó áp dụng các kỹ thuật gom cụm trên các đối tượng trong từng ô Điểm nổi bật của phương pháp này là không di chuyển các đối tượng trong các ô, mà xây dựng nhiều mức phân cấp nhóm các đối tượng trong một cell Ưu điểm chính của phương pháp gom cụm dựa trên lưới là thời gian xử lý nhanh và tính độc lập với số lượng đối tượng trong tập dữ liệu ban đầu.
Gom cụm dữ liệu là vấn đề mở và khó, vì rằng người ta cần phải giải quyết nhiều vấn đề cơ bản như [1, 7]:
Xây dựng hàm tính độ tương tự cho các đối tượng với nhiều dạng dữ liệu khác nhau, đặc biệt là dữ liệu phân loại và dữ liệu hỗn hợp, đang trở nên ngày càng quan trọng Sự gia tăng của dữ liệu phân loại và dữ liệu hỗn hợp trong các cơ sở dữ liệu cần gom cụm yêu cầu các phương pháp tính toán hiệu quả để xử lý và phân tích.
- Xây dựng thuật toán gom cụm và các xác lập các điều kiện khởi tạo;
- Xây dựng thuật toán gom cụm và các xác lập các điều kiện khởi tạo;
- Xây dựng các thủ tục đánh giá và biểu diễn kết quả gom cụm
4.2.3 Các tiêu chí đánh giá một thuật toán gom cụm hiệu
Mục đích của gom cụm là khám phá bản chất tự nhiên trong các cụm dữ liệu Tuy nhiên, không có tiêu chí cụ thể nào để xác định phép gom cụm nào là tốt nhất Chất lượng của gom cụm còn phụ thuộc vào quy trình tiền xử lý dữ liệu Dưới đây là một số tiêu chí để đánh giá hiệu quả của thuật toán gom cụm trong khai phá dữ liệu.
- Có khả năng mở rộng Thuật toán có khả năng thực hiện tốt với tập các đối tượng dữ liệu lớn
Có khả năng ứng dụng hiệu quả với nhiều loại dữ liệu khác nhau, không chỉ giới hạn ở các tập dữ liệu liên tục hay phân loại, mà còn phù hợp với các tập dữ liệu hỗn hợp.
- Có khả năng khám phá ra các cụm với hình dạng bất kỳ
Thuật toán yêu cầu ít tham số đầu vào, tuy nhiên, các giá trị này có thể ảnh hưởng đến quá trình gom cụm và làm tăng độ phức tạp tính toán khi áp dụng vào các cơ sở dữ liệu lớn.
- Khả năng thích nghi với các dữ liệu có trong thực tế thường chứa dữ liệu nhiễu, dữ liệu không chắc chắn, không đầy đủ
Gom cụm dữ liệu phân loại sử dụng Lý thuyết tập thô
Nhiều phương pháp gom cụm đã được đề xuất, nhưng chủ yếu tập trung vào dữ liệu số, trong đó mỗi thuộc tính mô tả đối tượng có giá trị liên tục Các đối tượng dữ liệu số được xem như điểm trong không gian metric đa chiều với các metric như Euclide hoặc Mahalanobis Tuy nhiên, trong thực tế, dữ liệu thường có các thuộc tính phân loại (categorical) với miền giá trị hữu hạn và không có thứ tự, như màu tóc hay quốc tịch, chỉ cho phép so sánh giữa các giá trị.
𝑎 = 𝑏 hoặc 𝑎 ≠ 𝑏 Với dữ liệu phân loại ta không thể định nghĩa hàm khoảng cách một cách tự nhiên
Trong những năm gần đây, gom cụm dữ liệu phân loại đã thu hút sự chú ý từ cộng đồng nghiên cứu khai phá dữ liệu Mặc dù nhiều thuật toán đã được đề xuất, nhưng chúng chưa xử lý hiệu quả sự không chắc chắn trong quá trình gom cụm Vấn đề này rất quan trọng, vì trong nhiều ứng dụng thực tế, ranh giới giữa các cụm thường không rõ ràng Gần đây, nhiều nhà nghiên cứu đã áp dụng lý thuyết tập mờ để giải quyết vấn đề này, mặc dù các thuật toán yêu cầu nhiều lần chạy để đạt giá trị ổn định cho tham số thành viên mờ Một phương pháp phổ biến khác là sử dụng lý thuyết tập thô, không yêu cầu thông tin bổ sung về dữ liệu, giúp xử lý sự không chắc chắn một cách hiệu quả hơn.
Gần đây, một số tác giả đã giới thiệu một phương pháp mới để giải quyết bài toán gom cụm dữ liệu phân loại, áp dụng lý thuyết tập thô kết hợp với kỹ thuật phân chia dần.
Ý tưởng chính của phương pháp này là lựa chọn các thuộc tính tốt nhất từ nhiều ứng viên để phân chia các đối tượng thành các cụm theo từng thời điểm Do đó, việc xác định thuộc tính có khả năng phân chia đối tượng một cách hiệu quả từ tập dữ liệu là yếu tố quan trọng hàng đầu trong quá trình này.
Công trình đầu tiên về gom cụm dữ liệu dựa trên tập thô được thực hiện bởi Mazlack và cộng sự Trong nghiên cứu của họ, Mazlack đã đề xuất một kỹ thuật mới sử dụng khái niệm gọi là
Tổng độ thô (Total roughness TR) ảnh hưởng đến độ chính xác trong việc chọn thuộc tính phân cụm, với tổng độ thô càng cao thì độ chính xác càng lớn Nghiên cứu của Parmar và cộng sự [49] đã giới thiệu thuật toán min–min–roughness (MMR), một phương pháp gom cụm phân cấp dựa trên tập hợp thô.
Thuật toán MMR được sử dụng để xác định thuộc tính phân cụm dựa trên tiêu chí Độ thô tối thiểu (MR) Trong nghiên cứu của Herawan và cộng sự, kỹ thuật Độ thuộc tính phụ thuộc tối đa (MDA) đã được đề xuất, sử dụng hàm đo độ phụ thuộc từ lý thuyết tập thô để đánh giá sự liên kết giữa các thuộc tính trong tập dữ liệu và chọn thuộc tính phân cụm Mặc dù MDA có khả năng chọn thuộc tính tạo ra các cụm, nhưng nó không phải là một thuật toán gom cụm phân cấp hoàn chỉnh Nhiều nhà nghiên cứu khác đã tiếp nối công trình này và đưa ra các phương pháp mới để chọn thuộc tính phân cụm, tuy nhiên, họ vẫn chưa trình bày đầy đủ các thuật toán cụ thể và chưa đánh giá hiệu quả thực tế của các kỹ thuật gom cụm dữ liệu phân loại.
Trong nghiên cứu của Qin và cộng sự, một thuật toán gom cụm phân cấp được đề xuất dựa trên lý thuyết tập thô và các khái niệm từ lý thuyết thông tin, được gọi là MGR (Mean Gain Ratio) Thuật toán MGR sử dụng tỷ lệ gia tăng thông tin trung bình để chọn thuộc tính phân cụm, sau đó áp dụng khái niệm entropy để xác định lớp tương đương từ các thuộc tính phân cụm, nhằm tạo thành một cụm.
Gần đây, Wei và cộng sự đã phát triển một khung thống nhất cho các thuật toán gom cụm phân cấp dựa trên tập thô cho dữ liệu phân loại Khung này gồm ba bước chính: (1) chọn thuộc tính tối ưu để phân hoạch nút, (2) tạo phép phân đôi dựa trên thuộc tính đã chọn, và (3) xác định nút lá để phân chia thêm Trong bước đầu, thuộc tính cung cấp nhiều thông tin nhất được lựa chọn để tạo lớp tương đương ứng viên Bước thứ hai liên quan đến việc chọn lớp tương đương phù hợp để tạo cụm, trong khi các lớp còn lại được gộp lại Cuối cùng, một trong hai nút lá từ phép phân đôi sẽ được chọn để tiếp tục phân chia trong vòng lặp tiếp theo Việc áp dụng các bước này cho phép đạt được số cụm mong muốn thông qua quy trình đệ quy phân đôi.
4.3.1 Thuật toán lựa chọn thuộc tính gom cụm TR
TR là công trình đầu tiên nghiên cứu về việc gom cụm dữ liệu dựa trên tập thô, được thực hiện bởi Mazlack và cộng sự Trong nghiên cứu của họ, khái niệm Tổng độ thô (Total roughness TR) được sử dụng để lựa chọn thuộc tính phân cụm, với tổng độ thô càng cao thì độ chính xác trong việc chọn thuộc tính phân cụm càng lớn Định nghĩa 4.1 cho hệ thống thông tin 𝐼𝑆 = (𝑈, 𝐴) và các thuộc tính 𝑎 𝑖, 𝑎 𝑗 thuộc tập 𝐴, trong đó 𝑈 𝑎⁄ 𝑖 chứa các phần tử {𝑋 1, 𝑋 2, …, 𝑋 ℎ} Độ thô trung bình của thuộc tính 𝑎 𝑖 đối với thuộc tính 𝑎 𝑗, ký hiệu là 𝑅𝑜𝑢𝑔ℎ 𝑎 𝑗 (𝑎 𝑖), được xác định theo một công thức cụ thể.
ℎ (4.1) trong đó 𝑅 𝑎 𝑗 (𝑋 𝑘 ) là độ thô lớp tương đương 𝑋 𝑘 đối với 𝑎 𝑗 , nghĩa là (Định nghĩa 2.5 Chương 2):
|𝑎 𝑗 (𝑋 𝑘 )| (4.2) Định nghĩa 4.2 [48] Cho hệ thông tin 𝐼𝑆 = (𝑈, 𝐴) và 𝑎 𝑖 ∈ 𝐴 Tổng độ thô 𝑇𝑅 của 𝑎 𝑖 với mọi thuộc tính 𝑎 𝑗 ∈ 𝐴, với 𝑖 ≠ 𝑗 được xác định bởi
Với các các định nghĩa trên, Thuật toán lựa chọn thuộc tính gom cụm TR là như sau
Thuật toán 4.1 Thuật toán TR (Total Roughness) Đầu vào: Tập dữ liệu gom cụm (Hệ thông tin 𝐼𝑆) Đầu ra: Thuộc tính gom cụm
Bước 1: Tính các lớp tương đương được sinh bởi quan hệ không phân biệt được trên mỗi thuộc tính.
Bước 2: Với mỗi thuộc tính 𝑎 𝑖 xác định độ thô trung bình 𝑅𝑜𝑢𝑔ℎ 𝑎 𝑗 (𝑎 𝑖 ) của nó đối với mỗi thuộc tính 𝑎 𝑗 , với 𝑗 ≠ 𝑖, theo công thức (4.1)
Bước 3: Với mỗi thuộc tính 𝑎 𝑖 ∈ 𝐴 tính độ thô toàn phần của nó với mọi thuộc tính 𝑎 𝑗 , với 𝑖 ≠ 𝑗, theo công thức (4.3)
Bước 4 Chọn thuộc tính 𝑎 𝑖 ∗ cho giá trị TR lớn nhất làm thuộc tính gom cụm, nghĩa là:
4.3.2 Thuật toán lựa chọn thuộc tính gom cụm MDA
Trong nghiên cứu của Herawan và cộng sự [31], một kỹ thuật lựa chọn thuộc tính phân cụm mang tên MDA (Maximum Dependency Attributes) đã được đề xuất Kỹ thuật này dựa trên độ phụ thuộc giữa các thuộc tính trong lý thuyết tập thô Theo định nghĩa 4.3 [31], cho hệ thông tin 𝐼𝑆 = (𝑈, 𝐴), với 𝑎 𝑖 và 𝑎 𝑗 thuộc tập hợp 𝐴, độ phụ thuộc của thuộc tính 𝑎 𝑖 vào thuộc tính 𝑎 𝑗, ký hiệu là 𝛾 𝑎 𝑗 (𝑎 𝑖), được xác định dựa trên các yếu tố trong hệ thống thông tin.
|𝑈| (4.4) trong đó 𝑎 𝑗 𝑋 𝑘 là 𝑎 𝑗 -xấp xỉ dưới của 𝑋 𝑘
Herawan và cộng sự đã đề xuất thuật toán lựa chọn thuộc tính gom cụm MDA dựa trên định nghĩa 4.2 về độ phụ thuộc của một thuộc tính vào một thuộc tính khác.
Thuật toán 4.2 Thuật toán MDA (Maximumdegree of Dependency of Attributes) Đầu vào: Tập dữ liệu gom cụm (Hệ thông tin 𝐼𝑆) Đầu ra: Thuộc tính gom cụm
Bước 1: Tính các lớp tương đương được sinh bởi quan hệ không phân biệt được trên mỗi thuộc tính.
Bước 2 Với mỗi thuộc tính 𝑎 𝑖 xác định độ phụ thuộc của thuộc tính 𝑎 𝑖 vào mỗi
Bước 3 Chọn độ phụ thuộc lớn nhất 𝑀𝐷(𝑎 𝑖 ) của mỗi thuộc tính 𝑎 𝑖 (𝑎 𝑖 ∈ 𝐴) như sau:
Bước 4 Chọn thuộc tính 𝑎 𝑖 ∗ cho giá trị MD lớn nhất làm thuộc tính gom cụm, nghĩa là:
Theo nghiên cứu của Hongwu Qin và các cộng sự trong [55], giá trị TR và MDA chủ yếu được xác định dựa vào số lượng phần tử trong xấp xỉ dưới của một thuộc tính so với các thuộc tính khác Do đó, trong nhiều trường hợp, họ thường chọn cùng một thuộc tính làm thuộc tính gom cụm.
Hai thuật toán gom cụm nổi bật dựa trên lý thuyết tập thô và lý thuyết thông tin là MMR (Minimum-Minimum Roughness) và MGR (Mean Gain Ratio), được phát triển bởi Parmar và Qin cùng các cộng sự Cả hai thuật toán này đều mạnh mẽ trong việc xử lý sự không chắc chắn trong phân loại dữ liệu Luận án này sẽ trình bày chi tiết về MMR và MGR, đồng thời giới thiệu thuật toán mới MMNVI (Minimum Mean Normalized Variation of Information) Kết quả thực nghiệm cho thấy MMNVI ổn định và mang lại kết quả gom cụm tốt hơn hoặc ít nhất là tương đương với MMR và MGR.
4.3.3 Thuật toán MMR (Min-Min-Roughness)
Thuật toán MMR, được đề xuất bởi Parmar và các cộng sự, là một phương pháp gom cụm hoàn chỉnh thuộc loại phân cấp từ trên xuống, được nhiều nhà nghiên cứu công nhận là tiên phong và thành công trong việc xử lý dữ liệu phân loại MMR hoạt động qua một quá trình lặp không đảo ngược, nhằm phân đôi dần tập 𝑈 các đối tượng ban đầu để cải thiện kết quả gom cụm Thuật toán này xác định thuộc tính gom cụm thông qua khái niệm độ thô, cho phép MMR xử lý sự không chắc chắn trong quá trình gom cụm dữ liệu.
Roughness - MR) của thuộc tính 𝑎 𝑖 là giá trị nhỏ nhất của độ thô trung bình của thuộc tính
𝑎 𝑖 đối với các thuộc tính khác trong 𝐴, nghĩa là:
(𝑎 𝑗 ∈𝐴)∧(𝑗≠𝑖)(𝑅𝑜𝑢𝑔ℎ 𝑎 𝑗 (𝑎 𝑖 )) (4.4) trong đó độ thô trung bình 𝑅𝑜𝑢𝑔ℎ 𝑎 𝑗 (𝑎 𝑖 ) được tính theo công thức (4.1)
Đề xuất thuật toán MMNVI gom cụm dữ liệu phân loại
4.4.1 Ý tưởng và những định nghĩa cơ bản
Trong hệ thống thông tin phân loại 𝐼𝑆 = (𝑈, 𝐴), mỗi thuộc tính trong 𝐴 xác định một phân hoạch duy nhất trên tập 𝑈 Một thuộc tính tạo ra phân hoạch tốt nếu nó chia sẻ nhiều thông tin với các phân hoạch khác trong 𝐴 Entropy thấp của tập dữ liệu cho thấy sự tương đồng cao giữa các đối tượng Trong thuật toán MMNVI, bước 1 và 2 được thực hiện như sau: (1) chọn thuộc tính phân cụm gần nhất với các phân hoạch khác; (2) từ phân hoạch đó, chọn lớp tương đương có độ tương tự cao nhất làm một cụm và hợp các lớp còn lại để tạo tập dữ liệu mới Hai bước này được lặp lại cho đến khi đạt số cụm mong muốn 𝑘 Khoảng cách giữa hai thuộc tính được đo bằng số liệu NVI (Biến thể thông tin chuẩn hóa).
(4.8) trong đó 𝑁𝑉𝐼(𝑎 𝑖 , 𝑎 𝑗 ) là độ đo biến thể thông tin chuẩn hóa giữa thuộc tính 𝑎 𝑖 với thuộc tính
𝑎 𝑗 được định nghĩa tại 2.16 Chương 2
Vì 𝑁𝑉𝐼(𝑎, 𝑏) là một metric trong không gian các thuộc tính, 𝑀𝑁𝑉𝐼(𝑎 𝑖 ) được xem là khoảng cách trung bình giữa 𝑎 𝑖 với mỗi 𝑎 𝑗 ∈ 𝐴, với 𝑎 𝑗 ≠ 𝑎 𝑖 Theo Định nghĩa 4.8, cho hệ thống thông tin 𝐼𝑆 = (𝑈, 𝐴) với 𝐴 = {𝑎 1 , 𝑎 2 , … , 𝑎 𝑝 }, nếu các thuộc tính trong 𝐴 là độc lập lẫn nhau, thì entropy của tập dữ liệu 𝑋 ⊆ 𝑈, ký hiệu là 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑋), được định nghĩa như sau.
Entropy của một tập hợp \( X \) được tính bằng tổng entropy của các thuộc tính \( a_i \) trong \( X \) như sau: \( Entropy(X) = H_X(a_1) + H_X(a_2) + \ldots + H_X(a_p) \) Trong đó, \( H_X(a_i) \) là entropy của thuộc tính \( a_i \), với \( i = 1, \ldots, p \), được xác định theo công thức trong chương 2 Khi entropy của \( X \) nhỏ, điều này cho thấy các đối tượng trong \( X \) có nhiều điểm tương đồng Vì lý do này, nhiều tác giả đã sử dụng entropy như một thước đo để đánh giá độ tương tự của các đối tượng trong cùng một cụm.
Thuật toán MMNVI hoạt động theo ba bước chính trong vòng lặp đầu tiên, sử dụng tất cả các đối tượng trong tập 𝑈 làm tập dữ liệu cần gom cụm.
Bước 1 Loại bỏ tất cả các thuộc tính có giá trị đơn lẻ
Để thực hiện phân cụm, bước đầu tiên là chọn thuộc tính có giá trị MNVI nhỏ nhất làm thuộc tính gom cụm Tiếp theo, phân hoạch tập các đối tượng thành các lớp tương đương, trong đó lớp tương đương có Entropy nhỏ nhất sẽ được xác định là một cụm Đồng thời, tập dữ liệu cần phân cụm tiếp theo sẽ là tập chứa tất cả các lớp tương đương còn lại.
Quá trình phân cụm trên được lặp lại cho đến khi số lượng nút lá thu được bằng với số lượng 𝑘 cụm cho trước
Thuật toán 4.5 Thuật MMNVI Đầu vào: Tập dữ liệu gom cụm (Hệ thông tin) IS; số cụm k cần gom Đầu ra: k cụm dữ liệu gom được
Bước 1 𝐶𝑁𝐶 = 1 // Gán số cụm ban đầu bằng 1
𝐶𝐷𝑎𝑡𝑎𝑠𝑒𝑡 = 𝑈 //CDataset ký hiệu nút dữ liệu cần phân cụm
Nếu |𝐶𝐷𝑎𝑡𝑎𝑠𝑒𝑡 𝐼𝑛𝑑{𝑎⁄ 𝑖 }| = 1 // mọi cá thể trong CNode có
// cùng một giá trị về 𝑎 𝑖
B = B - 𝑎 𝑖 // loại bỏ thuộc tính 𝑎 𝑖 Hết nếu
Hết với mọi Bước 3 Với mọi 𝑎 𝑖 ∈ 𝐵
Tính 𝑀𝑁𝑉𝐼{𝑎 𝑖 } //sử dụng công thức 4.8
Hết với mọi Bước 4 Xác định thuộc tính gom cụm 𝑎 ∗ thỏa mãn
Bước 5 Xác định phân hoạch 𝐶𝐷𝑎𝑡𝑎𝑠𝑒𝑡 𝐼𝑛𝑑{𝑎⁄ ∗ } = {𝑋 1 , 𝑋 2 , … , 𝑋 ℎ };
Bước 6 Trả về 𝑋 là một cụm
Ngược lại: Trả về 𝐶𝑑𝑎𝑡𝑎𝑠𝑒𝑡 là một cụm;
Hết nếu; Đối với thuật toán MMNVI có hai lưu ý cho sau đây:
(1) Ở bước 4, nếu có nhiều thuộc tính cùng cho giá trị MNVI nhỏ nhất, thuật toán sẽ chọn thuộc tính đầu tiên làm thuộc tính gom cụm
Trong bước 5 và 6, sau khi xác định thuộc tính phân tách dữ liệu, MMNVI sẽ chọn lớp tương đương có Entropy thấp nhất để tạo thành một cụm, trong khi các lớp tương đương còn lại sẽ được hợp nhất thành tập dữ liệu cần phân cụm tiếp theo Điều này cho thấy rằng entropy của các lớp còn lại sẽ luôn cao hơn lớp đã chọn, như được minh chứng trong mệnh đề 4.1 Nếu có nhiều lớp tương đương có cùng giá trị Entropy thấp nhất, thuật toán sẽ ưu tiên chọn lớp có số lượng đối tượng nhiều nhất.
Mệnh đề 4.1 Cho một tập dữ liệu phân loại dưới dạng hệ thống thông tin 𝐼𝑆 (𝑈, 𝐴) , thuộc tính 𝑎 ∈ 𝐴 và 𝑈 𝐼𝑁𝐷{𝑎} = {𝑋⁄ 1 , 𝑋 2 , … , 𝑋 𝑚 } Nếu lớp 𝑋 𝑖 ∈ 𝑈 𝑎⁄ có entropy nhỏ nhất, nghĩa là nếu:
Chứng minh: Không mất tính tổng quát, ta có thể giả thiết lớp 𝑋 1 là lớp có entropy nhỏ nhất Đặt 𝑈 ′ = 𝑋 2 ∪ 𝑋 3 ∪ … ∪ 𝑋 ℎ = 𝑈 \ 𝑋 1
Giả sử tập giá trị của 𝑎 là 𝑉 𝑎 = {𝑥 1 , 𝑥 2 , … , 𝑥 𝑚 }, 𝑏 là một thuộc tính trong 𝑏 ∈ 𝐴 − {𝑎} có 𝑉 𝑎 = {𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 } và 𝑈 𝐼𝑁𝐷{𝑏}⁄ = {𝑌 1 , 𝑌 2 , … , 𝑌 𝑛 }, khi đó theo công thức (2.13) tính entropy có điều kiện tại Chương 2, ta có
Mặt khác, theo công thức (2.15) Chương 2, 𝐻 𝑈 ′ (𝑏) ≥ 𝐻 𝑈 ′ (𝑏|𝑎) Vì vậy,
Lưu ý rằng, 𝐻 𝑋 𝑖 (𝑎) = 0 trên với mọi tương đương 𝑋 𝑖 , 𝑖 = 2,3, … , 𝑚, nên ta có
Trong ví dụ 4.1, hệ thống thông tin được nghiên cứu bao gồm tám đối tượng với bảy thuộc tính phân loại, như được trình bày trong bảng 4.1 Mục tiêu là phân chia các đối tượng này thành ba cụm khác nhau.
A = {Học vị, Tiếng Anh, Kinh nghiệm, Tin học, Toán, Lập trình, Thống kê}
Tại bước lặp đầu tiên, MMNVI lấy cả 8 đối tượng của tập 𝑈 làm tập dữ liệu gom cụm
Cả bảy thuộc tính đều có giá trị quan trọng và không thuộc về bất kỳ thuộc tính nào bị loại bỏ MMNVI xác định thuộc tính gom cụm tối ưu nhất trong bước lặp đầu tiên.
Bảng 4.1 Hệ thông tin về chất lượng đầu vào của sinh viên
TS ThS ThS ThS ThS
TB Giỏi MMNVI xác định thuộc tính gom cụm tốt nhất ở bước lặp đầu tiên như sau:
Tương tự, ta tính được biến thể thông tin chuẩn hóa của 𝑎1 với a3, a4, a5, a6, và a7 Lần lượt là 0.4591, 0.3333, 0.7500, 0.7500, 0.8403
Kết quả tính toán biến thể thông tin chuẩn hóa cho từng thuộc tính so với các thuộc tính khác, cùng với biến thể thông tin chuẩn hóa trung bình (MNVI) của mỗi thuộc tính, được trình bày trong bảng 4.2.
Trong bảng 4.2, cột MNVI thể hiện giá trị biến thể thông tin chuẩn hóa trung bình của mỗi 𝑎𝑖 với 𝑎𝑗 ∈ 𝐴 và 𝑎𝑖 ≠ 𝑎𝑗 Thuộc tính 𝑎1 có MNVI nhỏ nhất và được chọn làm thuộc tính gom cụm trong bước phân cụm đầu tiên Phân hoạch của tập 𝐶𝐷𝑎𝑡𝑎𝑠𝑒𝑡 là:
Vì 𝑋₁ có entropy nhỏ nhất, nó được chọn làm cụm đầu tiên Các đối tượng còn lại tạo thành tập 𝑍₁ = {3,4,5,6,7,8}, sẽ được sử dụng để hình thành tập dữ liệu cho bước phân tách thứ hai trong quá trình gom cụm.
Bảng 4.2 Độ chắc chắn trung bình của các thuộc tính
Trong bước phân tách thứ hai, ba thuộc tính 𝑎1, 𝑎3 và 𝑎4 có giá trị biến thể thông tin chuẩn hóa trung bình nhỏ thất Trong số đó, thuộc tính 𝑎3 được chọn làm thuộc tính gom cụm, dẫn đến 𝑍 1 ⁄𝑎3= {𝑌 1 , 𝑌 2 } = {{3,4,5,6}, {7,8}} Vì 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌 1 ) = 2.8113 lớn hơn 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌 2 ) = 2, nên cụm thứ hai được xác định là 𝑌 2 = {7,8}.
Với khai báo số cụm cần phân ban đầu là k = 3, thuật toán kết thúc với kết quả trả về gồm ba cụm dữ liệu: 𝐶 1 = {1,2} , 𝐶 2 = {7,8} và 𝐶 3 = {3,4,5,6}
4.4.3 Độ phức tạp của thuật toán MMNVI
Trong bài toán gom cụm với tập dữ liệu gồm 𝑛 đối tượng và 𝑚 thuộc tính, thuật toán MMNVI thực hiện 𝑘 − 1 bước lặp để phân chia dữ liệu thành 𝑘 cụm Mỗi bước lặp yêu cầu tính toán giá trị MNVI cho tất cả 𝑚 thuộc tính, với thời gian tính toán là 𝑛 + 𝑛(𝑚 − 1) cho mỗi thuộc tính, dẫn đến tổng thời gian là 𝑛𝑚² Bên cạnh đó, thuật toán cũng cần thực hiện 𝑛(𝑘 − 1) lần tính entropy cho các lớp tương đương, với thời gian tính entropy không vượt quá 𝑚 Do đó, tổng thời gian tính toán của thuật toán MMNVI có độ phức tạp là O(𝑘𝑛𝑚²).
4.4.4 Nhận xét thuật toán MMNVI
Thuật toán MMNVI, giống như MMR và MGR, có khả năng xử lý sự không chắc chắn trong quá trình gom cụm bằng cách sử dụng entropy thông tin để đo độ không chắc chắn của tập đối tượng MMNVI chỉ cần một dữ liệu đầu vào là số cụm cần gom 𝑘 Thuật toán này không phụ thuộc vào thứ tự của các đối tượng trong tập dữ liệu và cho phép đạt được kết quả gom cụm ổn định, đảm bảo cùng một kết quả sau nhiều lần thực hiện.
So sánh với MMR và MGR, thuật toán MMNVI có ba cải tiến chính:
Trong mỗi vòng lặp, MMNVI loại bỏ các thuộc tính có giá trị đơn lẻ trước khi chọn thuộc tính gom cụm, nhằm ngăn chặn việc dừng quá sớm trong quá trình gom cụm.
Kết luận chương 4
Gom cụm là một kỹ thuật quan trọng trong khai phá dữ liệu, được áp dụng trong nhiều lĩnh vực như phân loại động vật, thực vật, phân đoạn thị trường và phân loại khách hàng Mặc dù đã có nhiều phương pháp gom cụm được đề xuất, nhưng hiện tại vẫn chưa có phương pháp nào đủ tổng quát để giải quyết tất cả các dạng cấu trúc cụm dữ liệu.
Gom cụm dữ liệu phân loại gặp nhiều thách thức hơn so với gom cụm dữ liệu số liên tục Nhiều thuật toán gom cụm dữ liệu phân loại đã được đề xuất, đóng góp quan trọng cho việc giải quyết vấn đề này Tuy nhiên, các thuật toán này chưa được thiết kế để xử lý sự không chắc chắn trong quá trình gom cụm.
Xử lý sự không chắc chắn trong quá trình gom cụm là một vấn đề quan trọng, vì trong nhiều ứng dụng thực tế, ranh giới giữa các cụm thường không rõ ràng.
Trong chương này, luận án nghiên cứu kỹ thuật gom cụm dữ liệu phân loại, xử lý sự không chắc chắn bằng Lý thuyết tập thô và khái niệm entropy trong Lý thuyết thông tin Dựa trên các thuật toán cơ sở đã được đề xuất, luận án giới thiệu thuật toán gom cụm phân cấp mới mang tên MMNVI Kết quả thử nghiệm trên dữ liệu thực tế từ kho dữ liệu UCI cho thấy MMNVI là thuật toán ổn định, mang lại kết quả gom cụm tốt hơn hoặc tương đương với các thuật toán cơ sở Nghiên cứu này đã được công bố trong tạp chí Journal of Computer Science and Cybernetics năm 2023.