Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.
Các khái niệm cơ bản của lý thuyếttậpthô
Hệthông tin
Một tập dữ liệu có thể được biểu diễn dưới dạng một bảng, trong đó mỗi hàng biểu diễnmộtđốitượng,mộttrườnghợphaymộtsựkiện,mỗicộtbiểudiễnmộtthuộctính,một tínhchấthaymộtsốđocóthểđođượctrênmỗiđốitượng.Tronglýthuyếttậpthô,một bảngdữliệunhưvậyđượcgọilàmộthệthôngtin.Mộtcáchhìnhthức,ngườitađịnhnghĩa hệ thông tin nhưsau: Định nghĩa 2.1.[8]Hệ thông tin là một bộ đôi𝐼𝑆 = (𝑈, 𝐴), trong đó𝑈là một tậphữu hạn, không rỗng các đối tượng,𝐴là một tập hữu hạn, không rỗng các thuộc tính, mỗi
𝑎 ∈ 𝐴là một ánh xạ𝑎 ∶ 𝑈 →𝑉 𝑎 , trong đó𝑉 𝑎 ký hiệu miền giát r ị c ủ a𝑎.
Quan hệ không phân biệt được và các xấp xỉ của mộttập hợp
[8] Chohệthôngtinlàmộtbộtứ𝐼𝑆=(𝑈, 𝐴).Mỗitậpconcácthuộctính𝐵⊆𝐴xácđịnhmộtquanhệ,kýhi ệulà𝐼𝑁𝐷(𝐵),gọilàquanhệkhôngphânbiệtđược,nhưsau:
Nếu hai đối tượng(𝑢, 𝑣)∈ 𝐼𝑁𝐷(𝐵)thì hai đối tượng này sẽ không phân biệt được bởi các thuộc tính thuộc tập𝐵.
Rõràng𝐼𝑁𝐷(𝐵)làmộtquanhệtươngđương,nóphânchia𝑈thànhcáccáclớptương đương rời nhau, trong đó hai đối tượng thuộc cùng một lớp nếu chúng có cùng giá trị đối với𝐵.Gọi𝑈/𝐼𝑁𝐷(𝐵) (hayviếttắt𝑈/𝐵)làhọcủatấtcảcáclớptươngđươngcủa𝐼𝑁𝐷(𝐵).Vớimọiđốitượng𝑥∈𝑈,kýhiệu[𝑥]
𝐵làlớptươngđươngcủaquanhệ𝐼𝑁𝐷(𝐵)chứaphần tử𝑥,và gọi[𝑥] 𝐵 là lớp tương đương của𝑥trong quan hệ𝐼𝑁𝐷(𝐵). Định nghĩa 2.3.[8]Cho hệ thông tin là một bộ tứ𝐼𝑆 =(𝑈, 𝐴, 𝑉, 𝑓),𝐵 ⊆ 𝐴và𝑋 ⊆
𝑈, B-xấp xỉ dưới của𝑋, ký hiệu là𝐵(𝑋),và𝐵-xấp xỉ trên của𝑋, ký hiệu là𝐵(𝑋), đượcđịnh nghĩa tương ứng như sau:
∈𝐵𝑋thì nócó thểthuộc vào tập𝑋.Hiển nhiên, ta có𝐵 𝑋⊆ 𝑋 ⊆ 𝐵𝑋.𝑋được gọi là địnhnghĩađược nếu𝐵 𝑋=𝐵𝑋,trườnghợpngượclại,𝑋 ượcđều gọilàtậpthôvớiB-biên
𝐵𝑁 𝐵 (𝑋)=𝐵𝑋−𝐵 𝑋.M ộ t c á c h t ự n h i ê n , m ộ t t ậ p t h ô 𝑋có thể được xấp xỉ bằng𝐵 𝑋 và/hoặc𝐵𝑋. Định nghĩa 2.4.[8]Cho hệ thông tin𝐼𝑆 = (𝑈, 𝐴),𝐵 ⊆ 𝐴và𝑋 ⊆𝑈.Độ chính xáccủa xấp xỉ𝑋thông qua𝐵được định nghĩabởi
Trong suốt luận án này,|𝑋|ký hiệu số phần tử của tập𝑋. Định nghĩa 2.5.[8]Cho hệ thông tin𝐼𝑆 = (𝑈, 𝐴),𝐵 ⊆ 𝐴và𝑋 ⊆ 𝑈 Độ thô(roughness) của𝑋đối với𝐵được định nghĩa là
Hiển nhiên,0 ≤𝑅 𝐵 (𝑋)≤1.Nếu𝑅 𝐵 (𝑋)= 0,thì𝐵 𝑋=𝐵𝑋,𝐵-biêncủa𝑋làt ậ p rỗng, và𝑋là tập rõ đối với𝐵 Nếu𝑅 𝐵 (𝑋)< 1, thì𝐵𝑋 ⊂ 𝐵𝑋,𝐵-biên của𝑋là khác rỗng, và𝑋là tập thô đối với𝐵.
Bảngquyết định
Định nghĩa 2.6.[8, 10]Bảng quyết định là một hệ thông tin dạng𝐷𝑇 = (𝑈, 𝐶
∪{𝑑}),trong đó𝑑 ∉ 𝐶là một thuộc tính riêng biệt được gọi là thuộc tính quyết định Các thuộctính trong𝐶được gọi là các thuộc tính điều kiện. Định nghĩa 2.7.[8, 10]Cho𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑})là một bảng quyết định và tập conthuộc tính điều kiện𝐵 ⊆ 𝐶 Vùng dương của𝑑đối với𝐵, ký hiệu là𝑃𝑂𝑆 𝐵 (𝑑), được xácđịnh như sau
Vùngdương𝑃𝑂𝑆 𝐵 (𝑑)baogồmnhữngđốitượngchắcchắncóthểđượcphânvàomột số lớp quyết định bằng cách kiểm tra tất cả các thuộc tính có trong𝐵.Nếu𝑃𝑂𝑆 𝐵 (𝑑)= 𝑈, thì bảng quyết định𝐷𝑇là nhất quán, ngược lại𝐷𝑇là không nhấtquán. Định nghĩa 2.8.[8, 10]Cho𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑})là một bảng quyết định, thuộc tính
𝑐𝐶được gọi là không cần thiết trong bảng quyết định DT nếu
𝑃𝑂𝑆 𝐶 (𝑑)= 𝑃𝑂𝑆(𝐶 \ {{𝑐}})(𝑑) (2.7) ngược lại,𝑐được gọi là cần thiết. Định nghĩa 2.9.[8, 10]Bảng quyết định𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑})được gọi là độc lập nếumọi thuộc tính𝑐𝐶đều cần thiết Tập tất cả các thuộc tính cần thiết trong DT được gọi làtập lõi và được ký hiệu𝐶𝑜𝑟𝑒(𝐶) Lúc đó, một thuộc tính cần thiết còn được gọi là thuộctính lõi. Định nghĩa 2.10.[8, 10]Tập các thuộc tính𝑅𝐴được gọi là một rút gọn của bảngquyếtđịnh𝐷𝑇=(𝑈, 𝐶∪{𝑑})nếunólàtậpcontốitiểuthỏamãnPOS R (d)=POS C (d).Nhưvậy,tậ prútgọnlàtậpcontốitiểucácthuộctínhcókhảnăngphânlớpđúngcácđốitượng trong𝑈như toàn bộ tập thuộc tính𝐶.
Rõrànglàcóthểcónhiềutậprútgọncủa𝐶.Tậptấtcảcáctậprútgọncủabảngquyết địnhDTđược ký hiệu là𝑅𝑒𝑑(𝐶).Một thuộc tính là cần thiết khi và chỉ khi nó thuộc vào mọi tập rút gọn củaC.Điều đó được thể hiện trong mệnh đềsau.
Mệnh đề 2.1.[8, 10]Cho bảng quyết định𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) Ta có:
(2.8) Định nghĩa 2.11.[8, 10]Cho bảng quyết định𝐷𝑇 = (𝑈, 𝐶 ∪ {𝑑}) Với tập con𝐵 ⊆
𝐶, độ phụ thuộc𝛾 𝐵 (𝑑)của𝑑vào𝐵được định nghĩa như sau:
Rõ ràng,0 ≤ 𝛾 𝐵 (𝑑)≤ 1.Nếu𝛾 𝐵 (𝑑)= 1, thì ta nói rằng𝑑phụ thuộc hoàn toàn vào𝐵,còn nếu0