1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận án tiến sĩ phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô

107 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Rút gán thuãc tính có thß đ°ÿc thực hiện bằng cách sử dāng các kỹ thuÃt phù hÿp, tùy thuãc vào yêu cÁu cÿa bài toán khai phá dữ liệu đặt ra... HÁu hÁt các kỹ thuÃt gom cām trong các tài

Trang 1

Bâ GIÁO DĀC VÀ ĐÀO T¾O

Trang 2

LUÂN ÁN TIÀN S) KHOA HàC MÁY TÍNH Chuyên ngành: Khoa hác máy tính

Mã số ngành: 9480101

NG¯æI H¯äNG DÀN KHOA HàC

Trang 3

LÞI CÀM ¡N

Xin trân tráng cảm ¢n PGS.TS Nguyán Thanh Tùng đã tÃn tình h°ång dÁn nghiên cāu sinh hoàn thành luÃn án tiÁn s*

Xin trân tráng cảm ¢n quý thÁy/cô khoa sau đ¿i hác, tr°çng đ¿i hác L¿c Hồng đã t¿o điện kiện thuÃn lÿi và há trÿ nghiên cāu sinh hoàn thành luÃn án

Xin trân tráng cảm ¢n tr°çng đ¿i hác L¿c Hồng đã t¿o điều kiện thuÃn lÿi trong công tác và há trÿ nghiên cāu sinh tham gia hác tÃp

Xin chân thành cám ¢n quý b¿n bè, đồng nghiệp đã t¿o điều kiện mái mặt giúp nghiên cāu sinh hoàn thành luÃn án

Đồng Nai, ngày tháng năm 2023 Nghiên cāu sinh

Đß Sĩ Tr°ßng

Trang 4

LÞI CAM ĐOAN

Tôi xin cam đoan luÃn án này là công trình nghiên cāu cÿa riêng tôi d°åi sự h°ång dÁn cÿa PGS.TS Nguyán Thanh Tùng Các số liệu và tài liệu trong nghiên cāu là trung thực và ch°a đ°ÿc công bố trong b¿t kỳ công trình nghiên cāu nào T¿t cả các tham khảo và kÁ thừa đều đ°ÿc trích dÁn và tham chiÁu đÁy đÿ

Đồng Nai, ngày tháng năm 2023 Nghiên cāu sinh

Đß Sĩ Tr°ßng

Trang 5

2.2.4 Các khái niệm lý thuyÁt thông tin liên quan 13

2.3 Mãt số thuÃt toán hiệu quả cÿa lý thuyÁt tÃp thô 16

2.4 Āng dāng cÿa lý thuyÁt tÃp thô trong khám phá tri thāc từ c¢ sơꄉ dữ liệu 19

2.5 KÁt luÃn ch°¢ng 2 21

CH¯¡NG 3.LĄA CHàN THUàC TÍNH SĀ DĀNG LÝ THUY¾T T¾P THÔ 23

3.1 Mơꄉ đÁu 23

3.2 Khái quát về bài toán lựa chán thuãc tính 24

3.3 Các ph°¢ng pháp lựa chán thuãc tính sử dāng lý thuyÁt tÃp thô 27

3.3.1 Ph°¢ng pháp lựa chán thuãc tính sử dāng ma trÃn phân biệt 28

3.3.2 Ph°¢ng pháp rút gán thuãc tính dựa vào đã phā thuãc 32

3.3.3 Ph°¢ng pháp rút gán thuãc tính sử dāng sử dāng đã phā thuãc t°¢ng đối 34

3.3.4 Ph°¢ng pháp rút gán thuãc tính sử dāng Entropy thông tin 37

3.3.5 Ph°¢ng pháp lựa chán thuãc tính dựa trên gom cām 39

3.4 Đề xu¿t thuÃt toán rút gán thuãc tính dựa vào gom cām ACBRC 42

3.4.1 Ý t°ơꄉng và những đßnh ngh*a c¢ bản 42

3.4.2 Giåi thiệu thuÃt toán k-medoids 43

3.4.3 ThuÃt toán rút gán thuãc tính dựa vào gom cām ACBRC 45

3.4.4 KÁt quả thực nghiệm thuÃt toán ACBRC 48

Trang 6

4.2.1 Các b°åc giải bài toán gom cām dữ liệu 55

4.2.2 Các lo¿i ph°¢ng pháp gom cām dữ liệu 56

4.2.3 Các tiêu chí đánh giá mãt thuÃt toán gom cām hiệu 58

4.3 Gom cām dữ liệu phân lo¿i sử dāng Lý thuyÁt tÃp thô 59

4.3.1 ThuÃt toán lựa chán thuãc tính gom cām TR 61

4.3.2 ThuÃt toán lựa chán thuãc tính gom cām MDA 63

4.3.3 ThuÃt toán MMR (Min-Min-Roughness) 64

4.3.4 ThuÃt toán MGR (Mean Gain Ratio) 67

4.4 Đề xu¿t thuÃt toán MMNVI gom cām dữ liệu phân lo¿i 69

4.4.1 Ý t°ơꄉng và những đßnh ngh*a c¢ bản 69

4.4.2 ThuÃt toán MMNVI 70

4.4.3 Đã phāc t¿p cÿa thuÃt toán MMNVI 75

4.4.4 NhÃn xét thuÃt toán MMNVI 76

4.4.5 KÁt quả thực nghiệm thuÃt toán MMNVI 76

CH¯¡NG 5.K¾T LU¾N VÀ H¯âNG PHÁT TRIÂN 87

5.1 Những kÁt quả và đóng góp chính cÿa luÃn án 87

5.2 H°ång phát trißn cÿa luÃn án 88

Trang 7

BÀNG THU¾T NGĂ ANH - VIàT

Attribute Clustering Based

Tính toán tÃp rút gán dựa trên gom cām thuãc tính

Trang 8

Minimum Mean Normalized

Normalized Variation of

Trang 9

B䄃ऀNG C䄃ĀC K夃Ā HI쨃⌀U

āþ = (Ā, ý) Hệ thông tin

|ą| Thuãc tính điều kiện trong bảng quyÁt đßnh

Ă(Ă) Giá trß cÿa đối t°ÿng u t¿i thuãc tính a

āāĀ(þ) Quan hệ B− không phân biệt

[Ă]þ Låp t°¢ng đ°¢ng chāa u cÿa quan hệ IND B( )

Ā/þ Phân ho¿ch cÿa U sinh bơꄉi tÃp thuãc tính B

�㗼þ(ÿ) Đã chính xác cÿa x¿p xỉ ÿ thông qua þ ýþ(ÿ) Đã thô (roughness) cÿa X đối våi B

Ā(Ă|ă) Entropy có điều kiện cÿa Ă khi đã biÁt ă

ā(Ă; ă) Thông tin t°¢ng há giữa hai thuãc tính Ă và ă āāā(Ă, ă) BiÁn thß thông tin chu¿n hóa giữa Ă và ă

ýąĂĈ/ÿĀ(Ăÿ) Đã thô trung bình cÿa thuãc tính Ăÿ đối våi thuãc tính ĂĀ

ýÿĀ(ÿā) Đã thô låp t°¢ng đ°¢ng ÿā đối våi ĂĀ

ÿý(Ăÿ) Tßng đã thô ÿý cÿa Ăÿ våi mái thuãc tính ĂĀ * ý

ÿýĀ(Ă) Tỷ lệ lÿi thông tin cÿa Ăÿ đối våi ĂĀ

Āÿý(Ăÿ) Tỷ lệ lÿi thông tin trung bình cÿa Ăÿ đối mái våi ĂĀ

Āāāā(Ăÿ) BiÁn thß thông tin chu¿n hóa trung bình giữa Ăÿ våi mái ĂĀ * ý

āĄāÿąĆþ(ÿ) Tntropy cÿa tÃp dữ liệu ÿ ⊆ Ā

argmin Xác đßnh phÁn tử có giá trß nh漃ऀ nh¿t trên mãt miền giá trß

Trang 10

DANH MĀC BÀNG BIÂU

Bảng 3.1 Bảng quyÁt đßnh ví dā 3.1 30

Bảng 3.2 Ma trÃn phân biệt cÿa Bảng quyÁt đßnh 3.1 31

Bảng 3.3 Bảng quyÁt đßnh 34

Bảng 3.4 Bảng mô tả các tÃp dữ liệu thực nghiệm 49

Bảng 3.5 Những thuãc tính đ°ÿc chán bơꄉi ba giải thuÃt rút gán thuãc tính 50

Bảng 3.6 Bảng so sánh thçi gian thực hiện cÿa các thuÃt toán (theo giây) 50

Bảng 3.7 Đã chính xác phân låp khi ch°a rút gán thuãc tính 51

Bảng 3.8 Đã chính xác phân låp våi các thuãc tính đ°ÿc chán bơꄉi ACBRC 51

Bảng 3.9 Đã chính xác phân låp bằng C5.0 sau khi sử dāng các ph°¢ng pháp rút gán thuãc tính khác nhau 52

Bảng 3.10 Đã chính xác phân låp Bayes sử dāng các thuÃt toán rút gán thuãc tính 52

Bảng 4.1 Hệ thông tin về ch¿t l°ÿng đÁu vào cÿa sinh viên 74

Bảng 4.2 Đã chắc chắn trung bình cÿa các thuãc tính 75

Bảng 4.3 Tám bã dữ liệu chu¿n UCI 77

Bảng 4.4 Bảng dự phòng 78

Bảng 4.5 KÁt quả gom cām MMNVI trên tÃp dữ liệu Soybean Small 80

Bảng 4.6 KÁt quả gom cām MMNVI trên tÃp dữ liệu Breast Cancer Wisconsin 80

Bảng 4.7 KÁt quả gom cām MMNVI trên tÃp dữ liệu Car Evaluation 80

Bảng 4.8 KÁt quả gom cām MMNVI trên tÃp dữ liệu Vote 81

Bảng 4.9 KÁt quả gom cām MMNVI trên tÃp dữ liệu Chess 81

Bảng 4.10 KÁt quả gom cām MMNVI trên tÃp dữ liệu Mushroom 81

Bảng 4.11 KÁt quả gom cām MMNVI trên tÃp dữ liệu Balance Scale 81

Bảng 4.12 KÁt quả gom cām MMNVI trên tÃp dữ liệu Zoo 81

Bảng 4.13 Đã thuÁn khiÁt tßng thß cÿa 3 thuÃt toán trên 8 bã dữ liệu 82

Bảng 4.14 Chỉ số ngÁu nhiên hiệu chỉnh (ARI) cÿa ba thuÃt toán trên 8 tÃp dữ liệu 83

Bảng 4.15 Thông tin t°¢ng há chu¿n hóa (NMI) cÿa ba thuÃt toán trên 8 tÃp dữ liệu 84

Trang 11

DANH MĀC HÌNH VẼ

Hình 3.1 Hình minh háa thuÃt toán ACBRC 47 Hình 4.1 Hình minh háa so sánh đã thuÁn khiÁt tßng thß cÿa ba thuÃt toán trên tám tÃp dữ liệu thực nghiệm 83 Hình 4.2 Hình minh háa so sánh chỉ số ngÁu nhiên hiệu chỉnh trung bình cÿa ba thuÃt toán trên tám tÃp dữ liệu thực nghiệm 84 Hình 4.3 Hình minh háa so sánh thông tin t°¢ng há chu¿n hóa cÿa ba thuÃt toán đối våi các tÃp dữ liệu có sự phân bß låp cân bằng 85

Trang 12

DANH MĀC THU¾T TOÁN

ThuÃt toán 2.1 ThuÃt toán xác đßnh låp t°¢ng đ°¢ng 17

ThuÃt toán 2.2 ThuÃt toán xác đßnh x¿p xỉ d°åi 17

ThuÃt toán 2.3 ThuÃt toán xác đßnh x¿p xỉ trên 18

ThuÃt toán 2.4 ThuÃt toán xác đßnh miền d°¢ng 19

ThuÃt toán 3.1 ThuÃt toán QuickReduct 33

ThuÃt toán 3.2 ThuÃt toán RelativeReduct 36

ThuÃt toán 3.3 ThuÃt toán CEBARKNC 38

ThuÃt toán 3.4 ThuÃt toán gom cām thuãc tính MNF 41

ThuÃt toán 4.1 ThuÃt toán TR (Total Roughness) 62

ThuÃt toán 4.2 ThuÃt toán MDA (Maximumdegree of Dependency of Attributes) 63

ThuÃt toán 4.3 ThuÃt toán MMR (Min–Min–Mean-Roughness) 65

ThuÃt toán 4.4 ThuÃt toán MGR (Mean Gain Ratio) 67

ThuÃt toán 4.5 ThuÃt MMNVI 71

Trang 13

CH¯¡NG 1 Mà ĐÀU

Ngày nay, cùng våi sự phát trißn cÿa khoa hác công nghệ, m¿ng máy tính và truyền thông đã có những b°åc phát trißn m¿nh m¿ và đ°ÿc āng dāng rãng rãi trong t¿t cả các l*nh vực đçi sống Cùng våi đó, nhu cÁu và khả năng thu thÃp, l°u trữ dữ liệu cÿa con ng°çi không ngừng tăng lên theo c¿p số nhân Våi l°ÿng dữ liệu khßng lồ hiện nay, yêu cÁu đặt ra đối våi các công cā xử lý, phân tích thông tin ngày càng cao Đặc biệt h¢n, con ng°çi luôn mong muốn thu nhÃn mãt cách tự đãng những tri thāc tiềm ¿n, mang tính dự đoán từ nguồn dữ liệu quý giá này Trong những năm qua, khám phá tri thāc (khai phá dữ liệu), hác máy, trích xu¿t quy tắc từ dữ liệu v.v đã thu hút nhiều sự chú ý cÿa các nhà khoa hác trong l*nh vực trí tuệ nhân t¿o Trên c¢ sơꄉ đó, nhiều ph°¢ng pháp khám phá tri thāc từ c¢ sơꄉ dữ liệu (CSDL) đã ra đçi

Khám phá tri thāc từ CSDL (Knowledge Discovery in Databases – KDD) là mãt l*nh vực khoa hác nhằm nghiên cāu đß t¿o ra những công cā khai phá những thông tin, tri thāc hữu ích, tiềm ¿n mang tính dự đoán trong các CSDL lån [1, 2]

Mãt quá trình chu¿n khám phá tri thāc từ CSDL bao gồm 5 công đo¿n [1]:

Công đo¿n 1 - Lựa chán dữ liệu: Là quá trình lựa chán mãt tÃp dữ liệu, hoặc kÁt hÿp

mãt số tÃp dữ liệu sẵn våi nhau đß t¿o ra mãt tÃp dữ liệu đích phù hÿp våi māc tiêu khai phá

Công đo¿n 2 - Tiền xử lý dữ liệu: Giai đo¿n này bao gồm việc lo¿i b漃ऀ hoặc làm giảm

giá trß bß nhiáu; xử lý giá trß bß thiÁu và rçi r¿c hóa thuãc tính nÁu cÁn Công đo¿n này nhằm cải thiện ch¿t l°ÿng tßng thß cÿa b¿t kỳ thông tin nào có thß đ°ÿc phát hiện từ CSDL

Công đo¿n 3 - Rút gán dữ liệu: HÁu hÁt các tÃp dữ liệu có thß chāa mãt l°ÿng d°

thừa nh¿t đßnh L°ÿng dữ liệu d° thừa này không những không há trÿ quá trình khám phá tri thāc mà trên thực tÁ còn có thß làm sai lệch kÁt quả khai phá Māc đích cÿa công đo¿n này này là tìm ra các thuãc tính (đặc tr°ng) hữu ích đß đ¿i diện cho dữ liệu và lo¿i b漃ऀ các thuãc tính không liên quan Từ đó, tiÁt kiệm đ°ÿc thçi gian xử lý trong công đo¿n khai phá dữ liệu tiÁp theo

Trang 14

Công đo¿n 4 - Khai phá dữ liệu: Áp dāng các kỹ thuÃt khai phá dữ liệu (trích xu¿t

thông tin hữu ích tiềm ¿n từ c¢ sơꄉ dữ liệu) đ°ÿc lựa chán phù hÿp våi māc tiêu cÿa nhiệm vā khám phá tri thāc Việc lựa chán kỹ thuÃt sử dāng có thß phā thuãc vào nhiều yÁu tố, bao gồm nguồn cÿa tÃp dữ liệu và các giá trß mà nó chāa

Công đo¿n 5 - Đánh giá và dián giải tri thāc Mãt khi tri thāc đã đ°ÿc khám phá, nó

s¿ đ°ÿc đánh giá về giá trß, tính hữu ích, tính måi và tính đ¢n giản Điều này có thß yêu cÁu lặp l¿i mãt số b°åc trên cÿa quá trình khám phá tri thāc Những mÁu thông tin và mối quan hệ trong dữ liệu đã đ°ÿc phát hiện s¿ đ°ÿc chuyßn sang và bißu dián ơꄉ d¿ng gÁn gũi våi ng°çi sử dāng nh° đồ thß, cây, bảng bißu, luÃt, v v

Trong 5 công đo¿n trên cÿa quá trình khám phá tri thāc từ CSDL, công đo¿n 4 là quan tráng nh¿t

Các kÁt quả nghiên cāu cùng våi những āng dāng thành công thçi gian qua cho th¿y, khám phá tri thāc từ CSDL là mãt l*nh vực khoa hác tiềm năng, mang l¿i nhiều lÿi ích, đồng thçi có °u thÁ h¢n hẳn so våi các công cā phân tích dữ liệu truyền thống Tuy nhiên, våi tốc đã tăng tr°ơꄉng cÿa dữ liệu hiện nay, việc nghiên cāu và āng dāng các kỹ thuÃt khai phá dữ liệu cũng đang gặp nhiều khó khăn, thách thāc, đòi h漃ऀi các nhà nghiên cāu phải không ngừng nß lực nhằm tìm ra những công cā đß giải quyÁt các khó khăn, thách thāc này

Mãt trong những khó khăn, thách thāc quan tráng đó chính là, cùng våi sự bùng nß nhanh chóng cÿa công nghệ, kích th°åc cÿa những tÃp dữ liệu con ng°çi thu thÃp đ°ÿc ngày càng lån Có thß th¿y, trong hÁu hÁt các āng dāng nh° dữ liệu gen, phân låp văn bản, truy xu¿t hình ảnh và truy xu¿t thông tin, chúng ta th°çng phải đối mặt våi các tÃp dữ liệu có số l°ÿng lån các thuãc tính (hay đặc tr°ng) Điều này có thß dÁn đÁn các thuÃt toán khai phá hoặc hác từ dữ liệu truyền thống trơꄉ nên chÃm l¿i và không thß xử lý thông tin mãt cách hiệu quả V¿n đề đặt ra là tr°åc khi trißn khai các thuÃt toán khai phá dữ liệu cÁn phải có ph°¢ng pháp rút gán thuãc tính cÿa CSDL mà vÁn bảo toàn đ°ÿc những thông tin cÁn khai thác Rút gán thuãc tính có thß đ°ÿc thực hiện bằng cách sử dāng các kỹ thuÃt phù hÿp, tùy thuãc vào yêu cÁu cÿa bài toán khai phá dữ liệu đặt ra Những kỹ thuÃt này có thß

đ°ÿc chia thành hai lo¿i chính, đó là biến đổi thuộc tính và lựa chọn thuộc tính [1, 3, 4, 5]

Trang 15

Phép biÁn đßi thuãc tính cố gắng xây dựng mãt không gian thuộc tính mới bằng cách

biÁn đßi không gian thuãc tính ban đÁu thành không gian có số chiều th¿p h¢n Phân tích thành phÁn chính và phân tích thành phÁn đãc lÃp là hai ph°¢ng pháp biÁn đßi thuãc tính đ°ÿc sử dāng rãng rãi [1, 4, 5]

Lựa chán thuãc tính (hay còn gái là rút gán thuãc tính) là quá trình chán ra mãt tÃp hÿp con thuãc tính từ tÃp hÿp các thuãc tính ban đÁu, våi māc tiêu lo¿i b漃ऀ càng nhiều càng tốt các thuãc tính không liên quan và d° thừa nhằm cải thiện ch¿t l°ÿng dữ liệu và giảm đã phāc t¿p về thçi gian và không gian cho việc phân tích Lựa chán thuãc tính là v¿n đề r¿t quan tráng: thā nh¿t là do các thuãc tính không liên quan không góp phÁn vào việc làm tăng đã chính xác dự đoán; thā hai là do hÁu hÁt thông tin mà nó có thß cung c¿p cho việc dự đoán đã đ°ÿc chāa trong các thuãc tính khác Lựa chán thuãc tính đ°ÿc áp dāng rãng rãi trong nhiều l*nh vực khác nhau, chẳng h¿n nh° phân lo¿i văn bản (text categorization), truy cÃp hình ảnh (image retrieval), Tin-sinh hác (bioinformatics), phát hiện xâm nhÃp m¿ng (intrusion detection) , v v [1, 3, 5]

Trong công đo¿n 4 cÿa quá trình khai phá dữ liệu, hai kỹ thuÃt quan tráng, th°çng đ°ÿc sử dāng nh¿t là kỹ thuÃt phân låp (Classification) và kỹ thuÃt gom cām dữ liệu (Data clustering) [1]

Phân låp là ph°¢ng pháp phân tích dữ liệu đß trích xu¿t các quy tắc sắp xÁp các đối t°ÿng vào mãt trong các låp đã biÁt dựa trên các giá trß sẵn có cÿa các thuãc tính Phân låp còn đ°ÿc gái là hác có giám sát (supervised learning) Mãt số kỹ thuÃt c¢ bản đß phân låp dữ liệu là quy n¿p cây quyÁt đßnh (decision tree induction), phân låp Bayes, m¿ng n¢-ron nhân t¿o (Neural network), và ph°¢ng pháp máy véc t¢ há trÿ (Support vector machines - SVM)

Gom cām dữ liệu là ph°¢ng pháp nhóm các đối t°ÿng t°¢ng tự nhau trong tÃp dữ liệu vào các cām sao cho các đối t°ÿng thuãc cùng mãt cām là t°¢ng đồng còn các đối t°ÿng thuãc các cām khác nhau s¿ không t°¢ng đồng Gom cām dữ liệu là mãt ph°¢ng pháp hác không có giám sát (unsupervised learning) Không giống nh° phân låp dữ liệu, gom cām dữ liệu không đòi h漃ऀi phải biÁt tr°åc nhãn låp cÿa các mÁu dữ liệu hu¿n luyện Khi bắt đÁu quá trình ta không biÁt tr°åc các cām dữ liệu s¿ nh° thÁ nào Vì vÃy, thông

Trang 16

th°çng cÁn có các chuyên gia về l*nh vực giúp đánh giá các cām thu đ°ÿc sau khi thực hiện mãt kỹ thuÃt gom cām Gom cām dữ liệu đ°ÿc sử dāng nhiều trong các āng dāng, chẳng h¿n trong phân lo¿i các loài thực vÃt, phân đo¿n khách hàng, phân lo¿i trang web v.v Ngoài ra, gom cām dữ liệu còn có thß đ°ÿc sử dāng nh° mãt kỹ thuÃt trong b°åc tiền xử lý cho các thuÃt toán khai phá dữ liệu khác

Bài toán gom cām dữ liệu cũng là bài toán NP-khó Cho đÁn nay, có nhiều kỹ thuÃt gom cām heuristic đã đ°ÿc đề xu¿t và giåi thiệu trong các tài liệu về phân tích thống kê, khai phá dữ liệu, hác máy [1, 6, 7] HÁu hÁt các kỹ thuÃt gom cām trong các tài liệu đều tÃp trung vào các tÃp dữ liệu số, trong đó mái thuãc tính mô tả các đối t°ÿng đều có miền giá trß là mãt khoảng giá trß thực liên tāc, mái đối t°ÿng dữ liệu số đ°ÿc coi là mãt đißm trong không gian metric đa chiều våi mãt metric đo khoảng cách giữa các đối t°ÿng, chẳng h¿n nh° metric Euclide hoặc metric Mahalanobis Tuy nhiên, trong các āng dāng thực tián th°çng gặp phải những tÃp dữ liệu våi các thuãc tính là những thuãc tính phân lo¿i hay ph¿m trù (categorical), tāc là những thuãc tính có miền giá trß Ā hữu h¿n và không có thā tự (chẳng h¿n nh° màu tóc, quốc tßch v.v.); trong Ā chỉ đ°ÿc phép so sánh giữa các giá trß, våi b¿t kỳ Ă, ă * Ā hoặc Ă = ă hoặc Ă b ă Våi dữ liệu phân lo¿i ta không thß đßnh ngh*a hàm khoảng cách mãt cách tự nhiên

Lý thuyÁt tÃp thô - do Zdzisaw Pawlak [8] đề xu¿t vào những năm đÁu thÃp niên tám m°¢i cÿa thÁ kỷ hai m°¢i - đ°ÿc xem là công cā hữu hiệu đß giải quyÁt các bài toán xử lý thông tin có chāa dữ liệu m¢ hồ, không chắc chắn Tính từ m¢ hồ, không chắc chắn liên quan đÁn sự không nh¿t quán hoặc không ro ràng Do t° duy måi l¿, ph°¢ng pháp đãc đáo và dá cài đặt, trong h¢n ba m°¢i năm qua, lý thuyÁt tÃp thô đã đ°ÿc nghiên cāu, āng dāng và trơꄉ thành mãt công cā quan tráng trong l*nh vực xử lý thông tin thông minh [2, 9, 10, 11, 12, 13] Nó đã đ°ÿc áp dāng thành công trong mãt số l*nh vực nh° hác máy, hệ chuyên gia, nhÃn d¿ng mÁu, hệ thống há trÿ quyÁt đßnh, khám phá tri thāc trong c¢ sơꄉ dữ liệu v.v Trong nghiên cāu tính toán h¿t (granular computing), lý thuyÁt tÃp thô đã trơꄉ thành mãt trong những mô hình và công cā chính [10] Trißn váng āng dāng cÿa lý thuyÁt tÃp hÿp thô là r¿t rãng Các tÃp thô không chỉ có thß đ°ÿc sử dāng đß giải quyÁt v¿n đề thông tin không chắc chắn, mà còn có thß giúp tối °u hóa nhiều ph°¢ng pháp tính toán mềm hiện

Trang 17

có ¯u đißm chính cÿa cách tiÁp cÃn tÃp thô là nó không cÁn b¿t kỳ thông tin s¢ bã hoặc bß sung nào về dữ liệu, nh° các giá trß xác su¿t trong thống kê, māc đã thuãc thành viên (degrees of membership) cÿa các phÁn tử trong lý thuyÁt tÃp mç

Trong h¢n ba m°¢i năm qua, nghiên cāu về các thuÃt toán và āng dāng cÿa lý thuyÁt tÃp thô luôn là đề tài phát trißn m¿nh m¿ và sôi đãng Trong xu thÁ đó, nhiều nhóm nhà khoa hác, trong đó có cả các nhà khoa hác Việt nam, đã và đang quan tâm đÁn nghiên cāu v¿n đề rút gán thuãc tính trong bảng quyÁt đßnh và gom cām dữ liệu LuÃn án tiÁn s* cÿa Hoàng Thß Lan Giao [14] đã đề xu¿t các thuÃt toán heuristic tìm tÃp rút gán và tìm tÃp rút gán x¿p xỉ cÿa bảng quyÁt đßnh nh¿t quán, bao gồm thuÃt toán sử dāng các phép toán trong đ¿i số quan hệ và thuÃt toán sử dāng ma trÃn phân biệt LuÃn án tiÁn s* cÿa Nguyán Đāc ThuÁn [15] đề xu¿t thuÃt toán heuristic tìm tÃp rút gán cÿa bảng quyÁt đßnh đÁy đÿ nh¿t quán dựa vào phÿ tÃp thô LuÃn án tiÁn s* cÿa Nguyán Long Giang [16] nghiên cāu ph°¢ng pháp rút gán thuãc tính trong bảng quyÁt đßnh đÁy đÿ sử dāng metric

Có thß th¿y, āng dāng lý thuyÁt tÃp thô trong khám phá tri thāc từ CSDL trong thçi gian qua đã thu hút sự quan tâm cÿa các nhà nhiên cāu trong và ngoài n°åc Tuy nhiên, đối våi hai bài toán quan tráng là lựa chán thuãc tính và gom cām dữ liệu vÁn còn mãt số v¿n đề lån cÁn đ°ÿc tiÁp tāc thảo luÃn và cải tiÁn Đó là:

Đối våi bài toán lựa chán thuãc tính, nhiều thuÃt toán lựa chán thuãc tính hiện nay có thß lo¿i b漃ऀ thành công các thuãc tính không liên quan nh°ng không thß lo¿i b漃ऀ các thuãc tính d° thừa [17, 18, 19, 20, 21] Thuãc tính d° thừa không giúp cho quá trình dự đoán tốt h¢n vì hÁu hÁt các thông tin cÁn thiÁt đã đ°ÿc cung c¿p bơꄉi các thuãc tính còn l¿i Điều này làm ảnh h°ơꄉng nghiêm tráng đÁn đã chính xác cÿa mãt máy hác Vì vÃy, yêu cÁu đặt ra là phải nghiên cāu ph°¢ng pháp lựa chán thuãc tính måi, có thß lo¿i b漃ऀ hiệu quả đồng thçi các thuãc tính không liên quan và cả các thuãc tính d° thừa [6, 7, 22, 23, 24]

Đối våi bài toán gom cām dữ liệu phân lo¿i, mặc dù các thuÃt toán gom cām đã đ°ÿc đề xu¿t có những đóng góp quan tráng trong v¿n đề gom cām dữ liệu phân lo¿i nh°ng chúng cũng có mãt số h¿n chÁ nh° th°çng có đã chính xác th¿p và đã phāc t¿p tính toán cao Đặc biệt, trên mãt số tÃp dữ liệu chúng không thành công hoặc khó chán đ°ÿc thuãc tính gom cām tốt nh¿t [6, 7] Vì vÃy, cải tiÁn các thuÃt toán gom cām dữ liệu phân lo¿i

Trang 18

nhằm cho kÁt quả gom cām tốt h¢n các thuÃt toán c¢ bản hiện có cũng là bài toán quan tráng cÁn giải quyÁt trong khám phá tri thāc

Våi là lý do này, nghiên cāu sinh chán đề tài nghiên cāu: <Ph°¢ng pháp lựa chán thuãc tính và kỹ thuÃt gom cām dữ liệu phân lo¿i sử dāng lý thuyÁt tÃp thô=

Māc tiêu nghiên cāu cÿa luÃn án tÃp trung giải quyÁt hai v¿n đề cÿa đề tài:

Māc tiêu thā nh¿t là nghiên cāu ph°¢ng pháp lựa chán thuãc tính có thß lo¿i b漃ऀ hiệu quả đồng thçi các thuãc tính không liên quan và cả các thuãc tính d° thừa

Māc tiêu thā hai là cải tiÁn các thuÃt toán gom cām dữ liệu phân lo¿i, đặc biệt là bài toán lựa chán thuãc tính nhằm cho kÁt quả gom cām tốt h¢n các thuÃt toán c¢ bản hiện có

Đßi t°ÿng nghiên cāu cÿa luÃn án là các hệ thông tin, bảng quyÁt đßnh có thß chāa

dữ liệu m¢ hồ, không chắc chắn

Ph¿m vi nghiên cāu cÿa luÃn án bao gồm việc nghiên cāu các ph°¢ng pháp khai

phá dữ liệu theo h°ång tiÁp cÃn tÃp thô, tÃp trung vào hai v¿n đề chính nêu trong māc tiêu cÿa luÃn án

Ph°¢ng pháp nghiên cāu các v¿n đề nghiên cāu đặt ra đ°ÿc thực hiện bằng cách

tßng hÿp và đánh giá các kÁt quả nghiên cāu đã đ¿t đ°ÿc về lý thuyÁt tÃp thô trong khai phá dữ liệu từ các công trình đăng trên các t¿p chí khoa hác chuyên ngành uy tín trong và ngoài n°åc Từ đó đề xu¿t các kỹ thuÃt, thuÃt toán måi, cài đặt, tính toán, so sánh và đánh giá kÁt quả thực nghiệm, chāng minh tính hiệu quả cÿa các thuÃt toán

Bß cāc cÿa lu¿n án bao gồm ch°¢ng mơꄉ đÁu, ba ch°¢ng nãi dung chính, ch°¢ng kÁt

luÃn, các công trình nghiên cāu đã thực hiện và danh māc tài liệu tham khảo Ch°¢ng 2 trình bày các khái niệm c¢ bản cÿa lý thuyÁt tÃp thô cùng våi mãt số khái niệm liên quan từ lý thuyÁt thông tin, khái quát về khai phá dữ liệu và tiềm năng āng dāng lý thuyÁt tÃp thô trong khai phá dữ liệu Ch°¢ng 3 trình bày bài toán lựa chán thuãc tính và mãt số thuÃt toán hiệu quả hiện có theo tiÁp cÃn tÃp thô, những khó khăn thách thāc; trên c¢ sơꄉ đó đề xu¿t thuÃt toán måi rút gán thuãc tính sử dāng ph°¢ng pháp gom cām thuãc tính Ch°¢ng 4 trình bày bài toán gom cām trong khai phá dữ liệu, mãt số ph°¢ng pháp gom cām hiệu quả hiện có; h¿n chÁ cÿa chúng và đề xu¿t thuÃt toán gom cām dữ liệu phân lo¿i sử dāng

Trang 19

lý thuyÁt tÃp thô kÁt hÿp các khái niệm entropy trong lý thuyÁt thông Cuối cùng, ch°¢ng kÁt luÃn nêu những đóng góp cÿa luÃn án và các h°ång phát trißn

Đóng góp chính cÿa lu¿n án đ°ÿc trình bày trong ch°¢ng 3, ch°¢ng 4

Ch°¢ng 3 đề xu¿t mãt thuÃt toán tìm toán tÃp rút gán trong bảng quyÁt đßnh bằng cách sử dāng phép gom cām thuãc tính våi tên gái ACBRC (Attribute Clustering Based Reduct Computing – Tính toán tÃp rút gán dựa vào gom cām thuãc tính) ThuÃt toán đề xu¿t ho¿t đãng trong ba công đo¿n chính Trong công đo¿n đÁu, các thuãc tính không liên quan s¿ bß lo¿i b漃ऀ T¿i công đo¿n thā hai, các thuãc tính có liên quan đ°ÿc phân chia thành mãt số cām thích hÿp bằng ph°¢ng pháp gom cām Phân ho¿ch Xung quanh Medoids (Partitioning Around Medoids - PAM) våi mãt metric đặc biệt trong không gian thuãc tính là BiÁn thß Thông tin Chu¿n hóa (Normalized Variation of Information) Trong công đo¿n thā ba, mãt thuãc tính đ¿i diện cho mái cām đ°ÿc chán là thuãc tính có đã liên quan lån nh¿t våi thuãc tính quyÁt đßnh; các thuãc tính đ°ÿc lựa chán t¿o thành mãt tÃp rút gán x¿p xỉ

Vì trong mái cām gom đ°ÿc các thuãc tính là t°¢ng tự nhau, việc chỉ chán mãt thuãc tính từ mái cām đ°a vào tÃp rút gán t¿i công đo¿n ba cÿa thuÃt toán cho phép lo¿i b漃ऀ đ°ÿc các thuãc tính d° thừa đối våi nhiệm vā phân låp dữ liệu Đồng thçi, bằng cách l¿y t¿t cả đ¿i diện cÿa các cām làm tÃp rút gán thuÃt toán đã xét đÁn t¿t cả các thuãc tính liên quan, trong đó có thß có các thuãc tính kÁt hÿp våi nhau tác đãng đÁn kÁt quả phân låp

Đß đánh giá thuÃt toán ACBRC, luÃn án đã tiÁn hành cài đặt, tính toán thực nghiệm trên các tÃp dữ liệu chu¿n l¿y từ kho dữ liệu UCI [25] KÁt quả thực nghiệm cho th¿y thuÃt toán đề xu¿t có khả năng tính toán tÃp rút gán x¿p xỉ có kích th°åc nh漃ऀ và đã chính xác phân låp cao so våi các thuÃt toán đem so sánh, khi số cām dùng đß phân chia các thuãc tính đ°ÿc lựa chán mãt cách thích hÿp

Ch°¢ng 4 luÃn án đề xu¿t mãt thuÃt toán måi gom cām dữ liệu phân lo¿i våi tên gái MMNVI (Minimum Mean Normalized Variation of Information - BiÁn thß Thông tin Chu¿n hóa Trung bình Nh漃ऀ nh¿t (MMNVI) MMNVI thuãc lo¿i ph°¢ng pháp gom cām

Trang 20

phân c¿p, phân phân đôi dÁn tÃp các đối t°ÿng thành các cām T¿i mái b°åc lặp thuÃt toán thực hiện ba b°åc chính sau:

- Lo¿i b漃ऀ t¿t cả các thuãc tính chỉ nhÃn mãt giá trß;

- Chán thuãc tính phân cām là thuãc tính có giá trß biÁn thß thông tin chu¿n hóa trung bình (MNVI) nh漃ऀ nh¿t;

- L¿y låp t°¢ng đ°¢ng sinh ra bơꄉi thuãc tính phân cām có tßng entropy cÿa mái thuãc tính nh漃ऀ nh¿t làm mãt cām và hÿp cÿa t¿t cả các låp t°¢ng đ°¢ng còn l¿i làm tÃp dữ liệu cÁn phân chia tiÁp

T¿i b°åc lặp đÁu tiên, MMNVI l¿y tÃp t¿t cả các đối t°ÿng ban đÁu làm tÃp dữ liệu cÁn phân chia Quá trình phân cām trên lặp l¿i cho đÁn khi đ¿t đ°ÿc số cām quy đßnh tr°åc Đß thực hiện b°åc thā hai, MMNVI sử dāng khái niệm <biÁn thß chu¿n hóa cÿa thông tin= trong lý thuyÁt thông tin, mãt đã đo khoảng cách phß quát trong không gian thuãc tính

KÁt quả thử nghiệm trên các tÃp dữ liệu thực từ UCI cho th¿y thuÃt toán MMNVI có thß đ°ÿc sử dāng thành công trong việc gom cām dữ liệu phân lo¿i Nó t¿o ra kÁt quả gom cām tốt h¢n hoặc t°¢ng đ°¢ng h¢n våi các thuÃt toán c¢ bản đem so sánh

Các đóng góp chính trên đây đã đ°ÿc đăng trong hai bài báo trên Journal of Computer Science and Cybernetics, năm 2022 và năm 2023 Ngoài các đóng góp chính trình bày trong luÃn án, nghiên cāu sinh là đồng tác giả cÿa có mãt số kÁt quả khác liên quan đÁn đề tài luÃn án, bao gồm mãt bài báo quốc tÁ và ba báo cáo hãi thảo khoa hác trong n°åc

Trang 21

CH¯¡NG 2 KHÁI QUÁT VÀ LÝ THUY¾T T¾P THÔ VÀ ĀNG DĀNG TRONG KHAI PHÁ DĂ LIàU

2.1 Mơꄉ đ

Lý thuyÁt tÃp thô – do Zdzisaw Pawlak [8] đề xu¿t vào những năm đÁu thÃp niên tám m°¢i cÿa thÁ kỷ hai m°¢i – đ°ÿc xem là công cā hữu hiệu đß giải quyÁt các bài toán chāa dữ liệu m¢ hồ, không chắc chắn Từ khi ra đçi cho đÁn nay, lý thuyÁt tÃp thô đ°ÿc áp dāng rãng rãi trong nhiều l*nh vực khác nhau cÿa khoa hác máy tính nh° trí tuệ nhân t¿o, hệ chuyên gia, hệ há trÿ quyÁt đßnh, khám phá tri thāc từ c¢ sơꄉ dữ liệu, v.v

Trong lý thuyÁt tÃp thô, mái đối t°ÿng cÿa tÃp vũ trā Ā đều hàm chāa mãt l°ÿng thông tin nh¿t đßnh (dữ liệu, tri thāc) liên quan Thông tin này có thß đ°ÿc thß hiện bằng mãt số thuãc tính (attribute) hay còn gái là đặc tr°ng (feature) Các thuãc tính mô tả đối t°ÿng Các đối t°ÿng có mô tả giống nhau đ°ÿc coi là không thß phân biệt đ°ÿc đối våi thông tin có sẵn Mối quan hệ không phân biệt là c¢ sơꄉ toán hác cÿa lý thuyÁt tÃp thô Nó t¿o ra sự phân chia tÃp vũ trā thành các khối đối t°ÿng không thß phân biệt đ°ÿc, đ°ÿc gái là các tÃp hÿp c¢ bản, có thß đ°ÿc sử dāng đß xây dựng tri thāc về mãt thÁ giåi thực hoặc trừu t°ÿng B¿t kỳ tÃp con ÿ nào cÿa tÃp vũ trā Ā đều có thß đ°ÿc bißu thß theo các khối này mãt cách

chính xác hoặc x¿p xỉ

Ch°¢ng này trình bày các khái niệm c¢ bản cÿa lý thuyÁt tÃp thô, quy trình khám phá tri thāc từ c¢ sơꄉ dữ liệu và khả năng āng dāng cÿa cÿa lý thuyÁt về tÃp thô trong khai phá dữ liệu Các v¿n đề c¢ bản trình bày trong ch°¢ng này là c¢ sơꄉ cho việc nghiên cāu đề xu¿t các ph°¢ng pháp måi rút gán thuãc tính, gom cām dữ liệu phân lo¿i trình bày các ch°¢ng sau

2.2 Các khái niám c¢ bÁn cÿa lý thuy¿t t¿p thô2.2.1 Há thông tin

Mãt tÃp dữ liệu có thß đ°ÿc bißu dián d°åi d¿ng mãt bảng, trong đó mái hàng bißu dián mãt đối t°ÿng, mãt tr°çng hÿp hay mãt sự kiện, mái cãt bißu dián mãt thuãc tính, mãt tính ch¿t hay mãt số đo có thß đo đ°ÿc trên mái đối t°ÿng Trong lý thuyÁt tÃp thô, mãt

Trang 22

bảng dữ liệu nh° vÃy đ°ÿc gái là mãt hệ thông tin Mãt cách hình thāc, ng°çi ta đßnh ngh*a hệ thông tin nh° sau:

Đßnh nghĩa 2.1 [8] Hệ thông tin là một bộ đôi āþ = (Ā, ý), trong đó Ā là một tập

hữu hạn, không rỗng các đối tượng, ý là một tập hữu hạn, không rỗng các thuộc tính, mỗi Ă * ý là một ánh xạ Ă ∶ Ā → āÿ , trong đó āÿ ký hiệu miền giá trị của Ă

2.2.2 Quan há không phân biát đ°ÿc và các x¿p xỉ cÿa mát t¿p hÿp

Đßnh nghĩa 2.2 [8] Cho hệ thông tin là một bộ tứ āþ = (Ā, ý) Mỗi tập con các thuộc

tính þ ⊆ ý xác định một quan hệ, ký hiệu là āāĀ(þ), gọi là quan hệ không phân biệt được, như sau:

NÁu hai đối t°ÿng (Ă, ă) * āāĀ(þ) thì hai đối t°ÿng này s¿ không phân biệt đ°ÿc bơꄉi các thuãc tính thuãc tÃp þ

Rõ ràng āāĀ(þ) là mãt quan hệ t°¢ng đ°¢ng, nó phân chia Ā thành các các låp t°¢ng đ°¢ng rçi nhau, trong đó hai đối t°ÿng thuãc cùng mãt låp nÁu chúng có cùng giá trß đối våi þ Gái Ā/āāĀ(þ) (hay viÁt tắt Ā/þ) là há cÿa t¿t cả các låp t°¢ng đ°¢ng cÿa āāĀ(þ) Våi mái đối t°ÿng ý * Ā, ký hiệu [ý]þ là låp t°¢ng đ°¢ng cÿa quan hệ āāĀ(þ) chāa phÁn tử ý, và gái [ý]þ là låp t°¢ng đ°¢ng cÿa ý trong quan hệ āāĀ(þ)

Đßnh nghĩa 2.3 [8] Cho hệ thông tin là một bộ tứ āþ = (Ā, ý, ā, ć), þ ⊆ ý và ÿ ⊆

Ā, B-xấp xỉ dưới của ÿ, ký hiệu là þ(ÿ), và þ-xấp xỉ trên của ÿ, ký hiệu là þ(ÿ), được định nghĩa tương ứng như sau:

Đßnh ngh*a trên cho th¿y nÁu đối t°ÿng ý * þÿ thì nó chắc chắn thuãc vào tÃp ÿ, còn

khi ý * þÿ thì nó có thể thuãc vào tÃp ÿ Hißn nhiên, ta có þÿ ⊆ ÿ ⊆ þÿ ÿ đ°ÿc gái là đßnh ngh*a đ°ÿc nÁu þÿ = þÿ, tr°çng hÿp ng°ÿc l¿i, ÿ đ°ÿc gái là tÃp thô våi B-biên

Trang 23

þāþ(ÿ) = þÿ 2 þÿ Mãt cách tự nhiên, mãt tÃp thô ÿ có thß đ°ÿc x¿p xỉ bằng þÿ

và/hoặc þÿ

Đßnh nghĩa 2.4 [8] Cho hệ thông tin āþ = (Ā, ý), þ ⊆ ý và ÿ ⊆ Ā Độ chính xác

của xấp xỉ ÿ thông qua þ được định nghĩa bởi

�㗼þ(ÿ) = |þÿ| |þÿ|

(2.4)

Trong suốt luÃn án này, |ÿ| ký hiệu số phÁn tử cÿa tÃp ÿ

Đßnh nghĩa 2.5 [8] Cho hệ thông tin āþ = (Ā, ý) , þ ⊆ ý và ÿ ⊆ Ā Độ thô

(roughness) của ÿ đối với þ được định nghĩa là

ýþ(ÿ) = �㗼þ(ÿ) = 1 2|þ(ÿ)| |þ(ÿ)|

(2.5)

Hißn nhiên, 0 f ýþ(ÿ) f 1 NÁu ýþ(ÿ) = 0, thì þÿ = þÿ, þ-biên cÿa ÿ là tÃp ráng, và ÿ là tÃp ro đối våi þ NÁu ýþ(ÿ) < 1, thì þÿ ⊂ þÿ, þ-biên cÿa ÿ là khác ráng, và ÿ là tÃp thô đối våi þ

2.2.3 BÁng quy¿t đßnh

Đßnh nghĩa 2.6 [8, 10] Bảng quyết định là một hệ thông tin dạng Āÿ = (Ā, ÿ * {ą}),

trong đó ą + ÿ là một thuộc tính riêng biệt được gọi là thuộc tính quyết định Các thuộc tính trong ÿ được gọi là các thuộc tính điều kiện

Đßnh nghĩa 2.7 [8, 10] Cho Āÿ = (Ā, ÿ * {ą}) là một bảng quyết định và tập con

thuộc tính điều kiện þ ⊆ ÿ Vùng dương của ą đối với þ, ký hiệu là ăĂþþ(ą), được xác định như sau

(2.6)

Trang 24

Vùng d°¢ng ăĂþþ(ą) bao gồm những đối t°ÿng chắc chắn có thß đ°ÿc phân vào mãt số låp quyÁt đßnh bằng cách kißm tra t¿t cả các thuãc tính có trong þ NÁu ăĂþþ(ą) = Ā, thì bảng quyÁt đßnh Āÿ là nh¿t quán, ng°ÿc l¿i Āÿ là không nh¿t quán

Đßnh nghĩa 2.8 [8, 10] Cho Āÿ = (Ā, ÿ * {ą}) là một bảng quyết định, thuộc tính

Ąþÿ được gọi là không cần thiết trong bảng quyết định DT nếu

ngược lại,Ą được gọi là cần thiết

Đßnh nghĩa 2.9 [8, 10] Bảng quyết định Āÿ = (Ā, ÿ * {ą}) được gọi là độc lập nếu

mọi thuộc tính Ąþÿ đều cần thiết Tập tất cả các thuộc tính cần thiết trong DT được gọi là tập lõi và được ký hiệu ÿąÿĆ(ÿ) Lúc đó, một thuộc tính cần thiết còn được gọi là thuộc tính lõi

Đßnh nghĩa 2.10 [8, 10] Tập các thuộc tính ý ý ý được gọi là một rút gọn của bảng

quyết định Āÿ = (Ā, ÿ * {ą}) nếu nó là tập con tối tiểu thỏa mãn POSR(d) = POSC(d) Như vậy, tập rút gọn là tập con tối tiểu các thuộc tính có khả năng phân lớp đúng các đối tượng trong Ā như toàn bộ tập thuộc tính ÿ

Rõ ràng là có thß có nhiều tÃp rút gán cÿa ÿ TÃp t¿t cả các tÃp rút gán cÿa bảng quyÁt đßnh DT đ°ÿc ký hiệu là ýĆą(ÿ) Mãt thuãc tính là cÁn thiÁt khi và chỉ khi nó thuãc vào

mái tÃp rút gán cÿa C Điều đó đ°ÿc thß hiện trong mệnh đề sau

Mánh đÁ 2.1 [8, 10] Cho bảng quyết định Āÿ = (Ā, ÿ * {ą}) Ta có:

ÿĂýā(ÿ) = ⋂ ý

Đßnh nghĩa 2.11 [8, 10] Cho bảng quyết định Āÿ = (Ā, ÿ * {ą}) Với tập con þ ⊆

ÿ, độ phụ thuộc ÿþ(ą) của ą vào þ được định nghĩa như sau:

Trang 25

Rõ ràng, 0 f ÿþ(ą) f 1 NÁu ÿþ(ą) = 1, thì ta nói rằng ą phā thuãc hoàn toàn vào þ, còn nÁu 0 < ÿþ(ą) < 1, thì ą phā thuãc vào þ våi māc đã ÿþ(ą) Khi ÿþ(ą) = 0, ta nói rằng ą không phā thuãc vào þ

2.2.4 Các khái niám lý thuy¿t thông tin liên quan

Cho āþ = (Ā, ý) là mãt hệ thống thông tin, thuãc tính Ă * ý Hệ thống thông tin āþ có thß đ°ÿc xem nh° mãt quÁn thß thống kê và Ă là mãt biÁn ngÁu nhiên rçi r¿c Giả sử āÿ = {ý1, ý2, & , ýă}, Ā/āāĀ(Ă) = {ÿ1, ÿ2, & , ÿă} Khi đó, phân phối xác su¿t cÿa Ă có thß đ°ÿc xác đßnh bơꄉi:

ă(Ă = ýÿ) = ă(ýÿ) = |ÿÿ| |Ā| ,⁄ ÿ = 1, & , ă (2.10) Các phân phối xác su¿t liên quan khác có thß đ°ÿc xác đßnh t°¢ng tự Cā thß, ă(Ă, ă)

là phân phối xác su¿t chung cÿa Ă và ă, và ă(Ă|ă) là phân phối xác su¿t có điều kiện cÿa Ă cho tr°åc ă Giả sử Ā āāĀ(Ă)⁄ = {{ÿ1, ÿ2, & , ÿă}} và Ā āāĀ(ă)⁄ = {{Ā1, Ā2, & , ĀĄ}}, khi đó

ă(Ă = ýÿ, ă = þĀ) = ă(ýÿ, þĀ) = |ÿÿ) ĀĀ| |Ā|⁄ ,

ă(Ă = ýÿ | ă = þĀ) = ă(ýÿ|þĀ) = |ÿÿ ) ĀĀ| |Ā⁄ Ā| , ÿ = 1, & , ă, Ā = 1, & , Ą

Đßnh nghĩa 2.12 [26] Cho hệ thông tin āþ = (Ā, ý) và thuộc tính Ă * ý Shannon

entropy (gọi tắt là entropy) của Ă là một đại lượng Ā(Ă) xác định theo công thức sau:

Ā(Ă) = 2 ∑ ă(Ă = ýÿ)log2ă(Ă = ýÿ)

ăÿ=1

(2.11)

våi quy °åc 0 × ĂąĈ20 = 0

Đối våi thuãc tính, Entropy Ā(Ă) là th°åc đo đo māc đã hán lo¿n (không chắc chắn) trong vect¢ cãt liên kÁt våi thuãc tính Ă Giá trß nh漃ऀ nh¿t cÿa entropy Ā(Ă) là 0, giá trß này xảy ra khi t¿t cả các thành phÁn trong vect¢ liên kÁt là nh° nhau, không có sự rối lo¿n Giá trß lån nh¿t cÿa entropy là ĂąĈ2|āÿ|, xảy ra khi t¿t cả các thành phÁn trong vect¢ liên kÁt

Trang 26

đều khác nhau Giá trß entropy càng lån thì māc đã hán lo¿n càng cao Khái niệm về entropy có thß đ°ÿc khái quát cho tr°çng hÿp có hai và nhiều thuãc tính

Đßnh nghĩa 2.13 [26] Cho hệ thông tin āþ = (Ā, ý) và hai thuộc tính Ă, ă * ý

Entropy đồng thời của Ă và ă là một đại lượng Ā(Ă, ă) xác định theo công thức sau:

Ā(Ă, ă) = 2 ∑ ∑ ă(Ă = ýÿ, ă = þĀ)log2ă(Ă = ýÿ, ă = þĀ)

Entropy Ā(Ă, ă) bißu thß māc đã không chắc chắn cÿa hai thuãc tính Ă và ă

Đßnh nghĩa 2.14 [26] Cho hệ thông tin āþ = (Ā, ý) và hai thuộc tính Ă, ă * ý

Entropy có điều kiện của Ă khi đã biết ă là đại lượng Ā(Ă|ă) xác định bởi:

Ā(Ă|ă) xác đßnh l°ÿng entropy (tāc là đã không chắc chắn) còn l¿i cÿa thuãc tính Ă khi đã biÁt giá trß cÿa mãt thuãc tính ă Áp dāng các công thāc (2.11), (2.12) và (2.13) ta có:

Đßnh nghĩa 2.15 [26] Cho hệ thông tin āþ = (Ā, ý) và hai thuộc tính Ă, ă * ý Thông

tin tương hỗ giữa hai thuộc tính Ă và ă được định nghĩa:

Thông tin tin t°¢ng há ā(Ă; ă) là hàm không âm và đối xāng, tāc là ā(Ă; ă) g 0 và ā(Ă; ă) = ā(ă; Ă) ā(Ă; ă) là l°ÿng thông tin mà Ă và ă chia sẻ cho nhau; nó cho biÁt thông tin về thuãc tính này s¿ làm giảm đ°ÿc bao nhiêu đã không chắc chắn cÿa thuãc tính kia

Thông tin tin t°¢ng há giữa Ă và ă còn đ°ÿc gái là thông tin có thêm đ°ÿc về Ă khi biÁt ă

Đßnh nghĩa 2.16 [26, 27] Cho hệ thông tin āþ = (Ā, ý) và hai thuộc tính Ă, ă * ý

Biến thể thông tin chuẩn hóa āāā(Ă, ă) giữa Ă và ă được xác định như sau:

Trang 27

āāā(Ă, ă) = 1 2Ā(Ă, ă)ā(Ă; ă) =Ā(Ă|ă) + Ā(ă|Ă)Ā(Ă, ă) (2.16)

Đßnh lý 2.1 [27] āāā(Ă, ă) là một metric trên không gian của các thuộc tính, nghĩa

là đối với mọi Ă, ă, Ą * ý, ta đều có:

(i) āāā(Ă, ă) g 0 và đẳng thức xảy ra khi và chỉ khi Ă = ă, (ii) āāā(Ă, ă) = āāā(ă, Ă),

(iii) āāā(Ă, ă) + āāā(ă, Ą) g āāā(Ă, Ą)

Đß chāng minh NVI là mãt metric, tr°åc hÁt ta chāng minh b¿t đẳng thāc sau

trong đó Ă, ă và Ą là 3 thuãc tính b¿t kỳ

ThÃt vÃy, ta có Ā(Ă|Ą) f Ā(Ă, Ą|ă) = Ā(Ă|Ą, ă) + Ā(Ą|ă) f Ā(Ă|Ą) + Ā(Ą|ă) (b¿t đẳng thāc cuối cùng đúng vì khi có thêm điều kiện luôn làm giảm entropy)

Dá th¿y āāā(Ă, ă) g 0, d¿u bằng xảy ra khi Ă = ă, và āāā(Ă, ă) = āāā(ă, Ă).Do đó đß chứng tỏ NVI là mãt metric, ta chỉ cÁn chāng minh NVI th漃ऀa mãn b¿t đẳng thāc tam giác, ngh*a là āāā(Ă, ă) f āāā(Ă, ă) + āāā(Ą, Ă) Ā(ă) + Ā(Ă|Ą) + Ā(Ą|ă)

=Ā(Ă|Ą) + Ā(Ą|ă)Ā(Ă|Ą) + Ā(ă, Ą)=Ā(Ă|Ą) + Ā(ă, Ą)Ā(Ă|Ą) +Ā(Ă|Ą) + Ā(ă, Ą)Ā(Ą|ă)

Trang 28

āāā(Ă, ă) f āāā(Ă, ă) + āāā(Ą, Ă) ∎

Giá trß cÿa āāā(Ă, ă) nằm trong khoảng [0,1] āāā(Ă, ă) cũng là mãt metric phß quát theo ngh*a nÁu mãt đã đo khoảng cách nào đó khác xác đßnh Ă và ă là gÁn nhau, thì NVI cũng s¿ đánh giá chúng gÁn nhau

Mặc dù các đã đo entropy trên đây đ°ÿc đßnh ngh*a cho các thuãc tính phân lo¿i hoặc rçi r¿c, chúng cũng có thß đ°ÿc xác đßnh cho các thuãc tính liên tāc, nÁu miền giá trß cÿa các thuãc tính này đ°ÿc rçi r¿c hóa tr°åc mãt cách thích hÿp [27]

2.3 Mát sß thu¿t toán hiáu quÁ cÿa lý thuy¿t t¿p thô

PhÁn này trình bày khái quát mãt số thuÃt toán hiệu quả trên các bảng dữ liệu lån, đó là các thuÃt toán tìm låp t°¢ng đ°¢ng, tÃp x¿p xỉ trên, tÃp x¿p xỉ d°åi và miền d°¢ng

Trang 29

Thu¿t toán 2.1 ThuÃt toán xác đßnh låp t°¢ng đ°¢ng

Đầu vào: Tập đối tượng Ā, tập thuộc tính þ

Đầu ra: Tập các lớp tương đương ÿ trong Ā theo quan hệ āāĀ(þ), (tức là phân

Thu¿t toán 2.2 ThuÃt toán xác đßnh x¿p xỉ d°åi

Đầu vào: Tập đối tượng Ā, tập thuộc tính þ, tập các đối tượng ÿ Đầu ra: Tập các đối tượng þÿ

Thuật toán:

Bước 1: Khởi tạo þÿ = ∅;

Xác định phân hoạch ă của tập vũ trụ Ā theo quan hệ āāĀ(þ) Bước 2: Ā1 = Ā

Nếu: Ā1 b ∅

Thì: Thực hiện bước 3;

Trang 30

Ngược lại: Thực hiện bước 5

Thu¿t toán 2.3 ThuÃt toán xác đßnh x¿p xỉ trên

Đầu vào: Tập đối tượng Ā, tập thuộc tính þ, tập các đối tượng ÿ Đầu ra: Tập các đối tượng þ̅ÿ

Thuật toán:

Bước 1: Khởi tạo þ̅ÿ = ∅;

Xác định phân hoạch ă của tập vũ trụ Ā theo quan hệāāĀ(þ)s

Trang 31

Thu¿t toán 2.4 ThuÃt toán xác đßnh miền d°¢ng

Đầu vào: Hệ thông tin þ = (Ā, ý, ā, ć), ý = ÿ * Ā

Thuật toán:

Bước 1: Xác định các lớp tương đương ÿ1ÿ, ÿ2ÿ, & ÿăÿ của quan hệ āāĀ(ÿ) Bước 2: ăĂþÿ(Ā) = ∅

Bước 3:

Với mọi: Ā = 1,2, & , ă

Nếu: mọi đối tượng trong ÿÿÿ bằng nhau tại tất cả các thuộc tính trong Ā

Thì: ăĂþÿ(Ā) = ăĂþÿ(Ā) * ÿÿÿ

Hết nếu Hết với mọi

Các thuÃt toán trên có đã phāc t¿p thçi gian Ă(āĄĂąĈĄ) và đã phāc t¿p không gian là

Ă(Ą), våiĄ là số đối t°ÿng cÿa tÃp Ā, ā là số thuãc tính cÿa tÃp ý

2.4 Āng dāng cÿa lý thuy¿t t¿p thô trong khám phá tri thāc tÿ c¢ sơꄉ dă liáu

Lý thuyÁt tÃp thô có thß đ°ÿc āng dāng vào hÁu hÁt các công đo¿n cÿa quá trình khám phá tri thāc từ dữ liệu D°åi đây là mãt số āng dāng cā thß cÿa lý thuyÁt tÃp thô trong quá trình khám phá tri thāc từ c¢ sơꄉ dữ liệu [9, 10, 11, 13, 28]

(1) TiÁn xā lý dă liáu Våi giả thiÁt mô hình tối thißu, lý thuyÁt tÃp thô đ°ÿc sử dāng

đß rút gán và làm s¿ch dữ liệu cho các phân tích tiÁp theo Mãt cách cā thß, đối våi công đo¿n tiền xử lý dữ liệu, lý thuyÁt tÃp thô là công cā hữu hiệu giải quyÁt các v¿n đề d°åi đây [9, 10, 11]

- Xử lý các giá trß thiÁu

- Rçi r¿c hóa dữ liệu Lý thuyÁt tÃp thô cho phép t¿o ra các phép rçi r¿c hóa dữ liệu bảo toàn các låp quyÁt đßnh trong mãt bảng quyÁt đßnh

- Rút gán dữ liệu

Trang 32

Trong lý thuyÁt tÃp thô v¿n đề lựa chán thuãc tính trong khai phá dữ liệu đ°ÿc đ°a về bài toán tìm tÃp thuãc tính rút gán Các công cā sử dāng đß tìm tÃp rút gán là quan hệ không phân biệt giữa các cá thß và các thuÃt toán tìm tÃp rút gán Sử dāng các công cā này ng°çi ta có thß tìm đ°ÿc tÃp các thuãc tính nh漃ऀ nh¿t nhằm lo¿i b漃ऀ những thuãc tính d° thừa, không cÁn thiÁt cho nhiệm vā khai phá; sau đó, dựa vào tÃp thuãc tính rút gán này có thß tìm ra các quy luÃt chung hoặc các mÁu bißu dián dữ liệu

(2) Khai phá dă liáu Trong công đo¿n khai phá dữ liệu, lý thuyÁt tÃp thô có thß

đ°ÿc sử dāng giải quyÁt các v¿n đề sau [9, 10, 11, 13, 28]:

- Phân låp dữ liệu Là māc đích đÁu tiên lý thuyÁt tÃp thô h°ång tåi Hiện nay, các công cā tÃp thô có khả năng giải quyÁt bài toán phân låp trong cả hai tr°çng hÿp, bảng thông tin nh¿t quán và không nh¿t quán

- Gom cām dữ liệu Ngoài khả năng giải quyÁt hiệu quả bài toán phân låp, gÁn đây mãt số nghiên cāu āng dāng lý thuyÁt tÃp thô vào v¿n đề gom cām cũng đã đ°ÿc thực hiện - Phát hiện luÃt kÁt hÿp Phép phân tích sự phā thuãc giữa các thuãc tính trong lý thuyÁt tÃp thô có thß đ°ÿc sử dāng đß phát hiện luÃt kÁt hÿp, l°ÿng hóa māc đã kÁt hÿp giữa các tÃp thuãc tính

Có thß nói lý thuyÁt tÃp thô là công cā hữu hiệu cho quá trình khám phá tri thāc từ c¢ sơꄉ dữ liệu Tuy vÃy, các kÁt quả nghiên lý thuyÁt và āng dāng đÁn nay vÁn còn những h¿n chÁ Những h¿n chÁ nßi bÃt cÿa lý thuyÁt tÃp thô kinh đißn là [9, 10, 11, 13]:

- Dữ liệu khai phá phải là rçi r¿c, trong khi phÁn lån các c¢ sơꄉ dữ liệu thực tián th°çng chāa cả các thuãc tính liên tāc

- Dữ liệu khai phá phải đÁy đÿ, không bß nhiáu trong khi dữ liệu cÿa phÁn lån các c¢ sơꄉ dữ liệu thực tián th°çng bß thiÁu và/hoặc chāa nhiáu

- Tri thāc khám phá đ°ÿc dựa trên lý thuyÁt tÃp thô th°çng nh¿y cảm våi sự biÁn đãng cÿa dữ liệu

- Các thuÃt toán khai phá dữ liệu dựa vào lý thuyÁt tÃp thô th°çng có đã phāc t¿p cao

Trang 33

Có thß th¿y, lý thuyÁt tÃp thô đã đ°ÿc āng dāng vào hÁu hÁt các công đo¿n cÿa quá trình khám phá tri thāc từ dữ liệu Trong đó, rút gán thuãc tính đ°ÿc xem là āng dāng quan tráng nh¿t cÿa lý thuyÁt tÃp thô trong khai phá dữ liệu Māc tiêu cÿa rút gán thuãc tính là lo¿i b漃ऀ các thuãc tính d° thừa đß tìm ra tÃp con các thuãc tính cốt yÁu và cÁn thiÁt trong c¢ sơꄉ dữ liệu Đối våi mãt bảng quyÁt đßnh (tÃp dữ liệu dành cho bài toán phân låp, có các thuãc tính điều kiện và thuãc tính quyÁt đßnh), rút gán thuãc tính là tìm tÃp con nh漃ऀ nh¿t cÿa tÃp thuãc tính điều kiện bảo toàn thông tin cho māc đích phân låp các đối t°ÿng nh° tÃp t¿t cả các thuãc tính điều kiện ban đÁu.Các tÃp hÿp con thuãc tính nh° vÃy đ°ÿc gái là các tÃp rút gán Nói chung, trong mãt bảng quyÁt đßnh có thß tồn t¿i nhiều tÃp rút gán Trong những năm qua, nhiều ph°¢ng pháp tính toán tÃp rút gán đã đ°ÿc nghiên cāu và đề xu¿t trong cãng đồng các nhà nghiên cāu lý thuyÁt tÃp thô Các ph°¢ng pháp chính bao gồm: ph°¢ng pháp sử dāng ma trÃn phân biệt, ph°¢ng pháp dựa trên miền d°¢ng, ph°¢ng pháp sử dāng các phép toán trong đ¿i số quan hệ, ph°¢ng pháp sử dāng entropy thông tin Bên c¿nh đó, gom cām dữ liệu cũng là mãt āng dāng quan tráng trong lý thuyÁt tÃp thô trong khai phá dữ liệu Trong những năm gÁn đây, gom cām dữ liệu phân lo¿i sử dāng tÃp thô đã thu hút nhiều sự chú ý từ cãng đồng nghiên cāu khai phá dữ liệu [29, 22, 30, 31, 24, 23] Lý do là vì:

(1) Lý thuyÁt tÃp thô là công cā phân tích hiệu quả dữ liệu phân lo¿i;

(2) Lý thuyÁt tÃp thô cho phép xử lý sự không chắc chắn cÿa dữ liệu Mặc dù trong những năm qua, mãt số thuÃt toán gom cām dữ liệu phân lo¿i đã đ°ÿc đề xu¿t, nh°ng chúng không đ°ÿc thiÁt kÁ đß xử lý sự không chắc chắn trong quá trình gom cām Xử lý sự không chắc chắn trong quá trình gom cām là mãt v¿n đề quan tráng, bơꄉi vì trong nhiều āng dāng thực tÁ th°çng không có ranh giåi rõ ràng giữa các cām

2.5 K¿t lu¿n ch°¢ng 2

Nãi dung ch°¢ng 2 bao gồm 3 phÁn chính: khái quát về lý thuyÁt về tÃp thô våi các khái niệm liên quan, quy trình khám phá tri thāc từ c¢ sơꄉ dữ liệu våi các kỹ thuÃt khai phá dữ liệu c¢ bản và āng dāng cÿa cÿa lý thuyÁt về tÃp thô trong khai phá dữ liệu

Trang 34

Các khái niệm c¢ bản trình bày trong ch°¢ng này là c¢ sơꄉ đß nghiên cāu đề xu¿t các ph°¢ng pháp måi tìm tÃp rút gán trong mãt bảng quyÁt đßnh và gom cām dữ liệu phân lo¿i sử dāng tÃp thô, trình bày ơꄉ các ch°¢ng sau.

Trang 35

CH¯¡NG 3 LĄA CHàN THUàC TÍNH SĀ DĀNG LÝ THUY¾T T¾P THÔ

3.1 Mơꄉ đ

Nh° đã trình bày trong Ch°¢ng 1, trong khai phá dữ liệu, các CSDL thực tÁ th°çng có kích th°åc r¿t lån Điều này làm cho quá trình khai phá dữ liệu gặp nhiều khó khăn, thÃm chí là b¿t khả thi V¿n đề đặt ra là tr°åc khi thực hiện thuÃt toán khai thác dữ liệu cÁn phải có ph°¢ng pháp rút gán thuãc tính cÿa c¢ sơꄉ dữ liệu mà vÁn bảo toàn đ°ÿc những thông tin cÁn khai thác Rút gán thuãc tính có thß đ°ÿc thực hiện bằng cách sử dāng các kỹ thuÃt phù hÿp, tùy thuãc vào yêu cÁu cÿa bài toán khai phá dữ liệu đặt ra Những kỹ thuÃt này có thß đ°ÿc chia thành hai lo¿i chính: biÁn đßi thuãc tính (attribute transformation) và lựa chán thuãc tính (attribute selection) [1, 9, 10, 11] Kỹ thuÃt biÁn đßi thuãc tính, hay còn gái là trích xu¿t thuãc tính (attribute extraction), là việc t¿o ra mãt số nh漃ऀ h¢n các thuãc tính måi bằng cách biÁn đßi các thuãc tính ban đÁu sao cho các thuãc tính đ°ÿc t¿o ra chāa thông tin hữu ích nh¿t cho māc tiêu khai phá Ng°ÿc l¿i, kỹ thuÃt lựa chán thuãc tính chỉ lo¿i b漃ऀ những thuãc tính không cÁn thiÁt hoặc không quan tráng và giữ nguyên các tính năng còn l¿i Trong hai lo¿i kỹ thuÃt rút gán thuãc tính, kỹ thuÃt trích xu¿t thuãc tính là phāc t¿p h¢n và cho kÁt quả khó giải thích cho ng°çi dùng Tuy nhiên, thÃt khó có thß so sánh hiệu quả cÿa hai ph°¢ng pháp vì chúng đ°ÿc sử dāng trong những tình huống khác nhau

Các nghiên cāu gÁn đây cho th¿y, lý thuyÁt tÃp thô là mãt công cā r¿t hiệu quả giải quyÁt nhiều v¿n đề quan tráng trong khai phá dữ liệu, trong đó có bài toán lựa chán thuãc tính Lựa chán thuãc tính là mãt phÁn quan tráng đ°ÿc nghiên cāu trong lý thuyÁt tÃp thô và đ°ÿc xem là āng dāng quan tráng nh¿t cÿa lý thuyÁt tÃp thô trong khai phá dữ liệu Đối våi mãt bảng quyÁt đßnh, lựa chán thuãc tính là việc tìm tÃp con nh漃ऀ nh¿t cÿa tÃp thuãc tính điều kiện, bảo toàn thông tin cho māc đích phân låp các đối t°ÿng nh° tÃp t¿t cả các thuãc tính điều kiện ban đÁu Các tÃp hÿp con thuãc tính nh° vÃy đ°ÿc gái là các tập rút

gọn (reducts) [8]

Trong những năm qua, nhiều ph°¢ng pháp tính toán tÃp rút gán mãt bảng quyÁt đßnh đã đ°ÿc nghiên cāu đề xu¿t trong cãng đồng các nhà nghiên cāu lý thuyÁt tÃp thô Các

Trang 36

ph°¢ng pháp chính bao gồm: ph°¢ng pháp sử dāng ma trÃn phân biệt, ph°¢ng pháp dựa vào đã phā thuãc, ph°¢ng pháp sử dāng các phép toán trong đ¿i số quan hệ, ph°¢ng pháp sử dāng entropy thông tin

Ch°¢ng 3 này trình bày khái quát về v¿n đề lựa chán thuãc tính, các ph°¢ng pháp chính tìm tÃp rút gán cÿa mãt bảng quyÁt đßnh và đề xu¿t mãt thuÃt toán måi, våi tên gái ACBRC, dựa trên gom cām các thuãc tính

3.2 Khái quát vÁ bài toán ląa chán thuác tính

Lựa chán thuãc tính có thß đ°ÿc thực hiện bằng cách sử dāng các kỹ thuÃt phù hÿp, tùy thuãc vào yêu cÁu cÿa bài toán khai phá dữ liệu đặt ra Những kỹ thuÃt này có thß đ°ÿc chia thành hai lo¿i chính, đó là biÁn đßi thuãc tính và lựa chán thuãc tính [1, 32, 33]

Biến đổi thuộc tính là quá trình biÁn đßi không gian thuãc tính ban đÁu thành không

gian thuãc tính måi có số chiều th¿p h¢n Våi các kỹ thuÃt biÁn đßi thuãc tính, tÃp thuãc tính måi đ°ÿc t¿o ra th°çng không mang ý ngh*a vÃt lý đối våi ng°çi sử dāng và th°çng khó hißu

Lựa chọn thuộc tính là quá trình chán ra mãt tÃp hÿp con thuãc tính từ tÃp hÿp các

thuãc tính ban đÁu, våi māc tiêu lo¿i b漃ऀ càng nhiều càng tốt các thuãc tính không liên quan và d° thừa nhằm cải thiện ch¿t l°ÿng dữ liệu và giảm đã phāc t¿p về thçi gian và không gian cho việc phân tích ThÃt không may, việc tính toán t¿t cả các tÃp rút gán hay tính toán mãt tÃp rút gán tối °u (theo ngh*a có số thuãc tính nh漃ऀ nh¿t) là mãt bài toán NP- khó [3, 5] Tuy nhiên, trong thực hành th°çng không yêu cÁu tìm t¿t cả các tÃp rút gán mà chỉ cÁn tìm đ°ÿc mãt tÃp rút gán tốt nh¿t theo mãt tiêu chu¿n đánh giá nào đó là đÿ Do đó, nhiều thuÃt toán heuristic tìm kiÁm mãt tÃp rút gán x¿p xỉ đã đ°ÿc nghiên cāu và đề xu¿t [1, 3, 4, 5] Các thuÃt toán này giảm thißu đáng kß khối l°ÿng tính toán, nhç đó có thß áp dāng đối våi các bài toán có khối l°ÿng dữ liệu lån Nãi dung d°åi đây trình bày khái quát về các kỹ

Trang 37

(2) Đánh giá tÃp con

(3) Kißm tra điều kiện dừng (4) Kißm chāng kÁt quả

Hiện nay có hai cách tiÁp cÃn chính đối våi bài toán lựa chán thuãc tính bao gồm tiÁp cÃn lác (filter) và đóng gói (wrapper) [1, 3, 32].Mái cách tiÁp cÃn có những chú tráng riêng dành cho việc rút gán kích th°åc dữ liệu hay đß nâng cao đã chính xác

Våi cách tiÁp cÃn filter, các thuãc tính đ°ÿc chán chỉ dựa trên đã quan tráng cÿa chúng trong việc mô tả dữ liệu, gái là đã quan tráng cÿa thuãc tính Cho đÁn nay, Nhiều ph°¢ng pháp nhiều đánh giá đã quan tráng cÿa cÿa các thuãc tính đã đ°ÿc đề xu¿t

Ng°ÿc l¿i våi cách tiÁp cÃn filter, cách tiÁp cÃn wrapper tiÁn hành lựa chán thuãc tính bằng cách áp dāng ngay thuÃt khai phá, đã chính xác cÿa kÁt quả khai phá đ°ÿc l¿y làm tiêu chu¿n đß lựa chán các tÃp con thuãc tính

Cách tiÁp cÃn filter có °u đißm là thçi gian tính toán nhanh, nh°ng do không sử dāng thông tin nhãn låp (hác không có giám sát) cÿa các bã dữ liệu nên kÁt quả th°çng có đã chính xác không cao GÁn đây, nhiều nhà nghiên cāu đã đề xu¿t mãt số cách tiÁp cÃn lựa chán thuãc tính måi, chẳng h¿n cách tiÁp cÃn lai ghép (hybrid approach) nhằm kÁt hÿp các °u đißm cÿa cả hai cách tiÁp cÃn filter và wrapper [33].

Cũng có thß phân chia các cách tiÁp cÃn bài toán lựa chán thuãc tính thành hai lo¿i: có giám sát (supervised) và không có giám sát (unsupervised), tùy theo việc lựa chán có sử dāng hay không sử dāng thông tin nhãn låp cÿa các đối t°ÿng

Quy trình t¿o lÃp các tÃp con là v¿n đề quan tráng trong quá trình lựa chán thuãc tính T¿o lÃp tÃp con thuãc tính là quá trình tìm kiÁm liên tiÁp nhằm t¿o ra các tÃp con đß tiÁn hành đánh giá và lựa chán Quy trình này bao gồm việc chán đißm xu¿t phát, chán h°ång tìm kiÁm và chiÁn l°ÿc tìm kiÁm tÃp con Giả sử có Ą thuãc tính trong tÃp dữ liệu ban đÁu, khi đó số t¿t cả các tÃp con khác ráng từ Ą thuãc tính s¿ là 2Ą2 1 Có thß th¿y, việc tìm tÃp con tối °u theo mãt tiêu chu¿n nào đó, ngay cả khi Ą không lån lắm, cũng là mãt việc không thß Vì vÃy, ph°¢ng pháp chung đß tìm tÃp con thuãc tính tối °u là lÁn l°ÿt t¿o ra các tÃp con đß so sánh

Trang 38

Mái tÃp con sinh ra bơꄉi mãt thÿ tāc s¿ đ°ÿc đánh giá theo mãt tiêu chu¿n nh¿t đßnh và đem so sánh våi tÃp con tốt nh¿t tr°åc đó NÁu tÃp con này tốt h¢n, nó s¿ thay thÁ tÃp cũ Quá trình tìm kiÁm tÃp con thuãc tính tối °u s¿ dừng khi mãt trong bốn điều kiện sau xảy ra [32, 33]:

- Đã thu đ°ÿc số thuãc tính quy đßnh;

- Số b°åc lặp quy đßnh cho quá trình lựa chán đã hÁt;

- Việc thêm vào hay lo¿i båt mãt thuãc tính nào đó không cho mãt tÃp con tốt h¢n; - Đã thu đ°ÿc tÃp con tối °u theo tiêu chu¿n đánh giá

TÃp con tốt nh¿t cuối cùng phải đ°ÿc kißm chāng thông qua việc tiÁn hành các phép kißm đßnh, so sánh các kÁt quả khai phá våi tÃp thuãc tính <tốt nh¿t= này và tÃp thuãc tính ban đÁu trên các tÃp dữ liệu thực hoặc nhân t¿o khác nhau

Thông th°çng có hai ph°¢ng pháp t¿o lÃp các tÃp con cho việc chán lựa thuãc tính, bao gồm [32, 33]: ph°¢ng pháp bß sung dÁn (Forward Generation) và ph°¢ng pháp lo¿i b漃ऀ dÁn (Backward Generation)

T¿o lÃp theo ph°¢ng pháp bß sung dÁn bắt đÁu bằng tÃp ráng Sau đó, t¿i mái b°åc lặp mãt thuãc tính tốt nh¿t (theo tiêu chu¿n đánh giá) trong số các thuãc tính còn l¿i s¿ đ°ÿc thêm vào Quá trình t¿o lÃp dừng l¿i khi đã vét c¿n t¿t cả các thuãc tính cÿa tÃp dữ liệu ban đÁu hoặc đã tìm đ°ÿc tÃp con tối °u

Ng°ÿc l¿i våi ph°¢ng pháp bß sung dÁn, ph°¢ng pháp lo¿i b漃ऀ dÁn bắt đÁu bằng tÃp t¿t cả các thuãc tính T¿i mái b°åc lặp, mãt thuãc tính tồi nh¿t (theo tiêu chu¿n đánh giá) s¿ bß lo¿i TÃp thuãc tính ban đÁu s¿ nh漃ऀ dÁn cho đÁn khi chỉ còn l¿i mãt thuãc tính hoặc khi điều kiện dừng th漃ऀa mãn

Mãt ph°¢ng pháp khác đß t¿o lÃp các tÃp con là bắt đÁu bằng mãt tÃp con thuãc tính chán ngÁu nhiên, sau đó t¿i mái b°åc lặp lÁn l°ÿt thêm vào hoặc lo¿i båt mãt thuãc tính cũng đ°ÿc chán mãt cách ngÁu nhiên

Mãt v¿n đề quan tráng khác trong lựa chán thuãc tính là xác đßnh cách thāc đánh māc đã phù hÿp cÿa mái tÃp con Đß đánh giá mãt tÃp con thuãc tính đ°ÿc chán là tối °u phải

Trang 39

dựa trên mãt tiêu chu¿n đánh giá nh¿t đßnh, mãt tÃp con là tối °u theo tiêu chu¿n này ch°a chắc s¿ tối °u theo tiêu chu¿n khác Các tiêu chu¿n đánh giá có thß phân thành hai lo¿i: tiêu chu¿n đãc lÃp và tiêu chu¿n phā thuãc [32, 33]

Tiêu chu¿n đãc lÃp (th°çng đ°ÿc dùng trong cách tiÁp cÃn filter) đánh giá māc đã phù hÿp cÿa mãt hay mãt tÃp con thuãc tính mãt cách đãc lÃp, không thông qua áp dāng mãt thuÃt hác Các tiêu chu¿n đãc lÃp th°çng đ°ÿc sử dāng đß đánh giá các tÃp con thuãc tính đß lựa chán là: số đo khoảng cách, số đo l°ÿng thông tin thu thêm, số đo đã phā thuãc, số đo đã nh¿t quán và số đo đã t°¢ng tự

Tiêu chu¿n phā thuãc (th°çng đ°ÿc dùng trong cách tiÁp cÃn wrapper) đánh giá mãt tÃp con thuãc tính thông qua đã hiệu quả cÿa mãt thuÃt hác áp dāng trên chính tÃp thuãc tính cÁn đánh giá Trong hác có giám sát, māc đích đÁu tiên là cực tißu hóa sai số dự báo Do đó, sai số dự báo (hay đã chính xác cÿa dự báo) th°çng đ°ÿc chán làm tiêu chu¿n đß đánh giá các tÃp con thuãc tính KÁt quả tÃp con thuãc tính đ°ÿc chán dựa trên tiêu chu¿n này có khả năng dự báo cao tuy nhiên đißm h¿n chÁ là nó s¿ m¿t nhiều thçi gian tính toán

3.3 Các ph°¢ng pháp ląa chán thuác tính sā dāng lý thuy¿t t¿p thô

Trong cãng đồng tÃp thô, các thuÃt toán lựa chán thuãc tính đ°ÿc thực hiện bằng việc tìm kiÁm các rút gán (reducts) cÿa tÃp các thuãc tính, ngh*a là tìm cách rút gán tối đa tÃp các thuãc tính ban đÁu mà vÁn đảm bảo đ°ÿc những thông tin cÁn thiÁt đối våi nhiệm vā khai phá dữ liệu ThÃt không may, việc tìm kiÁm t¿t cả các tÃp rút gán là không thß thực hiện đ°ÿc trong hÁu hÁt các tr°çng hÿp vì våi tÃp dữ liệu có Ą thuãc tính s¿ có 2Ą2 1 tÃp hÿp con, khi Ą tăng số tÃp con thuãc tính s¿ tăng theo c¿p số nhân Tìm kiÁm t¿t cả các tÃp rút gán chỉ có thß đ°ÿc khi Ą t°¢ng đối nh漃ऀ

Tuy nhiên, trong āng dāng thực tián th°çng không đòi h漃ऀi tìm t¿t cả các tÃp rút gán mà chỉ cÁn tìm mãt tÃp rút gán tốt nh¿t theo mãt ngh*a nào đó là đÿ Vì vÃy, trong những năm qua nhiều thuÃt toán heuristic tìm mãt tÃp rút gán x¿p xỉ đã đ°ÿc các nhà nghiên cāu đề xu¿t Các thuÃt toán này nhằm giảm khối l°ÿng tính toán, nhç đó có thß áp dāng đối våi các tÃp dữ liệu lån Våi cách tiÁp cÃn này, các khái niệm cÿa lý thuyÁt tÃp thô đ°ÿc sử dāng đß xác mãt tiêu chu¿n đánh giá māc đã cÁn thiÁt hay quan tráng cÿa các thuãc tính, sau đó

Trang 40

chu¿n đánh giá này đ°ÿc sử dāng nh° là các hàm heuristic đßnh h°ång cho quá trình lựa chán thuãc tính trong các thuÃt toán

Các ph°¢ng pháp heuristic th°çng áp dāng mãt trong hai chiÁn l°ÿc c¢ bản tìm kiÁm tÃp rút gán, đó là bß sung dÁn và lo¿i b漃ऀ dÁn [2, 9, 13, 10] ChiÁn l°ÿc bß sung dÁn bắt đÁu våi tÃp ráng hoặc tÃp lõi Core và liên tāc bß sung thêm mãt thuãc tính t¿i mái thçi đißm cho đÁn khi có đ°ÿc mãt tÃp rút gán, hoặc mãt tÃp cha cÿa mãt tÃp rút gán ChiÁn l°ÿc lo¿i b漃ऀ dÁn bắt đÁu våi tÃp hÿp đÁy đÿ các thuãc tính và liên tāc xóa đi mãt thuãc tính t¿i mái thçi đißm cho đÁn khi có đ°ÿc mãt rút gán Từ tính ch¿t cÿa tÃp rút gán, có thß th¿y các thuÃt toán áp dāng chiÁn l°ÿc lo¿i b漃ऀ dÁn luôn dÁn đÁn mãt tÃp rút gán

Māc này tr°åc hÁt trình bày thuÃt toán kinh đißn tìm t¿t cả các tÃp rút gán sử dāng ma trÃn không phân biệt, sau đó là mãt số thuÃt toán heuristic tìm tÃp rút gán x¿p xỉ cÿa bảng quyÁt đßnh bao gồm: ph°¢ng pháp dựa trên hàm đo đã phā thuãc, ph°¢ng pháp sử dāng các phép toán trong đ¿i số quan hệ, ph°¢ng pháp sử dāng entropy thông tin Các thuÃt toán heuristic có đã phāc t¿p tính toán theo thçi gian là đa thāc, và do đó có thß áp dāng đ°ÿc trên bảng dữ liệu våi kích th°åc lån

3.3.1 Ph°¢ng pháp ląa chán thuác tính sā dāng ma tr¿n phân biát

Ph°¢ng pháp lựa chán thuãc tính sử dāng ma trÃn phân biệt là ph°¢ng pháp nhằm xác đßnh t¿t cả các tÃp rút gán trong mãt bảng quyÁt đßnh có số thuãc tính t°¢ng đối nh漃ऀ

Cho bảng quyÁt đßnh Āÿ = (Ā, ÿ * {ą}) våi tÃp các đối t°ÿng Ā = {Ă1, Ă2, , ĂĄ}, tÃp các thuãc tính điều kiện ÿ = {Ą1, Ą2, , Ąă} và thuộc tính đißu kiện ą Đß tìm t¿t cả các tÃp rút gán cÿa mãt bảng quyÁt đßnh, trong [28] Skowron đã đề xu¿t thuÃt toán sử dāng khái niệm ma trÃn phân biệt và hàm phân biệt đßnh ngh*a d°åi đây

Đßnh nghĩa 3.1 [28] Ma trận phân biệt của Āÿ là ma trận Ā(Āÿ) cỡ Ą × Ą với các

phần tử ăÿĀ xác định:

ăÿĀ = { {Ą * ÿ|Ą(Ăÿ) b Ą(ĂĀ) khi ą(Ăÿ) b ą(ĂĀ)}

Ngày đăng: 21/04/2024, 12:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w