Thuật toán K-Means

2.1.7.1 Ý tƣởng

Dựa trên độ đo khoảng cách của các đối tƣợng dữ liệu trong cụm. Thực tế, nó đo khoảng cách tới giá trị trung bình của các đối tƣợng dữ liệu trong cụm. Nó đƣợc xem nhƣ là trung tâm của cụm. Nhƣ vậy, nó khởi tạo một tập trung tâm các cụm trung tâm ban đầu và thông qua đó nó lặp lại các bƣớc gồm gán mỗi đối tƣợng tới cụm mà trung tâm gần nhất và tính toán tại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tƣợng. Quá trình lặp này dừng khi các trung tâm hội tụ.

Hình 2.2. Thiết lập để xác định danh giới các cụm ban đầu

Mục đích: Sinh ra k cụm dữ liệu {C1, C2…, Ck} từ một tập dữ liệu ban đầu gồm n đối tƣợng trong không gian d chiều Xi = (xi1,xi2, …, xid) )(i=1..n), sao cho

hàm tiêu chuẩn: k i x CiD x mi E 1 ( ) 2

đạt giá trị tối thiểu. Với mi là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối.

2.1.7.2 Thuật toán

Thuật toán phân hoạch K-means do MacQeen đề xuất trong lĩnh vực thống kê năm 1967, mục đích của thuật toán k-means là sinh ra k cụm dữ liệu {C1, C2, …,Ck} từ một tập dữ liệu chứa n đối tƣợng trong không gian d chiều Xi = (xi1, xi2, …, xid)

(i 1,n), sao cho hàm tiêu chuẩn :

k i x CiD x mi E 1 ( ) 2

đạt giá trị tối thiểu. Trong đó: mi là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tƣợng (khoảng cách Euclide). Trọng tâm của một cụm là một vectơ, trong đó giá trị của mỗi phần tử của nó là trung bình cộng của các thành phần tƣơng ứng của các đối tƣợng vectơ dữ liệu trong cụm đang xét. Tham số đầu vào của thuật toán là số cụm k, và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu. K- means bao gồm các bƣớc cơ bản nhƣ sau:

Input: Số cụm k và các trọng tâm cụm {mj}kj=1; Output: Các cụm k i i C 1,

và hàm tiêu chuẩn E đạt giá trị tối thiểu Begin

Bƣớc 1: Khởi tạo

Chọn k trọng tâm {mj}kj=1 ban đầu trong không gian Rd (d là số chiều của dữ liệu, việc chọn có thể ngẫu nhiên hoặc theo kinh nghiệm)

Bƣớc 2: Tính toán khoảng cách

Đối với mỗi điểm Xi (1<=i<=n), tính toán khoảng cách của nó tới mỗi trọng tâm mj j=1, k.

Tìm trọng tâm gần nhất đối với mỗi điểm. Bƣớc 3: Cập nhật lại trọng tâm

Đối với mỗi j=1, k, cập nhật trọng tâm cụm mj bằng các xác định trung bình cộng của các vectơ đối tƣợng dữ liệu.

Bƣớc 4: Điều kiện dừng

Nhận xét: Độ phức tạp của thuật toán là OTkn với T là số lần lặp, n số đối tƣợng của tập dữ liệu đƣa vào.

Ƣu điểm:

Độ phức tạp nhỏ: O (nkd.t), với: d là số chiều, t số vòng lặp.

K-means phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn. Nhƣợc điểm:

K-means không có khả năng tìm ra các cụm không lồi hoặc các cụm có hình dạng phức tạp, chỉ áp dụng với dữ liệu số.

Nó không khắc phục đƣợc nhiễu và các phần tử ngoại lai.

Chất lƣợng phân cụm phụ thuộc vào nhiều tham số đầu vào nhƣ: số cụm k và k trọng tâm khởi tạo ban đầu.

Số lƣợng và các tham số là do ngƣời dùng nhập, nên nếu đầu vào khác nhau thì kết quả các cụm sẽ khác nhau.

Đã có rất nhiều thuật toán kế thừa tƣ tƣởng của thuật toán k-means áp dụng trong khai phá dữ liệu để giải quyết tập dữ liệu có kích thƣớc lớn nhƣ thuật toán k- medoid, PAM, CLARA, CLARANS,...

2.2 CÁC PHƢƠNG PHÁP SUY LUẬT KHÔNG CHẮC CHẮN TRONG HỆ CHUYÊN GIA

2.2.1 Tổng quan về lý thuyết chắc chắn

Các chuyên gia thƣờng đánh giá, suy xét khi giải vấn đề. Thông tin về vấn đề có thể không đầy đủ và một vài tri thức có thể không xác thực. Vì vây, họ cần thích nghi với tình trạng này và tiếp tục các lập luận. Các lập luận này là các lập luận không chắc chắn.

Để giải quyết vấn đề này có thể sử dụng lý thuyết xác suất. Tuy nhƣ vậy sẽ cho kết luận chặt chẽ về mặt toán học nhƣng kỹ thuật này đòi hỏi cơ sở thống kê mà ít loại bài toán trong hệ chuyên giá đáp ứng đƣợc. Tuy nhiên, nếu xem hệ chuyên gia nhƣ cơ chế giải quyết vấn đề may rủi thì ngƣời ta có thể dùng các kỹ thuật lập luận không chính xác.

a. Thể hiện dấu hiệu không chắc chắn

Đối với suy luận không chính xác, cần gán giá trị (%) chắc chắn CF (Certainty Factor) cho mỗi luật. Ngƣời ta gán một nhân tố chắc chắn CF để thể hiện độ tin cậy vào dấu hiệu. Số này chạy từ -1 ứng với sai hoàn toàn đến +1 ứng với đúng hoàn toàn. Số dƣơng thể hiện sự tin cậy và số âm thể hiện sự không tin cậy. Chẳng hạn, bác sĩ phát hiện dấu hiệu nào đó có khả năng đúng là 60% thì dấu hiệu đó đƣợc gán nhân tố chắc chắn CF = 0.6.

b. Thể hiện các luật không chắc chắn

Suy luận cũng cần đƣợc gán giá trị CF. Nghĩa là mỗi luật suy luận đều đƣợc gán CF. Ví dụ 2.1: IF “có dấu hiệu thƣơng tổn” AND “Hình thái khuẩn cầu” AND “ Hình thể trên vết thƣơng là chuỗi” THEN “Chỉ định bị khuẩn cầu chuỗi”. Kết luận này chỉ chắc chắn 70% thì luật đƣợc thể hiện nhƣ sau:

IF “có dấu hiệu thƣơng tổn” AND “Hình thái khuẩn cầu” AND “ Hình thể trên vết thƣơng là chuỗi” THEN “Chỉ định bị khuẩn cầu chuỗi”, CF = 0.7.

Nếu kết luận chỉ phụ thuộc một phần vào một trong các giả thiết trong luật thì CF có thể dùng riêng cho các giả thiết đó.

c. Suy luận không chắc chắn

Có thể thấy khi độ tin cậy vào dấu hiệu đang có nhỏ hơn sự chắc chắn thì độ tin cậy này trong suy luận liên quan cũng giảm đi. Chẳng hạn, sự kiện bị viêm họng dạng hạt E không chắc chắn lắm, ngƣời ta dùng giả thuyết CF(E) <1 đó là do độ tin cậy về triệu chứng H cũng không chắc chắn CF(H) <0.7.

d. Độ tin cậy thực

Trƣớc hết, ngƣời ta tập hợp tất cả thông tin trợ giúp và gọi là độ tin cậy MB (Measure of Belief) trong giả thuyết. Việc tập hợp tiến hành theo cách tiệm cận và hoán đổi- gọi là độ đo không tin cậy MD (Measure of Disbelief). Độ tin cậy thực hay CF trong giả thuyết đƣợc tính bằng độ lệch giữa hai giá trị MB và MD.

2.2.2 Cơ sở của lý thuyết chắc chắn

Lý thuyết chắc chắn giả thiết rằng xác suất trƣớc của giả thuyết H, p(H) thể hiện độ tin cậy đƣợc giám định của chuyên gia về H. Độ không tin cậy p(~H) của chuyên

gia đƣợc coi là tùy theo ràng buộc xác suất truyền thống, tức p(H) + p(~H)= 1. Ngoài ra, còn giả thiết rằng nếu chuyên gia quan sát dấu hiệu thấy: xác suất về giả thiết có dấu hiệu (xác suất điều kiện p(H|E)) lớn hơn xác suất trƣớc (p(H)), tức là p(H|E)> p(H) đúng, thì độ tin cậy của chuyên gia về giả thuyết tăng tỷ lệ thuận đến (p(H|E) – (p(H) – p(H|E)) / (1-p(H)).

Mặt khác, nếu (H|E) < p(H) thì độ tin cậy của chuyên gia về giả thuyết sẽ giảm tỷ lệ thuận với (p(H) – p(H|E)) / p(H)

Định nghĩa: Độ đo tin cậy MB: Là giá trị bằng số thể hiện độ tin cậy tăng lên về giả thuyết H dựa trên dấu hiệu E.

Định nghĩa: Độ đo không tin cậy MD: Là giá trị bằng số thể hiện không tin tăng lên về giả thuyết dựa trên dấu hiệu E.

Các giá trị này thỏa mãn 0 MB, MD 1. Chúng đƣợc xác định hình thức theo xác suất trƣớc có điều kiện theo công thức sau:

Nếu p(H) = 1 thì MB (H,E) =1, ngƣợc lại thì MB(H,E) = (max{p(H|E), p(H)} – p(H) / (1-p(H))

Nếu p(H) = 0 thì MD(H,E) =1, ngƣợc lại thì MD(H,E) = (min{p(H|E), p(H)} – p(h)/ (1-p(H))

Và độ tin cậy chung CF = MB – MD;

Định nghĩa: Nhân tố tin cậy: Là giá trị bằng số thể hiện mức độ tin cậy thực vào giả thuyết khi có thông tin.

Giá trị -1 của CF thể hiện “sai chắc chắn”, +1 thể hiện “đúng chắc chắn ” và 0 thể hiện “hoàn toàn không biết”. Giá trị âm của CF thể hiện độ không tin cậy vào giả thuyết và dƣơng thì ngƣợc lại.

Hình 2.4. Phạm vi của giá trị CF

Tùy theo tình huống thực tế, một số trƣờng hợp điển hình xảy ra nhƣ sau: Trƣờng hợp 1: Dấu hiệu khẳng định hoàn toàn giả thuyết

Nếu dấu hiệu đã có E khẳng định hoàn toàn giả thuyết H thì p(H|E) =1. Do vậy, MB(H,E) =1, MD(H,E) =0 và tính đƣợc CF(H, E) =1.

Từ đó, khi E hoàn toàn xác định H thì theo sơ đồ về giá trị CF thì H đúng chắc chắn.

Trƣờng hợp 2: Dấu hiệu hoàn toàn không xác định giả thuyết

Khi p(H|E’) =1 thì p(H|E) = 1- p(H|E’) = 0. Vậy MB (H,E) =0 và MD (H,E) =1. Vậy CF (H,E) = -1 tức H sai chắc chắn.

Trƣờng hợp 3: Thiếu dấu hiệu

Nếu dấu hiệu đã có E là độc lập với giả thuyết thì không khẳng định hay phủ nhận H tức p(H|E) = p(H). Theo công thức tính MB và MD thì MB(H,E) = MD(H,E) =0. Vậy, CF(H,E) =0. Trƣờng hợp này có nghĩa nếu H và E độc lập thì H đƣợc xem nhƣ không biết.

Trƣờng hợp 4: Dấu hiệu dƣơng

Nếu dấu hiệu đã có E xác định một phần giả thuyết H thì p(H) < p(H|E) <1 và tính các độ đo theo MB(H,E) = (p(H|E) –p(H)) / (1- p(H)); MD(H,E) = 0.

Do đó, CF(H,E) = MB(H,E).

Hoàn toàn sai Chiều có thể sai Chiều có thể Hoàn toàn đúng

đúng

Hoàn toàn không biết

Vậy thì E xác định H một phần thì theo sơ đồ CF, CF(H,E) thuộc miền dƣơng tức miền tin cậy vào giả thuyết H.

Trƣờng hợp 5: Dấu hiệu âm

Nếu dấu hiệu đã có E không xác định một phần giả thuyết H thì 0< p(H|E) <p(H). Do đó, MB(H,E) = 0 và MD(H,E) =(p(H) –p(H|E))/p(H)

Do vậy, khi E không xác định từng phần giả thuyết H thì CF(H,E) thuộc miền âm trong sơ đồ CF.

Trƣờng hợp 6: Nguồn mang nhiều khẳng định nhƣng cũng có điều không khẳng định

Theo nhiều nguồn xác định giả thuyết thì giá trị MB sẽ hội tụ đến 1, tức MB(H,E1, E2, ...) → 1.

Nhƣng nếu có một nguồn phủ định giả thuyết này thì có i để MD(H,E) > 0. Chẳng hạn MD(H,E2) = 0.7.

Sau đây, thể hiện một số miêu tả các giá trị CF theo bảng sau: Bảng 2.10. Miêu tả các giá trị CF Loại không chắc chắn CF Không chắc chắn -1 Hầu nhƣ không chắc chắn -0.8 Có khả năng không chắc chắn -0.6 Có thể không chắc chắn -0.4 Không biết Từ -0.2 đến +0.2 Có thể chắc chắn +0.4 Có khả năng chắc chắn +0.6 Hầu nhƣ chắc chắn +0.8 Chắc chắn +1

Trong thực tế bảng miêu tả nhƣ vậy không phù hợp trong nhiều trƣờng hợp. Để xử lý trƣờng hợp này bằng cách tính giá trị CF:

2.2.3 Nhân tố chắc chắn dƣới khía cạnh xác suất a. Dấu hiệu không chắc chắn a. Dấu hiệu không chắc chắn

Các hệ thống dùng lập luận không chính xác cần có có cách thể hiện các dấu hiệu không chắc chắn. Chẳng hạn “hôm nay có thể nắng” là câu có độ không chắc chắn do sử dụng từ “có thể”.

Ngƣời ta dùng CF với các giá trị từ -1 đến +1 để thể hiện độ tin cậy trong câu. Chẳng hạn, CF(E) = CF = 0.6. Tiếp cận này đã thay xác suất hình thức p(E) bằng CF. Trong bảng là các giá trị CF điển hình.

Các nhân tố chắc chắn không là xác suất mà là các độ đo về sự tin tƣởng vào một phần dấu hiệu. Chúng thể hiện mức độ mà ngƣời ta tin rằng dấu hiệu là đúng. Để thể hiện độ tin cậy này trong hệ chuyên gia, ngƣời ta viết dƣới dạng chính xác và thêm vào giá trị CF phù hợp. Chẳng hạn thay “hôm nay có thể nắng” bằng “hôm nay sẽ nắng CF = 0.6”.

b. Các luật không chắc chắn

CF dùng cho câu và cho cả các luật để thể hiện quan hệ không chắc chắn giữa dấu hiệu E của luật và giả thuyết H của luật. Cấu trúc cơ bản của luật dùng trong mô hình chắc chắn có dạng IF E THEN H CF (luật). Trong đó, CF(luật) thể hiện mức độ tin cậy H khi có E. Tức là khi đúng thì ngƣời ta tin H theo CF(H,E) = CF(luật).

Ví dụ 2.2: IF “có mây đen”, E THEN “sẽ mƣa”, H với CF = 0.8 sẽ đƣợc tham chiếu đến bảng miêu tả để hiểu rằng “Nếu có mây đen thì hầu nhƣ chắc chắn trời mƣa”.

2.2.4 Lan truyền chắc chắn

a. Lan truyền chắc chắn đối với các luật có giả thiết đơn

Lan truyền nhân tố chắc chắn liên quan việc thiết lập mức độ tin cậy vào kết luận của luật trong trƣờng hợp dấu hiệu trong giả thiết là không chắc chắn. Đối với luật có phần giả thiết đơn, ta tính CF(H,E) = CF(E) * CF(luật).

Ví dụ 2.3: theo ví dụ trên nếu CF(E) = 0.5 thì CF(H,E) = 0.5*0.8 = 0.4. Điều này có nghĩa là “ có thể mƣa”

b. Lan truyền chắc chắn đối với các luật có nhiều giả thiết

Trong trƣờng hợp có nhiều giả thiết, nhân tố chắc chắn đối với kết luận của luật đƣợc thiết lập theo cách tƣơng tự nhƣ cách dùng trong hệ thống

PROSSPECTOR. Nhƣ nhóm MYCIN thì ngƣời ta giả sử có độc lập điều kiện của dấu hiệu theo dạng AND hay OR khi xét độ tin cậy vào giả thuyết.

Các luật AND

Mô hình chắc chắn dùng các luật có dạng: IF E1 AND E2 AND ... En THEN H CF(luật)

CF(H,E1 AND E2 AND... AND En) = min {CF(Ei)} * CF(luật)

Các luật OR

Các luật trong mô hình này có dạng:

IF E1 OR E2 OR ... OR En THEN H CF(luật)

CF(E1 OR E2 OR... OR En) = max{CF (Ei)} * CF(luật)

c. Lan truyền chắc chắn đối với các luật cùng kết luận

Trong một vài ứng dụng ngƣời ta viết thành nhiều luật về cùng một kết luận. Chẳng hạn để tin rằng trời sắp mƣa, ngƣời ta căn cứ vào ý kiến của nhà dự báo khí tƣợng hay nông dân.

Luật 1: IF “nhà dự báo nói sắp mƣa”, E1 THEN “Sắp mƣa”, H với CF(luật 1) = 0.8 Luật 2: IF “nông dân nói sắp mƣa”, E2 THEN “Sắp mƣa”, H với CF(luật 2) = 0.8 Hai luật dựa trên hai nguồn, có cùng giá trị CF. Về tâm lý, khi có nhiều nguồn khẳng định một kết luận, ngƣời ta sẽ cảm thấy tin tƣởng hơn, chẳng hạn tin hơn vào trời sẽ mƣa nếu đƣợc khẳng định của cả dự báo thời tiết và nông dân. Nhóm MYCIN dùng ý tƣởng này trong kỹ thuật “dấu hiệu thu thập nhiều lên” để kết hợp các giá trị tin cậy và phản bác của các luật về cùng một kết luận.

Chẳng hạn:

Luật 1: IF E1 THEN H và Luật 2: IF E2 THEN H

Dạng nguyên bản của đẳng thức dùng trong kỹ thuật này do Shortliffe và Bachanan đƣa ra năm 1975 là:

MB(H, E1 &E2) =0 nếu MD (H, E1 & E2) =1 hoặc

MB(H, E1 &E2) = MB(H, E1)+ MB(H, E2)*(1 - MB(H, E1)) nếu ngƣợc lại MD(H, E1 &E2) =0 nếu MB (H, E1 & E2) =1 hoặc

MD(H, E1 &E2) = MD(H, E1)+ MD(H, E2)*(1 - MD(H, E1)) nếu ngƣợc lại Các khẳng định rằng các dấu hiệu bổ sung E2 sẽ làm tăng các giá trị do dấu hiệu E1 xác định. Các MD và MB đƣợc cập nhật sẽ cho phép tính nhân tố tin cậy theo CF = MB-MD.

Trong một vài ứng dụng, nên tính đến MD và MB nhƣ các trợ giúp khi có thêm thông tin. Nhƣng trong vài ứng dụng khác, chỉ quản lý một bản ghi về giá trị CF đƣợc cập nhật. Đối với các ứng dụng này, ngƣời ta có thể dùng các đẳng thức:

CFkết hợp = CF1 + CF2 (1-CF1) khi cả hai CFi là dƣơng; CFkết hợp = CF1 + CF2 (1+CF1) khi cả hai CFi là âm và CFkết hợp = CF1 + CF2 /(1-min{|CF1|, |CF2|})

Các đẳng thức tính MD, MB, CF trong mô hình chắc chắn có thuộc tính hoán đổi, tiệm cận.

Hoán đổi

Tính chất hoán đổi cho phép thay trật tự sử dụng luật. Mô hình chắc chắn cần tính chất này để thu thập các dấu hiệu theo trật tự tùy ý. Tức là nếu có nhiều luật thu thập thông tin thì giá trị tổng hợp CF không lệ thuộc vào thứ tự xử lý.

Tiệm cận

Ngƣời ta cần tính chất tiệm cận bởi hai lý do. Trƣớc hết, nó phản ánh cách mà bác sĩ thu thập độ tin cậy về giả thuyết nào đó từ nhiều nguồn thông tin. Trong nhiều nguồn khẳng định giả thuyết thì ngƣời ta cảm thây tin ở một nguồn nào đó, và ứng với nó là độ tin cậy cao hơn. Thứ hai, tính chất này đảm bảo tổng hợp các độ tin cậy không vƣợt quá 1 mà chỉ tiệm cận 1.

Giả sử tiếp tục sử dụng hai luật trên về dự báo mƣa. Ngƣời ta thấy có các trƣờng hợp xảy ra nhƣ sau:

Trƣờng hợp 1:

Cả ngƣời nông dân và nhà dự báo đều chắc chắn về mƣa. CF(E1) = CF(E2) = 1.

Các kĩ thuật thể hiện tri thức

Tổng quan về lý thuyết chắc chắn