GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE

2.1.2 CÁC THUẬT TOÁN GOM CỤM 2.1.2.1 THUẬT TOÁN K-MEANS  Giới thiệu : Một phương pháp tiếp cận phân hoạch là xácđịnh trước số cụm cần có, chẳng hạn là k, sau đó xếptừng điểm dữ liệu và

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT

KHÔNG TẬP TRUNG KẾT HỢP MẠNG TH-VT

SEMINAR MÔN HỌC CÔNG NGHỆ TRI THỨC

TÊN ĐỀ TÀI : GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH

TRẠNG KẸT XE

GIẢNG VIÊN: GS.TSKH HOÀNG KIẾM SINH VIÊN THỰC HIỆN: LÝ THÀNH

KHÓA: 3

Trang 2

1 ĐẶT VẤN ĐỀ CÁC BÀI TOÁN KHẢO SÁT 2

1.1 Bài toán phân loại kẹt xe 3

1.1.1 Vấn đề bài toán 4

1.1.2 Các đại lượng ảnh hưởng đến trạng thái của luồng giao thông 5

1.1.3 Lý thuyết về luồng giao thông 6

1.2 Bài toán dự báo kẹt xe 7

1.2.2 Một số hướng giải quyết 9

2 CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP GIẢI QUYẾT CÁC BÀI TOÁN 10

2.1 Kỹ thuật gom cụm dữ liệu ( Clustering ) 11

2.1.1 Gom cụm là gì ? 12

2.1.2 Các thuật toán gom cụm 13

2.1.2.1 Thuật toán K-Means 14

2.1.2.2 Thuật toán K-Medoids 15

2.1.2.3 Thuật toán ISODATA 16

2.1.2.4 Thuật toán Phân cấp 17

2.1.2.5 Thuật toán dựa trên mô hình 18

2.1.2.6 Thuật toán dựa trên lưới 19

2.1.2.7 Thuật toán DBSCAN 20

2.1.2.8 Các thuật toán gom cụm mờ 21

2.2 Các mô hình gom cụm mờ (Fuzzy clustering models) 22

2.2.1 Mô hình Fuzzy C-Mean(FCM) 23

2.2.2 Mô hình Fuzzy C-Elliptotype (FCE) 24

2.2.3 Mô hình Fuzzy C-Mixed Prototype (FCMP) 25

2.2.4 Mô hình Fuzzy Clustering Fuzzy Merging (FCFM) 26

2.3 Các hệ thống mờ (Fuzzy system) 27

2.4 Cách tạo một hệ thống điều khiển mờ 28

2.5 Cơ sở lý thuyết của Xích Markov 29

3 ỨNG DỤNG CÁC KỸ THUẬT ĐỂ GIẢI QUYẾT BÀI TOÁN ĐẶT RA.30

Trang 3

3.1 Ứng dụng mô hình Xích Markov để dự báo tình trạng giao thông 31

3.1.1 Bài toán 1 32

3.1.2 Bài toán 2 33

3.1.3 Bài toán 3 34

3.2 Ứng dụng mô hình gom cụm FCMP (Fuzzy C-Mixed Prototype) để phân lớp giao thông 35

3.2.2 Hướng giải quyết bài toán 37

4 KẾT LUẬN, HƯỚNG PHÁT TRIỂN 38

5 TÀI LIỆU THAM KHẢO 39

Trang 4

1 ĐẶT VẤN ĐỀ CÁC BÀI TOÁN KHẢO SÁT

1.1 BÀI TOÁN PHÂN LOẠI KẸT XE

điều khiển xe không bị ảnh hưởng bởi các xe khác

 Trạng thái hơi đông: giao thông bình thường, nhưng việc lái xe bịảnh hưởng nặng bởi các phương tịên giao thông khác

 Trạng thái đông: trạng thái không ổn định, có thể dẫn đến kẹt xe

 Trạng thái kẹt xe: hệ thống giao thông bị quá tải, các xe không thểlưu thông hoặc lưu thông chậm

Dựa trên sự phân loại trạng thái của luồng giao thông chúng ta sẽ sử dụng kỹ thuật gì để phân lớp dữ liệu giao thông ?

1.1.2 CÁC ĐẠI LƯỢNG ẢNH HƯỞNG ĐẾN TRẠNG THÁI CỦA LUỒNG GIAO THÔNG

Lưu lượng xe (q): là số lượng xe đi qua một điểm nào đó (các giao lộ)trong một khoảng thời gian t

Mật độ (k): số lượng xe trên một đoạn đường có chiều dài xác định.Vận tốc (v): vận tốc trung bình của xe khi đi qua điểm quan sát trongmột khoảng thời gian t

Mục đích của ta là xác định trạng thái của luồng giao thông tại giao lộdựa trên các đại lượng q, k, v

1.1.3 LÝ THUYẾT VỀ LUỒNG GIAO THÔNG

Các đại lượng liên quan đến luồng giao thông:

 Lưu lượng xe (q): là số lượng xe đi qua một điểm nào đó (các ngãtư) trong một khoản thời gian t

Trang 5

trong một khoảng thời gian t

bảo an toàn giao thông các phương tiện giao thông cần phải giảmtốc độ trong trường hợp đường đang rơi vào trạng thái hơi đông,phương trình q=v*k được sử dụng trong trường hợp trạng tháithưa hoặc bình thường

(Fundamental diagram)

thẳng cho biết trạng thái thưa tương ứng với mật độ giao thông làthấp, trong trường hợp mật độ cao (k lớn ) thì chỉ có rải rác mộtvài điểm trên biểu đồ chỉ ra rằng trạng thái giao thông là đông

 Người ta định nghĩa 4 khoảng vận tốc để phân loại tương ứng cho

4 trạng thái giao thông : thưa, hơi đông, đông và kẹt xe

nghĩa các khoảng vận tốc hợp lý Sở dĩ chọn đại lượng vận tốc đểphân loại là vì vận tốc của các phương tiện giao thông bị ảnhhưởng trực tiếp từ trạng thái của luồng giao thông, nghĩa là vậntốc của các phương tiện giao thông trong trạng thái đông sẽ nhỏhơn nhiều so với vận tốc của phương tiện này trong trạng tháithưa

luồng giao thông dựa vào đại lượng vận tốc trung bình củaphương tiện giao thông ? Sử dụng phương pháp gom cụm mờ(Fuzzy clustering), cụ thể là thuật toán Fuzzy C-mixed để giảiquyết bài toán này Thuật toán Fuzzy Clustering sẽ được trìnhbày chi tiết trong phần phương pháp giải quyết các bài toán

Trang 6

1.2 BÀI TOÁN DỰ BÁO KẸT XE

1.2.1 VẤN ĐỀ BÀI TOÁN

 Dự báo lưu lượng xe xảy ra tại một địa điểm nào đó trong khoảngthời gian t

 Trên các đường phố hay xa lộ, người ta sẽ gắn các thiết bị đo đạt

để tính toán số lượng xe đi qua trong khoảng thời gian 15 phút.Với qui định như vậy trong một ngày chúng ta sẽ có tổng cộng 24

x 4 = 96 thời điểm để xác định số lượng xe tại địa điểm X

Phạm Văn hai tại các thời điểm trong ngày thứ 6 được cho trongbảng sau:

1.2.2 MỘT SỐ HƯỚNG GIẢI QUYẾT

này Ví dụ như:

FCM - Fuzzy C-mean FCE - Fuzzy C-Ellipse FCMP - Fuzzy C-Mixed Prototype

Trang 7

2 CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP GIẢI QUYẾT CÁC BÀI TOÁN

2.1 KỸ THUẬT GOM CỤM DỮ LIỆU (CLUSTERING)

thành nhiều tập con C sao cho mỗi tập con c Ì C chứa các phần

tử có những tính chất giống nhau theo tiêu chuẩn nào đó, mỗi tậpcon c được gọi là một cụm

Î Q vào trong các cụm c Ì C.

cực tiểu khoảng cách (thường là khoảng cách Euclide)

 Các kỹ thuật gom cụm dữ liệu:

- Gom cụm cổ điển:

- Gom cụm mờ:

Trang 8

nhóm

mẫu học chưa được gán nhãn

hơn các điểm nằm trong cùng một cụm

- Xem xét phân bố dữ liệu

- Tiền xử lý cho các thuật toán khác

- Khám phá thói quen và nhu cầu của khách hàng để cóphương pháp tiếp thị thích hợp

- Phân loại đất theo công năng hoặc thực tế sử dụng đề cóchính sách quy hoạch phù hợp

- Phân loại nhà theo vị trí, giá trị

- Phân loại khách hàng để có chính sách bảo hiểm hợp lý

- Phân loại bệnh nhân

- Có độ tương tự cao trong cùng cụm

- Có độ tương tự thấp giữa các cụm

- Có khả năng làm việc hiệu quả với lượng dữ liệu lớn

- Có khả năng làm việc với nhiều loại dữ liệu khác nhau

- Có khả năng khám phá ra các cụm có phân bố theo các

dạng khác nhau

- Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các thambiến nhập

- Có khả năng làm việc với nhiễu và mẫu cá biệt

- Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu

- Làm việc tốt trên cơ sở dữ liệu có số chiều cao

- Chấp nhận các ràng buộc do người dùng chỉ định

- Có thể hiểu và sử dụng được kết quả gom cụm

Trang 9

 Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân cácthuật toán gom cụm theo các phương pháp chính sau:

- Các phương pháp phân hoạch

- Các phương pháp phân cấp

- Các phương pháp dựa trên mật độ

- Các phương pháp dựa trên mô hình

- Các phương pháp dựa trên lưới

Ma trận biểu diễn không gian dữ liệu gồm n đối tượng theo pthuộc tính Ma trận này biểu diễn mối quan hệ đối tượng theothuộc tính

2.1.2 CÁC THUẬT TOÁN GOM CỤM

2.1.2.1 THUẬT TOÁN K-MEANS

 Giới thiệu :

Một phương pháp tiếp cận phân hoạch là xácđịnh trước số cụm cần có, chẳng hạn là k, sau đó xếptừng điểm dữ liệu vào một trong k cụm sao cho độ phânbiệt trong các cụm là thấp nhất Vấn đề đặt ra là với mộtkhông gian dữ liệu có số chiều và số phần tử lớn thì thờigian thực hiện tăng rất nhanh theo luật bùng nổ tổ hợp.Với k cho trước có thể có (kn-(k-1)n- -1) khả năng phânhoạch khác nhau Đây là con số quá lớn nếu n là khá lớn

do đó hầu như không thể thực hiện được Vì vậy gomcụm phân hoạch phải là những thuật toán nhanh và có sửdụng heuristic để đạt được giải pháp gom cụm đủ tốt(nhưng không nhất thiết là tối ưu)

Trong thuật toán này, các đối tượng (mẫu huấnluyện hay mẫu cần phân lớp) thường được ánh xạ vào

không gian n chiều Rn Như vậy, một mẫu x bất kỳ được

Trang 10

mô tả bằng 1 vector (a1(x), a2(x), … an(x)), trong đó,

ar(x) là giá trị của thuộc tính thứ r của đối tượng x.

Những đối tượng lân cận nhất của một đối tượng đượcxác định dựa trên một độ đo khoảng cách được chọn nào

đó (thường là độ đo khoảng cách Euclide)

 Tư tưởng của thuật toán K-means :

Ý tưởng chính của thuật toán này là áp dụng nguyên lýngười láng giềng gần nhất hoặc khoảng cách ngắn nhấttheo định luật III Newton, nghĩa là phần tử nào gần điểmtâm của cụm ci hơn so với các cụm cj sẽ được gom vềcụm ci

Đầu vào của thuật toán K-Means: Số các cụm k, vàCSDL có n số điểm (đối tượng) trong không gian dữ liệu.Thuật toán K-Means gồm 4 bước:

Bước 1: Phân hoạch đối tượng thành k tập con/cụm.Bước 2: Tính các điểm hạt giống centroid (trung bìnhcủa các đối tượng trong cụm) cho từng cụm trong phânhoạch hiện hành

Bước 3: Gán mỗi đối tượng cho cụm có centroid gầnnhất

Bước 4: Quay về bước 2, chấm dứt khi không còn phépgán mới

Ưu điểm: Đây là một phương pháp:

Trang 11

- Hiệu suất tương đối:O(tkn), với n là số đối tượng , k là số cụm, t là số lần lặp Thông thường

k,t << n

- Thường kết thúc ở tối ưu cục bộ, có thể tìmđược tối ưu toàn cục, dùng kỹ thuật thuật giải ditruyền

Nhược điểm: Các nhược điểm trong thuật toán này là:

- Số cụm k phải được xác định trước

- Có thể áp dụng chỉ khi xác định được trị trung

bình

- Không thể xử lý nhiễu và outliers

- Không thích hợp nhằm khám phá các dạng

không lồi hay các cụm có kích thước khác nhau

- Đây là thuật toán độc lập tuyến tính

 Nhận xét :Phương pháp 1-NN có ưu điểm là dễ cài đặt nhưng cóhạn chế là dễ chịu ảnh hưởng bởi nhiễu Điều này dễ

Ví dụ minh họa thuật toán K-Means

C2

C3

C1

x d2 d3

d1

C1, C2, C3 là 3 cụm

X là phần tử thuộc tập V Phân X vào cụm ? Tính d1, d2, d3 lần lượt là khoảng cách từ x đến trọng tâm của cụm C1,

Nếu d 1 =d 3 < d 2 thì ta sẽ gom X

vào cụm nào ?

Trang 12

dàng nhận thấy được vì bất kỳ mẫu nào trong tập huấn luyện để kiểm soát một phần không gian dữ liệu (dù rằng nhỏ) Nếu điểm truy vấn rơi vào vùng không gian

bị kiểm soát bởi mẫu huấn luyện có “nhiễu” thì sẽ cho kết quả không chính xác

Kết quả gom cụm bằng 1-NN (Hình 1)

Vì vậy, trên thực tế, chúng ta thường sử dụng phương pháp k-NN với k ≥ 3 (thường chọn k lẻ)

Hàm mục tiêu có thể là hàm rời rạc hoặc liên tục Trước tiên, hãy xét những hàm mục tiêu có giá trị rời rạc:

f : Rn -> V

Trong đó, V là tập hữu hạn {v1, … vn}.

Giá trị fˆ (xq) nhận được bởi thuật toán là kết quả ước

lượng xấp xỉ của f(xq), là giá trị f phổ biến nhất trong số

k mẫu huấn luyện gần xq nhất Nếu chúng ta chọn k = 1

thì thuật toán 1-láng giềng gần nhất sẽ gán cho fˆ (xq)

giá trị f(xi) với xi là đối tượng huấn luyện gần xq nhất Đối với những giá trị k lớn hơn, thuật toán sẽ gán giá trị

Trang 13

phổ biến nhất trong số k mẫu dữ liệu huấn luyện gần

nhất

Thông thường, ta chọn k lẻ (để giảm bớt khả năng nhiều

nhãn có cùng số phiếu) và có giá trị k >= 3

Cần lưu ý rằng thuật toán k-láng giềng gần nhất không

bao giờ hình thành một giả thuyết fˆ tổng quát xấp xỉ

hàm mục tiêu f Giải thuật này chỉ đơn giản tính toán

việc phân loại một đối tượng mới khi cần thiết

Điểm truy vấn q

Láng giềng

gần nhất

Lược đồ Voronoi (Hình 2)

Hình 2 là lược đồ Voronoi của tập những đối tượng

mẫu Lược đồ này thể hiện sự phân hoạch không gianđối tượng khi sử dụng phương pháp 1-NN Mỗi đốitượng mẫu huấn luyện có một đa diện giới hạn phầnkhông gian dữ liệu chịu sự kiểm soát của mình Nếu

điểm truy vấn xq rơi vào phần không gian kiểm soát bởi mẫu uấn luyện xi nào thì sẽ được gán giá trị fˆ (xq) <-

f(xi)

Trang 14

Thuật toán k-NN cũng cho phép xấp xỉ những hàm mụctiêu có giá trị liên tục Lúc này, chúng ta sẽ chọn giá trị

trung bình (có hoặc không có trọng số) của k đối tượng

mẫu huấn luyện gần nhất chứ không phải là giá trị phổbiến nhất

phân lớp với x

Trang 15

Trong phương pháp k láng giềng gần nhất, vấn đề chọn lựa độ

đo khoảng cách phù hợp, phản ánh đúng bản chất của bài toán là điềurất quan trọng

Trang 16

Hình 5 minh họa việc tỷ lệ tương đối của mỗi chiều trong độ

đo khoảng cách

sẽ ảnh hưởng đến hình dạng của vùng lân cận của mỗimẫu.Vùng không gian lân cận chịu ảnh hưởng bởi các mẫuhuấn luyện

Một số độ đo thông dụng

khoảng là khoảng cách Minkowski

Với i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) là các đối tượng dữ liệu p-chiều và q là số nguyên dương.

p p

q q

j

x i

x j

x i

x j

x i x j

i

2 2

|

| ) , (

2 2

1

1 x j x i x j x ip x jp

i x j

i

Trang 17

Vấn đề giảm số chiều và số mẫu trong phương pháp kNN

Đặt vấn đề:

Trong trường hợp tập dữ liệu huấn luyện có số lượng phần tửlớn, hoặc mỗi vector dữ liệu huấn luyện có số chiều lớn thì chi phí để

chọn ra k láng giềng gần nhất sẽ rất lớn Để nâng cao hiệu quả khi áp

dụng phương pháp kNN, chúng ta có thể thực hiện thao tác chọn lọcmẫu huấn luyện hoặc chọn đặc trưng:

Chọn mẫu:

Thời gian xác định các láng giềng gần nhất phụ thuộc vào sốlượng mẫu huấn luyện Trên thực tế, chúng ta không cần phải giữ lạitất cả mẫu huấn luyện mà có thể loại bỏ một số mẫu huấn luyện dưthừa sao cho vẫn đảm bảo phần không gian được kiểm soát bởi cácmẫu

Chọn đặc trưng:

Trên thực tế, không phải tất cả mọi đặc trưng thu nhận đượcđều được phải sử dụng, vì trong đó có các đặc trưng không liên quan,hoặc các đặc trưng có mức độ nhiễu cao Vì vậy, chúng ta giảm sốchiều của vector dữ liệu huấn luyện bằng cách loại bỏ bớt các đặctrưng không liên quan, hoặc các đặc trưng có mức độ nhiễu cao để tối

ưu hóa thời gian tính khoảng cách giữa vector mẫu mới với mỗivector mẫu có sẵn trong dữ liệu huấn luyện

)

|

|(|

),

2 2

2 1

i x j

i

Trang 18

Hình 6 Vấn đề giảm số chiều và số mẫu trong k-NN

Chọn lọc mẫu trong NN (Condensed NN) Bài toán:

Cho D là tập các mẫu huấn luyện Cần chọn tập con E ⊂ D sao cho việc sử dụng E cho kết quả tốt giống như sử dụng D Bảng 2.2

thể hiện thuật toán chọn lọc mẫu huấn luyện Condensed NN

Bảng 2.2 Thuật toán Condensed NN

4 hình dưới đây thể hiện ví dụ về việc chọn lọc mẫu huấn luyện (Condensed NN).

Hình (a) thể hiện việc phân hoạch không gian (thành 2 lớp) với 100 mẫuhuấn luyện

Các hình (b), (c) và (d) mặt phân cách giữa 2 lớp vẫn không thay đổi (so vớitrường hợp dùng 100 mẫu huấn luyện), nhưng số mẫu cần giữ lại được giảm điđáng kể

Trang 19

(a) 2 phân lớp với 100 mẫu (b) 2 phân lớp với 13 mẫu

Thuật toán Láng giềng gần nhất có trọng số theo khoảng cách

Thuật toán Láng giềng gần nhất có trọng số theo khoảng cách(distanceweighted nearest neighbor) là một cải tiến của thuật toán k-NN,

trong đó, mỗi mẫu trong số k đối tượng lân cận gần nhất với mẫu truy vấn sẽ

có trọng số nghịch biến với khoảng cách của chúng đối với điểm truy vấn xq.

Như vậy, mẫu càng gần thì trọng số càng lớn, mẫu càng xa thì trọng số càngnhỏ

Trang 20

Cải tiến tốc độ xử lý của phương pháp kNN

Phương pháp Bucketing

Hình 7 Kỹ thuật Bucketing

Phương pháp Bucketing còn gọi là phương pháp Elias [Welch 1971].Trong phương pháp này, không gian được chia thành các ô bằng nhau; trongmỗi ô, các mẫu dữ liệu được lưu trữ dưới dạng danh sách Hình 10 minh họa

kỹ thuật Bucketing Các ô được xét theo thứ tự khoảng cách đến điểm truyvấn tăng dần Mỗi điểm mẫu huấn luyện trong ô được xét sẽ được tínhkhoảng cách với điểm cần truy vấn

Quá trình tìm kiếm k-láng giềng gần nhất sẽ dừng khi khoảng cách từ

điểm truy vấn đến ô sẽ xét vượt quá khoảng cách từ điểm truy vấn đến mẫu

gần nhất thứ k.

Phương pháp Cây k-d

Cây k-d [Bentley 1975, Friedman et al 1977] là sự tổng quát hóa cây tìmkiếm nhị phân trong không gian nhiều chiều Mỗi nút trung gian trên cây tươngứng với một khối hộp (hyper-rectangle) và một siêu phẳng vuông góc với mộttrục tọa độ Siêu phẳng này sẽ chia khối hộp thành hai phần, mỗi phần tươngứng với một nút con Quá trình phân hoạch không gian này sẽ dừng khi số lượngđiểm mẫu trong khối hộp dưới một ngưỡng cho trước

Trang 21

Cây k-d giúp phân hoạch không gian mẫu đa chiều theo phân bố mẫu trongkhông gian Vùng không gian càng nhiều mẫu sẽ được phân hoạch mịn hơn Vớimỗi điểm truy vấn, trước tiên, chúng ta xác định khối hộp (tương ứng với nút látrên cây) chứa điểm truy vấn, sau đó, xét các điểm mẫu trong khối hộp này, tiếp

đến là các khối hộp lân cận đến khi có đủ k láng giềng gần nhất.

Hình 8 và Hình 9 lần lượt minh họa cây k-d trong trường hợp 2 chiều và 3chiều

Trang 22

Hình 9 minh họa cây k-d (trường hợp 3 chiều)

Ví dụ áp dụng

Các ví dụ được trình bày trong phần này được trích từ tài liệu giảng dạy môn

Applied Artificial Intelligence Course của GS Pádraig Cunningham,

Department of Computer Science, The University of Dublin, Ireland

Ví dụ 1:

Trang 23

(a) (b) (c)

Hình 10 Ví dụ 1 áp dụng k-NN

Giả sử ta có 3 lớp phân tách không tuyến tính như trong Hình 10(a) Cho mẫu huấn

luyện như trong Hình 10(b) Khi sử dụng k-NN với k=5, ta có vùng quyết định được

thể hiện như trong Hình 10(c)

Ví dụ 2:

Giả sử có 3 lớp phân tách không tuyến tính như trong Hình 11(a) Cho các mẫu huấnluyện như trong Hình 11(b)

Trang 26

Hình 12 thể hiện vùng quyết định khi thay đổi giá trị k Khi giá trị k quá lớn sẽ làm

mất đi tính chất cục bộ trong không gian mẫu, dẫn đến kết quả có thể không còn đủ

tốt nữa (ví dụ như khi chọn k=20 như Hình 12(e-f)).

Kết luận

Thuật toán k-láng giềng gần nhất, cũng như thuật toán có sử dụng trọng sốtheo khoảng cách, là các phương pháp suy luận quy nạp có hiệu quả cao đối vớinhiều vấn đề thực tế Các phương pháp này tương đối hiệu quả đối với dữ liệu bịnhiễu, đặc biệt là khi được cung cấp một tập dữ liệu đủ lớn Cần lưu ý rằng, bằng

cách lấy trung bình (có trọng số) của k mẫu gần nhất, phương pháp k-NN có thể làm

giảm sự ảnh hưởng của những mẫu bị nhiễu

Một vấn đề thực tế trong việc áp dụng những thuật toán k-NN là việc tínhkhoảng cách giữa các đối tượng lại dựa trên tất cả những thuộc tính của đối tượng.Điều này khác với những hệ thống học theo luật và cây quyết định: trong các hệthống này chỉ chọn một tập con trong những thuộc tính của đối tượng khi hìnhthành giả thuyết Để thấy hiệu quả của luật này, chúng ta hãy xem xét việc áp dụngk-NN cho bài toán mà trong đó mỗi đối tượng được mô tả bằng 20 thuộc tính,những chỉ có 2 trong số đó là những thuộc tính liên quan đến việc quyết định sựphân loại đối với hàm mục tiêu Trong trường hợp này, những đối tượng có giá trịcủa 2 thuộc tính này giống hêt nhau có thể ở cách xa nhau trong không gian 20chiều Và hệ quả là việc đo độ giống nhau trong phương pháp k-NN sẽ không chínhxác vì phụ thuộc vào tất cả 20 thuộc tính Khoảng cách giữa những đối tượng lâncận sẽ bị ảnh hưởng lớn bởi số lượng lớn những thuộc tính không liên quan Nhữngcách tiếp cận theo láng giềng gần nhất thường “nhạy cảm” đặc biệt với vấn đề này

Một hướng tiếp cận thú vị để khắc phục vấn đề này là gán trọng số cho mỗithuộc tính khi tính khoảng cách giữa 2 đối tượng Cách này tương ứng với việc cogiãn các trục tọa độ trong không gian Euclide, làm ngắn các trục tọa độ tương ứngvới những thuộc tính không liên quan đến việc phân lọai đối tượng, và kéo dài cáctrục tọa độ tương ứng với các thuộc tính liên quan nhiều hơn Mức độ co giãn củamỗi trục tọa độ có thể được quyết định tự động bằng cách sử dụng phương phápcross-validation

Trang 27

Một vấn đề thực tế nữa trong việc áp dụng k-NN là việc tạo chỉ mục hiệuquả Do thuật toán trì hoãn việc xử lý đến khi nhận được một yêu cầu phân loại đốitượng mới, việc xử lý mỗi truy vấn có thể phải tính toán đáng kể Nhiều kỹ thuậtkhác nhau đã được phát triển để tạo chỉ mục cho những đối tượng mẫu được lưu trữ

để những đối tượng lân cận nhất có thể được nhận dạng hiệu quả hơn với một ít chiphí thêm vào trong bộ nhớ, ví dụ như bucketing hay cây k-d

2.1.2.2 THUẬT TOÁN K-MEDOIDS

 Đầu vào thuật toán: Số các cụm K, và CSDL có n đối tượng

 Thuật toán có 4 bước:

Bước 1: Chọn bất kỳ K đối tượng làm medoids ban đầu đểđại diện cho các đối tượng

Bước 2: Gán từng đối tượng còn lại cho cụm có medoidsgần nhất

Bước 3: Chọn medoids và thay thế các medoids nếu cảithiện được tình trạng gom cụm

Bước 4: Quay về bước 2, dừng khi không còn phép gánmới

Ưu điểm: K-MEDOIDS làm việc được với nhiễu và biệt lệ

Khuyết điểm: K-MEDOIDS chỉ hiệu quả khi tập dữ liệu khôngquá lớn vì có độ phức tạp là O(k(n-k))^2*t) trong đó :

- n: Số điểm trong không gian dữ liệu

- k: Số cụm cần phân hoạch

- t: Số lần lặp, t khá nhỏ so với n

Định dạng
Số trang	54
Dung lượng	0,98 MB