2.1.2 Phân loại các kiểu dữ liệu dựa trên độ đo Thuộc tính định danh: đây là dạng thuộc tính khái quát hóa của thuộc tính nhịphân, trong đó miền giá trị là rời rạc không phân biệt thứ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH
KỸ THUẬT GOM CỤM TRONG KHAI PHÁ DỮ LIỆU
MSSV: CH1101098 LỚP: CH-K6
TP.HCM 11-2012
Trang 2Gom cụm dữ liệu là một trong những phương pháp quan trọng trong quá trình khám phátri thức.
Gom cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiêncứu, bước đầu họ đã đưa ra một số thuật toán như: K-means, k-medoids,… và đã đạtđược một số kết quả nhất định trong việc tìm kiếm, phân loại dữ liệu Tuy nhiên, hầu hếtcác thuật toán này yêu cầu phải xác định trước số cụm cần thực thi đặt biệt là thuật toánk-means Ngoài ra, các kỹ thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâmvới việc chọn ngẫu nhiên làm trọng tâm sẽ cho các kết quả khác nhau Do đó, các kết quả
có thể không chính xác, với mức độ sai số có thể rất lớn
Nội dung bài tiểu luận gồm 4 chương, chủ yếu lựa chọn và sắp xếp những nội dung thenchốt nhất trong khoảng thời gian cho phép Bài tiểu luận trình bày và giới thiệu một cáchtương đối hệ thống những kiến thức cơ bản về vấn đề gom cụm trong khai phá dữ liệu,đồng thời cài đặt một số thuật toán đặc trưng minh họa cho bài toán gom cụm
Chương 1 TỔNG QUAN VỀ GOM CỤM DỮ LIỆU
Nội dung chương 1 trình bày tổng quan các khái niệm cơ bản về lý thuyết gomcụm dữ liệu, đồng thời giới thiệu các lĩnh vực đã ứng dụng thành công phương phápgom cụm vào thực tiễn
Chương 2 CÁC KIỂU DỮ LIỆU TRONG BÀI TOÁN GOM CỤM & ĐỘ ĐOTrong chương 2 chúng ta nghiên cứu các kiểu dữ liệu thường xuất hiện trong cácbài toán gom cụm cũng như các độ đo thông dụng được sử dụng
Chương 3 CÁC PHƯƠNG PHÁP GOM CỤM & THUẬT TOÁN
Trang 3Trình bày các phương pháp gom cụm điển hình trong bài toán gom cụm dữ liệuchẳng hạn như: Phương pháp gom cụm phân hoạch, phương pháp gom cụm phân cấp,phương pháp gom cụm dựa trên mật độ, phương pháp gom cụm dựa trên lưới, phươngpháp gom cụm dựa trên mô hình, phương pháp gom cụm có dữ liệu ràng buộc…đồngthời trình bày các thuật toán và ví dụ minh họa tương ứng.
Chương 4 CÀI ĐẶT ỨNG DỤNG MINH HỌA
Trong chương 4 sẽ cài đặt minh họa một số thuật toán đặc trưng, tiêu biểu cho bàitoán gom cụm
Trang 5Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô Khoa Học Máy Tính Trường Đại Học Công Nghệ Thông Tin đã đem hết tâm huyết của mình truyền đạt vốnkiến thức quý báu cho chúng em.
-Em xin chân thành cảm ơn PGS TS Đỗ Phúc đã truyền đạt kiến thức môn khai phá dữliệu và kho dữ liệu Qua đó giúp em có đầy đủ kiến thức để hoàn thành bài thu hoạch này.Nhân đây em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, đồng nghiệp đãđộng viên tinh thần cho em trong suốt quá trình học tập của mình
Sau cùng, em xin kính chúc quý Thầy Cô Khoa Học Máy Tính cùng PGS TS Đỗ Phúcdồi dào sức khỏe để thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế
hệ mai sau
Một lần nữa em xin chân thành cảm ơn !
TP HCM, ngày 24 tháng 11 năm 2012 Sinh viên thực hiện
(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Trang 6NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẨN
Trang 7(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Trang 8MỤC LỤC
Trang 9DANH SÁCH CÁC HÌNH
Hình 3.1 Các chiến lược gom cụm phân cấp ……… 26
Hình 3.2 Cấu trúc phân cấp ……… 28
Hình 3.3 Các cách mà gom cụm có thể đưa ra ……… 28
Hình 3.4 Các thiết lập để xác định ranh giới các cụm ban đầu ……… 29
Hình 3.5 Tính toán trọng tâm của các cụm mới ……… 30
Hình 4.1 Form màn hình chính khi chạy ứng dụng ……… 45
Hình 4.1 Form màn hình chính khi chạy ứng dụng ……… 45
Hình 4.3 Chọn giá trị thuộc tính ban đầu ……… 46
Hình 4.4 Ma trận distance ……… 46
Hình 4.5 Bảng thông báo ma trận distance không hợp lệ ……… 47
Hình 4.6 Những ô không hợp lệ trong ma trận distance được tô màu đỏ ……… 47
Hình 4.7 Ma trận distance hợp lệ ……… 47
Hình 4.8 Ma trận partition ……… 47
Hình 4.9 Bảng thông báo ma trận partition không hợp lệ ……… 48
Hình 4.10 Những ô không hợp lệ trong ma trận partition được tô màu đỏ……… 48
Hình 4.11 Các cột không hợp lệ được tô màu xanh……….48
Hình 4.12 Bảng thông báo ma trận partition không hợp lệ do cột ……… 48
Hình 4.13 Các dòng không hợp lệ được tô màu xanh ……… 48
Hình 4.14 Bảng thông báo ma trận partition không hợp lệ do hàng ……… 49
Hình 4.15 Ma trận distance hợp lệ ……… 49
Hình 4.16 Kết quả của thuật toán gom cụm ……… 49
Trang 10chương 1 TỔNG QUAN VỀ GOM CỤM DỮ LIỆU
ội dung chương 1 trình bày tổng quan các khái niệm cơ bản về lý thuyết gomcụm dữ liệu, đồng thời giới thiệu các lĩnh vực đã ứng dụng thành công phươngpháp gom cụm vào thực tiễn
1.1 Gom cụm dữ liệu là gì?
Gom cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện cáccụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn, từ đó cung cấpthông tin, tri thức hữu ích cho việc ra quyết định
Do đó, gom cụm dữ liệu là một quá trình phân chia tập dữ liệu ban đầu thành các cụm dữliệu sao cho các đối tượng trong cùng một cụm thì phải “tương tự” nhau và các đối tượngtrong các cụm khác nhau thì “phi tương tự” với nhau Các cụm dữ liệu được xác địnhbằng kinh nghiệm hoặc bằng một số phương pháp gom cụm tự động
Sau khi xác định các đặc tính dữ liệu, người ta sử dụng các độ đo thích hợp để xác địnhkhoảng cách giữa các đối tượng hay các phép đo tương tự dữ liệu Đây chính là các hàm
để đo sự giống nhau giữa các cặp đối tượng dữ liệu Giá trị của các hàm tính độ đo tương
tự càng lớn thì sự giống nhau giữa các đối tượng càng lớn và ngược lại
Trong quá trình gom cụm dữ liệu thì khó khăn lớn nhất gặp phải đó chính là nhiễu Nhiễuxuất hiện trong quá trình thu thập thông tin làm cho dữ liệu thiếu chính xác hoặc khôngđầy đủ Vì vậy, chúng ta cần phải khử nhiễu trong quá trình tiến hành gom cụm dữ liệu
N
Trang 11Hình A: là tập hợp tất cả các điểm dữ liệu trước khi gom cụm
Hình B: là tập hợp tất cả các điểm dữ liệu sau khi gom cụm
Ci là cụm thứ i
C = C1 C2 … Ci Cngoại lai
Ci Cj =
1.2 Mục tiêu của gom cụm
Mục tiêu chính của phương pháp gom cụm dữ liệu là nhóm các đối tượng “tương tự’nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm phải
“tương tự” nhau và các đối tượng thuộc các cụm khác nhau sẽ “phi tương tự’ nhau
1.3 Thế nào là gom cụm tốt
Một phương pháp gom cụm tốt sẽ tạo ra các cụm có chất lượng cao nếu đạt được các tính chất sau:
Có độ tương tự cao trong từng cụm (intra-class)
Có độ tương tự thấp giữa các cụm (inter-class)
Chất lượng của kết quả gom cụm phụ thuộc vào:
Độ đo tương tự được sử dụng
Cài đặt độ đo tương tự
1.4 Các yêu cầu của gom cụm dữ liệu
Một phương pháp gom cụm được đánh giá cao nếu đạt được các yêu cầu sau:
Có khả năng phát hiện các mẫu ẩn
Có khả nặng làm việc hiệu quả với một lượng dữ liệu lớn
Có khả năng làm việc với nhiều loại dữ liệu khác nhau
Có khả năng khám phá ra các cụm có phân bố theo các hình dạng khác nhau
Có khả năng làm việc với nhiễu cũng như các mẫu cá biệt
Làm việc tốt trên CSDL có số chiều cao
Trang 12 Chấp nhận các ràng buộc do người dùng chỉ định.
1.5 Một số phương pháp gom cụm dữ liệu.
Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các thuật toán gom cụm theo các phương pháp chính sau:
Phương pháp gom cụm phân hoạch
phương pháp gom cụm phân cấp
phương pháp gom cụm dựa trên mật độ
phương pháp gom cụm dựa trên lưới
phương pháp gom cụm dựa trên mô hình
phương pháp gom cụm có dữ liệu ràng buộc
1.6 Quy trình cho bài toán gom cụm
Các bước chính để xây dựng bài toán gom cụm bao gồm:
Xây dựng hàm tính độ tương tự
Xây dựng các tiêu chuẩn gom cụm
Xây dựng mô hình cho cấu trúc dữ liệu
Xây dựng thuật toán gom cụm và xác lập các đều kiện khởi tạo
Xây dựng các thủ tục biểu diễn và đánh giá kết quả gom cụm
1.7 Một số ứng dụng tiêu biểu của gom cụm dữ liệu
Gom cụm dữ liệu được ứng dụng vào rất nhiều lĩnh vực như thương mại, sinh học, phân tích dữ liệu không gian, lập quy hoạch đô thị, nghiên cứu trái đất, địa lý, WEB, …
1.7.1 Gom cụm dữ liệu phục vụ cho việc biểu diễn dữ liệu gene:
Gom cụm là một trong những phân tích được sử dụng thường xuyên nhất trong
việc biểu diễn dữ liệu genee Dữ liệu gene là một tập hợp các phép đo lấy từ DNA
microarray (gọi là DNA chip hay genee chip) là một tấm thủy tinh hoặc nhựa trên
đó có gắn các đoạn DNA thành các hàng siêu nhỏ Các nhà nghiên cứu sử dụng cáccon chip như vậy để sàn lọc các mẫu sinh học nhằm kiểm tra hàng loạt trình tự cùngmột lúc Các đoạn DNA gắn trên chip được gọi là probe, trên mỗi điểm của chip cóhàng ngàn phân tử probe với trình tự giống nhau Một tập hợp dữ liệu biểu diễn genee
có thể được biểu diễn thành một ma trận có giá trị thực
D =
Trong đó:
n là số lượng các genee
d là số lượng mẫu hay đều kiện thử
xij là thước đo biểu diễn mức gene i trong mẫu j
Trang 13Do ma trận gốc chứa nhiễu là cho giá trị sai lệch, hệ thống biến thể, do đó tiền xử lý
là quá trình bắt buộc trước khi tiến hành gom cụm
Dữ liệu biểu diễn gene có thể được gom cụm theo hai cách
Cách thứ nhất: là nhóm các mẫu gene giống nhau
Cách thứ hai: là nhóm các mẫu gene khác nhau trên các hồ sơ tương ứng
1.7.2 Gom cụm dữ liệu đối với hoạt động nghiên cứu thị trường
Trong lĩnh vực nghiên cứu thị trường, gom cụm dữ liệu được sử dụng để phânđoạn thị trường và xác định mục tiêu thị trường Trong phân đoạn thị trường, gomcụm dữ liệu thường được dùng để phân chia thị trường thành những cụm mang nhữngđặc trưng riêng biệt giúp hổ trợ cho quá trình ra quyết định chiến lược trong kinhdoanh chẳng hạn như: tìm kiếm các nhóm khách hàng quan trọng, cũng như phân loạikhách hàng thành từng nhóm khách hàng để từ đó đưa ra chiến lược kinh doanh hợp
lý nhất
1.7.3 Gom cụm dữ liệu phục vụ trong lĩnh vực y tế
Gom cụm dữ liệu còn được áp dụng trong lĩnh vực y tế bao gồm việc thúc đẩy vàduy trì sức khỏe, cải thiện hệ thống chăm sóc sức khỏe, công tác phòng chống bệnhtật, xác định các nhóm đối tượng có thể được hưởng lợi từ các dịch vụ cụ thể, đồngthời xác định các nhóm đối tượng có khả năng mắc các bệnh hiểm nghèo cao do lốisống, đều kiện kinh tế và vùng địa lý
1.7.4 Gom cụm dữ liệu đối với hoạt động phân đoạn ảnh
Phân đoạn ảnh là việc phân tích mức xám hay màu của ảnh thành các lát đồngnhất Trong phân đoạn ảnh, gom cụm dữ liệu thường được sử dụng để phát hiện biêncủa đối tượng trong ảnh
1.7.5 Gom cụm dữ liệu trong phân tích dữ liệu không gian
Các vệ tinh nhân tạo trên các trạm không gian có nhiệm vụ quan sát, ghi nhậnthông tin và gửi một lượng lớn dữ liệu không gian xuống trái đất để phân tích và xử
lý Gom cụm tự động có thể giúp chúng ta tự động nhận dạng và chiết xuất các đặctính quan trọng trong cơ sở dữ liệu không gian góp phần vào việc dự báo thời tiết,động đất, núi lửa, sống thần…
1.7.6 Gom cụm dữ liệu trong lập quy hoạch đô thị
Trong lập quy hoạch đô thị, gom cụm dữ liệu giúp nhận dạng các nhóm nhà theokiến trúc và vị trí địa lý để lập quy hoạch đô thi một cách hợp lý nhất
Trang 14Chương 2 CÁC KIỂU DỮ LIỆU TRONG BÀI TOÁN GOM CỤM & ĐỘ ĐO
T
Trang 15rong chương 2 chúng ta nghiên cứu các kiểu dữ liệu thường xuất hiện trong cácbài toán gom cụm cũng như các độ đo thông dụng được sử dụng.
2.1 Phân loại các kiểu dữ liệu
Cho không gian dữ liệu D chứa n đối tượng trong không gian k chiều trong đó x, y, z
là các đối tượng thuộc D: x = (x1, x2, …, xk); y = (y1, y2, …, yk); z = (z1, z2, …, zk)
Trong đó:
x, y, z là các đối tượng trong không gian k chiều
xi, yi, zi với i = 1, 2, …, k là các đặc trưng hoặc các thuộc tính tương ứng của cácđối tượng x, y, z
2.1.1 Phân loại các kiểu dữ liệu dựa trên kích thước miền
Thuộc tính liên tục: nếu miền giá trị của nó là vô hạn, không đếm được
Thuộc tính rời rạc: nếu miền giá trị của nó là tập hữu hạn, đếm được
Lớp các thuộc tính nhị phân: là một thường hợp đặc biệt của thuộc tính rời rạc
do miền giá trị của nó gồm có hai phần tử để biểu diễn giá trị true/false
2.1.2 Phân loại các kiểu dữ liệu dựa trên độ đo
Thuộc tính định danh: đây là dạng thuộc tính khái quát hóa của thuộc tính nhịphân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơnhai phần tử Nghĩa là nếu x và y là hai đối tượng trong không gian k chiều thì
có thể xác định là: x y hoặc x = y
Thuộc tính thứ tự: là thuộc tính định danh có thêm tính thứ tự nhưng chúngkhông được định lượng Nếu x và y là hai thuộc tính thứ tự thì có thể xác địnhlà: x y hoặc x = y hoặc x > y hoặc x < y
Thuộc tính khoảng: với thuộc tính khoảng, chúng ta có thể xác định được mộtthuộc tính là đứng trước hoặc đứng sau thuộc tính khác với một khoảng là baonhiêu Nếu xi > yi thì ta nói rằng x cách y một khoảng bằng xi – yi tương ứngvới thuộc tính thứ i
Thuộc tính tỉ lệ: là thuộc tính khoảng nhưng được xác định một cách tương đối
so với điễm mốc
Trong các thuộc tính trình bày ở trên, thuộc tính định danh và thuộc tính có thứ tựgọi chung là thuộc tính hạng mục, thuộc tính khoảng và thuộc tính tỉ lệ được gọi làthuộc tính số
2.2 Cấu trúc dữ liệu trong phép gom cụm
Trang 16Có thể dùng ma trận dữ liệu để mô hình hóa bài toán gom cụm Ma trận biểu diễnkhông gian dữ liệu gồm n đối tượng theo p thuộc tính Ma trận này biểu diễn mối quan hệđối tượng theo thuộc tính.
Ma trận dữ liệu gồm n đối tượng theo p thuộc tính được biểu diễn như sau:
Để biểu diễn khoảng cách giữa hai đối tượng trong không gian dữ liệu gồm n đốitượng theo p thuộc tính ta dùng ma trận phân biệt
Trong đó:
d(i, j) là khoảng cách giữa đối tượng i và đối tượng j
Ma trận dữ liệu thường được gọi là ma trận 2-mode (2 chế độ), trong khi đó ma trận phânbiệt được gọi là ma trận 1-mode (1 chế độ) Nhiều bài toán gom cụm thao tác trên matrận phân biệt Nếu bài toán được đưa ra dưới dạng ma trận dữ liệu thì nó có thể đượcchuyển đổi sang ma trận phân biệt trước khi áp dụng
2.3 Tương tự và phi tương tự giữa hai đối tượng
Phép đo hệ số tương tự và phi tương tự giữa hai đối tượng nhằm xác định chất lượnggom cụm Độ đo tương tự d(x,y) là một số không âm Khi d(x,y) càng tiến gần 0 thì x và
y càng gần nhau và ngược lại thì chúng càng xa nhau
Không có định nghĩa duy nhất về sự tương tự và phi tương tự giữa các đối tượng dữ liệu.Định nghĩa về sự tương tự và phi tương tự giữa các đối tượng phụ thuộc vào các yếu tốsau:
Loại dữ liệu khảo sát
Loại tương tự cần thiết
Lý tưởng, mọi độ đo khoảng cách phải thỏa một trong các đều kiện sau đây:
i. d(x,y) 0 (tính chất không âm)
ii. d(x,y) = 0 nếu x = y (tính chất điểm)
iii. d(x,y) = d(y,x) (tính chất đối xứng)
iv. d(x,y) d(x,z) + d(z,y) (tính chất bất đẳng thức tam giác)
Trong cơ sở dữ liệu có thể có nhiều kiểu thuộc tính khác nhau Một điểm dữ liệu đượcđặc trưng bằng nhiều thuộc tính có kiểu cơ sở Để xây dựng được một độ đo tốt có thể ápdụng cho dữ liệu tổng quát thì ta phải xây dựng được độ đo tốt cho các kiểu dữ liệu cơ sở
Trang 17Các kiểu dữ liệu cơ sở bao gồm: biến trị khoảng, biến nhị phân đối xứng, biến nhị phânbất đối xứng, biến định danh, biến thứ tự, biến tỉ lệ, biến các kiểu dữ liệu hỗn hợp, biến
dữ liệu phức tạp…
2.4 Biến trị khoảng
Các biến trị khoảng là độ đo liên tục các đại lượng tuyến tính đơn giản như trọnglượng, nhiệt độ, chiều cao, tuổi…các đơn vị đó ảnh hưởng rất nhiều đến kết quả gomcụm Do đó, tùy vào lĩnh vực ứng dụng và tiêu chí của phương pháp tiếp cận mà chuẩnhóa dữ liệu
Thay đổi đơn vị phép đo đã dùng có thể ảnh hưởng lớn đến kết quả gom cụm
Ví dụ: thay đổi các đơn vị đo
từ meter sang inche cho chiều cao
kilogam tới pound cho trong lượng
Nhìn chung, biểu diễn một biến dưới dạng các đơn vị đo nhỏ hơn sẽ dẫn tới một cấu trúcgom cụm rất khác biệt Để tránh sự phụ thuộc vào việc chọn lựa đơn vị đo dữ liệu nênđược chuẩn hóa
Để chuẩn hóa các phép đo, một lựa chọn đó là chuyển đổi các phép đo gốc sang các biếnkhông đơn vị và được biểu diễn như sau:
Tính trung bình độ lệch tuyệt đối sf
Sai số tuyệt đối trung bình càng lớn thì hiện tượng cá biệt càng giảm Do đó, độ đođược chọn sẽ ảnh hưởng đến kết quả phân tích mẫu cá biệt
Thuận lợi của việc sử dụng độ lệch tuyệt đối trung bình đó là giá trị không trở nênquá nhỏ nên dễ dàng nhận thấy
Sau khi chuẩn hóa ta tính độ tương tự giữa các đối tượng bằng cách sử dụng các phép đokhoảng cách mà phổ biến nhất là khoảng cách sau:
Trang 182.5 Biến nhị phân đối xứng
Biến nhị phân là biến chỉ có hai trạng thái 0 hoặc 1, true hoặc false Biến nhị phân làđối xứng nếu cả hai trạng thái là tương đương (về mặt ý nghĩa của ứng dụng) có nghĩa làkhông có xu hướng thiên vị trạng thái 1
Bảng sự kiện (contingenecy table) cho biến nhị phân được áp dụng cho cả đối xứng vàbất đối xứng
Đối tượng jĐối tượng i
a là số các biến bằng 1 cho cả hai đối tượng i và j
b là số các biến bằng 1 cho đối tượng i và bằng 0 cho đối tượng j
c là số các biến bằng 0 cho đối tượng i và bằng 1 cho đối tượng j
d là số các biến bằng 0 cho cả hai đối tượng i và j
p = a + b + c + d là tổng số lượng của các biến
Xử lý các biến nhị phân cũng giống như các biến tỷ lệ khoảng cách có thể gây ảnh hưởngđến kết quả gom cụm Do đó, cần phải tính toán độ đo phi tương tự
Trang 19Độ tương tự dựa trên biến nhị phân đối xứng thì được gọi là tương tự bất biến trong đókết quả không thay đổi khi một số hay tất cả các biến nhi phân được mã hóa khác nhau.Đối với các độ đo tương đồng bất biến, hệ số được biết đến nhiều nhất là hệ số đối sánhđơn giản (simple matching coefficient) được định nghĩa như sau:
Hệ số đối sánh đơn giản: d(i,j) = , ở dây i và j có vai trò như nhau, tức là chúngđối xứng và có cùng trọng số
2.6 Biến nhị phân bất đối xứng
Biến nhị phân là bất đối xứng nếu có một trạng thái có ý nghĩa quan trọng hơn thôngthường nó được mã hóa là 1 Lúc này, thường có xu hướng thiên về trạng thái ưu tiên đó
Ví dụ: trong các chuẩn đoán y khoa, người ta thường ưu tiên về một hướng kết luận là âmtính (thường được mã hóa bằng 1) cho những bệnh nhân có triệu chứng bệnh chưa rõràng nhằm mục đích cho các bước chẩn đoán chuyên sâu hoặc cách ly theo dõi
Độ tương tự dựa trên các biến nhị phân bất đối xứng thì được gọi là tương tự không bấtbiến Với sự tương tự không bất biến, hệ số được biết đến nhiều nhất là hệ số Jaccardtrong đó số phép so sánh phủ định coi như không quan trọng và do đó nó được bỏ qua khitính toán
Hệ số Jaccard: d(i,j) = , công thức này được áp dụng trong trường hợp mà trọng
số của các thuộc tính có giá trị 1 lớn hơn rất nhiều các thuộc tính có giá trị 0 Nhưvậy, các thuộc tính ở đây là không đối xứng
Ví dụ 2.6: Cho bảng hồ sơ bệnh nhân
Name, Geneder, Fever, Cough, Test-1, Test-2, Test-3, Test-4 là các thuộc tính
Y (Yes): triệu chứng rõ ràng
N (No): hoàn toàn không có triệu chứng
P (Part): triệu chứng không rõ ràng hoặc ít
Geneder là thuộc tính nhị phân đối xứng còn các thuộc tính còn lại đều là thuộc tính nhịphân bất đối xứng
Ta mã hóa các giá trị Y và P bằng 1 và N được gán bằng 0 Ta tính khoảng cách giữa cácbệnh nhân bằng cách sử dụng hệ số Jaccard theo bảng giá trị đã được mã hóa sau đây:
Trang 20Name(tên) Fever(Sốt) Cough(Ho) Test-1 Test-2 Test-3 Test-4
Trang 212.7 Biến định danh
Biến định danh là biến có thể nhận nhiều hơn hai trạng thái
Ví dụ: thuộc tính màu sắc có thể nhận các giá trị sau: Đỏ, da cam, vàng, lục, lam, chàm,tím, …
Có hai phương pháp để xác định khoảng cách giữa hai biến định danh
Phương pháp 1: Hệ số đối sánh đơn giản
d(i,j) = Trong đó:
m là thuộc tính có giá trị trùng khớp giữa hai đối tượng i và j
p là tổng số thuộc tính
Phương pháp 2: đưa biến định danh về biến nhị phân bằng cách thay đổi trạng tháiđịnh danh bằng một biến nhị phân mới
2.8 Biến thứ tự
Biến có thứ tự là biến trên một tập giá trị có xác định quan hệ thứ tự trên đó Các biến
có thứ tự rất hữu ích cho việc đánh giá chất lượng một cách chủ quan mà không thể đođược bằng cách khách quan Một biến có thứ tự liên tục giống như một tập dữ liệu liêntục với một tỷ lệ chưa biết
Ví dụ: sắp xếp quan hệ trong một môn thể thao đặc thù thường cần thiết hơn các giá trịthực tế của một độ đo đặc thù Các biến có thứ tự có thể cũng đạt được từ việc rời rạc hóacác con số tỷ lệ khoảng cách bằng cách chia vào trong một số các lớp hữu hạn Các giá trịcủa một biến có thứ tự có thể được ánh xạ tới các hạng Giả sử một biến có thứ tự f có Mftrạng thái, thì các trạng thái được sắp xếp theo thứ tự 1, …, Mf
Giả sử f là một biến trong tập các biến có thứ tự mô tả n đối tượng thì độ đo cho biến cóthứ tự được xây dựng như sau:
Giá trị của f cho đối tượng thứ i là xif và f có Mf trạng thái đã được sắp xếp, miêu
tả bởi thứ tự 1, …, Mf, Thay thế xif bởi hạng của chúng xif {1, …, Mf }
Ánh xạ hạng của từng biến vào [0, 1] bằng cách thay thế đối tượng i trong biến fbởi:
Zif =
Tính độ tương tự theo các phương pháp đã biết đối với các biến trị khoảng Zif
Ví dụ 2.8: Cho biến thứ tự huy chương gồm có các giá trị sau: Vàng, Bạc, Đồng, Không
Thay thế xif bởi hạng của chúng xif {1, 2, 3, 4}
Trang 22 Ánh xạ hạng của từng biến vào đoạn [0, 1] bằng cách thay thế đối tượng i trongbiến f bởi: Zif =
Athletics(Điền kinh)
Swimming(Bơi lội)
tennis(Quần vợt)
2.9 Biến tỷ lệ theo khoảng
Biến tỷ lệ khoảng là độ đo dương trên các tỷ lệ phi tuyến mà các đại lượng được biểudiễn theo hàm số mũ chẳng hạn như AeBt hay Ae-Bt trong đó A , B là các hằng số dương.Trong đa số trường hợp thì không thể áp dụng trực tiếp phương pháp độ đo cho các biếntrị khoảng vì có thể gây ra sai số lớn
Có ba phương pháp sử dụng các biến tỷ lệ để tính độ đo tương tự giữa các đối tượng
Xử lý các biến dựa trên tỷ lệ giống như các biến tỷ lệ khoảng cách Tuy nhiên, đâykhông phải là một phương pháp tốt bởi tỷ lệ có thể bị bóp méo
Trang 23 Một phương pháp tốt hơn của tiền xử lý bằng cách chuyển sang dạng logarit yif =log(xif) sau đó mới áp dụng trực tiếp phương pháp độ đo cho các biến trị khoảnghoặc thứ tự.
Xử lý xif như dữ liệu có thứ tự liên tục và xử lý các hạng của chúng như giá trị tỷ
lệ khoảng cách
Nhận xét: hai phương pháp sau có hiệu quả nhất, mặc dù việc lựa chọn phương pháp cònphụ thuộc vào từng loại ứng dụng cho trước
2.10 Biến có kiểu hỗn hợp
Cơ sở dữ liệu thực tế là sự pha trộn giữa các kiểu biến Nhìn chung, một cơ sở dữ liệu
có thể chứa tất cả sáu kiểu biến đã được trình bày ở phần trên Do đó, cần có một phươngpháp để tính độ đo tương tự giữa các đối tượng của các kiểu dữ liệu hỗn hợp
Một cách tiếp cận là nhóm mỗi loại biến với nhau, thực hiện các phép phân tích cụmriêng biệt cho mỗi kiểu biến Đều này là khả thi nếu như các phép phân tích này nhậnđược kết quả thích hợp Tuy nhiên, trong các ứng dụng thực tế thường không thể xảy ramột phép phân tích cụm tách biệt cho mỗi kiểu biến sẽ sinh ra các kết quả thích hợp.Một phương pháp tiếp cận tốt hơn là xử lý tất cả các kiểu biến với nhau, thực hiện mộtphép gom cụm đơn và kỹ thuật này được đề xuất bởi Ducker et al vào năm 1965 sau đó
nó được mở rộng bởi Kaufman and Rousseeuw vào năm 1990 Phép gom cụm đơn kếthợp các biến khác nhau vào trong một ma trận không tương đồng và mang tất cả các biến
có nghĩa lên trên một tỷ lệ chung trong [0, 1]
Giả sử kiểu dữ liệu chứa p biến kiểu dữ liệu hỗn hợp thì độ không tương đồng giữa haiđối tượng i và j được định nghĩa như sau:
d(i,j) =
Trong đó (f) được tính như sau:
(f) = 0 nếu xif hoặc xjf khuyết (tức là không có phép đo của biến f cho đối tượng ihay đối tượng j hoặc xif = xjf = 0 và biến f là nhị phân không đối xứng
Các trường hợp còn lại (f) = 1 và dij(f) được tính tuỳ thuộc vào từng loại kiểu dữliệu
Nếu f là dữ liệu nhị phân hay tên thì: dij(f) = 0 nếu xif = xjf, còn các trường hợpcòn lại thì dij(f) = 1
Nếu f là tỷ lệ khoảng cách: dij(f) = với h chạy qua tất cả các đối tượng khôngkhuyết đối với biến f
Nếu f là biến có thứ tự hay dựa trên tỷ lệ: tính toán các hạng rif và zif = và xemxét zif như tỷ lệ khoảng cách
Trang 26rình bày các phương pháp gom cụm điển hình trong bài toán gom cụm dữ liệuchẳng hạn như: Phương pháp gom cụm phân hoạch, phương pháp gom cụm phâncấp …đồng thời trình bài các thuật toán và ví dụ minh họa tương ứng.
3.1 Các phương pháp gom cụm điển hình
Các kỹ thuật gom cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nóđều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độthực hiện các thuật toán Hiện nay, các kỹ thuật gom cụm có thể phân loại theo các cáchtiếp cận chính sau:
3.1.1 Phương pháp gom cụm phân hoạch
Phương pháp gom cụm phân hoạch là phương pháp tạo phân hoạch cơ sở dữ liệu
D có n đối tượng thành k cụm sao cho:
Mỗi cụm chứa ít nhất một đối tượng
Mỗi đối tượng phải thuộc về một cụm duy nhất
K là số cụm đã được cho trước
Trong phương pháp gom cụm phân hoạch, hầu hết các ứng dụng làm theo một tronghai phương pháp heuristic phổ biến:
Giải thuật k-means: mỗi cụm được đại diện bằng một trong tâm của cụm
Giải thuật k-medoids: với mỗi cụm được đại diện bởi một trong số các đối
tượng định vị gần tam của cụm
Phương pháp gom cụm phân hoạch làm việc tốt khi tìm kiếm các cụm hình cầu trongkhông gian Euclide trong các cơ sở dữ liệu có kích thước từ nhỏ tới trung bình Đểtìm ra các cụm với hình dạng phức tạp và gom cụm cho các tập dữ liệu lớn thì phải sửdụng phương pháp phân hoạch mở rộng
3.1.2 Các phương pháp phân cấp
Phương pháp phân cấp nổi trội hơn so các phương pháp phân hoạch ở chổ làkhông cần phải xác định số cụm ngay từ đầu Số cụm sẽ do khoảng cách giữa các cụmhoặc đều kiện dừng quyết định Tiêu chuẩn gom cụm thường được xác định bởi matrận khoảng cách Phân cấp cụm thường được biểu diễn bằng đồ thị dạng cây và câyphân cấp được xây dựng theo kỹ thuật đệ quy Nút lá của cây biểu diễn đối tươngriêng lẻ, nút trong biểu diễn các cụm
T
Trang 27Hình 3.1 Các chiến lược gom cụm phân cấpCác phương pháp tiếp cận để gom cụm phân cấp gồm:
Gộp
Bước 1: Xuất phát mỗi đối tượng và tạo cụm chứa nó
Bước 2: Nếu hai cụm đủ gần nhau (dưới một ngưỡng nào đấy) sẽ được gộplại thành một cụm duy nhất
Bước 3: lập lại bước 2 cho đến khi chỉ còn một cụm duy nhất là toàn bộkhông gian
Tách
Bước 1: Xuất phát từ một cụm duy nhất là toàn bộ không gian
Bước 2: Chon cụm có độ phân biệt cao nhất trong ma trận phân biệt cóphần tử lớn nhất hoặc trị trung bình lớn nhất để tách đôi Bước này sẽ ápdụng các phương pháp phân hoạch đối với cụm đã chọn
Bước 3: Lập lại bước 2 đến khi mỗi đối tượng thuộc một cụm hoặc đạt đềukiện dừng đó là đủ số cụm cần thiết hoặc khoảng cách giữa các cụm đạtngưỡng đủ nhỏ
Các khoảng cách giữa các cụm thường được dùng là:
Khoảng cách nhỏ nhất: khoảng cách này được gọi là khoảng cách liên kết đơn(single link) hoặc khoảng cách người láng giềng gần nhất Đây là khoảng cáchphù hợp để xác định các cụm có dạng chuỗi hơn là dạng khối
d(Ci, Cj) = {d(x,y)}
Khoảng cách lớn nhất: khoảng các này còn được gọi là khoảng cách liên kếthoàn toàn (complete link) hoặc khoảng cách người láng giềng xa nhất Đây làloại khoảng cách phù hợp để phát hiện các cụm có dạng khối hơn là dạngchuỗi
Trang 28phát hiện các cụm có dạng khối và tốc độ tính toán nhanh do chỉ quan tâm đếntrọng tâm nên làm giảm khối lượng tính toán.
3.1.3 Các phương pháp dựa trên mật độ
Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ, mật độ là số cácđối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếpcận này khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng
dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã đượcxác định trước
Phương pháp gom cụm dựa trên mật độ có thể phát hiện các cụm dữ liệu với hình thùbất kỳ kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc các giá trị nhiễurất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn,trong khi các tham số này lại có tác động rất lớn đến kết quả gom cụm
DBSCAN là một phương pháp dựa trên mật độ điển hình, nó tăng trưởng các cụm dựatheo một ngưỡng mật độ OPTICS cũng là một phương pháp dựa trên mật độ, nó tínhtoán một thứ tự gom cụm tăng dần cho phép phân tích cụm tự động và tương tác
3.1.4 Các phương pháp dựa trên mô hình
Đây là các phương pháp dựa trên sự phù hợp giữa dữ liệu và các mô hình toán học Ý tưởng của phương pháp này là dữ liệu phát sinh từ một sự kết hợp nào đó của các phân phối xác xuất ẩn Có hai phương pháp tiếp cận chính đó là:
Tiếp cận thống kê (phương pháp COBWEB, CLASSIT, AutoClass)
Tiếp cận mạng nơron (Học cạnh tranh, bản đồ tự cấu trúc SOM)
3.1.5 Các phương pháp dựa trên lưới
Kỹ thuật gom cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấutrúc dữ liệu lưới để gom cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữliệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạothành cấu trúc dữ liệu lưới Sau đó, các thao tác gom cụm chỉ cần làm việc với các đốitượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựatrên lưới này không duy chuyển các đối tượng trong các ô mà xây dựng nhiều mứcphân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống vớiphương pháp gom cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyếtkhắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp gom cụm dựa trênmật độ không giải quyết được Ưu điểm của phương pháp gom cụm dựa trên lưới làthời gian xử lý nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu,thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới