Thuộc tớnh tỉ lệ

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 30)

Cú nhiều cỏch khỏc nhau để tớnh độ tương tự giữa cỏc thuộc tớnh tỷ lệ. Một trong những số đú là sử dụng cụng thức tớnh logarit cho mỗi thuộc tớnh xi, vớ dụ qi=log(xi), lỳc này qi đúng vai trũ như thuộc tớnh khoảng. Phộp biến đổi logarit này thớch hợp trong trường hợp cỏc giỏ trị của thuộc tớnh mẫu.

Trong thực tế, khi tớnh độ đo tương tự dữ liệu, chỉ xem xột một phần cỏc thuộc tớnh đặc trưng đối với cỏc kiểu dữ liệu hoặc là đỏnh trọng số cho tất cả cỏc thuộc tớnh dữ liệu. Trong một số trường hợp, người ta loại bỏ đơn vịđo của cỏc thuộc tớnh dữ liệu bằng cỏch chuẩn hoỏ chỳng, hoặc gỏn trọng số cho mỗi thuộc tớnh giỏ trị trung bỡnh, độ lệch chuẩn. Cỏc trọng số này cú thể sử dụng trong cỏc độ đo khoảng cỏch trờn. Vớ dụ với mỗi thuộc tớnh dữ liệu đó được gỏn trọng số tương ứng wi (1≤i≤k), độ tương đồng dữ liệu được xỏc định như sau: d(x,y)= ∑ = − n i i i i x y w 1 2 ) ( Cú thể chuyển đổi mụ hỡnh cho cỏc kiểu dữ liệu trờn, vớ dụ dữ liệu kiểu hạng mục cú thể chuyển đổi thành dữ liệu nhị phõn hoặc ngược lại nhưng giải phỏp này rất tốn kộm về chi phớ tớnh toỏn. Do vậy, cần phải cõn nhắc khi ỏp dụng cỏch thức này.

Túm lại, tuỳ từng trường hợp dữ liệu cụ thể mà cú thể sử dụng cỏc mụ hỡnh tớnh độ tương tự khỏc nhau. Việc xỏc định độ tương đồng dữ liệu thớch

hợp, chớnh xỏc, đảm bảo khỏch quan là rất quan trọng, gúp phần xõy dựng thuật toỏn PCDL cú hiệu quả cao trong việc đảm bảo chất lượng cũng như chi phớ tớnh toỏn [7].

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 30)