7. Bố cục của luận văn
1.5.2 đo tương tự và phi tương tự
1.5.2.1, Độ đo tương tự
Giả sử trong một miền dữ liệu D, một phần tử dữ liệu x được biểu diễn bằng một vector n chiều (x1,x2,…xn), trong đó mỗi chiều biểu diễn một thuộc tính mô tả phần dữ liệu x. Tùy vào kiểu giá trị biểu diễn mà độ tương tự giữa hai phần tử dữ liệu x1,x2 có thể được tính toán bằng các cách khác nhau [2].
- Trường hợp các giá trị thuộc tính được biểu diễn bằng các giá trị nhị phân
{ }, ta lập bảng mô tả số lượng các thuộc tính có cùng giá trị và các thuộc tính không cùng giá trị như bảng (1. 1). Khi đó độ đo Jaccard xác định độ đo tương tự giữa hai phần tử dữ liệu x1,x2 được xác định như sau :
Bảng 1.1: Ma trận kề Phần tử dữ liệu x2 Phần tử dữ liệu x1 Tổng 1 0 1 a b a+b 0 c d c+d Tổng a+c b+d a+b+c+d
- Trường hợp thuộc tính Ai có giá trị xi được biểu diễn bằng các giá trị rời rạc
{ } thì ta biến thuộc tính Ai thành m thuộc tính nhị phân sau đó áp dụng công thức Jaccard ở trên để đo độ tương tự. Ví dụ thuộc tính màu có các giá trị rời rạc là {xanh, đỏ, vàng}, khi đó ta biến thuộc tính màu thành 03 thuộc tính xanh, đỏ, vàng với giá trị của các thuộc tính này là các thuộc tính nhị phân {0,1}
- Trong trường hợp giá trị biểu diễn xi các thuộc tính là liên tục thì một trong các công thức hay dùng để đo độ tương tự là cosin() :
∑
√∑ √∑
(1.5)
1.5.2.2. Độ đo phi tương tự
Trong nhiều trường hợp ta có thể sử dụng độ đo phi tương tự thay cho độ đo tương tự: một trong những khác biệt là độ đo khoảng cách. Tương tự, như độ đo tương tự, tùy thuộc vào giá trị biểu diễn các thuộc tính mà các độ đo khoảng cách sẽ được tính toán bằng những công thức khác nhau.
- Trường hợp các thuộc tính được biểu diễn bằng các giá trị nhị phân { }. Trường hợp này còn phân nhỏ ra các là thuộc tính đối xứng và thuộc tính bất đối xứng. Thuộc tính đối xứng là thuộc tính mà giá trị của nó dù là 0 hay 1 thì ý nghĩa của nó cũng không tạo sự khác biệt. Ví dụ trong một cơ sở giao dịch mua hàng thì thuộc tính giới tính nam được biểu diễn bằng 1 và nữ được biểu diễn bằng 0, thì chúng ta không thấy được sự khác biệt về người mua cho dù đó là nam hay nữ. Tuy nhiên nếu xét thuộc tính biểu diễn một giao dịch có mua mặt hàng máy tính hay không thì thuộc tính bằng 1 là mua còn thuộc tính bằng 0 là không mua, nếu xét về mặt thuộc tính như thế này chúng có ý nghĩa khác nhau rõ rệt. Hay xét về kết quả xét nghiệm máu của một bệnh nhân có bị ung thư hay không, nếu có là 1 không có là 0 thì ý nghĩa sẽ khác hẳn. Do đó công thức tính độ đo khoảng cách sẽ khác nhau dựa vào ma trận kề như bảng 1.1
+ Nếu là thuộc tính đối xứng thì khoảng cách d được tính bằng công thức :
+ Nếu là thuộc tính bất đối xứng thì khoảng cách d được tính bằng công thức :
(1.7)
- Trường hợp thuộc tính Ai có giá trị xi được biểu diễn bằng thuộc tính rời rạc
{ } thì ta biến thuộc tính Ai thành m thuộc tính nhị phân sau đó áp dụng công thức khoảng cách ở trên để đo độ khác biệt. Một phương pháp khác đơn giản hơn là tìm số lượng các thuộc tính mà x1 và x2 có cùng giá trị. Giả sử chúng có q thuộc tính có giá trị giống nhau, thì độ đo khoảng cách được tính bằng :
(1.8) Trong đó, n là số lượng các thuộc tính.
- Trong trường hợp giá trị biểu diễn xi được biểu diễn bằng các giá trị liên tục, thì ta có một số các công thức đo khoảng cách như sau :
+ Độ đo khoảng cách Manhattan
∑ | | (1.9)
+ Độ đo khoảng cách Euclide :
√∑ | | (1.10)
+ Độ đo Minkowski
√∑ | | (1.11)
- Như vậy, độ đo khoảng cách Manhattan theo phương trình (1.9) là trường hợp đặc biệt của độ đo Minkowski với q=1, còn trường hợp q=2 thì nó là độ đo Euclide.
- Các độ đo khoảng cách trên đều có đặc điểm sau :
+ Tính độ xác định dương : d(xi,xj)>0 nếu i<>jvà d(xi,xj)=0 nếu i=j
+ Tính đối xứng : d(xi,xj)=d(xj,xi)
+ Tính bất đẳng thức tam giác : d(xi,xj)<>d(xi,xk)+d(xk,xj)