Trong nhiều ứng dụng khai thác dữ liệu, các thuộc tính lớp của hầu hết các đối tƣợng là không khác biệt nhƣng không rõ ràng. Mơ hồ trong dữ liệu đã thu hút các nhà toán học, triết học, lý luận học và gần đây các nhà khoa học máy tính. Lý thuyết tập thô là một phƣơng pháp để giải quyết sự mơ hồ. Khái niệm cốt lõi của lý thuyết tập thô là mối quan hệ không phân biệt đƣợc có các tính chất phản xạ, đối xứng và bắc cầu. Tính không phân biệt đƣợc phân vùng không gian vào các lớp tƣơng đƣơng, tạo thành các hạt cơ bản.
Cho là một mối quan hệ là một mối quan hệ dung sai trên U, nếu
1, là phản xạ, có nghĩa là đối với bất kỳ , .
2, là đối xứng, nghĩa là cho bất kỳ cặp , .
Định nghĩa của xấp xỉ trên và dƣới của một tập bây giờ có thể dễ dàng xây dựng sử dụng các lớp khoan dung. Để làm điều này, chúng ta thay thế các lớp dung sai cho các lớp indiscernibility trong định nghĩa cơ bản của xấp xỉ trên và dƣới của bộ này. Nhƣ vậy, xấp xỉ dung sai một tập hợp con đƣợc của vũ trụ đƣợc định nghĩa nhƣ trong định nghĩa 1 nhƣ sau:
Định nghĩa 1[7]:
Cho và một mối quan hệ dung sai nhị phân R đƣợc xác định trên .
Xấp xỉ dƣới của , ký hiệu và xấp xỉ trên của , ký hiệu tƣơng ứng đƣợc quy định nhƣ sau:
37 = ⋃
Đề xuất một thuật toán phân sử dụng tập thô cho phân nhóm các giao dịch sử dụng web. Cho i là một giao dịch ngƣời dùng bao gồm chuỗi các lƣợt ghé thăm trang web. Đối với phân nhóm các giao dịch sử dụng, ban đầu mỗi giao dịch đƣợc thực hiện nhƣ là một cụm duy nhất. Để cho các cụm thứ i là i = { i}. Rõ ràng, i là một tập hợp con của . Xấp xỉ trên của i, ký hiệu là , là một tập hợp các giao dịch tƣơng tự nhƣ i, đó là, một sử dụng truy cập các trang web trong xi cũng có thể truy cập các trang web khác có mặt trong các giao dịch thuộc .
Đối với bất kỳ giá trị ngƣỡng không âm và đối với bất kỳ hai đối tƣợng , một mối quan hệ nhị phân trên U đƣợc kí hiệu là đƣợc xác định bởi khi và chỉ khi . Mối quan này là một quan hệ dung sai và có cả phản xạ và đối xứng nhƣng có thể không bắc cầu. Xấp xỉ trên đầu tiên có một tập hợp các đối tƣợng giống nhau nhất i. Vì vậy, xấp xỉ trên đầu tiên của một đối tƣợng i có thể đƣợc định nghĩa nhƣ sau:
Định nghĩa 2 [7]:
Đối với một giá trị ngƣỡng không âm cho và một bộ = { 1, 2, …,
n}, xấp xỉ trên đầu tiên là: { i}) = { j| ( i, j) }
Một số bộ trong tập từ xấp xỉ trên đầu tiên có thể chia sẻ các yếu tố (còn gọi là phần tử ranh giới). Các yếu tố ranh giới có thể hƣớng đến quá trình phân nhóm. Các yếu tố đƣợc chia sẻ, đƣợc tạo ra sau khi xấp xỉ trên đầu, có thể là thành viên tiềm năng của các tập mới hình thành trong xấp xỉ trên thứ hai hoặc cao hơn. Điều này có thể đƣợc quyết định bằng cách tính toán cƣờng độ của yếu tố chia sẻ cho tất cả các cụm nó thuộc về. Điều này đƣợc đo bằng cách sử dụng một tham số đƣợc gọi là giống nhau tƣơng đối. Giá trị của thứ hai và sự giống nhau xấp xỉ trên cao đƣợc tính toán trong điều kiện tƣơng tự tƣơng đối. Đối với hai bộ giao nhau . Sự giống nhau tƣơng đối của đối với với đƣợc cho bởi :
( i, j) = | |
38
Bây giờ chúng ta xác định đƣợc đề xuất hạn chế tƣơng tự -xấp xỉ trên trong định nghĩa sau đây:
Định nghĩa 3.[7] Cho = { 1, 2, …, n}, . Cho một giá trị không âm cố định (0, 1], hạn chế tƣơng tự-xấp xỉ trên của xi đƣợc cho bởi:
({ i}) = { j ⋃ | i, j) } Khi ( i) j)
Nói cách khác, tất cả các trình tự j thuộc sự giống nhau xấp xỉ trên của các yếu tố của i) là tƣơng đối tƣơng tự nhƣ i bị hạn chế (hoặc sáp nhập) vào sự giống nhau xấp xỉ trên tiếp theo của i.
Lặp lại quá trình tính toán hạn chế tƣơng tự-xấp xỉ trên tiếp cho một cho đến khi hai hạn chế tƣơng tự-xấp xỉ trên liên tiếp vẫn nhƣ cũ. Ở đây, là một tham số ngƣời dùng định nghĩa đƣợc gọi là tƣơng tự tƣơng đối, đƣợc sử dụng để hợp nhất hai lần xấp xỉ trên cho sự hình thành của thứ hai và cao hơn xấp xỉ trên. là ngƣời dùng xác định ngƣỡng tham số sử dụng để xác định sự giống nhau giữa hai đối tƣợng và đƣợc sử dụng để tìm xấp xỉ trên đầu tiên. Các hạn chế tƣơng tự-xấp xỉ trên đƣợc tính cho tất cả các giao dịch của . Thuật toán đầy đủ cho các tính toán của tập thô dựa trên phân nhóm đƣợc đƣa ra trong thuật toán 1.
Không giống nhƣ các thuật toán truyền thống khác, trong cách tiếp cận này nhiều hơn hai giao dịch có thể kết hợp để tạo thành một cụm. Ngoài ra, số lƣợng tính toán xấp xỉ trên cho bộ tƣơng tự nhƣ giảm đi số lần lặp lại tăng lên. Vì vậy, các phân nhóm thô đề xuất hội tụ nhanh hơn.
Thuật toán
Phân cụm dựa trên tập thô
Input:
: Một tập hợp các trình tự Threshold(ngƣỡng) Tƣơng tự tƣơng đối
Output:
39
Begin
Step 1: Xây dựng ma trận tƣơng tự sử dụng độ đo 3 .
Step 2: Đối với mỗi i , Tính Si= i) sử dụng định nghĩa 2 cho cho ngƣỡng .
Step 3: Cho = ⋃i i, =
Step 4: Với mọi i Tính ràng buộc tƣơng tự-xấp xỉ trên tiếp theo S‟ sử dụng định nghĩa 3 cho tƣơng đối
if i = i‟
i‟ { i}
endif
Step 5: Lặp lại bƣớc 4 đến khi
Step 6: Trả về
End
- Độ phức tạp thuật toán: 2 2 | | .
Ví dụ: Ta có 10 ngƣời dùng với mỗi ngƣời dùng là một trình tự chuyển hƣớng web đƣợc cho trong hình sau:
40
Hình 3.2 Ma trận tƣơng tự bằng cách sử dụng số liệu đề xuất với p = 0,5
Xét 10 chuỗi dữ liệu nhƣ hình.3.1. Bảng tƣơng tự đã đƣợc tính toán bằng cách sử dụng ma trận tƣơng tự 3 với = 0,5 (Hình 3.2). Sự giống nhau xấp xỉ trên đầu tiên tại ngƣỡng giá trị = 0.2 đƣợc cho bởi i) với i = 1, 2, …,10. nhƣ dƣới đây:
Hình 3.3 Kết quả i)
Trong bƣớc đầu tiên, sự giống nhau xấp xỉ trên thứ hai của xấp xỉ trên của 1 đƣợc cho bởi
1) = { 1, 3, 5, 6, 8}
Bây giờ, hạn chế tƣơng tự-xấp xỉ trên đƣợc áp dụng trên sử dụng Định nghĩa 3 với = 1. Có thể thấy rằng chỉ có các yếu tố 1, 5 và 6 đủ điều kiện để đƣợc trong ( 1).
Ví dụ, hãy xem xét yếu tố 3, 1) 3) = { 6} và 1) 3) = { 1, 5} Nhƣ vậy, sự giống nhau quan hệ cực giữa 1 và 3 là:
( i, j) = | |
41
Nhƣ vậy, Tập các xấp xỉ hạn chế-tƣơng tự đƣợc đƣa ra trong hình sau:
Hình 3.4 Tập các xấp xỉ hạn chế-tƣơng tự
Trong các tập trên các tập đƣợc in đậm ở trên xấp xỉ liên tiếp đều giống nhau.
Ví dụ: ( 1) = 1) = { 1, 5, 6}
Nhƣ vậy, sự giống nhau xấp xỉ trên thứ ba sẽ đƣợc tính cho chỉ những yếu tố có tƣơng tự liên tiếp xấp xỉ trên là không giống nhau. Nhƣ vậy, chỉ T6 cần đƣợc xem xét cho sự giống nhau xấp xỉ trên thứ ba.
42
Do không có sự thay đổi trong hạn chế-tƣơng xấp xỉ trên cho tất cả các yếu tố,thuật toán đã hội tụ. Họ cụm cuối cùng đƣợc đƣa ra trong hình sau:
Hình 3.5 Họ cụm cuối đƣợc đƣa ra
Kết quả thử nghiệm với ví dụ trên:
43
Hình 3.7 Kết quả xấp xỉ trên thứ hai
44