Lý thuyết tập thụ (rough set theory) lần đầu tiờn được đề xuất bởi Z. Pawlak vào đầu những năm 1980 và nhanh chúng được xem như một cụng cụ xử lý cỏc thụng tin mơ hồ và khụng chắc chắn. Lý thuyết tập thụ là một cụng cụ hữu ớch được sử dụng nhiều trong việc phõn tớch và phõn lớp dữ liệu. Lý thuyết tập thụ đó được ỏp dụng thành cụng trong nhiều tỏc vụ khỏc nhau như: Trớch chọn cỏc đặc trưng, tổng hợp ra cỏc luật và phõn cụm dữ liệu.
Lý thuyết tập thụ dựa trờn giả thiết rằng để định nghĩa một tập hợp, chỳng ta cần phải cú thụng tin về mọi đối tượng trong tập vũ trụ, quan điểm này hoàn toàn khỏc với quan điểm truyền thống của tập hợp là mọi tập hợp đều được định nghĩa duy nhất bởi cỏc phần tử của nú mà khụng cần biết bất kỳ thụng tin nào về cỏc phần tử của tập hợp. Vấn đề nổi bật của lý thuyết tập thụ là việc đưa ra ý tưởng về tớnh mơ hồ của tri thức hay hệ thụng tin; nú dựa trờn khỏi niệm xấp xỉ dưới (Lower approximation) và xấp xỉ trờn (Upper approximation) của hệ thụng tin. Xấp xỉ dưới của một hệ thụng tin cho một khỏi niệm C là tập hợp cỏc đối tượng chắc chắn thuộc về khỏi niệm C; trong khi đú xấp xỉ trờn của một hệ thụng tin cho khỏi niệm C là tập hợp cỏc đối tượng cú thể thuộc về khỏi niệm C. Vựng khỏc biệt giữa xấp xỉ trờn và xấp xỉ dưới được gọi là vựng biờn (Boundary region) đú là những đối tượng khụng thể quyết định được là cú thuộc khỏi niệm C (xem hỡnh 4.1).
Trong chương này chỳng ta sẽ nghiờn cứu cỏc khỏi niệm và ý nghĩa cơ bản của lý thuyết tập thụ. Đõy là những kiến thức quan trọng cho việc ỏp dụng tập thụ vào phõn cụm kết quả tỡm kiếm web.
Hỡnh 4- 1. Hỡnh ảnh minh họa cỏc khỏi niệm của tập thụ