Lý thuyết tập thô có thể được sử dụng để phân loại khám phá các mối quan hệ có ý nghĩa cấu trúc với dữ liệu mơ hồ và hỗn loạn. Nó dùng với các thuộc tính có giá trị rời rạc. Các thuộc tính có giá trị liên tục do vậy phải được rời rạc hóa trước khi sử dụng.
Lý thuyết tập thô được dựa trên việc thành lập các lớp tương đương trong giới hạn dữ liệu huấn luyện cho trước. Tất cả các bộ dữ liệu hình thành một lớp tương đương là không phân biệt được. Nghĩa là, các mẫu là đồng nhất đối với thuộc tính mô tả trong dữ liệu. Một số lớp không thể phân biệt được theo nghĩa các thuộc tính có thể chấp nhận. Các tập thô có thể được dùng để xấp xỉ hoặc xác định các lớp “thô”. Một tập thô được xác định trên lớp C được xấp xỉ bằng 2 tập – một xấp xỉ dưới của C và một xấp xỉ trên của C. Tập xấp xỉ dưới của C gồm tất cả các bộ dữ liệu chắc chắn nằm trong C. Tập xấp xỉ trên của C gồm tất cả các bộ không nói rõ là không thuộc C. Hai tập này được minh họa như hình dưới đây
Tập xấp xỉ trên của C Tập xấp xỉ dưới của C C
Hình 1.2: Một tập thô xấp xỉ tập các bộ của C khi dùng các tập xấp xỉ trên và dưới của C. Các vùng hình chũ nhật biểu diễn các lớp tương đương [6]
Các tập thô cũng có thể được sử dụng để lựa chọn các tập con thuộc tính (loại bỏ các thuộc tính không có ích cho việc phân loại) và phân tích. Vấn đề là tìm các tập con cực tiểu các thuộc tính mà có thể mô tả đầy đủ các khái niệm trong tập dữ liệu. Tuy nhiên các thuật toán giảm cường độ tính toán đã được đề xuất. Có một phương pháp, ví dụ như, một mạ trận nhận dạng được dùng để lưu sự khác biệt giữa các giá trị thuộc tính đối với mỗi cặp các bộ dữ liệu. Ngoài tập huấn luyện, người ta nghiên cứu nhiều hơn ma trận này để khám phá các thuộc tính dư thừa.