Phân nhóm đáng tin cậy của các phiên ngƣời dùng web có thể đạt đƣợc nếu cả hai nội dung cũng nhƣ thứ tự các lƣợt ghé thăm trang đƣợc xem xét. Bằng cách này, cả hai chuyến thăm trang của ngƣời sử dụng thực tế cũng nhƣ sở thích và yêu cầu ngƣời sử dụng đƣợc nắm bắt. Hầu hết các phƣơng pháp tiếp cận trong khai thác web không sử dụng tính chất tuần tự của phiên ngƣời dùng. Thƣờng đƣợc mô hình hóa các phiên trong một chiều không gian vector của các trang web. Các n - không gian vector có thể đƣợc nhị phân, cho biết một trang web cụ thể đƣợc truy cập hay không trong một phiên. Các vector có thể mang theo các thông tin liên quan đến việc đếm tần số của lƣợt ghé thăm trang web trong một phiên. Vì vậy, tùy thuộc vào bản chất của các giá trị liên kết với các không gian n, phân tích hạn chế ngƣời dùng đang đƣợc thực hiện.
Nói chung, các thuật toán phân nhóm sử dụng một trong hai các hàm khoảng cách hay chức năng tƣơng tự để so sánh cặp trình tự. Nhiều ngƣời trong số các số liệu cho các trình tự không hoàn toàn đủ điều kiện nhƣ là số liệu do một hoặc nhiều lý do. Trong phần sau, giới thiệu ngắn gọn về độ đo tƣơng tự [7]. Độ đo này xem xét cả các thiết lập cũng nhƣ trình tƣơng tự trên hai chuỗi.
Trong chƣơng này trình bày một kỹ thuật phân nhóm mới cho các trình tự sử dụng khái niệm về hạn chế - tƣơng tự xấp xỉ trên. Ý tƣởng chính là tìm một tập hợp các tính năng mà nắm bắt đƣợc thông tin tuần tự của các chuỗi dữ liệu cũng nhƣ nội dung thông tin. Những bộ tính năng đƣợc dự báo vào một không gian xấp xỉ trên. Hạn chế - tƣơng tự kỹ thuật xấp xỉ trên đƣợc áp dụng để có đƣợc xấp xỉ trên của cụm thô trong đó một yếu tố có thể thuộc về nhiều hơn một cụm.