Để cú thể phõn cụm được cỏc tài liệu, chỳng ta phải biểu diễn được cỏc tài liệu dưới dạng vector tài liệu trong khụng gian vector. Ứng dụng mà chỳng tụi xõy dựng cho phộp người dựng tỡm kiếm được thụng tin theo cỏc chủ đề nhờ ứng dụng lý thuyết tập thụ vào vấn đề phõn cụm kết quả tỡm kiếm web, vỡ vậy cần xõy dựng một bộ tỏch cỏc từ tiếng Việt để cú thể biểu diễn nội dung cỏc trang web dưới dạng vector tài liệu.
Thành phần tỏch từ xõy dựng phải cú một số chức năng cơ bản như loại bỏ cỏc thẻ HTML, loại bỏ cỏc ký tự đặc biệt, phõn tớch nội dung tài liệu thành cỏc cõu sau đú tỏch cỏc cõu thành cỏc từ để việc tỏch từ cú độ chớnh xỏc cao hơn.
Để xõy dựng thành phần này, chỳng tụi đó sử dụng cỏc thuật toỏn tỏch từ tiếng Việt đó được giới thiệu trong mục 3.7. Vỡ ứng dụng tỡm kiếm là thực hiện trực tuyến, nờn việc tỡm kiếm phải thực hiện gần như là tức thời. Do vậy việc tỏch từ ngoài yờu cầu chớnh xỏc thỡ cần cú tốc độ xử lý nhanh. Để thỏa món cỏc yờu cầu đú, chỳng tụi lựa chọn phương phỏp tỏch từ tiếng Việt dựa trờn từ điển. Việc phõn tỏch cỏc từ sẽ được thực hiện trong khoảng thời gian ngắn do chỳng tụi thực hiện việc chia nhỏ từ điển thành nhiều file dựa trờn độ dài từ cần tỏch. Cỏc từ điển cũng được load vào bộ nhớ khi thực hiện tỡm kiếm để trỏnh việc truy cập file nhiều lần làm giảm tốc độ tỡm kiếm. Ngoài ra kỹ thuật tỡm kiếm nhị phõn cũng giỳp tăng hiệu quả của quỏ trỡnh tỡm kiếm.