Sử dụng hai tập thư điện tử huấn luyện, một tập là thư rác và tập còn lại không phải là thư rác. Mỗi tập chứa khoảng 4000 thư. Đếm số lần xuất hiện của mỗi thẻ trong mỗi tập thư điện tử. Mỗi lần đếm kết thúc với hai bảng băm. Mỗi bảng băm tương ứng với mỗi tập thư điện tử, bảng này là ánh xạ các thẻ đến số lần xuất hiện của thẻ đó.
Tiếp theo chúng ta tạo ra bảng băm thứ 3, bảng băm này ánh xạ mỗi thẻ tới xác suất mà một email chứa nó là email spam. Ta tính theo công thức sau đây:
Trong đó:
Ngood ứng với số thư không phải là thư rác.
Nbad ứng với số thư là thư rác.
Công thức trên được diễn tả theo các biểu thức của ngôn ngữ Arc. Mỗi biểu thức là một cặp dấu ngoặc đơn. Trong ngoặc là một danh sách với biểu thức đứng ở vị trí đầu tiên theo sau là các tham số. Thực hiện biểu thức từ trái qua phải.
Ví dụ:
(< (+ g b) 5) tương đương với (g + b) < 5.
Công thức này sẽ tính xác suất cho một từ hay thẻ (word) như sau: Thẻ được lấy từ trong bảng good, là bảng băm các thẻ của tập thư không phải là thư rác và nhân đôi lên. Nhân đôi lên để giảm độ chênh lệch xác suất giữa thư rác và không phải thư rác, tăng độ chính xác trong việc phân loại. Tiếp theo cũng thẻ đó ta lấy từ bảng bad, là bảng băm các thẻ tập thư rác. Như vậy ta có chỉ số g ứng với 2 lần suất hiện của thẻ trong tập thư không phải thư rác và b ứng với số lần xuất hiện của thẻ trong trong tập thư rác. Nếu như tổng g và b nhỏ hơn 5 thì thẻ sẽ bị loại bỏ. Xác suất tính được sẽ nằm trong khoảng giá trị từ .01 đến .99. Xét cho cùng thì việc tính toán ở trên tương ứng với công thức tính xác suất ở dạng luật Bayes đơn giản như sau:
Như vậy kết quả của quá trình huấn luyện là một bảng băm hay nói khác hơn là một cơ sở dữ liệu rút ra từ tập thư huấn luyện. Bảng băm này là ánh xạ của các thẻ đến các giá trị xác xuất của chúng. Bảng băm này là cơ sở quyết định cho việc tính toán xác suất của một lá thư điện tử là thư rác.