Với mục tiêu thực hiện giai đoạn phân loại thuận tiện, các vectơ nhị phân đại diện cho từng lớp được xây dựng. Mỗi lớp cho trước được biểu diễn thành một vectơ nhị phân có số chiều bằng kích thước tập đồ thị con phổ biến. Đặc trưng nhận giá trị 1 nếu đồ thị con phổ biến tương ứng xuất hiện trong tập đồ thị con phổ biến của lớp và ngược lại sẽ nhận giá trị 0. Kết quả nhận được là tập vectơ đặc trưng - các vectơ nhị phân đại diện cho các lớp. Để tiện cho việc trình bày các công thức, luận án sử dụng các ký hiệu sau. đại ngh iên cứu khoa nhóm nhà học Khoa học âm sĩ khúc thuật ca nghệ nhạc Văn hóa
Tập văn bản huấn luyện ký hiệu là D = {d1, d2, …, dn} có gán nhãn lớp và tập các lớp C = { C1, C2, …, Cm}. Mỗi văn bản di D; 1 ≤ i ≤ n chỉ thuộc về một lớp duy nhất Cj C; 1≤j≤m.
Tập đồ thị G = {G1, G2, …, Gn} tương ứng với các văn bản thuộc tập D sau bước mô hình hoá văn bản.
Tập đồ thị con phổ biến (đặc trưng) ký hiệu là F = {f1, f2, …, fk}.
Vectơ đại diện cho mỗi lớp Ci; 1 ≤ i ≤ m ký hiệu là Ri = (Ri1, Ri2, …, Rik).
Trong giai đoạn huấn luyện, sau khi biểu diễn tập văn bản D thành tập đồ thị G, dựa trên nhãn lớp, phân chia tập đồ thị G thành m lớp phân biệt. Trên tập đồ thị thuộc về từng lớp Ci, áp dụng thuật toán gSpan cải tiến để tìm đồ thị con phổ biến. Sau đó, hệ thống tổ hợp đồ thị con phổ biến từ tất cả m các lớp và thu được tập đồ thị con phổ biến F hay tập đặc trưng F.
Khi đó, vectơ Ri đại diện cho mỗi lớp Ci; 1 ≤ i ≤ m có k chiều (ứng với số đặc trưng trong tập F) được tính với giá trị Rij =1 nếu đặc trưng fjF là một trong các đồ thị con phổ biến tìm được từ tập đồ thị biểu diễn văn bản thuộc lớp Ci và ngược lại. Kết quả của bước này là tập R = {R1, R2, …, Rm} gồm m vectơ nhị phân với Ri là đại diện cho lớp Ci.