Trong ví dụ này, có ba cột trong một thẻ. Cột 1 là từ, cột 2 là từ loại, và cột 3 là tag trả lời thể hiện ở định dạng IOB2.
CRF++ là công cụ đƣợc thiết kế cho mục đích đa dụng. Phải định nghĩa file mẫu đặc điểm (feature template), và file này mô tả các đặc điểm đƣợc dùng trong training và testing.
Mỗi dòng trong file template biểu thị một template. Trong mỗi template, macro %x[row,col] sẽ đƣợc dùng để chỉ một token trong dữ liệu đầu vào. Row
The DT B-NP risks NNS I-NP for IN B-PP sterling NN B-NP of IN B-PP a DT B-NP bad JJ I-NP trade NN I-NP figure NN I-NP are VBP B-VP very RB B-ADVP heavily RB I-ADVP on IN B-PP the DT B-NP down JJ I-NP
thể hiện vị trí tƣơng đối từ tocken hiện thời và col xác định vị trí tuyệt đối của cột (column).
Có hai loại mẫu, là unigram (U) và bigram(B).
Unigram, đây là template miêu tả đặc tính Unigram. Khi đƣa ra một mẫu “U01:%x[0,1]”, CRF++ tự động sinh ra một tập các hàm đặc điểm (func1, func2, …functN):
Bigram, bắt đầu với ký tự B, thể hiện các đặc điểm bigram. Với template này, một kết hợp của tocken đầu ra hiện tại và token đầu ra trƣớc (bigram) đƣợc tạo ra. Đây là file định nghĩa ra các loại đặc trƣng đƣợc CRF++ tạo ra và sử dụng.
Ví dụ file template:
4.2.1. Training
Trong đó template_file và train_file là hai file sẵn có. Crf_learn sing ra file mô hình huấn luyện - model_file.
Ví dụ kết quả thực hiện crf_learn