Đây là mô hình cơ bản nhất trong các mô hình do Collins đưa ra. Đầu tiên ta có một luật giống như trong văn phạm phi ngữ cảnh xác suất (PCFG) có dạng như sau:
1 H là ký tự không kết thúc đánh dấu cho thành phần head và h là từ trung tâm được gán cho ký tự này. L1, … Ln và R1.. Rm là thành phần trái, phải của ký tự H. Nếu như n hoặc m bằng không hay cả n và m đều bằng không thì luật unary. Ngoải ra, ở vế trái và phải của chuỗi ta thêm 2 ký tự STOP nhằm đánh đấu kết thúc luật. Vì vậy ta có Ln+1 = Rm+1 = STOP.
Ta lấy dẫn suất S (ăn) NP (bò) VP (ăn) làm ví dụ
ở đây n = 1, m = 0, P = S, H = VP, L1 = NP, L2 = STOP, R1 = STOP, h = (ăn, V), l1 = (bò, N).
24
2
Tiếp theo đó, chúng ta giả sử rằng các ký tự không kết thúc hoàn toàn độc lập thì ta có thể viết lại biểu thức như sau:
3 4
Như vậy, mỗi bước phân tích về phải của luật từ vế trái của luật thì bao gồm ba bước chính sau:
1. Sinh ra nhãn head của cây với xác suất là
2. Tính toán xác suất đối với vế trái của head có xác suất là , trong đó Ln+1 (ln+1) = STOP. Ký tự STOP sẽ được thêm vào bảng ký tự không kết thúc, và mô hình sẽ dừng việc sinh tiếp xác suất vế trái cho đến khi gặp ký tự STOP.
3. Tính toán xác suất đối với vế phải của head là và ký tự Rm+1(rm+1) cũng là STOP giống như ở bước 2.
Áp dụng phương trình 2 vào ví dụ trên ta sẽ có
Tuy nhiên, trong thực tế, các từ không hoàn toàn độc lập với nhau mà có một độ phụ thuộc nào đó. Đề giải quyết việc này, ta có thể sử dụng history base model để ước lượng xác suất. Sử dụng hàm để miêu tả cho ước lượng xác suất dựa vào history base model. Ta có:
5 6
Có thể nhận thấy rằng phương trình 5 và 6 là trường hợp ta loại bỏ mọi thứ đối với hàm chỉ giữ lại P, H và h.
25
Chú ý rằng, khoảng cách giữa các từ bổ nghĩa cho thành phần trung tâm cũng rất quan trọng. Trong một số trường hợp đặc biệt, đó là dấu hiệu để nhận biết của cấu trúc phân nhánh (độ phụ thuộc của các từ liền kề nhau), hay sự phụ thuộc thông qua động từ.
Thông tin về khoảng cách có thể được đưa vào mô hình nhằm nâng cao sự phụ thuộc giữa các từ bổ trợ. Ta có thể viết lại công thức như sau:
7 8
Hình 11: Miêu tả độ đo khoảng cách trong câu