Bước 2 nhận dữ liệu vào là các cặp từ {w, wi} trích chọn được ở bước 1 cùng các thông tin về vị trí, tần suất xuất hiện của chúng trong corpus dữ liệu. Chương trình sẽ tiến hành lọc dựa trên các giá trị thống kê để lọc ra các cụm từ có tính chất: Hai từ xuất hiện cùng nhau lặp đi lặp lại, trên mức bình thường trong văn bản, với khoảng cách tương đối cố định.
28
Bước đầu tiên trong quá trình lọc, chúng tôi loại bỏ các bigram có tần suất xuất hiện nhỏ hơn 10. Sau đó, chương trình tiến hành phân tích phân phối xác suất của các từ xuất hiện xung quanh w. Chúng ta kí hiệu freqi là tần suất xuất hiện của wi xung quanh w. là giá trị tần suất trung bình tần suất của tất cả các từ xuất hiện xung quanh w, là độ lệch chuẩn ứng với giá trị trung bình tần suất đó. Giả sử có tất cả n từ
wi1, wi2, … win có khả năng kết hợp với w để tạo thành bigram. Tần suất xuất hiện tương ứng với n từ này lần lượt là freqi1, freqi2, …, freqin. Khi đó, tần suất trung bình .
được tính theo công thức:
= ⋯
Độ lệch σ được tính theo công thức:
σ = ⋯
Từ các giá trị về tần suất, độ lệch tính được, chúng ta tính được chỉ số z (kí hiệu là: ki) tương ứng với nó. ki đại diện cho mức độ gắn kết của cặp từ, nó đại diện cho độ lệch tiêu chuẩn so với giá trị trung bình tần suất của cặp từ w và wi, ki lớn chứng tỏ w và wi
thường xuất hiện cùng nhau trên mức bình thường trong văn bản, và có thể nói chúng có quan hệ với nhau. ki được tính theo công thức:
= (1a)
Sau hai bước lọc, một bigram chứa w là đầu ra của giai đoạn 1 sẽ được xác định bởi bộ {wi, ki, j} thỏa mãn: tần suất xuất hiện của wi xung quanh w lớn hơn 10 và thỏa mãn bất đẳng thức:
= − > (C1)
Điều kiện C1 giúp loại bỏ các cặp từ có tần suất xuất hiện nhỏ hơn hoặc chỉ xung quanh giá trị tần suất trung bình. Trong hầu hết các phân phối thống kê, bước tách ngưỡng này loại bỏ phần lớn các cặp từ không phù hợp. Bước lọc dựa trên giá trị trung bình và độ lệch giúp loại bỏ các cặp từ có phân phối tần suất xuất hiện theo vị trí dàn trải. Bảng 3-2 minh họa một số bigram là kết quả của giai đoạn 1.