Phương pháp tiếp cận thống kê thu thập dữ liệu quan sát được từ văn bản. Sau đó, sử dụng những dữ liệu này để giúp hướng dẫn đưa ra quyết định trong phân đoạn văn bản. Hai số liệu thống kê dễ dàng đo được là mức độ đồng xảy ra của part-of- speech, và đồng xảy ra của âm tiết.
Kawtrakul đề xuất một phương pháp thống kê kết hợp sử dụng part-of-speech (POS) và mô hình n-gram. Một chương trình POS Tagger được sử dụng để tìm tất cả POS có thể có của văn bản. Sau đó, văn bản được chia thành n-gram – chuỗi con có độ dài n. Kawtrakul sử dụng chuỗi con có độ dài bằng 3 (3-gram), Trong phương pháp tiếp cận của mình. Xác suất cho mỗi n-gram sau đó được sử dụng để lựa chọn các
phân đoạn tốt nhất. Ví dụ phía trên,tính từ + danh từ “free zebra”có thể có số lần xuất hiện thường xuyên hơn động từ + danh từ “freeze bra”.
Aroonmanakun [15] sử dụngkết hợp cả các phương pháp cũ và mới. Đầu tiên ông phân đoạn văn bản thành các âm tiết. Sau đó, ông kết hợp các âm tiết vào thành từ bằng cách dùng từ điển. Cuối cùng, quyết định đinh xem sự kết hợp của từ nào là tốt nhất dựa trên một phương pháp thống kê có trọng sốđánh giá thứ tự giữa các âm tiết liền kề, và cực đại hóa tổng những quan sát trên một văn bản phân đoạn bằng tay.
Phương pháp thống kê cũng có những điểm yếu bên cạnh những mặt tốt của nó. Đó là vấn đề về chất lượng hoặc kích thước của văn bản đưa vào đào tạo trong quá trình xác định xác suất của n-gram hoặc của các âm tiết liền kề.
Chương 4 – Gióng hàng đoạn văn
Cho hai văn bản bằng hai ngôn ngữ khác nhau, bài toán gióng hàng văn bản song ngữlà việc quyết định một thành phần của văn bản có thành phần là bản dịch của nó trong văn bản khác. Đây là vấn đề quan trọng trong bài toán tạo từ điển song ngữ và trong bài toánhuấn luyệncủa dịch máy thống kê. Bài toán gióng hàng được xem là tương đương với bài toán nhận dạng mẫu, ở việc xác định sự tương ứng của hai chuỗiđối tượng; đối tượng ở đây có thể là lời nói, văn bản và âm thanh hoặc đoạn phim được ghi từ các máy khác nhau. Cả bài toán gióng hàng văn bản và phương pháp đề nghị của luận văn là khá tổng quát, tuy nhiên luận văn chỉ tập trung vào sự gióng hàng đoạn văn trong văn bản song ngữ.