Quan niệm câu là một chuỗi ký tự kết thúc bởi một dấu chấm (.), (?) hay (!) không thể loại trừ các nhập nhằng, trong đó dấu chấm câu không chỉ là ký hiệu kết thúc câu: một số dùng trong các từ viết tắt hoặc trong chuỗi số. Tuy
nhiên, phương pháp dựa trên kinh nghiệm cơ bản này cho kết quả không tồi: nhìn chung, khoảng 90% các dấu chấm là ký hiệu kết thúc câu. Tuy nhiên, cũng cần lưu ý các trường hợp: trong đó các ký hiệu khác có thể được coi là dấu hiệu kết thúc câu. Ví dụ: các dấu câu như hai chấm, dấu chấm phẩy và dấu ngang (“:” , “;” và “-”) có thể theo sau bởi một câu hoàn chỉnh.
Mục đích cơ bản của phân tích từ vựng là tách và xác định các đặc trưng của văn bản, bắt đầu với việc tách một thông điệp ra thành các bộ phận nhỏ hơn, thường là các từ đơn giản.Vì vậy, việc tách câu rất quan trọng hỗ trợ cho việc tách từ về sau. Vì thế dấu phân cách nên dùng là khoảng trắng, vì khoảng trắng thường dùng để tách các từ trong hầu hết các ngôn ngữ, sau đây là một số phân cách câu được dùng rộng rãi:
+ Dấu chấm (.) + Dấu phẩy (,)
+ Dấu chấm phẩy (;) + Dấu nháy đôi (“) + Dấu hai chấm (:) + Dấu ngoặc vuông [ ] + Dấu ngoặc nhọn { } + Dấu ngoặc đơn ( ) + Các toán tử + - / * = <>
Hiện nay, việc tách câu thường dựa trên một số tiêu chí sau đây:
- Đặt điểm phân cách câu sau dấu đóng ngoặc kép (nếu có)
- Loại ra một điểm phân cách câu giả định (là dấu chấm) trong các trường hợp sau:
o Nếu nó đi sau một từ viết tắt thường không xuất hiện ở cuối câu, nhưng thường đi trước một danh từ riêng, ví dụ: Prof hay vs
o Nếu nó đi sau một từ viết tắt đã biết và không đi trước một từ viết hoa. Trường hợp này có thể giải quyết đúng hầu hết các trường hợp viết tắt như etc. hoặc Jr. (những từ có thể xuất hiện ở giữa hoặc cuối câu).
- Loại một điểm phân cách câu giả định với ? hay ! nếu nó đi trước một từ không viết hoa.
- Xem xét tất cả các điểm phân cách câu giả định còn lại như các điểm phân cách câu thực sự.