Phân tích câu

Một phần của tài liệu Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt luận văn thạc sĩ (Trang 56 - 58)

Quan niệm câu là một chuỗi ký tự kết thúc bởi một dấu chấm (.), (?) hay (!) khơng thể loại trừ các nhập nhằng, trong đĩ dấu chấm câu khơng chỉ là ký hiệu kết thúc câu: một số dùng trong các từ viết tắt hoặc trong chuỗi số. Tuy

nhiên, phương pháp dựa trên kinh nghiệm cơ bản này cho kết quả khơng tồi: nhìn chung, khoảng 90% các dấu chấm là ký hiệu kết thúc câu. Tuy nhiên, cũng cần lưu ý các trường hợp: trong đĩ các ký hiệu khác cĩ thể được coi là dấu hiệu kết thúc câu. Ví dụ: các dấu câu như hai chấm, dấu chấm phẩy và dấu ngang (“:” , “;” và “-”) cĩ thể theo sau bởi một câu hồn chỉnh.

Mục đích cơ bản của phân tích từ vựng là tách và xác định các đặc trưng của văn bản, bắt đầu với việc tách một thơng điệp ra thành các bộ phận nhỏ hơn, thường là các từ đơn giản.Vì vậy, việc tách câu rất quan trọng hỗ trợ cho việc tách từ về sau. Vì thế dấu phân cách nên dùng là khoảng trắng, vì khoảng trắng thường dùng để tách các từ trong hầu hết các ngơn ngữ, sau đây là một số phân cách câu được dùng rộng rãi:

+ Dấu chấm (.) + Dấu phẩy (,)

+ Dấu chấm phẩy (;) + Dấu nháy đơi (“) + Dấu hai chấm (:) + Dấu ngoặc vuơng [ ] + Dấu ngoặc nhọn { } + Dấu ngoặc đơn ( ) + Các tốn tử + - / * = <>

Hiện nay, việc tách câu thường dựa trên một số tiêu chí sau đây:

- Đặt điểm phân cách câu sau dấu đĩng ngoặc kép (nếu cĩ)

- Loại ra một điểm phân cách câu giả định (là dấu chấm) trong các trường hợp sau:

o Nếu nĩ đi sau một từ viết tắt thường khơng xuất hiện ở cuối câu, nhưng thường đi trước một danh từ riêng, ví dụ: Prof hay vs

o Nếu nĩ đi sau một từ viết tắt đã biết và khơng đi trước một từ viết hoa. Trường hợp này cĩ thể giải quyết đúng hầu hết các trường hợp viết tắt như etc. hoặc Jr. (những từ cĩ thể xuất hiện ở giữa hoặc cuối câu).

- Loại một điểm phân cách câu giả định với ? hay ! nếu nĩ đi trước một từ khơng viết hoa.

- Xem xét tất cả các điểm phân cách câu giả định cịn lại như các điểm phân cách câu thực sự.

Một phần của tài liệu Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt luận văn thạc sĩ (Trang 56 - 58)