Phân tích nội dung email 1 Phân loại nội dung email

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt (Trang 53 - 54)

3.2.1. Phân loại nội dung email

Khi một nội dung email được yêu cầu hiển thị thì nội dung đó thuộc vào một trong hai dạng: tiếng Anh hoặc tiếng Việt. Tuy nhiên, hai ngôn ngữ này có những đặc thù khá riêng biệt ngoại trừ đặc điểm chung đều là ngôn ngữ Latinh, cụ thể như bảng bên dưới:

Bảng 3.1 – Sự khác biệt cơ bản giữa tiếng Anh và tiếng Việt

Đặc điểm của tiếng Việt Đặc điểm của tiếng Anh

Được xếp là loại hình đơn lập (isolae) hay còn gọi là loại hình phi hình thái, không biến hình, đơn tiết

Là loại hình biến cách (flexion) hay còn gọi là loại hình khuất chiết

Từ không biến đổi hình thái, ý nghĩa ngữ pháp nằm ở ngoài từ Ví dụ: Chị ngã em nâng và Em ngã chị nâng

Từ có biến đổi hình thái ý nghĩa ngữ pháp nằm trong từ. Ví dụ: I see him và He sees me

Phương thức ngữ pháp chủ yếu: trật tự từ và hư từ

Ví dụ: Gạo xay và Xay gạo

Phương thức ngữ pháp chủ yếu là phụ tố

Ví dụ: studying và studied Ranh giới từ không được xác định

mặc nhiên bằng khoảng trắng

Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằng khoảng trắng hoặc dấu câu

Tồn tại loại từ đặc biệt “ từ chỉ loại” (classifier) hay còn gọi là phó danh từ chỉ loại kèm theo với danh từ như: cái bàn, cuốn sách, bức thư..

Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào gốc từ là rất phổ biến

Ví dụ: anticomputerizational

Có hiện tượng láy và nói láy trong tiếng Việt. Ví dụ: lấp lánh, lung linh

Từ bảng so sánh trên, có thể thấy được những đặc trưng cơ bản của tiếng Việt cũng như là khó khăn gặp phải khi tách từ trong tiếng Việt.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt (Trang 53 - 54)

Tải bản đầy đủ (PDF)

(74 trang)