Đặc trưng của ngơn ngữ tiếng Việt

Một phần của tài liệu NGHIÊN CỨU XÂY DỰNG BỘ LỌC THƯ RÁC HỖ TRỢ SONG NGỮ ANH - VIỆT (Trang 54 - 55)

– Đơn vị cấu tạo từ là tiếng, tức là những âm tiết được sử dụng trong thực tiễn ngơn ngữ Việt. Tiếng cĩ thể cĩ nghĩa đủ rõ, cĩ thể mang nghĩa bị phai mờ và tiếng cĩ thể tự mình khơng cĩ nghĩa. Hơn nữa, 3 hiện tượng này cĩ thể chuyển hĩa lẫn nhau.

– Tính chất âm tiết (tiếng) là một trong những đặc điểm chi phối đặc tính loại hình của ngơn ngữ Việt. Xét ở mặt số lượng tiếng:

+ Từ nhiều tiếng, phần lớn là 2 tiếng, gọi là từ phức, như: nhà cửa, sạch sẽ, …

Nếu xét ở số lượng từ tố (yếu tố nhỏ nhất tham gia cấu tạo từ) tham gia cấu tạo từ thì cĩ sự phân chia như sau:

+ Từ chỉ chứa một từ tố, gọi là đơn tố, như: nhà, đủng đỉnh, ra đi ơ, … + Từ đơn tố gồm nhiều tiếng và cĩ hiện tượng hịa âm tạo nghĩa, gọi là từ láy. Nếu khơng thì nĩ thuộc loại ngẫu kết.

+ Từ chứa nhiều từ tố, gọi là từ đa tố, như: nhà cửa, xe đạp, sạch sẽ, … + Từ đa tố nếu cĩ hiện tượng hịa âm phối ngữ âm tạo nghĩa thì thuộc kiểu láy. Nếu khơng thì thuộc loại từ ghép.

– Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từ láy…

– Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của từ cĩ thể khơng chính xác như mong đợi.

– Ranh giới từ khơng được xác định mặc nhiên bằng khoảng trắng. Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khĩ khăn. Việc nhận diện ranh giới từ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đĩ như: kiểm tra lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ…

– Vì giữa tiếng Anh và tiếng Việt cĩ nhiều điểm khác biệt nên khơng thể áp dụng y nguyên các thuật tốn tiếng Anh vào tiếng Việt.

Chính vì những ngun nhân đĩ phần tiếp theo sẽ đề xuất các phương pháp xử lý nội dung tiếng Việt và tiếng Anh.

Một phần của tài liệu NGHIÊN CỨU XÂY DỰNG BỘ LỌC THƯ RÁC HỖ TRỢ SONG NGỮ ANH - VIỆT (Trang 54 - 55)

Tải bản đầy đủ (PDF)

(74 trang)