0
Tải bản đầy đủ (.pdf) (55 trang)

Tách từ tiếng Việt 21

Một phần của tài liệu LUẬN VĂN: SỬ DỤNG PHƯƠNG PHÁP XẾP HẠNG TRONG BÀI TOÁN PHÂN CỤM TIẾNG VIỆT PDF (Trang 29 -31 )

Các tác giả [6][12]rút ra một sốđặc điểm của từ tiếng Việt như sau: - là đơn vị có ranh giới trùng với hình vị và âm tiết

- không có sự biến đổi hình thái trong quá trình sử dụng - là đơn vị có sẵn, được tái hiện trong khi nói

- có tính định hình hoàn chỉnh

- Có thể chia từ tiếng việt thành hai loại: từđơn và từ phức

Chính từ những đặc điểm này mà tách từ là một khó khăn chính trong việc xử lý các văn bản tiếng Việt. Mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt

cũng có những đặc tính chung với các ngôn ngữ Đông Nam Á khác như khó xác định

ranh giới giữa các từ và có các điểm khác biệt về phonetic, văn phạm và ngữ nghĩa so với tiếng Anh. Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được

nghiên cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây

dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt. Dưới đây là một sốđiểm khác biệt chính giữa tiếng Việt và tiếng Anh được trình bày trong [12].

Đặc điểm Tiếng việt Tiếng Anh

Đơn vị cơ bản Tiếng Từ

Tiền tố/Hậu tố Không có Có

Từ loại Not unanimous Được định nghĩa rõ

Ranh giới từ Tng h cp có nghnh ca các tiĩa da vào ếng Khodng tru câu ng hoc

22

Những đặc điểm này làm cho việc tách từ tiếng việt trở nên khó khăn hơn. Dưới

đây là kết quả khảo sát về tách từ trong văn bản tiếng hoa và thống kê về tách từ tiếng Việt được công bố hiện tại [12].

Hình 4: Thống kê về tách từ tiếng Hoa và tiếng Việt [12]

Các hướng tiếp cận dựa trên “từ”: được chia thành 3 nhóm: dựa vào thống kê,

dựa vào từđiển và nhóm lai, nhằm tách từ trọng vẹn trong câu. Các giải pháp dựa theo hướng tiếp cận vào thống kê cần phải dựa vào thông tin thống kê như term, từ hay tần số ký tự. hay xác suất cùng xuất hiện trong một tập dữ liệu cơ sở. Do đó, tính hiệu quả

của các giải pháp này chủ yếu dựa vào dữ liệu huấn luyện cụ thểđược sử dụng. Trong hướng tiếp cận dựa vào từđiển, các đoạn văn bản được đối sánh dựa vào từđiển. Việc xây dựng từ điển các từ và ngữ pháp tiếng việt hoàn chỉnh là không khả thi. Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tận dụng ưu điểm của các giải pháp. Các hướng tiếp cận để phân loại văn bản tiếng việt dựa vào từ chỉ khả thi khi có một bộ từ

23

Hướng tiếp cận dựa trên ký tự: có thể chia làm hai nhóm uni-gram và n-gram.

Các phương pháp này tuy đơn giản nhưng đã đem lại kết quả khả thi.

Một phần của tài liệu LUẬN VĂN: SỬ DỤNG PHƯƠNG PHÁP XẾP HẠNG TRONG BÀI TOÁN PHÂN CỤM TIẾNG VIỆT PDF (Trang 29 -31 )

×