Tách từ

Một phần của tài liệu Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 2 ppsx (Trang 27 - 29)

Nếu không giải trực tiếp bài toán mà thực hiện tách từ trước, sau đó mới bắt lỗi chính tả, thì khó khăn lại đè nặng lên phần tách từ. Bài toán tìm ranh giới từ vốn đã phức tạp (trong một số trường hợp, nếu không dựa vào thông tin ngữ nghĩa thì không thể nào tách từ), lại càng phức tạp hơn khi áp dụng trong bài toán bắt lỗi chính tả, vì khi đó ta phải tìm ranh giới từ khi các từ/tiếng đầu vào có thể không đúng. Nói cách khác, ta phải thực hiện tách từ trong điều kiện dữ liệu đầu vào không hoàn toàn chính xác: tách từ mờ. Các kỹ thuật tách từ, nếu bỏ qua yếu tố này sẽ dễ dẫn đến sai lầm, vì mọi phương pháp tách từ đều ngầm định là dữ liệu đầu vào là chính xác. Sau khi tách từ xong, bài toán bắt lỗi chính tả trở nên đơn giản. Ta có thể áp dụng các kỹ thuật đã được áp dụng trên bắt lỗi chính tả các ngôn ngữ châu Âu dễ dàng.

Với tiếng Việt, do độ dài mỗi tiếng ngắn (khoảng năm chữ cái, tối đa bảy chữ cái). Tuy nhiên nếu tính theo cấu trúc âm tiết thì mỗi tiếng chỉ gồm tối đa bốn thành phần (không kể thanh điệu) là âm đầu, âm đệm, âm chính và âm cuối. Mỗi thành phần đều được thể hiện bằng một cụm chữ cái riêng biệt, có thể coi như là một đơn vị tương đương chữ cái. Vậy nên, xét một mặt nào đó, có thể xem mỗi tiếng trong tiếng Việt chỉ gồm tối đa bốn “chữ cái”. Do độ dài tiếng quá ngắn nên số lượng nhập nhằng của một tiếng lớn hơn rất nhiều so với các ngôn ngữ châu Âu dù chỉ xét từ đồng âm.

Trình bắt lỗi tiếng Việt đã được nghiên cứu trong những năm gần đây [TPLT98, TTCV02, cHN99]. Giải pháp được đề nghị trong [TPLT98, cHN99] sử dụng phân tích cú pháp để đánh giá các cách tách từ. Trong khi đó [TTCV02] sử dụng danh sách quyết định để khử nhập nhằng cho từng từ một.

3.6 Tách từ

Bài toán tách từ cho ngôn ngữ đơn lập đã được đặt ra từ lâu, chủ yếu để giải quyết cho tiếng Trung Quốc, tiếng Nhật. Các thuật toán tách từ có thể được

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.6. TÁCH TỪ

phân loại như sau:

Dựa theo luật Bao gồm các cách sau:

• Longest Matching, Greedy Matching Models (Yuen Poowarawan, 1986; Sampan Rarurom, 1991)

• Mô hình khớp tối đa19. Mô hình này được chia thành “khớp tối đa tiến”20 và “khớp tối đa lùi”21. Đối với phương pháp này thì một từ điển hoàn chỉnh là không thể thiếu. Một từ điển không hoàn chỉnh sẽ giảm hiệu suất của thuật toán. Tuy nhiên, dễ thấy là khó có thể có một từ điển hoàn chỉnh (đặc biệt khi các ngôn ngữ vẫn còn được tiếp tục phát triển hằng ngày trong thời đại ngày nay). Mô hình này tùy thuộc nhiều vào từ điển.

Dùng thống kê Giải pháp này dựa vào ngữ cảnh từ xung quanh để đưa ra quyết định thích hợp. Có hai vấn đề cần được giải quyết đối với giải pháp này: độ rộng ngữ cảnh, và cách áp dụng thống kê. Ngữ cảnh càng rộng thì thuật toán càng phức tạp.

Cho dù độ rộng ngữ cảnh thế nào, luôn có thể áp dụng mô hình first- order HMM. Tuy nhiên giải pháp này phụ thuộc rất nhiều vào ngữ liệu huấn luyện. Kết quả huấn luyện trên ngữ liệu chính trị khó có thể áp dụng trên các tài liệu văn học và ngược lại. Thêm vào đó, có những từ có xác suất rất cao, nhưng chỉ có chứng năng về mặt ngữ pháp, làm giảm vai trò của xác suất.

Các cách khác Hầu hết các giải pháp khác là sự lai tạo giữa các mô hình trên và các mô hình ngôn ngữ học như WFST, TBL. Thời gian xử lý

19Maximal Matching Model

20forward maximum match

21backward maximum match

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.6. TÁCH TỪ

các giải pháp loại này trở nên đáng kể, nhưng độ chính xác đạt được khá cao.

Tri thức về ngôn ngữ, thường được áp dụng cho các mô hình dựa trên luật, hiếm khi được áp dụng cho những mô hình trên.

Một số phương pháp tách từ được mô tả ngắn gọn bên dưới.

Một phần của tài liệu Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 2 ppsx (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(43 trang)