Các phương pháp xử lý văn bản trong bài toán cụ thể

Một phần của tài liệu nghiên cứu và xây dựng hệ thống voice server ứng dụng cho các dịch vụ cung cấp thông tin qua mạng điện thoại (Trang 49 - 50)

Vấn đề tách câu:

Làm sao phân biệt được dấu “.” của chữ số thập phân và dấu “.” kết thúc câu.

Giải pháp:

• Thống kê sự xuất hiện của các ký tự nói trên trong văn bản. • Phân lớp các trường hợp xuất hiện của các ký tự nói trên.

• Xét sự xuất hiện của các ký tự thuộc về lớp trường hợp nào mà quyết định đó có phải là ký tự kết thúc câu hay không.

Chúng ta có thể phân lớp các trường hợp xuất hiện bằng cách sử dụng Heuristics: xét các ký tự trước và sau dấu chấm câu để suy luận ra ý nghĩ sử dụng của dấu chấm câu (kết thúc câu, hay trường hợp khác).

Các lớp trường hợp phát hiện được: o Số thập phân (2.12)

o Dấu chấm kết thúc câu.

Vấn đề tách từ: Thống kê các trường hợp xuất hiện của từ trong văn bản. Sau đó đưa ra các tiêu chuẩn tách từ.

Chương 3. Cơ sở lý thuyết

Tiêu chuẩn tách từ:

• Tách từ theo khoảng trắng. • Tách từ theo các dấu câu (. , ? !)

• Tách từ khi có ký tự thay đổi từ nhóm này sang nhóm khác  Vấn đề chữ số và ký hiệu: Làm sao phân biệt được dấu “.” của chữ

số thập phân và dấu “.” kết thúc câu.

Giải pháp:

• Thống kê sự xuất hiện của các ký tự nói trên trong văn bản. • Phân lớp các trường hợp xuất hiện của các ký tự nói trên.

• Xét sự xuất hiện của các ký tự thuộc về lớp trường hợp nào mà quyết định đó có phải là ký tự kết thúc câu hay không.

Chúng ta có thể phân lớp các trường hợp xuất hiện bằng cách sử dụng Heuristics: xét các ký tự trước và sau dấu chấm câu để suy luận ra ý nghĩ sử dụng của dấu chấm câu (kết thúc câu, hay trường hợp khác).

Các lớp trường hợp phát hiện được:

• Số thập phân (2.12) • Dấu chấm kết thúc câu.

1.10.3 Tổng hợp bằng phương pháp ghép nối1.10.3.1 Giới thiệu

Một phần của tài liệu nghiên cứu và xây dựng hệ thống voice server ứng dụng cho các dịch vụ cung cấp thông tin qua mạng điện thoại (Trang 49 - 50)

Tải bản đầy đủ (DOC)

(80 trang)
w