Hệ thống cấp bậc Chomsky:

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 70 - 71)

Trong lý thuyết ngôn ngữ hình thức Chomsky, một cấu trúc ngữ pháp được định nghĩa G = (V, T, P, S), trong đó VT là tập hữu hạn của các ký hiệu cuối và các ký hiệu không phải cuối. V bao gồm tất cả các ký hiệu không phải ký hiệu kết thúc. Chúng ta thường sử dụng chữ hoa để biểu thị chúng. Tập thuật ngữ T bao gồm

Mary, loves, that, person, được biểu thị chữ thường. P là tập hữu hạn của việc viết lại các quy tắc. S là một ký hiệu đặc biệt, được gọi là ký hiệu bắt đầu.

Bảng 3.1. Hệ thống cấp bậc Chomsky và máy tương ứng cho phép ngôn ngữ

Loại Ràng buộc Hệ thống tự

động

Ngữ pháp cấu

trúc α

β. Đây là ngữ pháp tổng quát nhất. Máy Turing Ngữ pháp ngữ

cảnh nhạy Một tập con của ngữ pháp cấu trúc cụm từ |α|≤|β|, trong đó |.| cho biết chiều dài của chuỗi. Hệ thống tự động tuyến tính Ngữ pháp ngữ cảnh tự do (CFG - context free grammar)

Một tập con của ngữ pháp ngữ cảnh nhạy. Quy tắc tạo ra là A  β, trong đó A là không phải là ký hiệu kết thúc. Hình thức Chomsky: A w và ABC, trong đó w là một ký hiệu kết thúc và B, C không phải.

Hệ thống tự động thúc đẩy

Ngữ pháp thông thường

Một tập con của CFG. Qui tắc tạo ra được mô tả: Aw và AwB.

Hệ thống tự động trạng thái hữu hạn

Ngôn ngữ được phân tích về cơ bản là một chuỗi các ký hiệu thuật ngữ, như

“Mary loves that person”. Nó được tạo ra bằng cách áp dụng qui tắc tạo ra theo chuỗi từ ký hiệu bắt đầu. Qui tắc tạo ra dạng αβ, trong đó α và β là các chuỗi tùy

ý của ký hiệu ngữ pháp VT. Và α phải không được rỗng. Trong lý thuyết ngôn ngữ hình thức, 4 ngôn ngữ chính và ngữ pháp liên kết của chúng được cấu trúc một cách có cấp bậc. Đó là cấp bậc Chomsky như định nghĩa trong bảng trên. Có 4 loại hệ thống tự động mà có thể chấp nhận các ngôn ngữ được tạo bởi bốn loại cấu trúc ngữ pháp này. Giữa những hệ thống này, hệ thống tự động trạng thái hữu hạn không chỉ là hệ thống toán học được sử dụng để trang bị ngữ pháp thông thường mà còn là một trong những công cụ đáng kể trong ngôn ngữ tính toán. Sự đa dạng của hệ thống tự động như bộ chuyển đổi trạng thái hữu hạn, mô hình Markov ẩn và mô hình n-gram là những phần quan trọng trong xử lý ngôn ngữ nói.

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 70 - 71)