Ngôn ngữ (language)

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 35 - 37)

Trong q trình triển khai, chúng tơi cần dùng đến khái niệm ngôn ngữ để mô tả giới hạn các mệnh lệnh xử lý. Ngôn ngữ (language) theo cách sử dụng của chúng tôi như là vật tương đương của văn phạm (grammar). Tuy nhiên ngôn ngữ chỉ dùng để biểu diễn ngôn ngữ chính quy và do đó dùng để xây dựng sơ đồ chuyển trạng thái tuyến tính, trong khi văn phạm biểu diễn ngôn ngữ phi ngữ cảnh và dùng để xây dựng sơ đồ chuyển trạng thái đẩy xuống.

2.3.1. Định nghĩa hình thức về ngơn ngữ

Có rất nhiều định nghĩa khác nhau, xem [4], [7], [17], của các nhà khoa học xã hội cũng như khoa học chính xác về ngơn ngữ, nhưng chúng tôi đưa ra định nghĩa về ngôn ngữ theo quan điểm tốn học “ngơn ngữ là tập hợp các câu (sentence) hay các chuỗi (string) được thành lập trên trên một từ điển các ký hiệu”

L = language(V) = { s | s là chuỗi thành lập trên V }

Trong đó phép thành lập chuỗi trên một từ điển ký hiệu chỉ đơn giản là phép ghép liên tiếp các ký hiệu vào nhau để tạo thành chuỗi. Trừ khi tập ký hiệu là rỗng, các ngôn ngữ thành lập trên từ điển đều là tập hợp vô hạn các chuỗi.

Về mặt tốn học, ngơn ngữ là tập hợp vơ hạn các câu. Nhưng về mặt triển khai, chúng ta thường lưu trữ một ngôn ngữ là tập hợp hữu hạn các câu. Ngôn ngữ hữu hạn như vậy thường được biểu diễn dễ dàng trong máy tính dưới dạng tập tin văn bản (tập hợp các câu, mỗi câu trên một dịng) hoặc dưới dạng sơ đồ chuyển trạng thái tuyến tính (tập hợp các trạng thái nối với nhau bởi các từ).

Ví dụ cho từ điển gồm ba ký hiệu V1 = { tơi, u, em } Chúng ta sẽ có một ngôn ngữ rất phong phú bao được liệt kê như sau (Chúng tôi thêm dấu cách vào giữa các ký hiệu để dễ nhìn)

L1 = language(V1) = { tôi, yêu, em,

tôi tôi yêu, tôi tôi em, tôi tôi tôi, tôi yêu em, em u tơi, .. }

Bảng 2-14. Ví dụ về ngơn ngữ

Tất nhiên phần lớn các câu hay các chuỗi trong ngôn ngữ trên không phải là các câu của tiếng Việt. Nhưng chúng tơi khơng định mơ tả tiếng Việt trong ví dụ này, mà chúng tơi chỉ đưa ra ví dụ về ngơn ngữ

Ví dụ cho từ điển ký hiệu gồm hai ký tự V2 = { 0, 1} chúng ta sẽ có một ngơn ngữ rất phong phú được liệt kê như sau

L2 = language(V2) = { 0, 1, 00, 01, 10, 11, 000, 001, 010, 011, 100, 101, 110, 111, … } Bảng 2-15. Ví dụ khác về ngôn ngữ 2.3.2. Biểu diễn ngôn ngữ trong đĩa từ

Trong đĩa từ, chúng tôi lưu ngôn ngữ thành một tập tin văn bản. Trong đó mỗi câu của ngơn ngữ được viết trên một dịng. Chú thích dịng và chú thích khối cũng được thêm vào nhằm làm tập tin có thêm phần giải thích. Chú thích này được viết theo kiểu C++. Các dấu câu như hai chấm, chấm phảy, chấm nếu có cũng được coi như một từ bình thường, do đó có thể viết ở bất kỳ phần nào trong dòng. Trên thực tế, lúc ta đọc chính tả hoặc ra lệnh bằng giọng nói để các dấu câu xuất hiện chúng ta phải đọc cả tên của dấu câu.

/*Các câu lệnh của hệ điều hành */

Run Winamp //ấn vào biểu tượng winamp trong desktop Run Winword //ấn vào biểu tượng winword trong desktop Show desktop //ấn tổ hợp Win+D

Show taskbar //ấn tổ hợp Ctrl+Esc

Close current application //ấn tổ hợp Alt+F4 Shutdown //đóng các ứng dụng và tắt máy

/*Các câu lệnh thường gặp trong một số ứng dụng */

File Open … Ok //Câu lệnh mở tài liệu thông thường, tên tập tin phải chọn File Close //Câu lệnh đóng tài liệu thông thường

File Print Edit Copy Edit Select All Edit Paste

Bảng 2-16. Biểu diễn ngôn ngữ trong tập tin

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 35 - 37)

Tải bản đầy đủ (PDF)

(107 trang)