Chữ viết và chính tả tiếng Việt

Một phần của tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt (Trang 33)

các quy tắc về các viết các âm vị, âm tiết, từ, cách dùng các dấu câu, lối viết hoa... Chuẩn chính tả có những đặc điểm chính sau [4]:

1. Tính chất bắt buộc. Chữ viết có thể chưa hợp lí nhưng khi đã được thừa nhận là chuẩn chính tả thì người viết không được tự ý viết khác đi. Đối với chính tả, tiêu chuẩn cao nhất là cách viết thống nhất, thống nhất trong mọi văn bản, mọi người và mọi địa phương.

2. Tính chất ổn định. Do có tính chất bắt buộc nên chuẩn chính tả ít bị thay đổi như các chuẩn mực khác của ngôn ngữ . Sự tồn tại hàng trăm năm của chuẩn chính tả gây nên một cách viết bảo thủ lạc hậu với sự phát triển của ngữ âm. Đây là nguyên nhân chính làm cho chính tả trở nên rắc rối.

3. Ngữ âm phát triển, chính tả không thể giữ mãi tính chất cố hữu của mình mà cũng dần có một sự biến động nhất định. Do đó bên cạnh các chuẩn mực chính tả hiện có mà có thể xuất hiện một cách viêt mới tồn tại song song với nó. Ví dụ, cách viết fẩm zá, fi fàm bên cạnh phẩm giá , phi phàm

Hệ thống chữ viết được sử dụng hiện nay của nước ta là chữ quốc ngữ. Đây là loại chữ ghi âm. Nguyên tắc chính tả cơ bản của chữ quốc ngữ là nguyên tắc ngữ âm học, có nghĩa là "phát âm thế nào thì viết như thế", do đó có sự tương ứng khá lớn giữa chữ viết và âm. Tuy nhiên trong chữ viết và chính tả của chúng ta hiện thời vẫn có một số vấn đề đáng quan tâm sau:

1. Trong chính tả hiện nay đang có những trường hợp cùng một âm vị nhưng viết tuỳ tiện theo hai cách khác nhau. Đó là cách viết lung tung

i/y d/gi. Ví dụ hi sinh/hy sinh, giàn/dàn, vật lí/ vật lý... Đây là hai trường hợp được viết không thống nhất ở nhiều người, thậm chí trong một người ở những thời điểm khác nhau, trên những văn bản khác nhau.

2. Cách viết không thống nhất đối với những âm tiết khó xác định một chuẩn mực phát âm cụ thể, tức là những tiếng chưa có cách phát âm ổn định và những tiếng có vài ba biến thể phát âm địa phương khác nhau, ví dụ: chưng/trưng bày, nhất định/nhứt định, bảy/bẩy, lĩnh/lãnh...

3. Lối viết hoa tuỳ tiện. Cụ thể như sau:

- Viết hoa tên người: Phan Vũ Diễm Hằng/ Phan vũ diễm Hằng/ Phan vũ Diễm Hằng

-Viết hoa tên đất: Hải phòng/ Hải Phòng

-Viết hoa tên các cơ quan, tổ chức, xí nghiệp: Bộ chính trị/ Bộ Chính trị/ Bộ Chính Trị/ bộ Chính Trị

4. Vấn đề tên riêng nước ngoài (tên người, tên đất) và các thuật ngữ khoa học kĩ thuật càng phức tạp. Các tên này trong các văn bản tiếng Việt thường được viết theo nhiều cách khác nhau:

Dịch nghĩa: biển Đen/ Hắc Hải Chuyển tự: Mockba->Moskva Phiên âm: Mêhicô, Napôlêông

5. Vấn đề dùng dấu nối hay không dùng dấu nối: Hải Phòng/ Hải-Phòng, Rumani/Ru-ma-ni.

Những cách viết không thống nhất trên đòi hỏi phải được chuẩn hoá càng nhanh càng tốt. Sau đây là một số quy định đã được đông đảo các nhà nghiên cứu ủng hộ [4]:

1.Thống nhất viết nguyên âm – âm chính /i/ bằng chữ cái "i". Ví dụ: luận, kĩ thuật,...Khi cần phân biệt ui với uy như trong túi với tuý thì vẫn viết như cũ. i hoặc y đứng một mình hoặc đứng đầu âm tiết vẫn viết theo thói quen cũ, ví dụ: ý kiến, ầm ĩ, yêu...

2.Khi trong thực tế đang tồn tại hai hình thức chính tả mà chưa xác định được một chuẩn duy nhất thì có thể chấp nhận cả hai hình thức ấy, ví dụ:

eo sèo/eo xèo; sứ mạng/ sứ mệnh...

4. Về việc dùng dấu nối:

- Dùng dấu nối trong các liên danh như : cách mạng khoa học-kĩ thuật.

- Dùng dấu nối khi chỉ giới hạn về không gian, thời gian, số lượng , ví dụ: chuyến tàu Hà Nội - Lao Cai, thời kì 1945-1954, sản lượng 5-7 tấn.

- Khi cần phân biệt ngày tháng năm: 2-9-1945, 30-4.

Viết hoa tên ngƣời:

-Tên người Việt Nam, Trung Quốc (đọc theo âm Hán – Việt) bao gồm tên thật, tên tự, tên hiệu, ...đều viết hoa tất cả các chữ đầu của âm tiết và không dùng gạch nối. Ví dụ: Trần Quốc Tuấn; Nguyễn Du, tự Tố Như, hiệu Thanh Hiên.

-Một số tên gọi vua chúa, quan lại, trí thức Việt Nam, Trung Quốc thời phong kiến được cấu tạo theo kiểu danh từ chung (đế vương, hoàng hậu, tông, tổ, hầu, tử, phu tử, ...) kết hợp với danh từ riêng thì viết hoa tất cả các chữ đầu của âm tiết, ví dụ: Mai Hắc Đế, Đinh Tiên Hoàng, Hùng Vương, Lạc Long Quân, Bố Cái Đại Vương, Lê Thái Tổ, Lê Thánh Tông, Phù Đổng Thiên Vương, Khổng Tử, La Sơn Phu Tử..

- Một số tên người Việt Nam cấu tạo bằng cách kết hợp một danh từ chung (ví dụ: ông, bà, thánh, cả hoặc từ chỉ học vị, chức tước, ...) với một danh từ riêng dùng để gọi, làm biệt hiệu, ... thì danh từ chung đó cũng viết hoa. Ví dụ: Bà Trưng, Ông Gióng, Cả Trọng, Đề Thám, Lãnh Cồ, Cử Trị, Nghè Tân, Trạng Lường, Đồ Chiểu, Tú Xương, Đội Cấn, ...

Viết hoa tên địa lí:

-Tên địa lí Việt Nam và tên địa lí đọc theo âm Hán - Việt viết hoa các chữ đầu của âm tiết và không dùng gạch nối, ví dụ: Hà Nội, Trung Quốc, Trường Giang, ...

- Tên địa lí thế giới phiên gián tiếp qua tiếng Hán và đọc theo âm Hán - Việt cũng viết hoa tất cả các chữ cái đầu của âm tiết và không dùng gạch nối, ví dụ: Lan, Phần Lan, Na Uy, Thuỵ Điển, Đan Mạch, Ai Cập, Bồ Đào Nha, ...

- Từ chỉ phương hướng kết hợp với từ chỉ phương hướng hoặc một từ chung đơn tiết nào đó dùng để chỉ một vùng, một miền, một khu vực nhất định thì viết hoa tất cả các thành phần của nó, ví dụ: Tây Bắc Kỳ, Đông Nam Kỳ, Bắc Trung Bộ, Nam Trung Bộ, Bắc Hà, Nam Hà, Đàng Trong, Đàng Ngoài, Đông Nam Bộ, Trường Sơn Tây, Bắc Bán Cầu, Nam Bán Cầu, Bắc Cực, Trung Phi, Cận Đông, khu Đông Bắc, vùng Tây Nam, quan hệ Đông - Tây, đối thoại Bắc - Nam, các nước phương Đông, văn học phương Tây, ...

- Địa danh Việt Nam cấu tạo bằng cách kết hợp danh từ chung (biển, cửa, bến, vũng, lạch, vàm, buôn, bản, vv.) với danh từ riêng (thường chỉ có một âm tiết

thì viết hoa tất cả các chữ đầu tạo nên địa danh đó, ví dụ: Cửa Lò, Bến Nghé, Vũng Tàu, Lạch Trường, Vàm Cỏ, Vàm Láng, Buôn Hồ, Bản Keo, Sóc Trăng, ..

Tên các tổ chức:

- Tên các tổ chức được viết hoa chữ đầu của thành tố đầu và các từ, cụm từ cấu tạo đặc trưng (nét khu biệt) của tổ chức và tên riêng nếu có. Ví dụ: Chính phủ Việt Nam, Quốc hội Việt Nam, Mặt trận Tổ quốc Việt Nam, Đảng Cộng sản Việt Nam, Trường Đại học Tổng hợp Hà Nội, Nhà Xuất bản Từ điển bách khoa, Đài Truyền hình Việt Nam, Ban Tổ chức Trung ương, nước Cộng hoà Hồi giáo Pakixtan...

Viết hoa các trƣờng hợp khác:

-Tên các năm âm lịch: viết hoa cả hai âm tiết. Ví dụ: năm Kỉ Tị, Cách mạng Tân Hợi, Cuộc chính biến Mậu Tuất, Tết Mậu Thân ...

-Tên các ngày tiết và ngày tết: viết hoa âm tiết thứ nhất. Ví dụ: tiết Lập xuân, tiết Đại hàn, tết Đoan ngọ, tết Trung thu, tết Nguyên đán.

-Từ chỉ số trong những đơn vị là tên gọi các sự kiện lịch sử: không viết bằng con số mà viết bằng chữ hoa. Ví dụ: Cách mạng tháng Tám, Cách mạng Xã hội chủ nghĩa tháng Mười.

- Tên gọi một số thời kì lịch sử, sự kiện lịch sử có ý nghĩa quan trọng: viết hoa âm tiết đầu. Ví dụ: thời kì Phục hưng, Chiến tranh thế giới I, phong trào Cần vương...

- Viết hoa tên các ngành, lớp, bộ, họ, giống (chi) trong phân loại sinh vật. Ví dụ: họ Kim giao; bộ Mười chân, lớp Thân mềm; chi Tôm he; lớp Nhện; cây họ Đậu; họ Dâu tằm...

- Tên các niên đại địa chất: viết hoa chữ đầu của âm tiết thứ nhất, ví dụ: đại Cổ sinh, kỉ Cacbon, loài người xuất hiện từ đầu kỉ Đệ tứ...

- Tên gọi các huân chương, huy chương, danh hiệu vinh dự,... viết như sau:

huân chương Độc lập, Sao vàng, Cờ đỏ, Lênin, Hồ Chí Minh; huân chương Quân công, Chiến công, Kháng chiến, Chiến sĩ vẻ vang; Kỉ niệm chương; Tổ quốc ghi công; Bảng vàng danh dự; giải thưởng Nhà nước; danh hiệu Nghệ sĩ nhân dân, Nhà giáo nhân dân, Thầy thuốc nhân dân, Anh hùng lao động...

- Tên gọi các tôn giáo, giáo phái viết bằng tiếng Việt hoặc Hán - Việt: viết hoa tất cả các chữ đầu của âm tiết, ví dụ: Tin Lành, Cơ Đốc, Thiên Chúa, Hoà Hảo, Cao Đài, Bà La Môn, Tiểu Thừa, Đại Thừa, Mật Tông, Thiền Tông,... Chú ý: Nho giáo, Thiên Chúa giáo, đạo Hồi, Hồi giáo...

- Tên các tác phẩm, sách báo, văn kiện,... để trong ngoặc kép và viết hoa như sau:

+ Nếu tên người, tên địa lí, tên triều đại,... dùng làm tên tác phẩm thì viết hoa tên người, tên địa lí, tên triều đại đó, ví dụ: “Thạch Sanh”, “Hồ Chí Minh toàn tập”, “Nghệ An” , “Lĩnh Nam chích quái”, “Việt sử lược”, “Hậu Hán thư”, “Tam Quốc chí”...

+ Ngoài các trường hợp trên, chỉ viết hoa âm tiết thứ nhất, ví dụ: “Làm gì”, báo “Nhân dân”, tạp chí “Khảo cổ học”, “Dư địa chí”, “Hiến pháp nước Cộng hoà Xã hội chủ nghĩa Việt Nam”, “Luật tổ chức Quốc hội và Hội đồng Nhà nước”...

- Tên chức vụ, học vị chung không viết hoa, ví dụ: tổng thống, chủ tịch, tổng bí thư, đại sứ, thái thú, tổng đốc, tiến sĩ, cử nhân, viện sĩ,....

Trong việc chuẩn hoá chỉnh tả và cải tiến chữ viết còn nhiều vấn đề cần tiếp tục thảo luận, nghiên cứu, chẳng hạn viết d/gi thống nhất bằng z; dùng f thay cho

ph; bỏ h trong gh, ngh; thống nhất dùng một trong ba cách viết c, k, q.

Ngoài ra việc không thống nhất trong việc bỏ dấu các thanh điệu cũng gây nhầm lẫn trong quá trình xử lí

Chƣơng 3

PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT

Phân tích văn bản là một giai đoạn xử lí dữ liệu đầu vào rất quan trọng trong nhiều ứng dụng như dịch máy, tóm lược văn bản, tổng hợp và nhận dạng tiếng nói…

Một bộ phân tích văn bản điển hình được mô dun hóa thành các thành phần như sau [15]:

Một phần của tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt (Trang 33)

Tải bản đầy đủ (PDF)

(81 trang)