Đối với từ trong tiếng Việt, dến nay có một số quan điểm sau:
-Coi mọi tiếng đều là từ (Nguyễn Thiện Giáp). Điều này thuận tiện trong xử lí nhưng không đúng với tiêu chí ngôn ngữ học đại cương vì có nhiều tiếng không có nghĩa như "phê " trong "cà phê", "bù" trong "bù nhìn",...
- Coi tiếng chưa hẳn là từ (phần lớn các nhà Việt ngữ học có quan điểm này). -Xem tiếng châu Âu (Anh, Pháp...) cái nào là từ thì trong tiếng Việt cái đó là từ. Quan điểm này chưa xét đến sự khác biệt về sự từ vựng hóa giữa hai ngôn ngữ do sự khác biệt về văn hóa.
Theo quan điểm ngôn ngữ học đại cương, từ được cấu tạo bởi các hình vị và hình vị chính là các đơn vị có nghĩa nhỏ nhất. Vì vậy, từ trong tiếng Việt cũng phải được cấu tạo bởi các hình vị nêu trên, nhưng có điều khác là các hình vị thành phần ở đây không hoàn toàn giống khái niệm hình vị của ngôn ngữ học đại cương mà là "hình vị tiếng Việt" hay còn gọi là "hình tiết" (morphemsyllable) hay "tiếng" (vì chỉ tiếng Việt mới có đơn vị tiếng đặc biệt như vậy).
2.2.3 Phƣơng thức cấu tạo từ
Tài liệu vật chất trực tiếp hay là đơn vị cơ sở của cấu tạo từ Việt là tiếng. Tiếng có thể có nghĩa đủ rõ, tiếng có thể mang nghĩa đã phai mờ và tiếng có thể tự mình không có nghĩa [1]. Từ tiếng Việt được cấu tạo hoặc là bằng cách dùng một tiếng, hoặc là tổ hợp các tiếng lại theo một cách nào đó
Từ đơn: Phương thức dùng một tiếng làm một từ cho ta từ đơn. Vậy từ đơn ở đây được hiểu là những từ được cấu tạo bằng một tiếng. Ví dụ: cây, nhà, người, đi, chạy...
Từ ghép: Phương thức tổ hợp (ghép) các tiếng lại cho ta từ ghép. Dựa vào tính chất của mối quan hệ về nghĩa giữa các thành tố cấu tạo, có thể phân loại từ ghép tiếng Việt như sau:
-Từ ghép đẳng lập: đây là những từ mà thành tố cấu tạo có quan hệ bình đẳng với nhau về nghĩa, ví dụ: ăn ở, cá mú, xe cộ, áo xống... Từ ghép đẳng lập biểu thị ý nghĩa khái quát và tổng hợp. Đây là đặc điểm
chỉnh để phân biệt nó với từ ghép chính phụ
-Từ ghép chính phụ: là những từ ghép mà có thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia. Thành tố phụ có vai trò phân loại, chuyên biệt hoá và sắc thái hoá cho thành tố chính. Ví dụ: tầu hoả, lão hoá, đỏ rực...
Từ láy: Phương thức tổ hợp các tiếng trên cơ sở hoà phối ngữ âm cho ta từ láy. Số lượng từ láy trong tiếng Việt rất lớn, khoảng 4.000 từ. Mỗi từ láy do cách cấu tạo đặc thù của mình đều gồm có hai phần: phần gốc là phần làm cơ sở cho sự láy, và phần láy là phần lặp lại của phần gốc. Quan hệ ngữ âm trong từ láy thể hiện ở hai mặt:
1. Tương ứng về yếu tố siêu đoạn tính (thanh điệu).
2. Tương ứng về yếu tố âm đoạn tính (phụ âm đầu, vần và các yếu tố trong vần)
Các thành tố của từ láy thường phải có thanh thuộc cùng một âm vực hoặc thuộc âm vực cao (ngang, hỏi, sắc); hoặc thuộc âm vực thấp (huyền, ngã, nặng)
Các từ láy có nhiều kiểu, bao gồm láy toàn bộ và láy bộ phận (láy vần, láy phụ âm đầu). Luật hài thanh của mỗi kiểu láy có đặc điểm riêng:
-Trong các từ láy toàn bộ, âm tiết đầu thường là một trong các thành bằng (1,2), còn âm tiết thứ hai thường là một trong các thanh trắc (3, 4, 5, 6) cùng âm vực với nó.
-Trong các từ điệp vần, thường có xu hướng thống nhất các thanh điệu ở cả hai âm tiết. Theo thống kê của Nguyễn Thiện Giáp, có 81% số các từ láy vần có thanh điệu hai âm tiết giống nhau. Trong một số trường hợp, sự kết hợp của thanh điệu trong từ láy không theo đúng luật hài thanh (se sẽ, khe khẽ, xốp xộp..). Có thể giải thích bằng sự thay đổi lịch sử của thanh ngã từ âm vực thấp lên âm vực cao, kéo theo sự thay đổi của các thanh điệu khác kết hợp với nó, hoặc do quan hệ với cơ chế láy ba.
- Trong các từ láy phụ âm đầu, thanh điệu của hai âm tiết không bắt buộc phải giống nhau, chỉ cần hai thanh điệu ở hai âm tiết cùng âm vực là được.
2.3 Chữ viết và chính tả tiếng Việt
các quy tắc về các viết các âm vị, âm tiết, từ, cách dùng các dấu câu, lối viết hoa... Chuẩn chính tả có những đặc điểm chính sau [4]:
1. Tính chất bắt buộc. Chữ viết có thể chưa hợp lí nhưng khi đã được thừa nhận là chuẩn chính tả thì người viết không được tự ý viết khác đi. Đối với chính tả, tiêu chuẩn cao nhất là cách viết thống nhất, thống nhất trong mọi văn bản, mọi người và mọi địa phương.
2. Tính chất ổn định. Do có tính chất bắt buộc nên chuẩn chính tả ít bị thay đổi như các chuẩn mực khác của ngôn ngữ . Sự tồn tại hàng trăm năm của chuẩn chính tả gây nên một cách viết bảo thủ lạc hậu với sự phát triển của ngữ âm. Đây là nguyên nhân chính làm cho chính tả trở nên rắc rối.
3. Ngữ âm phát triển, chính tả không thể giữ mãi tính chất cố hữu của mình mà cũng dần có một sự biến động nhất định. Do đó bên cạnh các chuẩn mực chính tả hiện có mà có thể xuất hiện một cách viêt mới tồn tại song song với nó. Ví dụ, cách viết fẩm zá, fi fàm bên cạnh phẩm giá , phi phàm
Hệ thống chữ viết được sử dụng hiện nay của nước ta là chữ quốc ngữ. Đây là loại chữ ghi âm. Nguyên tắc chính tả cơ bản của chữ quốc ngữ là nguyên tắc ngữ âm học, có nghĩa là "phát âm thế nào thì viết như thế", do đó có sự tương ứng khá lớn giữa chữ viết và âm. Tuy nhiên trong chữ viết và chính tả của chúng ta hiện thời vẫn có một số vấn đề đáng quan tâm sau:
1. Trong chính tả hiện nay đang có những trường hợp cùng một âm vị nhưng viết tuỳ tiện theo hai cách khác nhau. Đó là cách viết lung tung
i/y và d/gi. Ví dụ hi sinh/hy sinh, giàn/dàn, vật lí/ vật lý... Đây là hai trường hợp được viết không thống nhất ở nhiều người, thậm chí trong một người ở những thời điểm khác nhau, trên những văn bản khác nhau.
2. Cách viết không thống nhất đối với những âm tiết khó xác định một chuẩn mực phát âm cụ thể, tức là những tiếng chưa có cách phát âm ổn định và những tiếng có vài ba biến thể phát âm địa phương khác nhau, ví dụ: chưng/trưng bày, nhất định/nhứt định, bảy/bẩy, lĩnh/lãnh...
3. Lối viết hoa tuỳ tiện. Cụ thể như sau:
- Viết hoa tên người: Phan Vũ Diễm Hằng/ Phan vũ diễm Hằng/ Phan vũ Diễm Hằng
-Viết hoa tên đất: Hải phòng/ Hải Phòng
-Viết hoa tên các cơ quan, tổ chức, xí nghiệp: Bộ chính trị/ Bộ Chính trị/ Bộ Chính Trị/ bộ Chính Trị
4. Vấn đề tên riêng nước ngoài (tên người, tên đất) và các thuật ngữ khoa học kĩ thuật càng phức tạp. Các tên này trong các văn bản tiếng Việt thường được viết theo nhiều cách khác nhau:
Dịch nghĩa: biển Đen/ Hắc Hải Chuyển tự: Mockba->Moskva Phiên âm: Mêhicô, Napôlêông
5. Vấn đề dùng dấu nối hay không dùng dấu nối: Hải Phòng/ Hải-Phòng, Rumani/Ru-ma-ni.
Những cách viết không thống nhất trên đòi hỏi phải được chuẩn hoá càng nhanh càng tốt. Sau đây là một số quy định đã được đông đảo các nhà nghiên cứu ủng hộ [4]:
1.Thống nhất viết nguyên âm – âm chính /i/ bằng chữ cái "i". Ví dụ: lí luận, kĩ thuật,...Khi cần phân biệt ui với uy như trong túi với tuý thì vẫn viết như cũ. i hoặc y đứng một mình hoặc đứng đầu âm tiết vẫn viết theo thói quen cũ, ví dụ: ý kiến, ầm ĩ, yêu...
2.Khi trong thực tế đang tồn tại hai hình thức chính tả mà chưa xác định được một chuẩn duy nhất thì có thể chấp nhận cả hai hình thức ấy, ví dụ:
eo sèo/eo xèo; sứ mạng/ sứ mệnh...
4. Về việc dùng dấu nối:
- Dùng dấu nối trong các liên danh như : cách mạng khoa học-kĩ thuật.
- Dùng dấu nối khi chỉ giới hạn về không gian, thời gian, số lượng , ví dụ: chuyến tàu Hà Nội - Lao Cai, thời kì 1945-1954, sản lượng 5-7 tấn.
- Khi cần phân biệt ngày tháng năm: 2-9-1945, 30-4.
Viết hoa tên ngƣời:
-Tên người Việt Nam, Trung Quốc (đọc theo âm Hán – Việt) bao gồm tên thật, tên tự, tên hiệu, ...đều viết hoa tất cả các chữ đầu của âm tiết và không dùng gạch nối. Ví dụ: Trần Quốc Tuấn; Nguyễn Du, tự Tố Như, hiệu Thanh Hiên.
-Một số tên gọi vua chúa, quan lại, trí thức Việt Nam, Trung Quốc thời phong kiến được cấu tạo theo kiểu danh từ chung (đế vương, hoàng hậu, tông, tổ, hầu, tử, phu tử, ...) kết hợp với danh từ riêng thì viết hoa tất cả các chữ đầu của âm tiết, ví dụ: Mai Hắc Đế, Đinh Tiên Hoàng, Hùng Vương, Lạc Long Quân, Bố Cái Đại Vương, Lê Thái Tổ, Lê Thánh Tông, Phù Đổng Thiên Vương, Khổng Tử, La Sơn Phu Tử..
- Một số tên người Việt Nam cấu tạo bằng cách kết hợp một danh từ chung (ví dụ: ông, bà, thánh, cả hoặc từ chỉ học vị, chức tước, ...) với một danh từ riêng dùng để gọi, làm biệt hiệu, ... thì danh từ chung đó cũng viết hoa. Ví dụ: Bà Trưng, Ông Gióng, Cả Trọng, Đề Thám, Lãnh Cồ, Cử Trị, Nghè Tân, Trạng Lường, Đồ Chiểu, Tú Xương, Đội Cấn, ...
Viết hoa tên địa lí:
-Tên địa lí Việt Nam và tên địa lí đọc theo âm Hán - Việt viết hoa các chữ đầu của âm tiết và không dùng gạch nối, ví dụ: Hà Nội, Trung Quốc, Trường Giang, ...
- Tên địa lí thế giới phiên gián tiếp qua tiếng Hán và đọc theo âm Hán - Việt cũng viết hoa tất cả các chữ cái đầu của âm tiết và không dùng gạch nối, ví dụ: Hà Lan, Phần Lan, Na Uy, Thuỵ Điển, Đan Mạch, Ai Cập, Bồ Đào Nha, ...
- Từ chỉ phương hướng kết hợp với từ chỉ phương hướng hoặc một từ chung đơn tiết nào đó dùng để chỉ một vùng, một miền, một khu vực nhất định thì viết hoa tất cả các thành phần của nó, ví dụ: Tây Bắc Kỳ, Đông Nam Kỳ, Bắc Trung Bộ, Nam Trung Bộ, Bắc Hà, Nam Hà, Đàng Trong, Đàng Ngoài, Đông Nam Bộ, Trường Sơn Tây, Bắc Bán Cầu, Nam Bán Cầu, Bắc Cực, Trung Phi, Cận Đông, khu Đông Bắc, vùng Tây Nam, quan hệ Đông - Tây, đối thoại Bắc - Nam, các nước phương Đông, văn học phương Tây, ...
- Địa danh Việt Nam cấu tạo bằng cách kết hợp danh từ chung (biển, cửa, bến, vũng, lạch, vàm, buôn, bản, vv.) với danh từ riêng (thường chỉ có một âm tiết
thì viết hoa tất cả các chữ đầu tạo nên địa danh đó, ví dụ: Cửa Lò, Bến Nghé, Vũng Tàu, Lạch Trường, Vàm Cỏ, Vàm Láng, Buôn Hồ, Bản Keo, Sóc Trăng, ..
Tên các tổ chức:
- Tên các tổ chức được viết hoa chữ đầu của thành tố đầu và các từ, cụm từ cấu tạo đặc trưng (nét khu biệt) của tổ chức và tên riêng nếu có. Ví dụ: Chính phủ Việt Nam, Quốc hội Việt Nam, Mặt trận Tổ quốc Việt Nam, Đảng Cộng sản Việt Nam, Trường Đại học Tổng hợp Hà Nội, Nhà Xuất bản Từ điển bách khoa, Đài Truyền hình Việt Nam, Ban Tổ chức Trung ương, nước Cộng hoà Hồi giáo Pakixtan...
Viết hoa các trƣờng hợp khác:
-Tên các năm âm lịch: viết hoa cả hai âm tiết. Ví dụ: năm Kỉ Tị, Cách mạng Tân Hợi, Cuộc chính biến Mậu Tuất, Tết Mậu Thân ...
-Tên các ngày tiết và ngày tết: viết hoa âm tiết thứ nhất. Ví dụ: tiết Lập xuân, tiết Đại hàn, tết Đoan ngọ, tết Trung thu, tết Nguyên đán.
-Từ chỉ số trong những đơn vị là tên gọi các sự kiện lịch sử: không viết bằng con số mà viết bằng chữ hoa. Ví dụ: Cách mạng tháng Tám, Cách mạng Xã hội chủ nghĩa tháng Mười.
- Tên gọi một số thời kì lịch sử, sự kiện lịch sử có ý nghĩa quan trọng: viết hoa âm tiết đầu. Ví dụ: thời kì Phục hưng, Chiến tranh thế giới I, phong trào Cần vương...
- Viết hoa tên các ngành, lớp, bộ, họ, giống (chi) trong phân loại sinh vật. Ví dụ: họ Kim giao; bộ Mười chân, lớp Thân mềm; chi Tôm he; lớp Nhện; cây họ Đậu; họ Dâu tằm...
- Tên các niên đại địa chất: viết hoa chữ đầu của âm tiết thứ nhất, ví dụ: đại Cổ sinh, kỉ Cacbon, loài người xuất hiện từ đầu kỉ Đệ tứ...
- Tên gọi các huân chương, huy chương, danh hiệu vinh dự,... viết như sau:
huân chương Độc lập, Sao vàng, Cờ đỏ, Lênin, Hồ Chí Minh; huân chương Quân công, Chiến công, Kháng chiến, Chiến sĩ vẻ vang; Kỉ niệm chương; Tổ quốc ghi công; Bảng vàng danh dự; giải thưởng Nhà nước; danh hiệu Nghệ sĩ nhân dân, Nhà giáo nhân dân, Thầy thuốc nhân dân, Anh hùng lao động...
- Tên gọi các tôn giáo, giáo phái viết bằng tiếng Việt hoặc Hán - Việt: viết hoa tất cả các chữ đầu của âm tiết, ví dụ: Tin Lành, Cơ Đốc, Thiên Chúa, Hoà Hảo, Cao Đài, Bà La Môn, Tiểu Thừa, Đại Thừa, Mật Tông, Thiền Tông,... Chú ý: Nho giáo, Thiên Chúa giáo, đạo Hồi, Hồi giáo...
- Tên các tác phẩm, sách báo, văn kiện,... để trong ngoặc kép và viết hoa như sau:
+ Nếu tên người, tên địa lí, tên triều đại,... dùng làm tên tác phẩm thì viết hoa tên người, tên địa lí, tên triều đại đó, ví dụ: “Thạch Sanh”, “Hồ Chí Minh toàn tập”, “Nghệ An” , “Lĩnh Nam chích quái”, “Việt sử lược”, “Hậu Hán thư”, “Tam Quốc chí”...
+ Ngoài các trường hợp trên, chỉ viết hoa âm tiết thứ nhất, ví dụ: “Làm gì”, báo “Nhân dân”, tạp chí “Khảo cổ học”, “Dư địa chí”, “Hiến pháp nước Cộng hoà Xã hội chủ nghĩa Việt Nam”, “Luật tổ chức Quốc hội và Hội đồng Nhà nước”...
- Tên chức vụ, học vị chung không viết hoa, ví dụ: tổng thống, chủ tịch, tổng bí thư, đại sứ, thái thú, tổng đốc, tiến sĩ, cử nhân, viện sĩ,....
Trong việc chuẩn hoá chỉnh tả và cải tiến chữ viết còn nhiều vấn đề cần tiếp tục thảo luận, nghiên cứu, chẳng hạn viết d/gi thống nhất bằng z; dùng f thay cho
ph; bỏ h trong gh, ngh; thống nhất dùng một trong ba cách viết c, k, q.
Ngoài ra việc không thống nhất trong việc bỏ dấu các thanh điệu cũng gây nhầm lẫn trong quá trình xử lí
Chƣơng 3
PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT
Phân tích văn bản là một giai đoạn xử lí dữ liệu đầu vào rất quan trọng trong nhiều ứng dụng như dịch máy, tóm lược văn bản, tổng hợp và nhận dạng tiếng nói…
Một bộ phân tích văn bản điển hình được mô dun hóa thành các thành phần như sau [15]:
3.1 Các modul
Bộ phân tích văn bản chịu trách nhiệm về tất cả vấn đề về văn bản, thực hiện sự phân tích ngữ nghĩa và cú pháp tỉ mỉ để xác định các tính chất trợ giúp cho quá trình phân tích ngữ âm hiệu quả từ đó có thể thể hiện được sự phát âm chính xác và phát sinh ngôn điệu một cách hợp lý.
Xác định cấu trúc văn bản
Chuẩn hóa văn bản
Phân tích ngôn ngữ Modul phân tích văn bản Xử lý nhập nhằng từ đồng dạng Phân tích hình thái học
Biến đổi chữ viết về dạng phát âm được (LTS) Modul phân tích ngữ âm Văn bản thô Văn bản được gán nhãn Văn bản được gán nhãn
Hình 3.1. Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm Từ điển
Trong hình 3.1, phân tích văn bản cho TTS đòi hỏi 3 quá trình liên quan sau [15]:
- Xác định cấu trúc văn bản: cấu trúc văn bản là rất quan trọng nhằm cung