Các đơn vị củ tiếng Việt

Một phần của tài liệu Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản (Trang 48)

a.1. Tiếng v đ c điểm củ tiếng

Trong tiếng Việt, c ng như trong các v n ản tiếng Việt, t c thể thấy

ti ng là một thành ph n khá qu n trọng. Trong kí pháp, mụ i tiờ ng đ ng độc lập, và t c thể phát hiện được ng y các ti ng trong cả tiếng n i c ng như trong v n ản [3].

a.1.1. Ti ng v gi tr ngữ â

Ngữ âm chính là mặt âm củ ngôn ngữ. Tại s o t lại phải nghiên c u khí cạnh này củ ngôn ngữ tiếng Việt. Đ là vì trên thực tế, các ng ụng liên qu n đến tiếng Việt như ịch thuật, lưu trữ người t vẫn ghi lại âm thành ạng v n ản, s u đ mới tiến hành các th o tác xử lý. Mụ i tiờ ng chính là một âm tiết và được ghi lại thành một cụm trong v n ản.

a.1.2. Ti ng v gi tr ngữ ngh a

Nếu x t về mặt ngữ ngh thì ti ng l ơn v nhỏ nh t c thể c ngh a

[3]. Thực r t c thể thấy r ng đơn vị ngữ âm thấp nhất là âm vị thì hoàn toàn không c ngh ví ụ như các chữ cái đ ng riêng rẽ . Tuy nhiên c ng c những tiếng c ngh ví ụ như ạ, ứ).

- Các tiếng tự n c ngh ví ụ như chuông, nh, bút c thể được ùng để gọi tên sự vật, hiện tượng, c thể được ùng như một từ.

- Các tiếng c ngh nhưng không ùng để gọi tên sự vật, hiện tượng ví ụ như thu , thực mà ch được ùng với tư cách là ộ phận để cấu thành nên từ c ngh ở ậc c o hơn. T không thể n i tôi thực mà ch c thể n i tôi ăn, nhưng c những từ như thực phẩ .

- Các tiếng ản thân không hề c ngh mà ch ùng để kết hợp tạo thành ngh cho đơn vị trực tiếp c o hơn, đ là từ. Ví ụ như các tiếng l ng, ng tự n không c ngh nhưng c thể tạo thành từ c ngh là l ng ng.

a.1.3. Ti ng v gi tr ngữ ph p

Khí cạnh ngữ pháp o gồm những quy t c cấu tạo từ, cấu tạo câu. Và t c thể thấy r ng tiếng là ơn v ngữ ph p dùng ể c u tạo từ [3].

Về việc ùng tiờ ng đờ cấu tạo từ, t c h i trường hợp như s u:

- Từ mụ t tiờ ng: đây là trường hợp mụ t tiờ ng ùng để làm một từ, ví ụ như câ , . Các tiếng đ ng v i tr là từ là một ộ phận cấu thành nờn c u.

- Từ nhiờ u tiờ ng: là một khối h i h y nhiều hơn các tiếng kết hợp với nh u, g n tương đối chặt chẽ.

Việc nghiên c u cấu tr c từ nhiờ u tiờ ng h y mụ t tiờ ng đ ng v i tr rất qu n trọng trong quá trình nghiên c u và cài đặt ng ụng phân tích c pháp tiếng Việt.

a.2. Từ v các đ c điểm củ từ

Từ và tiếng là h i đơn vị khác nh u nhưng đờ u r t qu n trọng trong ngữ pháp tiếng Việt. Do đ t phải đi x t các đặc điểm củ từ.

a.2.1. Từ l ơn v nhỏ nh t ể t câu

Như trên vừ trình ày, t thấy từ c thể gồm c mụ t tiờ ng nhưng c ng c thể gồm h i h y nhiờ u tiờ ng, tuy nhiên từ là ơn v nhỏ nh t ể t câu

[3]. Ví ụ:

C ng ty này rất lớn.

Người này rất gi i

C một lưu ý là để đặt câu, t c là đờ viờ t, đờ n i, để suy ngh thì ch ng t ùng từ ch không phải là ùng tiếng.

T c thể thấy lưu ý này rất qu n trọng, vì trong thực thế thành ph n riêng rẽ c thể phát hiện trong mụ t c u ở ạng n i h y viết là một ti ng

nhưng để c thể hiểu ý ngh củ câu t phải ùng từ. Do đ ất kì một nghiên c u về tiếng Việt trên máy tính nào c ng phải quan tâm đến việc

gh p các tiếng thành từ.

a.2.2. Từ c ngh a ho n chỉnh v c u tạo n nh

T c thể nhận r điều này ở các từ tiếng Việt mụ t tiờ ng, c n đối với những từ nhiờ u tiờ ng thì đ là những đặc điểm xác định lẫn nh u. Cấu tạo n những từ nhiờ u tiờ ng thì đ là những đặc điểm xác định lẫn nh u. Cấu tạo n định ẫn đến ngh hoàn ch nh và ngược lại. Ví ụ như từ h i tiếng câ cối

c cấu tạo n định và ngh hoàn ch nh, nhưng cụm không phải là từ như v cối không c cấu tạo n định và ngh hoàn ch nh. (adsbygoogle = window.adsbygoogle || []).push({});

Đối với những từ nhiờ u tiờ ng, tính hoàn ch nh về ngh và n định về cấu tạo được hình thành theo mối qu n hệ giữ các tiếng cấu thành nên từ.

Đ là mối qu n hệ phối hợp, c thể theo ngữ âm các từ láy âm , hoặc về ngh ví ụ như ngh củ h i từ xe ạp trong từ xe ạp).

a.3. Câu v các đ c điểm củ câu

Trong nghữ pháp tiếng Việt, từ và câu là những đơn vị ngữ pháp rất qu n trọng. Đối với con người, từ được coi như s n c trong kho từ vựng được tích luỹ trong quá trình sống. C n để c thể hiểu, gi o tiếp thì con người phải ùng đến câu. Trong ngôn ngữ, câu là đơn vị ở ậc c o hơn cả. N i gì, viết gì c ng phải thành câu.

a.3.1. Câu c ngh a ho n chỉnh

Tính hoàn ch nh về ngh củ câu là tính hoàn ch nh củ cả một quá trình tư uy, quá trình thông áo iễn r trong một hoàn cảnh nhất định [3].

Trong mụ t c u o giờ c ng c h i thành ph n, một thành ph n nêu sự vật hiện tượng và một thành ph n giải thích củ sự vật hiện tượng đ .

a.3.2. Câu c c u tạo a dạng.

Câu c ạng đơn giản như là câu ơn, và c n c những cấu tr c ph c tạp hơn gọi là câu ghép. X t về mặt ngữ ngh , câu đơn c nhiều ạng khác nh u, iểu lộ những ý ngh , trạng thái, nội ung c n thông áo khác nh u.

Tính chất đ ạng không trái ngược với tính chất chặt chẽ củ c u vờ mặt ngữ pháp. N i chung, cấu tạo ngữ pháp c th y đ i thì ngh c ng c th y đ i và ngược lại [3].

b. Các phương tiện ng pháp củ tiếng việt.

b.1. Trong phạm vi cấu tạo từ.

Trong phạm vi cấu tạo từ, phương tiện chủ yếu về ngữ pháp chính là sự t hợp các tiếng. Trật tự s p xếp các tiếng c v i tr qu n trọng trong cấu

tạo từ. Kết hợp h i phương tiện này, c h i phương th c cấu tạo từ chủ yếu là l ghép.

Láy là việc s p đặt các tiếng thành đôi, kờ c n nh u, c sự phối hợp về ngữ âm tạo nên ngh .

Gh p là việc s p đặt các tiếng thành đội, kờ c n nh u, c sự phối hợp về ngữ ngh tạo nên ngh củ từ gh p.

b. . Trong phạm vi cấu tạo câu.

T c là trong phạm vi c pháp, t c các phương tiện trật tự, hư từ v ngữ iệu.

Trật tự s p đặt các từ là phương tiện chính để iểu thị qu n hệ ngữ pháp – t c là qu n hệ c pháp – giữ các từ trong mụ t c u [3]. Trong tiếng Việt, trật tự các yếu tố cấu thành được quy định ng một vị trí nhất định. Khi vị trí th y đ i thì ngh c ng th y đ i theo. Ví ụ t c các hoán vị các tiếng củ một t hợp như s u: S i đâu sử đấy. Sử đâu s i đấy. Sử đấy s i đâu. Đâu s i sử đấy. Đấy s i sử đâu.

Trật tự theo hướng thuận iểu hiện ở ch yếu tố chính trước, yờu tụ phụ s u, yếu tố được xác định trước, yếu tố xác định s u, yếu tố ùng để kh i triển đ ng liền s u từ, nếu c cách ly c ng đ ng không quá x .

ư từ là những từ ùng để iểu thị một số những qu n hệ c pháp nhất định. Ví ụ trong câu nh, ch i chơi r i, c thể ùng từ v để nối h i từ

anh, ch để làm r hơn mối qu n hệ liên hợp, ình đ ng giữ h i từ. Như thế từ v là một hư từ. Tuy nhiên t c thể thấy r ng hư từ c những s c thái về ngh [3], ví ụ như t thấy Anh v i ch khác với Anh v ch .

Điều đ đặt r một kh kh n khi tiến hành nghiên c u tiếng Việt trên máy tính, đ là việc xác định ngữ ngh củ mụ t c u, vì trong v n ản tiờ n Viờ t thì cách viết h y iểu thị trên khá ph iến.

Tất nhiên, ngữ điệu đ ng v i tr vô cùng qu n trọng trong tiếng Việt, tuy nhiên trong phạm vi nghiên c u về v n ản tiếng Việt, ngữ điệu sẽ không được đi sâu nghiên c u.

c. Từ tiếng việt

c.1. Từ đơn - từ gh p

Như đã trình ày ở trên, từ trong tiếng Việt c thể c mụ t tiờ ng h y gụ m nhiờ u tiờ ng. Hơn nữ , trong tiếng Việt, những từ nhiờ u tiờ ng lại c thể được gh p ởi những tiếng h y từ khác c ngh . Ví ụ h i từ mụ t tiờ ng t, nư c c thể được gh p với nh u thành một từ c ý ngh trừu tượng hơn là

t nư c. Những từ này được gọi là các từ gh p.

Do sự tồn tại củ những từ đơn là những từ mụ t tiờ ng và từ gh p, ch ng t phải tiến hành nghiên c u để c thể đề xuất những phương án hữu hiệu trong ài toán nhận ạng từ trong câu.

Khi xem x t từ gh p, ch ng t c thể thấy c h i loại như s u: (adsbygoogle = window.adsbygoogle || []).push({});

- Từ gh p song song: mụ i tiờ ng thường là một tiếng c ngh , c thể ùng làm từ mụ t tiờ ng, g n với nh u theo qu n hệ song song và n i chung c thể đ i ch cho nh u. Trong sự phối hợp về ngữ ngh thì thường c sự iến đ i ngh riêng thành một

ngh hình tượng, như ví ụ củ từ t nư c đã nêu trên, hoặc trong các từ quần o, gi dép....

- Từ gh p chính phụ: mụ i tiờ ng c thể là mụ t tiờ ng c ngh , nhưng thông thường c mụ t tiờ ng chính c thể được ùng làm từ c n tiếng ki không c ch c n ng ngữ pháp đ , ví ụ như

nh thương, b nh ì.

T c ng c thể thấy trong tiếng Việt tồn tại một số các từ gh p c nhiều tiếng hơn, phát triển từ loại từ gh p chính phụ, qu đ c thể chi thành các ph n chính, ph n phụ, thuận tiện hơn trong việc phân tích từ.

Chính sự tồn tại củ từ gh p gh p ởi các tiếng c ngh mà c sự nhập nh ng về ngh củ mụ t c u. T c thể lấy ví ụ s u:

Chiếc xe đạp nặng

Ở đây, h i tiếng xe ạp đều là các tiếng c ngh , o đ c u trờn c thể hiểu theo h i cách như s u:

Chiếc xe đạp / nặng Chiếc xe / đạp / nặng

Giải quyết được vấn đề này rất ph c tạp, tuy nhiên ch c ch n muốn phân tích câu hoặc xử lý v n ản tiếng Việt thì ài toán đ u tiên được đặt r là l th n o ể t ch c c từ trong câu.

c. . Từ loại

C thể phân loại các từ theo cách th c cấu tạo như đã x t ở ph n trên, c ng c thể phân loại theo các chữ cái đ u như khi t làm từ điển. Tuy nhiên c một cách phân loại đặc iệt qu n trọng về mặt cấu tạo câu, đ là xác định

Theo [3], tiếng Việt c thể c những từ loại s u: - D nh từ - Động từ - Tính từ - Ph từ sẽ, đã, rụ i, r t - Liên từ củ , thì

- Đại từ tôi, n , nh, em, h n - Trợ từ nh , hả, nh

- Cảm từ ái chà, ch o ôi, vâng, ạ - Số từ một, h i

- Loại từ con, cái

- Giới từ cùng, với, ng, để - Trạng từ hôm qu

Tất nhiên việc phân loại trên ch c ý ngh tương đối, vì trong nhiều tài liệu khác nh u vẫn c những sự khác nh u về các phân chi từ theo từ loại. Nếu xem x t một cách kỹ lưỡng hơn nữ về mặt c pháp, trong m i loại từ lại c n c thể chi nh hơn được nữ , ví ụ r tph từ ứng trư c vì trong mụ t c u n ch đ ng trước các tính từ đề nhấn mạnh hiệu quả iểu đạt củ tính từ.

c. . D ng từ cấu tạo ng

Việc tìm hiểu cấu tạo c ng như các loại ngữ là c n thiết để tì m hiểu cấu tạo củ câu. Qu cấu tạo củ ngữ, c thể nhận r thêm đặc điểm ngữ pháp củ từ loại và các tiểu loại.

Theo [3], t c một số nhận x t như s u:

- Ngữ là một cấu tạo theo qu n hệ c pháp chính phụ.

- t từ c ng được ùng để iểu hiện qu n hệ chính phụ giữ chính tố với một số loại phụ tố s u. Ví ụ b o củ tôi".

- Khi phụ tố s u o thực từ đảm nhiệm thì n i chung phụ tụ y c thể là một ngữ. Ví ụ ột người / học sinh / r t thông minh". Ta c thể x t một số ngữ loại như s u [3]: - D nh ngữ: Ngữ c nh từ làm trung tâm - Động ngữ: Ngữ c động từ làm trung tâm - Tính ngữ: Ngữ c tính từ làm trung tâm - Giới ngữ: Ngữ t đ u ng giới từ.

C ng như đã phân tích trong ph n từ loại, để c thể xây ựng được một hệ thống luật c pháp tốt, t c n phải phân chi các ngữ loại một cách chặt ch hơn, ví ụ: t c nh ngữ c i cầu , nờ u thờm mụ t số từ nữ , ví ụ là

ột thì nh ngữ mới " ột c i cầu phải là một danh ngữ t thúc tr i vì r ràng t không thể mở rụ ng vờ phái trái nh ngữ này nữ .

Toàn ộ các từ loại và ngữ loại chi tiết sẽ được nêu trong ph n xây ựng luật c pháp.

Câu là đơn vị ùng từ, h y đ ng hơn là ùng ngữ mà cấu tạo nên trong quá trình tư uy, thông áo; n c ngh hoàn ch nh, c cấu tạo ngữ pháp và c tính chất độc lập [3].

X t về cấu tr c câu, tiếng Việt c h i loại câu là câu ơncâu ghép.

d.1. Câu đơn (adsbygoogle = window.adsbygoogle || []).push({});

Câu đơn là loại câu cơ sở củ tiếng Việt, o gồm một n ng cốt đơn h y một kết cấu chủ vị. Về mặt ngữ ngh , câu đơn m ng ngh tự thân, c n câu gh p m ng ngh kết hợp. Câu đơn c thể là câu kh ng định, câu phủ định, câu nghi vấn, câu tường thuật, c u c u khiến, câu iểu cảm. Ví ụ:

- Cái xe này tốt.

- Tôi chư làm xong việc này. - Anh đi làm chư

- N đ ng đi đến trường. - Con đi ngủ đi

- Con m o mới đ p làm s o

N ng cốt đơn củ một câu đơn là một kết cấu chủ vị. Ngoài r , câu đơn c n c các thành ph n ngoài n ng cốt [3]:

- Thành ph n th n gọi. Ví ụ bạn ơi, chúng ta i n o".

- Thành ph n chuyển tiếp. Ví ụ nh Trường, trái lại, hông l gì cả".

- Thành ph n ch thích. Ví ụ N , em tôi, r t thông inh". - Thành ph n tình huống. Ví ụ Trong máy tính, dữ liệu

- Thành ph n khởi ý. Ví ụ Thu c, anh hông hút".

Để iểu iễn một câu đơn, người t thường ùng mô hình suy iễn câu đơn như s u: Px - Cx - Vx - Bx. Với P: thành ph n phụ C: chủ ngữ V: vị ngữ B: B ngữ, định ngữ. x: thành ph n c thể kh i triển tiếp.

Một phần của tài liệu Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản (Trang 48)