So sánh đặc điểm tiếng Việt và tiếng Anh

Một phần của tài liệu (LUẬN văn THẠC sĩ) các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm (Trang 28 - 36)

[58, 29]3

Hoặc theo từ điển Webster, “Từ là một nhóm ký tự có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu”.

Đối với các quan niệm trên, “Từ” chưa thể bao quát đến từ tiếng Việt và sẽ có những ngoại lệ, khoảng trắng dường như chỉ phân chia về mặt hình thức tạm thời, chưa phải là cách để nhận diện từ một cách hợp lý.

3 Xem thêm: Trung tâm ngôn ngữ học Việt Nam “Đặc điểm tiếng Việt”, http://www.vietlex.com/vietnamese.htm.

Một quan niệm nổi tiếng về “từ” tiếng Việt của tác giả Đinh Điền4 được cho là hợp lý và phổ biến hơn cả để xử lý ngôn ngữ tự nhiên: một câu tiếng Việt bao gồm nhiều từ, mỗi từ bao gồm một hay nhiều ‘tiếng’, mỗi ‘tiếng’ là mỗi chuỗi ký tự liền nhau phân biệt với các tiếng khác bằng một hay nhiều khoảng trắng. Ví dụ :

từ ‘học’ là một từ gồm một tiếng từ ‘học sinh’ là một từ gồm hai tiếng

cụm từ ‘khoa học tự nhiên’ gồm 2 từ hay 4 tiếng

Tuy chỉ phân biệt về hình thức nhưng định nghĩa này đã giải quyết được khoảng trắng cần sử dụng như thế nào cho đúng để phân chia tận cùng câu tiếng Việt ra một đơn vị từ vựng hợp lý và sử dụng được.

1.1.3. Những khó khăn trong việc giải quyết vấn đề về chính tả và từ của tiếng Việt trong cơng cụ tìm kiếm của tiếng Việt trong cơng cụ tìm kiếm

So với các ngơn ngữ khác đặc biệt như Anh hoặc Trung Quốc, tiếng Việt có phần lép vế hơn hẳn trong lĩnh vực ứng dụng xử lý ngôn ngữ tự nhiên. Tiếng Việt chưa thực sự là ngơn ngữ phổ biến và có lịch sử ứng dụng lâu dài như các ngôn ngữ khác. Những vấn đề về tiếng Việt còn nhiều mảng trống đặc biệt là về ranh giới từ, luật xác định về từ.

Vấn đề đầu tiên cần nhắc đến đó là xác định ranh giới “từ” trong câu. Đây là khó khăn chưa được giải quyết triệt để vì chúng ta cũng chưa có quan niệm thống nhất về quan niệm “từ” tiếng Việt. Việc xác định ranh giới “từ” là quan trọng nhất vì nó ảnh hưởng đến hiệu quả của q trình lập chỉ mục, nếu q trình tách từ sai có nghĩa là nội dung của câu cũng bị phân tích sai và ảnh hưởng đến kết quả tìm kiếm. Tuy nhiên đối với đề tài nghiên cứu này, việc xác định ranh giới từ chỉ đáp ứng được khả năng phân loại từ loại chứ chưa phải là bản chất của stop words.

Một trong những khó khăn nữa đó là những từ đồng nghĩa hoặc từ gần nghĩa đó là những từ có nhiều từ khác nhau nhưng lại có cùng hoặc gần ý nghĩa. Do đó,

4 Xem thêm: Đinh Điền, Hồ Bảo Quốc (?), Vấn đề ranh giới từ trong ngữ liệu song ngữ Anh-Việt, Khoa

việc tìm kiếm từ khóa thơng tin thường khơng tìm thấy các websites chứa từ đồng nghĩa hoặc gần nghĩa với từ cần tìm. Vì vậy, việc tìm kiếm sẽ cho ra kết quả khơng đầy đủ. Hoặc sự phong phú về nghĩa của một từ (từ đa nghĩa) có thể gây ra nhiều cách hiểu khác nhau trong ngữ cảnh khác nhau nên việc tìm kiếm khó có được kết quả chính xác.

Các văn bản cũng tồn tại nhiều từ mà mật độ xuất hiện cao nhưng không mang ý nghĩa cụ thể nào mà chỉ là những từ nối, từ đệm hoặc chỉ mang sắc thái biểu cảm như những từ láy. Những từ này cần phải được xác định và loại bỏ ra khỏi tập các mục từ. Những từ này được gọi là stop words. Đây là vấn đề mà chúng tôi sẽ giải quyết để có thể nâng cao hiệu năng tìm kiếm. Từ việc giải quyết vấn đề này sẽ kéo theo những luật ngôn ngữ cần được xác định trong xử lý ngôn ngữ tự nhiên: luật từ láy, luật liên từ…những luật về những “từ” không quan trọng trong tài liệu.

Đối với vấn đề chính tả, chúng ta cần lưu ý đến những vấn đề sau:

Thứ nhất là về chính tả, chính tả tiếng Việt cịn một số điểm chưa thống nhất như sử dụng “y” và “i”, cách bỏ dấu, cách viết hoa tên riêng…địi hỏi q trình hiệu chỉnh chính tả cho văn bản cần lập chỉ mục và cho từ điển chỉ mục để đưa ra kết quả chính xác hơn. Cách bỏ dấu chưa thống nhất ví dụ: thúy và thuý, rõ ràng hệ thống tìm kiếm cần nhận ra hai từ này là một. Phương pháp giải quyết dựa trên đặc điểm một từ đơn tiếng Việt chỉ có một dấu nên ta sẽ chuyển dấu “từ” ra sau cùng. Khi đó tất cả các từ giống nhau cho dù bỏ dấu khác nhau thì qua quá trình xử lý đều cho chuỗi kí tự giống nhau thuận tiện cho việc so sánh từ. Tương tự như vậy, đối với bỏ dấu tổ hợp nguyên âm, chúng ta cần xây dựng module xác định và sửa lỗi cho từ.

Thứ hai là về vấn đề bảng mã: Sự tồn tại nhiều bảng mã tiếng Việt (TCVN3, VNI…) dẫn đến việc phải chuyển nội dung các tài liệu được viết trên các bảng mã khác nhau về bảng mã chuẩn cho hệ thống tìm kiếm thơng tin xử lý. Chúng ta có thể xử lý bằng cách khơng cần xác định bảng mã vẫn có thể lập chỉ mục cho hệ thống bằng cách chuyển mã tài liệu sang một kiểu định dạng, theo bảng mã quy định của hệ thống tìm kiếm.

1.2. Từ loại trong tiếng Việt

1.2.1. Quan niệm về từ loại trong tiếng Việt

Hiện nay, chúng ta có hai phương pháp phổ biến để phân định từ loại: phân chia từ vựng của một ngôn ngữ thành hai lớp khái quát là thực từ và hư từ; hoặc phân chia từ vựng thành nhiều lớp cụ thể hơn với các đặc trưng xác định hơn. Lịch sử nghiên cứu ngữ pháp tiếng Việt cũng có hai xu hướng: một xu hướng cho rằng từ vựng tiếng Việt khơng được định loại vì chúng khơng có một dấu hiệu hình thức nào cả, nói cách khác là khơng tồn tại từ loại trong tiếng Việt. Tuy nhiên giới ngôn ngữ học Việt Nam vẫn nhất trí (no unanimous) cho rằng tiếng Việt có từ loại và tồn tại những dấu hiệu khách quan để định loại. Và việc phân loại cũng theo hai cách: phân biệt thực từ và hư từ; phân biệt thành những lớp ngữ pháp cụ thể.

Việc phân định từ loại tiếng Việt theo cách thứ hai thành những lớp từ cụ thể chủ yếu căn cứ vào ba tiêu chuẩn:

Ý nghĩa khái quát: có tác dụng tập hợp các từ có cùng kiểu ý nghĩa khái quát

thành các lớp (và lớp con); ví dụ như ý nghĩa về sự vật, về hành động, về trạng thái, về tính chất, về quan hệ,...; đến lượt ý nghĩa khái quát về sự vật lại được chia nhỏ thành ý nghĩa khái quát về vật thể (ví dụ các từ nhà, cửa, cây...), về chất thể (ví dụ nước, khí,muối...), v.v...

Khả năng kết hợp ( được hiểu ở ba mức độ như sau):

 Khả năng kết hợp của từ đang xét với với một hay một số hư từ, từ đó nói được bản tính từ loại của từ đang xét. Những hư từ trong trường hợp này được gọi là các chứng tố. Và với chứng tố, thường chỉ xác định được ba lớp từ chính trong tiếng Việt là: lớp danh từ, lớp động từ và lớp tính từ. Ví dụ: những từ có thể đứng trước các chỉ định từ này, nọ thì thuộc lớp danh từ; những từ có thể đứng sau đang, vẫn... thì thuộc lớp động từ; những từ đứng sau rất thường thuộc lớp tính từ.

 Khả năng kết hợp của từ đang xét được đặt trên cơ sở cách cấu tạo của cụm từ chính phụ. Với cách này, có thể xác định thêm lớp các phó từ của động từ (có nét gần gụi với các phụ từ và một số trạng từ adverd ngôn ngữ châu Âu).

 Khả năng kết hợp từ với từ, khơng chỉ tính đến các yếu tố không nằm trong cụm từ, thông qua các tiêu chuẩn sau: khả năng làm đầu tố trong cụm từ chính phụ; khả năng làm yếu tố mở rộng trong cụm từ chính phụ; khơng tham gia vào cụm từ chính phụ, chỉ xuất hiện ở bậc câu nhưng có thể có quan hệ với cụm từ chính phụ trong các trường hợp cụ thể.

Chức vụ ngữ pháp: Khả năng giữ chức vụ ngữ pháp trong một câu thường

được dùng như một tiêu chuẩn hỗ trợ cho việc phân định từ loại.

[Nguồn: Theo http://vi.wikipedia.org/] Như vậy, tuy nhất trí về việc tiếng Việt có từ loại nhưng mỗi nhà nghiên cứu lại phân chia hình thức thể hiện từ loại theo các cách khác nhau của mình. Cụ thể như sau:

Các tác giả Trần Trọng Kim, Phạm Duy Khiêm, Bùi Kỷ đã chia vốn từ vựng Tiếng Việt thành 13 từ loại như sau

 Danh tự : ngựa, cá,người..  Mạo tự: cái, những, các..

 Loại tự: cây, quả, hoa, cá, chim..  Chỉ thị tự: nay, này, kia, nào..

 Đại danh tự: tơi, tao, mày nó, ai, gì ,chi…  Tính tự: to, nhỏ, cao ,thấp..

 Động tự: ăn, uống, nói, cười..

 Trạng tự: rất, quá, lắm, thậm, cũng, đều..  Giới tự: của, bởi, bằng, với…

 Liên tự: và, với, cùng, hay, hoặc, vì…  Tán thán tự: chà, a, ơ, ôi, hỡi…

 Trợ ngữ tự: à, ư, nhỉ, nhé…  Tiếng đệm…

Theo quan niệm dựa vào khả năng kết hợp của từ

Tác giả Lê Văn Lý chia vốn từ tiếng Việt thành 3 nhóm:  Nhóm 1: danh từ

 Nhóm 2: động từ và tính từ

 Nhóm 3: gồm các nhóm nhỏ sau: từ chỉ ngơi, từ chỉ số lượng và các tiểu từ ( nhóm này khơng có từ chứng)

Theo quan niệm dựa vào ý nghĩa, khả năng kết hợp, chức vụ cú pháp của từ có các tác giả tiêu biểu:

Đinh Văn Đức, Diệp Quang Ban - Hoàng Thung, Lê Biên, Nguyễn Tài Cẩn.

Hình 1.1: Sơ đồ hệ thống từ loại tiếng Việt theo quan niệm của tác giả Đinh Văn Đức

Tác giả Đinh Văn Đức (23. tr100-186) đã chia từ loại tiếng Việt thành 3 nhóm lớn với các tiểu loại nhỏ như sau:

 Thực từ: danh từ, động từ, tính từ, số từ, đại từ.

 Hư từ: từ phụ, từ nối.

Hình 1.2: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của các tác giả Diệp Quang Ban - Hoàng Văn Thung

Trong cuốn "Ngữ pháp Tiếng Việt”, các tác giả Diệp Quang Ban - Hoàng Văn Thung đã chia thành 2 nhóm lớn với các từ loại cụ thể sau:

 Thực từ: danh từ, động từ, tính từ, đại từ, số từ

 Hư từ: phụ từ (định từ, phó từ), kết từ, tiểu từ (trợ từ, tình thái từ)

Trong đó, số từ và đại từ là trung gian giữa thực từ và hư từ.

Hình 1.4: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của tác giả Nguyễn Tài Cẩn

Phần lớn các tác giả phân loại từ loại theo hai tiêu chuẩn chính: dựa vào khả năng kết hợp và dựa vào chức vụ cú pháp. Tuy nhiên các phân loại theo 2 tiêu chuẩn này chưa giải quyết thỏa đáng các vấn đề của từ loại tiếng Việt “Xem xét khả năng vận dụng hai tiêu chí “khả năng kết hợp” và “chức vụ cú pháp” của từ để phân định từ loại, tác giả nhận thấy cho đến nay “các tài liệu vẫn miêu tả khả năng kết hợp như một tiêu chí cấu trúc thuần tuý, tách quan hệ ngữ đoạn ra khỏi chức vụ cú pháp, đối lập cấu trúc với chức năng” mà quên mất rằng cái giá trị kết hợp các yếu tố trong đoản ngữ và cái giá trị cú pháp của từ (chẳng hạn giá trị “vị ngữ tính” của động từ trung tâm) là thống nhất với nhau” [23; tr. 251]. Kế thừa những ý tưởng trên đây, tác giả Nguyễn Hồng Cổn cho rằng có thể điều chỉnh nội dung của hai tiêu chuẩn “dựa vào khả năng kết hợp và “dựa vào chức vụ cú pháp” của từ để phân định từ loại tiếng Việt thơng qua việc phân tích các chức năng hay giá trị ngữ pháp (diễn trị và kết trị) của chúng trong việc tham gia cấu tạo và biểu hiện cấu trúc -ngữ nghĩa của mệnh đề với tư cách là một cấu trúc “đối -vị tố” của phát ngôn và đưa ra bảng phân loại sau:

Một phần của tài liệu (LUẬN văn THẠC sĩ) các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm (Trang 28 - 36)