CHƯƠNG 3. XÂY DỰNG ỨNG DỤNG VÀ THỬ NGHIỆM
3.1. Đặc điểm ngôn ngữ tiếng Việt và bài toán tách câu
Câu là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ cú pháp xác định, đƣợc tạo ra trong quá trình tƣ duy, giao tiếp, có giá trị thông báo, gắn liền với mục đích giao tiếp nhất định. Dựa vào vai trò tạo câu, các thành phần câu đƣợc chia thành ba loại lớn: thành phần chính, thành phần phụ và thành phần biệt lập.
Ví dụ:
– Trăng đã lặn (N.C)
– Có nghĩa gì đâu một buổi chiều (X.D)
– Những người tù biết trời mưa khi họ vừa bị lùa ra khỏi khám.
– Hãy nhớ lấy lời tôi (T.H) 3.1.1.1. Thành phần chính của câu
Thành phần chính là loại thành phần cơ bản, cốt lõi của câu mà dựa vào nó câu mới có thể tồn tại. Thành phần chính bao gồm hai loại nhỏ: chủ ngữ và vị ngữ.
Chủ ngữ (subject)
Chủ ngữ (viết tắt: C) là thành phần chính của câu nêu tên sự vật, hiện tƣợng có hành động, đặc điểm, trạng thái,… được miêu tả ở vị ngữ. Chủ ngữ thường trả lời cho các câu hỏi: câu nói về ai/ con gì, cái gì?
Chủ ngữ thường là danh từ, đại từ hay cụm danh từ đảm nhiệm. Một số từ loại khác nhƣ động từ, cụm động từ, tính từ, cụm tính từ cũng có thể làm chủ ngữ.
Vị ngữ (Predicate)
Vị ngữ (viết tắt: V) là thành phần chính của câu có khả năng kết hợp với các phó từ chỉ quan hệ thời gian và trả lời cho các câu hỏi: làm gì, nhƣ thế nào, ra sao?
Vị ngữ thường là động từ hay tính từ đảm nhiệm. Một vài từ loại khác như đại từ, số từ cũng có thể làm vị ngữ.
Ví dụ 1: Một buổi chiều, tôi ra đứng đầu làng xem hoàng hôn xuống VN1: cụm động từ VN2: cụm động từ Ví dụ 2: Chợ Rồng nằm sát bên quốc lộ 183, ồn ào, đông vui, tấp nập.
VN 1: cụm động từ VN2 VN3 VN4 ->(đều là tính từ)
Ví dụ 3: Cây tre là người bạn thân của nông dân Việt Nam.
VN: cụm danh từ
Về trật tự phân bố chủ ngữ, trong câu tiếng Việt, chủ ngữ đứng trước vị ngữ là hiện tượng phổ biến. Tuy nhiên, trong một số trường hợp, chủ ngữ có thể đứng sau vị ngữ.
Chủ ngữ và vị ngữ là hai thành phần chính, nên chúng thường xuất hiện trong câu. Tuy nhiên, hai thành phần này cũng có thể vắng mặt trong một số trường hợp:
- C hoặc/và V bị tỉnh lƣợc dựa vào hoàn cảnh giao tiếp.
- C hoặc/và V bị tỉnh lƣợc dựa vào văn cảnh.
Ngoài một số trường hợp vừa nêu, nếu câu thiếu C hoặc/và thiếu V thì đó là câu sai ngữ pháp.
3.1.1.2. Thành phần phụ của câu
Trạng ngữ
Trạng ngữ (viết tắt: Tr) là thành phần phụ của câu, bổ sung cho nòng cốt câu, tức là bổ nghĩa cho cả cụm chủ vị trung tâm. Trạng ngữ thường là những từ chỉ thời gian, địa điểm nơi chốn, mục đích, phương tiện, cách thức… để biểu thị các ý nghĩa tình huống: thời gian, địa điểm, nguyên nhân, mục đích, kết quả,…
Tr có thể là một từ, một ngữ hoặc một cụm chủ vị.
Trong trường hợp Tr đứng trước C - V, Tr thường được phân cách với kết cấu C - V bằng dấu phẩy. Trường hợp Tr xen vào giữa hay đứng sau C - V cũng vậy.
Ðể xác định đƣợc những danh ngữ, giới ngữ xen vào giữa hay nằm sau C - V có phải là Tr hay không, ta kiểm tra bằng cách đảo chúng lên đầu câu. Nếu câu văn không thay đổi nghĩa hay không sai, thì đó là Tr.
Ví dụ:
– Thỉnh thoảng, tôi lại về thăm Ngoại. (Tôi/ lại về thăm Ngoại là một cụm chủ-vị, được từ “thỉnh thoảng” bổ nghĩa, làm rõ việc tôi về thăm Ngoại là không thường xuyên, do đó thỉnh thoảng là trạng ngữ. Khi phân loại trạng ngữ thì thỉnh thoảng là từ chỉ về thời gian nên thỉnh thoảng trong câu trên là trạng ngữ chỉ thời gian).
– Trước cổng trường, từng tốp các em nhỏ ra về. (Trước cổng trường là trạng ngữ chỉ địa điểm).
Định ngữ
Định ngữ là thành phần phụ trong câu tiếng Việt. Nó giữ nhiệm vụ bổ nghĩa cho danh từ (cụm danh từ). Nó có thể là một từ, một ngữ hoặc một cụm C-V.
Ví dụ:
– Chị tôi có mái tóc đen. ( đen là từ, làm rõ nghĩa cho danh từ “tóc”. Đen là định ngữ)
– Chị tôi có mái tóc đen mượt mà. (đen mƣợt mà là ngữ, làm rõ nghĩa cho danh từ
“tóc”. Đen mƣợt mà là định ngữ)
– Quyển sách mẹ tặng rất hay. (mẹ / tặng là cụm C-V, làm rõ nghĩa cho danh từ
“Quyển sách”. mẹ tặng là định ngữ)
Khởi ngữ
Khởi ngữ (viết tắt là K) là loại thành phần phụ có chức năng nhấn mạnh một chi tiết nào đó trong sự việc đƣợc kết cấu C - V nêu lên. Ðiểm mà K nhấn mạnh có thể trùng với C, với V hay trùng với một bộ phận nào đó trong V.
K có thể do một từ hay một ngữ tạo thành. Khi K là một ngữ, nó có thể chứa tiểu cú.
Về vị trí, K thường đứng trước chủ ngữ (đứng đầu câu) hoặc đứng sau chủ ngữ, trước vị ngữ (đứng giữa câu), đứng sau quan hệ từ : về, mà, còn, với, đối với…
Về nội dung nghĩa, cần lưu ý rằng, câu bình thường không có K khác với câu có K ở chỗ: câu có K luôn mang một hàm ý nào đó.
Ví dụ:
– Đối với tôi, điều này thật quá sức tưởng tượng!
Bổ ngữ
Bổ ngữ là thành phần phụ đứng trước hoặc sau động từ hoặc tính từ để bổ nghĩa cho động từ hay tính từ đó và góp phần tạo thành Cụm động từ hay Cụm tính từ.
Ví dụ:
– Cuốn sách rất vui nhộn. (rất là bổ ngữ, làm rõ nghĩa cho tính từ “vui nhộn”, rất vui nhộn đƣợc gọi là Cụm tính từ )
– Gió đông bắc thổi mạnh. (mạnh là bổ ngữ, làm rõ nghĩa cho động từ “thổi”, thổi mạnh đƣợc gọi là Cụm động từ)
3.1.1.3. Các thành phần biệt lập
Thành phần biệt lập là loại thành phần đứng tách riêng ra trong tổ chức câu và có mối quan hệ lỏng lẻo với kết cấu C - V nòng cốt.
Thành phần biệt lập bao gồm:
Thành phần tình thái
– Thể hiện cách nhìn của người nói đối với sự việc được nói đến trong câu.
– Với lòng mong nhớ của anh, chắc anh nghĩ rằng, con anh sẽ chạy xô vào lòng anh, sẽ ôm chặt lấy cổ anh.
– Từ nhận biết:chắc chắn, chắc hẳn, chắc là, hình như, hầu như, có vẻ như…
Ví dụ:
– Anh quay lại nhìn con vừa khe khẽ lắc đầu vừa cười. Có lẽ vì khổ tâm đến nỗi không khóc được, nên anh phải cười vậy thôi.
Thành phần cảm thán
– Bộc lộ tâm lý của người nói (vui, buồn, mừng, giận…).
– Từ nhận biết: ôi, chao ôi, than ôi, chà, trời ơi…
Ví dụ:
– Trời ơi, chỉ còn có năm phút!
Thành phần gọi đáp
– Dùng để tạo lập hoặc duy trì quan hệ giao tiếp – Từ nhận biết:này, thưa, dạ…
Ví dụ: Này tên kia, đứng lại ngay cho ta!
Thành phần phụ chú
Dùng để bổ sung một số chi tiết cho nội dung chính của câu.
Cách nhận biết: Các vị trí xuất hiện:
(phần phụ chú) – phần phụ chú – – phần phụ chú ,
Ví dụ:
– Việt Nam – một đất nước có nhiều tài nguyên thiên nhiên – đang cố gắng để thoát nghèo.
– Anh Minh (vốn dân Nam bộ gốc) làm điệu bộ nhƣ sắp ca một câu vọng cổ.
3.1.2. Bài toán tách câu
Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cân quan tâm nhƣ:
- Các tiếng đồng âm: kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý luận, lí luận, kĩ thuật, kỹ thuật, …
- Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/ cây cảnh, đờn/đàn, đậu phộng/lạc, …
- Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu đƣợc đặt trên nguyên âm có ƣu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ nguyên tắc này nên có hiện tƣợng dấu đƣợc đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thúy, thuý, …
- Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tùy tiện.
- Phiên âm tiếng nước ngoài: tồn tại cách viết giữ nguyên gốc tiếng nước ngoài và phiên âm ra tiếng Việt, ví dụ: Singapore/ Xin-ga-po.
- Từ gạch nối: do cách viết dấu gạch nối tùy tiện, không phân biệt đƣợc giữa nối tên riêng hay chú thích.
- Ký tự ngắt câu: sử dụng nhiều loại ký tự đặc biệt nhƣ “.”, “;”, “!”, “?”, “…”
ngăn cách giữa các câu hoặc các vế câu trong câu ghép.
Bảng mã tiếng Việt trên máy tính
Hiện nay có khá nhiều cách mã hóa các ký tự tiếng Việt khác nhau, dẫn tới có nhiều bảng mã khác nhau đƣợc sử dụng khi trình bàyvăn bản. Theo thống kê có tới trên 40 bảng mã tiếng Việt được sử dụng [6], có thể kể đến một số bảng mã dưới đây:
- Mã dựng sẵn:
⸰ Mã dựng sẵn một bảng fonts: TCVN 5712-VN1, VISC11… các bảng mã này mở rộng sang cả phần mã chuẩn, nên gây ảnh hưởng nghiêm trọng trong truyền thông.
⸰ Mã dựng sẵn hai bảng fonts: TCVN 5712-VN3 (ABC), VietSea, VNU
… sử dụng 2 bảng mã cho một kiểu chữ nên gây dƣ thừa và không hiện thực việc phân biệt chữ hoa, chữ thường trong các chương trình xử lý số liệu.
- Mã tổ hợp: Các bảng mã VietWare-X, Vni for Windows, TCVN 5712-VN2, VS2… sử dụng phương pháp mã tổ hợp.
Do chƣa có sự thống nhất giữa các bảng mã biểu diễn tiếng Việt trên máy tính nên việc thu thập, khai thác xử lý tiếng Việt gặp nhiều khó khăn, đòi hỏi các hệ thống xử lý văn bản tiếng Việt cần phải có bước tiền xử lý để nhận dạng và quy chuẩn các ký tự về một bảng mã chung.
Tiền xử lý văn bản tiếng Việt
Văn bản trước khi đưa vào mô hình xử lý cần được tiền xử lý. Quá trình này sẽ giúp nâng cao hiệu quả của mô hình và giảm độ phức tạp của thuật toán đƣợc cài đặt vì nó có nhiệm cụ làm giảm số từ có trong biểu diễn văn bản. Thông thường các bước tiền xử lý bao gồm:
Tách văn bản thành các câu và các từ riêng lẻ để sử dụng cho mục đích tính toán sau này.
Loại bỏ các ký tự không phải chữ cái hoặc chữ số.
Lưu các câu và các từ vào một cấu trúc dữ liệu phù hợp.