Theo [1], vốn là một hiện tượng không hoàn toàn đơn giản, các quan niệm về từ trái nghĩa đã được đưa ra cũng không hoàn toàn đồng nhất với nhau. Tuy vậy, nét chung được đề cập trong tất cả các quan niệm là: sự đối lập về nghĩa.
Quan niệm thường thấy và được đa số chấp nhận, được phát biểu như sau: Từ trái nghĩa là những từ có ý nghĩa đối lập nhau trong mối quan hệ tương liên. Chúng khác nhau về ngữ âm và phản ánh những khái niệm tương phản về logic.
Ví dụ: cao và thấp trong câu dưới đây là hai từ trái nghĩa: Bây giờ chồng thấp vợ cao
Như đôi đũa lệch so sao cho b ng
Quan niệm nêu trên, suy ra r ng: Những từ có vẻ đối lập nghịch nhau về nghĩa nhưng không n m trong thế quan hệ tương liên thì nó không phải là hiện tượng trái nghĩa. Chẳng hạn, trong các câu: nhà này tuy bé mà xinh; cô ấy đẹp
nhưng lười,... thì bé – xinh, đẹp – lười có vẻ đối nghịch nhau, nhưng chúng không phải là những hiện tượng trái nghĩa, vì không n m trong quan hệ tương liên. Ngược lại, hai từ cao và thấp lại là trái nghĩa, vì chúng n m trong quan hệ tương liên.
Những từ được cấu tạo b ng phụ tố, tạo ra những cặp từ có nghĩa ngược nhau (ví dụ như care – careless trong tiếng Anh) đều là những từ trái nghĩa c ng gốc. Chúng là kết quả của hiện tượng phái sinh trong từ vựng. Từ vựng học, trong trường hợp cần thiết, có thể đề cập tới hiện tượng này, nhưng mục tiêu nghiên cứu cơ bản của nó vẫn phải là những từ trái nghĩa khác gốc, tồn tại với tư cách của một kiểu tổ chức trong từ vựng, như: cao – thấp, ngắn – dài, dại – khôn, xấu – đẹp,...
Trong các nhóm từ trái nghĩa, không có từ trung tâm như trong nhóm đồng nghĩa. Mỗi từ ở đây có thể được hình dung như là n m ở vị trí của một âm bản hay dương bản của nhau vậy. Từ này là một tấm gương phản chiếu của từ kia, và ngược lại.
Ví dụ:
o “buồn”: Có tâm trạng tiêu cực, không thích thú của người đang gặp đau thương hoặc gặp việc không ưng ý.
o “vui”: Có tâm trạng tích cực, thích thú của người đang gặp việc mình thích hoặc điều gì đó được như ý.
Vì thế, trong mỗi nhóm từ trái nghĩa sẽ chỉ gồm hai từ, và thường được gọi là một cặp trái nghĩa. Trong mỗi cặp như vậy, hai từ thường có quan hệ đẳng cấu nghĩa với nhau. Đặc điểm này chẳng những làm cho dung lượng nghĩa của chúng
tương đương nhau mà kéo theo cấu trúc hình thức của chúng cũng thường tương đương hoặc gần tương đương nhau. So sánh:
o nặng – nhẹ; nặng nề – nhẹ nhàng; buồn bã – vui vẻ; o high – low; fat – thin; long – short;...
Nói r ng hai từ trái nghĩa nhau tương đương với nhau về dung lượng nghĩa thì không phải chúng nhất thiết phải có số lượng nghĩa b ng nhau. Điều quan trọng là cái nghĩa làm cho hai từ đi vào quan hệ trái nghĩa, phải có dung lượng tương đương nhau. Bởi vậy, cũng như hiện tượng đồng nghĩa, ở đây, một từ đa nghĩa có thể tham gia vào nhiều cặp trái nghĩa khác nhau. Điều này cũng ngụ ý r ng một từ nào đó, có quan hệ trái nghĩa với nhiều từ trong nhóm đồng nghĩa.
Ví dụ:
mềm – cứng; mềm – rắn (mềm nắn rắn buông); già – trẻ; già – non (già giái non hột)...
Việc xác định các cặp trái nghĩa có nhiều phức tạp nên không thể dựa hẳn vào một tiêu chí nào đó. Thông thường, người ta hay dựa vào những tiêu chí sau đây:
Nếu hai từ là trái nghĩa thì chúng c ng có khả năng kết hợp với một từ khác bất kì nào đó mà quy tắc ngôn ngữ cho phép. Suy rộng ra là chúng phải c ng có khả năng xuất hiện trong một ngữ cảnh:
Ví dụ: người khôn – người dại; bóng tròn – bóng méo; no bụng đói con mắt; dốt đặc hơn hay chữ lỏng;...
Nếu hai từ là trái nghĩa thì chúng phải đảm bảo mối quan hệ liên tưởng đối lập nhau một cách thường xuyên và mạnh; bởi vì mỗi từ trong cặp trái nghĩa như
là tấm gương phản chiếu của từ kia. Ở đây, để giảm bớt đến mức tối đa tính chủ quan của cái gọi là quan hệ liên tưởng, ta có thể thực hiện thêm hai thủ tục kiểm tra:
o Phân tích nghĩa của hai từ đó xem chúng có đẳng cấu với nhau không. o Trường hợp nhiều liên tưởng và cũng bảo đảm tính đẳng cấu về nghĩa thì
cặp liên tưởng nào nhanh nhất, mạnh nhất, có tần số xuất hiện cao nhất,... sẽ được gọi là trung tâm, đứng đầu trong chuỗi các cặp trái nghĩa.
Ví dụ:
o cứng – mềm: Chân cứng đá mềm
o cứng – dẻo: Thép cứng thay cho thép dẻo
o cứng – nhũn: Khi quả xanh, vỏ cứng; khi chín, vỏ nhũn...
Trong ba cặp liên tưởng này, cặp “cứng – mềm” phải đứng ở vị trí trung tâm, vị trí hàng đầu.
Đối với từ trái nghĩa tiếng Việt, ngoài những tiêu chí nêu trên, còn có thể quan sát và phát hiện chúng qua những biểu hiện bổ sung như sau:
Về mặt hình thức, hai từ trái nghĩa trong cặp thường có độ dài b ng nhau về số lượng âm tiết, rất ít khi lệch nhau;
Nếu c ng là từ đơn tiết thì hai từ trong cặp trái nghĩa lại thường đi đôi với nhau, tạo thành những kết hợp như: dài ngắn, trẻ già, sớm muộn, đầu cuối, ngược xuôi, lớn bé,... biểu thị nghĩa khái quát tổng hợp, bao gồm hết các đối tượng “từ A đến Z” trong một phạm tr của đời sống và thế giới.
Trừ vài ba cặp từ như: hồng hào – xanh xao, nhã nhặn – tục t n,... còn nếu hai từ A và B là trái nghĩa thì:
o Hoặc là cả hai c ng không có cấu tạo từ láy; o Hoặc là một bên có, một bên không;
o Hoặc cả hai bên c ng có âm tiết láy sẽ không c ng khuôn vần.
Ví dụ: ra – vào, trong – ngoài, lên – xuống, mừng – lo, mừng – lo lắng; lành – rách; lành lặn – rách rưới,...
Nghiên cứu các từ trái nghĩa không thể bỏ qua trường hợp những từ vốn không trái nghĩa với nhau, nhưng trong một số ngữ cảnh chúng lại được d ng với tư cách những cặp trái nghĩa, chẳng hạn: đầu voi đuôi chuột, mặt sứa gan lim, miệng h m gan sứa,...
Những từ như thế, người ta vẫn quen gọi là trái nghĩa ngữ cảnh, tức là chúng chỉ n m trong thế đối sánh trái nghĩa tại một vài ngữ cảnh nào đó, chứ không phải là một quan hệ ngữ nghĩa trong tổ chức ngữ nghĩa của từ vựng. Cơ sở hình thành mối quan hệ trái nghĩa ngữ cảnh chính là ở các nghĩa ẩn dụ, hoán dụ, những biểu trưng,... của từ, nảy sinh trong từng ngữ cảnh cụ thể đó.
Ví dụ:
o Chồng người xe, ngựa người yêu o Chồng tôi áo rách tôi chiều tôi thương
Tình hình trên đây dẫn đến một hệ quả là: Trong thực tế sử dụng ngôn ngữ đã có vô c ng nhiều trường hợp thiết lập và d ng trái nghĩa ngữ cảnh. Có thể gọi chúng là những từ đối nghĩa. Tính chất đối nghĩa này thể hiện rõ rệt nhất trong những lối nói muốn làm nổi bật sự đối lập giữa hai vế, hai mặt, hai đối tượng,...
nào đó, mà người Việt rất hay d ng. Ví dụ: “Gò với núi cũng kể là cao, bể với ao cũng kể là trũng”; “Đói lòng ăn nắm lá sung, chồng một thì lấy, chồng chung thì đừng”; “Trâu bò húc nhau ruồi muỗi chết”; “Sổng cục đất mất cục vàng”...
Trong lĩnh vực đánh giá chất lượng đào tạo, việc xác định từ trái nghĩa chỉ trong một phạm vi hẹp.
Ví dụ:
o Giáo viên dạy hay
o Giáo viên dạy dở
Việc xác định từ trái nghĩa nhầm mục đích: trong một số ý kiến có cách nói khác nhau nhưng đều chung một ý nghĩa. Ví dụ:
o Giáo viên dạy không hay
o Giáo viên dạy dở
Việc nhận diện từ trái nghĩa sẽ giúp cho hệ thống nhận diện được những ý kiến tr ng nhau về mặt ý nghĩa nhưng khác cách nói và khác cấu trúc câu này.
2.2 Phƣơng pháp thực hiện 2.2.1 Tách câu Tiếng Việt
2.2.1.1 Tiền đề cơ sở để tách câu:
Theo sách ngữ pháp tiếng Việt của Uỷ ban Khoa học Xã hội (1980): “ Câu là đơn vị d ng từ hay đúng hơn d ng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp, và có tính chất độc lập”. Dựa vào quan điểm này về câu ta sẽ xét một đơn vị ngôn ngữ có phải là câu hay không.
2.2.1.2 Mục tiêu:
o Xác định ranh giới rõ ràng và nhất quán giữa các câu tiếng Việt. Phân biệt đơn vị câu với các đơn vị nhỏ hơn câu (từ, ngữ ) và lớn hơn câu (đoạn, văn bản).
o Làm tiêu chí chính để xây dựng nên câu tiếng Việt trong ngữ liệu tiếng Việt từ đó xác định ranh giới giữa các ý kiến.
o Làm cơ sở để gán các nhãn ngôn ngữ cao hơn (tách từ, gán nhãn từ loại, phân tích cú pháp...)
2.2.1.3 Phân tích câu:
Xét về cấu tạo có câu đơn, câu ghép.
a. Câu đơn:
Một câu đơn cơ bản gồm có một nòng cốt đơn. Nòng cốt đơn gồm có hai phần, phần đề và phần thuyết (theo quan điểm ngữ pháp chức năng) mà quan điểm ngữ pháp truyền thống gọi là chủ ngữ và vị ngữ.
Ví dụ:
o Giảng viên / dạy hay.
o Máy tính / cần được nâng cấp
Trong cấu tạo câu đơn có thể có những thành phần ngoài nòng cốt như thành phần than gọi, thành phần chuyển tiếp, thành phần chú thích, thành phần tình huống, thành phần khởi ý . những thành phần này có tính chất độc lập và ta có thể xem nó như một câu đặc biệt
Ví dụ:
o Nhiều lúc, Thầy rất hài hước làm cho không khí luôn vui vẻ o Tóm lại, cơ sở vật chất còn nhiều thiếu sót
Trong lĩnh vực đánh giá chất lượng giảng dạy, những thành phần này có thể bỏ đi mà không làm ảnh hưởng đến ý nghĩa của ý kiến. Điều này giúp cho việc phân tích cấu trúc, ngữ nghĩa của ý kiến sau này được thuận tiện.
b. Câu ghép:
Về cấu trúc, câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế là một nòng cốt đơn.
Câu ghép cũng có thể có những thành phần ngoài nòng cốt như câu đơn. Về cấu trúc câu ghép thì có hai loại câu ghép cơ bản là câu ghép song song (câu ghép đẳng lập) và câu ghép qua lại (câu ghép chính phụ).
o Câu ghép song song (câu ghép đẳng lập)
Nếu cấu trúc câu đơn giản, ngắn gọn (gồm 2 vế mà mỗi vế là một nòng cốt đơn) thì ta giữ nguyên cấu trúc câu của ngữ liệu.
Ví dụ:
Giảng viên giảng bài rõ ràng, tiết học của thầy luôn sôi động Câu trên tách thành hai câu:
Giảng viên giảng bài rõ ràng tiết học của thầy luôn sôi động
Nếu cấu trúc câu ghép song song có hơn hai vế và quá phức tạp (gồm nhiều nòng cốt đơn) thì ta có thể tách thành những câu đơn. Bởi vì quan hệ giữa các vế trong câu ghép song song không thật chặt chẽ và tách ra càng đơn giản thì việc xử lí dữ liệu sẽ càng dễ dàng mà không làm thay đổi nhiều đến ý nghĩa của câu.
Ví dụ:
Giảng viên giảng bài hay và hấp dẫn, tuy nhiên âm thanh quá nhỏ làm ảnh hưởng đến chất lượng bài giảng
→ Câu trên là một câu ghép đẳng lập gồm nhiều nòng cốt đơn. Ta có thể tách thành:
Giảng viên giảng bài hay và hấp dẫn
âm thanh quá nhỏ làm ảnh hưởng đến chất lượng bài giảng o Câu ghép qua lại (câu ghép chính phụ)
Câu ghép chính phụ là câu ghép mà các vế trong câu phụ thuộc lẫn nhau, không thể tách ra được.
Có thể nhận biết câu ghép chính phụ qua các cặp từ quan hệ như: nếu thì, tuy nhưng, do mà,
Ví dụ:
Tuy giáo viên giảng bài hay nhưng âm thanh quá nhỏ làm ảnh hưởng đến chất lượng giảng dạy.
2.2.1.4 Sơ đồ quy trình tách câu (tách ý) a. Tách câu dựa vào dấu câu
Để tách câu dựa vào dấu câu, trong luận văn này đề xuất thuật toán như trên hình 2.1. Thuật toán này có thể diễn giải như sau:
Bước 1: Kiểm tra chuỗi đầu vào khác rỗng Bước 2: Duyệt qua danh sách ký tự của chuỗi Nếu ký tự là dấu câu:
Lưu chuỗi bên trái dấu câu vào danh sách câu kết quả.
Cắt chuỗi bỏ chuỗi bên trái dấu câu và dấu cấu
Quay lại bước 2
Hình 2.1 Thuật toán tách ý dựa vào dấu câu
Begin str<>“” Trim(str) I=0 I<str.length Str(i)=”Dấu câu”
Lưu chuỗi bên trái dấu câu Cau.remove(chuỗi bên trái
dấu câu+dấu câu)
Lưu chuỗi đang xét Str=””
I+=1
Trả về DS Câu
b. Tách ý dựa vào từ nối
Để tách ý dựa vào từ nối, trong luận văn này đề xuất thuật toán như trên hình 2.2. Thuật toán này có thể diễn giải như sau:
Bước 1: Tách danh sách chuỗi đề cử dựa vào từ nối Bước 2: Duyệt qua danh sách các chuỗi đề cử
Nếu chuỗi đề cử là một câu: Ghi nhận câu
Nếu chuỗi đề cử không là câu
Chuẩn hóa chuỗi đề cử dựa vào các thành phần của chuỗi trước hoặc sau chuỗi đề cử
2.2.2 Phân tích cú pháp
Phân tích cú pháp là một vấn đề cơ bản và quan trọng trong xử lý ngôn ngữ tự nhiên. Với một công cụ phân tích cú pháp tốt, chúng ta có thể tích hợp vào nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, tóm tắt văn bản, các hệ thống hỏi đáp, để tăng tính chính xác của các ứng dụng đó. Trong đề tài này, chúng tôi đề xuất mô hình phân tích cú pháp sử dụng văn phạm phi ngữ cảnh CFG (Context Free Grammar). Văn phạm này có thể được mô tả b ng ký pháp BNF (Backus Naur Form). BNF viết tắt từ Backus-Naur Form, là một trong những ngôn ngữ mô tả cú pháp thông dụng nhất hiện nay. BNF là một dạng toán học hình thức d ng để mô tả ngôn ngữ, được John Backus phát triển và được Peter Naur cải tiến thêm để mô tả cú pháp của ngôn ngữ lập trình (Algol 60).
2.2.2.1 Văn phạm phi ngữ cảnh BNF
Văn phạm phi ngữ cảnh BNF là một tập hợp hữu hạn các biến (còn gọi là các ký hiệu kết thúc và chưa kết thúc) và các luật sinh, trong đó mỗi biến biểu diễn một luật sinh. Luật sinh biểu diễn bởi các biến được mô tả một cách đệ quy theo thuật ngữ của một khái niệm khác gọi là ký hiệu kết thúc. Quy tắc quan hệ giữa các biến gọi là luật sinh. Mỗi luật sinh có dạng một biến ở vế trái sinh ra một chuỗi có thể gồm biến lẫn các ký hiệu kết thúc trong văn phạm.
Ví dụ về: Biểu diễn số thập phân bằng ký pháp BNF
<Số> → ‟-‟<Số thập phân>|<số thập phân>
<Số thập phân> → <Dãy chữ số>|<Dãy chữ số>‟.‟<Dãy chữ số> <Dãy chữ số> → <Chữ số>|<Chữ số><Dãy chữ số>
2.2.2.2 Văn phạm phi ngữ cảnh EBNF
EBNF (Extended BNF ) được phát triển từ ký pháp BNF. EBNF có ký pháp tương tự BNF nhưng được đơn giản hoá b ng cách sử dụng một số ký hiệu đặc biệt :
o [] phần này là tuỳ chọn (có hoặc không)
o {} phần này có thể lặp lại một số lần tuỳ ý hoặc không xuất hiện lần nào (Nếu lặp lại m hay n lần , d ng n hay m là chỉ số trên hoặc dưới)
o Không cần d ng „‟ cho ký hiệu kết thúc
Ví dụ về: Biểu diễn số thập phân bằng ký pháp BNF
<Số> → [-]<Số thập phân>
<Số thập phân> → <Dãy chữ số>[.][<Dãy chữ số>] <Dãy chữ số> → <Chữ số>{<Dãy chữ số>}
<Chữ số> → ‟0‟|‟1‟|‟2‟|‟3‟|‟4‟|‟5‟|‟6‟|‟7‟|‟8‟|‟9‟
Cả hai mô tả trên cho c ng một ngôn ngữ (thực ra cú pháp tương tự), nhưng cú pháp đầu tiên sử dụng nhiều luật sinh hơn.
2.2.2.3 Ứng dụng BNF vào phân tích câu Tiếng Việt trong phạm vi đề tài a. Tập các luật sinh cơ bản
Để xây dựng mô hình cú pháp phục vụ cho việc xử lý câu truy vấn tự nghiên b ng ngôn ngữ tiếng Việt, trong luận văn đề xuất tập các luật sinh viết theo cú