VẤN ĐỀ VỀ RANH GIỚI TỪ TRONG NGỮ LIỆU SONG NGỮ ANH-VIỆT Đinh Điền, Hồ Bảo Quốc Khoa CNTT, ĐH Khoa học Tự nhiên – ĐHQG Tp.HCM (ddien, hbquoc)@fit.hcmuns.edu.vn TĨM TẮT Để dịch máy theo phương pháp thống kê, tra cứu xun ngơn ngữ, nghiên cứu so sánh đối chiếu điểm tương đồng dị biệt ngơn ngữ tiếng Anh tiếng Việt, cần phải xây dựng kho ngữ liệu song ngữ Anh-Việt (English-Vietnamese parallel corpus) Kho ngữ liệu phải qua xử lý như: dóng hàng từ (word alignment), gán nhãn tự loại, cú pháp, ngữ nghĩa, Tuy nhiên, trước tiến hành xử lý tự động trên, thiết phải xác định tiêu chí nhận diện ranh giới từ (word boundary) tiếng Anh tiếng Việt để làm sở hình thái học cho xử lý tự động Trong báo này, chúng tơi trình bày số vấn đề liên quan đến việc xác định ranh giới từ tiếng Anh tiếng Việt cách tự động song ngữ Anh-Việt Nội dung báo bao gồm phần sau: Giới thiệu: giới thiệu ngữ liệu song ngữ Việc dóng hàng từ song ngữ Nhu cầu xác định ranh giới từ cho tốn dóng hàng từ Tổng quan: quan điểm ranh giới từ Đơn vị “tiếng” “từ” tiếng Việt Một số điểm khác biệt hình vị tiếng Anh tiếng Việt Đề nghị tiêu chí ranh giới từ song ngữ Anh-Việt: nhằm phục vụ cho tốn dóng hàng từ tự động Kết luận hướng phát triển: nhận xét, khả ứng dụng hướng phát triển tương lai GIỚI THIỆU 1.1 Giới thiệu ngữ liệu song ngữ: Thuật ngữ “ngữ liệu” tạm dịch từ thuật ngữ tiếng Anh “corpus”, có nghĩa “kho liệu, kho sưu tập tài liệu, ” (theo Từ điển Anh-Việt, ĐH Ngoại ngữ, NXB GD-2000 trang 368) “Ngữ liệu” xem “dữ liệu, liệu ngơn ngữ”, tức chứng thực tế sử dụng ngơn ngữ Ngữ liệu song ngữ (dịch từ tiếng Anh là: bilingual corpus hay parallel text hay bitext) ngữ liệu tồn ngơn ngữ chúng dịch Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra cứu xun ngơn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối chiếu điểm tương đồng dị biệt ngơn ngữ tiếng Anh tiếng Việt (English-Vietnamese contrastive linguistics), khơng thể nghiên cứu lý thuyết, hay câu nghĩ ra, mà phải nghiên cứu câu có thật thực tế sử dụng Điều đòi hỏi phải có chứng ngơn ngữ, ví dụ từ thực tế nhiều người sử dụng xem ngơn ngữ chuẩn [Tony McEnery, Andrew Wilson (1996) ] Với đời máy tính điện tử mơi trường kết nối Internet tồn cầu nay, việc tập hợp ngữ liệu song ngữ tự động hố nhiều Trên giới, người ta xây dựng nhiều kho ngữ liệu song ngữ, như: Anh-Pháp, Anh-Hoa,… Trong báo này, chúng tơi sử dụng kho ngữ liệu song ngữ Anh-Việt điện tử triệu từ thu thập từ tài liệu song ngữ thuộc lĩnh vực khoa học tự nhiên chủ yếu tin học, điện tử viễn thơng, y học, (Đinh Điền, 2002b) 1.2 Dóng hàng từ cho ngữ liệu song ngữ: Dóng hàng từ nhằm liên kết từ tiếng Anh với từ tiếng Việt tương ứng (Dien Dinh, 2002) Ví dụ: Jet planes Các phi_cơ fly Phản_lực about bay nine cao khoảng miles chín high dặm Do khác biệt loại hình ngơn ngữ (language typology) loại hình văn hố, nên tốn dóng hàng từ tự động, phải giải nhiều vấn đề liên quan đến sở ngơn ngữ học như: • Sự khác biệt từ vựng hố (lexicalization) • Sự khác biệt phương tiện ngữ pháp: tiếng Anh thường dùng phương thức phụ tố, tiếng Việt thường dùng trật tự từ từ hư • Do đặc thù tiếng Việt: phó danh từ, phó động từ, từ láy, … Ngồi ra, có yếu tố khác (như: khác biệt cấu trúc cú pháp đề - thuyết tiếng Việt chủ vị tiếng Anh,…) khơng liên quan đến ranh giới từ nên khơng đặt 1.3 Nhu cầu xác định ranh giới từ dóng hàng từ: Trong tốn dóng hàng từ nói trên, thiết phải xác định trước tiên đâu từ để từ tính đến chuyện dóng hàng từ (Dinh Dien, 2005) Dẫu biết việc xác định ranh giới từ tiếng Việt tốn khó đến nhiều điều tranh cãi chưa giải được, nhu cầu xử lý thực tế, phải đưa tiêu chí qn (dù chưa hồn tồn quan điểm từ ngơn ngữ học) để máy tính dựa mà tiến hành xử lý tự động (Dien Dinh, 2001) Các tiêu chí đề nghị phải mang tính hình thức (để máy tính nhận diện tự động được) tính định lượng cao (đo, đếm được) Các tiêu chí phải xét đến nhu cầu sử dụng sau kho ngữ liệu song ngữ tách từ TỔNG QUAN VỀ RANH GIỚI TỪ 2.1 • Quan niệm từ ngơn ngữ học đại cương: Theo L.Bloomfield, từ “một hình thái tự nhỏ nhất” • Theo Solncev “Từ đơn vị ngơn ngữ có tính hai mặt : âm nghĩa Từ có khả độc lập cú pháp sử dụng lời” • Theo B.Golovin, từ “đơn vị nhỏ có nghĩa ngơn ngữ, vận dụng độc lập, tái tự lời nói để xây dựng nên câu.” Đây định nghĩa mà ngơn ngữ học đại cương hay sử dụng Từ định nghĩa trên, ta rút nét đặc trưng từ sau: Về hình thức : từ phải khối cấu tạo (mặt tả, mặt ngữ âm,…) Về nội dung : từ phải có ý nghĩa hồn chỉnh Về khả : từ có khả hoạt động tự độc lập cú pháp Ngồi ra, ta gặp số thuật ngữ khác mà S.E.Jakhontov đưa để nhận diện từ, như: từ ngữ âm, từ tả, từ hồn chỉnh, từ từ điển học, từ biến tố,… Trên phương diện xử lý máy tính, từ tả từ từ điển hai loại nhận diện dễ 2.2 Đơn vị “tiếng” tiếng Việt: “Tiếng” đơn vị tiếng Việt dùng để cấu tạo đơn vị ngơn ngữ khác cao Số lượng tiếng tiếng Việt khơng lớn (khoảng 10.000), chiều dài tiếng ngắn (khơng q chữ cái) Trong xử lý tiếng Việt tự động máy tính, “tiếng” đơn vị tự nhiên mà máy tính dễ dàng lưu trữ, nhận diện xử lý Tiếng “từ tả” 2.3 Vai trò “tiếng” việc nhận diện “từ” tiếng Việt: Đối với từ tiếng Việt, đến nay, điểm lại số quan điểm sau: Coi tiếng từ (Nguyễn Thiện Giáp) Điều thuận tiện xử lý khơng với tiêu chí ngơn ngữ học đại cương (vì có nhiều tiếng khơng có nghĩa, như: phê “cà phê”, bù nhìn “bù nhìn”;…) Coi tiếng chưa từ (đa số nhà Việt ngữ học) Trong số này, lại chia thành nhóm sau: a “Xem tiếng hình vị”: quan niệm chấp nhận hiểu khái niệm “hình vị” hình vị tiếng Việt (gồm “tha hình vị” “á hình vị” phần đây) b “Xem tiếng lớn hình vị”: (chỉ có số người, như: Trần Ngọc Thêm, Lưu Văn Lăng) cho tiếng có hình vị (khn vần), như: “ch – v” có nghĩa “đơn độc, khơng chắn” “chon von”, “cheo veo”,… c “Xem tiếng nhỏ hình vị”: Đa số tiếng hình vị, ngoại trừ: “hấu” dưa hấu, “bù”, “nhìn” bù nhìn, tiếng khơng có nghĩa Xem tiếng Châu âu (tiếng Pháp, tiếng Anh,…) từ, tiếng Việt từ (bị ảnh hưởng tư tưởng “dĩ Âu vi trung”) Quan niệm chưa xét đến khác biệt từ vựng hố (lexicalization) hai ngơn ngữ (do khác biệt loại hình ngơn ngữ loại hình văn hố) SO SÁNH HÌNH VỊ TIẾNG ANH VỚI TIẾNG VIỆT Vì tiếng Anh (ngơn ngữ biến hình: inflection) tiếng Việt (ngơn ngữ đơn lập: isolation) thuộc hai loại hình (typology) ngơn ngữ khác nhau, nên phương thức ngữ pháp dùng để biểu thị ý nghĩa ngữ pháp ý nghĩa từ vựng hai ngơn ngữ khác Dưới ta phân tích khác biệt này: (chỉ gồm phụ tố mà chương trình xử lý tự động) 3.1 So sánh hậu tố biến cách (inflectional suffixes) Thay dùng phương thức phụ tố tiếng Anh, tiếng Việt lại sử dụng phương thức từ hư (function words) để thể ý nghĩa ngữ pháp Cụ thể bảng đây: Bảng 1: Hậu tố biến cách Ý nghĩa ngữ pháp Danh từ số nhiều tiếng Anh tiếng Việt Phụ tố Ví dụ Từ hư N + -s books, two students những, những/các sách hai sinh viên, He sleeps Φ Động từ ngơi số V + -s Ví dụ Anh ngủ Sở hữu cách X’s Y John’s book, teachers’ books Hiện phân từ V-ing sách John, sách giáo viên, sleeping đang ngủ Q khứ/q phân V-ed từ worked (đã) làm việc So sánh Adj-er shorter ngắn Adv-er slower Adj-est shortest Adv-est slowest So sánh 3.2 chậm ngắn chậm So sánh hậu tố dẫn xuất (derivational suffixes) Tương tự trên, thay dùng phương thức phụ tố tiếng Anh, tiếng Việt lại sử dụng phương thức từ thực (tha hình vị tựa phụ tố) để thể ý nghĩa từ vựng Ví dụ: read,v : đọc + -able (có thể ~ được) => đọc Bảng 2: Luật sinh số hậu tố dẫn xuất: Stt Hậu tố Từ loại gốc Từ loại Loại Nghĩa Việt able V A ~ readable al A,N A (thuộc về) ~ national ate N V làm cho ~ fascinate ed* V A-vpp 1/3 (đã / bị) ~ closed-door en N A làm ~ golden er* V N 1/3 người/máy ~ teacher, printer ing* V Ger 1/3 (đang) ~ running car ise/ize A,N V ~ hố normalise, computerize ity A N-abs ~ activity 10 less A, N A khơng có ~ careless 11 like N A giống ~ humanlike 12 ly A Adv (một cách) ~ strongly 13 ness A N-abs ~ brightness 14 tion V N-abs ~ solution Lưu ý: tiếng Ghi chú, Ví dụ • Các hậu tố đánh dấu * hậu tố bị trùng với hậu tố biến cách • Loại 1: loại nằm cuối từ, khơng thể thêm hậu tố • Loại 2: loại nằm cuối từ, thêm hậu tố biến cách • Loại 3: loại thêm hậu tố • Loại 4: loại gắn trực tiếp với thân từ mà thơi 3.3 So sánh tiền tố dẫn xuất (derivational prefixes) Ví dụ: president, : chủ tịch + vice- (phó ~ ) ( phó chủ tịch Bảng 3: Tiền tố dẫn xuất (POS từ loại thường kết hợp): Stt Tiền tố POS Nghĩa tiếng Việt Ghi chú, Ví dụ anti N chống ~, kháng ~ antivirus co N đồng ~, liên ~ co-author dis V khử ~ discharge in, il, im, ir (*) A khơng ~, bất ~, vơ ~ illegal, impatient, irregular re V ~ lại re-calculate un A,V khơng ~ unhappy (*): “in-” biến thể thành “il-” đứng trước “l”; thành “im-” đứng trước “b”, “m” hay “p” thành “ir-” đứng trước “r” (xin xem thêm [Đỗ Đình Lan, 1993]) 3.4 So sánh trật tự kết hợp hình vị Việc kết hợp hình vị từ tiếng Anh theo ngun tắc từ ngồi (xuất phát từ thân từ), từ trái sang phải hậu tố từ phải sang trái tiền tố Q trình kết hợp phải tn theo qui luật “phù hợp từ loại” (nghĩa phụ tố kết hợp với từ loại nào) Ví dụ: Xét từ “deinstitutionalization”, ta có qui cách kết hợp sau: de institu tion al ize ation Trong đó, tiếng Việt, việc kết hợp xuất phát từ thân từ, trật tự lại qui định riêng phụ tố trật tự thành tố (âm tiết) tuỳ thuộc vào loại từ “Hán-Việt” (ngược cú pháp tiếng Việt) hay “thuần Việt” (thuận cú pháp tiếng Việt) thêm số hư từ khác (đã/đang, được/bị, ) Các trật tự / hư từ ghi bảng so sánh (bảng 1,2,3) Ví dụ: “unprogram-able” => “khơng (có) thể lập trình được” QUAN NIỆM VỀ TỪ TRONG VIỆC XỬ LÝ SONG NGỮ ANH-VIỆT 4.1 Quan niệm “hình vị” tiếng Việt: Chúng tơi theo quan niệm “xem tiếng hình vị” Tuy nhiên, hình vị phải hiểu hình vị tiếng Việt, nghĩa bên cạnh hình vị ngơn ngữ học đại cương, ta phải có hình tố (là yếu tố t hình thức biểu kiểu quan hệ bên thành tố từ, ta gọi “tha hình vị” hay “á hình vị”) Như vậy, tiếng Việt ta có loại hình vị ([Hồng Văn Hành, 1998] trang 40-48) sau: • Hình vị gốc: ngun tố, đơn vị nhỏ nhất, có nghĩa, chúng hình vị thực (từ vựng) hay hình vị hư (ngữ pháp), chúng độc lập (tự do) hay hạn chế (ràng buộc) • Tha hình vị: vốn hình vị gốc, song mối tương quan với thành tố khác từ mà chúng biến đổi âm, nghĩa, …Tha hình vị bao gồm: Tha hình vị láy âm, như: chúm chím, đo đỏ, … ; phải chỉnh thể lé đé, đủng đỉnh coi hình vị ta khơng xác định nghĩa hình vị gốc Tha hình vị láy nghĩa: từ ghép hội nghĩa, như: giá cả, hỏi han, tuổi tác,…; nhà cửa, u thương, ngược xi,… Tha hình vị định tính: yếu tố phụ để miêu tả thuộc tính, như: xanh lè, tối om, cười khẩy,… Tha hình vị tựa phụ tố: đơn vị hoạt động giống phụ tố (affix) ngơn ngữ biến hình, như: giáo viên, đại hố, tân tổng thống,… • Á hình vị: chiết đoạn ngữ âm phân xuất cách tiêu cực, t dựa vào hình thức, khơng rõ nghĩa, song có giá trị khu biệt, làm chức cấu tạo từ Ví dụ như: dưa hấu, dưa gang, bí ử, đậu nành, cà niễng, bồ nơng, … 4.2 Quan niệm “từ” xử lý song ngữ Anh-Việt: Về bản, chúng tơi theo quan niệm giống ngơn ngữ học đại cương: nghĩa từ cấu tạo từ hình vị mà nêu phần Tuy nhiên, để thuận tiện tốn dóng hàng “từ” tiếng Anh tiếng Việt song ngữ Anh-Việt, chúng tơi tn theo ngun tắc sau: a Các hình vị dẫn xuất (derivation) tiếng Anh, dịch sang tiếng Việt thể tiếng tương ứng, chúng tơi xem tiếng tha hình vị tựa phụ tố định nghĩa phần 4.1 Ví dụ: caller (người gọi), vicepresident (phó tổng thống), normalize (bình thường hố), non-government (phi phủ), … b Các hình vị biến cách (inflection) tiếng Anh, dịch sang tiếng Việt thể tiếng tương ứng (phương thức từ hư), chúng tơi khơng xem tiếng hình vị thuộc từ, mà xem chúng từ riêng rẽ (từ hư) để thể ý nghĩa ngữ pháp từ Ví dụ: books (những sách)[số], working (đang làm việc) [thời], reached (đã đạt tới), won (đã thắng) [thì], …Tương tự cho phó động từ đích/hướng động từ, như: chạy ra/vào/lên/xuống; rơi xuống, rắc lên, tìm ra, nhận được, … khơng xem hình vị động từ c Đối với danh từ loại tiếng Việt, như: cái, con, cuốn, lá, tấm,… chúng tơi xem từ độc lập để đơn vị cho danh từ Ví dụ: book (cuốn sách), letter (lá thư / thư / cánh thư), house (ngơi nhà) (NTCẩn, tr.187-239) d Ta cần phân biệt danh từ loại với danh từ đơn vị quy ước dùng "cân, đong, đo, đếm" như: tờ (giấy), đàn (gà), tạ (thóc),… Đối với loại này, tiếng Anh dùng dạng danh ngữ “sheet of” (tờ, tấm), “piece of” (miếng, mẩu), “pack of” (gói) Trong trường hợp này, chúng tơi xem danh từ “sheet”, “piece”, “pack” tương đương danh từ đơn vị quy ước tiếng Việt, khơng tích hợp bên danh từ Ví dụ: sheet of paper (tờ giấy), piece of cake (miếng bánh), pack of cigarettes (gói thuốc lá), e Ngồi ra, từ chủng loại, như: cây, máy, hoa, cá, … xem hình vị loại tích hợp bên danh từ Ví dụ: tre, chuối, trái chuối, trái hồng; máy in, máy tính; hoa hồng, hoa lan; cá hồng, cá rơ; Chúng tơi xem từ ghép định danh bậc 1, từ ghép định danh bậc trở lên, thành tố hạn định khơng xem hình vị thuộc từ Ví dụ: máy_in tự_động (2 từ), máy_xay sinh_tố (2 từ), cây_tre nhọn (3 từ),… f Nếu khái niệm mà từ vựng hố tiếng Việt, tiếng Anh phải dùng cụm từ hay thành ngữ (idiom) liên kết với tiếng Việt, chúng tơi xem cụm từ / thành ngữ tiếng Anh “từ từ điển” Ví dụ: “to lead by the hand” (dìu), “black horse” (ngựa ơ); carry out (thực hiện), make up one’s mind (quyết định), pick … up (đón), … g Đối với số đơn vị tiếng Việt tranh cãi tư cách từ nó, chúng tơi dựa theo từ vựng hố tiếng Anh Chẳng hạn: nhà_tranh (line), xe_đạp (bicycle), máy_tính(computer), đường_thẳng (line), puppet (bù nhìn), watermelon (dưa hấu), hen (gà mái), waterpox (bệnh thuỷ đậu), to marriage (lấy vợ, lấy chồng)… từ; nhà gạch (brick house), khơng từ Một số ví dụ minh hoạ: (E1): display display (V1): hiển_thị hiển_thị carry-out thực_hiện call-up gọi điện_thoại (E2): reader (V2): độc_giả caller illegal illegal readable người gọi bất_hợp_pháp khơng hợp_pháp có_thể đọc (E3): John (V3): Cuốn-sách (E4) This book ‘s book makes-use-of Teachers ‘ John books Các cuốn-sách giáo_viên programmable multimedia technologies (V4) Cuốn-sách sử_dụng cơng_nghệ đa_phương_tiện có_thể lập_trình KẾT LUẬN Trong ngơn ngữ học, có hàng trăm định nghĩa từ đưa Các định nghĩa ấy, mặt hay mặt khác đúng, khơng đủ khơng bao gồm hết tất kiện coi từ ngơn ngữ ngơn ngữ Tuy nhiên, để thống việc lựa chọn đơn vị “từ” q trình xử lý ngữ liệu song ngữ Anh-Việt, chúng tơi tạm đưa tiêu chí lựa chọn Các tiêu chí chưa thoả đáng mặt ngơn ngữ học, yếu tố thuận lợi qn việc xử lý tự động ngữ liệu song ngữ Anh-Việt, nên tiêu chí chấp nhận Ngồi ra, tiêu chí bổ sung, điều chỉnh vài điểm nhỏ để phù hợp với tình hình thực tế Chúng tơi hy vọng tiêu chí làm tảng cho xử lý tiếng Việt tự động máy tính sau Lời cảm ơn: đề tài thực tài trợ kinh phí chương trình KC-01 Chúng tơi xin chân thành cảm ơn tổ chức tài trợ thực dự án Tài liệu tham khảo Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt NXB ĐHQG Hà Nội Đỗ Hữu Châu (1997), Các bình diện từ từ tiếng Việt NXB ĐHQG Hà Nội Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg 749-756 Dien Dinh (2005), "Building an Annotated English-Vietnamese parallel Corpus", MKS: A Journal of Southeast Asian Linguistics and Languages, Vol 35, pp 21-36 Đinh Điền (2002a), “Ứng dụng Ngữ liệu song ngữ Anh-Việt điện tử ngành ngơn ngữ học so sánh”, Tạp chí Ngơn ngữ, Viện Ngơn ngữ học, số 3-2002, tr 49-58 Đinh Điền (2002b), “Xây dựng khai thác kho ngữ liệu song ngữ Anh-Việt điện tử , luận văn tiến sĩ Ngơn ngữ học so sánh, trường ĐH Khoa học Xã hội & Nhân văn –ĐHQG TPHCM, tháng 2/2005 Nguyễn Thiện Giáp (1996), Từ Nhận diện từ tiếng Việt NXB GD, Hà Nội Hồng Văn Hành (chủ biên) – Hà Quang Năng – Nguyễn Văn Khang (1998), Từ tiếng Việt: hình thái – cấu trúc – từ láy – từ ghép – chuyển loại NXB KHXH Hà Nội Cao Xn Hạo (1998), Tiếng Việt: vấn đề ngữ âm – ngữ pháp – ngữ nghĩa NXB GD 10 Đỗ Đình Lan (1993), Lexicology (tập 2) Trường CĐSP-TPHCM 11 Viện ngơn ngữ học (2000), Loại từ ngơn ngữ Việt Nam, NXB KHXH, Hà Nội 12 McEnery T., Wilson A (1996), Corpus Linguistics, Edinburgh University Press 10 ... song ngữ tự động hố nhiều Trên giới, người ta xây dựng nhiều kho ngữ liệu song ngữ, như: Anh-Pháp, Anh-Hoa,… Trong báo này, chúng tơi sử dụng kho ngữ liệu song ngữ Anh-Việt điện tử triệu từ thu... thập từ tài liệu song ngữ thuộc lĩnh vực khoa học tự nhiên chủ yếu tin học, điện tử viễn thơng, y học, (Đinh Điền, 2002b) 1.2 Dóng hàng từ cho ngữ liệu song ngữ: Dóng hàng từ nhằm liên kết từ tiếng... đến ranh giới từ nên khơng đặt 1.3 Nhu cầu xác định ranh giới từ dóng hàng từ: Trong tốn dóng hàng từ nói trên, thiết phải xác định trước tiên đâu từ để từ tính đến chuyện dóng hàng từ (Dinh