Đối với các tiếng biến hình (như tiếng Anh, Pháp, Nga,..), việc xây dựng danh sách tất cả các từ trong ngôn ngữ có thể thực hiện được dễ dàng thông qua việc quét trên ngữ
liệu lớn (đúng chính tả), xem xem những từ nào không có từđiển sẽđược thêm vào từ điển. Tuy nhiên, đối với các thứ tiếng đơn lập như tiếng (Việt, Hoa, Thái, ..), chúng ta không thể làm theo cách thức trên được. Trong các thứ tiếng đơn lập này, để xác định
được từ mới chưa có trong từđiển, ta cần phải tách từ. Mà muốn tách từ, ta cần có từ điển chứa những từ cần tách. Đây là vấn đề “quả trứng – con gà”. Để giải quyết vấn đề
lưỡng nan này, gần đây đã có mô hình của J.S.Chang, Y.C.Lin và K.Y.Su [9] dùng để
tách từ cho ngữ liệu lớn dựa trên một ngữ liệu nhỏ cho tiếng Hoa để từđó xây dựng tự động từđiển tiếng Hoa. Từ ngữ liệu nhỏ (seed corpus) gồm 1.000 câu đã được tách từ,
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Viterbi để lặp đi lặp lại sự điều chỉnh các thông số tách từ cho đến khi các thông số
này hội tụ. Các tác giả cũng áp dụng thành công phương pháp này để gán nhãn từ loại cho tiếng Hoa với độ chính xác đến 73%.
Ngoài cách tiếp cận dựa trên ngữ liệu như trên, người ta còn khai thác các từđiển điện tử của người bằng cách: cấu trúc hoá (đánh dấu các truờng) cho từ điển của người rồi sau đó rút trích thông tin từ những trường có liên quan. Hiện nay, nguồn tài nguyên từ điển điện tử là khá phong phú, đây là một thuận lợi để chúng ta có thể xây dựng các MRD “máy đọc” khá hoàn chỉnh phục vụ các hệ thống NLP. Đây chính là lí do mà chúng tôi chọn phương pháp này cho đề tài.
2.1.5 Cấu trúc vĩ mô và vi mô của từđiển MRD:
Cấu trúc vĩ mô là cấu trúc bao gồm toàn thể các mục từ được sắp xếp trong từ điển theo một trật tự xác định (còn được gọi là cấu trúc tổng thể hay cấu trúc bảng từ).
Cấu trúc vi mô là cấu trúc bao gồm toàn bộ những thông tin được trình bày một cách có hệ thống trong mỗi mục từ (còn gọi là cấu trúc mục từ).
Để xây dựng cấu trúc vĩ mô cho từđiển MRD một cách tựđộng, chúng ta phải lần lượt giải quyết các vấn đề sau: tiêu chí lựa chọn mục từ, thứ tự sắp xếp các mục từ, yếu tố
liên thông với cơ sở dữ liệu từđiển quốc tế.
Vấn đề lựa chọn mục từ để đưa vào từ điển phụ thuộc vào tiêu chí lựa chọn mục từ, tiêu chí nhận diện từ, phân biệt từ với các đơn vị khác (thấp hoặc cao hơn từ). Đây là một vấn đề vô cùng khó khăn đối với các ngôn ngữđơn lập. Nếu trong các ngôn ngữ đơn lập (như Việt, Hoa,..), đơn vị được chọn để đưa vào mục từ này là tiếng (hay âm tiết) hay chữ (theo âm Hán-Việt là tự), hay còn gọi là từ chính tả, thì ta phải gọi đây là “tựđiển” để phân biệt với “từđiển”.
2.1.6 Một số từđiển MRD:
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
2.1.6.1.1 Cấu trúc vĩ mô từđiển tiếng Anh EDIC:
Cấu trúc vĩ mô ở đây chính là danh sách mục từ tiếng Anh trong EDic. Tiêu chí lựa chọn mục từ trong từ điển EDic bao gồm tất cả các từ (words), các ngữ (phrases) tương đương với một từ trong tiếng Việt. Ngoài ra, EDic còn chứa các từ ghép (compound), ngữ cố định (phrasal), thành ngữ (idiom), tục ngữ (proverb), từ viết tắt (abbreviations), tên riêng (proper names). Ví dụ: program; top-down; programming language (ngôn_ngữ lập_trình); make up one’s mind (quyết định); out of sight, out of mind (xa mặt, cách lòng); IPL; Von-Neumann;…
Về mặt hình thái học (morphology), trong cấu trúc vĩ mô của từ điển, tác giả chỉ đưa vào các từ nguyên gốc và các dẫn xuất (derivations) của từ, chứ không đưa vào các biến cách (inflections) của từ. Có nghĩa là trong từ điển sẽ chứa: program, programmer, coprogrammer, … nhưng không chứa programs, programming, programmed, …
Với từđiển tiếng Anh, mục từ chúng ta cần chọn một trong 3 cách thức sau:
1. Chỉ lưu từ gốc: tất cả các dạng biến cách hay dẫn xuất sẽđược phân tích hình thái để đưa về từ gốc. Cách làm này tiết kiệm bộ nhớ lưu trữ, nhưng không đảm bảo tính trung thực về mặt ngữ nghĩa của từ. Cách này thích hợp cho những bài toán đơn giản như: kiểm lỗi chính tả.
2. Lưu cả từ gốc, dẫn xuất và biến cách: cách này tốn bộ nhớ, bị trùng lắp thông tin, nhưng đảm bảo tìm kiếm nhanh, giải thuật xử lý đơn giản.
3. Lưu từ gốc và dẫn xuất: đây là giải pháp trung gian, vừa tiết kiệm bộ
nhớ, vừa không vi phạm ngữ nghĩa, chỉ cần phân tích hình thái biến cách
đơn giản.
2.1.6.1.2 Cấu trúc vi mô từđiển Anh EDIC: 2.1.6.1.2.1 Thông tin về hình thái:
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Bao gồm các thông tin về:
•Dạng của từ (word form), ví dụ: “program”, “book”,…
•Mã hình thái của từ (word morphology): từ nguyên gốc, dạng bất quy tắc, như có gấp đôi phụ âm hay không, hay kết hợp với phụ tố (affix) nào…
•Mã loại của từ (word type): từđơn, từ ghép; thành ngữ, viết tắt, …
Mã biến thể của từ (word variants): các biến thể khác của từ (nếu có): “programme”, “colour”, “centre”, ...
2.1.6.1.2.2 Thông tin về ngữ pháp:
Bao gồm các thông tin về:
• Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,…
• Tiểu từ loại (Subcategory): như danh từ thuộc loại con nào (danh từđếm
được, không đếm được,…), động từ loại con nào (tha động từ, tự động từ,…),…
• Mã biến cách (inflection): thì (tense):quá khứ/hiện tại/tương lai; thể
(voice): bị động/chủ động; giống (gender): đực/cái/trung; số (number): ít/nhiều,…
• Đặc tính cú pháp (syntactic features): từ này dùng trong cấu trúc nào, mẫu câu (verb pattern, noun pattern,…) nào.
• Ngữ đi kèm (collocation/phrase/idiom): từ này hay đi kèm với những từ
nào, dùng trong ngữ (thành ngữ, tục ngữ) nào.
Riêng trong việc gán nhãn từ pháp, cả 3 thông tin: từ loại, tiểu từ loại và mã biến cách nói trên sẽđược tích hợp vào chung nhãn từ pháp của PTB (Pann Tree Bank).
2.1.6.1.2.3 Thông tin về ngữ nghĩa:
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
•Nghĩa tiếng Việt (meaning) của từ. Trong phần này, các từ tiếng Việt đều
được phân định ranh giới từ. Ví dụ: từ “relationship” sẽ có phần nghĩa tiếng Việt là: “mối/N quan_hệ/N”; “high-speed printer”: “máy_in/N tốc_độ/N cao/J”;…
•Đặc điểm tiếng Việt: khi dịch ra tiếng Việt, cần hiệu chỉnh gì về nghĩa (thêm, bớt các tiểu từ, loại từ, định từ,…), về vị trí.
•Nhãn ngữ nghĩa của từ (semantic tag): từ thuộc ý niệm nào, như: HUM, ANM, PHO,… các ý niệm này chính là các nhãn ngữ nghĩa của từ.
•Vai trong ngữ pháp cách (case role): Agent (Human), Instrument (Object),…
•Thông tin về nhóm đồng nghĩa (synonym)/phản nghĩa (antonym).
2.1.6.1.2.4 Thông tin về ngữ dụng:
Bao gồm các thông tin về:
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực nào, ví dụ: Tin học, toán học, y học,...
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không. Tần suất xuất hiện của từđược đo bằng công thức M m f =−log10 với m là số lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, có nghĩa là từ này xuất hiện với tần số 1/1000.
• Mã về tình thái (modality): dùng trong cảnh huống nào (trọng, thân, tục,…).
2.1.6.1.3 Ví dụ một số mục từ trong từđiển tiếng Anh EDIC:
Đến nay, trong EDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết nhất. Dưới đây là ví dụ của một số mục từ (entry) của EDic:
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Word Lemma Mor POS grm SEM Meaning Fre Field
on-line On_line C J STA trực_tuyến/J 2.021 cpt Display Display W Vt Vcom hiển_thị/V 2.456 cpt Display Display W Ns ART màn/N
hiển_thị/V
2.126 cpt
Children Child W Ns Pl HUM trẻ_em/N 2.673 Bank Bank W Ns NAT bờ/N sông/N 2.842
Bảng 2.1. Một số mục từ của EDic
Việc tích hợp các thông tin nói trên vào trong từđiển được thực hiện một cách bán tự động bằng cách dùng mô hình thống kê của ngôn ngữ học – máy tính để thống kê tự động trên những nguồn ngữ liệu lớn như: từ điển Anh-Việt, Brown, SUSANNE, SEMCOR,… nhằm rút trích thông tin, sau đó các thông tin này sẽđược hiệu chỉnh bởi người trước khi tích hợp vào từđiển.
2.1.6.2 Từđiển tiếng Việt VDIC:
2.1.6.2.1 Cấu trúc vĩ mô từđiển tiếng Việt VDIC:
Về cấu trúc vĩ mô của từđiển tiếng Việt VDic, bên cạnh các tiêu chí về tính nhất quán, hướng đến văn phong Khoa học-Kỹ thuật, tác giả vẫn tuân theo các tiêu chí truyền thống về chọn mục từ trong từ điển tiếng Việt phổ thông do GS.Hoàng Phê chủ biên [10]. Từ điển điện tử tiếng Việt VDic này bao gồm khoảng 50.000 mục từ được lựa chọn theo các tiêu chí cụ thể như sau[11]:
1. Từđiển bao gồm các từ/ngữđược sử dụng phổ biến trong các sách, báo, tài liệu khoa học, kỹ thuật, nhất là trong tin học, không chứa các từ cổ. Từđiển cũng chứa các ngữ cốđịnh, từ láy (nhưng không chứa dạng láy).
2. Những danh từ chỉ loại (classifier, loại từ) sẽ không được tích hợp vào trong mục từ. Ví dụ: trong từ điển sẽ chỉ có mục từ “thư”, “sách”, “bò”,… chứ
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
không có chứa bức thư/lá thư/cánh thư, quyển sách/cuốn sách, con bò,…Đối với các mục từ này, thông tin về các loại từ có thể có của nó được ghi thêm vào trong cấu trúc vi mô của nó. Xin xem danh sách loại từở phụ lục 9.1.2.
3. Những danh từ chỉ loài (categories) hay chủng loại (subcategories) sẽ được tích hợp vào trong mục từ của từ điển. Ví dụ: “máy” – máy tính, máy in, máy quét, máy vẽ, máy phát, máy đọc mã vạch, máy quay dĩa,…; “bộ” – bộđếm, bộ xử lý, bộđiều giải, bộ thu, bộ phát, … Riêng đối với những danh từ chỉ loài có tính tổng quát và tính phổ biến cao mà trong thực tế có thể vắng mặt khi sử dụng, tác giả sẽ ghi chú đặc điểm này vào trong cấu trúc vi mô của nó. Ví dụ: “bệnh” trong bệnh lao, bệnh ho gà, bệnh uốn ván,… sẽ có đặc điểm này. Để xác định
được đầy đủ và chính xác các danh từ chỉ loài và danh từ chỉ chủng loại, tác giả
phải dựa trên cây phân loài có tính tổng quát của mạng WordNet [12].
4. Chứa những mục từ được sản sinh theo phương thức tựa phụ tố, như: - hoá, -viên, -học, bất-, liên-, phó - , siêu-,… trong điện toán hoá, lập trình viên, vật lý học, phó giám đốc, siêu sao,… được hình thành từ việc đối chiếu các phụ tố
dẫn xuất trong tiếng Anh tương ứng với hình vị tựa phụ tố có gốc Hán-Việt trong tiếng Việt. Ví dụ: các phụ tố trên sẽ tương ứng với các phụ tố –ize, -or/-ian/-er/- ist/…, -logy, in-, inter-, vice-, super-/hyper-/meta-,… trong tiếng Anh. Danh sách các phụ tố dẫn xuất trong phụ lục 9.1.1.
5. Chỉ riêng với các đơn vị còn gây tranh cãi về tư cách từ, tác giả mới sử
dụng thêm thông tin từ vựng hoá của từ tiếng Anh tương ứng để chọn. Ví dụ:
đường thẳng (line), nhà tranh (cottage) là từ, còn nhà gạch (brick house) không là từ. Còn các trường hợp khác (như: “ox” - “bò đực”), tác giả phải áp dụng các tiêu chí ngôn ngữ học, chứ không thể xem tương đương.
6. Các mục từ trong từđiển được xếp tựđộng theo: mẫu tự tiếng Việt, dấu thanh, và sau cùng mới xét đến mẫu tự kế (thứ tự mẫu tự và dấu thanh như cũ).
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Ví dụ: “…ba bai bang bao bay bà bài bàn bành bào bày bả bải bản bảng…” (đây là cách sắp xếp mà các từđiển điện tử hay sử dụng).
7. Để xác định tần suất sử dụng của từ, tác giả đã xây dựng từ điển tần số
tiếng Việt tự động bằng cách thống kê bằng máy tính trên một ngữ liệu (corpus) tiếng Việt 30 triệu từ thuộc nhiều chủng loại văn bản khác nhau. Tác giả dựa vào tần suất này để chọn lựa những mục từ thông dụng nhất, tránh những từ ít dùng.
8. Để giải quyết vấn đề thiếu từ thông dụng: đối với tiếng Anh, người ta dễ
dàng nhận diện được từ thiếu bằng chương trình kiểm lỗi chính tả (spelling- checker). Tuy nhiên đối với tiếng Việt thì đây là một bài toán khó và tác giảđã giải quyết được phần lớn các trường hợp thiếu này thông qua các mô hình xử lý tách từ và liên kết từ Anh-Việt.
2.1.6.2.2 Cấu trúc vi mô từđiển tiếng Việt VDIC:
Cấu trúc vi mô của VDic hoàn toàn khác với cấu trúc vi mô của từ điển tiếng Việt truyền thống (vì từ điển truyền thống là dùng cho người, còn VDic là từ điển điện tử
dùng cho máy). Cấu trúc vi mô (microstruture) của từ điển MRD tiếng Việt bao gồm những thông tin có cấu trúc chứa trong mỗi mục từ nhằm điều khiển việc xử lý ngôn ngữ tựđộng của máy. Về chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính tả như trong từ điển Hoàng Phê. Về mã tiếng Việt, tác giả sử dụng mã Unicode. Tuy nhiên, tác giả vẫn đáp ứng việc tìm kiếm từ điển với các biến thể chính tả khác bằng cách mã hoá dấu thanh khi lưu trữ và có bộ so sánh mờ (fuzzy) khi tìm kiếm.
2.1.6.2.2.1 Thông tin về hình thái:
Dạng của từ (word form), ví dụ: “sách”, “thắng_lợi”, “chị”,…
• Mã loại của từ (word type): từđơn, từ ghép (đẳng lập, chính phụ); từ láy, thành ngữ, tục ngữ, từ viết tắt, từ gốc Hán, …
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Mã đặc tính hình thái: như thường kết hợp được với các yếu tố nào: từ chỉ loại, chỉ
hướng,…Ví dụ: “sách” sẽđi với danh từ chỉ loại “quyển”, “cuốn”.
2.1.6.2.2.2 Thông tin về ngữ pháp:
Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,…
• Tiểu từ loại (Subcategory): như tiểu loại danh từ nào (danh từđếm được, không đếm được,…), tiểu loại động từ nào (ngoại động từ, nội động từ,…),…
• Đặc tính cú pháp (syntactic feature): về thì (tense): quá khứ, hiện tại, tương lai; thể (voice): bịđộng, chủđộng; giống (gender); số (number),…
• Đặc tính cấu trúc (structure/pattern): dùng trong cấu trúc/mẫu câu nào.
Ngữđi kèm (collocation/phrase): động từ “nhắm” thường đi với “mắt”.
2.1.6.2.2.3 Thông tin về ngữ nghĩa:
Nghĩa (meaning) của từ bằng tiếng Anh có kèm theo từ loại. Ví dụ: “book/NN”, “win/VB”, “elder/JJ sister/NN”,… Chúng ta sử dụng trường này để liên kết với từ
tiếng Anh tương ứng trong các ngữ liệu có sẵn.
• Mã ngữ nghĩa của từ (semantic code): như HUM, ANM, PHO,… các nhãn ngữ nghĩa này cũng chính là các nhãn ngữ nghĩa dùng trong từ điển EDic.
2.1.6.2.2.4 Thông tin về ngữ dụng:
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực nào, ví dụ: Tin học, toán học, y học,...
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không.
Tần suất xuất hiện của từđược đo bằng công thức N m f =−log10
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, có nghĩa là từ này xuất hiện với tần số 1/1000.
Mã về tình thái (modality): từ này dùng trong cảnh huống nào: trịnh trọng, thân mật, thông tục,….
2.1.6.2.3 Ví dụ một số mục từ trong từđiển VDIC:
Đến nay, trong VDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết nhất. Dưới đây là ví dụ của một số mục từ (entry) của VDic:
Từ Hình thái từ loại ngữ pháp ngữ nghĩa nghĩa t.Anh tần số lĩnh vực
Máy_tính C Ns Cnt ART computer/N 2.221 cpt Hiển_thị C Vt Vcom Display/V 1.956 cpt
Đường W Ns Cnt LIN line/N 2.087
Đường W Nm uncnt CHM sugar/N 1.987
Bảng 2.2. Một số mục từ của VDic
2.2 Các phương pháp tách từ: 2.2.1 Mô hình WFST:
2.2.1.1 Giới thiệu:
Mô hình WFST của Richard W. Sproat tỏ ra khá hiệu quả (chính xác trên 95%) khi áp dụng cho tiếng Hoa. Mô hình này cho ra kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo. Vì vậy, khi hệ cho ra nhiều ứng viên có độ tin cậy xấp xỉ như nhau, thì việc