Dữ liệu trong từ điển được thu thập sao cho có mức độ đồng đều về nhiều thể loại để có thể bao quát nhiều lĩnh vực nhằm phục vụ tốt cho việc tách từ dựa theo từ điển. Đây là một điều cực kì khó khăn bởi từ trước đến nay chưa có một từ điển nào như vậy và cũng chưa ai làm được điều này. Trong phạm vi khảo sát, tôi sưu tập mục từ làm từ điển dựa trên các ngữ liệu trên Internet, vì đây là nguồn thông tin phong phú nhất cho nhiều lĩnh vực chuyên môn, hi vọng có thể đáp ứng được phần lớn các thể loại văn bản.
4.3.2 Các giả thiết
Qua khảo sát thấy rằng sự nhập nhằng về ranh giới từ chủ yếu xảy ra giữa từ ghép có hai tiếng với một từ đơn. Ví dụ trong các câu sau:
Tốc độ truyền thông tin số sẽ tăng cao ( truyền thông_tin hay truyền_thông tin) (1)
Cúm gia cầm đã xuất hiện tại một số tỉnh thành (xuất_hiện tại hay xuất hiện_tại) (2) Nếu áp dụng các giải pháp của MMM đều không giải quyết được nhập nhằng
này. Trong một chuỗi có 3 tiếng "C1 C2 C3", để quyết định lựa chọn đâu là từ cần phải xử lí nhập nhằng giữa : "C1 C2C3" và "C1C2 C3".
Để giải quyết vấn đề này cần có một yếu tố mới làm tiêu chí nhằm phân định rõ ràng để lựa chọn hoặc C1 hoặc C1C2. Một từ càng có nhiều tiếng (âm tiết) thì càng có khả năng được lựa chọn (theo mô hình so khớp tối đa), tức nó bền vững hơn trong việc phân tách từ. Nói cách khác là cường độ liên kết của một từ tỉ lệ thuận với số tiếng trong từ. Yếu tố mới ở đây chính là cường độ liên kết từ. Trong một chuỗi âm tiết cho trước: a-b-c-d-e-f ... thì a có vẻ là từ hơn khi tìm được bc là từ. Điều này càng chắc chắn hơn nếu tìm được bcd hay bcde là từ, vì rằng cường độ liên kết trong các từ bc, bcd hay bcde càng mạnh hơn, nó có vẻ rất mạnh để cô lập
a ra khỏi chuỗi âm tiết kể trên, tiến tới việc tách a là một từ có vẻ hợp lí hơn. Việc xét ab có phải là từ không cũng tương tự như ở trên.
Giả thiết ở đây là : từ càng có nhiều âm tiết càng có cường độ liên kết mạnh. Tức là:
L(ab)<L(abc)<L(abcd)...
Trong đó L cường độ liên kết của từ, với ab, abc,..là các từ thực sự.
Như đã đề cập ở trên, sự nhập nhằng về ranh giới từ chủ yếu xảy ra ở từ đơn 1 tiếng với từ ghép có 2 tiếng. Do vậy để giảm bớt việc tính toán cường độ liên kết trong một từ, ta cũng chỉ tính toán cường độ liên kết cho từ ghép có 2 tiếng. Một khó khăn là chưa có cơ sở khoa học nào để đưa ra cách tính toán giá trị cường độ liên kết giữa hai tiếng trong một từ ghép. Phương pháp thống kê có thể đưa ra một vài số liệu nhưng không đáng tin cậy.
Ta nhận thấy rằng có những từ rất bền vững trong mọi hoàn cảnh như ngốc ngếch, ngô nghê,.. nhưng cũng có từ dễ dàng bị phân tách trong các trường hợp khác nhau , ví dụ: nhà ăn -> nhà ăn ca; làm nông ->làm nông nghiệp. Đóchính là do cường độ liên kết trong từ mạnh hay yếu.
Giả thiết ở đây là : trong từ ghép có hai tiếng, tồn tại các cường độ liên kết có độ mạnh yếu khác nhau.
Qua quá trình khảo nghiệm, ở đây tôi xin đưa ra một phân loại mang tính chủ quan về việc xác định cường độ liên kết giữa hai tiếng trong một từ ghép. Phân loại bao gồm 4 loại theo cường độ liên kết giảm dần như sau:
+ Loại 1: Bền vững.
Đặc điểm của loại này là rất bền vững, không thể bị chia tách thành 2 từ đơn riêng biệt trong mọi hoàn cảnh của chuỗi từ đã cho, Các từ trong phân loại này là các từ láy: sặc sỡ, xum xuê... Tiếng Việt có lớp từ láy rất phong phú, hiện chưa có thuật toán nào có thể nhận dạng hoàn toàn các từ láy. Ta có thể sử dụng một số qui tắc hài thanh láy vần để nhận dạng một phần lớp từ này [4]:
-Láy toàn bộ từ : hao hao, lăm lăm, đùng đùng,...
-Láy toàn bộ nhưng đối nhau ở thanh điệu: đo đỏ, hơ hớ, sừng sững, ra rả...
-Láy toàn bộ đối nhau ở âm cuối theo qui luật dị hoá m-p; ng-c; n-t; nh-ch :
ăm ắp, chiêm chiếp, cầm cập, chan chát, khang khác, chênh chếch,...
-Láy phần vần chỉ có phụ âm đầu thay đổi: lèo tèo, lẩm bẩm, càu nhàu, hấp tấp...
-Láy bộ phận, chỉ có âm chính thay đổi: chúm chím, hổn hển,...
Phần còn lại của lớp từ này được nhận dạng một cách thủ công trong từ điển đã xây dựng.
+ Loại 2: Khá bền
Phân loại này có mức độ bền vững chỉ kém sau loại 1, nó chỉ có thể bị chia tách nếu đứng cạnh từ ghép loại 1. Trong phân loại này bao gồm các từ sau :
-Từ ghép mà trong đó có một tiếng bị phai nghĩa hoặc không có nghĩa mà không thể đứng một mình như một từ đơn được: của nả, dưa hấu, cửa rả, tre pheo, áo xống ...
-Các từ có nguồn gốc Ấn-Âu: xi phông, cờ lê, xà phòng...
-Các từ có cả hai tiếng đều có nguồn gốc Hán : triều đại, quốc gia, quốc tế, đại ca, lưu trữ, lưu thông...
-Một số từ thuần Việt bền vững khác: mặc kệ, mặc dầu,..
+ Loại 3: Hơi bền
Đặc điểm của loại này là khi đứng đầu trong chuỗi có 3 âm tiết C1C2C3 nó có thể bị tách ra hoặc không, ví dụ: thành công của- thành công chuyện; có thể hiện- có thể khí ,...Nghĩa là tính bền vững của nó kém hơn loại trên. Trong một số trường hợp nó vẫn có thể tồn tại ở đầu chuỗi 3 âm tiết.
+ Loại 4: Kém bền
Theo phân loại trên thì loại này là kém bền vững nhất. Trong một chuỗi từ ghép, nó luôn bị tách ra bởi các từ bền vững hơn. Ngay cả khi có sự nhập nhằng giữa hai từ ghép cùng loại này thì xu hướng tách từ luôn bị lệch sang bên phải. Ví dụ: giá bán lẻ-biểu giá bán, kẻ vạch mặt- vạch mặt cắt,...
Việc phân loại có thể được thực hiện theo thuật toán sau:
Nhập vào một từ ghép 2 tiếng C1C2
Tìm tất cả các từ ghép 2 tiếng bắt đầu là C2 ghép thành C1C2C3
Nếu có một từ ghép C2C3 hợp lí mà C1 vẫn có thể đứng tự do được thì là loại 4.
Ví dụ: tính cách -> tính cách mạng -> loại 4
Nếu là loại 4 mà tìm được một trường hợp C1C2 tồn tại hợp lí thì là loại 3
Ví dụ: có thể -> có thể hiện -> loại 4 có thể-> có thể khí-> loại 3
Ngược lại C1C2 thuộc loại 2
Dựa trên sự phân loại về cường độ liên kết trên, ở đây có thể đưa ra qui tắc nhằm giải quyết nhập nhằng về ranh giới từ trong một chuỗi 3 âm tiết C1 C2 C3 như sau:
-Xác định loại liên kết của C1C2 và C2C3 lần lượt là L(C1C2) và L(C2C3) - Lựa chọn luôn ưu tiên cho loại có liên kết bền vững hơn.
- Nếu cả hai liên kết là cùng loại thì ưu tiên bên trái. Riêng nếu liên kết loại 4 thì ưu tiên bên phải.
Như trong ví dụ (1) và (2), sự nhập nhằng được giải quyết như sau: L(truyền thông)=3
L(thông tin) =1
o chọn truyền là từ đơn L(xuất hiện)=1
o chọn xuất hiện là từ
4.3.3 Giải pháp tách từ
Khái niệm "không phải là từ" được hiểu là khi so khớp không có trong từ điển. Khi một tiếng đơn "không phải là từ" thì nó có thể là: biểu thức số, ngày tháng, chữ viết tắt, địa chỉ e-mail, địa chỉ Internet , một từ nước ngoài hoặc một từ mới trong tiếng Việt.
4.3.3.1 Các qui tắc heuristic
Qui tắc tách cho một chuỗi các tiếng đầu vào được tiến hành từ trái qua phải, thực hiện lần lướt các qui tắc sau:
Qui tắc 1: So khớp tối đa
Thực hiện so khớp tối đa cho các chuỗi có 9 tiếng trở xuống (theo thống kê từ có số tiếng lớn nhất là 9) cho đến khi còn chuỗi có 3 tiếng không phải là từ.
Nếu không có một từ nào thoả thì sang quy tắc 2
Sau khi áp dụng qui tắc này còn tồn tại lại các trường hợp sau C1 C2 C3
C1 C2C3 C1C2 C3
Qui tắc 2: Chọn C1 là từ, khi
-Nếu C1 không là từ và C1C2 cũng không là từ thì chọn C1 (xử lí từ đơn) Đây là trường hợp C1 có thể là các biểu thức số, từ viết tắt, từ nước ngoài...Ví dụ: "802.2g là chuẩn." thì 802.2g và 802.2g là đều không phải là từ. Chọn 802.2g
là từ để xử lí bước tiếp theo.
-Nếu C1 là từ và C1C2 không là từ, ví dụ: của anh ta
-Nếu C1 là từ, C1C2 là từ, C2C3 là từ và C3 không là từ, ví dụ: lập kế hoạch
Qui tắc 3: Chọn C1C2 là từ, khi
-Nếu C1 không là từ và C1C2 là từ thì chọn C1C2 là từ.
Rõ ràng nếu chọn C1 thì không hợp lí vì C1 không phải là từ đơn, không cần xét đến C2C3 có phải là từ hay không. Trong trường hợp này không thể để C1 là từ đơn được. Ví dụ trong chuỗi "thậm chí cả", "hi vọng là" thì "thậm","hi" không phải là một từ đơn, "thậm chí","hi vọng" là một từ ghép.
-Nếu C1 là từ, C1C2 là từ và C2C3 không là từ thì chọn C1C2 là từ: ưu tiên chọn từ có độ dài lớn hơn, ví dụ công nghệ mạng, hệ thống mã...
Nếu không chọn được từ nào thì sang quy tắc 3. Sau khi áp dụng qui tắc 2, các trường hợp còn lại là: C1; C1C2; C2C3 có thể là từ.
Qui tắc 4: xử lí nhập nhằng 1
-So khớp các từ có thể bắt đầu là C2C3C4 cho đến hết câu. Nếu có một từ như thế thì chọn C1 là một từ.
Lí do cho quy tắc này là các từ ghép càng có nhiều từ đơn ghép lại thì có cường độ liên kết mạnh hơn, nó sẽ cô lập C1 là từ đơn. Nếu C2C3C4 là từ thì có vẻ hợp lí hơn khi chọn C1 là từ thay cho chọn C1C2.
Nếu không chọn được từ nào thì sang quy tắc 5.
Qui tắc 5: xử lí nhập nhằng 2
- So khớp các từ có thể bắt đầu là C3C4 cho đến hết câu. Nếu có một từ như thế thì chọn C1C2 là từ. Tuy nhiên nếu cường độ liên kết của C3C4 thuộc loại 3 hay 4 lựa chọn này có vẻ không tin cậy lắm vì tính kém bền vững của C3C4, do vậy thì hãy chuyển sang qui tắc 6.
Lí do cho quy tắc này là các từ ghép càng có nhiều từ đơn ghép lại thì có cường độ liên kết mạnh hơn, nó sẽ cô lập C1C2 là từ được chọn. Qui tắc này phải đặt sau qui tắc 4 vì ta bắt đầu so khớp với chuỗi có 2 tiếng.
Nếu không chọn được từ nào thì sang quy tắc 6.
Qui tắc 6: Xử lí nhập nhằng chính
Xác định loại liên kết của các từ L(C1C2) và L(C2C3), lựa chọn từ theo qui tắc ưu tiên như đã đề cập ở trên:
Nếu L(C1C2)<L(C2C3) hoặc L(C1C2)=4 thì từ được chọn là luôn là C1 , ngược lại chọn C1C2 là từ.
Lặp lại các quy tắc cho phần còn lại của chuỗi các tiếng cho đến hết chiều dài của chuỗi.
4.3.3.2 Thuật toán dùng cho tách từ
INPUT: S_in chuỗi đầu vào chưa được tách từ OUTPUT: S_out chuỗi ra đã được tách từ
Hình 4.2. Thuật toán tách từ QT1 QT1 QT3 S_in= S_in=S_sin \ Word S_out=S_out+Word S_out Word=từ dài nhất C1 C2 C3 QT2 Word=C1 Word=C1C2 QT4 Word=C1 QT5 Word=C1C2 QT6 Word=C1C2 Word=C1 S_in Begin End + + + + + + - - - - - - + -
4.4 Xử lí tên riêng
Xử lí tên riêng cũng là một vấn đề khó khăn trong việc tách từ. Vấn đề chữ hoa/chữ thường gây nhiều khó khăn cho việc tách từ. Các quy tắc về viết chữ hoa cũng khá phức tạp. Đôi khi các chữ được viết hoa hoàn toàn để nhấn mạnh, để làm tiêu đề. Điểm khá thuận lợi so với một số ngôn ngữ châu Á khác là các danh từ riêng trong tiếng Việt thường được viết hoa đầu từ. Tuy vậy cần phải xử lí một số nhập nhằng trong việc phân biệt danh từ riêng với danh từ thường như sau :
- Các văn bản tiếng Việt chưa hoàn toàn thống nhất về quy tắc viết hoa. Thậm chí là viết hoa tuỳ tiện.
-Các từ đầu câu cũng được viết hoa.
4.4.1 Tên ngƣời, tên địa lí:
Đặc điểm lớp từ này là tất cả các tiếng trong từ đều được viết hoa (theo qui tắc viết hoa đã nói trong chương 2). Mọi tiếng phát âm được trong tiếng Việt đều có thể dùng để đặt tên riêng, do đó tập các tên như vậy có thể rất lớn và có những tên không mang nghĩa theo từ từ điển, ví dụ:
+ Tên riêng: Khúc Thừa Dụ, Đội Cấn, Lạc Long Quân, Khổng Tử,...
+ Tên địa lí: Hòn Ráy, Hòn Đất, Hòn Ráy, Côn Đảo, Hà Lan, Vũng Tàu, vịnh Hạ Long,...
+ Tên năm âm lịch: Kỉ Mão, Mậu Dần...
Lớp từ này khi ở trong câu thì nhận ra không khó, chỉ đơn giản là chuỗi các âm tiết có viết hoa đứng liền nhau. Điểm quan trọng là phải xử lí nhập nhằng khi nó xuất hiện ở đầu câu. Ví dụ:
Ông Trương Tam đứng ra biện hộ cho công ti Công Lí. Vịnh Hạ Long là một thắng cảnh đẹp
Rõ ràng Trương Tam và Hạ Long là tách từ đúng, còn Ông Trương Tam và
Vịnh Hạ Long là có sự nhập nhằng với chữ viết hoa đầu câu. Vấn đề này có thể được giải quyết bằng cách xây dựng một tập các từ (có một âm tiết) làm ngữ định danh với danh từ riêng, bao gồm:
Danh từ chung chỉ người: ông, bà, bố, anh, chị...
Các từ chỉ quan hệ không gian: ở, tại, từ, hiện, về...
Riêng với tên địa lí có một âm tiết khi kết hợp danh từ chung chỉ địa điểm thường được viết chữ hoa đầu từ cho cả hai âm tiết: Đảo Rều, Vũng Tàu, Lạch Trường, Cửa Lò...
4.4.2. Tên tổ chức:
Các tiếng trong tên chỉ được viết hoa tiếng đầu từ, những tiếng mang tính chất khu biệt tên tổ chức và tên riêng nếu có. Cấu trúc của lớp này bao gồm:
<Danh từ chung chỉ tên tổ chức> : bắt buộc phải có, ví dụ Bộ, Vụ, Trường, Công ty, Nhà máy,..
Thành tố này có thể được nhận ra bằng cách xây dựng một tập các danh từ chung chỉ tên tổ chức. Qui tắc nhận dạng như sau:
Tiếng có viết hoa chữ đầu ? Đúng
Phải chăng có một từ trong từ điển bắt đầu là chữ đó ? Đúng Là từ chỉ tên tổ chức
< Từ/cụm từ chỉ chức năng hoặc nét đặc trưng của tổ chức>: bắt buộc phải
có, ví dụ: (Bộ) Chính trị, (Bộ) Giáo dục và Đào tạo, (Vụ) Tổ chức, (Trường)
Đại học Công nghệ, (Công ti) Xăng dầu...
Thành tố này được nhận ra sau từ chỉ tên tổ chức và bắt đầu với chữ viết hoa và là một từ có nghĩa tìm được.
[Danh từ chỉ tên riêng]: có thể khuyết, không bắt buộc phải có, ví dụ: (Trường Đại học Dân lập) Hải Phòng, (Đại học) Phương Đông, (Quĩ Nhi đồng) Liên Hiệp Quốc, (Công ti TNHH) Ngân Hà...
Qui tắc nhận ra thành tố này như trong xử lí tên riêng chỉ người và địa lí.
4.4.3 Các tên riêng khác
Tên gọi các huân chương, huy chương, danh hiệu vinh dự,... viết như sau:
huân chương Độc lập, Sao vàng, Cờ đỏ, Lênin, Hồ Chí Minh; huân chương Quân công, Chiến công, Kháng chiến, Chiến sĩ vẻ vang; Kỉ niệm chương; Tổ quốc ghi công; Bảng vàng danh dự; giải thưởng Nhà nước; danh hiệu Nghệ sĩ nhân dân, Nhà giáo nhân dân, Thầy thuốc nhân dân, Anh hùng lao động...
Những tên này thường là các danh từ chung và được nhận dạng ra trong quá