4. Bố cục của luận văn
3.1 Tổng quan về MMSeg
MMSeg là một hệ thống phân đoạn từ tiếng Hoa được đề xuất bởi Chih-Hao Tsai[6].Đây là hệ thốngphân đoạn từtiếng Hoa sửdụng hai dạng của thuật toán so khớp Maximum Matching kết hợp với từ điển và bốn luậtgiúp phân giải nhập nhằng. Theo kết quả tác giả đã công bố, khi thực nghiệm trên kho ngữ liệu chứa 1.013 từ, hệ thống cho kết quả rất khả quan (98.41%). Cụ thể bốn luật phân giải nhập nhằng được mô tả như sau:
Luật số1 : Maximum matching - so khớp tối đa:
o Áp dụng thuật toán Maximum matching dạng đơn giản: lấy từ có chiều dài lớn nhất.
o Áp dụng thuật toán Maximum matching dạng phức tạp: lấy từ đầu tiên từ bộ 3 từ có chiều dài lớn nhất. Nếu có nhiều hơn một bộ 3 từ có chiều dài lớn nhất thì áp dụng luật tiếp theo.
Luật số2 :Độdài trung bình của từlớn nhất:
o Lấy từ đầu tiên của bộ3 từ có độdài trung bình từlớn nhất.
o Nếu cóhơn1 bộ3 từ có độ dài trung bình từlớn nhất thì áp dụng các quy tắc tiếp theo.
Ví dụ:
o Trường hợp 1 (TH1): _C1_C2_C3_
o Trường hợp 2 (TH2): _C1C2C3_ Theo luật số2, ta lấy từC1C2C3ởTH2.
Luật số3 :độbiến đổi nhỏnhất của chiều dài từ:
o Chọn từ đầu tiên trong bộ 3 từ cóđộ biến đổi nhỏ nhất của chiều dài từ.
o Nếu có nhiều hơnmộtbộ3 từcóđộ biến đổi nhỏnhất của chiều dài từ thì áp dụng các quy tắc tiếp theo.
Ví dụ:
o TH1: _C1C2_C3C4_C5C6_
o TH2: _C1C2C3_C4_C5C6_ Theo luật số3, ta lấy C1C2 trong TH1.
Luật số4 : tổng lớn nhất của độtựdo hình vịcủa các từ đơn:
o Công thức được sử dụng để tính toán tổng độ tự do hình vị là tổng logarit tần sốcác từ đơn trong bộ.
o Luật số 4 cho phép lấy từ đầu tiên của bộ có tổng logarit tần số lớn nhất.
o Hiếm khi có trường hợp có 2 từ đơn có cùng độ tựdo hình vịnên theo tác giả đến đâynhập nhằng xem như được giải quyết.
Ví dụ:
o TH1: _C1_C2_C3C4_
o TH2: _C1_C2C3_C4_
3.2 Áp dụng MMSeg vào tiếng Việt
Trong phần này chúng tôi áp dụng MMSeg trên ngôn ngữtiếng Việtđể đánh giá mức độ hiệu quảcủa hệ thống đối với tiếng Việt.Thực nghiệm được tiến hành trên kho ngữ liệu gồm 10.000 câu trích từ VietTreebank[22]. Ngữ liệu được sắp xếp ngẫu nhiêu sau đó chia thành 5 phần cho 5 lần thực nghiệm.
Để đánh giá, chúng tôi sử dụng các tham sốPrecision(1), Recall(2) và F-measure (3)được tính theo các công thức sau:
= (1)
= (2)
Với:
StandardWords: sốtừchuẩn theo ngữliệu.
CorrectWords: sốtừ phân đoạn đúng so với sốtừchuẩn
FoundWords: sốtừdo hệthống tìmđược. Sau đâylà kết quả thu được:
Bảng 3.1 Bảng liệt kê kết quảthực nghiệm MMSeg trên ngữliệu tiếng Việt
Lần thực nghiệm Số từ chuẩn Số từ tìmđược Số từ
đúng Precision(%) Recall(%) F-measure(%)
MMS MMS MMS MMS MMS Lần 1 44,030 43,030 38,538 89.56 87.53 88.53 Lần 2 38,724 38,004 33,440 87.99 86.35 87.16 Lần 3 35,570 34,823 30,479 87.53 85.69 86.6 Lần 4 32,668 32,035 29,210 91.18 89.41 90.29 Lần 5 31,581 30,925 27,744 89.71 87.85 88.77 Trung bình 36,515 35,763 32,282 89.19 87.37 88.27