[r]
(1)Tách từ tiếng Việt Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn
1
Tách từ
z Mục đích: xác định ranh giới từ câu z Là bước xử lý quan trọng hệ thống XLNNTN,
đặc biệt ngơn ngữđơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, tiếng Việt
ể
z Với ngôn ngữđơn lập, từ có nhiều âm tiết
¾ Vấn đề tốn tách từ khửđược nhập nhằng ranh giới từ
2
Từ vựng
z tiếng Việt ngôn ngữ không biến hình z Từđiển từ tiếng Việt (Vietlex): >40.000 từ,
trong đó:
81 55% â tiết từ từ đ z 81.55% âm tiết từ : từ đơn z 15.69% từ từ điển từ đơn z 70.72% từ ghép có âm tiết z 13.59% từ ghép ≥ âm tiết z 1.04% từ ghép ≥4 âm tiết
3
Từ vựng
Độdài # %
1 6,303 15.69
2 28,416 70.72
3 259 62
3 2,259 5.62
4 2,784 6.93
5 419 1.04
Tổng 40,181 100
4 Bảng Độ dài từ tính theo âm tiết
Qui tắc cấu tạo từ tiếng Việt z Từđơn: dùng âm tiếtlàm từ
z Ví dụ: tơi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, nhé z Từ ghép: tổ hợp(ghép) âm tiết lại, âm tiết
đó có quan hệ nghĩa với
ẳ ố ấ ó ệ ì ẳ
z Từ ghép đẳng lập thành tố cấu tạo có quan hệ bình đẳng với nghĩa
zVí dụ: chợ búa, bếp núc
z Từ ghép phụ thành tố cấu tạo phụ thuộc vào thành tố cấu tạo Thành tố phụ có vai trị phân loại, chun biệt hố sắc thái hố cho thành tố
zVí dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, đơ, thằng
tắp, sưng vù
5
Qui tắc cấu tạo từ tiếng Việt z Từ láy: yếu tố cấu tạo có thành phần ngữ âm lặp
lại; vừa lặp vừa biến đổi Một từđược lặp lại cho ta từ láy
z Biến thể từ: coi dạng lâm thời biến độnghoặc
dạng "lời nói"của từ
dạng lời nói từ
z Rút gọn từ dài thành từ ngắn z ki-lô-gam → ki lơ/ kí lơ
z Lâm thời phá vỡ cấu trúc từ, phân bố lại yếu tố tạo từ với yếu tố khác ngồi từ chen vào Ví dụ:
z khổ sở→ lo khổ lo sở
z ngặt nghẽo → cười ngặt cười nghẽo z danh lợi + ham chuộng → ham danh chuộng lợi
(2)Qui tắc cấu tạo từ tiếng Việt z Các diễn tả gồm nhiều từ (vd, “bởi vì”) coi
1 từ
z Tên riêng: tên người vị trí coi đơn vị từ vựng
ẫ ố
z Các mẫu thường xuyên: số, thời gian
7
Các hướng tiếp cận
z Tiếp cận dựa từđiển
z Tiếp cận theo phương pháp thống kê z Kết hợp hai phương pháp trên.
8
Các phương pháp z So khớp từ dài (Longest Matching) z Học dựa cải biến (Transformation-based
Learning – TBL)
z Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST)
z Độ hỗn loạn cực đại (Maximum Entropy – ME) z Học máy sử dụng mơ hình Markov ẩn (Hidden Markov
Models- HMM)
z Học máy sử dụng vectơ hỗ trợ (Support Vector Machines)
z Kết hợp số phương pháp
9
Tiếp cận dựa từđiển
<Lê Thanh Hương, Phân tích cú pháp tiếng Việt, Luận văn cao học, 1999>
z Xây dựng từđiển
z Mỗi mục từ lưu thông tin từ, từ loại, nghĩa loại z Tổ chức cho tốn nhớ thuận tiện việc
tìm kiếm
z Mã hóa từđiển: Từ loại nghĩa loại kiểu byte lưu dạng ký tự
z VD: danh từ -112 – p, <loại từ> - 115 – s
10
Tiếp cận dựa từđiển
z Phân trang theo hai chữ đầu từ, tăng Với trang, từ lại theo vần ABC
ba bà . . . . . . xe Content
Paragraph
1 n
11
bao
bà ngoại tập
xe cộ xe đạp Content
1
n
Tìm từ từđiển
z Độ dài tối đa của từ? 3? 4? 5?
z Vấn đề: không xử lý được tổ hợp từ cố
định, vd "ông chẳng bà chuộc“
Đ tất ả á từ hé ó t từ điể
¾Đưa tất cả từ ghép có từđiển
trùng với phần đầu của xâu vào
(3)Tìm từ từđiển
Nếu nhà máy nghỉ ta
Vị trí từ: z Ta có bảng sau:
z z
z Ký hiệu:
z <liên từ> - LT <danh từ> - DT z <động từ> -ĐgT <đại từ> -ĐaT
13
Phân giải nhập nhằng
z Lấy tất cả cách phân tích, nếu phân tích
cú pháp cho đúng đó cách phân tích đúng.
14
Cách tiếp cận lai
<Phuong Le-Hong et al., A hybrid approach to word segmentation of Vietnamese texts, Proceedings of the 2nd International Conference on Language and Automat Theory and Applications, LATA 2008, Tarragona, Spain, 2008 >
2008.>
z Kết hợp phân tích automat hữu hạn + biểu thức quy + so khớp từ dài + thống kê (để giải nhập nhằng)
15
Biểu thức qui
z khuôn mẫu so sánh với chuỗi z Các ký tựđặc biệt:
z * - chuỗi ký tự nào, kể z x – ký tự
z + - chuỗi ngoặc xuất lần Ví d
z Ví dụ:
z Email: x@x(.x)+ z dir *.txt
z ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John”
z Biểu thức quy sử dụng đặc biệt nhiều trong:
* Phân tích cú pháp
* Xác nhận tính hợp lệ liệu * Xử lý chuỗi
* Tách liệu tạo báo cáo
16
Automat hữu hạn
z Lớp ngơn ngữ qui, đoán nhận máy ảo, gọi tên automat hữu hạn
z Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA z Automat hữu hạn không đơn định (Nondeterministic Finite
Automat a– NFA) Automat a NFA)
z Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng (ε-NFA)
17
Giới thiệu phi hình thức về
automat hữu hạn
z Một toán automat nhận diện
chuỗi w có thuộc về ngơn ngữL hay khơng.
z Chuỗi nhập được xử lý tuần tự từng ký hiệu
một từtrái sang phải một từ trái sang phải.
z Trong trình thực thi, automat cần phải
nhớ thông tin đã qua xử lý
(4)Ví dụ về automat hữu hạn L = {w ∈{0, 1}* | w kết thúc chuỗi 10}
19
Automat hữu hạn cho từ
tiếng Anh
20
Cách tách từđơn giản
z Phát mẫu thông thường tên riêng, chữ viết tắt, số, ngày tháng, địa email, URL,… sử dụng biểu thức qui
z Hệệ thống chg ọọn chuỗi âm tiết dài từ vịị trí hiệện tạại có từđiển, chọn cách tách có từ
¾ Hạn chế: có thểđưa cách phân tích khơng ¾ Giải quyết: liệt kê tất, có chiến lược để chọn cách tách
tốt
21
Lựa chọn cách tách từ
z Biểu diễn đoạn chuỗi âm tiết s1 s2… sn
z Trường hợp nhập nhằng thường xuyên từ liền s1s2s3 s1s2và s2s3đều từ
z BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0,
v1, , vn, vn+1}
z Nếu âm tiết si+1, si+2, , sjtạo thành từ -> G có cạnh (vi,vj)
z Các cách tách từ = đường ngắn từ v0đến vn+1
22
Thuật toán
Thuật toán Xây dựng đồ thị cho chuỗi s1s2 sn
1: V ←;
2: for i = to n + do 3: V ← V {vi}; 4: end for 5:fori= 0tondo 5: for i = to n do 6: for j = i to n do
7: if (accept(AW, si· · · sj)) then 8: E ← E {(vi, vj+1)}; 9: end if
10: end for 11: end for 12: return G = (V,E);
23
accept(A, s): automat A nhận xâu vào s
Phân giải nhập nhằng
z Xác suất xâu s:
z P(wi|w1i-1): xác suất wikhi có i-1 âm tiết trước
đó
z n = 2: bigram; n = 3: trigram
(5)Phân giải nhập nhằng
z Khi n = 2, tính giá trị P(wi|wi-1) lớn maximum
likelihood (ML)
z c(s): số lần xâu s xuất hiện; N: tổng số từ tập luyện z Khi liệu luyện nhỏ kích cỡ tồn tập liệu Ỉ
P ~
z Sử dụng kỹ thuật làm trơn
25
Kỹ thuật làm trơn
với λ1+ λ2= λ1, λ2≥
PML(wi) = c(wi)/N
z Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) tập
thử
thử:
z Entropy văn bản:
với NT: số từ T
z Entropy tỉ lệ nghịch với xác suất trung bình cách tách từ cho câu văn thử nghiệm
26
Xác định giá trị λ1, λ2
z Từ tập liệu mẫu, định nghĩa C(wi-1,wi) số lần (wi-1,
wi) xuất tập mẫu Ta cần chọn λ1 λ2để làm
cực đại giá trị
với λ1+ λ2= λ1, λ2≥
Thuật toán
28
Kết quả
z Sử dụng tập liệu gồm 1264 báo Tuổi trẻ, có 507,358 từ z Lấy ε= 0.03, giá trịλhội tụ sau vịng lặp
z Độ xác = số từ hệ thống xác định đúng/tổng số từ hệ thống
xác định = 95%