Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
802,46 KB
Nội dung
Tách từ tiếng Việt Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn Tách từ • Mục đích: xác định ranh giới từ câu • Là bước xử lý quan trọng hệ thống XLNNTN, đặc biệt ngơn ngữ đơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, tiếng Việt • Với ngơn ngữ đơn lập, từ có nhiều âm tiết Vấn đề toán tách từ khử nhập nhằng ranh giới từ Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: • 81.55% âm tiết từ : từ đơn • 15.69% từ từ điển từ đơn • 70.72% từ ghép có âm tiết • 13.59% từ ghép ≥ âm tiết • 1.04% từ ghép ≥ âm tiết Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ Độ dài # từ 6,303 28,416 % 15.69 70.72 2,259 2,784 5.62 6.93 Tổng 419 40,181 1.04 100 Bảng Độ dài từ tính theo âm tiết Qui tắc cấu tạo từ tiếng Việt • Từ đơn: dùng âm tiết làm từ •Ví dụ: tơi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, • Từ ghép: tổ hợp (ghép) âm tiết lại, âm tiết có quan hệ nghĩa với • Từ ghép đẳng lập thành tố cấu tạo có quan hệ bình đẳng với nghĩa • Ví dụ: chợ búa, bếp núc • Từ ghép phụ thành tố cấu tạo phụ thuộc vào thành tố cấu tạo Thành tố phụ có vai trị phân loại, chun biệt hố sắc thái hố cho thành tố • Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, đơ, thằng tắp, sưng vù Qui tắc cấu tạo từ tiếng Việt Các diễn tả gồm nhiều từ (vd, “bởi vì”) coi từ Tên riêng: tên người vị trí coi đơn vị từ vựng Các mẫu thường xuyên: số, thời gian Các hướng tiếp cận • Tiếp cận dựa từ điển • Tiếp cận dựa học máy • Kết hợp hai phương pháp Tách từ dựa từ điển • Thuật tốn so khớp từ dài • Yêu cầu: – Từ điển – Chuỗi đầu vào tách dấu câu âm tiết • Tư tưởng: thuật tốn tham lam – Ði từ trái sang phải từ phải sang trái, lấy từ dài có thể, dừng lại duyệt hết – Độ phức tạp tính tốn: O(n V) • n: Số âm tiết chuỗi • V: Số từ từ điển Tách từ dựa từ điển • Thuật tốn so khớp từ dài Thuật tốn so khớp từ dài • Ưu điểm: – Cài đặt đơn giản – Độ phức tạp tính tốn hợp lý – Khơng u cầu liệu huấn luyện • Nhược điểm: – Phụ thuộc vào từ điển – Chưa giải vấn đề nhập nhằng 1 10 Cách tách từ đơn giản • Phát mẫu thông thường tên riêng, chữ viết tắt, số, ngày tháng, địa email, URL,… sử dụng biểu thức qui • Chọn chuỗi âm tiết dài từ vị trí có từ điển, chọn cách tách có từ Hạn chế: đưa cách phân tích khơng Giải quyết: liệt kê tất, có chiến lược để chọn cách tách tốt 15 Tách từ sử dụng biểu thức qui • khn mẫu so sánh với chuỗi • Các ký tự đặc biệt: – * - chuỗi ký tự nào, kể khơng có – x – ký tự – + - chuỗi ngoặc xuất lần • Ví dụ: – Email: x@x(.x)+ – dir *.txt – „*John‟ -> „John‟, „Ajohn‟, “Decker John” • Biểu thức quy sử dụng đặc biệt nhiều trong: * Phân tích cú pháp * Xác nhận tính hợp lệ liệu * Xử lý chuỗi * Trích rút thơng tin 16 Lựa chọn cách tách từ • Biểu diễn đoạn chuỗi âm tiết s1 s2 … sn • Trường hợp nhập nhằng thường xuyên từ liền s1s2s3 s1s2 s2s3 từ • • • BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0, v1, , vn, vn+1} Nếu âm tiết si+1, si+2, , sj tạo thành từ -> G có cạnh (vi,vj) Các cách tách từ = đường ngắn từ v0 đến vn+1 17 Thuật toán Thuật toán Xây dựng đồ thị cho chuỗi s1s2 sn 1: V ← ∅; 2: for i = to n + 3: V ← V {vi}; 4: end for 5: for i = to n 6: for j = i to n 7: if (accept(AW, si · · · sj)) then 8: E ← E {(vi, vj+1)}; 9: end if 10: end for 11: end for 12: return G = (V,E); accept(A, s): automat A nhận xâu vào s 18 Phân giải nhập nhằng • Xác suất xâu s: • P(wi|w1i-1): xác suất wi có i-1 từ trước • n = 2: bigram; n = 3: trigram 19 Phân giải nhập nhằng • Khi n = 2, tính giá trị P(wi|wi-1) lớn maximum likelihood (ML) • c(s): số lần xâu s xuất hiện; N: tổng số từ tập luyện • Khi liệu luyện nhỏ kích cỡ tồn tập liệu P ~ Sử dụng kỹ thuật làm trơn 20 ... lập, từ có nhiều âm tiết Vấn đề toán tách từ khử nhập nhằng ranh giới từ Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: • 81.55% âm tiết từ : từ. .. 15.69% từ từ điển từ đơn • 70.72% từ ghép có âm tiết • 13.59% từ ghép ≥ âm tiết • 1.04% từ ghép ≥ âm tiết Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ. .. Kết hợp hai phương pháp Tách từ dựa từ điển • Thuật tốn so khớp từ dài • Yêu cầu: – Từ điển – Chuỗi đầu vào tách dấu câu âm tiết • Tư tưởng: thuật tốn tham lam – Ði từ trái sang phải từ phải sang