Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Nội dung
Tách từ tiếng Việt Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn Tách từ • Mục đích: xác định ranh giới từ câu • Là bước xử lý quan trọng hệ thống XLNNTN, đặc biệt ngơn ngữ đơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, tiếng Việt • Với ngơn ngữ đơn lập, từ có nhiều âm tiết ➢ Vấn đề toán tách từ khử nhập nhằng ranh giới từ Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: • 81.55% âm tiết từ : từ đơn • 15.69% từ từ điển từ đơn • 70.72% từ ghép có âm tiết • 13.59% từ ghép ≥ âm tiết • 1.04% từ ghép ≥ âm tiết Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ Độ dài # từ 6,303 28,416 % 15.69 70.72 Tổng 2,259 2,784 419 40,181 5.62 6.93 1.04 100 Bảng Độ dài từ tính theo âm tiết Qui tắc cấu tạo từ tiếng Việt • Từ đơn: dùng âm tiết làm từ •Ví dụ: tơi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, • Từ ghép: tổ hợp (ghép) âm tiết lại, âm tiết có quan hệ nghĩa với • Từ ghép đẳng lập thành tố cấu tạo có quan hệ bình đẳng với nghĩa • Ví dụ: chợ búa, bếp núc • Từ ghép phụ thành tố cấu tạo phụ thuộc vào thành tố cấu tạo Thành tố phụ có vai trị phân loại, chun biệt hố sắc thái hố cho thành tố • Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, đơ, thằng tắp, sưng vù Qui tắc cấu tạo từ tiếng Việt • Từ láy: yếu tố cấu tạo có thành phần ngữ âm lặp lại; vừa lặp vừa biến đổi Một từ lặp lại cho ta từ láy • Biến thể từ: coi dạng lâm thời biến động dạng "lời nói" từ • Rút gọn từ dài thành từ ngắn ki-lơ-gam → ki lơ/ kí lơ • Lâm thời phá vỡ cấu trúc từ, phân bố lại yếu tố tạo từ với yếu tố khác ngồi từ chen vào Ví dụ: khổ sở → lo khổ lo sở ngặt nghẽo → cười ngặt cười nghẽo danh lợi + ham chuộng → ham danh chuộng lợi Qui tắc cấu tạo từ tiếng Việt ▪ Các diễn tả gồm nhiều từ (vd, “bởi vì”) coi từ ▪ Tên riêng: tên người vị trí coi đơn vị từ vựng ▪ Các mẫu thường xuyên: số, thời gian Các hướng tiếp cận • Tiếp cận dựa từ điển • Tiếp cận dựa học máy • Kết hợp hai phương pháp Tách từ dựa từ điển • Thuật tốn so khớp từ dài • Yêu cầu: – Từ điển – Chuỗi đầu vào tách dấu câu âm tiết • Tư tưởng: thuật toán tham lam – Ði từ trái sang phải từ phải sang trái, lấy từ dài có thể, dừng lại duyệt hết – Độ phức tạp tính tốn: O(n V) • n: Số âm tiết chuỗi • V: Số từ từ điển Tách từ dựa từ điển • Thuật toán so khớp từ dài 1 Có thể chạy online https://aivietnam.ai/ 10 Cách tách từ đơn giản • Phát mẫu thơng thường tên riêng, chữ viết tắt, số, ngày tháng, địa email, URL,… sử dụng biểu thức qui • Chọn chuỗi âm tiết dài từ vị trí có từ điển, chọn cách tách có từ ➢ Hạn chế: đưa cách phân tích khơng ➢ Giải quyết: liệt kê tất, có chiến lược để chọn cách tách tốt 16 Tách từ sử dụng biểu thức qui • khuôn mẫu so sánh với chuỗi • Các ký tự đặc biệt: – * - chuỗi ký tự nào, kể khơng có – x – ký tự – + - chuỗi ngoặc xuất lần • Ví dụ: – Email: x@x(.x)+ – dir *.txt – ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John” • Biểu thức quy sử dụng đặc biệt nhiều trong: * Phân tích cú pháp * Xác nhận tính hợp lệ liệu * Xử lý chuỗi * Trích rút thơng tin 17 Lựa chọn cách tách từ • Biểu diễn đoạn chuỗi âm tiết s1 s2 … sn • Trường hợp nhập nhằng thường xuyên từ liền s1s2s3 s1s2 s2s3 từ • • • BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0, v1, , vn, vn+1} Nếu âm tiết si+1, si+2, , sj tạo thành từ -> G có cạnh (vi,vj) Các cách tách từ = đường ngắn từ v0 đến vn+1 18 Thuật toán Thuật toán Xây dựng đồ thị cho chuỗi s1s2 sn 1: V ← ∅; 2: for i = to n + 3: V ← V {vi}; 4: end for 5: for i = to n 6: for j = i to n 7: if (accept(AW, si · · · sj)) then 8: E ← E {(vi, vj+1)}; 9: end if 10: end for 11: end for 12: return G = (V,E); accept(A, s): automat A nhận xâu vào s 19 Phân giải nhập nhằng • Xác suất xâu s: • P(wi|w1i-1): xác suất wi có i-1 từ trước • n = 2: bigram; n = 3: trigram 20 Phân giải nhập nhằng • Khi n = 2, tính giá trị P(wi|wi-1) lớn maximum likelihood (ML) • c(s): số lần xâu s xuất hiện; N: tổng số từ tập luyện • Khi liệu luyện nhỏ kích cỡ toàn tập liệu → P ~ ➢ Sử dụng kỹ thuật làm trơn 21 Kỹ thuật làm trơn với 1 + 2 = 1, 2 ≥ PML(wi) = c(wi)/N Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) tập thử: 22 Xác định giá trị 1, 2 Từ tập liệu mẫu, định nghĩa C(wi-1,wi) số lần (wi-1, wi) xuất tập mẫu Ta cần chọn 1 2 để làm cực đại giá trị với 1 + 2 = 1, 2 ≥ Thuật toán 24 Cách tiếp cận lai • Kết hợp phân tích automat hữu hạn + biểu thức quy + so khớp từ dài + thống kê (để giải nhập nhằng) 25 Kết • Sử dụng tập liệu gồm 1264 báo Tuổi trẻ, có 507,358 từ • Lấy = 0.03, giá trị hội tụ sau vịng lặp • Độ xác = số từ hệ thống xác định đúng/tổng số từ hệ thống xác định = 95% 26 Một số công cụ tách từ • JvnSegmenter (Nguyễn Cẩm Tú) : CRF http://jvnsegmenter.sourceforge.net • VnTokenizer (Lê Hồng Phương) http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer • Dongdu (Lưu Anh Tuấn): SVM http://viet.jnlp.org/dongdu • Pyvi (Trần Việt Trung) : https://github.com/trungtv/pyvi • Từ điển từ: • http://tratu.coviet.vn/tu-dien-lac-viet.aspx • http://tratu.soha.vn/ • https://www.informatik.uni-leipzig.de/~duc/Dict/ Bài tập: cài đặt chạy chương trình tách từ Pyvi 27 28