1. Trang chủ
  2. » Giáo Dục - Đào Tạo

2 tách từ thiếng việt, lê thanh hương

5 96 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Tách từ Tách từ tiếng Việt z z Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn z ¾ Mục đích: xác định ranh giới từ câu Là bước xử lý quan trọng hệ thống XLNNTN, đặc biệt ngôn ngữ đơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, tiếng Việt Với ngôn ngữ đơn lập, từ ể có nhiều âm tiết Vấn đề toán tách từ khử nhập nhằng ranh giới từ Từ vựng z z Từ vựng tiếng Việt ngôn ngữ không biến hình Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: z z z z z 81.55% 81 55% â âm tiết từ : từ đơn đ 15.69% từ từ điển từ đơn 70.72% từ ghép có âm tiết 13.59% từ ghép ≥ âm tiết 1.04% từ ghép ≥ âm tiết Độ dài # % 6,303 15.69 28,416 70.72 2,259 259 2,784 62 5.62 6.93 419 1.04 Tổng 40,181 100 Bảng Độ dài từ tính theo âm tiết Qui tắc cấu tạo từ tiếng Việt z z Qui tắc cấu tạo từ tiếng Việt Từ đơn: dùng âm tiết làm từ z z Ví dụ: tôi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, Từ ghép: tổ hợp (ghép) âm tiết lại, âm tiết có quan hệ nghĩa với z z z Từ ghép đẳng ẳ lập thành tố ố cấu ấ tạo có ó quan hệ ệ bình ì đẳng ẳ với nghĩa z Ví dụ: chợ búa, bếp núc Từ ghép phụ thành tố cấu tạo phụ thuộc vào thành tố cấu tạo Thành tố phụ có vai trò phân loại, chuyên biệt hoá sắc thái hoá cho thành tố z Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, đơ, thằng tắp, sưng vù Từ láy: yếu tố cấu tạo có thành phần ngữ âm lặp lại; vừa lặp vừa biến đổi Một từ lặp lại cho ta từ láy Biến thể từ: coi dạng lâm thời biến động dạng "lời lời nói" nói từ z z Rút gọn từ dài thành từ ngắn z ki-lô-gam → ki lô/ kí lô Lâm thời phá vỡ cấu trúc từ, phân bố lại yếu tố tạo từ với yếu tố khác từ chen vào Ví dụ: z khổ sở → lo khổ lo sở z ngặt nghẽo → cười ngặt cười nghẽo z danh lợi + ham chuộng → ham danh chuộng lợi Các hướng tiếp cận Qui tắc cấu tạo từ tiếng Việt z z z Các diễn tả gồm nhiều từ (vd, “bởi vì”) coi từ Tên riêng: tên người vị trí coi đơn vị từ vựng Các mẫu ẫ thường xuyên: số, ố thời gian z z z Tiếp cận dựa từ điển Tiếp cận theo phương pháp thống kê Kết hợp hai phương pháp Các phương pháp z z z z z z z Tiếp cận dựa từ điển So khớp từ dài (Longest Matching) Học dựa cải biến (Transformation-based Learning – TBL) Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST) Độ hỗn loạn cực đại (Maximum Entropy – ME) Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models- HMM) Học máy sử dụng vectơ hỗ trợ (Support Vector Machines) Kết hợp số phương pháp z Xây dựng từ điển z Mỗi mục từ lưu thông tin từ, từ loại, nghĩa loại z Tổ chức cho tốn nhớ thuận tiện việc tìm kiếm z Mã hóa từ điển: Từ loại nghĩa loại kiểu byte lưu dạng ký tự z VD: danh từ -112 – p, - 115 – s Tiếp cận dựa từ điển z Tìm từ từ điển Phân trang theo hai chữ đầu từ, tăng Với trang, từ lại theo vần ABC Paragraph bà z z n ba   .  .  .  .   10 xe Content ¾ bao bà ngoại tập n xe cộ xe đạp 11 Độ dài tối đa từ? 3? 4? 5? Vấn đề: không xử lý tổ hợp từ cố định, vd "ông chẳng bà chuộc“ Đ tất Đưa ả từ ghép có ó ttrong từ điể điển trùng với phần đầu xâu vào 12 Tìm từ từ điển Phân giải nhập nhằng Nếu nhà máy nghỉ ta Vị trí từ: z Ta có bảng sau: z Lấy tất cách phân tích, phân tích cú pháp cho cách phân tích z z z Ký hiệu: z - LT z - ĐgT - DT - ĐaT 13 Cách tiếp cận lai 14 Biểu thức qui 2008.> z Kết hợp phân tích automat hữu hạn + biểu thức quy + so khớp từ dài + thống kê (để giải nhập nhằng) z khuôn mẫu so sánh với chuỗi z Các ký tự đặc biệt: z * - chuỗi ký tự nào, kể z x – ký tự z + - chuỗi ngoặc xuất lần Ví dụ: d z Email: x@x(.x)+ z dir *.txt z ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John” z z Biểu thức quy sử dụng đặc biệt nhiều trong: * Phân tích cú pháp * Xác nhận tính hợp lệ liệu * Xử lý chuỗi * Tách liệu tạo báo cáo 15 Giới thiệu phi hình thức automat hữu hạn Automat hữu hạn z Lớp ngôn ngữ qui, đoán nhận máy ảo, gọi tên automat hữu hạn z z z 16 z Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA Automat hữu hạn không đơn định (Nondeterministic Finite Automat a– a NFA) Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng (ε-NFA) 17 z z Một toán automat nhận diện chuỗi w có thuộc ngôn ngữ L hay không Chuỗi nhập xử lý ký hiệu từ trái sang phải phải Trong trình thực thi, automat cần phải nhớ thông tin qua xử lý 18 Automat hữu hạn cho từ tiếng Anh Ví dụ automat hữu hạn L = {w ∈ {0, 1}* | w kết thúc chuỗi 10} 19 Cách tách từ đơn giản 20 Lựa chọn cách tách từ z Phát mẫu thông thường tên riêng, chữ viết tắt, số, ngày tháng, địa email, URL,… sử dụng biểu thức qui z Hệ ệ thống g chọn ọ chuỗi âm tiết dài từ vịị trí ệ có từ điển, chọn cách tách có từ ¾ Hạn chế: đưa cách phân tích không ¾ Giải quyết: liệt kê tất, có chiến lược để chọn cách tách tốt z z z z z Biểu diễn đoạn chuỗi âm tiết s1 s2 … sn Trường hợp nhập nhằng thường xuyên từ liền s1s2s3 s1s2 s2s3 từ BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0, v1, , vn, vn+1} Nếu âm tiết si+1, si+2, , sj tạo thành từ -> G có cạnh (vi,vj) Các cách tách từ = đường ngắn từ v0 đến vn+1 21 Thuật toán 22 Phân giải nhập nhằng Thuật toán Xây dựng đồ thị cho chuỗi s1s2 sn 1: V ← ‫;׎‬ 2: for i = to n + 3: V ← V ‫{ ׫‬vi}; 4: end for 5: for i = to n 6: for j = i to n 7: if (accept(AW, si · · · sj)) then 8: E ← E ‫({ ׫‬vi, vj+1)}; 9: end if 10: end for 11: end for 12: return G = (V,E); accept(A, s): automat A nhận xâu vào s z Xác suất xâu s: z P(wi|w1i-1): xác suất wi có i-1 âm tiết trước n = 2: bigram; n = 3: trigram z 23 24 Kỹ thuật làm trơn Phân giải nhập nhằng z Khi n = 2, tính giá trị P(wi|wi-1) lớn maximum likelihood (ML) z c(s): số lần xâu s xuất hiện; N: tổng số từ tập luyện Khi liệu luyện nhỏ kích cỡ toàn tập liệu Æ P~0 Sử dụng kỹ thuật làm trơn z z với λ1 + λ2 = λ1, λ2 ≥ PML(wi) = c(wi)/N z Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) tập thử: thử z Entropy văn bản: z với NT: số từ T Entropy tỉ lệ nghịch với xác suất trung bình cách tách từ cho câu văn thử nghiệm 25 Xác định giá trị λ1, λ2 z 26 Thuật toán Từ tập liệu mẫu, định nghĩa C(wi-1,wi) số lần (wi-1, wi) xuất tập mẫu Ta cần chọn λ1 λ2 để làm cực đại giá trị với λ1 + λ2 = λ1, λ2 ≥ 28 Kết z z z Sử dụng tập liệu gồm 1264 báo Tuổi trẻ, có 507,358 từ Lấy ε = 0.03, giá trị λ hội tụ sau vòng lặp Độ xác = số từ hệ thống xác định đúng/tổng số từ hệ thống xác định = 95% 29 ... hóa từ điển: Từ loại nghĩa loại kiểu byte lưu dạng ký tự z VD: danh từ -1 12 – p, - 115 – s Tiếp cận dựa từ điển z Tìm từ từ điển Phân trang theo hai chữ đầu từ, tăng Với trang, từ lại... Vector Machines) Kết hợp số phương pháp z Xây dựng từ điển z Mỗi mục từ lưu thông tin từ, từ loại, nghĩa loại z Tổ chức... xuyên từ liền s1s2s3 s1s2 s2s3 từ BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0, v1, , vn, vn+1} Nếu âm tiết si+1, si +2, , sj tạo thành từ -> G có cạnh (vi,vj) Các cách tách từ

Ngày đăng: 09/11/2015, 20:25

TỪ KHÓA LIÊN QUAN

w