1. Trang chủ
  2. » Thể loại khác

TÁCH TỪ TIẾNG VIỆT Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN

28 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Tách từ tiếng Việt Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn Tách từ • Mục đích: xác định ranh giới từ câu • Là bước xử lý quan trọng hệ thống XLNNTN, đặc biệt ngơn ngữ đơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, tiếng Việt • Với ngơn ngữ đơn lập, từ có nhiều âm tiết ➢ Vấn đề toán tách từ khử nhập nhằng ranh giới từ Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: • 81.55% âm tiết từ : từ đơn • 15.69% từ từ điển từ đơn • 70.72% từ ghép có âm tiết • 13.59% từ ghép ≥ âm tiết • 1.04% từ ghép ≥ âm tiết Từ vựng • Tiếng Việt ngơn ngữ khơng biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ Độ dài # từ 6,303 28,416 % 15.69 70.72 Tổng 2,259 2,784 419 40,181 5.62 6.93 1.04 100 Bảng Độ dài từ tính theo âm tiết Qui tắc cấu tạo từ tiếng Việt • Từ đơn: dùng âm tiết làm từ •Ví dụ: tơi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, • Từ ghép: tổ hợp (ghép) âm tiết lại, âm tiết có quan hệ nghĩa với • Từ ghép đẳng lập thành tố cấu tạo có quan hệ bình đẳng với nghĩa • Ví dụ: chợ búa, bếp núc • Từ ghép phụ thành tố cấu tạo phụ thuộc vào thành tố cấu tạo Thành tố phụ có vai trị phân loại, chun biệt hố sắc thái hố cho thành tố • Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, đơ, thằng tắp, sưng vù Qui tắc cấu tạo từ tiếng Việt • Từ láy: yếu tố cấu tạo có thành phần ngữ âm lặp lại; vừa lặp vừa biến đổi Một từ lặp lại cho ta từ láy • Biến thể từ: coi dạng lâm thời biến động dạng "lời nói" từ • Rút gọn từ dài thành từ ngắn ki-lơ-gam → ki lơ/ kí lơ • Lâm thời phá vỡ cấu trúc từ, phân bố lại yếu tố tạo từ với yếu tố khác ngồi từ chen vào Ví dụ: khổ sở → lo khổ lo sở ngặt nghẽo → cười ngặt cười nghẽo danh lợi + ham chuộng → ham danh chuộng lợi Qui tắc cấu tạo từ tiếng Việt ▪ Các diễn tả gồm nhiều từ (vd, “bởi vì”) coi từ ▪ Tên riêng: tên người vị trí coi đơn vị từ vựng ▪ Các mẫu thường xuyên: số, thời gian Các hướng tiếp cận • Tiếp cận dựa từ điển • Tiếp cận dựa học máy • Kết hợp hai phương pháp Tách từ dựa từ điển • Thuật tốn so khớp từ dài • Yêu cầu: – Từ điển – Chuỗi đầu vào tách dấu câu âm tiết • Tư tưởng: thuật toán tham lam – Ði từ trái sang phải từ phải sang trái, lấy từ dài có thể, dừng lại duyệt hết – Độ phức tạp tính tốn: O(n V) • n: Số âm tiết chuỗi • V: Số từ từ điển Tách từ dựa từ điển • Thuật toán so khớp từ dài 1 Có thể chạy online https://aivietnam.ai/ 10 Cách tách từ đơn giản • Phát mẫu thơng thường tên riêng, chữ viết tắt, số, ngày tháng, địa email, URL,… sử dụng biểu thức qui • Chọn chuỗi âm tiết dài từ vị trí có từ điển, chọn cách tách có từ ➢ Hạn chế: đưa cách phân tích khơng ➢ Giải quyết: liệt kê tất, có chiến lược để chọn cách tách tốt 16 Tách từ sử dụng biểu thức qui • khuôn mẫu so sánh với chuỗi • Các ký tự đặc biệt: – * - chuỗi ký tự nào, kể khơng có – x – ký tự – + - chuỗi ngoặc xuất lần • Ví dụ: – Email: x@x(.x)+ – dir *.txt – ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John” • Biểu thức quy sử dụng đặc biệt nhiều trong: * Phân tích cú pháp * Xác nhận tính hợp lệ liệu * Xử lý chuỗi * Trích rút thơng tin 17 Lựa chọn cách tách từ • Biểu diễn đoạn chuỗi âm tiết s1 s2 … sn • Trường hợp nhập nhằng thường xuyên từ liền s1s2s3 s1s2 s2s3 từ • • • BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0, v1, , vn, vn+1} Nếu âm tiết si+1, si+2, , sj tạo thành từ -> G có cạnh (vi,vj) Các cách tách từ = đường ngắn từ v0 đến vn+1 18 Thuật toán Thuật toán Xây dựng đồ thị cho chuỗi s1s2 sn 1: V ← ∅; 2: for i = to n + 3: V ← V  {vi}; 4: end for 5: for i = to n 6: for j = i to n 7: if (accept(AW, si · · · sj)) then 8: E ← E  {(vi, vj+1)}; 9: end if 10: end for 11: end for 12: return G = (V,E); accept(A, s): automat A nhận xâu vào s 19 Phân giải nhập nhằng • Xác suất xâu s: • P(wi|w1i-1): xác suất wi có i-1 từ trước • n = 2: bigram; n = 3: trigram 20 Phân giải nhập nhằng • Khi n = 2, tính giá trị P(wi|wi-1) lớn maximum likelihood (ML) • c(s): số lần xâu s xuất hiện; N: tổng số từ tập luyện • Khi liệu luyện nhỏ kích cỡ toàn tập liệu → P ~ ➢ Sử dụng kỹ thuật làm trơn 21 Kỹ thuật làm trơn với 1 + 2 = 1, 2 ≥ PML(wi) = c(wi)/N Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) tập thử: 22 Xác định giá trị 1, 2 Từ tập liệu mẫu, định nghĩa C(wi-1,wi) số lần (wi-1, wi) xuất tập mẫu Ta cần chọn 1 2 để làm cực đại giá trị với 1 + 2 = 1, 2 ≥ Thuật toán 24 Cách tiếp cận lai • Kết hợp phân tích automat hữu hạn + biểu thức quy + so khớp từ dài + thống kê (để giải nhập nhằng) 25 Kết • Sử dụng tập liệu gồm 1264 báo Tuổi trẻ, có 507,358 từ • Lấy  = 0.03, giá trị  hội tụ sau vịng lặp • Độ xác = số từ hệ thống xác định đúng/tổng số từ hệ thống xác định = 95% 26 Một số công cụ tách từ • JvnSegmenter (Nguyễn Cẩm Tú) : CRF http://jvnsegmenter.sourceforge.net • VnTokenizer (Lê Hồng Phương) http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer • Dongdu (Lưu Anh Tuấn): SVM http://viet.jnlp.org/dongdu • Pyvi (Trần Việt Trung) : https://github.com/trungtv/pyvi • Từ điển từ: • http://tratu.coviet.vn/tu-dien-lac-viet.aspx • http://tratu.soha.vn/ • https://www.informatik.uni-leipzig.de/~duc/Dict/ Bài tập: cài đặt chạy chương trình tách từ Pyvi 27 28

Ngày đăng: 22/06/2022, 09:49

HÌNH ẢNH LIÊN QUAN

• Tiếng Việt là ngôn ngữ không biến hình - TÁCH TỪ TIẾNG VIỆT Lê Thanh Hương Bộ môn Hệ thống Thông tin  Viện CNTT &TT – Trường ĐHBKHN
i ếng Việt là ngôn ngữ không biến hình (Trang 3)
• Tiếng Việt là ngôn ngữ không biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ - TÁCH TỪ TIẾNG VIỆT Lê Thanh Hương Bộ môn Hệ thống Thông tin  Viện CNTT &TT – Trường ĐHBKHN
i ếng Việt là ngôn ngữ không biến hình • Từ điển từ tiếng Việt (Vietlex): >40.000 từ (Trang 4)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN