1. Trang chủ
  2. » Hóa học

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 2 - Lê Thanh Hương

5 37 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

[r]

(1)

Tách t tiếng Vit Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn

1

Tách t

z Mục đích: xác định ranh giới từ câu z Là bước xử lý quan trọng hệ thống XLNNTN,

đặc biệt ngơn ngữđơn lập, ví dụ: âm tiết Trung Quốc, âm tiết Nhật, âm tiết Thái, tiếng Việt

z Với ngôn ngữđơn lập, từ có nhiều âm tiết

¾ Vấn đề tốn tách từ khửđược nhập nhằng ranh giới từ

2

T vng

z tiếng Việt ngôn ngữ không biến hình z Từđiển từ tiếng Việt (Vietlex): >40.000 từ,

trong đó:

81 55% â tiết từ từ đ z 81.55% âm tiết từ : từ đơn z 15.69% từ từ điển từ đơn z 70.72% từ ghép có âm tiết z 13.59% từ ghép ≥ âm tiết z 1.04% từ ghép ≥4 âm tiết

3

T vng

Độdài # %

1 6,303 15.69

2 28,416 70.72

3 259 62

3 2,259 5.62

4 2,784 6.93

5 419 1.04

Tổng 40,181 100

4 Bảng Độ dài từ tính theo âm tiết

Qui tc cu to t tiếng Vit z Từđơn: dùng âm tiếtlàm từ

z Ví dụ: tơi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, nhé z Từ ghép: tổ hợp(ghép) âm tiết lại, âm tiết

đó có quan hệ nghĩa với

ố ấ ó ệ ì ẳ

z Từ ghép đẳng lập thành tố cấu tạo có quan hệ bình đẳng với nghĩa

zVí dụ: chợ búa, bếp núc

z Từ ghép phụ thành tố cấu tạo phụ thuộc vào thành tố cấu tạo Thành tố phụ có vai trị phân loại, chun biệt hố sắc thái hố cho thành tố

zVí dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, đơ, thằng

tắp, sưng vù

5

Qui tc cu to t tiếng Vit z Từ láy: yếu tố cấu tạo có thành phần ngữ âm lặp

lại; vừa lặp vừa biến đổi Một từđược lặp lại cho ta từ láy

z Biến thể từ: coi dạng lâm thời biến độnghoặc

dạng "lời nói"của từ

dạng lời nói từ

z Rút gọn từ dài thành từ ngắn z ki-lô-gam → ki lơ/ kí lơ

z Lâm thời phá vỡ cấu trúc từ, phân bố lại yếu tố tạo từ với yếu tố khác ngồi từ chen vào Ví dụ:

z khổ sở→ lo khổ lo sở

z ngặt nghẽo → cười ngặt cười nghẽo z danh lợi + ham chuộng → ham danh chuộng lợi

(2)

Qui tc cu to t tiếng Vit z Các diễn tả gồm nhiều từ (vd, “bởi vì”) coi

1 từ

z Tên riêng: tên người vị trí coi đơn vị từ vựng

ẫ ố

z Các mẫu thường xuyên: số, thời gian

7

Các hướng tiếp cn

z Tiếp cận dựa từđiển

z Tiếp cận theo phương pháp thống kê z Kết hợp hai phương pháp trên.

8

Các phương pháp z So khớp từ dài (Longest Matching) z Học dựa cải biến (Transformation-based

Learning – TBL)

z Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST)

z Độ hỗn loạn cực đại (Maximum Entropy – ME) z Học máy sử dụng mơ hình Markov ẩn (Hidden Markov

Models- HMM)

z Học máy sử dụng vectơ hỗ trợ (Support Vector Machines)

z Kết hợp số phương pháp

9

Tiếp cn da tđin

<Lê Thanh Hương, Phân tích cú pháp tiếng Việt, Luận văn cao học, 1999>

z Xây dựng từđiển

z Mỗi mục từ lưu thông tin từ, từ loại, nghĩa loại z Tổ chức cho tốn nhớ thuận tiện việc

tìm kiếm

z Mã hóa từđiển: Từ loại nghĩa loại kiểu byte lưu dạng ký tự

z VD: danh từ -112 – p, <loại từ> - 115 – s

10

Tiếp cn da tđin

z Phân trang theo hai chữ đầu từ, tăng Với trang, từ lại theo vần ABC

ba bà .  .  .  .  .  . xe Content

Paragraph

1 n

11

bao

bà ngoại tập

xe cộ xe đạp Content

1

n

Tìm t tđin

z Độ dài tối đa của từ? 3? 4? 5?

z Vấn đề: không xử lý được tổ hợp từ cố

định, vd "ông chẳng bà chuộc“

Đ tt á t ó t từ đi

¾Đưa tt c t ghép có tđin

trùng vi phn đầu ca xâu vào

(3)

Tìm t tđin

Nếu nhà máy nghỉ ta

Vị trí từ: z Ta có bảng sau:

z z

z Ký hiệu:

z <liên từ> - LT <danh từ> - DT z <động từ> -ĐgT <đại từ> -ĐaT

13

Phân gii nhp nhng

z Lấy tất cả cách phân tích, nếu phân tích

cú pháp cho đúng đó cách phân tích đúng.

14

Cách tiếp cn lai

<Phuong Le-Hong et al., A hybrid approach to word segmentation of Vietnamese texts, Proceedings of the 2nd International Conference on Language and Automat Theory and Applications, LATA 2008, Tarragona, Spain, 2008 >

2008.>

z Kết hợp phân tích automat hữu hạn + biểu thức quy + so khớp từ dài + thống kê (để giải nhập nhằng)

15

Biu thc qui

z khuôn mẫu so sánh với chuỗi z Các ký tựđặc biệt:

z * - chuỗi ký tự nào, kể z x – ký tự

z + - chuỗi ngoặc xuất lần Ví d

z Ví dụ:

z Email: x@x(.x)+ z dir *.txt

z ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John”

z Biểu thức quy sử dụng đặc biệt nhiều trong:

* Phân tích cú pháp

* Xác nhận tính hợp lệ liệu * Xử lý chuỗi

* Tách liệu tạo báo cáo

16

Automat hu hn

z Lớp ngơn ngữ qui, đoán nhận máy ảo, gọi tên automat hữu hạn

z Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA z Automat hữu hạn không đơn định (Nondeterministic Finite

Automat a– NFA) Automat a NFA)

z Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng (ε-NFA)

17

Gii thiu phi hình thc v

automat hu hn

z Một toán automat nhận diện

chuỗi w có thuộc về ngơn ngữL hay khơng.

z Chuỗi nhập được xử lý tuần tự từng ký hiệu

một từtrái sang phải một từ trái sang phải.

z Trong trình thực thi, automat cần phải

nhớ thông tin đã qua xử lý

(4)

Ví d v automat hu hn L = {w ∈{0, 1}* | w kết thúc chuỗi 10}

19

Automat hu hn cho t

tiếng Anh

20

Cách tách tđơn gin

z Phát mẫu thông thường tên riêng, chữ viết tắt, số, ngày tháng, địa email, URL,… sử dụng biểu thức qui

z Hệệ thống chg ọọn chuỗi âm tiết dài từ vịị trí hiệện tạại có từđiển, chọn cách tách có từ

¾ Hạn chế: có thểđưa cách phân tích khơng ¾ Giải quyết: liệt kê tất, có chiến lược để chọn cách tách

tốt

21

La chn cách tách t

z Biểu diễn đoạn chuỗi âm tiết s1 s2… sn

z Trường hợp nhập nhằng thường xuyên từ liền s1s2s3 s1s2và s2s3đều từ

z BIểu diễn đoạn đồ thị có hướng tuyến tính G = (V,E), V = {v0,

v1, , vn, vn+1}

z Nếu âm tiết si+1, si+2, , sjtạo thành từ -> G có cạnh (vi,vj)

z Các cách tách từ = đường ngắn từ v0đến vn+1

22

Thut toán

Thuật toán Xây dựng đồ thị cho chuỗi s1s2 sn

1: V ←׎;

2: for i = to n + do 3: V ← V ׫{vi}; 4: end for 5:fori= 0tondo 5: for i = to n do 6: for j = i to n do

7: if (accept(AW, si· · · sj)) then 8: E ← E ׫{(vi, vj+1)}; 9: end if

10: end for 11: end for 12: return G = (V,E);

23

accept(A, s): automat A nhận xâu vào s

Phân gii nhp nhng

z Xác suất xâu s:

z P(wi|w1i-1): xác suất wikhi có i-1 âm tiết trước

đó

z n = 2: bigram; n = 3: trigram

(5)

Phân gii nhp nhng

z Khi n = 2, tính giá trị P(wi|wi-1) lớn maximum

likelihood (ML)

z c(s): số lần xâu s xuất hiện; N: tổng số từ tập luyện z Khi liệu luyện nhỏ kích cỡ tồn tập liệu Ỉ

P ~

z Sử dụng kỹ thuật làm trơn

25

K thut làm trơn

với λ1+ λ2= λ1, λ2≥

PML(wi) = c(wi)/N

z Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) tập

thử

thử:

z Entropy văn bản:

với NT: số từ T

z Entropy tỉ lệ nghịch với xác suất trung bình cách tách từ cho câu văn thử nghiệm

26

Xác định giá tr λ1, λ2

z Từ tập liệu mẫu, định nghĩa C(wi-1,wi) số lần (wi-1,

wi) xuất tập mẫu Ta cần chọn λ1 λ2để làm

cực đại giá trị

với λ1+ λ2= λ1, λ2≥

Thut toán

28

Kết qu

z Sử dụng tập liệu gồm 1264 báo Tuổi trẻ, có 507,358 từ z Lấy ε= 0.03, giá trịλhội tụ sau vịng lặp

z Độ xác = số từ hệ thống xác định đúng/tổng số từ hệ thống

xác định = 95%

Ngày đăng: 10/03/2021, 14:46

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN