Mục đích: xác định ranh giới của các từ trong câu... Các phương pháp được sử dụng trong bài toán tách từ : · So khớp từ dài nhất Longest Matching · So khớp cực đại Maximum Matching ·
Trang 1Giáo viên hướng dẫn : PGS.Lê Thanh Hương
Nhóm 27 : TrầnQuangHưng - 20071489
Nguyễn Nam Thanh - 20072552
Đỗ Quang Trường - 20063382
Võ Hải Nam - 20073735
Trang 3Tách từ là bước xử lý quan trọng đối với các
hệ thống XLNNTN,đặc biệt là đối với các
ngôn ngữ đơn lập, ví dụ: âm tiết Trung
Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt
Mục đích: xác định ranh giới của các từ
trong câu
Trang 4 Bài toán tách từ có 3 hướng tiếp cận chính :
· Tiếp cận dựa vào từ điển cố định.
· Tiếp cận dựa vào thống kê.
· Tiếp cận dựa trên cả hai phương pháp trên.
Các phương pháp được sử dụng trong bài toán tách từ :
· So khớp từ dài nhất (Longest Matching)
· So khớp cực đại (Maximum Matching)
· Mô hình Markov ẩn (Hidden Markov Models- HMM)
· Học dựa trên sự cải biến (Transformation-based Learning – TBL)
· Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST)
· Độ hỗn loạn cực đại (Maximum Entropy – ME)
· Máy học sử dụng vectơ hỗ trợ (Support Vector Machines) Ngoài ra còn có thể kết hợp những phương pháp trên.
Trang 5Hướng tiếp cận từ điển
matching)
Trang 6 Duyệt một cụm từ hoặc câu từ trái sang
phải và chọn từ có nhiều âm tiết nhất có
mặt trong từ điển, rồi cứ thể tiếp tục cho từ
kế tiếp cho đến hết câu
Trang 7Giả sử có một chuỗi ký tự C1, C2, , Cn Ta bắt đầu từ đầu chuỗi Đầu tiên kiểm tra xem C1, có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hay không Tiếp tục tìm cho đến khi tìm được từ dài nhất Từ có
vẻ hợp lý nhất sẽ là từ dài nhất Chọn từ đó, sau đó tìm tiếp như trên cho những từ còn lại cho đến khi xác định được toàn bộ chuỗi từ
Trang 8 Dạng phức tạp: Quy tắc của dạng này là phân đoạn
có vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu như dạng đơn giản Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2 cũng là từ), ta xem các chữ kế
tiếp để tìm tất cả các đoạn ba từ có thể có bắt đầu với C1 hoặc C1C2 Ví dụ ta được những đoạn sau:
Trang 9Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như “ hợp tác xã ||mua bán”, “thành lập || nước || Việt Nam || dân chủ || cộng hòa”
Cách tách từ đơn giản, nhanh, chỉ cần dựa vào từ điển
Trong tiếng Hoa, cách này đạt được độ
chính xác 98,41%
Trang 10 Độ chính xác của phương pháp phụ thuộc hoàn toàn vào tính đủ và tính chính xác của
từ điển
Phương pháp này sẽ tách từ sai trong các
trường hợp “ học sinh || học sinh|| học”,
“một || ông || quan tài || giỏi”, “trước || bàn
là || một || ly || nước”…
Trang 11Xây dựng từ điển.
Tìm từ trong từ điển : xác định tất cả các từ
có trong câu
Liệt kê tất cả các câu có thể
pháp so khớp cực đại đưa ra câu có số từ nhỏ nhất
Trang 12 Dữ liệu : dữ liệu từ điển theo chuẩn XML
Trang 15Liệt kê tất cả các câu có thể từ danh sách các từ đã tìm trong từ điển.
Lựa chọn câu có số từ vựng ngắn nhất
Trang 16 Thử nghiệm
Đánh giá
Trang 17Kết quả với một số câu :
Trang 18 Ông già đi nhanh quá
Trang 19Kết quả thu được của chương trình là khá
chính xác, song vẫn chưa thể xử lý hết các trường hợp nhập nhằng khi các từ có câu có cùng số từ vựng
vào phong phú của từ điển
Không xử lý được các tổ hợp từ cố định, ví
dụ : “ông chẳng bà chuộc”…
Trang 20 Về vấn đề xử lý nhập nhằng, có thể áp dụng thêm một số phương pháp như xử lý cú
pháp, xác suất thống kê để xử lý các trường hợp nhập nhằng
Đối với các vấn đề các tổ hợp từ cố định, có thể đưa ra tất cả các từ ghép có trong phần đầu của xâu vào
Trang 21Slide bài giảng môn xử lý ngôn ngữ tự nhiên ( cô Lê Thanh Hương ).