1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo đề tài xây dựng bộ tách từ tiếng việt

22 527 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 2,11 MB

Nội dung

 Mục đích: xác định ranh giới của các từ trong câu...  Các phương pháp được sử dụng trong bài toán tách từ : · So khớp từ dài nhất Longest Matching · So khớp cực đại Maximum Matching ·

Trang 1

Giáo viên hướng dẫn : PGS.Lê Thanh Hương

Nhóm 27 : TrầnQuangHưng - 20071489

Nguyễn Nam Thanh - 20072552

Đỗ Quang Trường - 20063382

Võ Hải Nam - 20073735

Trang 3

Tách từ là bước xử lý quan trọng đối với các

hệ thống XLNNTN,đặc biệt là đối với các

ngôn ngữ đơn lập, ví dụ: âm tiết Trung

Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt

 Mục đích: xác định ranh giới của các từ

trong câu

Trang 4

 Bài toán tách từ có 3 hướng tiếp cận chính :

· Tiếp cận dựa vào từ điển cố định.

· Tiếp cận dựa vào thống kê.

· Tiếp cận dựa trên cả hai phương pháp trên.

 Các phương pháp được sử dụng trong bài toán tách từ :

· So khớp từ dài nhất (Longest Matching)

· So khớp cực đại (Maximum Matching)

· Mô hình Markov ẩn (Hidden Markov Models- HMM)

· Học dựa trên sự cải biến (Transformation-based Learning – TBL)

· Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST)

· Độ hỗn loạn cực đại (Maximum Entropy – ME)

· Máy học sử dụng vectơ hỗ trợ (Support Vector Machines) Ngoài ra còn có thể kết hợp những phương pháp trên.

Trang 5

Hướng tiếp cận từ điển

matching)

Trang 6

 Duyệt một cụm từ hoặc câu từ trái sang

phải và chọn từ có nhiều âm tiết nhất có

mặt trong từ điển, rồi cứ thể tiếp tục cho từ

kế tiếp cho đến hết câu

Trang 7

Giả sử có một chuỗi ký tự C1, C2, , Cn Ta bắt đầu từ đầu chuỗi Đầu tiên kiểm tra xem C1, có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hay không Tiếp tục tìm cho đến khi tìm được từ dài nhất Từ có

vẻ hợp lý nhất sẽ là từ dài nhất Chọn từ đó, sau đó tìm tiếp như trên cho những từ còn lại cho đến khi xác định được toàn bộ chuỗi từ

Trang 8

 Dạng phức tạp: Quy tắc của dạng này là phân đoạn

có vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu như dạng đơn giản Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2 cũng là từ), ta xem các chữ kế

tiếp để tìm tất cả các đoạn ba từ có thể có bắt đầu với C1 hoặc C1C2 Ví dụ ta được những đoạn sau:

Trang 9

Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như “ hợp tác xã ||mua bán”, “thành lập || nước || Việt Nam || dân chủ || cộng hòa”

 Cách tách từ đơn giản, nhanh, chỉ cần dựa vào từ điển

 Trong tiếng Hoa, cách này đạt được độ

chính xác 98,41%

Trang 10

 Độ chính xác của phương pháp phụ thuộc hoàn toàn vào tính đủ và tính chính xác của

từ điển

 Phương pháp này sẽ tách từ sai trong các

trường hợp “ học sinh || học sinh|| học”,

“một || ông || quan tài || giỏi”, “trước || bàn

là || một || ly || nước”…

Trang 11

Xây dựng từ điển.

 Tìm từ trong từ điển : xác định tất cả các từ

có trong câu

 Liệt kê tất cả các câu có thể

pháp so khớp cực đại đưa ra câu có số từ nhỏ nhất

Trang 12

 Dữ liệu : dữ liệu từ điển theo chuẩn XML

Trang 15

Liệt kê tất cả các câu có thể từ danh sách các từ đã tìm trong từ điển.

 Lựa chọn câu có số từ vựng ngắn nhất

Trang 16

 Thử nghiệm

 Đánh giá

Trang 17

Kết quả với một số câu :

Trang 18

 Ông già đi nhanh quá

Trang 19

Kết quả thu được của chương trình là khá

chính xác, song vẫn chưa thể xử lý hết các trường hợp nhập nhằng khi các từ có câu có cùng số từ vựng

vào phong phú của từ điển

 Không xử lý được các tổ hợp từ cố định, ví

dụ : “ông chẳng bà chuộc”…

Trang 20

 Về vấn đề xử lý nhập nhằng, có thể áp dụng thêm một số phương pháp như xử lý cú

pháp, xác suất thống kê để xử lý các trường hợp nhập nhằng

 Đối với các vấn đề các tổ hợp từ cố định, có thể đưa ra tất cả các từ ghép có trong phần đầu của xâu vào

Trang 21

Slide bài giảng môn xử lý ngôn ngữ tự nhiên ( cô Lê Thanh Hương ).

Ngày đăng: 23/10/2014, 23:25

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w