1. Trang chủ
  2. » Công Nghệ Thông Tin

slide bài giảng xử lý ngôn ngữ tự nhiên - đại học bách khoa hà nội chương 2 tách từ tiếng việt

32 3,1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,66 MB

Nội dung

Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có hai phần :... Các hướng tiếp cận Tiếp cận dựa trên từ điển  Tiếp cận theo phương pháp thống kê  Tiếp cậ

Trang 1

Giảng viên:

Hoàng Anh Việt

hoanganhviet@gmail.com

Trang 2

Nội dung chương 02

Trang 3

Yêu cầu

 Sinh viên cần có kiến thức:

 Lý thuyết tính toán / Chương trình dịch

 Xác suất thống kê

3

Trang 5

Thompson (1965)

5

Cấu trúc cụm danh từ tiếng Việt của Thompson

Trang 6

Nu : Số đếm Dem : Chỉ định từ Pron : Đại từ

Cấu trúc cụm danh từ tiếng Việt của Shum

Trang 7

Beatty (1990)

7

Cấu trúc cụm danh từ tiếng Việt của Beatty

Trang 8

Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có hai phần :

Trang 9

Nguyễn Tài Cẩn (1975)

 Phần trung tâm: cấu tạo bởi 2 thành phần chính:

T1T2

 Có đầy đủ : T1T2, ví dụ : con mèo (này)

 Dạng thiếu T1 : -T2, ví dụ : - mèo (này)

 Dạng thiếu T2: T1-, ví dụ : con – (này)

tố phụ (3 loại định tố) :

Định tố “cái”, ví dụ : cái cậu học sinh ấy

Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy

Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cả mấy cái

cậu học sinh ấy

9

Trang 10

Trong đó:

D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng,

…; phía, bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc….

Trang 11

Diệp Quang Ban (1999)

Ví dụ:

- vị trí 0 là vị trí của danh từ chính

- vị trí -1 là vị trí của từ chỉ xuất cái

- vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm

ba ; mỗi, từng, mọi…; những, các, một…; mấy

- vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả…

-vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác

nhau như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng

tạp chí, phòng đọc, phòng hẹp, phòng chúng tôi….

-vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…

Trang 12

Các hướng tiếp cận

 Tiếp cận dựa trên từ điển

 Tiếp cận theo phương pháp thống kê

 Tiếp cận theo phép lai

12

Trang 13

Các phương pháp

 So khớp từ dài nhất (Longest Matching)

 Học dựa trên sự cải biến (Transformation-based Learning – TBL)

 Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST)

 Độ hỗn loạn cực đại (Maximum Entropy – ME)

 Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models- HMM)

 Học máy sử dụng vectơ hỗ trợ (Support Vector Machines)

13

Trang 14

Từ điển tiếng Việt

 Theo thống kê trên trang Vdict.com

14

Tần suất xuất hiện độ dài từ trong từ điển

Trang 17

Automat tách từ Tiếng Việt

 Một bài toán trong automat là nhận diện chuỗi

w có thuộc về ngôn ngữ L hay không

 Chuỗi nhập được xử lý tuần tự từng ký hiệu

một từ trái sang phải

 Trong quá trình thực thi, automat cần phải

nhớ thông tin đã qua xử lý

17

Trang 18

Ví dụ Automat

18

Trang 19

Ví dụ Automat Tiếng Anh

19

Trang 20

Automat Tiếng Việt

1 Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt

2 Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt

3 Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các

cách phân tích có thể

20

Trang 21

Ví dụ Automat âm tiết TV

21

Automat của 3 âm tiết: phương, pháp, trình

Trang 22

Phương pháp đồ thị

 Biểu diễn chuỗi âm tiết s1,s2, sn

 Trường hợp nhập nhằng thường xuyên nhất là 3 từ liền nhau s1s2s3 trong đó s1s2 và s2s3 đều là từ

 BIểu diễn 1 đoạn bằng đồ thị có hướng tuyến tính G = (V,E), V

= {v0, v1, , vn, vn+1}

 Nếu các âm tiết si+1, si+2, , sj tạo thành 1 từ -> trong G có cạnh

(vi,vj)

22

Trang 23

Nhập nhằng Đồ thị

23

Giải quyết???

Trang 24

Xem lại

 Lý thuyết xác suất

 Lý thuyết thông tin

24

Trang 25

Phương pháp thống kê

 Thông qua Search Engine thu được:

lượng các tài liệu đã được lập chỉ mục có chứa từ cần xét.

lập chỉ mục (thường lấy khoảng 10 9 )

25

Xấp xỉ xác suất xuất hiện một từ trên internet

Trang 26

Phương pháp thống kê

26

Tần số tài liệu của một số từ thông dụng trong tiếng Việt

Trang 27

Phương pháp thống kê

 Tiếng việt bao gồm nhiều từ đứng cạnh nhau

=> đo độ liên kết giữa các từ (MI- Mutual information)

27

Quan hệ 2 âm tiết

MI(X;Y)

Trang 29

Phương pháp thống kê

 Ví dụ xét chuỗi ‘Đại học khoa học tự nhiên’

29

Trang 30

Giải thuật di truyền

 Thích hợp cho việc xấp xỉ các lời giải tối ưu

hóa toàn cục trong không gian tìm kiếm lớn thay vì các lời giải tối ưu cục bộ

 Giải thuật sẽ tiến hóa một quần thể qua nhiều thế hệ nhằm tối ưu hóa toàn cục thông qua quá trình chọn lọc, lai, biến dị và tái sinh

30

Trang 31

Giải thuật di truyền

 Mục tiêu:

 Xét văn bản t gồm n tiếng t=s1s2…sn Mục tiêu của quá trình là xác định những cách tách hợp lý nhất văn bản t thành m đọan t=w1w2…wm với wk=si…sj (1 ≤ k≤ m, 1≤ i, j≤ n) có thể là từ đơn hay từ phức.

 Cách biểu diễn:

 Quần thể (pop) là tập hợp các cá thể (id) được biểu diễn bằng xâu nhị phân Mỗi bit tương ứng với một tiếng Vậy, một từ sẽ gồm các bit giống nhau liên tiếp

31

Trang 32

Thảo luận

32

Ngày đăng: 17/10/2014, 07:23

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w