Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có hai phần :... Các hướng tiếp cận Tiếp cận dựa trên từ điển Tiếp cận theo phương pháp thống kê Tiếp cậ
Trang 1Giảng viên:
Hoàng Anh Việt
hoanganhviet@gmail.com
Trang 2Nội dung chương 02
Trang 3Yêu cầu
Sinh viên cần có kiến thức:
Lý thuyết tính toán / Chương trình dịch
Xác suất thống kê
3
Trang 5Thompson (1965)
5
Cấu trúc cụm danh từ tiếng Việt của Thompson
Trang 6Nu : Số đếm Dem : Chỉ định từ Pron : Đại từ
Cấu trúc cụm danh từ tiếng Việt của Shum
Trang 7Beatty (1990)
7
Cấu trúc cụm danh từ tiếng Việt của Beatty
Trang 8Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có hai phần :
Trang 9Nguyễn Tài Cẩn (1975)
Phần trung tâm: cấu tạo bởi 2 thành phần chính:
T1T2
Có đầy đủ : T1T2, ví dụ : con mèo (này)
Dạng thiếu T1 : -T2, ví dụ : - mèo (này)
Dạng thiếu T2: T1-, ví dụ : con – (này)
tố phụ (3 loại định tố) :
Định tố “cái”, ví dụ : cái cậu học sinh ấy
Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy
Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cả mấy cái
cậu học sinh ấy
9
Trang 10Trong đó:
D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng,
…; phía, bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc….
Trang 11Diệp Quang Ban (1999)
Ví dụ:
- vị trí 0 là vị trí của danh từ chính
- vị trí -1 là vị trí của từ chỉ xuất cái
- vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm
ba ; mỗi, từng, mọi…; những, các, một…; mấy
- vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả…
-vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác
nhau như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng
tạp chí, phòng đọc, phòng hẹp, phòng chúng tôi….
-vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…
Trang 12Các hướng tiếp cận
Tiếp cận dựa trên từ điển
Tiếp cận theo phương pháp thống kê
Tiếp cận theo phép lai
12
Trang 13Các phương pháp
So khớp từ dài nhất (Longest Matching)
Học dựa trên sự cải biến (Transformation-based Learning – TBL)
Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST)
Độ hỗn loạn cực đại (Maximum Entropy – ME)
Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models- HMM)
Học máy sử dụng vectơ hỗ trợ (Support Vector Machines)
13
Trang 14Từ điển tiếng Việt
Theo thống kê trên trang Vdict.com
14
Tần suất xuất hiện độ dài từ trong từ điển
Trang 17Automat tách từ Tiếng Việt
Một bài toán trong automat là nhận diện chuỗi
w có thuộc về ngôn ngữ L hay không
Chuỗi nhập được xử lý tuần tự từng ký hiệu
một từ trái sang phải
Trong quá trình thực thi, automat cần phải
nhớ thông tin đã qua xử lý
17
Trang 18Ví dụ Automat
18
Trang 19Ví dụ Automat Tiếng Anh
19
Trang 20Automat Tiếng Việt
1 Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt
2 Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt
3 Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các
cách phân tích có thể
20
Trang 21Ví dụ Automat âm tiết TV
21
Automat của 3 âm tiết: phương, pháp, trình
Trang 22Phương pháp đồ thị
Biểu diễn chuỗi âm tiết s1,s2, sn
Trường hợp nhập nhằng thường xuyên nhất là 3 từ liền nhau s1s2s3 trong đó s1s2 và s2s3 đều là từ
BIểu diễn 1 đoạn bằng đồ thị có hướng tuyến tính G = (V,E), V
= {v0, v1, , vn, vn+1}
Nếu các âm tiết si+1, si+2, , sj tạo thành 1 từ -> trong G có cạnh
(vi,vj)
22
Trang 23Nhập nhằng Đồ thị
23
Giải quyết???
Trang 24Xem lại
Lý thuyết xác suất
Lý thuyết thông tin
24
Trang 25Phương pháp thống kê
Thông qua Search Engine thu được:
lượng các tài liệu đã được lập chỉ mục có chứa từ cần xét.
lập chỉ mục (thường lấy khoảng 10 9 )
25
Xấp xỉ xác suất xuất hiện một từ trên internet
Trang 26Phương pháp thống kê
26
Tần số tài liệu của một số từ thông dụng trong tiếng Việt
Trang 27Phương pháp thống kê
Tiếng việt bao gồm nhiều từ đứng cạnh nhau
=> đo độ liên kết giữa các từ (MI- Mutual information)
27
Quan hệ 2 âm tiết
MI(X;Y)
Trang 29Phương pháp thống kê
Ví dụ xét chuỗi ‘Đại học khoa học tự nhiên’
29
Trang 30Giải thuật di truyền
Thích hợp cho việc xấp xỉ các lời giải tối ưu
hóa toàn cục trong không gian tìm kiếm lớn thay vì các lời giải tối ưu cục bộ
Giải thuật sẽ tiến hóa một quần thể qua nhiều thế hệ nhằm tối ưu hóa toàn cục thông qua quá trình chọn lọc, lai, biến dị và tái sinh
30
Trang 31Giải thuật di truyền
Mục tiêu:
Xét văn bản t gồm n tiếng t=s1s2…sn Mục tiêu của quá trình là xác định những cách tách hợp lý nhất văn bản t thành m đọan t=w1w2…wm với wk=si…sj (1 ≤ k≤ m, 1≤ i, j≤ n) có thể là từ đơn hay từ phức.
Cách biểu diễn:
Quần thể (pop) là tập hợp các cá thể (id) được biểu diễn bằng xâu nhị phân Mỗi bit tương ứng với một tiếng Vậy, một từ sẽ gồm các bit giống nhau liên tiếp
31
Trang 32Thảo luận
32