Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 164 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
164
Dung lượng
0,96 MB
Nội dung
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
NGUYỄN THỐNG NHẤT–LÊ MINH SƠN
GÁN NHÃNPHÂNTÍCHCÚPHÁPQUAN HỆ
CHO SONGNGỮANH VIỆT
THÔNG QUALIÊNKẾT NGỮ
LUẬN VĂN CỬNHÂN TIN HỌC
TP.HồChíMinh–Năm2003
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
NGUYỄN THỐNG NHẤT–9912053
LÊ MINH SƠN-9912668
GÁN NHÃNPHÂNTÍCHCÚPHÁPQUAN HỆ
CHO SONGNGỮANH VIỆT
THÔNG QUALIÊNKẾT NGỮ
LUẬN VĂN CỬNHÂN TIN HỌC
GIÁO VIÊN HƯỚNG DẪN
GS.TSKH. HOÀNG KIẾM
NIÊN KHOÁ 1999-2003
L
Lờ
i
i
c
cả
m
m
n
n
Trước hết, chúng tôi xin chân thành gởi lời cảm ơn ñến GS.TSKH. Hoàng Kiếm,
người ñã tận tụy dẫn dắt chúng tôi từng bước ñể hoàn thành bài luận văn này. Chúng
tôi cũng chân thành cảm ơn các Thầy Cô trong và ngoài khoa Công nghệ thông tin ñã
truyền ñạt kiến thức quý báu cho tôi trong suốt bốn năm học.
Để hoàn thành bài luận văn này, chúng tôi không thể không nhắc ñến sự ñộng viên
và chăm sóc của gia ñình. Ngoài ra, chúng tôi gởilời cám ơn ñến những người mà
chúng tôi ñã có dịp cộng tác và sự ủng hộ tinh thần của bạn bè.
Cuối cùng chúng tôi cũng muốn gởi lời cám ơn ñến Thầy Đinh Điền và các thành
viên trong nhóm VCL, những người ñã giúp ñỡ cho chúng tôi hoàn tất bài luận văn
này.
Chúng tôi xin chân thành cảm ơn tất cả.
TP. Hồ Chí Minh, 7-2003
Nguyễn Thống Nhất và Lê Minh Sơn
N
N
h
hậ
n
n
x
x
t
t
c
c
a
a
g
g
i
i
o
o
v
v
i
i
n
n
h
h
ư
ư
n
n
g
g
d
dẫ
n
n
TP. Hồ Chí Minh, ngày tháng năm2003
Giáo viên hướng dẫn
GS. TSKH. Hoàng Kiếm
N
N
h
h
n
n
x
x
t
t
c
c
a
a
g
g
i
i
o
o
v
v
i
i
n
n
h
h
n
n
b
b
i
iệ
n
n
TP. Hồ Chí Minh, ngày tháng năm2003
Giáo viên phản biện
Ụ
C
C
L
L
Ụ
Ụ
C
C
LỜI NÓI ĐẦU 1
Chương 1:TỔNG QUAN 1
1.1.Phân tíchcúphápquanhệ 1
1.2.Liên kết từ/ngữ 1
1.3.Chiếu quanhệcúpháp 3
1.3.1.Chiếu nhãn từ loại 3
1.3.2.Chiếu quanhệ cúpháp 4
Chương 2:CÁC CÁCH TIẾP CẬN 5
2.1.Phân tíchcúpháp 5
2.1.1.Các phương pháp tiếp cận dùng luật phi ngữ cảnh (CFG) 5
2.1.1.1.Cách tiếp cận từ trên xuống (Top-Down) 5
2.1.1.2.Thuật toán phântíchcúpháp từ trên xuống (Top-Down) 7
2.1.1.3.Cách tiếp cận Từ dưới lên (Bottom-Up) 8
2.1.1.4.Thuật toán phântíchcúpháp Earley 11
2.1.1.5.Mạng ngữpháp lan truyền 12
2.1.2.Phương pháp TBL (Transformation-Based Error-Driven Learning) 15
2.1.3.Phương phápphântíchcúpháp dựa trên văn phạm TAG 19
2.1.3.1.Văn phạm TAGs 19
2.1.3.1.1.Cây sơ cấp 19
2.1.3.1.2.Cây phụ trợ 19
2.1.3.2.Các tác tố trong TAGs 20
2.1.3.2.1.Tác tố thêm vào 20
2.1.3.2.2.Tác tố thay thế: 21
2.1.3.3.Những ñiều kiện kết hợp trên cây 21
2.1.3.4.Cây rỗng 21
2.1.4.Phương phápphântíchcúpháp dựa trên nguyên tắc 22
2.1.4.1.1.Thuyết X-Bar (
X
) 23
2.1.4.1.2.Nguyên lý Theta 23
2.1.4.1.3.Thuyết lọc vai (Case-filter) 23
2.1.4.1.4.Thuyết kết hợp 23
2.1.4.1.5.Thuyết về tính cục bộ và trường rỗng 23
2.1.4.1.6.Thuyết dịch chuyển 24
2.2.Các cách tiếp cận trong việc liênkết từ/ngữ 24
2.2.1.Char-Align–Hệ thống Termight 26
2.2.2.Phương pháp K-vec 28
2.2.3.Phương pháp DK-vec 29
2.2.4.Ánh xạ songngữ với SIMR 30
2.2.5.Mô hình xác suất với thuật toán IPFP 30
2.2.6.Mô hình dựa vào sự phân lớp (Class-based) 33
2.2.7.Mô hình liênkết dựa vào cách tiếp cận dịch máy thống kê (SMT) 33
2.3.Các phương pháp chiếu 34
2.3.1.Chiếu nhãn từ loại 34
2.3.1.1.Phương pháp trực tiếp 34
2.3.1.2.Phương pháp Noise-robust 34
2.3.1.3.Phương pháp sử dụng luật tương tác 35
2.3.2.Chiếu quanhệ 35
2.3.2.1.Mô hình xác suất 35
2.3.2.2.Phương pháp DCA (Direct Correspondence Assumption) 35
2.3.2.3.Các phương pháp khác 36
Chương 3:MÔ HÌNH THUẬT TOÁN 37
3.1.Phân tíchcúpháp dựa trên nguyên tắc 37
3.1.1.Khái quát 37
3.1.2.Ý tưởng cơ bản của phương phápphântích dựa trên nguyên tắc 39
3.1.3.Một số ít những nguyên tắc thay thế cho rất nhiều luật 41
3.1.3.1.Những thành phần cơ bản 41
3.1.3.2.Tham số 41
3.1.4.Câu hỏi ñặt ra 42
3.1.5.Các nguyên tắc 43
3.1.5.1.Thuyết Xbar (
X
theory) 43
3.1.5.2.Tiêu chuẩn Theta (Theta Criterion) 44
3.1.5.3.Bộ lọc vai (Case-Filter) 45
3.1.5.4.Thuyết kết hợp(Binding Theory) 47
3.1.5.5.Thuyết về tính cục bộ và trường rỗng 47
3.1.5.6.Thuyết dịch chuyển 48
3.1.6.Trật tự kết hợp các nguyên tắc 48
3.1.6.1.Dự ñoán lỗi trước 49
3.1.6.2.Mô hình ñộng 49
3.1.7.Các bước phântíchcúpháp 50
3.1.7.1.Phân tích từ vựng 50
3.1.7.2.Phân tích vàtìm ra các cây cúpháp thích hợp 50
3.1.7.3.Chọn cây cúpháp thích hợp nhất 55
3.1.7.4.Trọng số 55
3.1.7.5.Chọn cây 55
3.2.Mô hình liênkết từ/ngữ trong songngữ Anh-Việt 56
3.2.1.Giới thiệu mô hình dịch máy thống kê 56
3.2.2. Định nghĩa liênkết từ/ngữ 59
3.2.3.Mô hình ngôn ngữ 62
3.2.4.Mô hình dịch 64
3.2.4.1.Mô hình 1 67
3.2.4.2.Mô hình 2 69
3.2.4.3.Một cách ñặt vấn ñề khác 71
3.2.4.4.Mô hình 3 73
3.2.4.5.Mô hình 4 75
3.2.4.6.Mô hình 5 76
3.2.5.Thuật toán Ước lượng-Cực ñại (Estimation-Maximization Algorithm–
viết tắt là thuật toán EM) 78
3.2.6.Cải tiến thuật toán EM trong mô hình 3, 4 và 5 80
3.2.7.Tìm liênkết từ tối ưu nhất 84
3.2.8.Cải tiến môhình liênkết từ ñể liênkếtngữ 85
3.3.Chiếu kếtquảphântíchcúpháp sang Tiếng Việt 89
3.3.1.Chiếu nhãn từ loại 89
3.3.2.Chiếu quanhệ 90
3.3.3.Sử dụng luật tương tác 90
Chương 4:CÀI ĐẶT THỰC NGHIỆM 91
4.1.Chương trình phântíchcúphápquanhệ 91
4.1.1.Phân tích từ vựng 91
4.1.1.1.Từñiển 91
4.1.1.1.1.Cấu trúc 91
4.1.1.1.2.Sự phân loại ñộng từ 94
4.1.1.1.3.Mục từ tham chiếu 96
4.1.2.Phân tíchcúphápquanhệ 97
4.1.2.1.Từ ñiển chủ ngữ của ñộng từ 97
4.1.2.2.Mạng cúpháp 98
4.1.2.3.Sơ ñồ lớp 99
4.1.2.4.Kết quả ñầu ra 100
4.1.3.Các thuộc tính 101
4.2.Chương trình liênkết từ/ngữ 102
4.2.1.Phân tích 102
4.2.1.1.Phân tích tổng quát 103
4.2.1.2.Phân tích chi tiết 104
4.2.1.2.1.Lưu ñồ của mô hình huấn luyện dịch thống kê )|( evP 104
4.2.1.2.2.Lưu ñồ của mô hình liênkếtngữ 105
4.2.2.Thiết kế 107
4.2.2.1.Sơ ñồ lớp 107
4.2.2.2.Danh sách các thuộc tính của từng lớp 108
4.2.2.3.Danh sách các phương thức của từng lớp 109
4.2.2.4.Sơ ñồ hoạt ñộng tổng thể của các lớp choquá trình huấn luyện.111
4.2.3.Cài ñặt các hàm xử lý chính 112
4.2.3.1.Hàm khởi gánthông số t trong lớp Model1 112
4.2.3.2.Hàm khởi gánthông số a trong lớp Model2 112
4.2.3.3.Vòng lặp EM trong lớp Model1 113
4.2.3.4.Vòng lặp EM trong lớp Model2 113
4.2.3.5.Vòng lặp EM trong lớp Model3 114
4.2.3.6.Tìm liênkết tối ưu nhất trong mô hình 1 115
4.2.3.7.Tìm liênkết tối ưu nhất trong mô hình 2 116
4.2.3.8.Tìm liênkết tối ưu nhất trong mô hình 3 117
4.3.Chiếu kếtquảphântíchcúpháp sang Tiếng Việt 117
4.3.1.Chiếu nhãn từ loại 117
4.3.2.Chiếu quanhệ 118
4.3.3.Sử dụng luật tương tác 119
[...]... qu liên k t t /ng cho vi c gánnhãnphântíchcúphápchosong ng Anh- Vi t 1.3 Chi u quan h cúpháp Chi u quan h cúpháp là s d ng k t qu liên k t t /ng ñ ánh x k t qu c a các m i quan h cúpháp ñã ñư c ñánh nhãn trong ti ng Anh sang ti ng Vi t Quá trình chi u này chia làm 2 giai ño n: chi u nhãn t lo i và chi u quan h cúpháp 1.3.1 Chi u nhãn t lo i T k t qu ñánh nhãn t lo i trên câu ti ng Anh, thông. .. tíchcúpháp ti ng Anh và chi u sang ti ng Vi t ñư c làm ng li u cho vi c h c, giám sát và rút ra các lu t chuy n ñ i cúpháp gi a hai ngôn ng Anh- Vi t ñ ph c v cho chương trình d ch t ñ ng Anh Vi t Các bư c cơ b n cho vi c chi u k t qu phântíchcúpháp bao g m ba bư c chính: ñ u tiên là phântíchcúphápcho ngôn ng ngu n ( ñây là ti ng Anh) , sau ñó liên k t t /ng , cu i cùng s d ng k t qu liên k... th ng là các câu song ng trong ng li u s ñư c liên k t K t qu c a vi c liên k t t /ng mà chúng tôi thu ñư c trong cách ti p c n th ng kê h t s c quan tr ng ñ i v i h d ch máy và góp ph n không nh cho các hư ng ti p c n khác như: kh o sát s thay ñ i tr t t t c a cây cúpháp ti ng Vi t và cây cúpháp ti ng Anh, gi i quy t v n ñ nh p nh ng ng nghĩa, gánnhãnphântíchcúphápchosong ng Anh- Vi t, … Trong... lý chính này 1.1 Phântíchcúphápquan h Mu n có s giao ti p b ng ngôn ng t nhiên gi a ngư i và máy, ñ u tiên máy tính ph i hi u ñư c ngôn ng t nhiên Bư c ñ u tiên ñ hi u ñư c m t câu, máy ph i bi t ñư c c u trúc c a câu cũng như quan h gi a các thành ph n trong câu Xác ñ nh c u trúc, quan h này ñư c g i là phântíchcúpháp Tuy nhiên, mu n phântíchcúpháp thì ñ u tiên ph i ñánh nhãn ñư c t lo i... nhau cho v n ñ này Các bư c cơ b n ñ ti n hành công vi c chi u k t qu phântíchcúpháp bao g m: ñ u tiên là phântíchcúphápcho ngôn ng ngu n, sau ñó liên k t t /ng , cu i cùng s d ng k t qu liên k t t /ng ñ chi u sang ngôn ng ñích Ph n ñ u chúng tôi s gi i thi u các cách ti p c n c a các cách phântíchcúphápcho ngôn ng ngu n (ti ng Anh) , ph n hai chúng tôi s gi i thi u các cách ti p c n c a liên. .. ñư c gi i quy t b ng các nhãn t lo i ñã ñư c ñánh bư c trư c Hai bư c này có m i quan h ch t ch , có th nh vào t lo i ñ làm rõ choquan h cú pháp, ngư c l i nh vào quan h cúpháp có th làm rõ ñư c nh ng t b nh p nh ng t lo i 4 Chương 2: CÁC CÁCH TI P C N Chư ng C C C CH T C N V n ñ chi u k t qu phântíchcúpháp t m t ngôn ng này sang ngôn ng khác là m t nhu c u c n thi t cho các nư c mà vi c x lý... 4: cài ñ t c th cho các bư c x lý Chương 5: nêu ra m t s k t qu và cách ñánh giá các k t qu ñó, và cu i cùng là k t lu n và ñưa ra hư ng phát tri n Chương 1: T NG QUAN Chư ng 1: T NG UAN Các bư c cơ b n cho vi c chi u k t qu phân tích cú pháp bao g m ba bư c chính: ñ u tiên là phân tích cú phápcho ngôn ng ngu n ( ñây là ti ng Anh) , sau ñó liên k t t /ng , cu i cùng s d ng k t qu liên k t t /ng ñ... lo i 132 5.3.2 Chi u k t qu phân tích quan h 134 5.4 K t lu n 134 5.5 Hư ng phát tri n 135 PH L C A: B ng qui ư c các ký hi u c a mô hình d ch máy th ng kê 136 PH L C B: Các thu c tính trong phân tích cú phápquan h 139 PH L C C: B nhãn t lo i ti ng Anh 145 PH L C D: Các m i quan h trong ti ng Anh .147 TÀI LI U THAM KH O 149 L N... sơ ñ 10 Chương 2: CÁC CÁCH TI P C N 2.1.1.4 Thu t toán phân tích cú pháp Earley Gi i thu t phântíchcúpháp là m t gi i pháp k t h p 2 phương pháp v a trình bày trên Trư c khi ñi chi ti t vào thu t toán, ta s xét l i m t s ưu khuy t ñi m c a t ng phương pháp ñ th y ñư c l i ñi m khi k t h p 2 phương pháp l i v i nhau Thu t toán phântíchcúpháp Top-Down có m t ưu ñi m là có m t t m nhìn bao quát... ng Anh, ti ng Hoa, ti ng PhápQuá trình nghiên c u này ñã ñ l i chonhân lo i nhi u thành t u to l n Nhu c u v k th a nh ng thành qu c a ti ng Anh ñ áp d ng cho các ngôn ng khác (như là ti ng Vi t) là m t nhu c u thi t th c Đ th a hư ng ñư c nh ng thành qu này, chúng tôi nghiên c u các k t qu c a phântíchcúpháp ti ng Anh và chi u sang ti ng Vi t thôngqualiên k t t /ng K t qu c a vi c phântích . dụng
kết quả liên kết từ /ngữ cho việc gán nhãn phân tích cú pháp cho song ngữ Anh- Việt.
1.3.Chiếuquan hệ cú pháp
Chiếu quan hệ cú pháp là sử dụng kết quả liên. 1:TỔNG QUAN 1
1.1 .Phân tích cú pháp quan hệ 1
1.2 .Liên kết từ /ngữ 1
1.3.Chiếu quan hệ cú pháp 3
1.3.1.Chiếu nhãn từ loại 3
1.3.2.Chiếu quan hệ c pháp 4
Chương