1. Trang chủ
  2. » Luận Văn - Báo Cáo

mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng anh việt

469 318 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 469
Dung lượng 1,01 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM -oOo Nguyễn Chí Hiếu MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ CƠ SỞ TƯƠNG ỨNG ANH-VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HCM - Năm 2008 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM -oOo Nguyễn Chí Hiếu MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ CƠ SỞ TƯƠNG ỨNG ANH-VIỆT Chuyên ngành : Khoa học máy tính Mã số: 60.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS-TS PHAN THỊ TƯƠI TS NGUYỄN XUÂN DŨNG TP HCM - Năm 2008 i Lời cam đoan Tôi xin cam đoan luận án công trình nghiên cứu khoa học Các kết luận án trung thực chưa khác công bố công trình khác Tp Hồ Chí Minh, ngày 27 tháng 12 năm 2007 Người thực NCS Nguyễn Chí Hiếu ii LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ lòng biết ơn sâu sắc tới PGS-TS Phan Thị Tươi, TS Nguyễn Xuân Dũng – Cô Thầy trực tiếp hướng dẫn, động viên suốt trình thực luận án Chân thành cảm ơn quý Thầy Cô trường Đại học Bách khoa – Đại học Quốc gia TP HCM, đặc biệt Thầy Cô môn Phần mềm ứng dụng Khoa Công nghệ Thông tin cung cấp cho tài liệu cần thiết cho lời khuyên bổ ích để hoàn thành luận án Tôi xin bày tỏ lòng biết ơn chân thành tới Hiệu trưởng, Ban giám Hiệu, đồng nghiệp Khoa Công nghệ Thông tin trường Đại học Công nghiệp TP HCM, người tạo điều kiện thuận lợi, giúp đỡ tinh thần vật chất cho việc thực luận án Luận án khó hoàn thành hỗ trợ từ gia đình, bạn bè, đặc biệt nhóm NLP – Đại học Bách khoa TP HCM, người trực tiếp đóng góp ý kiến thiết thực cho thành công nghiên cứu Cuối cùng, xin cảm ơn bạn sinh viên lớp ĐHTH1- Trường Đại học Công nghiệp TP HCM trực tiếp hỗ trợ việc xây dựng kho ngữ liệu song ngữ đánh giá kết thực nghiệm Cảm ơn Trung tâm Nghiên cứu Ngôn ngữ Viện Khoa học xã hội giúp việc chỉnh lý liệu chuẩn để hỗ trợ cho việc đánh giá kết luận án TP.HCM, ngày 27-12-2007 Người thực NCS Nguyễn Chí Hiếu iii MỤC LỤC Lời cam đoan i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT .v DANH MỤC CÁC HÌNH viii DANH MỤC CÁC BẢNG x Chương MỞ ĐẦU 1.1 Động nghiên cứu 1.2 Mục tiêu, hướng nghiên cứu nhiệm vụ nghiên cứu .3 1.3 Phạm vi nghiên cứu toán 1.4 Đóng góp luận án 1.5 Cấu trúc luận án Chương CƠ SỞ LÝ THUYẾT 2.1 Các định nghĩa phát biểu hình thức 10 2.2 Cụm danh từ 15 2.2.1 Cấu trúc cụm danh từ tiếng Việt 15 2.2.2 Cấu trúc cụm danh từ tiếng Anh 28 2.2.3 Sự tương đồng khác biệt cụm danh từ tiếng Anh tiếng Việt .33 2.3 Các phương pháp đối sánh từ 41 2.3.1 Xác định toán 42 2.3.2 Các mô hình đối sánh 43 2.3.3 Mô hình đối sánh thống kê .46 2.3.4 Phương pháp từ điển .51 2.4 Nguồn tài nguyên dùng luận án .54 2.4.1 Gate .54 2.4.2 Giza++ 55 2.4.3 Penn Treebank 56 2.4.4 Phân đoạn từ tiếng Việt 56 2.4.5 Tiêu chí nhận diện từ 57 Chương CHUYỂN ĐỔI CÂY CÚ PHÁP ANH VIỆT 59 3.1 Mở đầu 60 3.2 Lý thực toán chuyển đổi trật tự từ 71 3.3 Mô hình chuyển đổi trật tự từ 74 3.4 Kết thử nghiệm đánh giá .91 3.4.1 Dữ liệu đánh giá 92 3.4.2 Tiêu chuẩn đánh giá 93 iv 3.4.3 Kết đánh giá .95 Chương MÔ HÌNH THỐNG KÊ KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH .98 4.1 Mở đầu 98 4.2 Mô hình thống kê khai thác đặc tính ngôn ngữ đích .101 4.3 Đánh giá kết .111 4.3.1 Ngữ liệu huấn luyện đánh giá 112 4.3.2 Kết thực nghiệm 116 Chương MÔ HÌNH TỪ ĐIỂN KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH .121 5.1 Mở đầu 121 5.2 Mô hình đối sánh điểm neo 123 5.2.1 Dẫn nhập .123 5.2.2 Các mô hình thực nghiệm 127 5.2.3 Bài toán chồng chéo xung đột 145 5.3 Kết thực nghiệm .153 Chương CÁC NGHIÊN CỨU LIÊN QUAN .158 6.1 Các phương pháp phân đoạn câu 158 6.1.1 Các phương pháp tạo văn phạm tay 158 6.1.2 Các phương pháp máy học 159 6.2 Rút trích cụm danh từ song ngữ 161 Chương KẾT LUẬN 166 7.1 Các kết đạt .166 7.2 Hướng phát triển .168 7.3 Lời kết 168 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 171 TÀI LIỆU THAM KHẢO 173 PHỤ LỤC A DỮ LIỆU ĐÁNH GIÁ 187 PHỤ LỤC B LUẬT SINH RÚT TRÍCH TỪ PENN TREEBANK 193 PHỤ LỤC C CHẠY GIZA++ .207 PHỤ LỤC D BẢNG MÃ HÓA TIẾNG VIỆT SANG MÃ ASCII .209 PHỤ LỤC E CÁC TỪ PHÂN LỚP TRONG TIẾNG VIỆT .210 PHỤ LỤC F BẢNG MÃ TỪ LOẠI DÙNG TRONG LUẬN ÁN 219 PHỤ LỤC G ĐỊNH NGHĨA MỘT SỐ KHÁI NIỆM 221 PHỤ LỤC H CÁC PHƯƠNG PHÁP HỌC MÁY 223 PHỤ LỤC I TÍNH NHẬP NHẰNG 226 PHỤ LỤC J ĐỘ PHỨC TẠP GIẢI THUẬT 229 v DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt AER Alignment Error Lỗi đối sánh AI Artificial Intelligence Trí tuệ nhân tạo ANN Artificial Neural Networks Mạng Neural nhân tạo APAP Anchor Point Alignment & Projection Chiếu qua đối sánh điểm neo Anchor Point Alignment & Chiếu qua đối sánh điểm neo APAP-LCC Projection – Language khai thác đặc tính ngôn ngữ Characteristic Combination đích Anchor Point Alignment & Chiếu qua đối sánh điểm neo APAP-STT Projection – Syntax Tree Transfer khai thác đặc tính trật tự từ Anchor Point Alignment & Chiếu qua đối sánh điểm neo APAP-WS Projection – Word khai thác đặc tính phân đoạn Segmentation từ BaseNP Base-Noun Phrase Cụm danh từ sở Bilingual evaluation Phương pháp để đánh giá tự BLEU Understudy động cho Dịch máy Conference on Hội nghị ngôn ngữ học 10 CoNLL Computational Natural tính toán Language Learning Truy hồi thông tin xuyên 11 CLIR Cross-language information retrieval ngôn ngữ 12 DictAlign Dictionary Alignment Đối sánh từ điển 13 DL Decision List Danh sách định 14 DP Decision Pylon Tháp định Example Based Machine 15 EBMT Dịch máy sở ví dụ Translation vi 16 EBT Example Based Transfer Chuyển đổi sở ví dụ 17 EM Expected Maximal kỳ vọng cực đại Finding Noun Phrase 18 FNPC Tìm cụm danh từ tương ứng Corresponding General Architecture for Kiến trúc tổng quát cho kỹ 19 GATE Text Engineering thuật văn 20 HMM Hidden Markov Models Mô hình Markov ẩn 21 Ông già nhanh Ông già nhanh Ông già nhanh Hay câu: học sinh học sinh học gây nhặp nhằng phân đoạn từ Hiện tượng tĩnh lược (ellipsis): Một cấu trúc câu dài rút ngắn lại Ví dụ: Mary tidied up the kitchen and John the living room Mary tidied up the kitchen and John tidied up the living room Nghĩa câu phụ thuộc vào nghĩa câu trước: nhiều trường hợp, muốn hiểu nghĩa câu, ta phải vào nghĩa câu trước Ví dụ: The room has two cabinets He keeps books in them - Nghĩa từ phụ thuộc vào ngữ cảnh: Con người xác định ngữ nghĩa từ nhờ biết ngữ cảnh văn Từ bank lấy nghĩa ngân hàng ngữ cảnh tài chính, lấy nghĩa bờ sông ngữ cảnh thiên nhiên… Giúp máy tính lấy nghĩa (hoặc nghĩa thông dụng) cho kết hợp vấn đề không đơn giản Để lấy nghĩa đúng, Ill Mitamura [90] đưa hệ thống KANT Hệ thống giới hạn dịch lĩnh vực hẹp chế tạo máy - Cấu trúc ngữ pháp phức tạp: hệ thống ngữ pháp ngôn ngữ tự nhiên phức tạp Vì văn phạm ngôn ngữ tự nhiên văn phạm cảm ngữ cảnh Thật khó khăn phải mô tả lại chúng văn phạm phi ngữ cảnh (cho đến tồn giải thuật phân tích cú pháp cho lớp văn phạm phi ngữ cảnh) 228 - Lượng từ vựng nhiều: tiếng Anh có khoảng 500.000 từ thông thường 300.000 thuật ngữ khoa học Việc đưa khối lượng liệu lớn vào máy tính xử lý chúng vấn đề khó khăn - Sự không đồng tiếng Anh tiếng Việt: việc dịch câu từ ngôn ngữ sang ngôn ngữ khác mà giữ nguyên nội dung, tính xác sắc thái biểu cảm vấn đề khó khăn (kể người dịch); bao gồm số trở ngại sau: • Không tương đồng từ vựng: Vi dụ: Từ table tiếng Anh dịch sang tiếng Việt : bảng biểu, bữa tiệc, bàn… Ngôi thứ tiếng Anh “I” , Nhưng tiếng Việt là” tôi, tớ, tao , anh, mình, cháu, bố, mẹ…” • Không tương đồng cấu trúc câu: Trong tiếng Anh tính từ thường đứng trước danh từ, tiếng Việt ngược lại Ví dụ: She bought a blue book yesterday ( Hôm qua, cô ta mua sách màu xanh) Một câu tiếng Anh có động từ, tiếng Việt không hẳn Ví dụ: She is nice (Cô ta đẹp) • Không tương đồng nhóm ngôn ngữ: ví dụ: Is he not a student? (Anh ta sinh viên à?) No (Vâng là sinh viên) 229 PHỤ LỤC J ĐỘ PHỨC TẠP GIẢI THUẬT Gọi n số từ câu e, m số từ câu v Tính độ phức tạp giải thuật 2.1 1.1 Giải thuật 2.1 ( DictAlign): Bước 1: Loại bỏ từ E không dịch ( StopWord) sang V khỏi WE Bước 2: Tìm kiếm tất tổ hợp từ WV câu V từ điển DV Bước 3: Với e ∈ WE, tìm nghĩa e từ điển song ngữ ta có DTE Bước 4: Với dt ∈ DTE vt ∈ WV, tính Sim( dt,vt) theo công thức (2.29) Bước 5: Với cặp ( e,vt) ∈ WE*WV, tính DTSim( e,vt) theo công thức (2.30) Bước 6: Với từ e, chọn cặp ( e,vt), DTSim( e,vt) lớn DTSim( e,vt) > h, h ngưỡng cho trước Bước 7: Tạo tập cặp kết nối ( e,vt) gọi CONN Trong đó: E câu tiếng Anh; V dịch E tiếng Việt; DTE tập ngữ nghĩa từ điển song ngữ cho mục từ e, nghĩa ký hiệu dt WV = {vt | vt ∈ V ∧ vt ∈ DV}, vt từ/cụm từ tiếng Việt có V; WE = { e}; DV từ điển đơn ngữ tiếng Việt 1.2 Độ phức tạp giải thuật 2.1 tính sau: Giả sử lần tìm kiếm từ điển cho từ hết đơn vị thời gian Giả thiết số từ DT m Bước ÆB1 = O(k), giả sử có k (km; ngược lại O(m2); Ví dụ: Cho cặp câu E = some1 people2 love3 to4 live5 in6 a7 countryside8, while9 others10 prefer11 town12 life13 V = Một vài1 người2 thích3 sống4 ở5 nông thôn6, khi7 người khác8 thích9 sống10 thành thị11 hơn12 WE = {some, people, love, live, in, a, countryside, while, others, prefer, town, life} WV = {Một vài, người, thích, sống, ở, nông thôn, khi, người khác, thích, sống, thành thị, hơn} Kết tìm từ điển từ people gọi DT(people) sau: DTE = DT(people) = {người, nhân dân, dân chúng, quần chúng, người ta, thiên hạ, bà con, họ hàng, thần dân,…} DTSim(people, người) = max{ Sim(người, người), Sim(nhân dân, người), Sim(dân chúng, người), Sim(quần chúng, người), Sim(người ta, người), Sim(thiên hạ, người), Sim(bà con, người), Sim(họ hàng, người),…} = 2/2 = 1; Tính độ phức tạp giải thuật 2.2 2.1 Giải thuật 2.2 (ClassAlign):Đối sánh từ sở phân lớp từ cho cặp câu (E,V) Bước 1: Gán từ loại cho từ câu E, tách từ câu E để thu We Bước 2: ANS = rỗng Thực giải thuật DictAlign cặp câu (E,V) để xây dựng tập CONN 231 Bước 3: Tìm từ điển để xây dựng tập WV (các từ đồng nghĩa với từ câu V) Bước 4: Với cặp dự tuyển (e,v) ∈ WE*WV, tính xác xuất Pr(e,v) theo công thức (2.4) đến (2.8) Bước 5: Thêm vào tập ANS cặp (e,v) có Pr(e,v) lớn nhất, e, v ∈ WE*WV Bước 6: Tập ANS kết đối sánh từ 2.2 Độ phức tạp giải thuật 2.2 tính sau: Giả sử câu tiếng Anh gán từ loại, có số phần tử n Bước Æ B1 = O(n) Bước Æ B2 = O(n2) Bước Æ B3 = O(n2): giả thiết có n từ đồng nghĩa Bước Æ B4 = O(n2): giả thiết số từ tiếng Anh số từ tiếng Việt Bước Æ B5 = O(n2): giả thiết việc thêm phần tử vào ASN hết đơn vị thời gian Bước Æ B6 = O(1): giả thiết việc xuất liệu hết đơn vị thời gian Kết O(GT2.2) = max(O(B1), , O(B6)) = O(n2); Tính độ phức tạp giải thuật 3.1 3.1 Giải thuật 3.1 (GT3.1): Tìm từ trung tâm cụm danh từ sở tiếng Anh (Y5) Nhập: Cụm danh từ tiếng Anh gán nhãn từ loại Xuất: Từ trung tâm (Y5) Phương pháp: Nếu cụm danh từ sở có phần tử thực bước 6, Ngược lại thực bước 1; 232 Bước 1: Tìm từ phải qua trái, gặp từ có từ loại tập {NN, NNP, NNPS, NNS} Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 2; Bước 2: Tìm từ phải qua trái, gặp từ có từ loại tập {$, #} Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 3; Bước 3: Tìm từ phải qua trái, gặp từ có từ loại CD Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 4; Bước 4: Tìm từ phải qua trái, gặp từ có từ loại tập {JJ, JJS, RB, JJR} Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 5; Bước 5: Y5 từ tận bên phải cụm danh từ sở trả cho chương trình thành phần Y5 ; Bước 6: trả thành phần Y5 ; 3.2 Độ phức tạp giải thuật 3.1 tính sau: Giả sử cụm danh từ nhập vào có n từ - Nếu n=1 Æ O(GT3.1) = O(1) - Nếu n>1: Bước Æ B1 = O(n) Bước Æ B2 = O(n) Bước Æ B3 = O(n) Bước Æ B4 = O(n) Bước Æ B5 = O(1) Bước Æ B6 = O(1) Kết quả: O(GT3.1) = Max(O(B1), …, O(B6)) = O(n) 233 Tính độ phức tạp giải thuật 3.2 4.1 Giải thuật 3.2 (GT3.2): Xác định từ trung tâm có liên từ tách cụm danh từ sở Nhập: Cụm danh từ sở tiếng Anh gán nhãn từ loại Xuất: phần phụ trước (Y1Y2Y3Y4), trung tâm (Y5) phần phụ sau (Y6a, Y6b) Phương pháp: Bước 1: Chạy giải thuật 3.1 để xác định từ trung tâm (Y5) vị trí h cụm danh từ sở gồm n từ (h ≤ n) Bước 2: Mở rộng từ trung tâm tách cụm danh từ sở đoạn mã sau begin foundCC=True; Y5= từ vị trí h; h2 = h; while ((h>2)and(foundCC)) begin /*bài toán có nhiều liên từ thành phần Y5*/ if ( h-1 vị trí từ có từ loại CC) then begin Y5 = hai từ vị trí ( h-1, h) + Y5; /*thêm h-2 vòng ngoài*/ h = h-2; end else foundCC = false; end if (h>1) then tách vị trí từ đến h-1 vào thành tố phụ trước(Y1Y2Y3Y4); if (h2= k O(k2) ngược lạiÆ O(GT5.6) = O(n2) Tính độ phức tạp giải thuật 5.7 8.1 Giải thuật 5.7 (GT5.7): Giải xung đột thành phần chứa điểm neo có nhiều tính từ (thành phần d mô tả hình 5.15) Nhập: thành phần d chứa nhiều tính từ 238 Xuất: Điểm neo tương ứng với cận phải cụm danh từ sở tiếng Việt Phương pháp: Bước 1: Đánh số mã loại tập d Ví dụ: JJ JJ… JJ ∈ d ; JJ JJ JJ ⇒ JJ JJ …JJ k Bước 2: Đối sánh từ tập d Gọi i , i , …i , vị trí đối sánh từ tương ứng bên tiếng Việt; k lấy i , i , …i ) chọn = max (i1 k Bước 3: Đổi vị trí từ đối sánh với i với từ vị trí JJ chọn k 8.2 Độ phức tạp giải thuật 5.7 tính sau: Giả sử thành phần d có t tính từ, câu tiếng Việt có chiều dài m Bước Æ B1 = O(t) Bước Æ B2 = O(t*m) lặp k (i1, i2, …, ik) lần bên cụm tiếng Việt Bước Æ B3 = O(1) Kết O(GT5.7) = max(O(B1), , O(B3)) = O(t*m) = O(m2) m >= t O(t2) ngược lại Æ O(GT5.7)=O(n2) - Tất giải thuật cài đặt C# phiên 2005 (Microsoft Visual Studio 2005) khoảng 2500 dòng lệnh, không kể phần kết nối với Gate 3.1 để gán nhãn từ loại tiếng Anh, BaseNP chunk tiếng Anh phân đoạn từ tiếng Việt - Luận án sử dụng Giza++ phiên 2003 [98] - Độ phức tạp giải thuật tính toán theo Thomas H.Cormen & et al.[125] Document Outline BIANGOAILUANAN BIATRONGILUANAN LA.12.8.08 [...]... sánh sự tương đồng và khác biệt trong cụm danh từ cơ sở giữa tiếng Anh và tiếng Việt, để tìm ra quy luật chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo trật tự từ của cụm danh từ cơ sở tiếng Việt Xây dựng mô hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo cấu trúc cụm danh từ tiếng Việt - Nghiên cứu để rút trích các luật sinh của cụm danh từ cơ sở tiếng Anh từ ngữ liệu... v = w , w , , w là một cặp câu song ngữ e e e v v v Anh- Việt ( v là bản dịch tương ứng của e), n là số từ của e, m là số từ của v Giả thiết rằng mỗi cụm danh từ cơ sở của câu e (tiếng Anh) được dịch sang một cụm danh từ 14 cơ sở tương ứng của câu v (tiếng Việt) và các từ trong cụm danh từ cơ sở của câu e đã được gán từ loại Các cụm danh từ cơ sở của câu e được xác định bằng công thức (2.1) (2.1) 11... các từ trong ngôn ngữ đích - Trong luận án này, chúng tôi khai thác đặc tính ngôn ngữ đích như phân đoạn từ, đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngôn ngữ đích Với đặc tính phân đoạn từ và đặc tính trật tự từ, luận án tiến hành khai thác các đặc tính này ở bước tiền xử lý Sau đó mới thực hiện đối sánh từ trên mô hình thống kê thông qua mã nguồn mở Giza++ [98] Với các. .. về xác định cụm danh từ tương ứng Anh- Việt .125 Hình 5.3 Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt 126 Hình 5.4 Mô hình APAP 128 Hình 5.5 Mô hình APAP-WS 129 Hình 5.6 Mô hình APAP-STT .130 Hình 5.7 Mô hình APAP-LCC 131 ix Hình 5.8 Mô đun đối sánh điểm neo 132 Hình 5.9 Giải thuật tính hệ số tương đồng từ kho ngữ liệu song ngữ 139 Hình. .. danh từ cơ sở tương ứng Anh- Việt - Xây dựng kho ngữ liệu song ngữ đã được đối sánh ở mức câu để thực nghiệm Xây dựng các bộ ngữ liệu mẫu để đánh giá các giải thuật và các mô hình đề xuất 1.3 Phạm vi nghiên cứu và các bài toán chính Nghiên cứu của luận án tập trung vào cụm danh từ cơ sở, một tập con của cụm danh từ, phù hợp với mục tiêu của luận án là xác định các cụm danh từ cơ sở tương ứng Anh- Việt Việc... cụm danh từ cơ sở tiếng Việt và rút trích được các cặp cụm danh từ cơ sở tương ứng Anh- Việt - Cho luật sinh của cụm danh từ cơ sở tiếng Anh và cặp câu song ngữ AnhViệt Chúng tôi xây dựng giải thuật để tạo tự động luật sinh cụm danh từ cơ sở tiếng Việt thông qua quá trình chuyển đổi cây cú pháp mức cụm danh từ cơ sở và sử dụng các từ đặc trưng trong tiếng Việt - Giải quyết vấn đề đối sánh rỗng, vấn đề... sự tương đồng và khác biệt giữa Mục 2.3 trình bày các phương pháp đối sánh từ hiện nay Mục 2.4 mô tả khái quát các nguồn tài nguyên sử dụng trong luận án và các tiêu chí nhận diện từ trong tiếng Việt 2.1 Các định nghĩa và phát biểu hình thức • Cụm danh từ cơ sở Định nghĩa 2.1: Cụm danh từ cơ sở tiếng Anh (BaseNP) là một cụm danh từ, nó bao gồm từ trung tâm là danh từ, các bổ ngữ trước (như các hạn định. .. Cấu trúc cơ bản của cụm danh từ .28 Bảng 2.11 Phân loại các nhóm tính từ .29 Bảng 2.12 Trật tự từ trong cấu trúc cụm danh từ tiếng Anh 30 Bảng 2.13 Các biến thể trong cụm danh từ tiếng Anh .32 Bảng 2.14 Cấu trúc của cụm danh từ tiếng Anh, tiếng Việt 34 Bảng 2.15 Cấu trúc cụm danh từ tiếng Anh theo John Eastwood .36 Bảng 2.16 Cấu trúc cụm danh từ tiếng Anh theo Vũ... những thách thức này là cần thiết Cuối cùng, xét về mặt thực tiễn việc thu thập các cụm danh từ cơ sở song ngữ chuẩn làm dữ liệu cho các ứng dụng về xử lý ngôn ngữ tự nhiên, như dịch máy, truy hồi thông tin xuyên ngôn ngữ, xây dựng từ điển, nhận dạng tiếng nói, v.v trong đó, cụm danh từ cơ sở đơn ngữ và song ngữ đóng vai trò quan trọng Vì vậy, việc xác định và rút trích cụm danh từ cơ sở Anh- Việt tương. .. Anh- Việt tương ứng cần được nghiên cứu Những vấn đề nêu trên chính là động cơ thúc đẩy chúng tôi chọn đề tài Mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng Anh- Việt 3 1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu Chúng tôi đặt ra mục tiêu nghiên cứu chính của luận án là nhận biết cụm danh từ cơ sở tiếng Việt qua cặp câu song ngữ Anh- Việt Trên kết quả ... vào cụm danh từ sở, tập cụm danh từ, phù hợp với mục tiêu luận án xác định cụm danh từ sở tương ứng Anh- Việt Việc giới hạn nghiên cứu mức cụm danh từ sở suất phát từ lý sau: Thứ cụm danh từ nói... xác định cụm danh từ sở tương ứng Anh- Việt Trong luận án này, khai thác hai đặc tính ngôn ngữ tiếng Việt phân đoạn từ trật tự từ vào toán nhận biết cụm danh từ sở tiếng Việt Ngoài hai đặc tính. .. từ tiếng Việt 2.1 Các định nghĩa phát biểu hình thức • Cụm danh từ sở Định nghĩa 2.1: Cụm danh từ sở tiếng Anh (BaseNP) cụm danh từ, bao gồm từ trung tâm danh từ, bổ ngữ trước (như hạn định từ,

Ngày đăng: 16/04/2016, 08:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w