1. Trang chủ
  2. » Giáo án - Bài giảng

Xử lý ngôn ngữ tự nhiên

416 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 416
Dung lượng 17,26 MB

Nội dung

NGUN CHÍ HIẼU NGƠN NGỮ Tư NHIÊN NHÀ XUAT BẢN ĐẠI HỌC CỊNG NGHIẸP THÀNH PHÙ HỊ CHÍ MINH NGUN CHÍ HIẾU XỬ LÝ NGƠN NGỮ Tự NHIÊN NHÀ XT BẢN ĐẠI HỌC CƠNG NGHIỆP THÀNH PHỐ nộ CHÍ MINH TRƯƠNG ĐẠI HỌC CÔNG NGHIỆP TP.HCM TH ự VIE N MÂVẠCH:LZ/jẠftẠ.ýy LỜI NĨI ĐÀU Ngơn ngừ kênh giao tiếp, nhờ có ngơn ngữ, chủ thề có thề trao đôi thông tin tương tác lẫn Xù lý ngồn ngữ tự nhiên q trình biến đơi ngôn ngừ cùa người thành dạng liệu đé máy tính có the hiểu, thơng tin qua lại máy tính người, từ phát triến thành ứng dụng phục vụ nhu cầu cùa người Cuốn sách xử LÝ NGÔN NGỮ Tự NHIÊN cung cấp cho bạn đọc tri thức tảng liên quan đến cách thức tạo cho máy tính khà xử lý hiều ngôn ngữ cùa người, xử LÝ NGƠN NGỮ Tự NHIÊN có 10 chương, gồm nội dung sau: Chương 1: Chương mở đầu - Khái quát nội dung; Chương 2: Giới thiệu biểu thức quy Automatic; Chương 3: Giới thiệu mơ hình N-grams; Chương 4: Giới thiệu phương pháp tính tốn dề gán mã từ loại; Chương 5: Phân tích mơ hình Markov ấn giới thiệu giài thuật Maxium Entropy; Chương 6: Giới thiệu ngừ pháp hình thức tiếng Anh; Chương 7: Giới thiệu phương pháp phân tích cú pháp: phương pháp lập trình động phương pháp phân tích phan; Chương 8: Giới thiệu phương pháp phân tích cú pháp thống kê; Chương 9: Giới thiệu ngừ nghĩa từ vựng; Chương 10: Giới thiệu vấn đề liên quan đến lính tốn ngừ nghĩa từ vựng Trong trình biên soạn, dã cỏ nhiều cố gắng, song tác phẩm không tránh khịi nhừng thiếu sót Rất mong nhận góp ý độc giả, giới chun mơn để sách hoàn thiện Xin trân trọng cảm ơn TÁC GIẢ MỤC LỤC Chương MỚDẲƯ 10 1.1 Tri thức xử lý ngôn ngữ tiếng nói 12 1.2 Sự mơ hồ 14 1.3 Mơ hình giải thuật 16 1.4 Phép thừ Turing 18 1.5 Một số ứng dụng xử lý ngôn ngừ tự nhiên 21 1.6 Lịch sử vắn tắt 22 1.6.1 Nền tảng bên trong: 1940 - 1950 22 1.6.2 Hai trương phái: 1957 - 1970 24 1.6.3 Bốn mơ hình: 1970 - 1983 25 1.6.4 Hai loại mơ hình giai đoạn: 1983 -1993 .26 1.6.5 Giai đoạn: 1994- 1999 27 1.6.6 Học máy: 2000 - 2008 27 1.6.7 Nhừng nghiên cửu khác 29 1.6.8 Tóm tát cuối 29 Chương BIẾU THỨC CHÍNH QUY VÀ AUTOMATA 31 2.1 Biểu thức quy 32 2.1.1 Biểu thức chỉnh quy 32 2.1.2 Các toán tử đơn giàn .37 2.1.3 Một ví dụ đơn giản 38 2.1.4 Ví dụ phức tạp 39 2.1.5 Toán tử nâng cao 40 2.1.6 Biểu thức quy thay chương trình ELIZA 41 2.2 Automat trạng thái hữu hạn 43 2.2.1 FSA nhặn biết ngơn ngữ lồi cừu 44 2.2.2 Ngơn ngữ hình thức 48 2.2.3 Một ví dụ khác 50 2.2.4 FSA không đơn định 51 2.2.5 Sừ dụng NFSA đề nhận chuỗi 52 2.2.6 Các chiến lược tìm kiếm 55 2.2.7 Automat đơn định không đơn định 59 2.3 Ngơn ngữ quy FSA 60 Chương NGRAMS 64 3.1 Đếm từ ngữ liệu 67 3.2 Mơ hình N-Gram đơn giản 69 3.3 Tập ngữ liệu huấn luyện tập kiềm tra 76 3.3.1 Độ nhạy mơ hình N-Gram ngữ liệu 78 3.3.2 Các từ 82 3.4 Dánh giá mơ hình N-gram 83 3.5 Làm mịn liệu 86 3.5.1 Làm mịn theo phương pháp Laplace 87 3.5.2 Chiết khấu Good-Turing 90 3.5.3 Vấn dề ước tính Good - Turing 93 3.6 Nội suy 95 3.7 Quay lui 96 3.7.1 Katz Backoff; 96 3.7.2 Chi tiết tính Katz Backoff a p* 99 3.8 Bộ công cụ định dạng dừ liệu 100 3.9 Những vấn đề mơ hình ngơn ngừ 102 3.9.1 Phương pháp làm mịn Kneser - Ney 102 3.9.2 Class - Based N-Gram 105 3.9.3 Mơ hình thích nghi 106 3.9.4 Sử dụng thông tin khoảng cách 107 3.10 Lý thuyết thông tin 108 3.10.1 Cross - Entropy để so sánh mơ hình 112 3.10.2 Entropy tiếng Anh tỷ suất Entropy bất biến 113 Chương GÁN MÃ TỪ LOẠI 117 4.1 Từ loại tiếng Anh 117 4.2 Tập từ loại tiếng Anh 126 4.3 Gán mã từ loại 131 4.4 Gán mã từ loại luật sinh 135 4.5 Gán mẫ từ loại mơ hình Markov ân 141 4.5.1 Ví dụ tính chuỗi mã từ loại 145 4.5.2 Mơ hình Markov ần 147 4.5.3 Giải thuật Viterbi toán gán mã từ loại 149 4.5.4 Mở rộng mơ hình HMM thành mơ hình Trigram 152 4.6 Gán mã từ loại bẳng phương pháp dịch chuyển đồi 155 4.6.1 Các luật TBL áp dụng 156 4.6.2 Các luật TBL học 157 4.7 Đánh giá phân tích lỗi 160 Chương MÔ HÌNH MARKOV ÂN MAXIMUM ENTROPY 165 5.1 Chuỗi Markov 166 5.2 Mơ hình Markov ẳn 168 5.3 Tính xác suất giài thuật Forward 171 5.4 Giài thuật Viterbi 177 5.5 Huấn luyện HMM bàng Forward - Backward 181 5.6 Mơ hình Maximum Entropy .188 5.6.1 Hồi quy tuyến tính 190 5.6.2 Hồi quy Logistic 194 5.6.3 Phân lớp hồi quy Logistic 196 5.6.4 Học hồi quy logic 197 5.7 Mơ hình MaxEnt 198 5.8 Mơ hình MaxEnt Markov 204 Chương NGỮ PHÁP HÌNH THỨC CỦA TIỂNG ANH 210 6.1 Thành tố 212 6.2 Văn phạm phi ngữ cảnh 213 6.3 Một số luật sinh tiếng Anh 219 6.3.1 Các cấp độ tạo câu 219 6.3.2 Mệnh đề câu 222 6.3.3 Cụm danh từ 223 6.3.4 Sự tương hợp 228 6.3.5 Cụm động từ phân loại 230 6.3.6 Trợ động từ 233 6.3.7 Kết hợp 234 6.4 Treebanks 235 6.4.1 Dự án Penn Treebank 236 6.4.2 Treebank ngữ pháp 238 6.4.3 Tìm kiếm Trecbank 240 6.4.4 Tìm từ .242 6.5 Văn phạm tương dương dạng chuẩn 244 i 6.6 Trạng thái hữu hạn CFG .245 6.7 Văn phạm phụ thuộc 247 6.7.1 Quan hệ từ phụ 250 6.7.2 Ngữ pháp phạm trù 251 6.7.3 Xử lý ngữ pháp người 252 Chương PHÂN TÍCH cú PHÁP 255 7.1 Q trình phân tích giống tìm kiếm 255 7.1.1 Phân tích từ xuống .257 7.1.2 Phân tích từ lên 258 7.1.3 So sánh phân tích từ xuống từ lên 259 7.2 Sự mơ hồ 260 7.3 Tìm kiếm bối cảnh mơ hồ 263 7.4 Phân tích cú pháp phương pháp lập trình động 265 7.4.1 Giài thuật CKY 265 7.4.2 Giải thuật Earley 272 7.4.3 Chart Parsing 279 7.5 Phân tích phần 285 7.5.1 Chunking theo phương pháp máy học 285 7.5.2 Đánh giá hệ thống Chunking 288 Chương PHÂN TÍCH cú PHÁP BÂNG THỐNG KÊ 292 8.1 Văn phạm phi ngữ cảnh có xác suất 293 8.1.1 PCFG để phân giải nhập nhằng 295 8.1.2 PCFG cho mơ hình ngơn ngừ 297 8.2 Phân tích CKY xác suất 299 8.3 Cách học luật sinh xác suất PCFG 301 8.4 Vấn đề với PCFG 303 8.4.1 Mất phụ thuộc cấu trúc luật sinh 303 8.4.2 Sự thiếu nhạy cảm cùa từ vựng phụ thuộc 304 8.5 Chia nhỏ tập ký hiệu không kết thúc 308 8.6 Xác suất từ vựng hóa CFG 310 8.6.1 Phân tích cú pháp Collin 313 8.6.2 Chi tiết phân tích cú pháp Collins 316 8.7 Đánh giá giải thuật phân tích 318 8.8 Sắp xếp lại phân biệt (discriminative reranking) 319 8.9 Phân tích cú pháp dựa mơ hình ngơn ngữ 322 8.10 Phân tích người 323 Chương NGỮ NGHỈA TỪ VỤNG 327 9.1 Nghĩa cùa từ 328 9.2 Mối quan hệ ngữ nghĩa .333 9.2.1 Quan hệ đồng nghĩa trái nghĩa 333 9.2.2 Quan hệ thuộc cấp bao hàm 335 9.2.3 Lĩnh vực ngữ nghĩa 336 9.3 WordNct: Cơ sờ liệu mối quan hệ từ vựng 337 9.4 Các thành phần cùa kiện 340 9.4.1 Các vai trò liên quan đến chủ đê 341 9.4.2 Dạng thay 344 9.4.3 Vấn đề với vai trò chủ dề 345 9.4.4 Proposition Bank 347 9.4.5 FrameNct 348 9.4.6 Giới hạn lựa chọn 351 9.5 Phân tích lừ gốc 355 9.6 Phép ẩn dụ 358 Chương 10 TÍNH NGŨ' NGHĨA TỪ 361 10.1 Tổng quan xác định nghĩa cho từ 361 10.2 Phương pháp xác định nghĩa từ có giám sát 363 10.2.1 Rút trích thuộc tính cách học có giám sát 364 10.2.2 Phân lớp Naive Bayes danh sách dịnh 366 10.3 Đánh giá WSD, chuấn mức trần 368 10.4 WSD bàng phương pháp từ điền từ dồng nghĩa 370 10.4.1 Giải thuật Lcsk 370 10.4.2 Giới hạn ưu tiên chọn lựa 373 10.5 Tối thiều giám sát WSD: Bootstrapping 375 10.6 Từ tương tự: Từ điền từ đồng nghĩa 378 10.7 Từ tương tự: Phương pháp phân bố 386 10.7.1 Định nghĩa vector đồng xuất từ 388 10.7.2 Phép đo kết hợp với ngữ cảnh 390 10.7.3 Xác định tương dồng hai vector 393 10.7.4 Đánh giá phân bố từ tương tự 397 10.8 Quan hệ hạ danh quan hệ từ khác 398 10.9 Gán mẫ từ loại vai trò ngữ nghĩa 402 10.10 Xử lý nhập nhằng nghĩa không giám sát 407 TÀI LIỆU THAM KHÀO 410 Chương MỞ ĐẦU ỉ Chương giới thiệu khải quát nội dung cùa cuồn sách như: tri thức sừ • dụng xừ ìý ngơn ngữ tự nhiên, vắn đề mơ hồ cùa ngôn ngữ, mỏ : ỉ hình giai thuật phổ biển sử dụng tốn xừ lý ngơn ngữ tự nhiên: I phép thừ Turing, số ứng dụng cùa xữ lý ngôn ngừ tự nhiên lịch sừ ị vắn tắt cùa Có thể nói ý tưởng tạo cho máy tính khả xử lý ngơn ngữ người có sẵn bên Cuốn sách chi hoàn thiộn mối quan hệ mật thiết cùa ý tưởng Chúng tơi xin giới thiệu số lĩnh vực đa ngành (vibrant interdisciplinary) như: xử lý ngơn ngừ tiếng nói (speech and language processing), kỹ thuật ngôn ngừ người (human language technology), xử lý ngôn ngữ tự nhicn (natural language processing), ngơn ngữ học tính tốn (computational linguistics), nhận dạng tổng hợp cùa tiếng nói (speech recognition and synthesis) Mục tiêu lình vực đê máy tính “hiểu” ngơn ngừ lồi người cho phép thơng tin qua lại máy tính người, phát triền tương tác giừa người với người khơng ngơn ngừ có thề hiểu hay đơn giản chi xử lý văn bàn tiếng nói Một ví dụ minh họa thực nhiêm vụ kể tác nhân đàm thoại (conversational agent) phim “Chuyến du hành khơng gian" (A Space Odyssey) Chiếc máy tính HAL 900 (HAL: Heuristically programmed ALgorithmìc Computer) phim Stanley Kubrick (2001) phim ưình chiêu rạp chiếu phim Mỹ Trong phim, HAL máy tính với trí thơng minh nhân tạo có hành vi ngơn ngữ tự nhiên nói hiếu tiếng Anh, ngồi làm hoa tiêu thời khắc quan trọng, chí đọc miệng Den thời điểm này, Arthur c Clarke, người tạo nên HAL có chút lạc quan việc suy đoán thời diềm yếu tố nhân tạo HAL sừ dụng tương lai Chúng tơi gọi chương trình HAL mà có thê trị chuyện với người ngôn ngữ tự nhiên tác nhân đàm thoại hệ thống thoại (dialogue system) 10 (10 62) [You] can 't [blame] [theprogram] [for being unable Ỉ0 identify it] COGNIZER TARGET EVALUEE REASON (10.63) [The San Francisco Examiner] issued [a special edition] [yesterday] ARGO TARGET ARG1 ARGM-TMP function SEMANTICROLELABEL(wnZy) returns labeled tree parse*—PARSE(M'ơríZy) for each predicate in parse for each node in parse featurevector ♦— EXTRACTFEATƯRES(z?ơí/e\ predicate, parse) CLASS IF YN D E(node, featurevector, parse) Hình 10.8 Giãi thuật gán mã tù' loại ngữ nghĩa Giải thuật gán mã từ loại vai ưị ngữ nghĩa (semantic-role-labeling) dược phác thảo Hình 10.8 Sau nghiên cứu vai trò ngữ nghĩa (Simmons, 1973), hầu hết cơng việc ghi nhân vai trị ngữ nghĩa bắt dầu bảng cách phân tích cú pháp câu Các phân tích cú pháp sẵn có (như Collins (1996) Charniak (1997)) thường sử dụng để gán cho chuỗi nhập Hình 10.9 cho thấy phân tích cùa ví dụ (10.63) Kết phân tích đỗ tìm tất từ vị ngữ Đối với vị từ duyệt lần đế xác định vai trò cúa chúng Một lớp dã huấn luyện tập liệu thích hợp sau chuyển qua tập thuộc tính thực việc gán mã từ loại thích hợp Quan sát chi tiết tập thuộc tính dược đề xuất Gìldea Jurafsky (2000, 2002) đà tích hợp vào hệ thống gán mà từ loại ngữ nghĩa Trong hình 10.16, thành phần NP-SBJ cho cụm “77ze San Francisco Examiner" dược rút trích • VỊ từ chủ đạo (governing predicate)', trường hợp động từ issued Đối với PropBank, vị từ ln có động từ; FrameNet có vị từ danh từ tính từ VỊ từ 403 thuộc tính quan trọng đê nhàn PropBank FrameNet xác định chi với vị từ cụ thề • Các loại cụm từ cùa thành phần NP (hoặc NP-SBJ): Đơn giàn tên nút cú pháp mà chi phối đen thành phần phân tích Một số vai trị ngừ nghĩa có xu hướng xuất NP, thành phần khác s pp noon yesterday Hình 10.9 Cây phân tích cho cân PropBưnk, cho thấy nhãn đỏi số PropBank Các đường chấm chấm cho thấy thuộc tính đường NP I s ị VP ị FBD cho ARGO, NP-SB.J thành phần "The San Francisco Examiner ” • Từ đứng đầu (head word): Từ đứng đầu thành phần có thê tính tốn với luật head chuẩn (xem chương (hình 6.13)) Những từ đứng đầu chắn (ví dụ: đại từ) nơi ràng buộc mạnh mẽ vai trị ngữ nghĩa • POS thành phần chứa từ đứng đầu NNP • Đường phân tích từ thành phần tới vị từ Đường đánh dấu bàng đường chấm chấm hình 10.16 Theo Gildea Jurafsky, 2000, có thề sử dụng 404 dường thẳng tuyến tính dê biểu diễn cho đường NP I s ị VP \,VBD t vả ị đại diện cho di chuyền lên xuống cây, tương ứng • Tiếng (voice) cùa mệnh đề xuất thành phân, trường hợp chủ dộng (tưomg phàn với thụ động) Các câu bị động có xu hướng liên kết mạnh mẽ với vai trị ngừ nghĩa • VỊ trí tuyến tính (linear position) nhị phân thành phần dối với vị từ (trước hay sau) • Phân loại (Subcategorization) cùa vị từ Xem lại chương phân loại cùa động từ tặp hợp đối số xuất cụm động từ Chúng ta có thề trích rút thơng tin bàng cách sử dụng luật cấu trúc cụm từ mà mờ rộng tới cha cùa vị từ; VP—>NP pp cho vị từ hình 10.16 Hệ thống gán nhãn vai trị ngữ nghĩa thường trích rút nhiều thuộc tính khác, chầng hạn nhãn tên thực thề (nó hừu ích để biết thành phần LOCATION PERSON), phiên phức tạp đường dần thuộc tính (đi lên hay xuống, cho dù nút đặc biệt xảy dường dẫn), từ tận bên phải bên trái cùa thành phần Bây có tập hợp quan sát ví dụ sau, với vector thuộc tính: ARGO: [issued, NP, Examiner, NNP, NPtSỊ.VPịVBD, active, before, VP —> NP PP] Như đà xác dịnh nghĩa cho từ (WSD: Word Sense Disambiguation), có thề phân chia quan sát thành tập dừ liệu huấn luyện thừ nghiệm, sử dụng ví dụ huấn luỷện bàng phương pháp học máy có giám sát xây dựng phân lớp Bộ phân lớp hồ trợ vector máy (SVM: Support Vector Machine) Entropy cực dại mang lại kết quà tốt tiêu chuẩn đánh giá Sau huấn luyện, phân lớp có thề sử dụng câu chưa 405 gán mã từ loại Chính xác hơn, câu phân tích cú pháp sử dụng thù tục tương tự mô tả để huấn luyện Thay huấn luyện lớp theo bước đơn (single-stage classifier), số giải thuật gán nhãn vai trị (role-labelừìg) thực phân lớp theo nhiều bước cho hiệu quà hơn: • Lược bớt (pruning)', để tăng tốc độ thực thi, số thành phần câu dược loại bò dựa quy tắc đơn giản • Nhận dạng (Identification): phân lớp nhị phân nút đối số dề dán nhãn ARG NONE • Phân lớp (Classification)' ỉ-of-N lớp tất cà thành phần gán mă từ loại ARG bước trước Tất cà hộ thống ghi nhàn ngừ nghĩa cần phài xử lý số vấn đề như: thành phần FrameNet PropBank khơng trùng lặp Vì vậy, hệ thống gán mã ngữ nghĩa thấy hai thành phần trùng lặp đối số, cần phâi định xem xác Ngồi ra, vai trò ngừ nghĩa cùa thành phần câu không độc lập; PropBank không cho phép đối so chì định kép, nghĩa nhãn thành phần ARGo sỗ làm tăng xác suất cho thành phần khác gán mã ARG| Thay sử dụng phân tích cú pháp dừ liệu đầu vào, có thề thực việc gán mã từ loại ngữ nghĩa trực tiếp từ dừ liệu thô (hoặc gán mà từ loại) vản băng cách áp dụng kỹ thuật phân đoạn câu (chunking) Kỹ thuật dược sử dụng trích rút thực thề phân tích cú pháp phần (partial parsing) Kỹ thuật đặc biệt hữu ích lĩnh vực sinh học Cuối cùng, hệ thống gán mã vai trò nghĩa đánh giá bẳng độ xác, độ thu hoi độ đo F (F- measure) Ilệ thống dựa luật sinh sử dụng hệ bàn, ví dụ, gắn thẻ NP thứ trước vị từ ARGo NP thứ sau vị từ ARG| chuyền đồi chúng cụm động từ bị động 406 10.10 Xử lý nhập nhằng nghĩa không giám sát Sẽ khó khăn ton xây dựng tập huấn luyện lớn đỏ, từ gán mã ngữ nghĩa Vì lý này, phương pháp không giám sát dùng đề giải nhập nhàng nghĩa lĩnh vực nghiên cứu quan tâm Trong phương pháp tiếp cận khơng có giám sát, không sừ dụng nghĩa người xác định Thay vào đó, tập "các nghĩa" từ tạo tự động từ thực thê từ tập huấn luyện Trong phương pháp Schutze (1992, 1998), ông ta biểu diễn phần tử tập huấn luyện vector thuộc tính ngừ cảnh phân bố Như đà giới thiệu phần 10.7, biểu diễn từ w vector dựa tần số từ lân cận Ví dụ, cho từ mục tiêu w, phài chọn 1000 từ xảy thường xuyên vòng 25 từ thề chửa w 1000 từ trở thành phạm vi vector Gọi fl tần suất trung bình mà từ i xuật ngữ cành từ w Vector W cho chuỗi quan sát dược định nghĩa sau: w = ơì,/2//3' — //iooo) Chúng ta sử dụng phiên phức tạp để tính w ngữ cãnh phân bố Ví dụ, Schiitze xác định vector ngữ cảnh từ vv khơng phài vector dầu tiên, thay vào đơng xuất vector thứ hai Có nghĩa vector ngừ cảnh cho từ w tính bời từ X ngữ cảnh U’, sau vector X tính từ giá trị trung bình vector X Chúng ta xem làm dể sử dụng nhừng vector ngữ cành WSD khơng có giám sát từ w Đổ huấn luyện, cần ba bước sau: For each token Wi ofword Vỉ in a corpus, compute a context vector c Use a clustering algorithm to cluster these word-token context vectors c into a predefined number ofgroups or clusters Each cluster defines a sense ofNV Compute the vector centroid of each cluster Each vector centroid Sj 407 is a sense vector representing that sense of w Vì giải thuật khơng giám sát, SC không gán tên cho nghĩa cùa từ w mà chì dề cập đến nghĩa thứ j từ M> Đe xác định tính nhập nhàng token t cùa từ w, cỏ ba bước: Compute a context vector c for t as discussed above Retrieve all sense vectors Sjfor w Assign t to the sense represented by the sense vector Sjthat is closest to t Tất cằn giải thuật gom cụm ma trận khoảng cách vector May mán thay, gom cụm vấn đề nghiên cứu nhiều với giái thuật có thề áp dụng cho yếu tố đâu vào có câu trúc vector giá trị số (Duda Hart, 1973) Một kỳ thuật thường sử dụng ứng dụng xử lý ngôn ngữ gom cụm tích tụ (agglomerative) Trong kỹ thuật này, cụm số thảnh phần huấn luyện N ban đầu gán cho nhóm riêng Các cụm sau dó tạo thành mơ hình từ lên bàng cách kết hợp liên tiếp hai hay nhiều cụm tương tự Quá trình tiếp tục đạt số cụm định cụm có kết quà tốt Trong trường hợp số lượng cụm huấn luyện hay chi phí q tốn thực lay mầu ngẫu nhiên tập huấn luyện ban đầu (Cutting 1992) để đạt kết tương tự Làm có the đánh giá phương pháp này? Như thường lệ, cách tốt nhắt thực việc đánh giá vivo, dó giài thuật WSD nhúng hệ thống Neu có cách ánh xạ tự động vào lớp nghĩa dẫn xuất thành nhãn, sau so sánh chúng với tập nhãn xác định bời nhận dạng khơng có giám sát Một cách đê thực ánh xạ cụm nghĩa tới nghĩa dà xác định trước cách chọn nghĩa mà “token ” cùa trùng lặp nhiều với thành phần cụm 408 BÀI TẬP 10.1 Thu thập ngừ liệu (corpus) nhò câu mẫu có độ dài khác từ báo tạp chí Sừ dụng WordNet từ điền đề xác định có nghĩa cho từ câu? Có tồ hợp nghĩa cho câu riêng biệt? 10.2 Sử dụng WordNet từ diển tham chiếu chuẩn, gán mà từ loại lớp từ mở ưong ngừ liệu bạn với nhãn xác Việc chọn nghĩa có phài nhiệm vụ đơn giàn không? Tại sao? 10.3 Sử dụng từ điển, mô giải thuật phân giải nhập nhằng Lesk (disambiguation Lesk) cho cụm từ “Time flies like an arrow” Giả sừ ràng từ hợp thành nghĩa (disambiguation) lúc, từ trái sang phải, kết quà từ định trước dược sử dụng trình 10.4 Hiện thực thử nghiệm với hệ thống phân giải nhập nhàng nghĩa danh sách định sừ dụng thuộc tính mơ hình hình 10.2 Sử dụng ưong các gói danh sách định WEKA (WEKA: Waikato Environment for Knowledge Analysis) 10.5 Hiện thực giải thuật phân phối từ tương tự để làm phép đo kết hợp khác đo vector tương tự hình 10.13 409 TÀI LIỆU THAM KHẢO [1| Aho, A V., Scthi, R., and Ullman, J D (1986) Compilers: Principles, Techniques, and Tools Addison-Wesley, Reading, MA [21 Allen, J (1995) Natural Language Understanding Benjamin Cummings Menlo Park, CA [3] Backus, J.w (1959) The syntax and semantics of the proposed international algebraic language of the Zurch ACM-GAMM Conference In Information Processing: Proceedings of the International Conference on Information Processing, Paris, pp 125-132 UNESCO [4] Berger, A., Della Pictra, s A., and Della Pietra, V J (1996) A maximum entropy approach to natural language processing Computational Linguistics, 22(1), 39-71 [51 Bledsoe, w w and Browning, I (1959) Pattern recognition and reading by machine In 1959 Proceedings of the Eastern Joint Computer Conference, pp 225-232 Academic, New York [6J Brill, E (1995) Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging Computational Linguistics, 21(4), 543-566 17] Brill, E (1997) Unsupervised learning of disambiguation rules for part of speech tagging Unpublished MS 18] Brown, J s and Burton, R R (1975) Multiple representations of knowledge for tutorial reasoning In Bobrow, D G and Collins, A (Eds.), Representation and Understanding, pp 311-350 Academic Press, New York 19] Brown, p F., Della Pictra, s A., Della Pielra, V J., and Mercer, R L (1993) The mathematics of statistical machine ưanslation: Parameter estimation Computational Linguistics, 19(2), 263-311 [10] Brown, p F., Della Pietra, V J., deSouza, p V., Lai, J c., and Mercer, R L (1992) Class-based n-gram models of natural language Computational Linguistics, 18(4), 467-479 410 [11] Charniak, E (1993) Statistical Language Learning MIT Press [ 12] Chomsky, N (1956) Three models for the description of language IRI Transactions on Information Theory, 2(3), 113-124 [13] Chomsky, N (1956/1975) The Logical Structure of Linguistic Theory Plenum Chomsky, N (1957) Syntactic Structures Mouton, The Hague [14] Chomsky, N (1963) Formal properties of grammars In Luce, R D., Bush, R„ and Galanter, E (Eds.), Handbook of Mathematical Psychology, Vol 2, pp 323-418 Wiley, New York [15] Chomsky, N and Miller, G A (1958) Finite-State languages Information and Control, 1,91-112 [16] Church, K w and Patil, R (1982) Coping with syntactic ambiguity American Journal of Computational Linguistics, 8(3-4), 139-149 [17] Cohen, p R and Perrault, c R (1979) Elements of a plan based theory of speech acts Cognitive Science, 3(3), 177-212 [18] Colmerauer, A (1975) English version, Metamorphosis grammars In L Bole, (Ed.), Natural Language Communication with Computers, Lecture Notes in Computer Science 63, Springer Verlag, Berlin, 1978, pp 133-189 [19] Cullingford, R E (1981) SAM In Schank, R c and Riesbeck, c K (Eds.), Inside Computer Understanding: Five Programs plus Miniatures, pp 75-119 Lawrence Erlbaum, Hillsdale, NJ [20] Collins, M J (1999) Head-driven Statistical Models for Natural Language Parsing Ph.D thesis University of Pennsylvania, Philadelphia [21] Davis, K 11., Biddulph, R., and Balashek, S (1952) Automatic recognition of spoken digits Journal of the Acoustical Society of America, 24(6), 637-642 411 [22] Dejean, H and Tjong Kim Sang, E F (2001) Introduction to the CoNLL-2001 shared task: Clause identification In Proceedings of CoNLL-2001 [23] Earley, J (1968) An efficient context-free parsing algorithm Ph.D thesis, Carnegie Mellon University, Pittsburgh, PA [24] Earley, J (1970) An efficient context-free parsing algorithm Communications of the Association for Computing Machinery, 6(8), 451-455 Reprinted in Grosz et al (1986) [25] Fellbaum, c (Ed.) (1998) WordNet: An Electronic Lexical Database MIT Press, Cambridge, MA [26] Fillmore, c J (1968) The case for case In Bach, E w and Harms, R T (Eds.), Universals in Linguistic Theory, pp 1- 88 Holt, Rinehart & Winston, New York [27] Francis, w N (1979) A tagged corpus - problems and prospects In Greenbaum, s., Leech, G., and Svartvik, J (Eds.), Studies in English linguistics for Randolph Quirk, pp 192-209 Longman, London and New York [28] Gale, w A., Church, K w., and Yarowsky, D (1992) Estimating upper and lower bounds on the performance of word-sense disambiguation programs In ACL-92, Newark, DE, pp 249-256 ACL [29] Gale, w A., Church, K w., and Yarowsky, D (1993) A method for disambiguating word senses in a large corpus Computers and the Humanities, 26, 415-439 [30] Grosz, B J (1977) 'rhe representation and use of focus in a system for understanding dialogs In IJCAI-77, Cambridge, MA, pp 6776 Morgan Kaufmann Reprinted in Grosz Ct al (1986) [31] Harris, z s (1962) String Analysis of Sentence Structure Mouton, The Hague [32] Hobbs, J R (1978) Resolving pronoun references Lingua, 44, 31 1-338 Reprinted in Grosz et al (1986) 412 [33] Hudson, R (1984) Word Grammar Basil Blackwell, Oxford [34] Jurafsky, D., Wooters, c., Tajchman, G., Segal, J., Stolcke A., Fosler, E., and Morgan, N (1994) The Berkeley restaurant project In ICSLP-94, Yokohama, Japan, pp 2139-2142 [35] Jurafsky D and James H Martin (2008), Speech and Language Processing, 2nd Edition, Prentice Hall [36] Kasami, T (1965) An efficient recognition and syntax analysis algorithm for context-free languages Tech rep AFCRL-65-758 Air Force Cambridge Research Laboratory, Bedford, MA+ [37] Kay,M (1979) Functional grammar In BLS-79, Berkeley, CA, pp 142-158 [38] Kilgarriff, A and Palmer, M (Eds.) (2000) Computing and the Humanities: Special Issue on SENSEVAL, Vol 34 Kluwer [39] Kintsch,w (1974) The Representation ofMeaning inMemory Wiley, New York [40] Kleene, S c (1956) Representation of events in nerve nets and finite automata In Shannon, c and McCarthy, J (Eds.), Automata Studies, pp 3-41 Princeton University Press, Princeton, NJ [41] Koenig, w., Dunn, H K., Y., L., and Lacy (1946) Ilie sound spectrograph Journal of the Acoustical Society of America, 18, 19-49 [42] Kucera, H and Francis, w N (1967) Computational analysis of present-day American English Brown University Press, Providence, RI [43] Kupiec, J (1992) Robust part-of-speech tagging using a hidden Markov model Computer Speech and Language, 6, 225-242 [44] Lehnert, w G (1977) A conceptual theory of question answering In IJCAI-77, Cambridge, MA, pp 158-164 Morgan Kaufmann [45] Manning, c D and Sch 'utze, H (1999) Foundations of Statistical Natural Language Processing MIT Press, Cambridge, MA [46] Marcus, M p (1990) Summary of session 9: Automatic acquisition of linguistic structure In Proceedings DARPA Speech 413 [55] Norvig, p (1991) Techniques for automatic mcmoization with applications to context-free parsing Computational Linguistics, 17(1), 91-98 [56] Palmer, M., Fellbaum, c., Cotton, s., Delfs, L., and Dang, H T (2001) English tasks: All-words and verb lexical sample In Proceedings of SENSEVAL-2: Second International Workshop on Evaluating Word Sense Disambiguation Systems, Toulouse, France [57] Palmer, M., Kingsbury, p., and Gildea, D (2005) The proposition bank: An annotated corpus of semantic roles Computational Linguistics, 31(1), 71-106 [58] Pearl, J (1988) Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference Morgan Kaufman, San Mateo, Ca [59] Pereira, F c N and Warren, D H D (1980) Definite clause grammars for language analysis— a survey of the formalism and a comparison with augmented transition networks Artificial Intelligence, 13(3), 231-278 [60] Perrault, c R and Allen, J (1980) A plan-based analysis of indirect speech acts American Journal of Computational Linguistics, 6(3-4), 167-182 [61] Pollard, c and Sag, I A (1994) Head-Driven Phrase Structure Grammar University of Chicago Press, Chicago [62] Quillian, M R (1968) Semantic memory In Minsky, M (Ed.), Semantic Information Processing, pp 227-270 MIT Press, Cambridge, MA [63] Rabin, M o and Scott, D (1959) Finite automata and their decision problems IBM Journal of Research and Development, 3(2), 114—125 [64] Rabiner, L R and Juang, B (1993) Fundamentals of speech Recognition Prentice Hall, Englewood Cliffs, NJ 415 (65] Ramshaw, L A and Marcus, M p (1995) Text chunking using transformation based learning In Proceedings of the Third Annual Workshop on Very Large Corpora [66] Resnik, p (1998) Wordnet and class-based probabilities In Fcllbaum c (Ed.), WordNet: An Electronic Lexical Database MIT Press, Cambridge, MA [67] Reeves, B and Nass, c (1996) The Media Equation: How People Treat Computers, Television, and NewMedia Like Real People and Places Cambridge University Press, Cambridge [68] Russell, s and Norvig, p (1995) Artificial Intelligence: A Modem Approach Prentice Hall, Englewood Cliffs, NJ [69] Schank, R c (1972) Conceptual dependency: A theory of natural language processing Cognitive Psychology, 3, 552-631 [70] Searle, J R (1980) Minds, brains, and programs Behavioral and Brain Sciences, 3, 417-457 [71] Shannon, C E (1948) A mathematical theory of communication Bell System Technical Journal, 27(3), 379-423 Continued in following volume |72] Shieber, S M (1994) Lessons from a restricted Turing test Communications of the ACM, 37(6), 70-78 [73] Sidner, c L (1983) Focusing in the comprehension of definite anaphora In Brady, M and Berwick, R c (Eds.), Computational Models of Discourse, pp 267-330 MIT Press, Cambridge, MA [74] Simmons, R F (1973a) Semantic networks: Their computation and use for understanding English sentences In Schank, R c and Colby, K M (Eds.), Computer Models of Thought and Language Freeman [75] Simmons, R F (1983) Computations from the English Prentice Hall, Englewood Cliffs [76] Turing, A M (1936) On computable numbers, with an application to the Entschcidungs problem Proceedings of the London Mathematical 416 Society, 42, 230-265 Read to the Society in 1936, but actually published in 1937 Correction appeared in volume 43,544-546 [77] Turing, A M (1950) Computing machinery and intelligence Mind, 59, 433-460 [78] Vapnik, V N (1995) The Nature of Statistical Learning Theory Springer-Verlag, New York [79] Viterbi, A J (1967) Error bounds for convolutional codes and an asymptotically optimum decoding algorithm IEEE Transactions on Information Theory, IT-13(2), 260-269 [80] Voorhees, E M and Tice, D M (1999) The TREC-8 question answering track evaluation Proceedings of the TREC-8 Workshop [81] Weizenbaum, J (1966) ELIZA - A computer program for the study of natural language communication between man and machine Communications of the ACM, 9(1), 36-45 [82] Wilensky, R (1983) Planning and Understanding Addison- Wesley, Reading, MA [83] Wilks, Y (1975a) Preference semantics In Keenan, E L (Ed.), The Formal Semantics of Natural Language, pp 329- 350 Cambridge Univ Press, Cambridge [84] Winograd, T (1972) Understanding natural language Cognitive Psycholog)', 3(1), 1-191 Reprinted as a book by Academic Press, 1972 [85] Woods, w A (1967) Semantics for a Question-Answering System Ph.D thesis, Harvard University [86] Yarowsky, D (1994) Decision lists for lexical ambiguity resolution: Application to accent restoration in Spanish and french In ACL-94, Las Cruces, NM, pp 88-95 ACL [87] Yarowsky, D (1995) Unsupervised word sense disambiguation rivaling supervised methods In ACL95, Cambridge, MA, pp 189- 196 ACL 417 xử LÝ NGÔN NGŨ Tự NHIÊN NGƯYẺN CHÍ HIẾU NHÀ XT BẢN ĐẠI HỌC CƠNG NGHIỆP TP HƠ CHÍ MINH 12 Nguyễn Văn Bảo - p - Q Gò vấp - TPHCM ĐT: (028) 3894 0390 -816; Fax: (028) 3994 0650 Email: nhaxuatban@iuh.edu.vn Chịu ỉrách nhiệm xuất bàn: TRÂN VĂN THẮNG Biên tập: LÊ THỊ TIÊƯ NHI Sửa in: DỒN THANH ĐIÊN Trình bày bìa: VÀN SANG Đổi tảc liên kết: Khoa Công nghệ Thông tin - Trường Đại học Cơng nghiệp TP Hồ Chí Minh ISBN : 978-604-920-076-2 In 100 khổ 16 X 24 cm theo Quyết định xuất số: 139/QĐNXBĐHCN ngày 06/9/2018 với xác nhận đăng kí KHXB số 2997 2018/CXBIPH/1-34/DHCNTPHCM ngày 24/8/2018 In Xưởng in NXB Đại học Công nghiệp TPHCM, nộp lưu chiểu tháng 10/2018

Ngày đăng: 08/11/2023, 09:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN