1. Trang chủ
  2. » Luận Văn - Báo Cáo

LIÊN kết từ tự ĐỘNG CHO mục ĐÍCH hỗ TRỢ học TIẾNG ANH

57 107 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 5,71 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN _—¯–_ DƯƠNG THỊ PHƯƠNG MAI LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TP HỒ CHÍ MINH - 2017 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN _—¯–_ DƯƠNG THỊ PHƯƠNG MAI LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN LƯU THUỲ NGÂN TP HỒ CHÍ MINH – 2017 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH KHỐ LUẬN TỐT NGHIỆP THẠC SĨ KHOA HỌC MÁY TÍNH LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH GIẢNG VIÊN HƯỚNG DẪN: TS NGUYỄN LƯU THUỲ NGÂN SINH VIÊN THỰC HIỆN: DƯƠNG THỊ PHƯƠNG MAI 11, 2016 LỜI CÁM ƠN Tôi xin chân thành cám ơn gia đình bạn bè hỗ trợ động viên nhiều thời gian thực luận văn Đặc biệt, xin gửi lời cảm ơn chân thành đến tiến sĩ Nguyễn Lưu Thùy Ngân tiến sĩ Nghiêm Quốc Minh tận tình hướng dẫn giúp đỡ tơi hồn thành luận văn TĨM TẮT Tiếng Anh đóng vai trò quan trọng giao tiếp quốc tế, nhiên soạn thảo văn tiếng Anh cách chuyên nghiệp công việc không dễ dàng với người không sử dụng tiếng Anh tiếng mẹ đẻ ngôn ngữ thứ hai, đặc biệt viết văn khoa học Nhu cầu có hệ thống để hỗ trợ viết học tiếng Anh lớn Xây dựng hệ thống học tiếng Anh bao gồm nhiều bước: xây dựng ngữ liệu chuẩn để phục vụ nghiên cứu, nghiên cứu kỹ thuật phân tích lỗi tự động, nghiên cứu kỹ thuật phát lỗi văn phong, lỗi tả, lỗi ngữ pháp , xây dựng hệ thống hỗ trợ học tiếng Anh Luận văn tập trung nghiên cứu bước xây dựng ngữ liệu phân tích, phân loại lỗi, bước quan trọng làm tiền đề cho việc phát triển toàn hệ thống Mục lục Mục lục Danh sách hình vẽ TỔNG QUAN 1.1 Giới thiệu toán 1.2 Mục tiêu, đối tượng phạm vi nghiên cứu 1.2.1 Mục tiêu 1.2.2 Đối tượng 1.2.3 Phạm vi nghiên cứu 1.3 Ý nghĩa 7 8 9 11 11 12 12 13 14 15 16 16 16 16 17 17 CƠ SỞ LÝ THUYẾT 2.1 Tình hình nghiên cứu 2.2 METEOR 2.2.1 Giới thiệu 2.2.2 Liên kết từ Meteor 2.2.3 Chuẩn hoá ngữ liệu 2.2.4 Xây dựng bảng Paraphrase 2.2.5 Nhận xét 2.3 MANLI 2.3.1 Giới thiệu 2.3.2 Kiến trúc hệ thống MANLI 2.3.3 Nhận xét 2.4 GIZA++ MỤC LỤC 2.5 2.6 2.7 2.8 2.4.1 Giới thiệu 2.4.2 GIZA++ refined 2.4.3 Nhận xét Nhận diện lỗi tiếng Anh Huichao Xue 2.5.1 Giới thiệu 2.5.2 Phương pháp 2.5.3 Nhận xét Support Vector Machine 2.6.1 Giới thiệu 2.6.2 Nhận xét Naive Bayes 2.7.1 Giới thiệu 2.7.2 Nhận xét Decision Tree 2.8.1 Giới thiệu 2.8.2 Nhận xét XÂY DỰNG NGỮ LIỆU 3.1 Ngữ liệu SWA 3.2 Đề xuất nhãn 3.3 Xây dựng ngữ liệu SWA-2 3.4 Ngữ liệu NUCLE 3.5 Ngữ liệu FCE PHƯƠNG PHÁP NHẬN DIỆN VÀ PHÂN 4.1 Kiến trúc hệ thống 4.2 Liên kết từ 4.3 Phân lớp liên kết từ THỬ NGHIỆM 5.1 Giới thiệu 5.2 Liên kết từ tự động 5.2.1 Thiết kế thử 5.2.2 Thử nghiệm nghiệm Rebecca 17 17 18 18 18 18 22 22 22 22 23 23 23 23 23 24 25 25 27 31 31 31 LOẠI LỖI 36 36 37 37 39 39 40 40 40 Hwa MỤC LỤC 5.3 5.4 5.5 5.2.3 Phân tích lỗi liên kết từ Phân lớp liên kết từ 5.3.1 Thiết kế thử nghiệm 5.3.2 Kết thử nghiệm So sánh với METEOR 5.4.1 Thiết kế thử nghiệm 5.4.2 Kết thử nghiệm Thử nghiệm ngữ liệu khác KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Những kết thu 6.1.1 Ý nghĩa khoa học 6.1.2 Ý nghĩa thực tiễn 6.2 Hướng phát triển Tài liệu tham khảo 41 43 43 44 45 45 45 47 50 50 50 51 51 52 Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 Ví dụ liên kết từ METEOR E=Exact, S=Stem, P=Paraphrase 14 Ví dụ nhận diện lỗi tiếng Anh 20 Ví dụ nhập nhằng bước nhận diện phép biến đổi 20 Ví dụ nhập nhằng bước tổng hợp phép biến đổi 21 Ví dụ nhập nhằng bước tổng hợp phép biến đổi 21 3.1 3.2 3.3 Ví dụ cặp câu gán nhãn lỗi ngữ liệu SWA Bộ nhãn sử dụng ngữ liệu SWA Bộ nhãn đề xuất 25 27 30 4.1 Cấu trúc tổng quan hệ thống 36 5.1 Ví dụ nhóm lỗi (1): Các từ có liên quan khơng liên kết với Ví dụ nhóm lỗi (2): Các từ không liên quan liên kết với Liên kết từ NUCLE - Ví dụ Liên kết từ NUCLE - Ví dụ 5.2 5.3 5.4 42 43 48 48 Chương THỬ NGHIỆM 5.1 Giới thiệu Trong chương chúng tơi trình bày kết thử nghiệm thử nghiệm liên kết từ tự động thử nghiệm phân lớp liên kết từ Kết trình bày sau: • Phần 5.2 nói cách setup kết thử nghiệm liên kết từ tự động công cụ: MANLI, METEOR GIZA++ • Phần 5.3 nói cách setup kết thử nghiệm phân lớp liên kết từ phương pháp SVM, Naive Bayes Decision Tree • Để kiểm chứng phương pháp đề xuất Chương 4, chúng tơi có thực thử nghiệm để so sánh kết phương pháp đề xuất phương pháp hoàn toàn dùng METEOR cho bước liên kết từ bước phân lớp Chi tiết cách setup kết thử nghiệm trình bày Phần 5.4 • Ngồi ra, chúng tơi áp dụng phương pháp đề xuất Chương tập ngữ liệu NUCLE Chi tiết kết thử nghiệm trình bày phần 5.5 39 5.2 5.2.1 Liên kết từ tự động Thiết kế thử nghiệm Chúng sử dụng gold alignments ngữ liệu SWA để đánh giá phần liên kết từ tự động Để đánh giá, sử dụng phương pháp đề xuất Och ([14]), phương pháp dựa hai loại liên kết: liên kết chắn (certain alignments) liên kết (possible alignments) Possible alignments sử dụng để nới lỏng tiêu chí đánh giá cho việc định liên kết từ có xem liên kết từ hay không Hiện xem tất liên kết từ gán nhãn ngữ liệu SWA SWA-2 certain alignments, điều gắt gao Chúng so sánh kết liên kết từ ba công cụ sau: MANLI, METEOR, GIZA++ refined 5.2.2 SWA SWA-2 Thử nghiệm Bảng 5.1: Kết liên kết từ Precision (%) Recall (%) MANLI 84.2 94.8 METEOR 84.8 94.7 GIZA++ refined 90.9 94.3 MANLI 80.7 95.0 METEOR 73.4 85.7 GIZA++ refined 82.6 89.9 F1 (%) 89.2 89.5 92.6 90.1 76.9 86.1 Kết liên kết từ SWA cho thấy rằng: độ phủ (recall), kết đưa từ ba công cụ liên kết từ tương tự nhau; nhiên độ xác (precision), GIZA++ refined có kết cao hai cơng cụ lại, có độ đo F1 cao (Bảng 5.1) Về tổng quan, liên kết đơn (single-word alignments) Preserved Mono-alignment grammar có kết tốt liên kết N × N (multi-word alignments) Điều hệ thống đánh giá sử dụng đòi hỏi tất thành phần liên kết N × N phải liên kết Tuy nhiên, việc tạo liên kết N × N vấn đề khó khăn 40 nên xem xét để cải tiến phương pháp liên kết từ để giải vấn đề Kết thử nghiệm SWA-2 lại khác chút so với kết SWA Về tổng quan, kết SWA-2 không tốt SWA gần tất set up, điều hiểu số lượng nhãn lỗi SWA-2 nhiều SWA, độ phức tạp cao GIZA++ refined có độ xác cao với 82.6% so với hai cơng cụ lại Tuy nhiên độ phủ MANLI lại có kết cao có độ đo F1 cao (Xem Bảng 5.1) 5.2.3 Phân tích lỗi liên kết từ Khi xem xét kĩ kết phân lớp nhãn riêng biệt, nhận thấy cơng cụ liên kết từ có ưu nhược điểm riêng biệt (Bảng 5.2) METEOR MANLI phân lớp tốt loại nhãn Mono-alignment Preserved, Unaligned Mono-alignment Grammar, nhiên lại phân lớp không tốt nhãn Bi-alignment Grammar, đặc biệt METEOR GIZA++ refined phân lớp tốt loại nhãn Bi-alignment, đặc biệt Paraphrase, Determiner Typo/Spelling Điểm yếu GIZA++ refined phân lớp loại Preserved Mono-alignment MANLI METEOR hai công cụ xây dựng để liên kết từ đơn ngữ mong đợi cho kết liên kết từ tốt GIZA++ refined, kết thử nghiệm gây nhiều bất ngờ GIZA++ refined lại công cụ liên kết từ cho kết tốt Để giúp cho việc cải tiến phương pháp liên kết từ hiệu hơn, chọn ngẫu nhiên số liên kết sai từ ba công cụ trên, gom nhóm phân tích lỗi sai Kết phân tích trình bày Bảng 5.3 Có nhiều loại lỗi khác nhau, nhiên ta chia thành hai nhóm lỗi lớn là: Các từ có liên quan khơng liên kết với (1) Các từ không liên quan liên kết với (2) Ví dụ: • (1) Các từ có liên quan khơng liên kết với Xem ví dụ Hình 5.1, liên kết từ lỗi ta có mono-alignment will single alignment illustrate - illustrates, liên kết từ will illustrate illustrates 41 Bảng 5.2: Kết liên kết từ phân loại theo nhãn MANLI METEOR GIZA++ refined (%) (%) (%) Preserved 97.3 98.2 96.6 Unaligned 40.8 43.9 11.2 Mono-alignment Preposition 74.4 88.9 39.2 Mono-aligment Determiner 84.0 82.6 74.7 Bi-alignment Verb tense 53.4 54.7 58.8 Bi-alignment Word form 82.1 74.2 73.5 Bi-alignment Agreement 30.2 32.1 24.5 Bi-alignment Preposition 73.0 2.9 86.2 Bi-alignment Determiner 61.4 3.7 79.1 Bi-alignment Others 91.6 66.0 90.2 Paraphrase 25.8 13.5 38.0 Typo/Spelling 41.2 11.7 84.8 Duplicate 30.8 23.1 15.4 • (2) Các từ khơng liên quan liên kết với Xem ví dụ Hình 5.2, liên kết từ lỗi ta có N × N The analysis - Analysis, hai liên kết từ phải mono-alignment The single alignment analysis - analysis The Analysis analysis of the of the experimental experimental results results will illustrates illustrate the the necessity need WA Hình 5.1: Ví dụ nhóm lỗi (1): Các từ có liên quan không liên kết với Cả ba cơng cụ có tỉ lệ lỗi sai cao nhóm lỗi (1), đặc biệt MANLI với tỉ lệ lên tới 91% Chiếm tỉ lệ nhiều nhóm lỗi lỗi sai khơng liên kết N × N alignment, chủ yếu paraphrase Verb tense, tỉ lệ lỗi MANLI, METEOR GIZA++ refined 68.0%, 32.0% 56.0% Rõ ràng, việc nhận diện liên kết N × N alignment việc 42 The analysis Analysis of of the the experimental experimental results results will illustrate illustrates the the necessity need WA Hình 5.2: Ví dụ nhóm lỗi (2): Các từ khơng liên quan liên kết với không dễ dàng Với MANLI METEOR, loại lỗi chiếm tỉ lệ cao không liên kết alignment gần nghĩa/đồng nghĩa, chiếm tỉ lệ 13.0% 26.0%, GIZA++ refined lại làm tốt cơng việc Phân tích kết SWA-2 ta thấy tương tự SWA, GIZA++ refined có kết tốt nhãn inarticulation bi-alignment, đặc biệt liên kết từ m × n Mặt khác, MANLI lại có kết tốt nhãn inarticulation mono-alignment (ví dụ: textitMono-grammar Preposition, Monogrammar Determiner ), có kết tốt hai cơng cụ lại tất nhãn loại Bảng 5.3: Phân tích lỗi liên kết từ MANLI METEOR GIZA++ refined (%) (%) (%) Các từ có liên quan khơng liên kết với Các từ không liên quan liên kết với 5.3 5.3.1 91.0 86.0 56.0 8.0 14.0 44.0 Phân lớp liên kết từ Thiết kế thử nghiệm Chúng so sánh kết phân lớp ba phương phỏp: Support Vector Machine (SVM, linear kernel), Naăive Bayes, v Decision Tree Training testing thực cách sử dụng 5-fold cross-validation 43 Với SWA, số lượng nhãn Preserved Paraphrase chiếm tỉ lệ lớn ngữ liệu nên giảm số lượng hai nhãn xuống nhãn thứ ba để phân lớp không phân lớp thiên lệch hai nhãn Với SWA-2, giảm số lượng nhãn Preserved, Paraphrase Freeword Mono-grammar Determiner Ngoài việc đánh giá ngữ liệu SWA, chúng tơi khảo sát kết phân lớp kết thu từ MANLI, METEOR, GIZA++ refined 5.3.2 Kết thử nghiệm Ngữ liệu SWA SWA-2 Bảng 5.4: Kết phân lớp (5-fold cross validation) Độ xác (%) Liên kết t SVM Naăive Bayes Decision Tree MANLI 67.2 63.9 53.9 METEOR 67.6 66.8 63.2 GIZA++ refined 71.8 68.9 69.4 Gold alignment 89.6 78.3 80.8 MANLI 70.5 66.1 63.9 METEOR 55.5 50.8 39.9 GIZA++ refined 67.8 61.2 62.7 Gold alignment 77.3 68.7 73.2 Trên hai ngữ liệu SWA SWA-2, SVM cú kt qu tt hn Naăive Bayes v Decision Tree tất trường hợp, đặc biệt sử dụng ngữ liệu vàng (Bảng 5.4) Tính trung bình, độ xác phân lớp SVM tốt 5.9%, dao động từ 2.6 tới 10.05% Kết từ SWA cho thấy khơng có khác biệt ỏng k gia Naăive Bayes v Decision Tree bc phân lớp này, bốn kết từ hai loại loại tốt hai kết Tuy nhiên với SWA-2 kết phân lớp Decision Tree bị ảnh hưởng nhiều độ xác kết liên kết từ Kết phân lớp Decision Tree METEOR giảm 33.3% (từ 73.2% tới 39.9), vi Naăive Bayes kt qu phõn lp ch giảm 17.9% Kết phân lớp đặc biệt bị ảnh hưởng kết liên kết từ, độ xác phân lớp ngữ liệu vàng phân lớp kết liên kết từ tự động giảm xuống rõ rệt từ 89.6% 71.8% Dựa vào confusion matrix từ phân lớp SVM SWA, chúng tơi có nhận xét ngoại trừ mono-alignment preposition (10) determiner (11) , 44 loại liên kết từ khác bị phân lớp lẫn với loại paraphrase (7) Vấn đề tương tự xuất SWA-2, tất nhãn thuộc nhóm Paraphrase bị phân lớp lẫn với Lý liên kết paraphrase ngữ liệu vàng chứa liên kết từ tương tự loại liên kết từ khác tách thành liên kết từ đơn (single-word alignments) Chúng cố gắng giải vấn đề cách phân lớp nhãn Paraphrase SWA thành nhãn mô hình 3.3, nhiên vấn đề chưa giải triệt để Điều việc phân lớp paraphrase loại liên kết từ khác lúc khơng phải mơ hình thích hợp 5.4 5.4.1 So sánh với METEOR Thiết kế thử nghiệm Chúng so sánh kết nhiều kết hợp công cụ liên kết từ phương pháp phân lớp với METEOR Do nhãn METEOR bao gồm nhãn SWA 13 nhãn, nên bước ánh xạ đơn giản thực để tiện cho việc so sánh: nhãn SWA ánh xạ qua nhãn METEOR (xem Bảng 5.5) Riêng nhãn Paraphrase SWA ánh xạ thành nhãn Paraphrase METEOR cho loại liên kết m×n (m, n > 1); ngược lại, ánh xạ thành nhãn Synonym METEOR (liên kết × 1) Ngoại trừ nhãn, thử nghiệm sử dụng thiết lập tương tự thử nghiệm 5.4.2 Kết thử nghiệm Sử dụng Meteor tập ngữ liệu SWA, chúng tơi có kết thống kê loại liên kết từ Bảng 5.6 Phân lớp SVM ngữ liệu vàng đạt kết tốt (độ xác 90.03%), vượt qua kết chạy hoàn toàn METEOR (Bảng 5.7) Chúng ghi nhận hai kết cho METEOR: METEOR kết thử nghiệm toàn liệu METEOR kết liệu 45 Bảng 5.5: Ánh xạ nhãn SWA METEOR Nhãn METEOR Nhãn SWA Số lượng Exact Preserved (13) 68,552 Verb tense (3) Word form (4) Stem 573 Agreement (6) Paraphrase (7) Synonym 481 (1 × alignment) Paraphrase (7) Paraphrase 906 (m × n alignment) Preposition (1) Determiner (2) Others (5) Typo/Spelling (8) Unaligned 2,751 Duplicate (9) Preposition (10) Determiner (11) Unaligned (12) Tổng cộng 73,263 Bảng 5.6: Kết chạy thử nghiệm METEOR ngữ liệu SWA Exact 71,208 Stem 677 Synonym 268 Paraphrase 744 giảm bớt số lượng nhãn chiếm tỉ lệ cao Ngoại trừ kết từ ngữ liệu vàng, kết hợp METEOR-SVM có kết tốt cách rõ rệt so với kết hợp khác (độ xác 85.59%) Điều gợi ý việc cải tiến kết METEOR cách sử dụng SVM cho bước phân lớp Lưu ý việc so sánh khơng hồn tồn cơng METEOR hồn tồn khơng giám sát SVM đòi hỏi liệu huấn luyện 46 Bảng 5.7: Kết phân lớp nhãn METEOR Phương pháp Độ xác (%) METEOR (all data) 84.12 METEOR (filtered data) 78.10 SVM 79.94 MANLI ă Naive Bayes 73.45 Alignment Decision Tree 63.07 SVM 85.39 METEOR ¨ Naive Bayes 77.25 Alignment Decision Tree 72.41 GIZA++ SVM 82.28 ă refined Naive Bayes 75.05 Alignment Decision Tree 71.82 SVM 90.03 Gold ă Naive Bayes 81.74 Alignment Decision Tree 71.13 5.5 Thử nghiệm ngữ liệu khác Để kiểm tra phương pháp đề xuất, áp dụng thử phương pháp ngữ liệu NUCLE Mục đích thử nghiệm để so sánh kết phân lớp với kết phân lớp ngữ liệu khác NUCLE viết tắt NUS Corpus of Learner English, bao gồm khoảng 1,400 luận sinh viên đại học NUS Bộ ngữ liệu sử dụng báo [9] Kết phân lớp NUCLE trình bày Bảng 5.9 Độ xác phân lớp ngữ liệu SWA cao NUCLE tất set-ups Điều lý giải sau: Số lượng nhãn lỗi NUCLE gần gấp đôi số lượng nhãn lỗi SWA, xem bảng so sánh 5.8 Số lượng nhãn lỗi nhiều độ phức tạp toán phân lớp tăng SWA tập trung vào văn phong báo cáo khoa học, NUCLE bao gồm tất luận sinh viên lĩnh vực NUCLE rộng Những lỗi sửa NUCLE, tương ứng với liên kết từ SWA dựa lỗi thực tế sửa giáo viên tiếng Anh mà không 47 theo hướng dẫn gán nhãn lỗi Do nhãn lỗi khơng thống khó cơng cụ tự động liên kết cách xác Ví dụ: xem Hình 5.3 Hình 5.4 .; as they did some researches and found out that the country has food resources .; based on they did some researches and found out that the country has food resources Hình 5.3: Liên kết từ NUCLE - Ví dụ They will then analyze the solutions in the economic and social aspects They will then analyze the solutions based on economic and social considerations Hình 5.4: Liên kết từ NUCLE - Ví dụ Ngữ liệu SWA NUCLE FCE Bảng 5.8: Thống kê ngữ liệu Số lượng câu Số lượng nhãn lỗi 3,456 14 47,667 27 28,969 75 48 Bảng 5.9: Kết phân lớp SWA, NUCLE FCE Độ xác (%) Ng liu Liờn kt t SVM Naăive Bayes Decision Tree MANLI 67.2 63.9 53.9 SWA METEOR 67.6 66.8 63.2 GIZA++ refined 71.8 68.9 69.4 MANLI 29.4 34.1 29.4 NUCLE METEOR 57.4 53.8 50.4 GIZA++ refined 61.5 57.8 52.2 MANLI 32.7 26.7 29.7 FCE METEOR 78.6 74.9 72.9 GIZA++ refined 72.8 52.8 61.1 49 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Những kết thu Việc viết văn tiếng Anh cách thành thạo chuyên nghiệp, đặc biệt báo khoa học thách thức không nhỏ với hầu hết người không sử dụng tiếng Anh ngôn ngữ mẹ đẻ Nhu cầu có cơng cụ hỗ trợ việc viết học tiếng Anh cách tự động lớn Trong luận văn này, chúng tơi trình bày kết thử nghiệm phân tích liên kết từ phân lớp liên kết từ tự động ngữ liệu SWA, SWA-2, NUCLE FCE Kết phân tích sử dụng để xây dựng ngữ liệu để nghiên cứu kỹ thuật phân tích lỗi hệ thống hỗ trợ học tiếng Anh Kết thử nghiệm phân tích việc liên kết phân lớp từ toán xây dựng hệ thống hỗ trợ học tiếng Anh công việc đơn giản 6.1.1 Ý nghĩa khoa học Đề tài đề xuất phương pháp giải cho toán liên kết từ để hỗ trợ học tiếng Anh với liệu nghiên cứu báo khoa học Đề tài thử nghiệm so sánh phương pháp đề xuất với phương pháp khác, thử nghiệm phương pháp đề xuất nhiều tập ngữ liệu khác ưu điểm / khuyết điểm phương pháp Ngoài đề tài thử nghiệm 50 so sánh mức độ phù hợp phương pháp liên kết từ với tốn Đây làm tài liệu tham khảo cho đề tài nghiên cứu khác 6.1.2 Ý nghĩa thực tiễn Dựa phương pháp đề xuất trên, đề tài xây dựng ngữ liệu có liên kết từ đủ lớn, dùng để tiếp tục nghiên cứu phương pháp sửa lỗi tiếng Anh hay xây dựng hệ thống hỗ trợ học tiếng Anh 6.2 Hướng phát triển Dựa vào kết thực nghiệm phân tích lỗi trên, đề xuất số hướng phát triển luận văn sau: • Cải tiến độ xác liên kết từ Như kết phân tích trên, độ xác kết phân lớp phụ thuộc nhiều vào độ xác kết liên kết từ, việc cải tiến độ xác liên kết từ làm tăng độ xác kết phân lớp Có thể tập trung hai hướng cụ thể sau: – Cải tiến độ xác loại liên kết N × N Theo thống kê Chương 5, loại lỗi chiếm tỉ lệ nhiều ba công cụ liên kết từ lỗi không nhận diện liên kết loại N × N alignment – Cải tiến độ xác module Synonym METEOR Mặc dù xây dựng tính riêng để liên kết từ đồng nghĩa / gần nghĩa METEOR không đạt kết cao việc liên kết từ đồng nghĩa / gần nghĩa so với cơng cụ khác • Cải tiến độ xác phân lớp liên kết từ Có thể cải tiến phương pháp phân lớp cách phân lớp paraphrase loại liên kết từ khác cách độc lập, nghiên cứu mơ hình phân lớp khác phù hợp với toán 51 Tài liệu tham khảo [1] B Stein, M Potthast, and M Trenkmann, “Retrieving customary web language to assist writers,” in European Conference on Information Retrieval Springer, 2010, pp 631–635 11 [2] J Milton and V S Cheng, “A toolkit to assist l2 learners become independent writers,” in Proceedings of the NAACL HLT 2010 Workshop on Computational Linguistics and Writing: Writing processes and authoring aids Association for Computational Linguistics, 2010, pp 33–41 11 [3] J.-S Liu, P.-C Hung, and C.-Y Lee, “A language information retrieval approach to writing assistance,” Computational Linguistics and Chinese Language Processing Vol 13, no 3, pp 279–306, 2008 11 [4] F J Och and H Ney, “Statistical machine translation,” in EAMT Workshop, 2000, pp 39–46 11 [5] P Liang, B Taskar, and D Klein, “Alignment by agreement,” in Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics Association for Computational Linguistics, 2006, pp 104–111 11 [6] H Bouamor, A Max, and A Vilnat, “Monolingual alignment by edit rate computation on sentential paraphrase pairs,” in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume Association for Computational Linguistics, 2011, pp 395–400 11 52 TÀI LIỆU THAM KHẢO [7] X Yao, B Van Durme, C Callison-Burch, and P Clark, “A lightweight and high performance monolingual word aligner.” in ACL (2), 2013, pp 702–707 12 [8] M Denkowski and A Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in In Proceedings of the Ninth Workshop on Statistical Machine Translation Citeseer, 2014 12 [9] H Xue and R Hwa, “Improved correction detection in revised esl sentences.” in ACL (2), 2014, pp 599–604 18, 47 [10] B Swanson and E Yamangil, “Correction detection and error type selection as an esl educational aid,” in Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Association for Computational Linguistics, 2012, pp 357–361 18 [11] H Yannakoudakis, T Briscoe, and B Medlock, “A new dataset and method for automatically grading esol texts,” in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume Association for Computational Linguistics, 2011, pp 180–189 18 [12] D Dahlmeier, H T Ng, and S M Wu, “Building a large annotated corpus of learner english: The nus corpus of learner english,” in Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications, 2013, pp 22–31 31 [13] D Nicholls, “The cambridge learner corpus: Error coding and analysis for lexicography and elt,” in Proceedings of the Corpus Linguistics 2003 conference, vol 16, 2003, pp 572–581 31 [14] F J Och and H Ney, “A systematic comparison of various statistical alignment models,” Computational linguistics, vol 29, no 1, pp 19–51, 2003 40 53 ... tự động hỗ trợ học tiếng Anh • Mục tiêu 2: Mục tiêu cụ thể nghiên cứu phương pháp liên kết từ phân loại liên kết từ tự động ngữ cảnh hỗ trợ học tiếng Anh Việc nghiên cứu phương pháp sửa lỗi tự. ..ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN _—¯–_ DƯƠNG THỊ PHƯƠNG MAI LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH... sửa lỗi tự động cho báo khoa học hỗ trợ học tiếng Anh Trong đó, tốn nhiều chi phí nên ngữ liệu liên kết tay không đủ lớn, điều đòi hỏi cần phải có phương pháp liên kết phân lớp từ tự động để

Ngày đăng: 23/12/2018, 06:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w