1. Trang chủ
  2. » Giáo Dục - Đào Tạo

X li ngon ng t nhien

10 37 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Trích thơng tin học thuật có cấu trúc từ văn học dịch máy I  Tóm tắc: Kết thực nghiệm báo khoa học quan trọng để hiểu đóng góp so sánh với cơng việc Chúng tơi giới thiệu cấu trúc truy vấn cho kết thử nghiệm diễn tả hệ thống đường sở tự động Việc trả lời câu hỏi thành phần như: "Những kết xuất tốt báo cáo NIST 09 tập liệu Trung Quốc sang tiếng Anh? "Và" Phương pháp quan trọng để đẩy nhanh giải mã theo cụm từ gì? " Câu trả lời cho câu hỏi thường bao gồm điều tra văn học máy đọc báo học thuật thường không xem xét thực nghiệm thực tế, chủ yếu tập trung vào việc hiểu tóm tắt Chúng tơi mơ tả cơng việc để giải thích tạo báo khoa học ban đầu kết thử nghiệm có chứng gồm có 67 báo thích theo cách thủ cơng với cấu trúc đại diện kết thực nghiệm chuyên gia tên miền Ngoài ra, chúng tơi trình bày thuật tốn đặc trưng cho khó khăn nhiệm vụ suy luận Từ khố: Thu thập thông tin, Văn học khoa học, Dự báo có cấu trúc Giới thiệu:  Các cơng nghệ cho phép người ta tiếp cận khoa học với kho văn học thông qua nhiều phương tiện, phạm vi từ tìm kiếm từ khóa đơn giản cho nội dung tác giả để suy luận phức tạp khai thác đường trích dẫn (Dunneet al., 2010; Schafer cộng sự, 2011), kỹ thuật tự động xác định phần nhãn phần (Teufel Kan, 2011), phương pháp không giám sát để suy luận thông tin cấu trúc (Kiela cộng sự, năm 2015).Thật không may, phương pháp thiếu đáp ứng nhiều câu hỏi cải thiện đáng kể hoạt động hàng ngày nhà nghiên cứu  Hãy tưởng tượng, ví dụ, nhà nghiên cứu trẻ muốn bắt đầu làm việc Máy Dịch (MT) nhà nghiên cứu dày dạn muốn theo dõi phát triển gần đồng ruộng Họ muốn nhanh chóng nhận câu trả lời cho câu hỏi như:  Những kết xuất tốt báo cáo Số liệu NIST-09 Trung Quốc?  Theo thống kê 100 triệu từ mà mơ hình lấy cảm hứng từ hình thái học dẫn đến cải tiến chất lượng dịch  Các phương pháp quan trọng để tăng tốc giải mã dựa cụm từ?  Có giấy tờ chứng minh dịch thần kinh mơ hình tốt so với mơ hình khơng thần kinh? Theo hiểu biết chúng tôi, để trả lời câu hỏi vượt q ngồi tầm cơng nghệ Các phương pháp chưa thể suy yếu tố thí nghiệm báo cáo báo; vấn đề thực tế, khơng có trí yếu tố nên mối quan hệ chúng  Trong báo này, thực vài bước để giải vấn đề hiếu sót Bằng cách tập trung vào MT trường mẫu nghiên cứu điển hình chúng tơi, chúng tơi đề xuất mơ hình cấu trúc đại diện rõ ràng thí nghiệm điển hình: liệu nguồn sử dụng để huấn luyện kiểm tra, số liệu đánh giá, ngơn ngữ, thuật tốn sở, phương pháp thuật tốn thí nghiệm, vv Chúng tơi báo cáo công việc nhằm tạo tiêu chuẩn cho công việc xem xét tập hợp thuật toán đơn giản mà phát triển đường sở để mô tả cách khách quan khó khăn tập Bằng cách làm cho liệu kết cơng khai, chúng tơi hy vọng đóng góp vào nỗ lực chuyển đổi trường khai thác thông tin từ xác định đề cập quan hệ đơn giản để lý luận với cấu trúc phức tạp kiện, kịch bản, thí nghiệm Đại diện có cấu trúc thí nghiệm dịch máy xác định nhiệm vụ:  Để nắm bắt yếu tố có ý nghĩa thí nghiệm báo hội nghị dịch máy, thiết kế mô tả cấu kết thực nghiệm Mặc dù điều dùng làm tài liệu tham khảo để hiểu thí nghiệm lĩnh vực khác, cố ý thiết kế để trả lời truy vấn có ý nghĩa báo Dịch Máy Nhiệm vụ tổng thể chuyển đổi báo (Hình 1, đầu trang) vào đồ thị kết nối (dưới cùng) kết thực nghiệm Hình cho thấy ví dụ báo “dịch máy thống kê với cụm từ ngôn ngữ mục tiêu thống hóa” (Marcu et al, 2006) Biểu diễn cấu trúc bao gồm tập liệu, loại thử nghiệm kết Bộ liệu tập sử dụng để đào tạo đánh giá hệ thống Chúng tơi phân tích liệu thành tên, kích thước ngơn ngữ Ví dụ sử dụng bốn liệu, bao gồm tài liệu song song Trung-Anh NIST 2002 Chỉ có tập liệu có kích thước quy định, 138.7 triệu từ, tất chúng sử dụng cặp ngơn ngữ Trung-Anh  Hình 1: Một minh hoạ cho nhiệm vụ khai thác Bắt đầu với báo khoa học (trên cùng), thơng tin trích để xây dựng mô tả cấu liệu thử nghiệm (dưới cùng) Kiểu thử nghiệm đề cập đến mục tiêu thử nghiệm phương pháp sử dụng để đạt Chúng xác định mục tiêu 27 phương pháp Kết kết thực nghiệm trình bày báo, bao gồm giá trị số, số liệu tên hệ thống đạt kết Trong Hình 1, chúng tơi tìm bốn giá trị (34.83, 31.46, 39.56, 34.10) với số BLEU  Hai giá trị kết kết hợp với hệ thống PBMT với hệ thống SPMT-Comb Giá trị kết kết nối với liệu qua mối quan hệ thử nghiệm train với loại hình thử nghiệm Chúng tơi đề cập đến mẩu thông tin bao gồm biểu diễn cấu trúc ngun tử Trong ví dụ, có 15 nguyên tử, bao gồm tiếng Trung-Anh, BLEU, 31.46 2002 NIST Dữ liệu Chú thích  Để xây dựng liệu, bắt đầu cách chọn báo liên quan đến Dịch máy từ Thư viện Trung Quốc (Radev cộng sự, 2009) cách sử dụng tìm kiếm từ khóa nhắm mục tiêu hội thảo Dịch Thuật Máy Đối với mẫu ngẫu nhiên 67 báo, yêu cầu nhân viên giải đưa biểu diễn có cấu trúc kết thực nghiệm xác định phần trước Để hỗ trợ khai thác thông tin cấu trúc, tự động tạo mô tả cấu trúc báo Các đại diện bao gồm văn đơn giản chia thành phần phần phụ, bảng phân tích cú pháp Số liệu thích cơng bố với báo cáo để thúc đẩy nghiên cứu tương lai Tổng cộng, 1063 nguyên tử thích thống kê số liệu bổ sung thể Bảng Trong phần lại phần chúng tơi mơ tả việc xây dựng liệu thích cách chi tiết  Văn Kết cấu thí nghiêm Một đoạn Mục lục Câu văn Tổng nguyên tử Đào tạo/tập liệu Số liệu Kết Thí nghiệm Avg Count 7.55 3.76 272.55 23.47 4.33 2.01 6.48 1.13 St Dev 1.38 1.78 89.65 9.85 4.14 1.52 5.01 0.34 Bảng 1: Văn có cấu trúc phản ứng khảo sát có ý nghĩa độ lệch chuẩn 3.1 Chuyển đổi PDF sang Chuyển đổi Văn Có Cấu trúc  Điểm xuất phát tập báo định dạng PDF Chúng chuyển đổi giấy tờ dạng PDF thành văn có cấu trúc sử dụng hệ thống cơng cụ trích xuất văn (TET) Vì bảng thường sử dụng để báo cáo kết thực nghiệm, ý đặc biệt đến khai thác chúng Chúng tơi trích thông tin dạng bảng TableSeer (Liuet al., 2007) Chúng sử dụng ParsCit (Councill cộng sự, 2008) để tìm cấu trúc phân cấp phần phần phụ Chúng tạo trình bày cuối giấy tờ với hệ thống kết hợp đầu vào ba thành phần Q trình tạo văn có cấu trúc, chia thành phần phần phụ với bảng phân tích cú pháp kèm phụ đề, khơng bao gồm thơng tin 3.2 Chú thích Đại diện Cấu trúc   Chú thích trình bày với giấy tờ định dạng PDF Lý tưởng cơng cụ thích làm bật thơng tin có liên quan tóm tắt kết nối mơ hình thể Tuy nhiên, liên kết tốn thời gian Thay vào đó, chúng tơi thiết kế cơng cụ giải khảo sát, thể hình Từ phản hồi khảo sát, tạo mơ hình có cấu trúc xác định Chúng tơi thu thập thích cách gửi khảo sát cho tác giả báo lựa chọn tự thích Từ phản hồi khảo sát, tạo đại diện có cấu trúc cách xác định Sáu tờ báo thích hai người thích Thoả thuận bên báo cáo tờ báo trình bày Bảng 3.Những người thích khơng thường xun đồng ý với kỹ thuật, báo sử dụng nhiều kỹ thuật Sự khác biệt từ vựng đặt tên tập liệu hệ thống gây bất đồng Được hướng dẫn để chọn hiệu suất hàng đầu sở cho đánh giá quan trọng, người đơi chọn thí nghiệm khác Loại nguyên tử Ngôn ngữ Độc lập Đi đôi Dữ liệu Kích thước Tên Kết Giá trị Số liệu Tên Kết cấu thí nghiệm Mục tiêu Cơng nghệ p 21.3 76.3 20.1 24.3 7.1 35.5 7.1 72.6 24.2 R 94.7 81.7 28.9 25.0 84.7 83.6 16.0 65.2 22.7 F1 37.8 81.3 23.7 24.6 13.0 49.8 9.9 68.7 23.4 R* 100.0 100.0 67.1 41.8 92.2 92.4 46.7 - Bảng 2: Hiệu suất máy dò nguyên tử theo độ xác, thu hồi, điểm F1, tái thiết từ điều tra đáp ứng (R *) Phương pháp tiếp cận hệ thống đường sở:  Chúng trình bày hệ thống dựa mẫu, trích xuất phần tử riêng lẻ từ mô tả văn văn dịch máy chọn , liên kết chúng thành biểu diễn có cấu trúc 4.1 Phát nguyên tử:     Trong phát nguyên tử, hệ thống tạo danh sách ứng cử viên cho loại nguyên tử Mục tiêu việc phát nguyên tử phát nhiều nguyên tử tốt phép bước hệ thống lựa chọn nhiều ứng cử viên Việc phát bao gồm chuỗi con, từ chồng chéo mẫu phân bố phù hợp văn bảng Số liệu ngôn ngữ phù hợp với danh sách ngôn ngữ xác định trước văn Danh sách bao gồm hai ba chữ viết tắt ký tự Số liệu kích thước tập liệu dựa mẫu biểu thức quy phù hợp với biểu thức, chẳng hạn cặp câu '8M Sentence.' Các mẫu bao gồm đơn vị (như trên) đơn vị, ví dụ: '8M.' Số liệu tên tập liệu khớp với danh sách xếp liệu dịch máy biết văn Nhiều cách hiển thị liệu mã hoá mẫu biểu thức quy     Hệ thống số liệu tìm thấy ứng cử viên bảng kết quả, khơng bao gồm số từ khố cụ thể Số liệu giá trị kết thu thập ô số bảng kết quả, chẳng hạn 24,3, 12% Số liệu kết dựa danh sách số liệu chung sử dụng dịch máy đánh giá song ngữ Số liệu mục tiêu số liệu công nghệ kết hợp bảng liệt kê trước 4.2 Liên kết  Liên kết bao gồm hai giai đoạn: (1) liên kết nguyên tử vào cấu trúc trung gian (2) liên kết cấu trúc trung gian vào cấu trúc kết cấu cuối Ở giai đoạn đầu tiên, nguyên tử riêng lẻ chọn liên kết với để tạo thành cấu trúc đại diện cho tập liệu, loại thử nghiệm, kết Ở giai đoạn này, nhiều nguyên tử có sẵn để liên kết trình lựa chọn thực nguyên tử để tạo cấu trúc trung gian làm ứng cử viên Trong giai đoạn thứ hai, q trình lựa chọn sau thực cấu trúc trung gian để tạo cấu trúc kết cấu cuối diễn tả cho tờ báo Số liệu:  Chúng ta chọn cặp ngôn ngữ dựa tần số, tìm tên tập tin kích thước nguyên tử gần Chúng tơi chọn nhãn cạnh cách tìm kiếm từ khoá 'train' 'test' gần Kết  Chúng xây dựng cấu trúc kết từ bảng, sử dụng cột, hàng, thích bảng Chúng tơi liên kết ngun tử tên hệ thống nguyên tử số liệu kết tìm thấy hàng đầu cột thứ Kết hợp:  Bộ liệu liên kết đến kết dựa phép đo tín hiệu gần từ văn bản, ví dụ đề cập đến ngơn ngữ tên tập liệu thích ô bên cạnh Chúng giới hạn kết cho tập liệu thử nghiệm đơn lẻ, cho phép nhiều tập liệu training lại Ngôn ngữ Urdu- PBMT Phương pháp BLEU Gia đoạn kiểm tra thí nghiệm MERT 20.5 17.7 english MIRA PRO MIRA PRO 20.5 20.4 21.8 21.6 17.9 18.2 17.8 18.1 Hình 3: Tên hệ thống thích 'PBMT basic PRO' Đường sở Chú thích Nguyên tử S-Dữ liệu S-Kết S-Tổng Nguyên tử S-Dữ liệu S-Kết S-Tổng P 0.35 0.51 0.54 0.58 0.44 0.66 0.77 0.68 R 0.18 0.40 0.31 0.34 0.66 0.67 0.68 F1 0.22 0.40 0.34 0.39 0.64 0.73 0.65 Bảng 3: Liên kết kết đánh giá hiệu điểm xác, thu hồi F1 Smatch Trong trường hợp nguyên tử, xác, thu hồi, F1 nguyên tử chọn sau liên kết hiển thị Đánh giá Dữ liệu:  Từ liệu thu thập, giấy tờ sử dụng để phát triển, 62 giấy tờ sử dụng để đánh giá Số liệu đánh giá:  Chúng đánh giá hiệu suất hệ thống phát nguyên tử với độ xác gọi Chúng tiếp cận đánh giá đại diện cấu trúc có liên kết cách biến thành đồ thị theo chu kỳ tính điểm Smatch (Cai Knight, 2013), trước sử dụng để đánh giá tương tự cấu trúc biểu diễn ý nghĩa trừu tượng (AMR) 5.1 Đánh giá phát nguyên tử  Bảng cho thấy hiệu suất phát nguyên tử Vì cơng cụ thích khơng cho biết thông tin đâu, ghép nguyên tử thích với chuỗi văn có cấu trúc ghi thích từ văn dạng R * bảng Điều thể mức mềm cho cách tiếp cận chúng tơi Tìm tên tập tin có giải, kích thước tên ngun tử hệ thống gặp nhiều thách thức chữ viết tắt, lỗi chuyển đổi PDF sang văn bản, tên đa dạng từ vựng mở rộng, giá trị trích xuất bao gồm chuỗi rải rác, thể hình Các vấn đề tồn phát nguyên tử Kết quả:  Các máy dò song ngơn ngữ đạt thu hồi cao Giá trị kết máy dò số liệu đạt thu hồi cao ngang với R * Tên định danh dò số liệu đạt khoảng nửa số lần thu hồi Tên định danh dò số liệu đạt khoảng nửa số lần thu hồi vàng Ngay họ khơng trích xuất tồn tên cách xác, họ thường bắt chuỗi Tên kích thước liệu biểu diễn nhiều cách – đầu hệ thống khác với thích Những thách thức chưa giải  Trình dò cặp ngơn ngữ gặp khó khăn với cụm từ 'dịch tiếng Anh sang tiếng Nhật tiếng Thổ Nhĩ Kỳ,' phát tiếng Anh - tiếng Nhật 'Tên mở rộng xảy tên tập liệu Giải thích xác thơng tin bảng, nơi mà thơng tin trình bày cách có cấu trúc tương tự hình vấn đề thú vị cần giải Đối với liệu, lỗi chủ yếu nhiều cách để thể tên kích thước tập liệu (ví dụ MT03-MT08 đề cập đến tập hợp liệu) Ngoài ra, liệu không tên liên tục giới thiệu tài liệu Việc phát tên hệ thống chí khó khăn hơn, khơng có quy ước đặt tên Phát mục tiêu công nghệ báo đạt thu hồi bình thường Vấn đề thách thức trọng tâm nghiên cứu (ví dụ Gupta Manning (2011)) 5.2 Đánh giá kết nối :  Hiệu suất liên kết trình bày Bảng Như điểm tham khảo, trình bày điểm số tính hai cột thích 'Inter-Annotator.' Phân tích cho thấy hệ thống phát điểm số BLEU ghi điểm cao cặp ngơn ngữ xác, đơi khơng phục hồi tên datasets hệ thống Ví dụ, ví dụ hình 1, hệ thống phát tất bốn giá trị kết tên PBMT liên kết xác đến cặp ngơn ngữ số liệu, khơng thể truy xuất tên SPMT Hơn nữa, kết nối xác kết với tập hợp tập đoàn đào tạo thách thức giải hiểu biết phụ thuộc tài liệu Mặc dù liên kết tập tập liệu, hệ thống thường không phục hồi tên đầy đủ mở rộng liệu Ví dụ hình 1, hệ thống lấy NIST hai thử nghiệm liệu huấn luyện, khơng nêu rõ năm Chú thích BLEU: thuật toán đánh giá chất lượng văn dịch máy MT: Machine Translation Các cơng trình liên quan:  Tự động xử lý văn học khoa học nhận ý ngày gia tăng Các nhà nghiên cứu tập trung vào việc trích xuất thơng tin từ tóm tắt, tiêu đề trích dẫn Ở có nỗ lực để tạo tóm lược khai thác (Abu-Jbara Radev, năm 2011; Qazvinian cộng sự, 2013) luồng khoa học ý tưởng (Shahaf cộng sự, 2012) Phân tích giấy tờ cá nhân(Tsai cộng sự, 2013, Gupta Manning, 2011, Kiela cộng sự,2015) tập trung chủ yếu vào tóm tắt J Hutchins biên soạn thủ cơng kho lưu trữ văn dịch máy điện tử Ông phân loại 11.500 giấy tờ theo phương pháp, cặp ngơn ngữ, hệ thống, ngơn ngữ học khía cạnh, v.v… Đối với ứng dụng phân tích tự động, iOpener dự án (Dunne et al., 2012; Dunne et al., 2010) Schaferet al (2011) trình bày mối liên kết lexical bibliometric, kỹ thuật tổng hợp, công cụ trực quan Tập trung siêu liệu từ khóa, tác giả, tổ chức, hội nghị tên trích dẫn Kết luận cơng việc tương lai:  Trình bày thơng tin thực nghiệm từ báo khoa học đại diện có cấu trúc hỗ trợ truy vấn giúp nhà nghiên cứu hiểu văn học khoa học Đến kết thúc này, đề xuất nhiệm vụ tự động trích thơng tin thực nghiệm từ báo khoa học Chúng tập trung vào lĩnh vực dịch máy, mà tạo mơ hình có cấu trúc thu thập thơng tin thực nghiệm Chúng tạo tập liệu gồm 67 giấy tờ MT với thông tin thực nghiệm thích theo cách thủ cơng đại diện có cấu trúc Tập liệu có sẵn https://github.com/eunsol/mt lit lrec16.git Cuối cùng, đánh giá hệ thống sở đơn giản, thể số thách thức để tự động khai thác thông tin thực nghiệm Chúng bao gồm việc tìm kiếm giải thơng tin có cấu trúc bảng, giải biến đổi từ vựng giải kết nối đường dài Cơng việc tương lai khám phá kiến thức lĩnh vực hình thức phạm vi kết cho số liệu, sử dụng biên dịch thủ công ... t 'dịch ti ng Anh sang ti ng Nh t ti ng Thổ Nhĩ Kỳ,' ph t ti ng Anh - ti ng Nh t 'T n mở r ng x y t n t p li u Giải thích x c th ng tin b ng, nơi mà th ng tin trình bày cách có cấu trúc t ng. .. d ng hệ th ng c ng cụ trích xu t văn (TET) Vì b ng thư ng sử d ng để báo cáo k t thực nghiệm, ý đặc bi t đến khai thác ch ng Ch ng t i trích th ng tin d ng b ng TableSeer (Liuet al., 2007) Ch ng. .. cao cặp ng n ng x c, kh ng phục hồi t n datasets hệ th ng Ví dụ, ví dụ hình 1, hệ th ng ph t t t bốn giá trị k t tên PBMT li n k t x c đến cặp ng n ng số li u, kh ng thể truy xu t tên SPMT Hơn

Ngày đăng: 21/03/2019, 21:26

w