1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo môn học học với ít ví dụ

33 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 569,81 KB
File đính kèm file đính kèm.rar (1 MB)

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC —————————————————— Báo cáo môn học HỌC VỚI ÍT VÍ DỤ Hệ hỗ trợ định Chuyên ngành: Tốn tin Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Sinh viên thực hiện: PHẠM BÁ THÁI Lớp: KSTN - Toán Tin - K59 HÀ NỘI - 2020 Mục lục 0.1 Giới thiệu 0.2 Học khơng ví dụ 0.2.1 Tổng quan 0.2.2 Thuật toán cho học khơng ví dụ Học với ví dụ 14 0.3.1 Tổng quan 14 0.3.2 Thuật tốn học với ví dụ 15 Chương trình Bayes 19 0.4.1 Tổng quan 19 0.4.2 BPL để xác định nét chữ 20 Học với tài nguyên 24 0.5.1 Tổng quan 24 0.5.2 Dịch máy 25 Tổng quát hóa miền 29 0.6.1 Tổng quan 29 0.6.2 Hướng SVM 30 0.6.3 Bộ mã hóa tự động đa tác vụ 31 0.3 0.4 0.5 0.6 0.1 Giới thiệu Khái niệm học lấy cảm hứng từ quan sát người có khả học khái niệm trừu tượng với vài ví dụ, chí khơng có ví dụ nào! Trẻ em đặc biệt có khả nắm bắt đặc điểm điển hình khái niệm vài quan sát Ví dụ, xem hình ảnh nói vật thể ảnh táo, người nhanh chóng nắm bắt đặc điểm hình dạng, màu sắc kết cấu nó, liên kết đặc tính với khái niệm táo Lần sau, gặp phải loại táo đặc biệt, ví dụ roi, ta nhận khơng có vấn đề cho dù tỷ lệ góc nhìn khác với quan sát trước Thỉnh thoảng, không thông báo đặc điểm hình ảnh, đốn vật thuộc lồi gần giống với táo, chúng có chung số tính chất vật lý vỏ màu đỏ, kết cấu mịn hình dạng tương đồng Chúng ta không cần phải dạy khái niệm thơng qua nhiều ví dụ táo khơng Tuy nhiên, nhiệm vụ dễ dàng lại khó khăn với phần lớn cỗ máy tại, thuật tốn học, chí mơ hình học sâu đối kháng nhiều nhiệm vụ nhận thức Ngược lại với khả học hỏi người từ tập hợp nhỏ ví dụ, phần học thuật toán học máy thường dựa số lượng lớn ví dụ Thơng thường, mơ hình phức tạp lại cần nhiều liệu dán nhãn cho trình huấn luyện Kết là, mơ hình học máy gặp phải khái niệm hồn tồn mới, việc kinh nghiệm trước giúp phán đốn xác giống việc sinh ngẫu nhiên mà gặp phần tử tốt Trong hầu hết trường hợp, thuật tốn học máy địi hỏi lượng lớn ví dụ để cập nhật cho tác vụ Để cung cấp cho thuật toán học máy khả nắm bắt thơng tin hữu ích từ số ví dụ, nhà nghiên cứu cố gắng mô trình tinh tế mà người học hỏi từ ví dụ, thay huấn luyện mơ hình từ đầu đến cuối với liệu lớn Cốt lõi nhóm mơ hình xây dựng đặc tính khả nhận thức người mà người học hỏi khái niệm dựa tất kinh nghiệm trước Có nhiều giai đoạn nhận thức từ quan sát thể chất đến hiểu biết tinh thần trí nhớ Lấy ví dụ trái lúc chẳng hạn Mặc dù có nhiều loại trái khác nhau, chẳng hạn roi táo, có đặc điểm riêng xuất hiện, hương vị cấu trúc, chúng có chung Cả hai có da mịn hình dạng chúng tương tự Những đặc tính tương tự hỗ trợ kiến thức chuyển giao từ loại táo sang loại khác Nếu thuật tốn sở hữu khả khái qt hóa dựa đặc trưng phổ quát, mô hình dễ dàng thích ứng với khái niệm qua vài ví dụ Theo cách nhìn sâu sắc này, nhà nghiên cứu đề xuất việc học qua ví dụ để bắt chước khả học người Có nhiều biến thể học qua ví dụ, bao gồm học khơng có ví dụ nào, học qua ví dụ, chương trình học Bayes (BPL), học với tài ngun khái quát miền Tất hiểu số biến thể học chuyển giao Vì vậy, bối cảnh học chuyển giao, xem xét So với giới thiệu học chuyển giao giới thiệu trước đây, học với ví dụ, miền đích thường cho có liệu hạn chế, bao gồm liệu dán nhãn không nhãn Trong số trường hợp cực đoan, khơng có trường hợp miền đích giả định có sẵn trước; ví dụ, trường hợp vấn đề khái quát miền Sau đây, giới thiệu số mơ hình đại tiêu biểu qua cách cài đặt học khơng ví dụ (Mục 2), học ví dụ (Mục 3), BPL (Mục 4), học với tài nguyên (Mục 5) cuối học khái quát miền (Mục 6) 0.2 Học không ví dụ 0.2.1 Tổng quan Trong cài đặt học khơng ví dụ, hệ thống học xử lý ví dụ thử (testing example) từ lớp khơng xuất liệu luyện So sánh với cài đặt máy học thông thường, khác biệt quan trọng khái niệm hay nhãn có xuất ví dụ thử khác biệt địi hỏi "liên kết" từ tri thức lớp có đến lớp Liên kết sử dụng hầu hết phương pháp học khơng ví dụ thứ mà ta gọi đặc trưng ngữ nghĩa Những đặc trưng làm cho việc học chuyển giao trở nên khả thi Cụ thể, đặc điểm ngữ nghĩa lớp định đặc trưng đặc trưng cho lớp Do đó, thay học ánh xạ từ X đến Y , X không gian m chiều Y khơng gian nhãn, chúng tơi cố gắng tìm học hàm: X → F F khơng gian đặc trưng ngữ nghĩa Ngồi ra, chúng tơi cần sở tri thức K, liệt kê tất lớp nhãn đặc trưng ngữ nghĩa có liên quan, thứ hoạt động liên kết Cơ sở tri thức K có thơng tin lớp có lớp Do đó, sau chúng tơi có đặc trưng ngữ nghĩa ví dụ, chúng tơi khớp đặc trưng sở tri thức để có lớp tương đồng thứ mà ví dụ thuộc Sau đây, giới thiệu số thuật ngữ hữu ích sử dụng cơng trình Palatuc ci et al (2009) Một không gian đặc trưng ngữ nghĩa, biểu F , không gian d chiều Mỗi chiều không gian đại diện cho đặc trưng ẩn hiện, liên tục rời rạc Trong trường hợp hiện, chiều biểu thị đặc trưng ngữ nghĩa rõ ràng chẳng hạn đối tượng có đơi cánh hay chân Trong trường hợp ẩn, thật khó để cung cấp cho đặc trưng mô tả rõ ràng, biết đặc trưng giúp phân biệt lớp khác Ví dụ tiếng loại đặc trưng từ phép nhúng, từ có ý nghĩa ngữ nghĩa tương tự gần khơng gian nhúng Một sở tri thức ngữ nghĩa ký hiệu K = {(f1 , y1 ), , (fk , yk )}, với yi ∈ Y đại diện cho nhãn fi ∈ F đại diện cho đại diện tương ứng không gian đặc trưng ngữ nghĩa Chúng ta ngầm định có song ánh F Y Do đó, miễn có đại diện đặc trưng ngữ nghĩa f , tìm thấy lớp thuộc ngược lại Cơ sở tri thức K xây dựng thủ công thông qua học máy Với thích thủ cơng, nhãn gán đưa thích người, thường giải thích Trong hình ảnh, nhãn thích đối tượng xuất hình ảnh với thẻ diện hay vắng mặt đặc trưng định Chú thích dựa máy học dựa tập hợp văn bản, bao gồm ràng buộc tất lớp nhãn Một mơ hình huấn luyện để bắt chước khả người học khái niệm thơng qua đọc Ví dụ: chúng tơi ý nghĩa từ "liger", sau trải qua mô tả kiểu "Liger lai sư tử đực hổ cái", ngoại suy liger gần giống với hổ sư tử, với vài biến thể Việc nhúng từ quan trọng việc nắm bắt giống ngữ nghĩa từ Nếu hai từ xuất bối cảnh tương tự, độ tương tự ngữ nghĩa chúng cao Về mặt kỹ thuật, cốt lõi loại phương pháp mã hóa từ thành đại diện phấn phối cách tối đa hóa xác suất xuất luật ngữ cảnh luật đại diện, luật đại diện luật đưa từ ngữ cảnh Shen et al (2006b) giới thiệu kết học khơng ví dụ thơng qua "cầu phân loại" Kết giành giải vô địch thi khai phá liệu ACM KDD CUP năm 2005 (Shen et al., 2005), sau áp dụng cho số cơng cụ tìm kiếm thương mại hệ thống quảng cáo Chúng cung cấp mô tả chi tiết giải pháp 0.2.2 Thuật tốn cho học khơng ví dụ Nhiều thuật tốn học khơng ví dụ đề xuất chúng chia thành hai loại Loại từ quan điểm phân loại hồi quy Loại thứ hai từ quan điểm xếp hạng hàm lượng Phân loại hồi quy Như đề cập trước đó, học khơng ví dụ, tiến trình ánh xạ cần thiết, gồm hai phần, X → F F → Y F không gian đặc trưng ngữ nghĩa để kết nối lớp khác Mỗi chiều không gian đặc trưng ngữ nghĩa liên tục rời rạc Để cho phép học khơng ví dụ, bước đầu tiên, trước tiên cần chuyển nhãn ví dụ huấn luyện cho đặc trưng ngữ nghĩa f dựa sở tri thức Trong bước thứ hai, điều chỉnh tập hợp hàm để huấn luyện ví dụ, hàm phân loại cho đặc trưng rời rạc mơ hình hồi quy cho đặc trưng liên tục Chúng ta có {(xs1 , f1s ), , (xsns , fnss )}, f đa chiều chiều số chúng yêu cầu mơ hình dự đốn Trong giai đoạn thử nghiệm, chúng tơi áp dụng trình phân loại cho tác vụ đích Bước chúng tơi để ánh xạ xti sang fit với i ∈ {1, 2, , nt } cách thu thập mơ hình dự đốn mà vừa học Bước thứ hai qua sở tri thức để xác định lớp tương đồng đặc trưng ngữ nghĩa dự đoán đặc trưng ngữ nghĩa nguyên mẫu lớp xuất có thứ hạng cao Shen et al (2006b) giới thiệu kết học khơng ví dụ thơng qua "cầu phân loại" Kết giành giải vô địch thi khai phá liệu ACM KDD CUP năm 2005 (Shen et al., 2005), sau áp dụng cho số cơng cụ tìm kiếm thương mại hệ thống quảng cáo Trong thuật toán này, mục tiêu phân loại truy vấn định thành nhãn danh mục mới, có khơng có liệu huấn luyện cho nhãn Để giải vấn đề này, hai giai đoạn sử dụng để xây dựng mơ hình phân loại khơng ví dụ Giai đoạn I tương ứng với giai đoạn huấn luyện thuật tốn máy học điển hình, liệu từ Web thu thập để huấn luyện tập mơ hình phân loại trung gian dùng để ánh xạ tài liệu chữ sang loại trung gian có khả bao phủ khơng gian nhãn khổng lồ (tất có 300000) Giai đoạn II ánh xạ nhãn sở phân loại đến nhãn miền đích để kết nối đầy đủ tài liệu sở với nhãn đích nhỏ 100 Không gian lớp nhãn trung gian ứng với nhãn ngữ nghĩa đề cập trước đó, Web cung cấp liệu để kết nối truy vấn đến với đặc trưng ngữ nghĩa sau đến nhãn đích Một mơ tả đầy đủ thuật toán với thử nghiệm phân loại truy vấn tìm thấy kết Shen et al (2006a) Đặt p(CiT |q) xác suất để q thuộc lớp CiT với điều kiện q p(CiT |CjI ) p(qj |CjI ) định nghĩa tương tự Ở p(CjI ) xác suất trước lớp nhãn trung gian CjI , ước tính từ trang web C I Mối quan hệ chúng tính quy tắc Bayes: p(CiT |q) = CjI p(CiT , CjI |q) = σCjI p(CiT |CjI , q)p(CjI |q) =∝ σCjI p(CiT |CjI )p(q|CjI )p(CjI ) Các thuật ngữ phương trình cuối ước tính tần số thuật ngữ từ cụm từ loại Ví dụ, p(CiT |CjI ) = n I nk k=1 (p(wk |Cj ) Cuối cùng, lớp trả xác định theo công thức cực đại tương đồng: c∗ = arg maxCiT p(CiT |q) Một sơ đồ cho thấy cách ánh xạ từ truy vấn đến lớp đích thông qua lớp trung gian thể hình Trong hình này, truy vấnq k ánh xạ tới lớp nhãn mục tiêu C T với xác suất xác định tính thơng qua phân loại trung gian từ Q đến C I , từ C I đến mục tiêu C T Hình 1: Biểu đồ thể trình phân loại bắc cầu cho phân loại truy vấn qua lĩnh vực trung gian (phỏng theo Shen cộng [2006b]) Đặc trưng ngữ nghĩa biểu diễn dạng rõ ràng chẳng hạn thích đặc trưng, hình thức ẩn chẳn hạn mã hóa nhãn ngữ nghĩa Socher et al (2013a) đề xuất mô hình hồi quy để chiếu đại diện đặc trưng thơ vào khơng gian mã hóa nhãn Trong cài đặt vậy, fi biểu diễn dạng f (yi ) với i ∈ {1, , n}, f (yi ) đại diện phân phối nhãn yi học từ chứng lớn Mơ hình hồi quy mạng nơ ron hai lớp hàm mục tiêu định nghĩa là: 10 0.4 Chương trình Bayes 0.4.1 Tổng quan Thuật tốn BPL đề xuất cơng trình Lake et al (2011, 2013, 2015) Đây ví dụ học chuyển nhượng khơng giám sát, thơng tin nhãn khơng quan sát liệu huấn luyện Cốt lõi phương pháp mơ hình hóa khái niệm cách khái qt Mặc cho phức tạp phương pháp, BPL bao gồm nguyên tắc nguyên thủy phổ biến mức độ trừu tượng Quá trình tạo khái niệm nguyên thủy theo trực giác học người Ví dụ, chữ xây dựng nét đường nối nét Các nét thành phần số nét tạo thành phần phức tạp chữ đó, chia sẻ chữ với Cuối cùng, chữ xuất dựa cấu trúc, thành phần cấu tạo phận khác Lake cộng (2015) có ba ý tưởng BPL, thành phần, nhân học cách học Các đặc trưng thành phần đề cập đến đặc tính mà khái niệm tạo nét nguyên thủy, minh họa ví dụ nét chữ Tính chất nhân có nghĩa mơ hình xác suất nắm bắt trình phát sinh nguyên nhân từ nguyên thủy cho khái niệm Điều cho phép phương pháp thực hành triết lý học để tìm hiểu, có nghĩa áp dụng kinh nghiệm từ nhiệm vụ khác có liên quan đến nhiệm vụ Do đó, khung BPL biến thể học chuyển giao Sau đây, thức hóa khung BPL cách giới thiệu chi tiết 19 Hình 4: Một minh họa cho q trình tạo mã thơng báo chữ cái, kiểu ký tự hoạt động giống mẫu sử dụng để tạo nhóm mã thông báo(phỏng theo Lake cộng [2011]) 0.4.2 BPL để xác định nét chữ Chúng theo định nghĩa cơng trình Lake et al (2011, 2013, 2015) Giả sử có thư viện gồm n hình ảnh đen trắng với ký tự vẽ hình Trong cài đặt học với ví dụ, có ví dụ tập liệu cho ký tự, ví dụ, (A, B, C, ) Hình ảnh thứ i đại diện ma trận nhị phân X (i) w × h, w biểu thị chiều rộng h biểu thị chiều cao X (i) (x, y) = (0 ≤ x ≤ w, ≤ y ≤ h) pixel vị 20 trí (x, y) màu đen ngược lại Từ hình ảnh chữ cái, cần suy trình đưa triển vọng chữ Cụ thể yếu tố bao gồm số nét m, đặc điểm kỹ thuật nét Sj (1 ≤ j ≤ m), vị trí bắt đầu nét {Wj }m j=1 trọng số trộn π Hình mơ tả q trình phát sinh Chúng tơi chi tiết q trình sau Mơ hình sinh loại chữ Một loại ký tự bao gồm yếu tố đề cập trước Đầu tiên, chúng tơi lấy ngẫu nhiên m từ phân phối khoảng từ đến 10 Sau đó, chúng tơi lấy m ngẫu nhiên Nét S1 lấy ngẫu nhiên từ phân phối P (S1 ) = K, K kích thước tập nét Vị trí bắt đầu nét lấy ngẫu nhiên hình ảnh, có điểm pixel wh Xác suất vị trí chọn wh Phong cách vị trí nét lấy ngẫu nhiên từ hai phân phối xác suất chuyển tiếp P (Si+1 |Si ) P (Wi+1 |Wi ), có nghĩa vẽ nét phụ thuộc vào nét trước Trong bước cuối cùng, lấy mẫu trộn trọng lượng π từ phân phối Dirichlet Mơ hình sinh mã thơng báo chữ Mã thơng báo chữ hình ảnh quan sát chữ Bạn coi tiêu chí viết, mã thơng báo hình ảnh thực tế phụ thuộc nhiều vào thói quen cá nhân khác Ở đây, chúng tơi cho phép chuyển vị ngẫu nhiên có hệ thống Sự dịch chuyển có hệ thống có nghĩa cách bố trí ký tự nghiêng từ vị trí tiêu chuẩn hình ảnh dịch 21 chuyển ngẫu nhiên có nghĩa điểm bắt đầu nét khơng xác vị trí chuẩn chữ Z = {Z1 , Z2 , , Zm } biểu thị điểm bắt đầu bị biến dạng τ đại diện cho hệ thống chuyển vị Vì vậy, phân phối ban đầu Z τ định nghĩa P (τ ) ∝ exp(− 2σ1 ||τ ||22 ), t P (Z|W, τ ) ∝ m i=1 exp(− 2σz2 ||(Zi − Wi − τ ||22 ) Sau có vị trí bắt đầu thực tế cú đánh, tạo mã thơng báo ký tự theo dõi mực hình ảnh, theo điều chỉnh mơ hình mực đề xuất Revow et al (1996) Như biết, viết ký tự, mực chảy đến vị trí xung quanh nhấn bút điểm Cần phải mơ hình hóa q trình khuếch tán, khơng mực bị coi nhầm nét khác Xác suất màu vị trí (x, y) màu trắng P (X (i) (x, y) = 0|S (i) , Z (i) , π (i) ) = (1 − Q(X (i) (x, y)|S (i) , Z (i) , π (i) ))G , xác suất màu đen P (X (i) (x, y) = 1|S (i) , Z (i) , π (i) ) = − P (X (i) (x, y) = 0|S (i) , Z (i) , π (i) ) Hình thức Q xác định sau xem trực quan dạng hỗn hợp nhiễu ngẫu nhiên ảnh hưởng từ tất m nét Theo kinh nghiệm, dấu vết nét vị trí xa (x, y), khơng X(x,y) có màu đen nét Một phân phối Gaussian sử dụng để diễn tả heuristic này, đó, khoảng cách trở nên lớn hơn, xác suất giảm nhanh chóng Khi nét vẽ ngang qua nhiều pixel hình ảnh, mà dẫn đến độ phức tạp cao, mơ hình mực rời rạc nét liên tục nhiều hạt Lấy đường 22 thẳng đứng làm ví dụ, sử dụng nhiều điểm chuỗi hạt dọc theo để gần nét, thay dịng hồn chỉnh Theo cách này, kiểm sốt số lượng hạt lấy mẫu dọc theo dịng Chúng ta định nghĩa Q Q(X (i) (x, y)|S (i) , Z (i) , π (i) ) = (i) (i) β R2 V (X (i) (x, y)|Sj , Zj ) = + (1 − β) B (i) m j=1 πj V (i) (i) (X (i) (x, y)|Sj , Zj ), B (i) b=1 N (X (x, y)|Cb (i) + Zj , σb2 I) Trong B số hạt tạo hình dạng nét Cb ∈ R2 hạt phối hợp cho nét Si Suy luận BPL Vì cách tiếp cận BPL phân loại theo mơ hình học với ví dụ,cài đặt giống trường hợp chung việc học với ví dụ Trong mơ hình chúng tơi, chúng tơi có quan sát X l loại ký tự từ miền đích số quan sát loại ký tự từ miền nguồn Dựa liệu dán nhãn, mơ hình tạo suy luận cho ký tự không gắn nhãn X u Sau đó, xích Markov q trình Monte Carlo với thuật tốn MetropolisHastings sử dụng để suy luận BPL cho mẫu mới, để vẽ kết luận cuối chữ hệ thống nhìn thấy 23 0.5 Học với tài ngun 0.5.1 Tổng quan Trong học máy, học qua ví dụ sử dụng để mô tả phương pháp học chịu thiếu hụt liệu huấn luyện ứng dụng thị giác máy tính Tuy nhiên, kịch tương tự xuất thường xuyên nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) Trong cộng đồng NLP, nhà nghiên cứu sử dụng thuật ngữ khác học tài ngun kém, khơng có tài ngun học tài nguyên thấp, nơi mà tài nguyên Google đề cập đến việc huấn luyện liệu Có 7.000 ngơn ngữ giới, hầu hết số khơng có liệu thích kho liệu để xây dựng hệ thống NLP Treebank, tài liệu tiếng phân tích cú pháp thích với cấu trúc câu cú pháp ngữ nghĩa, bao gồm bốn mươi ngôn ngữ, phần nhỏ tồn ngơn ngữ Ngay phạm vi ngơn ngữ tiếng Anh, có nhiều loại nhiệm vụ nhiều lĩnh vực Một phần việc gắn thẻ lời nói phân tích cú pháp phụ thuộc yêu cầu định dạng liệu phân tích cảm xúc cho tin tức trị tin tức thể thao yêu cầu văn miền cụ thể Do đó, vấn đề tài nguyên nghèo tồn không ngôn ngữ khác nhau, mà nhiệm vụ ngôn ngữ Vấn đề tài nguyên NLP không dễ giải vấn đề học với ví dụ thị giác máy tính Ngay người, chuyến dài khó khăn để nắm bắt ngôn ngữ Chúng ta cần nhớ số lượng lớn từ vựng ngữ pháp May mắn thay, ngơn ngữ khác nhiều chia sẻ số đặc điểm phổ biến cấp độ khác Đầu tiên, từ vựng 24 ngơn ngữ, thường có từ vựng đáp ứng ngôn ngữ khác Thứ hai, cấp độ cao hơn, từ vựng ngơn ngữ phân loại thành loại phổ quát động từ, danh từ tính từ Thứ ba, cấp độ câu, mối quan hệ phụ thuộc chia sẻ số ngơn ngữ Do đó, gây khó khăn có số cụ thể kiến thức tảng, nơi học chuyển giúp học nhiệm vụ Mặc dù học tài nguyên áp dụng rộng rãi cho NLP đa dạng nhiệm vụ, sử dụng dịch máy làm ví dụ điển hình phần 0.5.2 Dịch máy Nghiên cứu cộng đồng dịch máy thường xuyên gặp phải vấn đề lớn, hầu hết ngơn ngữ giới có nguồn lực hạn chế để huấn luyện mơ hình học máy Mặc dù có nhiều tiếng Anh - tiếng Trung tiếng Pháp tiếng Anh sử dụng làm mẫu, có tiếng Trung - tiếng Bồ Đào Nha khan Ở đây, câu song song người Viking biểu thị cặp câu hai ngôn ngữ khác dịch cho Anh xạ trực tiếp từ ngơn ngữ nguồn sang ngơn ngữ đích có nghĩa cặp ngôn ngữ tạo thành nhiệm vụ học nhất, độc lập với cặp khác Kết là, việc chuyển kiến thức từ mô hình dịch máy mạnh mẽ sang nhiệm vụ dịch thuật ngôn ngữ tài nguyên khác chuyện nhỏ Do đó, nên đưa chế cho phép số hình thức tăng cường lẫn Trước tiên giới thiệu công cụ cho nhiệm vụ dịch thuật Khung mã hóa-giải mã-cơng việc (xem Hình 5) có lợi vốn có để 25 làm cho nhiệm vụ để chia sẻ thành phần tương tự Cụ thể, gán mã hóa đến ngơn ngữ hoạt động miền nguồn tác vụ dịch thuật, thiết kế hợp lý ngơn ngữ lấy làm mục tiêu, bước hiểu ngữ nghĩa câu nguồn Sau đó, dựa ý nghĩa ngữ nghĩa độc lập với ngơn ngữ, biến đổi ngữ nghĩa với ngơn ngữ đích Hình 5: Một minh họa kiến trúc mã hóa-giải mã (được điều chỉnh từ Zoph Hiệp sĩ [2016]) Vùng sáng biểu thị mã hóa vùng tối dành cho giải mã Học tài nguyên Khi số tài nguyên liệu có sẵn cho nhiệm vụ học mục tiêu dạng cặp ngôn ngữ song song, huấn luyện mơ hình miền đích Zoph 26 cộng (2016) huấn luyện mơ hình cha từ miền tài nguyên cao (nghĩa miền nguồn) có sẵn số lượng lớn cặp ngôn ngữ tiếng Anh Pháp, hiển thị hình 13 Một phần tham số mơ hình cha sử dụng để khởi tạo tham số mơ hình nhằm vào nhiệm vụ dịch thuật mức tài ngun thấp Mơ hình cha mơ hình bị ràng buộc để chia sẻ kiến trúc giống hệt giải mã-mã hóa hai lớp với đơn vị nhớ ngắn hạn Mô hình sử dụng thành phần để xem lại miền nguồn Hình 6: Kiến trúc cho dịch máy cách hiển thị sáu khối thông số (được điều chỉnh Zoph et al [2016]) Học không tài nguyên Trong trường hợp cực đoan khơng có kho liệu song song có sẵn mục tiêu chính, chúng tơi có vấn đề dịch thuật tài nguyên không Trong trường hợp này, số nhà nghiên cứu tìm ngơn ngữ trung gian 27 để thu hẹp khoảng cách Chúng tơi sử dụng tiếng Anh trụ cột để hướng dẫn dịch thuật Quá trình tương tự học chuyển tiếp (TTL) Cụ thể, đưa câu tiếng Trung, trước tiên chúng tơi dịch sang tiếng Anh sau Tiếng Bồ Đào Nha dựa dịch tiếng Anh Tuy nhiên, kết nối hai dịch giả huấn luyện hai khối riêng biệt mà khơng có thiết kế có số thiếu sót Vấn đề quan trọng chất lượng dịch thuật trung gian đảm bảo mặt kỹ thuật, việc phân phối câu tạo không phù hợp với việc phân phối câu thô tập huấn luyện, chúng rút từ miền Firat et al (2016) giới thiệu phương pháp xác song song giả để tinh chỉnh tham số mơ hình để giảm bớt khác biệt phân phối cho số ngoại lệ Trong công việc họ, nhà nghiên cứu phân tách quy trình dịch từ Tiếng Tây Ban Nha sang tiếng Pháp thành việc dịch từ Tây Ban Nha sang tiếng Anh sau từ tiếng Anh sang tiếng Pháp Các văn giả song song tạo sau Đầu tiên, họ chọn ngẫu nhiên N cặp câu từ tiếng Anh sang tiếng Pháp Thứ hai, họ sử dụng dịch giả tiếng Anh - tiếng Tây Ban Nha huấn luyện để khôi phục câu tương ứng từ ngơn ngữ (tiếng Anh) sang ngơn ngữ nguồn (tiếng Tây Ban Nha) Thứ ba, họ khai thác câu thật tảng ngơn ngữ đích (tiếng Pháp) tương ứng ngôn ngữ nguồn (tiếng Tây Ban Nha) để huấn luyện dịch giả với mã hóa giải mã khởi tạo từ tiếng Tây Ban Nha Tiếng Anh Tiếng Anh Tiếng Pháp tương ứng Vì câu nguồn tạo mơ hình thay chun gia người, khơng hồn tồn xác, đánh lừa người khác q trình học Để tránh làm suy yếu mạnh mẽ mã hóa giải mã huấn luyện 28 từ liệu thật mặt đất, họ sửa tham số hai thành phần tinh chỉnh đơn vị ý Với hạn chế vậy, đơn vị ý dự kiến nắm bắt kiến thức tổng quát bất chấp thực tế đặc trưng nguồn có số tiếng ồn Có số lo ngại cặp ngôn ngữ chọn làm trung gian nguồn điện để tiến hành TTL Ví dụ, người Pháp thường học tiếng Anh nhanh người Trung Quốc tiếng Anh tiếng Pháp chia sẻ đặc điểm nhiều mặt Khi đối mặt với nhiệm vụ dịch thuật, thực tế khơng có lý thuyết vững hỗ trợ cho lựa chọn, mong đợi khác biệt đó-các cặp khác dẫn đến hiệu ứng khác trình học bắc cầu 0.6 Tổng quát hóa miền 0.6.1 Tổng quan Tổng quát hóa miền xử lý vấn đề học liệu từ nhiệm vụ mục tiêu khơng thể tiếp cận với mơ hình giai đoạn huấn luyện Khơng giống miền thích ứng, khái qt hóa miền làm cho khơng có giả định sẵn có mẫu từ miền đích Yêu cầu chúng tơi mơ hình xử lý thử nghiệm mẫu miền đích mà chí khơng có mẫu huấn luyện cung cấp Mặc dù nghe khó khăn với việc học chuyển giao, khái quát hóa miền hoạt động dựa ba chiến lược Chiến lược dựa tương tự miền, độc lập học mơ hình cho miền (Xu et al., 29 2014b) Khi miền xuất hiện, xác định miền có tương tự áp dụng hình tương ứng với miền Chiến lược thứ hai trường hợp đặc biệt học chuyển giao dựa tham số tất miền có sẵn tham gia vào học hợp tác cách tìm hiểu tập hợp tham số không xác định miền, chia sẻ số nhiều lĩnh vực (Khosla et al., 2012; Li et al., 2017a) Đối với miền cá nhân, tập hợp tham số dành riêng cho miền Chiến lược theo sau mơ hình học đa nhiệm Chiến lược thứ ba biến thể học chuyển giao dựa đặc trưng, giả định rằng, phân phối không gian ban đầu thay đổi từ miền sang miền khác, tồn phân phối bất biến chia sẻ tất lĩnh vực (Ghifary et al., 2015) Theo trực giác vậy, tất miền chiếu vào không gian chung Trong phần sau, chúng tơi giới thiệu hai thuật tốn đại diện để minh họa cho chiến lược 0.6.2 Hướng SVM Khosla cộng (2012) sử dụng mơ hình giới hình ảnh chung cho tất miền để tìm hiểu số kiến thức chung sưu tập mơ hình cụ thể cho mơ hình miền riêng để nắm bắt đặc sản miền Mơ hình giới thị giác khơng xác cao nhiệm vụ riêng lẻ, thực tốt tất nhiệm vụ mức trung bình Mỗi nhiệm vụ giải mơ hình giới thị giác mơ hình miền cụ thể Có m miền nguồn {Si }m i=1 miền thứ i có liệu huấn luyện Dsi Mỗi n si liệu Dsi = {(xsj i , yjsi )}j=1 , bao gồm nsi ví dụ huấn luyện, với xsj i ∈ Rd 30 điểm liệu thứ j Dsi yisi ∈ {−1, 1} nhãn Trong đề xuất thuật toán, họ học tham số, ∆si ∈ Rd , tương ứng với sai lệch cho tập liệu Dsi Nó học tập tham số cụ thể, wvw , tương ứng đến giới thị giác Các tham số mơ hình thiên vị kết hợp chúng, nghĩa là, wsi = wvw + ∆si Hàm mục tiêu xây dựng minwvw ,∆si ,ξ,ρ 21 ||wvw ||2 + C2 λ m si i=1 ||∆ || + m n si i=1 j=1 ρj , C1 m i=1 n si j=1 ξj + phụ thuộc vào wsi = wvw + ∆si , yjsi wvw xsj i ≥ − ξjsi (i ∈ {1, , m}, j ∈ {1, , nsi }), yjsi wsi xsj i ≥ − ρsj i (i ∈ {1, , m}, j ∈ {1, , nsi }), ξjsi ≥ 0, ρsj i ≥ 0(i ∈ {1, , m}, j ∈ {1, , nsi }) ,với C1 , C2 λ siêu tham số, ξjsi ρsj i biến chùng 0.6.3 Bộ mã hóa tự động đa tác vụ Bộ mã hóa tự động đa nhiệm (Ghifary et al., 2015) tuân theo chất đặc trưng-học chuyển giao Về bản, giả định biến thể miền tạo từ không gian chung Mặc dù ánh xạ từ không gian đặc trưng đến không gian nhãn thay đổi từ miền sang miền khác, ánh xạ từ khơng gian chung giống Để tự động khám phá không gian con, giải mã tự động đa tác vụ sử dụng kiến trúc có nguồn gốc từ mã hóa tự động Sự khác biệt tự động đa nhiệm tự động thông thường nằm 31 phần giải mã, giải mã tự động đa nhiệm có giải mã khác cho lĩnh vực khác Khôi phục không gian từ miền tạo thành nhiệm vụ, có nhiều nhiệm vụ để học Bộ mã hóa chia sẻ để đảm bảo tính bền vững khơng gian học Một ví dụ kiến trúc hiển thị Hình Hình 7: Kiến trúc tự động đa nhiệm (được điều chỉnh từ Ghifaryet al [2015]), tất miền chia sẻ mã hóa có riêng giải mã Ghifary et al (2015) trình bày trường hợp cụ thể Ở giới thiệu phiên khái quát để phản ánh ý tưởng cốt lõi Có m miền n si si nguồn {S}m i=1 Mỗi miền có tập huấn luyện Dsi = {xj }j=1 Bộ mã hóa giải mã định nghĩa hsj i = σenc (W T xsj i ), fΘsi (xsi i ) = σdec (V si T hsj i ) 32 , với Θsi = {W, V si } chứa tham số chia sẻ cá nhân Sự mát thông tin định nghĩa J(Θsi ) = nsi si si si j=1 l(fΘ (xj ), xj ) Tồn hàm mục tiêu xây dựng có dạng ˆ si = arg minΘsi Θ m si i=1 J(Θ ) + R(Θsi ), R(Θsi ) thuật ngữ quy Ghifary et al (2015) sử dụng chuẩn bình phương l2 , nghĩa là, R(Θsi ) = ||W ||2F + để giải quyếthàm mục tiêu 33 m si i=1 ||V ||F SGD áp dụng ... cài đặt học khơng ví dụ (Mục 2), học ví dụ (Mục 3), BPL (Mục 4), học với tài nguyên (Mục 5) cuối học khái quát miền (Mục 6) 0.2 Học không ví dụ 0.2.1 Tổng quan Trong cài đặt học khơng ví dụ, hệ... với khái niệm qua vài ví dụ Theo cách nhìn sâu sắc này, nhà nghiên cứu đề xuất việc học qua ví dụ để bắt chước khả học người Có nhiều biến thể học qua ví dụ, bao gồm học khơng có ví dụ nào, học. .. 0.2 Học khơng ví dụ 0.2.1 Tổng quan 0.2.2 Thuật toán cho học khơng ví dụ Học với ví dụ

Ngày đăng: 22/07/2020, 15:52

HÌNH ẢNH LIÊN QUAN

Hình 1: Biểu đồ thể hiện trình phân loại bắc cầu cho phân loại truy vấn qua các lĩnh vực trung gian (phỏng theo Shen và cộng sự [2006b]) - báo cáo môn học học với ít ví dụ
Hình 1 Biểu đồ thể hiện trình phân loại bắc cầu cho phân loại truy vấn qua các lĩnh vực trung gian (phỏng theo Shen và cộng sự [2006b]) (Trang 10)
Hình 2: Kiến trúc của mô hình nhúng ngữ nghĩa trực quan sâu(phỏng theo Frome và cộng sự [2013]) - báo cáo môn học học với ít ví dụ
Hình 2 Kiến trúc của mô hình nhúng ngữ nghĩa trực quan sâu(phỏng theo Frome và cộng sự [2013]) (Trang 13)
Hình 3: Kiến trúc của mạng nơ ron Siamese (được điều chỉnh từ Koch [2015]) - báo cáo môn học học với ít ví dụ
Hình 3 Kiến trúc của mạng nơ ron Siamese (được điều chỉnh từ Koch [2015]) (Trang 16)
Hình 4: Một minh họa cho quá trình tạo ra mã thông báo chữ cái, trong đó một kiểu ký tự hoạt động giống như một mẫu có thể được sử dụng để tạo một nhóm mã thông báo(phỏng theo Lake và cộng sự [2011]) - báo cáo môn học học với ít ví dụ
Hình 4 Một minh họa cho quá trình tạo ra mã thông báo chữ cái, trong đó một kiểu ký tự hoạt động giống như một mẫu có thể được sử dụng để tạo một nhóm mã thông báo(phỏng theo Lake và cộng sự [2011]) (Trang 20)
Hình 5: Một minh họa về kiến trúc bộ mã hóa-giải mã (được điều chỉnh từ Zoph và Hiệp sĩ [2016]) - báo cáo môn học học với ít ví dụ
Hình 5 Một minh họa về kiến trúc bộ mã hóa-giải mã (được điều chỉnh từ Zoph và Hiệp sĩ [2016]) (Trang 26)
và cộng sự. (2016) huấn luyện mô hình cha từ một miền tài nguyên cao (nghĩa là miền nguồn) trong đó có sẵn một số lượng lớn các cặp ngôn ngữ tiếng Anh  -Pháp, như được hiển thị trong hình 13 - báo cáo môn học học với ít ví dụ
v à cộng sự. (2016) huấn luyện mô hình cha từ một miền tài nguyên cao (nghĩa là miền nguồn) trong đó có sẵn một số lượng lớn các cặp ngôn ngữ tiếng Anh -Pháp, như được hiển thị trong hình 13 (Trang 27)
Hình 7: Kiến trúc của bộ tự động đa nhiệm (được điều chỉnh từ Ghifaryet al. [2015]), trong đó tất cả các miền chia sẻ cùng một bộ mã hóa và có riêng bộ giải mã - báo cáo môn học học với ít ví dụ
Hình 7 Kiến trúc của bộ tự động đa nhiệm (được điều chỉnh từ Ghifaryet al. [2015]), trong đó tất cả các miền chia sẻ cùng một bộ mã hóa và có riêng bộ giải mã (Trang 32)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w