Seminar môn học khai thác ngữ liệu văn bản nâng cao k31 condenser a pre training architecture for dense retrieval

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN -***** - SEMINAR MÔN HỌC KHAI THÁC NGỮ LIỆU VĂN BẢN NÂNG CAO K31 Condenser: a Pre-training Architecture for Dense Retrieval Giảng viên hướng dẫn : Nguyễn Trường Sơn Học viên thực : Hoàng Minh Thanh – 21C11029 Trần Hữu Nghĩa – 21C12005 Mục lục Giới thiệu 2 Các phương pháp liên quan 2.1 Mơ hình BERT 2.2 Mơ hình SBERT 2.3 Dense Retrieval 2.4 Inverse Cloze Task (ICT) 2.5 Effective Dense Retriever 10 Mơ hình Condenser 11 3.1 Nhược điểm mơ hình BERT 11 3.2 Mơ hình Condenser 12 Thực nghiệm 16 4.1 Sentence Similarity 16 4.2 Retrieval cho Open QA 17 4.3 Retrieval for Web Search 18 4.4 Attention Analysis 19 Condenser toán Zalo 2021 20 Bài toán Zalo AI 2021: Legal Text Retrieval 21 Mục tiêu thực hiện: 21 Các bước thực hiện: 22 Kết luận 23 Tài liệu kham khảo 24 Condenser: a Pre-training Architecture for Dense Retrieval Giới thiệu Các mơ hình dựa BERT sử dụng chế attention trở thành mô hình biểu diễn văn phổ biến ứng dụng rộng rãi xử lý ngôn ngữ tự nhiên Ưu điểm mơ hình Transformer có khả biểu diễn tốt từ Sequence sang Sequence Tuy nhiên, việc dùng vector CLS để biểu diễn thơng tin input đầu vào từ đạo hàm ngược cập nhật trọng số khiến cho vector kết không mô tả đầy đủ thông tin Chính phương pháp Condenser(CONditions on DENSE Representation) đề xuất phương pháp fine-tune lại mơ hình BERT để cải thiện nhược điểm Thực nghiệm chứng minh mơ hình Condenser giúp cho việc Dense Retrieval tốt Giúp kết việc truy xuất văn tốt Nghiên cứu trước fine-tune LM để encode text câu đoạn văn thành biểu diễn dense vector để so sánh truy xuất văn hiệu Nhưng dense encoders yêu cầu nhiều liệu kỹ thuật phức tạp để tình mà có liệu Bên tiêu chuẩn LM kiến trức Attention khơng sẵn sàng cho dense encoder 2 Các phương pháp liên quan 2.1 Mơ hình BERT Mơ hình BERT mơ hình dựa chế attention Cơ mục tiêu mơ hình BERT biểu diễn từ thành vector cho vector biểu diễn đầy đủ thơng tin đặc trưng vốn có từ Ví dụ minh họa đây, câu Apple is good for your health câu Apple is good in its design Từ Apple biểu diễn thành vector có kích thước d chiều, khó để để biểu diễn điều kiện hồn cảnh khác Vì vector phải vị trí mà cho nhân với vector lận cận khác kết cuối phân biệt với Ví dụ: nhân vector Apple X1 với vector từ khác (Y1, Y2, Y3, Y4, Y5) câu thứ nhất, vector từ Apple nhân với vector từ câu thứ hai kết phải khác Đó tảng tư tưởng chế ý (attention mechanism) Về mặt toán học chế attention biểu diễn theo công thức sau: Với Softmax(Q*K^T/sqrt(d_k)) hệ số thể quan trọng phần tử vector query với vector key, sau mơ hình nhân với vector value để kết cuối MultiHead Attention đơn giản ghép kết attention nhân với vector biến đổi tuyến tính Mơ hình Transfomer dựa chế attention, với hai phần lớp Encoder Decoder Đầu tiên văn nhúng cho từ nhúng từ phân biệt với kỹ thuật Position Embedding Mơ hình qua hai thành phần Encoder Decoder Với mục tiêu tính quan trọng vector input với thông qua nhiều bước attention mechanisn để tạo nhiều bước lọc xếp chồng lên trước đến kết cuối Mơ hình BERT mơ hình dựa mơ hình Transfomer sử dụng lớp Encoder Transfomer Kiến trúc mô hình tương tự mơ hình Transfomer hình minh họa Như ta thấy hình minh họa, mơ hình BERT ghép hai câu lại với ngăn cách token vector SEP đưa vào Block Transfomer Với token biểu diễn thành vector có ký hiệu CLS Vector cuối ký hiệu SEP 2.2 Mơ hình SBERT Mục tiêu mơ hình SBERT biểu diễn câu, mơ hình BERT dựa mơ hình Transfomer sử dụng lớp Encoder Tuy nhiên, thay sử dụng Cross-Encoder mơ hình BERT SBERT dùng Bi-encoders để đảm bảo tính tốn nhanh vector, giúp việc lưu trữ kết tính tốn để so sánh, inference liệu cực lớn Bi-Encoders Bi-Encoders sx tính độ tương đồng queries data không gian vector Model biểu diễn liệu (văn bản, hình ảnh, video,…) dạng vector Nó chụp (capture) ngữ cảnh ngữ nghĩa liệu Tương tự, truy vấn tìm kiếm biểu diễn cách Embbending vector Có thể thực tìm kiếm tương tự để truy xuất (retrieve) vectơ gần Các mơ hình tính tốn phép dense vector embeddings cho liệu (mà sau sử dụng cho truy vấn tìm kiếm) gọi mơ hình Bộ mã hóa hai chiều (Bi-Encoder) Các vectơ liệu vectơ truy vấn so sánh cách tính tốn độ tương tự (ví dụ cosine) vector Tất mục liệu sở liệu biểu diễn cách vector embedding sử dụng mơ hình Bi-Encoder Cross-Encoder Cross-Encoder không tạo embedding vector cho liệu mà thay vào sử dụng chế phân loại cho cặp liệu Đầu vào mơ hình ln bao gồm cặp liệu, ví dụ hai câu xuất giá trị từ đến cho thấy giống hai câu Vì vậy, câu riêng lẻ khơng thể chuyển sang mơ hình Cross-Encoder, ln cần cặp "mục" Về tìm kiếm, cần sử dụng Cross-Encoder với mục liệu truy vấn tìm kiếm, để tính tốn mức độ tương đồng truy vấn đối tượng liệu Cross-Encoder ta cho đồng thời hai câu vào mạng Transformer Nó tạo giá trị từ đến cho biết giống hai câu Nếu mô hình Cross-Encoder đào tạo tập huấn luyện đại diện, đạt độ xác cao so với Bi-Encoder Tuy nhiên, cần sử dụng mơ hình Cross-Encoder tìm kiếm mục liệu đơn lẻ kết hợp với truy vấn nên phương pháp hiệu Đối với ứng dụng tìm kiếm ngữ nghĩa đời thực – với hàng nghìn hàng triệu đối tượng – điều khơng thực tế, “mãi mãi” để thực tìm kiếm Bert sử dụng cross-encoder tức cho hai vào transformer dự đoán cặp giá trị Tuy việc sử dụng cross-encoder cho tác vụ hồi quy cặp khác có nhiều kết hợp Ví dụ Tìm tập hợp n = 10 000 câu, cặp có độ tương tự cao yêu cầu với BERT n·(n−1)/2 = 49 995 000 phép tính suy luận trên V100 GPU khoản 65 Để giảm bớt vấn đề này, SBERT Kiến trúc mạng siamese cho phép vector có kích thước cố định cho câu đầu vào lấy Sử dụng thước đo độ tương tự cosine tìm thấy câu giống mặt ngữ nghĩa SBERT sử dụng để tìm kiếm tương đồng ngữ nghĩa để phân cụm Độ phức tạp để cặp câu giống 10.000 câu giảm từ 65 với BERT xuống tính tốn 10.000 sentence embeddings (khoảng giây với SBERT) tính tốn cosine (khoảng 0,01 giây) Language model (LM) pre-training hiệu công việc learning text encoders finetuned cho nhiều Nhiệm vụ phía sau (downstream tasks) Gần việc tinh chỉnh Token CLS để encode input chuỗi văn đầu vào thành biểu diễn vector Do đó, vector sử dụng để so sánh truy xuất (retrieval) văn hiệu Khơng gian tích (inner product) Không giống pre-train cụ thể Condenser pre-train hướng đến cấu trúc Bi-encoder Nhận thấy thiết lập liệu ít, với kiến trúc thời gian thử nghiệm giống hệt nhau, Condenser mang lại cải thiện đáng kể so với LM tiêu chuẩn cho thấy hiệu suất tương đương với mơ hình đào tạo trước dành riêng cho nhiệm vụ mạnh mẽ Với liệu đào tạo lớn, nhận thấy cơng cụ truy xuất Condenser tối ưu hóa dễ dàng hơn, vượt trội so với Model trước đào tạo kỹ thuật phức tạp a single round of negative mining Việc đào tạo trước LM Transformer Bi-encoder sau fine-tuning trở thành mơ hình quan trọng NLP Thử thách lớn áp dụng deep Transformer chi phí tính tốn tri xuất văn từ tập liệu lớn SBERT đào tạo Bi-encoder từ BERT khơng gian tích trong(inner product) vector để so sánh độ tương đồng câu Transformer biencoders sớm sử dụng làm dense retriever 2.3 Dense Retrieval Dense Retrieval so sánh vector truy vấn với vector tài liệu văn cách sử dụng khơng gian tích Các mơ tốn để truy xuất kho văn đầy đủ(full corpus) Một giải pháp thay mơ hình truy xuất thưa thớt theo ngữ cảnh đề xuất gần Bi-encoder để truy xuất danh sách ứng cử viên kết quả, sau sử dụng Cross-Encoder danh sách ứng cử viên để chọn (hoặc xếp hạng lại) kết phù hợp Bằng cách hưởng lợi từ phương pháp truy xuất hiệu cách sử dụng Bi-encoder độ xác cao Cross-Encoder, sử dụng phương pháp liệu quy mô lớn Pre-train Bi-encoder phương pháp cho thấy tính hiệu bi-encoder cho dense retrieval Họ đề xuất đào tạo thêm BERT trước với Inverse Cloze Task (ICT) 2.4 Inverse Cloze Task (ICT) ICT sử dụng cặp đoạn văn đoạn văn đầy đủ làm cặp huấn luyện giả Kết cho thấy mơ hình khơng đào tạo trước không tạo kết truy xuất với liệu thấp.Một câu coi câu hỏi giả ngữ cảnh coi chứng giả Đưa câu hỏi giả, ICT yêu cầu chọn chứng giả tương ứng số ứng cử viên đợt Khác với Cloze task tiêu chuẩn (standard Cloze task) thay dự đốn masked-out văn ngử cảnh ICT cho câu dự đốn ngử cảnh Một khía cạnh quan trọng ICT địi hỏi phải học nhiều tính ghép từ, câu hỏi giả khơng có chứng (evidence) Ví dụ: câu hỏi giả Figure2 không đề cập rõ ràng đến “Ngựa vằn”, retriever chọn ngữ cảnh thảo luận Ngựa vằn Condenser Head Thiết kế quan trọng đặt mạch ngắn từ đầu sớm đến đầu, nhận cặp biểu diễn trễ-sớm Train MLM loss với head output Condenser, late encoder backbone tinh chỉnh thêm biểu diễn late Token chuyển thơng tin qua h cls ,late CLS Do đó, Late CLS yêu cầu để tổng hợp thông tin tạo later in the backbone sau đó, header tạo điều kiện cho Late CLS để đưa dự đoán LM Trong đó, bỏ qua việc kết nối early layer, loại bỏ encoding thông tin cục cấu trúc cú pháp văn đầu vào, tập trung CLS vào e l ý nghĩa toàn văn đầu vào Số lớp L L kiểm soát phân tách thông tin Fine-tuning Condenser head thành phần thời gian trước đào tạo bị loại bỏ late trình Fine-tuning Tinh chỉnh đào tạo late CLS h cls backpropagate gradient vào Backbone Nói cách khác, Condenser giảm xuống encoder backbone trở 14 thành Transformer encoder để fine-tuning cách hiệu quả; head sử dụng để pre-training Trong trình fine-tuning Condenser thay giảm trọng lượng cho Transformer LM điển BERT 15 Thực nghiệm 4.1 Sentence Similarity Dataset: Bộ liệu sử dụng hai liệu giám sát: Semantic Textual Similarity Benchmark Wikipedia Section Distinction Table 1: Hiển thị hiệu suất STS-b với kích cỡ tàu khác BERT Condenser đào tạo trước NLP vượt trội so với BERT có margin lớn nhiều với quy mơ đào tạo nhỏ Ngoài ra, với 500 cặp huấn luyện, hoạt động tốt so với Universal Sentence Encoder (USE) baseline Table 2: Kết gần giống hệt mơ hình BERT Condenser, vượt trội so với baseline BERT Trong đó, quy mơ đào tạo nhỏ tới 1K, độ xác giảm khoảng 10% so với đào tạo với tất liệu Không cần đào tạo với NSP Task, Condenser hoạt động hiệu 16 4.2 Retrieval cho Open QA Dataset: Sử dụng hai truy vấn (two query sets), Natural Question Trivia QA, kho ngữ liệu Wikipedia làm phát hành DPR NQ chứa câu hỏi từ tìm kiếm Google TQA chứa tập hợp câu hỏi nhỏ Cả NQ TQA có khoảng 60 nghìn liệu đào tạo sau xử lý Table Hiệu suất tập kiểm tra cho NQ TQA với liệu thấp ICT Condenser hoạt động tốt BERT, với margin đặc biệt lớn quy mô đào tạo 1K, giảm 10% so với đào tạo quy mô đầy đủ cho Top 20 Hit 5% cho Top 100 Sự cải thiện đáng kể xem xét mức tăng so với BM25 không giám sát ICT Condenser cho thấy hiệu suất tương đương ICT tốt chút NQ Condenser TQA Table 4: So sánh Condenser đào tạo với liệu đào tạo đầy đủ với hệ thống khác Trên NQ, tất công cụ dense retrievers mang lại hiệu suất tốt so với công cụ lexical retrievers, đặc biệt công cụ sử dụng hard negatives Condenser hoạt động tốt cho Top 20 nằm khoảng 0,1 so với RocketQA cho Top 100 mà không yêu cầu hệ thống đào tạo phức tạp (sophisticated) tốn Trên TQA, thấy GAR, từ vựng với mở rộng deep LM query, hoạt động tốt tất dense 17 systems khác ngồi Condenser Điều cho thấy TQA u cầu tín hiệu cấp độ chi tiết khó nắm bắt dense retrievers Tuy nhiên, Condenser hoạt động tốt tất hệ thống lexical dense 4.3 Retrieval for Web Search Dataset: Sử dụng tập liệu xếp hạng đoạn văn MS-MARCO, xây dựng từ nhật ký truy vấn tìm kiếm Bing tài liệu web Bing truy xuất Tập huấn luyện có khoảng 0,5 triệu truy vấn Sử dụng corpus xử lý trước phát hành với RocketQA Đánh giá hai truy vấn: truy vấn MS-MARCO Dev5 TREC DL2019 Báo cáo số liệu thức Nhà phát triển MRR@10 Recall@1k, DL2019 NDCG@10 Table 5, ICT Condenser hoạt động tốt BERT với margin lớn Khi có tới 10 nghìn liệu huấn luyện, 2% tập huấn luyện đầy đủ, tất công cụ dense retrievers vượt trội so với BM25, với ICT Condenser giữ lợi nhuận so với BERT Condenser cho thấy hiệu suất tương đương thu hồi NDCG BERT đào tạo tập huấn luyện đầy đủ Condenser hoạt động tốt ICT kích cỡ đào tạo khác nhau, cho thấy việc đào tạo trước LM chung Condenser giúp khái quát hóa tốt miền so với ICT 18 Table 6: Các kỹ thuật đào tạo khác giúp cải thiện đáng kể so với tinh chỉnh Condenser vượt trội mơ hình nhờ margin lớn, cho thấy lợi ích đào tạo trước mang lại Khơng liên quan đến kỹ thuật đào tạo phức tạp làm nặng mơ hình/truy xuất, Condenser cho thấy hiệu suất tốt chút so với RocketQA 4.4 Attention Analysis Figure 2: CLS mơ hình khác Figures 2a BERT có thay đổi mạnh mẽ mơ hình attention mơ hình fine-tuning trước mơ hình fine-tuning Điều lần khẳng định lý thuyết LM Transformer Encoder LMs chưa sẵn sàng để fine-tuning thành bi-encoder, mà cần trải qua thay đổi lớn cấu trúc bên Figures 2b, 2c task-specific pre-trained ICT Condenser LM có thay đổi nhỏ, giữ nguyên attention structure ICT Condenser thiết lập sẵn sàng cấu trúc, theo cách khác Cả ICT Condenser có ý mở rộng (tăng entropy) lớp sau, có khả tác vụ tìm kiếm thực tế yêu cầu tổng 19

Định dạng
Số trang	29
Dung lượng	1,27 MB