(Tiểu luận) seminar môn học khai thác ngữ liệu văn bản nâng cao k31 condenser a pre training architecture for dense retrieval

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN -***** - SEMINAR MÔN HỌC KHAI THÁC NGỮ LIỆU VĂN BẢN NÂNG CAO - K31 Condenser: a Pre-training Architecture for Dense Retrieval Giảng viên hướng dẫn : Nguyễn Trường Sơn Học viên thực : Hoàng Minh Thanh – 21C11029 Trần Hữu Nghĩa – 21C12005 h Mục lục Giới thiệu 2 Các phương pháp liên quan 2.1 Mơ hình BERT 2.2 Mơ hình SBERT 2.3 Dense Retrieval 2.4 Inverse Cloze Task (ICT) 2.5 Effective Dense Retriever 10 Mơ hình Condenser 11 3.1 Nhược điểm mơ hình BERT 11 3.2 Mơ hình Condenser 12 Thực nghiệm 16 4.1 Sentence Similarity 16 4.2 Retrieval cho Open QA 17 4.3 Retrieval for Web Search 18 4.4 Attention Analysis 19 Condenser toán Zalo 2021 20 Bài toán Zalo AI 2021: Legal Text Retrieval 21 Mục tiêu thực hiện: 21 Các bước thực hiện: 22 Kết luận 23 Tài liệu kham khảo 24 h Condenser: a Pre-training Architecture for Dense Retrieval Giới thiệu Các mơ hình dựa BERT sử dụng chế attention trở thành mơ hình biểu diễn văn phổ biến ứng dụng rộng rãi xử lý ngôn ngữ tự nhiên Ưu điểm mơ hình Transformer có khả biểu diễn tốt từ Sequence sang Sequence Tuy nhiên, việc dùng vector CLS để biểu diễn thông tin input đầu vào từ đạo hàm ngược cập nhật trọng số khiến cho vector kết không mô tả đầy đủ thơng tin Chính phương pháp Condenser(CONditions on DENSE Representation) đề xuất phương pháp fine-tune lại mơ hình BERT để cải thiện nhược điểm Thực nghiệm chứng minh mơ hình Condenser giúp cho việc Dense Retrieval tốt Giúp kết việc truy xuất văn tốt Nghiên cứu trước fine-tune LM để encode text câu đoạn văn thành biểu diễn dense vector để so sánh truy xuất văn hiệu Nhưng dense encoders yêu cầu nhiều liệu kỹ thuật phức tạp để tình mà có liệu Bên tiêu chuẩn LM kiến trức Attention khơng sẵn sàng cho dense encoder h Các phương pháp liên quan 2.1 Mơ hình BERT Mơ hình BERT mơ hình dựa chế attention Cơ mục tiêu mơ hình BERT biểu diễn từ thành vector cho vector biểu diễn đầy đủ thông tin đặc trưng vốn có từ Ví dụ minh họa đây, câu Apple is good for your health câu Apple is good in its design Từ Apple biểu diễn thành vector có kích thước d chiều, khó để để biểu diễn điều kiện hồn cảnh khác Vì vector phải vị trí mà cho nhân với vector lận cận khác kết cuối phân biệt với Ví dụ: nhân vector Apple X1 với vector từ khác (Y1, Y2, Y3, Y4, Y5) câu thứ nhất, vector từ Apple nhân với vector từ câu thứ hai kết phải khác Đó tảng tư tưởng chế ý (attention mechanism) Về mặt toán học chế attention biểu diễn theo công thức sau: h Với Softmax(Q*K^T/sqrt(d_k)) hệ số thể quan trọng phần tử vector query với vector key, sau mơ hình nhân với vector value để kết cuối MultiHead Attention đơn giản ghép kết attention nhân với vector biến đổi tuyến tính Mơ hình Transfomer dựa chế attention, với hai phần lớp Encoder Decoder Đầu tiên văn nhúng cho từ nhúng từ phân biệt với kỹ thuật Position Embedding Mơ hình qua hai thành phần Encoder Decoder Với mục tiêu tính quan trọng vector input với thông qua nhiều bước attention mechanisn để tạo nhiều bước lọc xếp chồng lên trước đến kết cuối Mô hình BERT mơ hình dựa mơ hình Transfomer sử dụng lớp Encoder Transfomer h Kiến trúc mơ hình tương tự mơ hình Transfomer hình minh họa Như ta thấy hình minh họa, mơ hình BERT ghép hai câu lại với ngăn cách token vector SEP đưa vào Block Transfomer Với token biểu diễn thành vector có ký hiệu CLS Vector cuối ký hiệu SEP 2.2 Mơ hình SBERT Mục tiêu mơ hình SBERT biểu diễn câu, mơ hình BERT dựa mơ hình Transfomer sử dụng lớp Encoder Tuy nhiên, thay sử dụng Cross-Encoder mơ hình BERT SBERT dùng Bi-encoders để đảm bảo tính tốn nhanh vector, giúp việc lưu trữ kết tính tốn để so sánh, inference liệu cực lớn Bi-Encoders h Bi-Encoders sx tính độ tương đồng queries data không gian vector Model biểu diễn liệu (văn bản, hình ảnh, video,…) dạng vector Nó chụp (capture) ngữ cảnh ngữ nghĩa liệu Tương tự, truy vấn tìm kiếm biểu diễn cách Embbending vector Có thể thực tìm kiếm tương tự để truy xuất (retrieve) vectơ gần Các mơ hình tính tốn phép dense vector embeddings cho liệu (mà sau sử dụng cho truy vấn tìm kiếm) gọi mơ hình Bộ mã hóa hai chiều (Bi-Encoder) Các vectơ liệu vectơ truy vấn so sánh cách tính tốn độ tương tự (ví dụ cosine) vector Tất mục liệu sở liệu biểu diễn cách vector embedding sử dụng mơ hình Bi-Encoder Cross-Encoder Cross-Encoder khơng tạo embedding vector cho liệu mà thay vào sử dụng chế phân loại cho cặp liệu Đầu vào mơ hình ln bao gồm cặp liệu, ví dụ hai câu xuất giá trị từ đến cho thấy giống hai câu Vì vậy, câu riêng lẻ chuyển sang mơ hình Cross-Encoder, ln cần cặp "mục" Về tìm kiếm, cần sử dụng Cross-Encoder với mục liệu truy vấn tìm kiếm, để tính tốn mức độ tương đồng truy vấn đối tượng liệu h Cross-Encoder ta cho đồng thời hai câu vào mạng Transformer Nó tạo giá trị từ đến cho biết giống hai câu Nếu mơ hình Cross-Encoder đào tạo tập huấn luyện đại diện, đạt độ xác cao so với Bi-Encoder Tuy nhiên, cần sử dụng mơ hình Cross-Encoder tìm kiếm mục liệu đơn lẻ kết hợp với truy vấn nên phương pháp hiệu Đối với ứng dụng tìm kiếm ngữ nghĩa đời thực – với hàng nghìn hàng triệu đối tượng – điều không thực tế, “mãi mãi” để thực tìm kiếm Bert sử dụng cross-encoder tức cho hai vào transformer dự đoán cặp giá trị Tuy việc sử dụng cross-encoder cho tác vụ hồi quy cặp khác có nhiều kết hợp Ví dụ Tìm tập hợp n = 10 000 câu, cặp có độ tương tự cao yêu cầu với BERT n·(n−1)/2 = 49 995 000 phép tính suy luận trên V100 GPU khoản 65 Để giảm bớt vấn đề này, SBERT Kiến trúc mạng siamese cho phép vector có kích thước cố định cho câu đầu vào lấy Sử dụng thước đo độ tương tự cosine tìm thấy câu giống mặt ngữ nghĩa SBERT sử dụng để tìm kiếm tương đồng ngữ nghĩa để phân cụm Độ phức tạp để cặp câu giống 10.000 câu giảm từ 65 với BERT xuống tính tốn 10.000 sentence embeddings (khoảng giây với SBERT) tính tốn cosine (khoảng 0,01 giây) Language model (LM) pre-training hiệu công việc learning text encoders finetuned cho nhiều Nhiệm vụ phía sau (downstream tasks) Gần việc tinh chỉnh Token CLS để encode input chuỗi văn đầu vào thành biểu diễn vector Do h đó, vector sử dụng để so sánh truy xuất (retrieval) văn hiệu Khơng gian tích (inner product) Không giống pre-train cụ thể Condenser pre-train hướng đến cấu trúc Biencoder Nhận thấy thiết lập liệu ít, với kiến trúc thời gian thử nghiệm giống hệt nhau, Condenser mang lại cải thiện đáng kể so với LM tiêu chuẩn cho thấy hiệu suất tương đương với mơ hình đào tạo trước dành riêng cho nhiệm vụ mạnh mẽ Với liệu đào tạo lớn, nhận thấy công cụ truy xuất Condenser tối ưu hóa dễ dàng hơn, vượt trội so với Model trước đào tạo kỹ thuật phức tạp a single round of negative mining Việc đào tạo trước LM Transformer Bi-encoder sau fine-tuning trở thành mơ hình quan trọng NLP Thử thách lớn áp dụng deep Transformer chi phí tính tốn tri xuất văn từ tập liệu lớn SBERT đào tạo Bi-encoder từ BERT khơng gian tích trong(inner product) vector để so sánh độ tương đồng câu Transformer bi-encoders sớm sử dụng làm dense retriever 2.3 Dense Retrieval Dense Retrieval so sánh vector truy vấn với vector tài liệu văn cách sử dụng khơng gian tích Các mơ tốn để truy xuất kho văn đầy đủ(full corpus) Một giải pháp thay mơ hình truy xuất thưa thớt theo ngữ cảnh đề xuất gần Bi-encoder để truy xuất danh sách ứng cử viên kết quả, sau sử dụng Cross-Encoder danh sách ứng cử viên để chọn (hoặc xếp hạng lại) kết phù hợp Bằng cách hưởng lợi từ phương pháp truy xuất hiệu cách sử dụng h Bi-encoder độ xác cao Cross-Encoder, sử dụng phương pháp liệu quy mô lớn Pre-train Bi-encoder phương pháp cho thấy tính hiệu biencoder cho dense retrieval Họ đề xuất đào tạo thêm BERT trước với Inverse Cloze Task (ICT) 2.4 Inverse Cloze Task (ICT) ICT sử dụng cặp đoạn văn đoạn văn đầy đủ làm cặp huấn luyện giả Kết cho thấy mơ hình khơng đào tạo trước khơng tạo kết truy xuất với liệu thấp.Một câu coi câu hỏi giả ngữ cảnh coi chứng giả Đưa câu hỏi giả, ICT yêu cầu chọn chứng giả tương ứng số ứng cử viên đợt Khác với Cloze task tiêu chuẩn (standard Cloze task) thay dự đốn masked-out văn ngử cảnh ICT cho câu dự đốn ngử cảnh Một khía cạnh quan trọng ICT địi hỏi phải học nhiều tính ghép từ, câu hỏi giả khơng có chứng (evidence) Ví dụ: câu hỏi giả Figure2 không đề cập rõ ràng đến “Ngựa vằn”, retriever chọn ngữ cảnh thảo luận Ngựa vằn h cố gắng tổng hợp thơng tin có mức độ chi tiết khác từ tồn câu thơng qua tất lớp cấu trúc LM đào tạo trước tiêu chuẩn chưa sẵn sàng để fine-tunning Từ vấn để mà ta có kiến trúc Condenser Giống Transformer Encoder, Condenser tham số hóa thành chồng khối Transformer, hiển thị Figure1 Thiết kế mơ hình Condenser chia thành nhóm Le early encoder backbone layers Ll late encoder backbone layers Lh Condenser head Layers 13 h Condenser Head Thiết kế quan trọng đặt mạch ngắn từ đầu sớm đến đầu, nhận cặp biểu diễn trễ-sớm Train MLM loss với head output Condenser, late encoder backbone tinh chỉnh thêm biểu diễn Token chuyển thơng tin qua hlatecls ,late CLS Do đó, Late CLS yêu cầu để tổng hợp thông tin tạo later in the backbone sau đó, header tạo điều kiện cho Late CLS để đưa dự đoán LM Trong đó, bỏ qua việc kết nối early layer, loại bỏ encoding thông tin cục cấu trúc cú pháp văn đầu vào, tập trung CLS vào ý nghĩa toàn văn đầu vào Số lớp Le Ll kiểm soát phân tách thông tin Fine-tuning Condenser head thành phần thời gian trước đào tạo bị loại bỏ trình Fine-tuning Tinh chỉnh đào tạo late CLS hlatecls backpropagate gradient vào Backbone Nói cách khác, Condenser giảm xuống encoder backbone trở 14 h thành Transformer encoder để fine-tuning cách hiệu quả; head sử dụng để pre-training Trong trình fine-tuning Condenser thay giảm trọng lượng cho Transformer LM điển BERT 15 h Thực nghiệm 4.1 Sentence Similarity Dataset: Bộ liệu sử dụng hai liệu giám sát: Semantic Textual Similarity Benchmark Wikipedia Section Distinction Table 1: Hiển thị hiệu suất STS-b với kích cỡ tàu khác BERT Condenser đào tạo trước NLP ln vượt trội so với BERT có margin lớn nhiều với quy mô đào tạo nhỏ Ngoài ra, với 500 cặp huấn luyện, hoạt động tốt so với Universal Sentence Encoder (USE) baseline Table 2: Kết gần giống hệt mơ hình BERT Condenser, vượt trội so với baseline BERT Trong đó, quy mơ đào tạo nhỏ tới 1K, độ xác giảm khoảng 10% so với đào tạo với tất liệu Không cần đào tạo với NSP Task, Condenser hoạt động hiệu 16 h 4.2 Retrieval cho Open QA Dataset: Sử dụng hai truy vấn (two query sets), Natural Question Trivia QA, kho ngữ liệu Wikipedia làm phát hành DPR NQ chứa câu hỏi từ tìm kiếm Google TQA chứa tập hợp câu hỏi nhỏ Cả NQ TQA có khoảng 60 nghìn liệu đào tạo sau xử lý Table Hiệu suất tập kiểm tra cho NQ TQA với liệu thấp ICT Condenser hoạt động tốt BERT, với margin đặc biệt lớn quy mô đào tạo 1K, giảm 10% so với đào tạo quy mô đầy đủ cho Top 20 Hit 5% cho Top 100 Sự cải thiện đáng kể xem xét mức tăng so với BM25 không giám sát ICT Condenser cho thấy hiệu suất tương đương ICT tốt chút NQ Condenser TQA Table 4: So sánh Condenser đào tạo với liệu đào tạo đầy đủ với hệ thống khác Trên NQ, tất công cụ dense retrievers mang lại hiệu suất tốt so với công cụ lexical retrievers, đặc biệt công cụ sử dụng hard negatives Condenser hoạt động tốt cho Top 20 nằm khoảng 0,1 so với RocketQA cho Top 100 mà không yêu cầu hệ thống đào tạo phức tạp (sophisticated) tốn Trên TQA, thấy GAR, từ vựng với mở rộng deep LM query, hoạt động tốt tất dense 17 h systems khác ngồi Condenser Điều cho thấy TQA yêu cầu tín hiệu cấp độ chi tiết khó nắm bắt dense retrievers Tuy nhiên, Condenser hoạt động tốt tất hệ thống lexical dense 4.3 Retrieval for Web Search Dataset: Sử dụng tập liệu xếp hạng đoạn văn MS-MARCO, xây dựng từ nhật ký truy vấn tìm kiếm Bing tài liệu web Bing truy xuất Tập huấn luyện có khoảng 0,5 triệu truy vấn Sử dụng corpus xử lý trước phát hành với RocketQA Đánh giá hai truy vấn: truy vấn MS-MARCO Dev5 TREC DL2019 Báo cáo số liệu thức Nhà phát triển MRR@10 Recall@1k, DL2019 NDCG@10 Table 5, ICT Condenser hoạt động tốt BERT với margin lớn Khi có tới 10 nghìn liệu huấn luyện, 2% tập huấn luyện đầy đủ, tất công cụ dense retrievers vượt trội so với BM25, với ICT Condenser giữ lợi nhuận so với BERT Condenser cho thấy hiệu suất tương đương thu hồi NDCG BERT đào tạo tập huấn luyện đầy đủ Condenser hoạt động tốt ICT kích cỡ đào tạo khác nhau, cho thấy việc đào tạo trước LM chung Condenser giúp khái quát hóa tốt miền so với ICT 18 h Table 6: Các kỹ thuật đào tạo khác giúp cải thiện đáng kể so với tinh chỉnh Condenser vượt trội mơ hình nhờ margin lớn, cho thấy lợi ích đào tạo trước mang lại Không liên quan đến kỹ thuật đào tạo phức tạp làm nặng mơ hình/truy xuất, Condenser cho thấy hiệu suất tốt chút so với RocketQA 4.4 Attention Analysis Figure 2: CLS mơ hình khác Figures 2a BERT có thay đổi mạnh mẽ mơ hình attention mơ hình fine-tuning trước mơ hình fine-tuning Điều lần khẳng định lý thuyết LM Transformer Encoder LMs chưa sẵn sàng để fine-tuning thành bi-encoder, mà cần trải qua thay đổi lớn cấu trúc bên Figures 2b, 2c task-specific pre-trained ICT Condenser LM có thay đổi nhỏ, giữ nguyên attention structure ICT Condenser thiết lập sẵn sàng cấu trúc, theo cách khác Cả ICT Condenser có ý mở rộng (tăng entropy) lớp sau, có khả tác vụ tìm kiếm thực tế yêu cầu tổng 19 h hợp nhiều khái niệm cấp cao so với đào tạo trước Các kết lần xác nhận lý thuyết cấu trúc sẵn sàng sử dụng (ready-to-use structure) dễ dàng đào tạo hơn; cấu trúc chúng cần thay đổi nhỏ để hoạt động bi-encoder hiệu Table 7: So sánh với RocketQA để hiểu chiến lược : very large batch, denoise hard negatives, data augmentation RocketQA nhận thấy hard negatives khai thác có chứa false negatives gây bất lợi cho trình đào tạo bi-encoder đề xuất sử dụng cross-encoder để dán nhãn lại khử nhiễu cho chúng, nhiên, quy trình tốn hàng nghìn lần so với khai thác hard negatives Tiếp tục sử dụng kỹ thuật tăng cường liệu, sử dụng cross-encoder để gắn nhãn liệu bên Ở đây, Condenser đào tạo với batch size 64 BM25 negatives có hiệu suất tốt RocketQA với batch size 8192 Quan trọng hơn, Condenser hạn chế noise hard negatives khai thác, đào tạo tăng cường tốt với hard negatives khai thác, khơng giống RocketQA có hiệu suất giảm nhiều mà không bị nhiễu Condenser loại bỏ cần thiết nhiều kỹ thuật đào tạo phức tạp: bị vượt trội RocketQA sử dụng liệu bên (tăng cường liệu) Condenser tốn Zalo 2021 Kết thực nghiệm đạt được: • • • Notebook Kaggle: https://www.kaggle.com/code/hmthanh/condenser-qa2021 HuggingfaceModel : https://huggingface.co/hmthanh/VietnamLegalText-SBERT Github Condenser: https://github.com/hmthanh/zalo_ltr_2021 Dataset: Legal Text Retrieval https://www.kaggle.com/datasets/hmthanh/legal-text-retrieval?select=zac2021-ltr-data 20 h Mã nguồn thực hành Condenser • • Nhóm tiến hành tham khảo mã nguồn từ toán Legal Text Retrieval từ thi Zalo AI 2021 CuongNN218 https://github.com/CuongNN218/zalo_ltr_2021 Do mã nguồn CuongNN218 chạy máy có GPU A1000 nên thông số cho việc training chương trình lớn Nên nhóm em phải thay đổi tham số để thực nghiệm kaggle, training lại liệu nhỏ (Chỉ 100 câu điều luật) Bài tốn Zalo AI 2021: Legal Text Retrieval Input: • • Câu hỏi (VD: ”Trường hợp miễn tham gia bồi dưỡng nghiệp vụ công chứng hàng năm?”) Corpus: o Các văn luật với law_id (VD : ”01/2021/tt-ttcp”) o Nội dung văn luật gồm nhiều điều luật Các điều luật article phân biệt article_id ("1", "2"): ▪ Tên điều luật - title ("Điều Phạm vi điều chỉnh") ▪ Nội dung điều luật - text ("Thông tư quy định quy tắc ứng xử chung, ứng xử thực nhiệm vụ tra, giải khiếu nại, tố cáo phòng, chống tham nhũng ngành Thanh tra thực nhiệm vụ tiếp công dân.") Output: • Trả null danh sách nhiều văn luật điều luật tương ứng với câu hỏi o Văn luật (VD : "law_id": "195/2013/nđ-cp") o Điều luật (VD : "article_id": "17") Mục tiêu thực hiện: Xếp hạng điểm số câu Corpus, đánh giá độ giống dựa cosine similarity score • • Round1: Dùng BM25 để làm Negative sample cho việc training Contrastive loss Round2: Dùng Sentence Transfomer mà dự đoán false positive để làm Negative sample cho việc training Contrastive loss 21 h Các bước thực hiện: Training Condenser Lấy mơ hình có sẵn Huggingface VinAI/PhoBERT, FPTAI/ViBERT để Fine-tune trước để mơ hình Condenser CoCondenser 2 Training Sentence Transformer + Contrastive loss (Là đưa câu positive lại gần, đưa mẫu negative xa): • • Dữ liệu contractive loss: o Positive sample: Lấy từ data answer (câu trả lời) ban tổ chức thi o Negative sample: Dùng BM25 để tìm 50 20 cặp câu giống với câu hỏi gán Negative sample Sử dụng mơ hình PhoBERT, ViBERT fine-tune Condenser CoCondenser để training Contractive loss với nhãn chuẩn bị Hard negative mining: (Là dùng câu dự đoán false positive gán negative để tiếp tục training mục tiêu để model fix lỗi sai positive) • • Dùng models dự đốn top 20 cặp training data có cosine-similarity scores cao cho model Lưu lại cặp câu để training tiếp round cho sentence transformer 22 h Training Sentence Transformer + Contrastive loss Với liệu sinh từ Step • • Positive sample: Lấy từ data answer (câu trả lời) ban tổ chức thi Negative sample: Lấy từ step Ensemble • Esemble mơ hình với BM25 Tính final score • BERT_score = ∑ w_i * cos_sim_model_i • BM25_score = BM25 score câu hỏi • Final score = BM25_score * BERT_score Post-processing: • Loại bỏ số trường hợp sai điều luật: o nd-, nđ-cp (chữ đ dạng kí tự khác) nđ-cp -> nd-cp o 09/2014/ttlt-btp-tandtc-vksndtc -> 09/2014/ttlt-btp-tandtc-vksndtc-btc • Chỉ lấy tối đa câu khoảng [max_score - 2.6, max_score] Kết luận Fine-tuning từ pre-trained LM BERT trở thành phổ biến NLP Các mô BERT có phải cơng cụ khởi tạo phù hợp cho bi-encoder hay không LM đào tạo trước điển hình khơng có internal attention structure sẵn sàng cho biencoder Chúng cô đọng thông tin cách hiệu thành biểu diễn dense vector Một kiến trúc mới, Condenser, thiết lập sẵn sàng cấu trúc với trình đào tạo trước LM Condenser có hiệu nhiều tác vụ khác nhau, tính tương tự câu, truy xuất câu trả lời cho câu hỏi truy xuất tìm kiếm web Với liệu thấp, Condenser hiển thị hiệu suất tương đương với mơ hình đào tạo trước theo nhiệm vụ cụ thể Nó cung cấp quan điểm huấn luyện trước việc học retrievers hiệu chiến lược tinh chỉnh Nếu đào tạo đầy đủ, Condenser tinh chỉnh trực tiếp giải pháp thay nhẹ nhàng cho nhiều kỹ thuật đào tạo phức tạp Các kết tích cực với Condenser cho thấy tính sẵn sàng cấu trúc thuộc tính bi-encoders dễ huấn luyện Attention analysis cho thấy 23 h Condenser mơ hình đào tạo trước dành riêng cho nhiệm vụ thiết lập sẵn sàng cấu trúc, cho thấy mục tiêu dành riêng cho nhiệm vụ khơng cần thiết Một lợi lớn BERT sau đào tạo trước phức tạp lần, việc tinh chỉnh trở nên dễ dàng với trình khởi tạo mơ hình phổ qt Tuy nhiên, điều khơng với bi-encoder BERT, đặc biệt retriever, vốn cần đào tạo cẩn thận tốn Tài liệu kham khảo https://www.sbert.net/examples/applications/cross-encoder/README.html https://github.com/donggyukimc/Inverse-cloze-task https://weaviate.io/blog/2022/08/Using-Cross-Encoders-as-reranker-in-multistagevector-search.html Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Dense Passage Retrieval for Open-Domain Question Answering Latent Retrieval for Weakly Supervised Open Domain Question Answering REALM: Retrieval-Augmented Language Model Pre-Training End-to-End Training of Neural Retrievers for Open-Domain Question Answering Trả lời thêm: Condensor nghĩa gì? Condensor = CONdition + DENSE Presentation: Condition tùy hoàn cảnh CLS token DENSE biểu diễn đặc (dense presentation) hay scala vector đại diện cho nhiều đặc trưng khác Hay vector có nhiều giá trị phân biệt với sparse presentation (biểu diễn thưa) - biểu diễn thưa vector có nhiều số vài giá trị khác thể giá trị đặc trưng CoCondensor gì? CoCondensor thuộc báo khác (Unsupervised Corpus Aware Language Model Pretraining for Dense Passage Retrieval - https://arxiv.org/pdf/2108.05540.pdf) 24 h coCondenser Condensor, thay tính Loss có head_condenser coCondensor cộng thêm loss lớp head_late coCondenser_loss = Condensor_loss_with_head (có head) + Condensor_loss_without_head (khơng có head) Chữ co coCondenser có nghĩa (co-), condenser Condenser mơ hình Pre-training hay Fine-tune? Condenser mơ hình pre-training Condenser kết hợp thêm head Condenser từ BERT weight lúc pre-train lại mơ hình từ ban đầu để Weight mới, loại bỏ head Condenser sau cần finetune cho tác vụ khác Condenser mơ hình pre-train BERT nên training từ đầu mơ hình Pre-train BERT/RoBERTa không thiết phải fine-tune từ BERT/RoBERTa Nhưng Zalo AI 2021 họ training lại từ mơ hình BERT từ corpus văn luật Mơ hình Condenser sau fine-tune dùng liệu hay dùng liệu cho domain cụ thể? Có thể training từ đầu training cho domain cụ thể Tuy nhiên, mã nguồn, tác giả đưa hai model weight Một có head Condenser headless Condenser Condenser (BERT + head Condenser) -> Condenser weight (headless) (fine-tune)-> Question Answering Task 25 h "Vẫn khơng hiểu mơ hình làm gì?" Condenser bao gồm (Early Embedding + Late Embedding + Head Embedding) Bên trái mơ hình BERT thơng thường, bên phải mơ hình Dense Retrievers Trong Dense Retrievers Dense Retrievers, score dùng vector CLS đại diện cho toàn vector nhúng input trước nên đạo hàm ngược khơng biểu diễn đầy đủ thơng tin từ input Phần score cho fine-tune tính từ vector CLS => Việc không biểu diễn Mô hình Condenser (hình phía trên) kết hợp thêm head condenser để training có trọng số (Condenser = BERT + head condenser) Sau dùng Condenser headless (đã bỏ lớp head) để fine-tune vector CLS tổng hợp thơng tin từ tồn input 26 h 27 h

Định dạng
Số trang	28
Dung lượng	1,97 MB