Kiến trúc tổng quan

3 TRÍCH RÚT THÔNG TIN VĂN BẢN BẰNG DEEP TRANS-

3.2 Kiến trúc tổng quan

Trong bước đầu tiên (Xác định thành phần văn bản), hệ thống sẽ phân tích mô tả thành các câu văn. Ở bước thứ hai, mô hình nhận diện thực thể là các thông tin trong mô tả. Kỹ thuật học chuyển giao được sử dụng hiệu quả nhất trong bước này giúp mô hình tìm kiếm và trích xuất các thông tin trong các câu. Tác giả sẽ xây dựng một mô hình baseline (cơ sở) từ đầu để so sánh việc có sử dụng và không sử dụng Transfer learning khi tiếp cận bài toán này. Ngoài ra, tác giả sẽ sử dụng mô hình pre-trained đa ngôn ngữ là mô hình BERT [18] và áp dụng nó cho bài toán này. BERT là mô hình biểu diễn hai chiều cho ngôn ngữ. Mô hình này đã được xây dựng dựa trên kiến trúc Transformer với nền tảng là cơ chế attention. Các kết quả từ khi công bố đến giờ đều cho thấy các kết quả ấn tượng của mô hình này với các bộ dữ liệu quan trọng của xử lý ngôn ngữ tự nhiên. Để hiểu rõ hơn về các thành phần trong mô hình cơ sở (baseline model) và mô hình BERT tác giả sẽ trình bày lý thuyết về các khái niệm dưới đây.

3.3 Cơ chế Attention

Đầu tiên chúng ta sẽ tìm hiểu về cơ chế attention (attention mechanism). Đây là một khái niệm được sử dụng nhiều trong deep learning, mô hình BERT của google cũng có khía niệm attention. Tuy nhiên, BERT được xây dựa trên kiến trúc Transformer với nền tảng là cơ chế attention. Các phần tiếp theo tác sẽ sẽ giới thiệu chi tiết, trước hết tác giả sẽ giới thiệu khái niệm attention cơ bản.

3.3.1 Giới thiệu attention

Trước khi nói về cơ chế attention của Transformer, tác giả sẽ nói qua về cơ chế attention, nó đã xuất hiện trước kiến trúc Transformer của Google.

Cơ chế attention lần đầu được giới thiệu là cho bài toán máy dịch (machine translation) [19]. Mục tiêu của cơ chế attention là tính toán trạng thái tiếp theo của bộ giải mã (decoder) bằng cách tính toán trọng số dựa trên trạng thái của bộ mã hóa (encoder) kết hợp với trạng thái trước đó của bộ giải mã. Các khái niệm bộ mã hóa - bộ giải mã là các khái niệm cơ bản được dùng trong máy dịch. Trong đó, bộ mã hóa có khả năng mã hóa một chuỗi văn bản thành một vector, bộ giải mã thực hiện việc giải mã bộ vector đó thành các chuỗi tương ứng.

Biểu diễn dữ liệu đầu vào của BERT

Kiến trúc mô hình Baseline