GPT là một mô hình ngôn ngữ tự nhiên dựa trên kiến trúc Transformer, được huấn luyện với một lượng lớn dữ liệu từ Internet và có khả năng sinh ra văn bản tự động, đáp ứng các câu hỏi và
Trang 1
ĐẠI HỌC KINH TÉ THÀNH PHÓ HÒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KE KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN CÔNG NGHỆ THÔNG TIN
UEH UNIVERSITY
Trang 2Chwong 1: GIGI THIEU VE GPT VA GIOI THIEU ĐÈ TẢI
Chuwong 2: TONG QUAN VE GPT
Chương 3: TÔNG QUAN VẺ CÁC PHƯƠNG BẢN GPT KHÁC
Chương 4: ỨNG DỤNG GPT VÀO BÀI TOÁN THỰC TẾ
Chương 5: ĐÁNH GIÁ KÉT QUÁ MÔ HÌNH
Chương 6: VẤN ĐÈ VÀ THÁCH THỨC ĐẶT RA KHI SỬ DỤNG GPT
Trang 3DANH MUC HINH ANH
Hinh 2.1 Minh hoa don gian hoat déng cua mé hinh Transformer
Hinh 2.2 Kién tric m6 hinh GPT
Trang 4DANH MUC BANG BIEU
Bang 2.1 Phân loại một số phương pháp phân cụm chính
Trang 5DANH MUC TU VIET TAT
Trang 6LOI MO DAU
Công nghệ đã trở thành một phần không thé tách rời khỏi cuộc sống hiện đại Nó đã thâm nhập vào tất cả các khía cạnh cuộc sông của chúng ta và đóng vai trò quan trọng trong việc nâng cao năng lực và tăng chất lượng trong nhiều lĩnh vực Trong bối cảnh
tạo AI chính là GPT, một sản phẩm công nghệ mới nội của doanh nghiệp OpenAlI
Với GPT, ta có cơ hội tương tác với trí tuệ nhân tạo giống như với người thật trong
đối thoại hàng ngày Điều này đã đánh bại rào cản giao tiếp giữa con người và máy
tính trước đây, mang đến cho người dùng một trải nghiệm tràn đầy mới mẻ và thú vị
Nhóm chúng tôi đã lựa chọn dé tai GPT vi nhan thay duoc tam quan trong va tiém năng phát triển của loại hình công nghệ này Cuộc cách mạng trong trí tuệ nhân tạo
đang thay đổi dần cách chúng ta tương tác với thông tin Bằng cách tìm hiểu sâu hơn,
chúng ta có thê khám phá những khía cạnh mới mẻ về một công cụ AI đang gây "sóng gio ' trên toàn cầu Đề giúp đọc giả có thê hiểu sâu hơn về GPT, chúng tôi đã phân chia nội dung đề tài thành 6 chương sau đây:
1.Giới thiệu về GPT và giới thiệu đề tài
IL Tông quan về GPT
I Tong quan vé cac phién ban GPT khac
IV Ứng dụng GPT vào bài toán thực tế
V Đánh giá kết quả mô hình
VI Vấn đề và thách thức đặt ra khi sử dụng GPT
Cuối cùng, chúng tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến Ths Trần
đạt những kiến thức hữu ích về môn học này và cung cấp những kiến thức bồ ích đề
góp phân giúp chúng tôi hoàn thành tiêu luận báo cáo môn học trong suốt thời gian
qua Đồng thời cũng xin gửi lời cảm ơn đến các thành viên trong nhóm đã củng nhau
hợp tác và hoàn thành nhiệm vụ Tuy nhiên, chúng tôi nhận thấy bản thân còn thiểu
khá nhiều kiến thức về chuyên ngành và tầm nhìn còn hạn chế nên trong quá trình
nghiên cứu và hoàn thiện đề tài GPT sẽ không thể tránh khỏi thiếu sót khi trình bày
Chúng tôi rất mong nhận được sự quan tâm cũng như góp ý từ thầy và mọi người để
có thê cải thiện nội dung hoàn chỉnh và đầy đủ hơn
Xin tran trong cam on
Trang 7BANG PHAN CONG CAC THANH VIEN
5 Lê Trí Lộc
Trang 8
Chuong 1: GIOI THIEU VE GPT VA GIOI THIEU DE TAI
1.1 Giới thiệu về GPT
GPT (Generative Pre-trained Transformer)|a mot kién tric mé hinh ngén nei
(language model) được phát triển bởi OpenAI-một công ty nghiên cứu trí tuệ nhân tạo (AT) có trụ sở tại San Francisco, California Céng ty nay được thành lập vào năm 2015 với mục tiêu phát triên và thúc đây sự tiên bộ của trí tuệ nhân tạo thông qua việc xây
dựng các công cụ và mô hình AI tiên tiên GPT chính là một trong những sản phâm
công nghệ tạo nên tiếng vang lớn cho Open AI
GPT là một mô hình ngôn ngữ tự nhiên dựa trên kiến trúc Transformer, được huấn
luyện với một lượng lớn dữ liệu từ Internet và có khả năng sinh ra văn bản tự động,
đáp ứng các câu hỏi và thực hiện các tác vụ liên quan đến ngôn ngữ GPT đã góp phần tạo ra các chatbot thông minh, trở thành công cụ hỗ trợ trong việc tương tác với người dùng, cung cấp thông tin, giải đáp câu hỏi hay thậm chí hoàn thiện các nhiệm vụ phức tạp Tuy nhiên, nó van còn một số hạn chế và thách thức trong việc hiểu ngữ cảnh vả
kiêm soát, đòi hỏi sự cân nhắc và giám sát trong việc sử dụng
1.2 Giới thiệu về đề tài
Trong thời kỳ đầy biến động của lĩnh vực Trí tuệ Nhân tạo (AI), GPT đã nỗi lên như
một sự đột phá xuất sắc trong việc ứng dụng các mô hình mạng nơ-ron trí tuệ nhân tạo vào xử lý ngôn ngữ tự nhiên Được phát triên bởi OpenAl, GPT không chỉ là một mô
hình chuyền giao hàng đầu mà còn là biểu tượng của sự tiến triển đáng kế trong lĩnh
vuc nay
Kiến trúc của GPT dựa trên Transformer, một cầu trúc mạng nơ-ron biến đổi đưa ra
những hiệu suất xuất sắc trong xử lý dữ liệu chuỗi dài và phức tạp Điều độc đáo của
GPT là khả năng chủ động học từ lượng lớn đữ liệu ngôn ngữ không giám sát, cho
phép nó nắm bắt được cấu trúc và ngữ nghĩa ngôn ngữ một cách sâu sắc
Trải qua quá trình đào tạo trước (pre-trained) trên dữ liệu ngôn ngữ đa dang từ
Internet, GPT trở nên có khả năng ứng dụng linh hoạt trong nhiều nhiệm vụ cụ thể như dịch thuật , tóm tắt văn bản, và sáng tạo văn bản Tiểu luận này sẽ phân tích chỉ tiết về cầu trúc và nguyên lý hoạt động của GPT, cũng như những tiềm năng ứng dụng của nó trong các lĩnh vực đa dạng của xã hội và kinh tế hiện đại
Chuong 2: TONG QUAN VE GPT
2.1 Cơ sở lý thuyết
e Kién trac Transformer (Transformer architecture)
GPT dựa trên tài ligu vé Transformer architecture véi tua dé “Attention is all you
necd'WIE[IUUUT) |: :rì Q: kién tric hoc sâu (deep learning) trong lĩnh vực xử
lý ngôn ngữ tự nhiên Nó có khả năng dịch thuật, tong hợp văn bản, tóm tắt tài liệu,
trích xuất thông tin va trả lời câu hỏi Kiến trúc tông quan của mô hình transformer
Trang 9bao gom 2 phan lon la encoder va decoder duge (Quoc Pham, 2020) giai thich trong
bài viết “Tìm hiểu mô hình Transformer” nhu sau:
- Encoder: chiu trách nhiệm biểu diễn đữ liệu đầu vào Trong mô hình ngôn ngữ,
encoder sẽ nhận đoạn văn bản đầu vào và biến nó thành một loạt các biểu diễn
(embeddings) Diéu này giúp nắm bắt thông tin từ đoạn văn bản, nhưng không tạo ra
đoạn văn bản
moi
- Decoder: 1a nơi mả sự sáng tạo diễn ra, chuyên đổi thông tin mà nó đã học từ số
thành văn bản hoặc dãy dữ liệu khác
Hình 2.I Minh họa đơn giản hoat déng cua mé hinh Transformer
© Co ché Attention: là một phần quan trọng của mô hình này, giúp nó hiểu và xử
lý thông tin ở các vị trí khác nhau trong chuỗi dữ liệu đầu vào Thay vì xử lý tất
cả các phần tử của dữ liệu một cách đồng nhất, cơ chế Attention cho phép mô hình chú ý đến các phần tử quan trọng hơn và bỏ qua các phần tử không quan trọng Tưởng tượng bạn đang đọc một đoạn văn bản dai Thay vì đọc tử đầu đến cuối một cách đơn điệu nó giống như một loại "chú ý" đặc biệt vào các từ quan trọng hơn
e Phân phối xác suất trên từ: Khi tạo ra văn bản, GPT ước lượng phân phối xác suất của
từ tiếp theo đựa trên ngữ cảnh và chọn từ dựa trên phân phối đó Sau đó chọn từ tiếp
theo dựa trên phân phối xác suất này Quá trình này lặp lại cho từng từ trong văn bản,
giúp mô hỉnh tạo ra các câu văn tự nhiên dựa trên ngữ cảnh va thông tin từ vựng mà nó
đã học từ dữ liệu huấn luyện Điều này giúp GPT tạo ra văn bản mà có cầu trúc hợp lý
và phản ánh ngữ cảnh hiện tại
® Học giám sát (supervised) _ học không giám sát (unsupervised learning) _ học
chuyén déi (Transfer learning):
Mô hình GPT có thê được huấn luyện theo hai cách là huấn luyện không giám sát
(unsupervised learning) và huấn luyện giám sát (supervised)
Học giảm sát (supervised learning) là một phương pháp trong lĩnh vực học máy
(machine learning) trong đó mô hình học được huấn luyện dựa trên một tập dữ liệu
huấn luyện được gán nhãn trước Mục tiêu là dự đoán hoặc phân loại dữ liệu mới dựa
trên những gì nó đã học tử tập dữ liệu đã gan nhãn
Trang 10Học không giảm sat (unsupervised learning) là một phương pháp trong lĩnh vực học máy (machine learning), trong đó mô hình học được huấn luyện dựa trên đữ liệu
không cần nhãn bằng cách dự đoán các từ trong một câu dựa trên ngữ cảnh xung
quanh, cụ thê hơn là có thê dự đoán từ tiếp theo trong một chuỗi Mục tiêu ở đây
không phải là dự đoán một kết quả cụ thê mà là tìm hiểu cấu trúc hoặc mối quan hệ
giữa các dữ liệu
Trong dịch máy hoặc phân loại văn bản thì huấn luyện học giám sát (supervised
learning) có thê mang lại kết quả tốt hơn Tuy nhiên, trong một số tác vụ khác như tạo văn bản tự động hoặc chatbot thì huấn luyện không giám sát (unsupervised learning)
thường được sử dụng và có thê mang lại kết quả tốt Trong thực tế, GPT thường được
sử dụng trong các tác vụ không giám sát, nơi mô hình tự động tạo ra văn bản phản hồi dựa trên kiến thức đã học từ dữ liệu huấn luyện trước
Transfer learning: Sau khi mô hình GPT được huấn luyện trên dữ liệu lớn, thì nó có
khả năng chuyền giao tri thức đã học từ các tác vụ đã huấn luyện sang các nhiệm vụ
mới Điều này giúp mô hình đạt được hiệu suất tốt trên nhiều tác vụ ngôn ngữ khác
nhau mà không cân huấn luyện từ đầu, giúp tiết kiệm thời gian và tài nguyên
e Dữ liệu huấn luyện: GPT được huấn luyện trên một lượng lớn đữ liệu văn bản từ
Internet Loại dữ liệu này bao gdm moi thứ từ bài báo, sách, trang web, đoạn hội thoại, đến bài viết trên mạng xã hội và nhiều nguồn thông tin trực tuyến khác
® Kích thước và độ sâu: Độ sâu và kích thước của mô hình cho phép nó biểu diễn
ngữ cảnh trong ngôn ngữ tự nhiên một cách chí tiết hơn Điều này giúp mô hình hiểu
và sử dụng thông tin từ các từ và câu trước đó đê dự đoán từ tiếp theo một cách chính
xác hơn VD: GPT-3 có khoảng 175 tỷ tham số Đây là một con số rất lớn và vượt trội
so với các mô hình trước đó như GPT-2 (I.5 tỷ tham số) Mô hình GPT thường có
nhiều lớp mạng nơ-ron chồng chất lên nhau GPT-3 có 175 lớp chồng lên nhau, làm
tăng độ sâu của mô hình
2.2 Kiến trúc mô hình GPT
Mô hình GPT dựa trên kiến trúc Transformer, một kiến trúc đã tạo ra nhiều đột phá
trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Dưới đây là một cái nhìn bao quát về
kiến trúc của GPT:
Trang 11
Embedding
Input: Đầu vào ban đầu cho mô hình, thường là một chuỗi token
Input Embedding: Chuyên đôi token đầu vào thành một vector đặc trưng
Positional Encoding: Thém thông tin vị trí vào các embedding đầu vào đề mô hình có thế biết được vị trí của mỗi token
Dropout: Một cơ chế đề ngăn chặn hiện tượng overfÑttine băng cách tắt ngẫu nhiên một số neuron
Transformer Block: Các khối transformer xếp chồng lên nhau
Multi-Head Attention Mechanism: Bao gồm các bước như Matmul (phép nhân ma trận), Mask (đặt mặt nạ đề ngăn chặn việc nhìn vào tương lai),Softmax (dé tính toán trọng số attention), và Dropout Cơ chế này cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào ở cùng một lúc đề xác định mức độ quan trọng của từng từ so với từ khác trong một câu, giúp năm bắt ngữ cảnh và ngữ nghĩa
LayerNorm: Chuẩn hóa theo lớp đề giúp quá trình học nhanh hơn và ôn định hơn
._ Feed-forward Neural Network: Một mạng nơ-ron tiễn lên gồm hai lớp tuyến
tính (Linear) và một hàm kích hoạt (ở đây là Gelu)
Dropout: Sau mỗi bước trong khối transformer
Trang 1210 LayerNorm: Chuẩn hóa trước khi truyền đến lớp tuyến tính cuối cùng
2.3 Nhiệm vụ mô hình GPT
Suy luận ngôn ngữ tự nhiên (Natural language inference): Nhiệm vụ này liên quan đên việc xác định môi quan hệ loglc giữa hai câu (ví dụ, một câu là hệ quả của câu kia, mâu thuần với câu kia hoặc không liên quan)
Tra loi cau hoi (Question Answering): Day là quá trình tìm câu trả lời cho một câu
hỏi dựa trên một hoặc nhiêu nguồn thông tin đã được cung câp hoặc mô hình đã học
Đo đạc độ tương tự của cầu (Sentence similarity): Đánh giá mức độ hai câu văn
giông hoặc khác nhau về nghĩa Điêu này thường được sử dụng trong các hệ thông
khuyên nghị hoặc khi phân loại văn bản
Phân loại (Classiñcation): Gán một hoặc nhiều nhãn cho một đoạn văn bản Đây có
thê là phân loại cảm xúc (xác định đoạn văn bản có tích cực, tiêu cực, hay trung lập),
phân loại chủ đề (xác định đề tài của đoạn văn), hoặc các nhiệm vụ phân loại khác
2.4 Quy trình huấn luyện GPT
I Thu thập đữ liệu: Đề huấn luyện mô hình, một tập dữ liệu lớn chứa cuộc trò
chuyện được thu thập Tập dữ liệu này thường bao gồm các cặp câu hỏi đầu vào của người dùng và phản hồi của mô hình, thường được thu thập từ các nguồn trực tuyến hoặc được tạo ra thông qua tương tác với các nhân viên hỗ trợ
2 Tiền xử lý: Dữ liệu trò chuyện thu thập được được tiền xử lý đề loại bỏ nhiễu,
định dạng và thông tin không liên quan Văn bản được chia thành các đơn vị nhỏ hơn như từ hoặc phần từ, để tạo ra biểu điễn đầu vào phù hợp cho mô hình Tokenization: Chia văn bản thành các đơn vị nhỏ (token) đê xử lý
4 Pre-training (Tiền huấn luyện): Trong giai đoạn này, mô hình được huấn
luyện trên một tập dữ liệu lớn không có nhãn Thường liên quan đến học không giam sat (unsupervised learning)
- Dé liéu: GPT được huấn luyện trên các tập dữ liệu văn bản lớn, như Books
Corpus, Wikipedia, và các nguồn dữ liệu khác, mà không cần biết thông tin cu thể về nội dung
- Mục tiêu: Mô hình được huấn luyện đề dự đoán từ tiếp theo trong một chuỗi
văn bản Điều này giúp mô hình học cách hiểu ngữ nghĩa, ngữ pháp, và các mô típ văn bản khác
- Két qua: Sau giai đoạn này, GPT' đã học được một biểu diễn văn bản chung vả
có thê tạo ra văn bản một cách tự động, mặc dù văn bản đó có thể chưa tối ưu cho các nhiệm vụ cụ thẻ
5 Fine-tuning (Tỉnh chỉnh): Sau khi mô hình đã được tiền huấn luyện (pre-
training), ban có thể tỉnh chỉnh mô hình trên một tập dữ liệu nhỏ hơn và có nhãn cho nhiệm vụ cụ thê mà bạn quan tâm Thường liên quan đến học giám sát (supervised learning)
- _ Dữ liệu: Dữ liệu có nhãn cho một nhiệm vụ cụ thể, như phân loại văn bản, phân tích cảm xúc, hoặc trả lời câu hỏi
Trang 13- Mục tiêu: Huấn luyện mô hình để tối ưu hóa cho nhiệm vụ cụ thể dựa trên dữ
liệu có nhãn
- _ Kết quả: Mô hình sau cùng có khả năng thực hiện nhiệm vụ cụ thê với độ chính xác cao hơn so với mô hình chỉ được tiền huấn luyện
6 Kiểm Thử: Kiểm tra mô hình trên dữ liệu không thay trong quá trình huấn
luyện để đánh giá khả năng tổng quát hóa
7 Triển Khai: Triển khai mô hình vào các ứng dụng thực tế
2.5 Quy trình hoạt động mô hình GPT
Hình minh họa
I Nhận Đâu Vào: Khi được sử dụng, GPT nhận van ban dau vào từ người dùng Điều này có thê là bât kỳ câu hỏi, yêu câu hoặc yêu câu thông tin nao mà người dùng muôn trao đôi hoặc tìm hiệu
2 Xử Lý Đầu Vào: Mô hình tiến hành xử lý đầu vào băng cách phân tích văn bản thành các phần tử nhỏ hơn gọi la "token." Méi token co thé là một từ, một dấu câu, hoặc thậm chí là một phân của từ GPT sử dụng kiến thức đã học từ quá
3 Tạo Đầu Ra: Dựa trên đầu vào và kiến thức đã học, GPT bắt đầu sinh ra đầu ra bằng cách đự đoán chuỗi token tiếp theo Quá trình này thường bắt đầu băng việc sinh ra một token đầu tiên dựa trên thông tin từ đầu vào Sau đó, mô hình tiếp tục dự đoán và sinh ra các token tiếp theo dé xây dựng một chuỗi văn bản hoặc câu trả lời thích hợp Đầu ra này có thê là một câu trả lời chỉ tiệt, một đoạn văn bản mô tả, hoặc bất kỳ loại thông tin nào mà người dùng yêu cầu
4 Liên Tục Cập Nhật: Trong một số trường hợp, GPT có khả năng liên tục cập
nhật và học hỏi từ phản hồi hoặc tương tác mới dé cải thiện hiệu suất của nó
Điều này có thê bao gồm việc điều chỉnh mô hình dựa trên thông tin phản hồi từ người dùng hoặc học hỏi từ dữ liệu mới Quá trình liên tục cập nhật này giúp GPT ngày càng trở nên thông minh và thích nghi với nhu cầu của người dùng
Chuong 3: TONG QUAN CAC PHIEN BAN GPT KHAC
3.1 Phiên bản của GPT do OpenAl phat trién
1 Version Chat GPT - 1
Chat GPT-1: Khởi nguồn của một dự án hỗ trợ trò chuyện
thông minh
ChatGPT-I là một mô
hình ngôn ngữ lớn được phát triên bởi OpenAI vào năm 2018 Nó là một trong những
mô hình ngôn ngữ( LLM) đầu tiên được đào tạo trên một tập dữ liệu không lồ gồm
văn bản và mã ChatGPT-I có thể tạo ra văn bản, dịch ngôn ngữ, viết các loại nội
Trang 14dung sáng tạo khác nhau và trả lời câu hỏi của bạn một cách đầy đủ thông tin Cũng là một nền tảng mạnh mẻ có thê được sử dụng cho nhiều mục đích khác nhau
Điểm mạnh của ChatGPT-I:
Tạo văn bản chất lượng cao: ChatGPT-I có thể tạo ra văn bản gốc, chăng hạn như bài viết, email, thư, v.v Văn bản được tạo ra bởi ChatGPT-I thường khó phân biệt với văn bản được viết bởi con người Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như viết nội dung, dịch ngôn ngữ và sáng tạo nội dung
Dịch ngôn ngữ chính xác và trôi chảy: ChatGPT-I có thê dịch giữa các ngôn ngữ Nó có thể địch chính xác và trôi chảy giữa nhiều ngôn ngữ khác nhau, bao gồm tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, v.v Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như dịch tự động và
hỗ trợ khách hàng
Viết các loại nội dung sáng tạo khác nhau: ChatGPT-I có thé viết các loại nội dung sáng tạo khác nhau, chăng hạn như thơ, mã, kịch bản, tác phâm âm nhạc,
email, thư, v.v Nó có thê tạo ra các nội dung sáng tạo chất lượng cao, chăng hạn
như thơ, mã, kịch bản, tác phẩm âm nhạc, email, thư, v.v Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như sáng tạo nội dung và giải trí
Trả lời câu hỏi của bạn một cách đầy đủ thông tin: ChatGPT-L có thê trả lời câu hỏi của bạn một cách đây đủ thông tin, ngay cả khi câu hỏi đó là mở, thách thức hoặc kỳ lạ Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như hỗ trợ khách hàng và giáo dục
Điểm yếu của ChatGPT-I:
Tiềm ấn thiên vị: ChatGPT-I được đảo tạo trên một tập dữ liệu không lồ gồm văn bản và mã Tập đữ liệu này có thể chứa thiên vị, và điều này có thé duoc phản ánh trong kết qua cua ChatGPT-1 Vi du: ChatGPT-1 có thé tạo ra văn bản chứa định kiến giới hoặc chủng tộc
Không thé giải thích: ChatGPT-I là một mô hình học máy phức tạp, và các quyết định của nó không phải lúc nào cũng dễ hiểu Điều này có thế khiến việc
sử dụng ChatGPT-I cho các ứng dụng quan trọng, chắng hạn như hỗ trợ khách hàng hoặc giáo dục, trở nên khó khăn
Tiềm ẫn nguy cơ bị lạm dụng: ChatGPT-I là một công cụ mạnh mẽ, và nó có thé duoc str dung cho muc dich xấu, chăng hạn như tạo ra nội dung sai lệch hoặc khuếch đại thông tin sai lệch Điều quan trọng là phải sử dụng ChatGPT-I một cách có trách nhiệm và nhận thức được những rủi ro tiềm ân
Trang 15e Kha nang hiéu va xử lý Ngon ngir: ChatGPT-1 con nhiéu han ché sé dan tới
việc phản hồi lại không chính xác hoặc các câu từ không liên quan đến câu hỏi Phiên bản này xử lý hiệu năng vẫn còn thấp gây tục mod khi sử dụng
2 Version Chat GPT-2
Chat GPT-2: Sự tiến bộ vượt trội trong khả năng hiểu ngôn
ngữ tự nhiên
Phiên ban GPT-2 dựa trên nền tản GPT-I, mà có những thay đôi như sau :
e Kích thước mô hình lớn hơn: ChatGPT-2 có I,5B tham số, trong khi GPT-I
có LB tham số Điều này có nghĩa là ChatGPT-2 có thê học hỏi nhiều hơn và có thê xử lý thông tin phức tạp hơn
®© Tập dữ liệu dào tạo lớn hơn: ChatGPT-2 được đảo tạo trên một tập dữ liệu
gồm I,56T từ, trong khi GPT-I được đào tạo trên một tập đữ liệu gồm 600B từ
Điều này có nghĩa là ChatGPT-2 có thê tiếp cận với nhiều thông tin hơn và có thê hiểu ngôn ngữ tốt hơn
e Kiến trúc mới: ChatGPT-2 sử dụng kiến trúc Transformer, trong khi GPT-I sử dụng kiến trúc RNN Kiến trúc Transformer được biết là hiệu quả hơn trong các nhiệm vụ xử lý ngôn ngữ tự nhiên
Những cải tiến nay đã dẫn đến những cải thiện đáng kê về hiệu suất của ChatGPT-2 so voi GPT-1
3 Version Chat GPT-3
Chat GPT-3: Bước tiến vượt bậc với kiến trúc Transformer
ChatGPT-3 là phiên bản thứ ba của mô hình ngôn ngữ lớn ChatGPT được phát triển
bởi OpenAI Nó được công bố vào năm 2022 và có một số cải tiến đáng kê so với các
phiên bản trước Một trong những cải tiến quan trọng nhất của ChatGPT-3 là kích
thước mô hình lớn hơn có 175B tham số, gấp 10 lần so với ChatGPT-2 Điều này có
nghĩa là ChatGPT-3 có thê xử lý thông tin phức tạp hơn và có thê tạo ra văn bản chất
lượng cao hơn
Một cải tiến quan trọng khác của
ChatGPT-3 là kiến trúc Transformer mới Kiến trúc Transformer được biết là hiệu quả hon trong
các nhiệm vụ xử lý ngôn ngữ tự nhiên ChatGPT-3 là mô hình ngôn ngữ lớn đầu
tiên được đào tạo trên kiên trúc Transformer
Trang 16Diem yeu
e Dù đã có sự cải tiến vượt trội, Chat GPT-3 vẫn chưa thê hiểu và xử lý hoàn
toàn chính xác mọi câu hỏi, đặc biệt là những câu hỏi mới hoặc có tính chất đa nghĩa
e Kich thước của mô hình lớn, dẫn đến việc tiêu tốn nhiều tài nguyên máy tính,
ảnh hưởng đến hiệu suất và tốc độ xử lý
® Chat GPT-3 có thê sinh ra kết quả trò chuyện dài và phức tạp, đôi khi không
đáp ứng được nhu cầu của người dùng
1 GPT-3.5
Phiên bản này là một cải tiến của GPT-3, với một số tính chỉnh và cải thiện về hiệu
suât và khả năng xử lý ngôn ngữ
2 GPT-4
Một bước tiến lớn hơn nữa, GPT-4 không chỉ là một mô hình ngôn ngữ lớn hơn, mà
còn là một mô hình đa phương tiện, có khả năng xử lý đầu vào hình ảnh cùng với văn
bản
3 GPT-4 Turbo
Một biên thê của GPT-4, được tôi ưu hóa vé hiéu suat va toc độ, phù hợp cho các ứng
dụng cân phản hồi nhanh chóng
3.2 Phiên bản GPT do các tổ chức khác phát triển
1 BERT (Bidirectional Encoder Representations from Transformers) 14 m6t
mô hình ngôn ngữ lớn và mạnh mẽ được phát triển bởi Google AI vào năm
2018 Nó dựa trên kiến trúc Transformer, một loại mạng thần kinh đã cách mạng hóa xử lý ngôn ngữ tự nhiên (NLP)
Trang 17Probabilities
(Add & Norm } Feed Forward
Add & Norm Multi-Head
Attention
Positional Positional Encoding &>- Encoding
Or
Inputs Outputs
BERT model architecture
Diém noi bat cua BERT:
e Hiểu ngữ cảnh hai chiều: BERT có thê xử lý văn bản theo cả hai hướng, trái
sang phải và phải sang trái, cho phép nó hiểu các mối quan hệ giữa các từ trong một câu tốt hơn Điều này trái ngược với các mô hình ngôn ngữ trước đó chỉ có thê xử lý văn bản theo một hướng, từ trái sang phải
®_ Được đào tạo trên một tập dữ liệu không lồ: BERT được đào tạo trên một tập
dữ liệu không lồ gồm văn bản và mã, bao gồm cả BooksCorpus và Wikipedia
Điều này cho phép nó học được các mối quan hệ phức tạp giữa các từ và cụm
tu
@ C6 thé thwe hién nhiéu nhiệm vụ NLP: BERT có thể được sử dụng đề thực
hiện nhiều nhiệm vụ NLP khác nhau, chẳng hạn như trả lời câu hỏi, phân loại
văn bản, tóm tắt văn bản và dịch ngôn ngữ
Cách thức hoạt động của BERT:
a Dau vào văn bản: Văn bản được đưa vào BERT dưới dạng một chuỗi các token, chăng hạn như các từ hoặc các ký tự riêng lẻ
b Mã hóa token: Mỗi token duoc mã hóa thành một vector, một biểu điễn số của ý nghĩa của token
Trang 18c Tự chú: BERT sử đụng cơ chế chú ý dé tap trung vao cac token quan trong trong câu Điều này cho phép BERT hiểu các mối quan hệ giữa các token và ngữ cảnh của chúng
d Mã hóa ngữ cảnh: BERT sử dụng các vector mã hóa token vả thông tin chu
ý để tạo ra một vector mã hóa ngữ cảnh cho mỗi token Vector này bao gồm thông tin về ý nghĩa của token và ngữ cảnh của nó trong câu
e Đầu ra: Vector mã hóa ngữ cảnh có thê được sử dụng cho nhiều nhiệm vụ
NLP khác nhau, chẳng hạn như trả lời câu hỏi hoặc phân loại văn bản
Ứng dụng của BERT đã được sử dụng trong nhiều ứng dụng khác nhau, bao gồm:
e® Công nghệ: BERT được sử dụng đê cải thiện độ chính xác của các hệ thống tìm kiếm, dịch ngôn ngữ tự động và chatbot
e Gido duc: BERT duoc str dung dé phat triển các công cụ hỗ trợ học tập, chang
hạn như các ứng dụng dịch thuật va hỗ trợ viết
Y tế: BERT được sử dụng dé phat triển các công cụ chân đoán và điều trị bệnh Tài chính: BERT được sử dụng đề phát hiện gian lận và phân tích rủi ro
BERT đã có tác động đáng kế đến lĩnh vực NLP Nó đã thúc đây sự phát triển của các
mô hình ngôn ngữ lớn mới và đã cải thiện hiệu suất của nhiều nhiệm vụ NLP BERT
có khả năng cách mạng hóa cách chúng ta tương tác với máy móc và hiểu ngôn ngữ
I RoBERTa (Robustly Optimized BERT Pretraimming Approach): là một mô
hình ngôn ngữ lớn dựa trên kiến trúc Transformer, được phát triển bởi OpenAl
va Google AI Nó được coi như là một bước tiền đáng kê so với mô hình BERT ban dau, voi những cải tiễn về hiệu suất và khả năng xử lý ngôn ngữ
Trang 19Điểm nổi bật của RoBERTa so với BERT:
e Được đào tạo trên một tập dữ liệu lớn hơn: RoBER Ta được đào tạo trên một
tập dữ liệu không lồ gồm 160GB văn bản, gấp 10 lần so với tập dữ liệu của
BERT Điều này cho phép RoBER Ta học được các mỗi quan hệ phức tạp hơn giữa các tử vả cụm từ, dẫn đến hiệu suất tốt hơn trong nhiều nhiệm vụ
® Sử dụng kỹ thuật đào tạo khác nhau: RoBER Ta tránh sử dụng các kỹ thuật
"cheating" nhu Next Sentenee Prediction (NSP) được sử dụng trong việc đào tạo BERT Điều này giúp cho RoBERTa robust hơn và ít bị thiên vị hơn
®© Không sử dụng masked language modeling: RoBERTa sử dụng full-sentence masking trong quá trình dao tao, thay vi masked language modeling cua BERT Điều này cho phép RoBỗER Ta học được các mỗi quan hệ giữa các từ trong toàn
bộ câu, thay vì chỉ tập trung vào từng từ riêng lẻ
e Hiệu suất tốt hơn: RoBERTa đã đạt được hiệu suất tốt hơn BERT trên nhiều
nhiệm vụ NLP khác nhau, bao gồm GLUE benchmark va SQUAD 2.0
Trang 20RoBERTa đã đạt được hiệu suất tốt hon BERT trên nhiều nhiệm vụ NLP khác nhau, bao gồm:
e GLUE benchmark: RoBERTa dat duoc điểm số trung bình là 89.5 trên GLUE benchmark, cao hơn 2.1 điểm so với BERT GLUE benchmark là một tập dữ
liệu tiêu chuẩn để đánh giá hiệu suất của các mô hình ngôn ngữ trong các
nhiệm vụ như phân loại văn bản, tóm tắt văn bản và trả lời câu hỏi
e SQUAD 2.0: RoBERTa đạt được đệ chính xác là 93.3% trên SQUAD 2.0, cao
hơn 1.5% so với BERT SQuAD 2.0 là một tập dữ liệu câu hỏi và trả lời được
đánh dấu, được sử dụng để đánh giá hiệu suất của các mô hình ngôn ngữ
trong nhiệm vụ trả lời câu hỏi
RoBERTa được sử dụng trong nhiều ứng dụng tương tự như BERT, bao gồm:
e Tìm kiếm: RoBERTa có thê được sử dụng đề cải thiện độ chính xác của các hệ thống tìm kiếm, bằng cách hiểu tốt hơn các truy van tìm kiếm của người dùng
® Dịch ngôn ngữ: RoBER Ta có thé duoc str dung dé dich ngôn ngữ một cách
chính xác và trôi chảy hơn
e Tóm tắt văn bản: RoBERTa có thể được sử dụng để tóm tắt văn bản một cách ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính
e Chatbot: RoBERTa có thê được sử dụng dé phat trién chatbot thông minh hơn
và trò chuyện tự nhiên hơn với con người
e Phân tích văn bản: RoBERTa có thể được sử dụng dé phan tich van ban va
chiét xuat thong tin quan trong
2 DeBERTa (Decoding-enhanced BERT with disentangled attention): là một
mô hình ngôn ngữ lớn (LLM) dựa trén Transformer, duoc phat trién bởi Microsoft AI và Landing AI Nó được giới thiệu lần đầu tiên trong bài báo
"DeBERTa: Decoding-enhanced BERT with Disentangled Attention" cua Hao Zhou et al vào năm 2020 DeBERTa được coi là một cải tiến đáng kề so với BERT và RoBERTa, với những cải tiễn về hiệu suất và khả năng xử lý ngôn
ngữ
Điểm nồi bật của DeBERTa:
e Disentangled Attention: DeBERTa sir dung mét co ché chu ý mới gọi là
"Disentangled Attention", giúp tách rời các mỗi quan tâm về tính chất từ ngữ (lexical) và tính chất vị trí (positional) của các token trong một câu Điều này cho phép DeBERTa tập trung tốt hơn vào ý nghĩa của các từ và ít bị ảnh hưởng boi vi tri cua ching trong câu
e Decoding-enhanced Training: DeBERTa duoc dao tao không chỉ với mục tiêu
dự đoán các token bi che mat trong mét cau (masked language modeling), ma
Trang 21còn với mục tiêu giải mã toàn bộ câu từ một chuỗi mã hóa Điều này giúp DeBERTa học được các mối quan hệ giữa các token một cách toàn diện hơn vả cải thiện khả năng hiểu ngữ cảnh
e Sw dung gradient-disentangled embedding sharing: DeBERTa chia sé cac
embedding của các token giữa quá trình mã hóa va giải mã, nhưng sử dụng các øradient riêng biệt Điều này giúp giảm chi phí tính toán và cải thiện hiệu suất
Hiệu suất của DeBER Ta đã vượt trội so với BERT và RoBERTa trên nhiều nhiệm vụ
NLP khác nhau, bao gồm:
e GLUE benchmark: DeBERTa dat duoc diém sé trung binh là 92.8 trên GLUE benchmark, cao hơn 4.5 điểm so với BERT và 3.3 điểm so với RoBERTa
® SQuAD 2.0: DeBERTa đạt được độ chính xác là 93.5% trên SQUAD 2.0, cao
hơn 1.8% so với BERT va 0.2% so với RoBERTa
@ RACE: DeBERTa dat duoc d6 chinh xac la 91.1% trén RACE, cao hon 3.6%
so v61 BERT va 0.3% so voi RoBERTa
e SuperGLUE: DeBERTa dat duoc điểm số cao nhất trên SuperGLUE, một tập
dữ liệu tiêu chuẩn bao gồm nhiều nhiệm vụ NLP khác nhau
Ứng dụng của DeBERTa được sử dụng trong nhiều ứng dụng tương tự như BERT và
RoBERTa, bao gồm:
e Tìm kiếm: DeBERTa có thể được sử dụng dé cai thiện độ chính xác của các hệ thống tìm kiếm, bằng cách hiểu tốt hơn các truy van tìm kiếm của người dùng
® Dịch ngôn ngữ: DeBER Ta có thé duoc str dung dé dich ngôn ngữ một cách
chính xác và trôi chảy hơn
e Tom tắt văn bản: DeBERTa có thể được sử dụng để tóm tắt văn bản một cách ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính
e Chatbot: DeBERTa có thể được sử dụng dé phat trién chatbot thông minh hơn
và trò chuyện tự nhiên hơn với con người
e Phân tích văn bản: DeBERTa có thê được sử dụng dé phan tich van ban va
chiét xuat thong tin quan trong
3 XLNet: một mô hình ngôn ngữ tự nhiên (LLM) dựa trên kiến trúc
Transformer, được phát triển bởi Google AI vào năm 2019 Nó được coi là một bước tiến đáng ké trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) nhờ những cải tiến về hiệu suất và khả năng xử lý so với các mô hình trước đó nhw BERT
Trang 22XLNet kết hợp những ưu điểm của cả GPT và BERT Nó sử dụng kiến trúc _
Transformer giỗng như Q@PT, nhưng sử dụng các kỹ thuật đào tạo khác nhau đề cải
thiện khả năng hiêu ngữ cảnh
Kiến trúc của XLNet sử dụng một kiến trúc mới gọi là Permutation Language
Modeling Thay vì chỉ xử lý các chuỗi văn bản theo một hướng (từ trái sang phải),
XLNet có thể xử lý theo cả hai hướng và thậm chí theo thứ tự ngẫu nhiên Điều này
giúp XLNet học được các mối quan hệ phức tạp hơn giữa các từ trong một câu và
cải thiện khả năng hiểu ngữ cảnh
XLNet sử dụng các kỹ thuật đào tạo sau đề cải thiện khả năng hiểu ngữ cảnh:
e Full-to-sequence attention: XLNet sv dung full-to- sequence attention, cd
nghia là mỗi token trong câu có thể chú ý đến tất cả các token khác trong câu Điều này cho phép XLNet học được các mối quan hệ tầm xa giữa các từ và
cải thiện khả năng hiểu các câu dài
e Joint training with autoregressive and bidirectional objectives: XLNet
được đào tạo đồng thời với các mục tiêu tự hồi và song hướng Điều này giúp
mô hình học được các mối quan hệ giữa các từ trong cả hướng thuận và nghịch, đồng thời cải thiện khả năng tạo văn bản và trả lời câu hỏi
XLNet đã đạt được hiệu suất cao trên nhiều nhiệm vu NLP khác nhau, bao gồm:
e GLUE benchmark: XLNet đạt được điểm số trung bình là 88.6 trên GLUE
benchmark, cao hơn so với BERT và RoBERTa
e SQuAD 2.0: XLNet đạt được độ chính xác là 93.2% trên SQuAD 2.0, cao hơn
so với BERT và RoBERTa
e Natural Language Inference (NLI): XLNet đạt được độ chính xác cao trên
các nhiệm vụ NLI khác nhau
XLNet được sử dụng trong nhiều ứng dung NLP khác nhau, bao gồm:
e Tìm kiếm: XLNet có thể được sử dụng để cải thiện độ chính xác của các hệ
thống tìm kiếm, bằng cách hiểu tốt hơn các truy vấn tìm kiếm của người dùng
e Dịch ngôn ngữ: XLNet có thê được sử dụng đề dịch ngôn ngữ một cách
chính xác và trôi chảy hơn
e Tóm tắt văn bản: XLNet có thể được sử dụng để tóm tắt văn bản một cách
ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính
e Chatbot: XLNet có thể được sử dụng để phát triển chatbot thông minh hon va trò chuyện tự nhiên hơn với con người
e Phan tich van ban: XLNet có thể được sử dụng đề phân tích văn bản và chiết xuất thông tin quan trọng
Kết luận
XLNet là một mô hình NLP mạnh mẽ và linh hoạt, vượt trội hơn so với nhiều mô hình
khác về hiệu suất và khả năng xử lý ngôn ngữ Nó có tiềm năng cách mạng hóa
cách chúng ta tương tác với máy móc vả hiêu ngôn ngữ
Trang 23Cụ thể, XLNet kết hợp những hiểu biết từ GPT và BERT như sau:
e_ Từ GPT, XLNet kế thừa kiến trúc Transformer Kiến trúc này cho phép XLNet
học được các mối quan hệ phức tạp giữa các từ trong một câu
e_ Từ BERT, XLNet kế thừa phương pháp đào tạo masked language modeling
Phương pháp này cho phép XLNet học được các môi quan hệ giữa các từ
trong một câu, ngay cả khi một số từ bị che khuát
4 T5 (Text-to-Text Transfer Transformer): là một mô hình ngôn ngữ lớn
(LLM) dựa trên kiến trúc Transformer, được phát triển bởi Google AI vào năm
2020 Nó được coi là một bước tiến đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) nhờ khả năng xử lý nhiều loại nhiệm vụ NLP khác nhau với một
mô hình duy nhât
T5 sử dụng một phương pháp mới gọi là Text-to-Text Transfer Learning, trong đó
mọi nhiệm vụ NLP được chuyền đổi thành một nhiệm vụ chuyển đổi văn bản sang
văn bản Ví dụ, nhiệm vụ dịch ngôn ngữ được chuyển thành nhiệm vụ chuyển đổi
văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích
T5 được đào tạo trên một tập dữ liệu khổng lồ gồm văn bản và mã Điều này cho
phép T5 học được các môi quan hệ phức tạp giữa các từ và văn bản, đông thời cải
thiện khả năng xử lý nhiêu loại nhiệm vụ NLP khác nhau
T5 đã đạt được hiệu suất cao trên nhiều nhiệm vụ NLP khác nhau, bao gồm:
e GLUE benchmark: T5 dat duoc diém sé trung binh la 92.5 tran GLUE
benchmark, cao hon so voi BERT va RoBERTa
e SQuAD 2.0: T5 đạt được độ chính xác là 94.1% trên SQuAD 2.0, cao hơn so
với BERT và RoBERTa
e Natural Language Inference (NLI): T5 dat duoc dé chính xác cao trên các
nhiệm vụ NLI khác nhau
T5 được sử dụng trong nhiều ứng dụng NLP khác nhau, bao gồm:
e Tìm kiếm: T5 có thể được sử dụng để cải thiện độ chính xác của các hệ
thống tìm kiếm, bằng cách hiểu tốt hơn các truy vấn tìm kiếm của người dùng
e Dịch ngôn ngữ: T5 có thể được sử dụng để dịch ngôn ngữ một cách chính
xác và trôi chảy hơn
e_ Tóm tắt văn bản: T5 có thể duoc sử dụng để tóm tắt văn bản một cách ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính
e Chatbot: T5 có thể được sử dụng để phát triển chatbot thông minh hơn và trò chuyện tự nhiên hơn với con người
e Phan tich van bản: T5 có thể được sử dụng đề phân tích văn bản và chiết
xuất thông tin quan trọng
e T5 str dung một mô hình duy nhất để xử lý tất cả các nhiệm vụ NLP Điều này
giúp đơn giản hóa quá trình phát triển và triển khai các ứng dung NLP
e T5 str dung phương phap Text-to-Text Transfer Learning dé chuyển đổi mọi
nhiém vu NLP thanh mét nhiém vu chuyén đổi văn bản sang văn bản Điều
Trang 24nay giúp T5 học được các mối quan hệ phức tạp giữa các từ và văn bản, đồng thời cải thiện khả năng xử lý nhiều loại nhiệm vụ NLP khác nhau
5 ELECTRA: một mô hình ngôn ngữ lớn (LLM) dựa trên kiến trac Transformer, được phát triển bởi Google AI vào năm 2020 Nó được coi là một bước tiến đáng kê trong lĩnh vực xứ lý ngôn ngữ tự nhiên (NLP) nhờ khả năng cải thiện hiệu suất và hiệu quả hơn so với BERT trong cùng một cấu hình
ELECTRONA sử dụng một phương pháp huấn luyện mới gọi là Contrastive Learning, trong đó mô hình được đào tạo đê phân biệt văn bản thật và văn bản giả Văn bản giả
duoc tao bang cach thay thê các từ trong văn bản thật băng các từ ngầu nhiên
Phương pháp huấn luyện Contrastive Learning có một số ưu điểm so với phương pháp huấn luyện Masked Language Modeling (MLM) được sử dụng bởi BERT Thứ nhất,
phương pháp Contrastive Learning tập trung vào việc học các mối quan hệ giữa các từ, thay vì tập trung vào việc học các mối quan hệ giữa các từ và các vị trí của chúng
trong câu Điều này giúp ELECTRA học được các mối quan hệ phức tạp hơn giữa các
từ và cải thiện khả năng hiệu ngữ cảnh Thứ hai, phương pháp Contrastive Learning
hiệu quả hơn phương pháp MLM Điều này là do phương pháp Contrastive Learning
chỉ cân sử dụng một nửa sô dữ liệu đảo tạo so với phương pháp MLM
ELECTRONA đã đạt được hiệu suất cao trên nhiều nhiệm vụ NLP khác nhau, bao
gôm:
e GLUE benchmark: ELECTRA đạt được điểm số trung binh là 92.2 trên
GLUE benchmark, cao hơn so với BERT
® SQuAD 2.0: ELECTRA đạt được độ chính xác la 93.6% trén SQUAD 2.0, cao
hon so voi BERT
e Natural Language Inference (NLT): ELECTRA dat duoc d6 chinh xác cao
trên các nhiệm vụ NLI khác nhau
ELECTRONA được sử dụng trong nhiều ứng dụng NLP khác nhau, bao gồm:
e Tìm kiếm: ELECTRA có thê được sử dụng dé cai thiện độ chính xác của các
hệ thống tìm kiếm, băng cách hiểu tốt hơn các truy vấn tìm kiếm của người dùng
e Dịch ngôn ngữ: ELECTRA có thể được sử dụng dé dich ngôn ngữ một cách
chính xác và trôi chảy hơn
e Tóm tắt văn bản: ELECTRA có thê được sử dụng đề tóm tắt văn bản một cách
e Chatbot: ELECTRA co thé duoc str dung dé phat trién chatbot thong minh hon
và trò chuyện tự nhiên hơn với con người
e Phân tích văn bản: ELECTRA có thê được sử dụng dé phan tich van ban va
chiét xuat thong tin quan trong