tiểu luận cuối kì học phần dịch vụ mạng internet đề tài gpt

GPT là một mô hình ngôn ngữ tự nhiên dựa trên kiến trúc Transformer, được huấn luyện với một lượng lớn dữ liệu từ Internet và có khả năng sinh ra văn bản tự động, đáp ứng các câu hỏi và

Trang 1

ĐẠI HỌC KINH TÉ THÀNH PHÓ HÒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KE KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BỘ MÔN CÔNG NGHỆ THÔNG TIN

UEH UNIVERSITY

Trang 2

Chwong 1: GIGI THIEU VE GPT VA GIOI THIEU ĐÈ TẢI

Chuwong 2: TONG QUAN VE GPT

Chương 3: TÔNG QUAN VẺ CÁC PHƯƠNG BẢN GPT KHÁC

Chương 4: ỨNG DỤNG GPT VÀO BÀI TOÁN THỰC TẾ

Chương 5: ĐÁNH GIÁ KÉT QUÁ MÔ HÌNH

Chương 6: VẤN ĐÈ VÀ THÁCH THỨC ĐẶT RA KHI SỬ DỤNG GPT

Trang 3

DANH MUC HINH ANH

Hinh 2.1 Minh hoa don gian hoat déng cua mé hinh Transformer

Hinh 2.2 Kién tric m6 hinh GPT

Trang 4

DANH MUC BANG BIEU

Bang 2.1 Phân loại một số phương pháp phân cụm chính

Trang 5

DANH MUC TU VIET TAT

Trang 6

LOI MO DAU

Công nghệ đã trở thành một phần không thé tách rời khỏi cuộc sống hiện đại Nó đã thâm nhập vào tất cả các khía cạnh cuộc sông của chúng ta và đóng vai trò quan trọng trong việc nâng cao năng lực và tăng chất lượng trong nhiều lĩnh vực Trong bối cảnh

tạo AI chính là GPT, một sản phẩm công nghệ mới nội của doanh nghiệp OpenAlI

Với GPT, ta có cơ hội tương tác với trí tuệ nhân tạo giống như với người thật trong

đối thoại hàng ngày Điều này đã đánh bại rào cản giao tiếp giữa con người và máy

tính trước đây, mang đến cho người dùng một trải nghiệm tràn đầy mới mẻ và thú vị

Nhóm chúng tôi đã lựa chọn dé tai GPT vi nhan thay duoc tam quan trong va tiém năng phát triển của loại hình công nghệ này Cuộc cách mạng trong trí tuệ nhân tạo

đang thay đổi dần cách chúng ta tương tác với thông tin Bằng cách tìm hiểu sâu hơn,

chúng ta có thê khám phá những khía cạnh mới mẻ về một công cụ AI đang gây "sóng gio ' trên toàn cầu Đề giúp đọc giả có thê hiểu sâu hơn về GPT, chúng tôi đã phân chia nội dung đề tài thành 6 chương sau đây:

1.Giới thiệu về GPT và giới thiệu đề tài

IL Tông quan về GPT

I Tong quan vé cac phién ban GPT khac

IV Ứng dụng GPT vào bài toán thực tế

V Đánh giá kết quả mô hình

VI Vấn đề và thách thức đặt ra khi sử dụng GPT

Cuối cùng, chúng tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến Ths Trần

đạt những kiến thức hữu ích về môn học này và cung cấp những kiến thức bồ ích đề

góp phân giúp chúng tôi hoàn thành tiêu luận báo cáo môn học trong suốt thời gian

qua Đồng thời cũng xin gửi lời cảm ơn đến các thành viên trong nhóm đã củng nhau

hợp tác và hoàn thành nhiệm vụ Tuy nhiên, chúng tôi nhận thấy bản thân còn thiểu

khá nhiều kiến thức về chuyên ngành và tầm nhìn còn hạn chế nên trong quá trình

nghiên cứu và hoàn thiện đề tài GPT sẽ không thể tránh khỏi thiếu sót khi trình bày

Chúng tôi rất mong nhận được sự quan tâm cũng như góp ý từ thầy và mọi người để

có thê cải thiện nội dung hoàn chỉnh và đầy đủ hơn

Xin tran trong cam on

Trang 7

BANG PHAN CONG CAC THANH VIEN

5 Lê Trí Lộc

Trang 8

Chuong 1: GIOI THIEU VE GPT VA GIOI THIEU DE TAI

1.1 Giới thiệu về GPT

GPT (Generative Pre-trained Transformer)|a mot kién tric mé hinh ngén nei

(language model) được phát triển bởi OpenAI-một công ty nghiên cứu trí tuệ nhân tạo (AT) có trụ sở tại San Francisco, California Céng ty nay được thành lập vào năm 2015 với mục tiêu phát triên và thúc đây sự tiên bộ của trí tuệ nhân tạo thông qua việc xây

dựng các công cụ và mô hình AI tiên tiên GPT chính là một trong những sản phâm

công nghệ tạo nên tiếng vang lớn cho Open AI

GPT là một mô hình ngôn ngữ tự nhiên dựa trên kiến trúc Transformer, được huấn

luyện với một lượng lớn dữ liệu từ Internet và có khả năng sinh ra văn bản tự động,

đáp ứng các câu hỏi và thực hiện các tác vụ liên quan đến ngôn ngữ GPT đã góp phần tạo ra các chatbot thông minh, trở thành công cụ hỗ trợ trong việc tương tác với người dùng, cung cấp thông tin, giải đáp câu hỏi hay thậm chí hoàn thiện các nhiệm vụ phức tạp Tuy nhiên, nó van còn một số hạn chế và thách thức trong việc hiểu ngữ cảnh vả

kiêm soát, đòi hỏi sự cân nhắc và giám sát trong việc sử dụng

1.2 Giới thiệu về đề tài

Trong thời kỳ đầy biến động của lĩnh vực Trí tuệ Nhân tạo (AI), GPT đã nỗi lên như

một sự đột phá xuất sắc trong việc ứng dụng các mô hình mạng nơ-ron trí tuệ nhân tạo vào xử lý ngôn ngữ tự nhiên Được phát triên bởi OpenAl, GPT không chỉ là một mô

hình chuyền giao hàng đầu mà còn là biểu tượng của sự tiến triển đáng kế trong lĩnh

vuc nay

Kiến trúc của GPT dựa trên Transformer, một cầu trúc mạng nơ-ron biến đổi đưa ra

những hiệu suất xuất sắc trong xử lý dữ liệu chuỗi dài và phức tạp Điều độc đáo của

GPT là khả năng chủ động học từ lượng lớn đữ liệu ngôn ngữ không giám sát, cho

phép nó nắm bắt được cấu trúc và ngữ nghĩa ngôn ngữ một cách sâu sắc

Trải qua quá trình đào tạo trước (pre-trained) trên dữ liệu ngôn ngữ đa dang từ

Internet, GPT trở nên có khả năng ứng dụng linh hoạt trong nhiều nhiệm vụ cụ thể như dịch thuật , tóm tắt văn bản, và sáng tạo văn bản Tiểu luận này sẽ phân tích chỉ tiết về cầu trúc và nguyên lý hoạt động của GPT, cũng như những tiềm năng ứng dụng của nó trong các lĩnh vực đa dạng của xã hội và kinh tế hiện đại

Chuong 2: TONG QUAN VE GPT

2.1 Cơ sở lý thuyết

e Kién trac Transformer (Transformer architecture)

GPT dựa trên tài ligu vé Transformer architecture véi tua dé “Attention is all you

necd'WIE[IUUUT) |: :rì Q: kién tric hoc sâu (deep learning) trong lĩnh vực xử

lý ngôn ngữ tự nhiên Nó có khả năng dịch thuật, tong hợp văn bản, tóm tắt tài liệu,

trích xuất thông tin va trả lời câu hỏi Kiến trúc tông quan của mô hình transformer

Trang 9

bao gom 2 phan lon la encoder va decoder duge (Quoc Pham, 2020) giai thich trong

bài viết “Tìm hiểu mô hình Transformer” nhu sau:

- Encoder: chiu trách nhiệm biểu diễn đữ liệu đầu vào Trong mô hình ngôn ngữ,

encoder sẽ nhận đoạn văn bản đầu vào và biến nó thành một loạt các biểu diễn

(embeddings) Diéu này giúp nắm bắt thông tin từ đoạn văn bản, nhưng không tạo ra

đoạn văn bản

moi

- Decoder: 1a nơi mả sự sáng tạo diễn ra, chuyên đổi thông tin mà nó đã học từ số

thành văn bản hoặc dãy dữ liệu khác

Hình 2.I Minh họa đơn giản hoat déng cua mé hinh Transformer

lý thông tin ở các vị trí khác nhau trong chuỗi dữ liệu đầu vào Thay vì xử lý tất

cả các phần tử của dữ liệu một cách đồng nhất, cơ chế Attention cho phép mô hình chú ý đến các phần tử quan trọng hơn và bỏ qua các phần tử không quan trọng Tưởng tượng bạn đang đọc một đoạn văn bản dai Thay vì đọc tử đầu đến cuối một cách đơn điệu nó giống như một loại "chú ý" đặc biệt vào các từ quan trọng hơn

e Phân phối xác suất trên từ: Khi tạo ra văn bản, GPT ước lượng phân phối xác suất của

từ tiếp theo đựa trên ngữ cảnh và chọn từ dựa trên phân phối đó Sau đó chọn từ tiếp

theo dựa trên phân phối xác suất này Quá trình này lặp lại cho từng từ trong văn bản,

giúp mô hỉnh tạo ra các câu văn tự nhiên dựa trên ngữ cảnh va thông tin từ vựng mà nó

đã học từ dữ liệu huấn luyện Điều này giúp GPT tạo ra văn bản mà có cầu trúc hợp lý

và phản ánh ngữ cảnh hiện tại

® Học giám sát (supervised) _ học không giám sát (unsupervised learning) _ học

chuyén déi (Transfer learning):

Mô hình GPT có thê được huấn luyện theo hai cách là huấn luyện không giám sát

(unsupervised learning) và huấn luyện giám sát (supervised)

Học giảm sát (supervised learning) là một phương pháp trong lĩnh vực học máy

(machine learning) trong đó mô hình học được huấn luyện dựa trên một tập dữ liệu

huấn luyện được gán nhãn trước Mục tiêu là dự đoán hoặc phân loại dữ liệu mới dựa

trên những gì nó đã học tử tập dữ liệu đã gan nhãn

Trang 10

Học không giảm sat (unsupervised learning) là một phương pháp trong lĩnh vực học máy (machine learning), trong đó mô hình học được huấn luyện dựa trên đữ liệu

không cần nhãn bằng cách dự đoán các từ trong một câu dựa trên ngữ cảnh xung

quanh, cụ thê hơn là có thê dự đoán từ tiếp theo trong một chuỗi Mục tiêu ở đây

không phải là dự đoán một kết quả cụ thê mà là tìm hiểu cấu trúc hoặc mối quan hệ

giữa các dữ liệu

Trong dịch máy hoặc phân loại văn bản thì huấn luyện học giám sát (supervised

learning) có thê mang lại kết quả tốt hơn Tuy nhiên, trong một số tác vụ khác như tạo văn bản tự động hoặc chatbot thì huấn luyện không giám sát (unsupervised learning)

thường được sử dụng và có thê mang lại kết quả tốt Trong thực tế, GPT thường được

sử dụng trong các tác vụ không giám sát, nơi mô hình tự động tạo ra văn bản phản hồi dựa trên kiến thức đã học từ dữ liệu huấn luyện trước

Transfer learning: Sau khi mô hình GPT được huấn luyện trên dữ liệu lớn, thì nó có

khả năng chuyền giao tri thức đã học từ các tác vụ đã huấn luyện sang các nhiệm vụ

mới Điều này giúp mô hình đạt được hiệu suất tốt trên nhiều tác vụ ngôn ngữ khác

nhau mà không cân huấn luyện từ đầu, giúp tiết kiệm thời gian và tài nguyên

e Dữ liệu huấn luyện: GPT được huấn luyện trên một lượng lớn đữ liệu văn bản từ

Internet Loại dữ liệu này bao gdm moi thứ từ bài báo, sách, trang web, đoạn hội thoại, đến bài viết trên mạng xã hội và nhiều nguồn thông tin trực tuyến khác

® Kích thước và độ sâu: Độ sâu và kích thước của mô hình cho phép nó biểu diễn

ngữ cảnh trong ngôn ngữ tự nhiên một cách chí tiết hơn Điều này giúp mô hình hiểu

và sử dụng thông tin từ các từ và câu trước đó đê dự đoán từ tiếp theo một cách chính

xác hơn VD: GPT-3 có khoảng 175 tỷ tham số Đây là một con số rất lớn và vượt trội

so với các mô hình trước đó như GPT-2 (I.5 tỷ tham số) Mô hình GPT thường có

nhiều lớp mạng nơ-ron chồng chất lên nhau GPT-3 có 175 lớp chồng lên nhau, làm

tăng độ sâu của mô hình

2.2 Kiến trúc mô hình GPT

Mô hình GPT dựa trên kiến trúc Transformer, một kiến trúc đã tạo ra nhiều đột phá

trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Dưới đây là một cái nhìn bao quát về

kiến trúc của GPT:

Trang 11

Embedding

Input: Đầu vào ban đầu cho mô hình, thường là một chuỗi token

Input Embedding: Chuyên đôi token đầu vào thành một vector đặc trưng

Positional Encoding: Thém thông tin vị trí vào các embedding đầu vào đề mô hình có thế biết được vị trí của mỗi token

Dropout: Một cơ chế đề ngăn chặn hiện tượng overfÑttine băng cách tắt ngẫu nhiên một số neuron

Transformer Block: Các khối transformer xếp chồng lên nhau

Multi-Head Attention Mechanism: Bao gồm các bước như Matmul (phép nhân ma trận), Mask (đặt mặt nạ đề ngăn chặn việc nhìn vào tương lai),Softmax (dé tính toán trọng số attention), và Dropout Cơ chế này cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào ở cùng một lúc đề xác định mức độ quan trọng của từng từ so với từ khác trong một câu, giúp năm bắt ngữ cảnh và ngữ nghĩa

LayerNorm: Chuẩn hóa theo lớp đề giúp quá trình học nhanh hơn và ôn định hơn

._ Feed-forward Neural Network: Một mạng nơ-ron tiễn lên gồm hai lớp tuyến

tính (Linear) và một hàm kích hoạt (ở đây là Gelu)

Dropout: Sau mỗi bước trong khối transformer

Trang 12

10 LayerNorm: Chuẩn hóa trước khi truyền đến lớp tuyến tính cuối cùng

2.3 Nhiệm vụ mô hình GPT

Suy luận ngôn ngữ tự nhiên (Natural language inference): Nhiệm vụ này liên quan đên việc xác định môi quan hệ loglc giữa hai câu (ví dụ, một câu là hệ quả của câu kia, mâu thuần với câu kia hoặc không liên quan)

Tra loi cau hoi (Question Answering): Day là quá trình tìm câu trả lời cho một câu

hỏi dựa trên một hoặc nhiêu nguồn thông tin đã được cung câp hoặc mô hình đã học

Đo đạc độ tương tự của cầu (Sentence similarity): Đánh giá mức độ hai câu văn

giông hoặc khác nhau về nghĩa Điêu này thường được sử dụng trong các hệ thông

khuyên nghị hoặc khi phân loại văn bản

Phân loại (Classiñcation): Gán một hoặc nhiều nhãn cho một đoạn văn bản Đây có

thê là phân loại cảm xúc (xác định đoạn văn bản có tích cực, tiêu cực, hay trung lập),

phân loại chủ đề (xác định đề tài của đoạn văn), hoặc các nhiệm vụ phân loại khác

2.4 Quy trình huấn luyện GPT

I Thu thập đữ liệu: Đề huấn luyện mô hình, một tập dữ liệu lớn chứa cuộc trò

chuyện được thu thập Tập dữ liệu này thường bao gồm các cặp câu hỏi đầu vào của người dùng và phản hồi của mô hình, thường được thu thập từ các nguồn trực tuyến hoặc được tạo ra thông qua tương tác với các nhân viên hỗ trợ

2 Tiền xử lý: Dữ liệu trò chuyện thu thập được được tiền xử lý đề loại bỏ nhiễu,

định dạng và thông tin không liên quan Văn bản được chia thành các đơn vị nhỏ hơn như từ hoặc phần từ, để tạo ra biểu điễn đầu vào phù hợp cho mô hình Tokenization: Chia văn bản thành các đơn vị nhỏ (token) đê xử lý

4 Pre-training (Tiền huấn luyện): Trong giai đoạn này, mô hình được huấn

luyện trên một tập dữ liệu lớn không có nhãn Thường liên quan đến học không giam sat (unsupervised learning)

- Dé liéu: GPT được huấn luyện trên các tập dữ liệu văn bản lớn, như Books

Corpus, Wikipedia, và các nguồn dữ liệu khác, mà không cần biết thông tin cu thể về nội dung

- Mục tiêu: Mô hình được huấn luyện đề dự đoán từ tiếp theo trong một chuỗi

văn bản Điều này giúp mô hình học cách hiểu ngữ nghĩa, ngữ pháp, và các mô típ văn bản khác

- Két qua: Sau giai đoạn này, GPT' đã học được một biểu diễn văn bản chung vả

có thê tạo ra văn bản một cách tự động, mặc dù văn bản đó có thể chưa tối ưu cho các nhiệm vụ cụ thẻ

5 Fine-tuning (Tỉnh chỉnh): Sau khi mô hình đã được tiền huấn luyện (pre-

training), ban có thể tỉnh chỉnh mô hình trên một tập dữ liệu nhỏ hơn và có nhãn cho nhiệm vụ cụ thê mà bạn quan tâm Thường liên quan đến học giám sát (supervised learning)

- _ Dữ liệu: Dữ liệu có nhãn cho một nhiệm vụ cụ thể, như phân loại văn bản, phân tích cảm xúc, hoặc trả lời câu hỏi

Trang 13

- Mục tiêu: Huấn luyện mô hình để tối ưu hóa cho nhiệm vụ cụ thể dựa trên dữ

liệu có nhãn

- _ Kết quả: Mô hình sau cùng có khả năng thực hiện nhiệm vụ cụ thê với độ chính xác cao hơn so với mô hình chỉ được tiền huấn luyện

6 Kiểm Thử: Kiểm tra mô hình trên dữ liệu không thay trong quá trình huấn

luyện để đánh giá khả năng tổng quát hóa

7 Triển Khai: Triển khai mô hình vào các ứng dụng thực tế

2.5 Quy trình hoạt động mô hình GPT

Hình minh họa

I Nhận Đâu Vào: Khi được sử dụng, GPT nhận van ban dau vào từ người dùng Điều này có thê là bât kỳ câu hỏi, yêu câu hoặc yêu câu thông tin nao mà người dùng muôn trao đôi hoặc tìm hiệu

2 Xử Lý Đầu Vào: Mô hình tiến hành xử lý đầu vào băng cách phân tích văn bản thành các phần tử nhỏ hơn gọi la "token." Méi token co thé là một từ, một dấu câu, hoặc thậm chí là một phân của từ GPT sử dụng kiến thức đã học từ quá

3 Tạo Đầu Ra: Dựa trên đầu vào và kiến thức đã học, GPT bắt đầu sinh ra đầu ra bằng cách đự đoán chuỗi token tiếp theo Quá trình này thường bắt đầu băng việc sinh ra một token đầu tiên dựa trên thông tin từ đầu vào Sau đó, mô hình tiếp tục dự đoán và sinh ra các token tiếp theo dé xây dựng một chuỗi văn bản hoặc câu trả lời thích hợp Đầu ra này có thê là một câu trả lời chỉ tiệt, một đoạn văn bản mô tả, hoặc bất kỳ loại thông tin nào mà người dùng yêu cầu

4 Liên Tục Cập Nhật: Trong một số trường hợp, GPT có khả năng liên tục cập

nhật và học hỏi từ phản hồi hoặc tương tác mới dé cải thiện hiệu suất của nó

Điều này có thê bao gồm việc điều chỉnh mô hình dựa trên thông tin phản hồi từ người dùng hoặc học hỏi từ dữ liệu mới Quá trình liên tục cập nhật này giúp GPT ngày càng trở nên thông minh và thích nghi với nhu cầu của người dùng

Chuong 3: TONG QUAN CAC PHIEN BAN GPT KHAC

3.1 Phiên bản của GPT do OpenAl phat trién

1 Version Chat GPT - 1

Chat GPT-1: Khởi nguồn của một dự án hỗ trợ trò chuyện

thông minh

ChatGPT-I là một mô

hình ngôn ngữ lớn được phát triên bởi OpenAI vào năm 2018 Nó là một trong những

mô hình ngôn ngữ( LLM) đầu tiên được đào tạo trên một tập dữ liệu không lồ gồm

văn bản và mã ChatGPT-I có thể tạo ra văn bản, dịch ngôn ngữ, viết các loại nội

Trang 14

dung sáng tạo khác nhau và trả lời câu hỏi của bạn một cách đầy đủ thông tin Cũng là một nền tảng mạnh mẻ có thê được sử dụng cho nhiều mục đích khác nhau

Điểm mạnh của ChatGPT-I:

Tạo văn bản chất lượng cao: ChatGPT-I có thể tạo ra văn bản gốc, chăng hạn như bài viết, email, thư, v.v Văn bản được tạo ra bởi ChatGPT-I thường khó phân biệt với văn bản được viết bởi con người Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như viết nội dung, dịch ngôn ngữ và sáng tạo nội dung

Dịch ngôn ngữ chính xác và trôi chảy: ChatGPT-I có thê dịch giữa các ngôn ngữ Nó có thể địch chính xác và trôi chảy giữa nhiều ngôn ngữ khác nhau, bao gồm tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, v.v Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như dịch tự động và

hỗ trợ khách hàng

Viết các loại nội dung sáng tạo khác nhau: ChatGPT-I có thé viết các loại nội dung sáng tạo khác nhau, chăng hạn như thơ, mã, kịch bản, tác phâm âm nhạc,

email, thư, v.v Nó có thê tạo ra các nội dung sáng tạo chất lượng cao, chăng hạn

như thơ, mã, kịch bản, tác phẩm âm nhạc, email, thư, v.v Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như sáng tạo nội dung và giải trí

Trả lời câu hỏi của bạn một cách đầy đủ thông tin: ChatGPT-L có thê trả lời câu hỏi của bạn một cách đây đủ thông tin, ngay cả khi câu hỏi đó là mở, thách thức hoặc kỳ lạ Điều này làm cho nó trở thành một công cụ tuyệt vời cho các ứng dụng như hỗ trợ khách hàng và giáo dục

Điểm yếu của ChatGPT-I:

Tiềm ấn thiên vị: ChatGPT-I được đảo tạo trên một tập dữ liệu không lồ gồm văn bản và mã Tập đữ liệu này có thể chứa thiên vị, và điều này có thé duoc phản ánh trong kết qua cua ChatGPT-1 Vi du: ChatGPT-1 có thé tạo ra văn bản chứa định kiến giới hoặc chủng tộc

Không thé giải thích: ChatGPT-I là một mô hình học máy phức tạp, và các quyết định của nó không phải lúc nào cũng dễ hiểu Điều này có thế khiến việc

sử dụng ChatGPT-I cho các ứng dụng quan trọng, chắng hạn như hỗ trợ khách hàng hoặc giáo dục, trở nên khó khăn

Tiềm ẫn nguy cơ bị lạm dụng: ChatGPT-I là một công cụ mạnh mẽ, và nó có thé duoc str dung cho muc dich xấu, chăng hạn như tạo ra nội dung sai lệch hoặc khuếch đại thông tin sai lệch Điều quan trọng là phải sử dụng ChatGPT-I một cách có trách nhiệm và nhận thức được những rủi ro tiềm ân

Trang 15

e Kha nang hiéu va xử lý Ngon ngir: ChatGPT-1 con nhiéu han ché sé dan tới

việc phản hồi lại không chính xác hoặc các câu từ không liên quan đến câu hỏi Phiên bản này xử lý hiệu năng vẫn còn thấp gây tục mod khi sử dụng

2 Version Chat GPT-2

Chat GPT-2: Sự tiến bộ vượt trội trong khả năng hiểu ngôn

ngữ tự nhiên

Phiên ban GPT-2 dựa trên nền tản GPT-I, mà có những thay đôi như sau :

e Kích thước mô hình lớn hơn: ChatGPT-2 có I,5B tham số, trong khi GPT-I

có LB tham số Điều này có nghĩa là ChatGPT-2 có thê học hỏi nhiều hơn và có thê xử lý thông tin phức tạp hơn

®© Tập dữ liệu dào tạo lớn hơn: ChatGPT-2 được đảo tạo trên một tập dữ liệu

gồm I,56T từ, trong khi GPT-I được đào tạo trên một tập đữ liệu gồm 600B từ

Điều này có nghĩa là ChatGPT-2 có thê tiếp cận với nhiều thông tin hơn và có thê hiểu ngôn ngữ tốt hơn

e Kiến trúc mới: ChatGPT-2 sử dụng kiến trúc Transformer, trong khi GPT-I sử dụng kiến trúc RNN Kiến trúc Transformer được biết là hiệu quả hơn trong các nhiệm vụ xử lý ngôn ngữ tự nhiên

Những cải tiến nay đã dẫn đến những cải thiện đáng kê về hiệu suất của ChatGPT-2 so voi GPT-1

3 Version Chat GPT-3

Chat GPT-3: Bước tiến vượt bậc với kiến trúc Transformer

ChatGPT-3 là phiên bản thứ ba của mô hình ngôn ngữ lớn ChatGPT được phát triển

bởi OpenAI Nó được công bố vào năm 2022 và có một số cải tiến đáng kê so với các

phiên bản trước Một trong những cải tiến quan trọng nhất của ChatGPT-3 là kích

thước mô hình lớn hơn có 175B tham số, gấp 10 lần so với ChatGPT-2 Điều này có

nghĩa là ChatGPT-3 có thê xử lý thông tin phức tạp hơn và có thê tạo ra văn bản chất

lượng cao hơn

Một cải tiến quan trọng khác của

ChatGPT-3 là kiến trúc Transformer mới Kiến trúc Transformer được biết là hiệu quả hon trong

các nhiệm vụ xử lý ngôn ngữ tự nhiên ChatGPT-3 là mô hình ngôn ngữ lớn đầu

tiên được đào tạo trên kiên trúc Transformer

Trang 16

Diem yeu

e Dù đã có sự cải tiến vượt trội, Chat GPT-3 vẫn chưa thê hiểu và xử lý hoàn

toàn chính xác mọi câu hỏi, đặc biệt là những câu hỏi mới hoặc có tính chất đa nghĩa

e Kich thước của mô hình lớn, dẫn đến việc tiêu tốn nhiều tài nguyên máy tính,

ảnh hưởng đến hiệu suất và tốc độ xử lý

® Chat GPT-3 có thê sinh ra kết quả trò chuyện dài và phức tạp, đôi khi không

đáp ứng được nhu cầu của người dùng

1 GPT-3.5

Phiên bản này là một cải tiến của GPT-3, với một số tính chỉnh và cải thiện về hiệu

suât và khả năng xử lý ngôn ngữ

2 GPT-4

Một bước tiến lớn hơn nữa, GPT-4 không chỉ là một mô hình ngôn ngữ lớn hơn, mà

còn là một mô hình đa phương tiện, có khả năng xử lý đầu vào hình ảnh cùng với văn

bản

3 GPT-4 Turbo

Một biên thê của GPT-4, được tôi ưu hóa vé hiéu suat va toc độ, phù hợp cho các ứng

dụng cân phản hồi nhanh chóng

3.2 Phiên bản GPT do các tổ chức khác phát triển

1 BERT (Bidirectional Encoder Representations from Transformers) 14 m6t

mô hình ngôn ngữ lớn và mạnh mẽ được phát triển bởi Google AI vào năm

2018 Nó dựa trên kiến trúc Transformer, một loại mạng thần kinh đã cách mạng hóa xử lý ngôn ngữ tự nhiên (NLP)

Trang 17

Probabilities

(Add & Norm } Feed Forward

Add & Norm Multi-Head

Attention

Positional Positional Encoding &>- Encoding

Or

Inputs Outputs

BERT model architecture

Diém noi bat cua BERT:

e Hiểu ngữ cảnh hai chiều: BERT có thê xử lý văn bản theo cả hai hướng, trái

sang phải và phải sang trái, cho phép nó hiểu các mối quan hệ giữa các từ trong một câu tốt hơn Điều này trái ngược với các mô hình ngôn ngữ trước đó chỉ có thê xử lý văn bản theo một hướng, từ trái sang phải

®_ Được đào tạo trên một tập dữ liệu không lồ: BERT được đào tạo trên một tập

dữ liệu không lồ gồm văn bản và mã, bao gồm cả BooksCorpus và Wikipedia

Điều này cho phép nó học được các mối quan hệ phức tạp giữa các từ và cụm

tu

@ C6 thé thwe hién nhiéu nhiệm vụ NLP: BERT có thể được sử dụng đề thực

hiện nhiều nhiệm vụ NLP khác nhau, chẳng hạn như trả lời câu hỏi, phân loại

văn bản, tóm tắt văn bản và dịch ngôn ngữ

Cách thức hoạt động của BERT:

a Dau vào văn bản: Văn bản được đưa vào BERT dưới dạng một chuỗi các token, chăng hạn như các từ hoặc các ký tự riêng lẻ

b Mã hóa token: Mỗi token duoc mã hóa thành một vector, một biểu điễn số của ý nghĩa của token

Trang 18

c Tự chú: BERT sử đụng cơ chế chú ý dé tap trung vao cac token quan trong trong câu Điều này cho phép BERT hiểu các mối quan hệ giữa các token và ngữ cảnh của chúng

d Mã hóa ngữ cảnh: BERT sử dụng các vector mã hóa token vả thông tin chu

ý để tạo ra một vector mã hóa ngữ cảnh cho mỗi token Vector này bao gồm thông tin về ý nghĩa của token và ngữ cảnh của nó trong câu

e Đầu ra: Vector mã hóa ngữ cảnh có thê được sử dụng cho nhiều nhiệm vụ

NLP khác nhau, chẳng hạn như trả lời câu hỏi hoặc phân loại văn bản

Ứng dụng của BERT đã được sử dụng trong nhiều ứng dụng khác nhau, bao gồm:

e® Công nghệ: BERT được sử dụng đê cải thiện độ chính xác của các hệ thống tìm kiếm, dịch ngôn ngữ tự động và chatbot

e Gido duc: BERT duoc str dung dé phat triển các công cụ hỗ trợ học tập, chang

hạn như các ứng dụng dịch thuật va hỗ trợ viết

Y tế: BERT được sử dụng dé phat triển các công cụ chân đoán và điều trị bệnh Tài chính: BERT được sử dụng đề phát hiện gian lận và phân tích rủi ro

BERT đã có tác động đáng kế đến lĩnh vực NLP Nó đã thúc đây sự phát triển của các

mô hình ngôn ngữ lớn mới và đã cải thiện hiệu suất của nhiều nhiệm vụ NLP BERT

có khả năng cách mạng hóa cách chúng ta tương tác với máy móc và hiểu ngôn ngữ

I RoBERTa (Robustly Optimized BERT Pretraimming Approach): là một mô

hình ngôn ngữ lớn dựa trên kiến trúc Transformer, được phát triển bởi OpenAl

va Google AI Nó được coi như là một bước tiền đáng kê so với mô hình BERT ban dau, voi những cải tiễn về hiệu suất và khả năng xử lý ngôn ngữ

Trang 19

Điểm nổi bật của RoBERTa so với BERT:

e Được đào tạo trên một tập dữ liệu lớn hơn: RoBER Ta được đào tạo trên một

tập dữ liệu không lồ gồm 160GB văn bản, gấp 10 lần so với tập dữ liệu của

BERT Điều này cho phép RoBER Ta học được các mỗi quan hệ phức tạp hơn giữa các tử vả cụm từ, dẫn đến hiệu suất tốt hơn trong nhiều nhiệm vụ

® Sử dụng kỹ thuật đào tạo khác nhau: RoBER Ta tránh sử dụng các kỹ thuật

"cheating" nhu Next Sentenee Prediction (NSP) được sử dụng trong việc đào tạo BERT Điều này giúp cho RoBERTa robust hơn và ít bị thiên vị hơn

®© Không sử dụng masked language modeling: RoBERTa sử dụng full-sentence masking trong quá trình dao tao, thay vi masked language modeling cua BERT Điều này cho phép RoBỗER Ta học được các mỗi quan hệ giữa các từ trong toàn

bộ câu, thay vì chỉ tập trung vào từng từ riêng lẻ

e Hiệu suất tốt hơn: RoBERTa đã đạt được hiệu suất tốt hơn BERT trên nhiều

nhiệm vụ NLP khác nhau, bao gồm GLUE benchmark va SQUAD 2.0

Trang 20

RoBERTa đã đạt được hiệu suất tốt hon BERT trên nhiều nhiệm vụ NLP khác nhau, bao gồm:

e GLUE benchmark: RoBERTa dat duoc điểm số trung bình là 89.5 trên GLUE benchmark, cao hơn 2.1 điểm so với BERT GLUE benchmark là một tập dữ

liệu tiêu chuẩn để đánh giá hiệu suất của các mô hình ngôn ngữ trong các

nhiệm vụ như phân loại văn bản, tóm tắt văn bản và trả lời câu hỏi

e SQUAD 2.0: RoBERTa đạt được đệ chính xác là 93.3% trên SQUAD 2.0, cao

hơn 1.5% so với BERT SQuAD 2.0 là một tập dữ liệu câu hỏi và trả lời được

đánh dấu, được sử dụng để đánh giá hiệu suất của các mô hình ngôn ngữ

trong nhiệm vụ trả lời câu hỏi

RoBERTa được sử dụng trong nhiều ứng dụng tương tự như BERT, bao gồm:

e Tìm kiếm: RoBERTa có thê được sử dụng đề cải thiện độ chính xác của các hệ thống tìm kiếm, bằng cách hiểu tốt hơn các truy van tìm kiếm của người dùng

® Dịch ngôn ngữ: RoBER Ta có thé duoc str dung dé dich ngôn ngữ một cách

chính xác và trôi chảy hơn

e Tóm tắt văn bản: RoBERTa có thể được sử dụng để tóm tắt văn bản một cách ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính

e Chatbot: RoBERTa có thê được sử dụng dé phat trién chatbot thông minh hơn

và trò chuyện tự nhiên hơn với con người

e Phân tích văn bản: RoBERTa có thể được sử dụng dé phan tich van ban va

chiét xuat thong tin quan trong

2 DeBERTa (Decoding-enhanced BERT with disentangled attention): là một

mô hình ngôn ngữ lớn (LLM) dựa trén Transformer, duoc phat trién bởi Microsoft AI và Landing AI Nó được giới thiệu lần đầu tiên trong bài báo

"DeBERTa: Decoding-enhanced BERT with Disentangled Attention" cua Hao Zhou et al vào năm 2020 DeBERTa được coi là một cải tiến đáng kề so với BERT và RoBERTa, với những cải tiễn về hiệu suất và khả năng xử lý ngôn

ngữ

Điểm nồi bật của DeBERTa:

e Disentangled Attention: DeBERTa sir dung mét co ché chu ý mới gọi là

"Disentangled Attention", giúp tách rời các mỗi quan tâm về tính chất từ ngữ (lexical) và tính chất vị trí (positional) của các token trong một câu Điều này cho phép DeBERTa tập trung tốt hơn vào ý nghĩa của các từ và ít bị ảnh hưởng boi vi tri cua ching trong câu

e Decoding-enhanced Training: DeBERTa duoc dao tao không chỉ với mục tiêu

dự đoán các token bi che mat trong mét cau (masked language modeling), ma

Trang 21

còn với mục tiêu giải mã toàn bộ câu từ một chuỗi mã hóa Điều này giúp DeBERTa học được các mối quan hệ giữa các token một cách toàn diện hơn vả cải thiện khả năng hiểu ngữ cảnh

e Sw dung gradient-disentangled embedding sharing: DeBERTa chia sé cac

embedding của các token giữa quá trình mã hóa va giải mã, nhưng sử dụng các øradient riêng biệt Điều này giúp giảm chi phí tính toán và cải thiện hiệu suất

Hiệu suất của DeBER Ta đã vượt trội so với BERT và RoBERTa trên nhiều nhiệm vụ

NLP khác nhau, bao gồm:

e GLUE benchmark: DeBERTa dat duoc diém sé trung binh là 92.8 trên GLUE benchmark, cao hơn 4.5 điểm so với BERT và 3.3 điểm so với RoBERTa

® SQuAD 2.0: DeBERTa đạt được độ chính xác là 93.5% trên SQUAD 2.0, cao

hơn 1.8% so với BERT va 0.2% so với RoBERTa

@ RACE: DeBERTa dat duoc d6 chinh xac la 91.1% trén RACE, cao hon 3.6%

so v61 BERT va 0.3% so voi RoBERTa

e SuperGLUE: DeBERTa dat duoc điểm số cao nhất trên SuperGLUE, một tập

dữ liệu tiêu chuẩn bao gồm nhiều nhiệm vụ NLP khác nhau

Ứng dụng của DeBERTa được sử dụng trong nhiều ứng dụng tương tự như BERT và

RoBERTa, bao gồm:

e Tìm kiếm: DeBERTa có thể được sử dụng dé cai thiện độ chính xác của các hệ thống tìm kiếm, bằng cách hiểu tốt hơn các truy van tìm kiếm của người dùng

® Dịch ngôn ngữ: DeBER Ta có thé duoc str dung dé dich ngôn ngữ một cách

e Tom tắt văn bản: DeBERTa có thể được sử dụng để tóm tắt văn bản một cách ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính

e Chatbot: DeBERTa có thể được sử dụng dé phat trién chatbot thông minh hơn

e Phân tích văn bản: DeBERTa có thê được sử dụng dé phan tich van ban va

3 XLNet: một mô hình ngôn ngữ tự nhiên (LLM) dựa trên kiến trúc

Transformer, được phát triển bởi Google AI vào năm 2019 Nó được coi là một bước tiến đáng ké trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) nhờ những cải tiến về hiệu suất và khả năng xử lý so với các mô hình trước đó nhw BERT

Trang 22

XLNet kết hợp những ưu điểm của cả GPT và BERT Nó sử dụng kiến trúc _

Transformer giỗng như Q@PT, nhưng sử dụng các kỹ thuật đào tạo khác nhau đề cải

thiện khả năng hiêu ngữ cảnh

Kiến trúc của XLNet sử dụng một kiến trúc mới gọi là Permutation Language

Modeling Thay vì chỉ xử lý các chuỗi văn bản theo một hướng (từ trái sang phải),

XLNet có thể xử lý theo cả hai hướng và thậm chí theo thứ tự ngẫu nhiên Điều này

giúp XLNet học được các mối quan hệ phức tạp hơn giữa các từ trong một câu và

cải thiện khả năng hiểu ngữ cảnh

XLNet sử dụng các kỹ thuật đào tạo sau đề cải thiện khả năng hiểu ngữ cảnh:

e Full-to-sequence attention: XLNet sv dung full-to- sequence attention, cd

nghia là mỗi token trong câu có thể chú ý đến tất cả các token khác trong câu Điều này cho phép XLNet học được các mối quan hệ tầm xa giữa các từ và

cải thiện khả năng hiểu các câu dài

e Joint training with autoregressive and bidirectional objectives: XLNet

được đào tạo đồng thời với các mục tiêu tự hồi và song hướng Điều này giúp

mô hình học được các mối quan hệ giữa các từ trong cả hướng thuận và nghịch, đồng thời cải thiện khả năng tạo văn bản và trả lời câu hỏi

XLNet đã đạt được hiệu suất cao trên nhiều nhiệm vu NLP khác nhau, bao gồm:

e GLUE benchmark: XLNet đạt được điểm số trung bình là 88.6 trên GLUE

benchmark, cao hơn so với BERT và RoBERTa

e SQuAD 2.0: XLNet đạt được độ chính xác là 93.2% trên SQuAD 2.0, cao hơn

so với BERT và RoBERTa

e Natural Language Inference (NLI): XLNet đạt được độ chính xác cao trên

các nhiệm vụ NLI khác nhau

XLNet được sử dụng trong nhiều ứng dung NLP khác nhau, bao gồm:

e Tìm kiếm: XLNet có thể được sử dụng để cải thiện độ chính xác của các hệ

thống tìm kiếm, bằng cách hiểu tốt hơn các truy vấn tìm kiếm của người dùng

e Dịch ngôn ngữ: XLNet có thê được sử dụng đề dịch ngôn ngữ một cách

e Tóm tắt văn bản: XLNet có thể được sử dụng để tóm tắt văn bản một cách

ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính

e Chatbot: XLNet có thể được sử dụng để phát triển chatbot thông minh hon va trò chuyện tự nhiên hơn với con người

e Phan tich van ban: XLNet có thể được sử dụng đề phân tích văn bản và chiết xuất thông tin quan trọng

Kết luận

XLNet là một mô hình NLP mạnh mẽ và linh hoạt, vượt trội hơn so với nhiều mô hình

khác về hiệu suất và khả năng xử lý ngôn ngữ Nó có tiềm năng cách mạng hóa

cách chúng ta tương tác với máy móc vả hiêu ngôn ngữ

Trang 23

Cụ thể, XLNet kết hợp những hiểu biết từ GPT và BERT như sau:

e_ Từ GPT, XLNet kế thừa kiến trúc Transformer Kiến trúc này cho phép XLNet

học được các mối quan hệ phức tạp giữa các từ trong một câu

e_ Từ BERT, XLNet kế thừa phương pháp đào tạo masked language modeling

Phương pháp này cho phép XLNet học được các môi quan hệ giữa các từ

trong một câu, ngay cả khi một số từ bị che khuát

4 T5 (Text-to-Text Transfer Transformer): là một mô hình ngôn ngữ lớn

(LLM) dựa trên kiến trúc Transformer, được phát triển bởi Google AI vào năm

2020 Nó được coi là một bước tiến đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) nhờ khả năng xử lý nhiều loại nhiệm vụ NLP khác nhau với một

mô hình duy nhât

T5 sử dụng một phương pháp mới gọi là Text-to-Text Transfer Learning, trong đó

mọi nhiệm vụ NLP được chuyền đổi thành một nhiệm vụ chuyển đổi văn bản sang

văn bản Ví dụ, nhiệm vụ dịch ngôn ngữ được chuyển thành nhiệm vụ chuyển đổi

văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích

T5 được đào tạo trên một tập dữ liệu khổng lồ gồm văn bản và mã Điều này cho

phép T5 học được các môi quan hệ phức tạp giữa các từ và văn bản, đông thời cải

thiện khả năng xử lý nhiêu loại nhiệm vụ NLP khác nhau

T5 đã đạt được hiệu suất cao trên nhiều nhiệm vụ NLP khác nhau, bao gồm:

e GLUE benchmark: T5 dat duoc diém sé trung binh la 92.5 tran GLUE

benchmark, cao hon so voi BERT va RoBERTa

e SQuAD 2.0: T5 đạt được độ chính xác là 94.1% trên SQuAD 2.0, cao hơn so

với BERT và RoBERTa

e Natural Language Inference (NLI): T5 dat duoc dé chính xác cao trên các

nhiệm vụ NLI khác nhau

T5 được sử dụng trong nhiều ứng dụng NLP khác nhau, bao gồm:

e Tìm kiếm: T5 có thể được sử dụng để cải thiện độ chính xác của các hệ

thống tìm kiếm, bằng cách hiểu tốt hơn các truy vấn tìm kiếm của người dùng

e Dịch ngôn ngữ: T5 có thể được sử dụng để dịch ngôn ngữ một cách chính

xác và trôi chảy hơn

e_ Tóm tắt văn bản: T5 có thể duoc sử dụng để tóm tắt văn bản một cách ngắn gọn và súc tích, đồng thời vẫn giữ được ý nghĩa chính

e Chatbot: T5 có thể được sử dụng để phát triển chatbot thông minh hơn và trò chuyện tự nhiên hơn với con người

e Phan tich van bản: T5 có thể được sử dụng đề phân tích văn bản và chiết

xuất thông tin quan trọng

e T5 str dung một mô hình duy nhất để xử lý tất cả các nhiệm vụ NLP Điều này

giúp đơn giản hóa quá trình phát triển và triển khai các ứng dung NLP

e T5 str dung phương phap Text-to-Text Transfer Learning dé chuyển đổi mọi

nhiém vu NLP thanh mét nhiém vu chuyén đổi văn bản sang văn bản Điều

Trang 24

nay giúp T5 học được các mối quan hệ phức tạp giữa các từ và văn bản, đồng thời cải thiện khả năng xử lý nhiều loại nhiệm vụ NLP khác nhau

5 ELECTRA: một mô hình ngôn ngữ lớn (LLM) dựa trên kiến trac Transformer, được phát triển bởi Google AI vào năm 2020 Nó được coi là một bước tiến đáng kê trong lĩnh vực xứ lý ngôn ngữ tự nhiên (NLP) nhờ khả năng cải thiện hiệu suất và hiệu quả hơn so với BERT trong cùng một cấu hình

ELECTRONA sử dụng một phương pháp huấn luyện mới gọi là Contrastive Learning, trong đó mô hình được đào tạo đê phân biệt văn bản thật và văn bản giả Văn bản giả

duoc tao bang cach thay thê các từ trong văn bản thật băng các từ ngầu nhiên

Phương pháp huấn luyện Contrastive Learning có một số ưu điểm so với phương pháp huấn luyện Masked Language Modeling (MLM) được sử dụng bởi BERT Thứ nhất,

phương pháp Contrastive Learning tập trung vào việc học các mối quan hệ giữa các từ, thay vì tập trung vào việc học các mối quan hệ giữa các từ và các vị trí của chúng

trong câu Điều này giúp ELECTRA học được các mối quan hệ phức tạp hơn giữa các

từ và cải thiện khả năng hiệu ngữ cảnh Thứ hai, phương pháp Contrastive Learning

hiệu quả hơn phương pháp MLM Điều này là do phương pháp Contrastive Learning

chỉ cân sử dụng một nửa sô dữ liệu đảo tạo so với phương pháp MLM

ELECTRONA đã đạt được hiệu suất cao trên nhiều nhiệm vụ NLP khác nhau, bao

gôm:

e GLUE benchmark: ELECTRA đạt được điểm số trung binh là 92.2 trên

GLUE benchmark, cao hơn so với BERT

® SQuAD 2.0: ELECTRA đạt được độ chính xác la 93.6% trén SQUAD 2.0, cao

hon so voi BERT

e Natural Language Inference (NLT): ELECTRA dat duoc d6 chinh xác cao

trên các nhiệm vụ NLI khác nhau

ELECTRONA được sử dụng trong nhiều ứng dụng NLP khác nhau, bao gồm:

e Tìm kiếm: ELECTRA có thê được sử dụng dé cai thiện độ chính xác của các

hệ thống tìm kiếm, băng cách hiểu tốt hơn các truy vấn tìm kiếm của người dùng

e Dịch ngôn ngữ: ELECTRA có thể được sử dụng dé dich ngôn ngữ một cách

e Tóm tắt văn bản: ELECTRA có thê được sử dụng đề tóm tắt văn bản một cách

e Chatbot: ELECTRA co thé duoc str dung dé phat trién chatbot thong minh hon

e Phân tích văn bản: ELECTRA có thê được sử dụng dé phan tich van ban va

Tiêu đề	GPT
Tác giả	NHÓM 3
Người hướng dẫn	Ths. Trần Lê Phúc Thịnh
Trường học	ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH
Chuyên ngành	Dịch vụ mạng internet
Thể loại	tiểu luận cuối kì
Năm xuất bản	2023
Thành phố	TP.Hồ Chí Minh

Định dạng
Số trang	49
Dung lượng	2,67 MB