đồ án 2 tìm hiểu về mô hình ngôn ngữ lớn llm của facebook

Định nghĩa Là một mô hình máy học có thể xử lí nhiều loại ngôn ngữ tự nhiên như tạo , phân loại text và trả lời câu hỏi theo hướng đàm thoại và dịch từ một ngôn ngữ này sang ngôn ngữ khá

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA CÔNG NGHỆ PHẦN MỀM

-🙢🙢🙢 -ĐỒ ÁN 2

ĐỀ TÀI: “TÌM HIỂU VỀ MÔ HÌNH NGÔN NGỮ LỚN LLM CỦA

FACEBOOK”

Giảng viên hướng dẫn: NGUYỄN CÔNG HOAN Sinh viên thực hiện:

Trần Dư Gia Bảo 20520409

Bùi Lương Hiếu 20520994

Tp Hồ Chí Minh, tháng 12 năm 2023

Trang 2

LỜI CẢM ƠN

Nhóm em xin chân thành cảm ơn sự hướng dẫn tận tình của thầy Nguyễn Công Hoan - giảng viên hướng dẫn môn Đồ án 2 đã hỗ trợ cho nhóm trong quá trình nghiên cứu để nhóm hoàn thành đề tài này.

Trong quá trình thực hiện, cũng như quá trình làm báo cáo, tụi em khó tránh khỏi những sai sót, tụi em hi vọng thầy bỏ qua cũng như tụi em rất mong nhận được ý kiến đóng góp của thầy để tụi em học thêm được nhiều kinh nghiệm để hoàn thành tốt những đồ án lần sau Một lần nữa nhóm em xin chân thành cảm ơn thầy.

Nhóm nghiên cứu

Trang 3

NHẬN XÉT CỦA GIÁO VIÊN

Trang 4

MỤC LỤC

I Tổng quan 5

1 Tổng quan mô hình LLAMA 5

1.1 Định nghĩa 5

1.2 Tiềm năng: 5

2 Lịch sử và quá trình phát triển của mô hình LLAMA 5

3 Các thành phần chính của mô hình 6

3.1 Cấu trúc và chức năng 6

3.2 Cách thức hoạt động 6

4 Ưu điểm và nhược điểm của mô hình LLAMA 6

5 Các khoảng trống nghiên cứu và tranh cãi hiện tại liên quan đến mô hình LLAMA 6

II Kĩ thuật 6

1 Thiết kế nghiên cứu 6

2 Nguồn dữ liệu 9

3 Vấn đề đạo đức 9

3.1 RealToxicityPrompts 9

3.2 CrowS-Pairs 9

3.3 TruthfulQA 9

3.4 Khí thải 10

III Đánh giá 10

1 Đánh giá hiệu suất của mô hình LLAMA 10

2 So sánh với các mô hình hoặc phương pháp tiếp cận khác 12

IV Ứng dụng mô hình LLAMA trong việc đề xuất sản phẩm 12

V Tài liệu tham khảo 12

Trang 5

I Tổng quan

1 Tổng quan mô hình LLAMA

1.1 Định nghĩa

Là một mô hình máy học có thể xử lí nhiều loại ngôn ngữ tự nhiên như tạo , phân loại text và trả lời câu hỏi theo hướng đàm thoại và dịch từ một ngôn ngữ này sang ngôn ngữ khác.

LLMs được train với số lượng dữ liệu khổng lồ và sử dụng self-supervised learning (SSL) ( mà một phương pháp tiếp cập của máy học cho phép sử dụng thuật toán máy học để

sử đụng các input được quan sát để dự đoán các input chưa xác định) để dự đoán từ tiếp theo dựa trên ngữ cảnh xung quanh Quá trình lập đi lặp lại đến khi mô hình đạt độ chính xác chấp nhận được.

Có 2 loại LLM:

- Transformer-based LLM: Là neural network cho phép học được mối quan hệ dài hạn giữa các từ

- Recurrent Neural Network-based LLM: loại LLM cũ, dựa trên kiến trúc mạng

nơ ron hồi quy.Loại LLM này có thể học được các mối quan hệ ngắn hạn giữa các từ.

1.2 Tiềm năng:

 LLAMA:

 Chứng minh rằng có thể huấn luyện được bằng những bộ thông tin công cộng mà không cần bộ thông tin độc quyền và không thể truy cập.

 LLAMA2:

 Được huấn luyện lên đến 70B, các mô hình đối thoại được tinh chỉnh tốt hơn và vượt trội hơn so với tất cả mô hình mở hiện nay về sự tiện ích và độ an toàn.

 Mong muốn trở thành sự lựa chọn tốt nhất cho mô hình mã nguồn đóng.

2 Lịch sử và quá trình phát triển của mô hình LLAMA

- Ngày 24 Tháng 2 năm 2023,Meta AI phát hành mô hình LLAMA mở được huấn luyện

từ 7 tỷ đến 65 tỷ tham số.

- Ngày 18 tháng 7 năm 2023, Meta AI phát hành LLAMA được tinh chỉnh và đối thoại tốt hơn, được huấn luyện từ 7 tỷ đến 70 tỷ tham số

Trang 6

3 Các thành phần chính của mô hình

1

3.1 Cấu trúc và chức năng

3.2 Cách thức hoạt động

4 Ưu điểm và nhược điểm của mô hình LLAMA

5 Các khoảng trống nghiên cứu và tranh cãi hiện tại liên quan đến

mô hình LLAMA

II Kĩ thuật

1 Thiết kế nghiên cứu

1.1 Phương pháp tiếp cận

Sử dụng các phương pháp của (Brown et al., 2020; Chowdhery et al., 2022)

o Fine-Tuning : đào tạo trên một tập supervised dataset cho một nhiệm vụ cụ thể.

 Ưu điểm: Hiệu suất cao trên nhiều thang điểm

 Nhược điểm: Cần một lượng lớn dữ liệu cho mỗi nhiệm vụ cụ thể

o Few-Shot : sử dụng trong trường hợp đưa ra ít miêu tả về những nhiệm vụ cần giải quyết.

 Ưu điểm: Giảm đáng kể nhu cầu về lượng dữ liệu cụ thể

 Nhược điểm: Kết quả sẽ thấp hơn đáng kể so với mô hình Fine-tuning

o One-Shot sử dụng trong trường hợp đưa ra chỉ một miêu tả về nhiệm vụ cần giải quyết

 Ưu điểm: gần giống với phương pháp giao tiếp thông thường với con người, tiện lợi hơn

 Nhược điểm kết quả sẽ thấp

o Zero-Shot: sử dụng trong trường hợp không có bất cứ miêu tả hay sự hướng dẫn cụ thể

 Ưu điểm: gần giống với phương pháp giao tiếp thông thường với con người, tiện lợi hơn

 Nhược điểm kết quả sẽ thấp

o Distributed training : sử dụng để huấn luyện mô hình trên nhiều GPU

 Ưu điểm: Tốc độ huấn luyện nhanh và khả năng mở rộng trên nhiều máy tính.

 Nhược điểm: Cần nhiều máy tính và vấn đề kết nối giữa các máy tính.

3.3 Pre-training data

Sử dụng nhiều nguồn dataset và tái sử dụng các dataset được dùng để huấn luyện các

mô hình khác với ràng buộc là phù hợp open model và thông tin được public.

- English CommonCrawl từ năm 2017 đến 2020

- C4

- GitHub

- Wikipedia sử dụng dữ liệu từ tháng 6 đến 8 năm 2022

- Gutenberg and Books3

Trang 7

- ArXiv

-Stack Exchange

Table 1: Pre-training data, gồm sampling proportion (phần trăm mẫu thử) , số lượng epoch trên một tập con khi huấn luyện trên 1,4 ngàn tỷ token và kích thước ổ đĩa Các dữ liệu sẽ được tokenize bằng byte-pair encoding ( xác định từ thường xuất hiện

và thay nó bằng một token) (Sennrich et al., 2015) Đặc biệt, chia các số thành các chữ

số riêng lẻ và sử dụng byte để phân giải UTF-8 không xác định.

3.4 Kiến trúc

Tận dụng các cải tiến được sử dụng ở các model khác như Palms Và đây là một số điểm khác biệt so với kiến trúc thông thường:

 Pre-normalization [GPT3]: Để cải thiện sự ổn định của việc huấn luyện, LLAMA sẽ normalize phần input của transformer sub-layer thay vì output và sử dụng RMSNorm normalizing function (Zhang and Sennrich 2019)

 SwiGLU activation function [PaLM] : thay ReLU non-linearity bằng the SwiGLU ac tivation function (Shazeer 2020)

 Rotary Embeddings [GPTNeo] xóa absolute positional embeddings thay bằng rotary positional embeddings (Su et al 2021)

3.5 Trình tối ưu hóa

Sử dụng AdamW optimizer (Loshchilov and Hutter, 2017)

Table 2: Training loss trên 4 models 7B,13B,33B và 65B Trong đó thì 33B và 65B được huấn luyện trên 1,4 ngàn tỉ token Còn lại được huấn luyện trên 1 ngàn tỉ token.

Trang 8

3.6 Efficient implementation

o Đầu tiên sử dụng the causal multi-head attention giảm bộ nhớ và runtime ( Rabe and Staats 2021) và ( Dao et al.2022 )

o Sử dụng model and sequence parallelism ( Korthikantietal 2022 )

Table 3: Hiệu suất Zero-Shot trên nhiệm vụ Lý luận Tri giác thông thường

 BoolQ: Xác định xem câu hỏi có thể trả lời bằng "đúng" hay "sai" hay không.

 PIQA: Trả lời các câu hỏi về hình ảnh.

 SIQA: Trả lời các câu hỏi về bối cảnh xã hội.

 HellaSwag: Trả lời các câu hỏi về suy luận xã hội.

 WinoGrande: Xác định đại từ nào trong câu đề cập đến cùng một thực thể.

 ARC-e: Trả lời các câu hỏi về sự kiện.

 ARC-C: Trả lời các câu hỏi về lý luận.

 OBQA: Trả lời các câu hỏi về bối cảnh thực tế

4 Nguồn dữ liệu

5 Vấn đề đạo đức

1.1 RealToxicityPrompts

LLAMA sử dụng RealToxicityPrompts thang điểm (Gehman et al., 2020) để đánh giá mức độ độc hại của model Trong đó RealToxicityPrompts gồm 100 ngàn mà model phải hoàn thành và sẽ được đánh giá bởi PerspectiveAPI ( Perspective API )

Trang 9

Table 9 : LLAMA đã sử dụng một greedy encoder để thực hiện đánh giá.Trong đó chỉ số

càng cao thì mức độ độc hại sản sinh càng cao.

5.1 CrowS-Pairs

LLAMA đánh giá mức độ thành kiến dựa trên bộ dataset CrowS Pairs (Nangia et al., 2020) Bộ dataset cho phép tính độ thành kiến trên 9 loại : gender, religion, race/color, sexual orientation, age, nationality, disability, physical appearance and socioeconomic sta tus

Table 10 CrowS Pairs (Nangia et al., 2020).Bảng so sánh mức độ định kiến ở các lĩnh vực khác nhau Dựa trên LLaMA-65B, OPT-175B và GPT3-175B Level càng cao nghĩa là mức độ định kiến cao

5.2 TruthfulQA

Nhắm đến việc xác độ mức độ chân thực của một hệ thống nghĩa là khả năng nhận diện khi một tuyên bố là đúng Lin et al (2021) (TruthfulQA: Measuring How Models Mimic Human Falsehoods) được sử dụng để đánh giá độ rủi ro của model để tạo ra thông tin sai lệnh hoặc những nhận định sai Câu hỏi được viết bởi nhiều loại và gồm 38 thể loại khác nhau.

Trang 10

Table 10 : Thống kê mức độ trung thực và mức độ trung thực và hữu ích ở LLAMA so

với GPT-3.

5.3 Khí thải

Tương tự các models khác thì LLAMA cũng tiêu thụ lượng lớn năng lượng và sản xuất khí thải Để tính Wh thì metaAI dùng công thức dựa công thức ( Wu et 2022 )

( Environmental implica tions, challenges and opportunities Proceedings of Machine Learning and Systems, 4:795–813.0

Wh=GPU-h x (GPUpowerconsumption) x PUE

tCO2eq = MWh x 0385

III Đánh giá

1 Đánh giá hiệu suất của mô hình LLAMA

Table 4 : Hiệu suất khi thực hiện trên Natural Question.

Table 5 : Độ chính xác dựa trên khả năng đọc hiểu và thực hiện viết ( Được khảo sát từ

học sinh cấp 2 và 3 ở Trung Quốc)

Trang 11

Table 6 : Hiệu suất khả năng tính toán

Table 7: Hiệu suất code generation

Table 8: Khả năng hiểu ngôn ngữ thông qua các tác vụ khác nhau (MMLU) Đánh giá

trên 5-shot accurancy

Trang 12

6 So sánh với các mô hình hoặc phương pháp tiếp cận khác

IV Ứng dụng mô hình LLAMA trong việc đề xuất sản phẩm

V Tài liệu tham khảo

1 Llama 2 - Meta AI

2 Llama 2 - Resource Overview - Meta AI

3 AI at Meta Blog

4 Tất tần tật về LLaMA-2

5 LLaMA (huggingface.co)

6 Llama2 (huggingface.co)

Tiêu đề	Tìm Hiểu Về Mô Hình Ngôn Ngữ Lớn Llm Của Facebook
Tác giả	Trần Dư Gia Bảo, Bùi Lương Hiếu
Người hướng dẫn	Nguyễn Công Hoan
Trường học	Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Đồ án
Năm xuất bản	2023
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	12
Dung lượng	432,88 KB