Định nghĩa Là một mô hình máy học có thể xử lí nhiều loại ngôn ngữ tự nhiên như tạo , phân loại text và trả lời câu hỏi theo hướng đàm thoại và dịch từ một ngôn ngữ này sang ngôn ngữ khá
Trang 1
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
-🙢🙢🙢 -ĐỒ ÁN 2
ĐỀ TÀI: “TÌM HIỂU VỀ MÔ HÌNH NGÔN NGỮ LỚN LLM CỦA
FACEBOOK”
Giảng viên hướng dẫn: NGUYỄN CÔNG HOAN Sinh viên thực hiện:
Trần Dư Gia Bảo 20520409
Bùi Lương Hiếu 20520994
Tp Hồ Chí Minh, tháng 12 năm 2023
Trang 2LỜI CẢM ƠN
Nhóm em xin chân thành cảm ơn sự hướng dẫn tận tình của thầy Nguyễn Công Hoan - giảng viên hướng dẫn môn Đồ án 2 đã hỗ trợ cho nhóm trong quá trình nghiên cứu để nhóm hoàn thành đề tài này.
Trong quá trình thực hiện, cũng như quá trình làm báo cáo, tụi em khó tránh khỏi những sai sót, tụi em hi vọng thầy bỏ qua cũng như tụi em rất mong nhận được ý kiến đóng góp của thầy để tụi em học thêm được nhiều kinh nghiệm để hoàn thành tốt những đồ án lần sau Một lần nữa nhóm em xin chân thành cảm ơn thầy.
Nhóm nghiên cứu
Trang 3NHẬN XÉT CỦA GIÁO VIÊN
Trang 4
MỤC LỤC
I Tổng quan 5
1 Tổng quan mô hình LLAMA 5
1.1 Định nghĩa 5
1.2 Tiềm năng: 5
2 Lịch sử và quá trình phát triển của mô hình LLAMA 5
3 Các thành phần chính của mô hình 6
3.1 Cấu trúc và chức năng 6
3.2 Cách thức hoạt động 6
4 Ưu điểm và nhược điểm của mô hình LLAMA 6
5 Các khoảng trống nghiên cứu và tranh cãi hiện tại liên quan đến mô hình LLAMA 6
II Kĩ thuật 6
1 Thiết kế nghiên cứu 6
2 Nguồn dữ liệu 9
3 Vấn đề đạo đức 9
3.1 RealToxicityPrompts 9
3.2 CrowS-Pairs 9
3.3 TruthfulQA 9
3.4 Khí thải 10
III Đánh giá 10
1 Đánh giá hiệu suất của mô hình LLAMA 10
2 So sánh với các mô hình hoặc phương pháp tiếp cận khác 12
IV Ứng dụng mô hình LLAMA trong việc đề xuất sản phẩm 12
V Tài liệu tham khảo 12
Trang 5I Tổng quan
1 Tổng quan mô hình LLAMA
1.1 Định nghĩa
Là một mô hình máy học có thể xử lí nhiều loại ngôn ngữ tự nhiên như tạo , phân loại text và trả lời câu hỏi theo hướng đàm thoại và dịch từ một ngôn ngữ này sang ngôn ngữ khác.
LLMs được train với số lượng dữ liệu khổng lồ và sử dụng self-supervised learning (SSL) ( mà một phương pháp tiếp cập của máy học cho phép sử dụng thuật toán máy học để
sử đụng các input được quan sát để dự đoán các input chưa xác định) để dự đoán từ tiếp theo dựa trên ngữ cảnh xung quanh Quá trình lập đi lặp lại đến khi mô hình đạt độ chính xác chấp nhận được.
Có 2 loại LLM:
- Transformer-based LLM: Là neural network cho phép học được mối quan hệ dài hạn giữa các từ
- Recurrent Neural Network-based LLM: loại LLM cũ, dựa trên kiến trúc mạng
nơ ron hồi quy.Loại LLM này có thể học được các mối quan hệ ngắn hạn giữa các từ.
1.2 Tiềm năng:
LLAMA:
Chứng minh rằng có thể huấn luyện được bằng những bộ thông tin công cộng mà không cần bộ thông tin độc quyền và không thể truy cập.
LLAMA2:
Được huấn luyện lên đến 70B, các mô hình đối thoại được tinh chỉnh tốt hơn và vượt trội hơn so với tất cả mô hình mở hiện nay về sự tiện ích và độ an toàn.
Mong muốn trở thành sự lựa chọn tốt nhất cho mô hình mã nguồn đóng.
2 Lịch sử và quá trình phát triển của mô hình LLAMA
- Ngày 24 Tháng 2 năm 2023,Meta AI phát hành mô hình LLAMA mở được huấn luyện
từ 7 tỷ đến 65 tỷ tham số.
- Ngày 18 tháng 7 năm 2023, Meta AI phát hành LLAMA được tinh chỉnh và đối thoại tốt hơn, được huấn luyện từ 7 tỷ đến 70 tỷ tham số
Trang 63 Các thành phần chính của mô hình
1
3.1 Cấu trúc và chức năng
3.2 Cách thức hoạt động
4 Ưu điểm và nhược điểm của mô hình LLAMA
5 Các khoảng trống nghiên cứu và tranh cãi hiện tại liên quan đến
mô hình LLAMA
II Kĩ thuật
1 Thiết kế nghiên cứu
1.1 Phương pháp tiếp cận
Sử dụng các phương pháp của (Brown et al., 2020; Chowdhery et al., 2022)
o Fine-Tuning : đào tạo trên một tập supervised dataset cho một nhiệm vụ cụ thể.
Ưu điểm: Hiệu suất cao trên nhiều thang điểm
Nhược điểm: Cần một lượng lớn dữ liệu cho mỗi nhiệm vụ cụ thể
o Few-Shot : sử dụng trong trường hợp đưa ra ít miêu tả về những nhiệm vụ cần giải quyết.
Ưu điểm: Giảm đáng kể nhu cầu về lượng dữ liệu cụ thể
Nhược điểm: Kết quả sẽ thấp hơn đáng kể so với mô hình Fine-tuning
o One-Shot sử dụng trong trường hợp đưa ra chỉ một miêu tả về nhiệm vụ cần giải quyết
Ưu điểm: gần giống với phương pháp giao tiếp thông thường với con người, tiện lợi hơn
Nhược điểm kết quả sẽ thấp
o Zero-Shot: sử dụng trong trường hợp không có bất cứ miêu tả hay sự hướng dẫn cụ thể
Ưu điểm: gần giống với phương pháp giao tiếp thông thường với con người, tiện lợi hơn
Nhược điểm kết quả sẽ thấp
o Distributed training : sử dụng để huấn luyện mô hình trên nhiều GPU
Ưu điểm: Tốc độ huấn luyện nhanh và khả năng mở rộng trên nhiều máy tính.
Nhược điểm: Cần nhiều máy tính và vấn đề kết nối giữa các máy tính.
3.3 Pre-training data
Sử dụng nhiều nguồn dataset và tái sử dụng các dataset được dùng để huấn luyện các
mô hình khác với ràng buộc là phù hợp open model và thông tin được public.
- English CommonCrawl từ năm 2017 đến 2020
- C4
- GitHub
- Wikipedia sử dụng dữ liệu từ tháng 6 đến 8 năm 2022
- Gutenberg and Books3
Trang 7- ArXiv
-Stack Exchange
Table 1: Pre-training data, gồm sampling proportion (phần trăm mẫu thử) , số lượng epoch trên một tập con khi huấn luyện trên 1,4 ngàn tỷ token và kích thước ổ đĩa Các dữ liệu sẽ được tokenize bằng byte-pair encoding ( xác định từ thường xuất hiện
và thay nó bằng một token) (Sennrich et al., 2015) Đặc biệt, chia các số thành các chữ
số riêng lẻ và sử dụng byte để phân giải UTF-8 không xác định.
3.4 Kiến trúc
Tận dụng các cải tiến được sử dụng ở các model khác như Palms Và đây là một số điểm khác biệt so với kiến trúc thông thường:
Pre-normalization [GPT3]: Để cải thiện sự ổn định của việc huấn luyện, LLAMA sẽ normalize phần input của transformer sub-layer thay vì output và sử dụng RMSNorm normalizing function (Zhang and Sennrich 2019)
SwiGLU activation function [PaLM] : thay ReLU non-linearity bằng the SwiGLU ac tivation function (Shazeer 2020)
Rotary Embeddings [GPTNeo] xóa absolute positional embeddings thay bằng rotary positional embeddings (Su et al 2021)
3.5 Trình tối ưu hóa
Sử dụng AdamW optimizer (Loshchilov and Hutter, 2017)
Table 2: Training loss trên 4 models 7B,13B,33B và 65B Trong đó thì 33B và 65B được huấn luyện trên 1,4 ngàn tỉ token Còn lại được huấn luyện trên 1 ngàn tỉ token.
Trang 83.6 Efficient implementation
o Đầu tiên sử dụng the causal multi-head attention giảm bộ nhớ và runtime ( Rabe and Staats 2021) và ( Dao et al.2022 )
o Sử dụng model and sequence parallelism ( Korthikantietal 2022 )
Table 3: Hiệu suất Zero-Shot trên nhiệm vụ Lý luận Tri giác thông thường
BoolQ: Xác định xem câu hỏi có thể trả lời bằng "đúng" hay "sai" hay không.
PIQA: Trả lời các câu hỏi về hình ảnh.
SIQA: Trả lời các câu hỏi về bối cảnh xã hội.
HellaSwag: Trả lời các câu hỏi về suy luận xã hội.
WinoGrande: Xác định đại từ nào trong câu đề cập đến cùng một thực thể.
ARC-e: Trả lời các câu hỏi về sự kiện.
ARC-C: Trả lời các câu hỏi về lý luận.
OBQA: Trả lời các câu hỏi về bối cảnh thực tế
4 Nguồn dữ liệu
5 Vấn đề đạo đức
1.1 RealToxicityPrompts
LLAMA sử dụng RealToxicityPrompts thang điểm (Gehman et al., 2020) để đánh giá mức độ độc hại của model Trong đó RealToxicityPrompts gồm 100 ngàn mà model phải hoàn thành và sẽ được đánh giá bởi PerspectiveAPI ( Perspective API )
Trang 9Table 9 : LLAMA đã sử dụng một greedy encoder để thực hiện đánh giá.Trong đó chỉ số
càng cao thì mức độ độc hại sản sinh càng cao.
5.1 CrowS-Pairs
LLAMA đánh giá mức độ thành kiến dựa trên bộ dataset CrowS Pairs (Nangia et al., 2020) Bộ dataset cho phép tính độ thành kiến trên 9 loại : gender, religion, race/color, sexual orientation, age, nationality, disability, physical appearance and socioeconomic sta tus
Table 10 CrowS Pairs (Nangia et al., 2020).Bảng so sánh mức độ định kiến ở các lĩnh vực khác nhau Dựa trên LLaMA-65B, OPT-175B và GPT3-175B Level càng cao nghĩa là mức độ định kiến cao
5.2 TruthfulQA
Nhắm đến việc xác độ mức độ chân thực của một hệ thống nghĩa là khả năng nhận diện khi một tuyên bố là đúng Lin et al (2021) (TruthfulQA: Measuring How Models Mimic Human Falsehoods) được sử dụng để đánh giá độ rủi ro của model để tạo ra thông tin sai lệnh hoặc những nhận định sai Câu hỏi được viết bởi nhiều loại và gồm 38 thể loại khác nhau.
Trang 10Table 10 : Thống kê mức độ trung thực và mức độ trung thực và hữu ích ở LLAMA so
với GPT-3.
5.3 Khí thải
Tương tự các models khác thì LLAMA cũng tiêu thụ lượng lớn năng lượng và sản xuất khí thải Để tính Wh thì metaAI dùng công thức dựa công thức ( Wu et 2022 )
( Environmental implica tions, challenges and opportunities Proceedings of Machine Learning and Systems, 4:795–813.0
Wh=GPU-h x (GPUpowerconsumption) x PUE
tCO2eq = MWh x 0385
III Đánh giá
1 Đánh giá hiệu suất của mô hình LLAMA
Table 4 : Hiệu suất khi thực hiện trên Natural Question.
Table 5 : Độ chính xác dựa trên khả năng đọc hiểu và thực hiện viết ( Được khảo sát từ
học sinh cấp 2 và 3 ở Trung Quốc)
Trang 11Table 6 : Hiệu suất khả năng tính toán
Table 7: Hiệu suất code generation
Table 8: Khả năng hiểu ngôn ngữ thông qua các tác vụ khác nhau (MMLU) Đánh giá
trên 5-shot accurancy
Trang 126 So sánh với các mô hình hoặc phương pháp tiếp cận khác
IV Ứng dụng mô hình LLAMA trong việc đề xuất sản phẩm
V Tài liệu tham khảo
1 Llama 2 - Meta AI
2 Llama 2 - Resource Overview - Meta AI
3 AI at Meta Blog
4 Tất tần tật về LLaMA-2
5 LLaMA (huggingface.co)
6 Llama2 (huggingface.co)