1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Tinh chỉnh mô hình ngôn ngữ lớn với RAG nâng cao cho chatbot tiếng Việt trong lĩnh vực Thương mại điện tử

56 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tinh Chỉnh Mô Hình Ngôn Ngữ Lớn Với RAG Nâng Cao Cho Chatbot Tiếng Việt Trong Lĩnh Vực Thương Mại Điện Tử
Tác giả Ngô Huỳnh Trưởng
Người hướng dẫn ThS. Nguyễn Văn Kiệt, ThS. Lưu Thanh Sơn
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 56
Dung lượng 61,79 MB

Nội dung

Tác vụ này của trí tuệ nhân tạo áp dụng các kỹ thuật tiêu biểu trong Xử lý ngôn ngữ tự nhiên NLP nhằm cho phép những chiếc máy tính tao văn bản trực tiếp dựa trên ngữ cảnh và đưa ra câu

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRƯỜNG ĐẠI HOC CÔNG NGHỆ THONG TIN

KHOA KHOA HỌC & KỸ THUẬT THÔNG TIN

o0o

NGÔ HUỲNH TRƯỞNG - 20522085

KHÓA LUẬN TỐT NGHIỆP

TINH CHINH MÔ HÌNH NGÔN NGỮ LỚN

TRONG LĨNH VUC THƯƠNG MAI ĐIỆN TU

FINE - TUNING LARGE LANGUAGE MODEL WITH

ADVANCED RAG FOR CHATBOT

IN VIETNAMESE E-COMMERCE DOMAIN

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUGNG DAN ThS NGUYEN VAN KIET

ThS LUU THANH SON

TP HO CHÍ MINH, 06/2024

Trang 2

LỜI CẢM ƠN

Kết quả khóa luận này là một hành trình đầy thách thức và học hỏi, ngoài những

nỗ lực cá nhân của tôi không thể không nhắc đến sự hỗ trợ tận tình của quý thay cô tạiTrường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh.

Trước nhất, tôi muốn bày tỏ lòng biết ơn sâu sắc đến hai người thầy hướng dẫn của

mình, ThS Lưu Thanh Sơn và ThS Nguyễn Văn Kiệt Sự tận tâm trong việc hướng

dẫn, góp ý, những nhận xét và lời khuyên quý báu của các thầy không chỉ nâng caochất lượng của khóa luận mà còn giúp tôi phát triển tư duy nghiên cứu và kỹ năng học

thuật phục vụ cho chặng đường sau này Đặc biệt, sự động viên và khích lệ của các

thầy trong những thời điểm khó khăn đã là động lực to lớn giúp tôi hoàn thành khóaluận tốt nghiệp này.

Tôi cũng muốn sửi lời cảm ơn chân thành đến tất cả các giảng viên tại trường, đặc biệt là những thầy cô thuộc Khoa Khoa học và Kỹ thuật Thông tin Kiến thức chuyên môn, kinh nghiệm thực tế, và tầm nhìn học thuật mà quý thầy cô đã chia sẻ trong suốt

quá trình học tập của tôi đã tạo nên nên tang vững chắc cho việc thực hiện đề tài này

Môi trường học tập năng động va day thách thức tại trường đã là nguồn cảm hứng

không ngừng thúc đẩy tôi vươn lên trong nghiên cứu.

Mặc dù đạt được một số kết quả đáng khích lệ, tôi nhận thức rõ rằng khóa luận này

vẫn còn những hạn chế nhất định do kinh nghiệm và kiến thức của bản thân còn chưa

đủ sâu rộng Vì vậy, tôi rất mong nhận được những góp ý xây dựng từ quý thầy cô đểtiếp tục hoàn thiện và nâng cao chất lượng của công trình nghiên cứu này Mỗi nhậnxét, mỗi góp ý đều là cơ hội quý giá để tôi học hỏi và phát triển hơn nữa trong lĩnh

vực chuyên môn của mình.

TP Hô Chí Minh, tháng 06 năm 2024

Sinh viên thực hiện

Ngô Huỳnh Trưởng

Trang 3

MỤC LỤC

TÓM TẮT KHÓA LUẬN

1 MỞĐẦU

1.1 1.2 1.3

Tinh hình và xu hướng nghiên cứu

3_ PHƯƠNG PHAP RAG VÀ TINH CHỈNH MÔ HINH NGÔNNGỮLỚN §

3.1 3.2

3.3 3.4

3.5 3.6

Giới thiệu bộ dữ liệu

3.2.1 Tổng quan về bộ dữlệu

-3.22 Dit liệu dùng cho Retrieval Task

3.2.3 Dữ liệu dùng cho fine-tuning LLM (Generation Task) .

Tổng quan hệ thống

-Retrieval Augmented Generation (RAG) Nâng Cao

3.4.1 VectorDatabase - -0.4, 3.4.2 Dataingestion 0.000.000 2 eee 3.4.3 Retrieval (Self-Reflective RAG)

Tạo các cặp Q-A bằng LLM, tăng cường dataset 2.2.2.2

Fine-tuning LLMs cho nhiệm vụ Answer Generation

3.6.1 Vì sao lại chon LLM cho nhiệm vu Answer Generation?

10 11 11 11 13 15 18 19 19

Trang 4

3.6.2 Foundation Model và LLM Pre-training

3.6.3 Kythuat Quantization

3.6.4 Phương pháp PEFT (Parameter Efficient Fine Tuning) 3.6.5 Phương pháp Instruction Tuning

3.7 Thiết lập và cài đặt thực nghiém RAG

3.8 Thiết lập và cài đặt thực nghiệm Fine-tuningLLM

4 KẾT QUA THU NGHIỆM 4.1 Độ đo đánh giá 4.1.1 Độ đo đánh giá Retilevr

412 Độ đo đánh gid Generator

-4.2 Đánh giá kết quả thựcnghệm

-4.21 Kết quả đánh giáRetriever

4.2.2 KếtquảđánhgiáGeneraor

-4.3 Phân tích kết quả thựenghệm

4.3.1 Phân tích kết quả thực nghiệm hệ thống RAG

4.3.2 Phân tích kết quả thực nghiệm Fine-tuning LLM

43.3 Phântchlỗi

5 KẾT LUẬN VÀ HƯỚNG PHAT TRIỂN 51 Kétluan

5.2_ Hướng phat triển

TÀI LIỆU THAM KHẢO

20 21 21 23 25 26

28 28 28 29 31 31 32 33 33 34 35

39 39 40

41

Trang 5

DANH MỤC BANG

3.1 3.2 3.3

4.1

4.2

4.3

4.4

4.5

Một mau dữ liệu sau khi crawl và tiền xửlý

Thống kê dif liệu cho tác vụ truy xuất

Thống kê dữ liệu cho tác vụ tạo sinh

-Kết quả thử nghiệm đánh giá các model Embedding, sự ảnh hưởng của số chiều vector và top-k thông tin được truy xuat .

Kết quả đánh giá hiệu suất của các LUM

Trường hợp

lỗiI -Trường hợp

lỗilI -Trường NHIỗ Wb “a eM ow

31 32 36 37 37

Trang 6

3.6 Luông self-reflective RAG khi dùng Langgraph implementation

3.7 Luéng tạo các cặp Q-A bangLLM

3.8 Timeline của một số framework LLM tiêu biểu nhất (cho đến nay)

3.9 Ý tưởng của kĩ thuật fine-tuningPEFT

3.10 Minh họa của LoRA reparametrizan

3.11 Fine tuning workflow (lay model Mistral làm vidu)

4.1 Giá trị hàm mất mát của các mô hình trên tập Training mỗi epoch

4.2 Ghi nhận về phan cứng trong quá trình fine-tunng

11 12 13 13 15 16 18 20 22 23 23

34 35

Trang 7

DANH MỤC TU VIET TAT

STT | Từ viết tắt Ý nghĩa

Artificial Intelligence —

0 Al Tri tué nhan tao

Application Programming Interface —

02 API La

Giao dién lap trinh ting dung

Bilingual Evaluation Understudy — Độ

03 BLEU đo đánh giá song ngữ BLEU

Generative Question Answering —

04 G-QA Hỏi đáp tao sinh

05 GPT Generative Pre-trained Transformer —

Large Language Model —

06 LLM, Mô hình ngôn ngữ lớn

07 LoRA Low-Rank Adaptation —

08 PEFT Parameter Efficient Fine Tuning —

Question - Answering —

- QA Hoi dap

10 QLoRA Quantized Low-Rank Adaptation —

11 RAG Retrieval Augmented Generation —

Recall-Oriented Understudy for Gisting

12 ROUGE Evaluation —

Độ đo đánh giá van bản ROUGE

State-of-the-art —

l3 SOTA Mức độ phat triển cao nhất

14 | VectorDB Vector Database —

Co sở dữ liệu vector

Trang 8

TÓM TẮT KHÓA LUẬN

Trong những năm gan đây, Retrieval-Augmented Generation, Large Language Model,Charbor là những chủ đề nghiên cứu nhận được nhiều sự quan tâm trong cộng đồng

nghiên cứu về trí tuệ nhân tạo (AI) và xử lý ngôn ngữ tự nhiên (NLP) ở Việt Nam và

trên thế giới Tác vụ này trong trí tuệ nhân tạo cho phép máy tính tạo văn bản trực tiếp

dựa trên ngữ cảnh và đưa ra câu trả lời liền mạch với lối diễn đạt tự nhiên cho câu hỏi

liên quan một cách tự động.

Trong dé tài này, chúng tôi nghiên cứu tổng quan các phương pháp mới và đạt

SOTA của một số nghiên cứu khác trong RAG và fine-tune LLM Chúng tôi thu thập

và tiền xử lý data cho domain chuyên biệt, thương mại điện tử Chúng tôi cũng đề xuất

các hướng tiếp cận tối ưu chi phí, tối đa hiệu quả cho hệ thống truy xuất và tao sinh

văn bản.

Thông qua quá trình thực nghiệm, nghiên cứu đã cho thấy sự hiệu quả của phương

pháp dé xuất, khi hiệu suất của mô hình Mistral7B-v0.2 đã đạt kết quả cao nhất sau

khi fine-tune, cụ thể, đạt 52.05% ở độ đo ROUGE-L và BLEU là 38.05%, ngoài ra

ở thước đo Answer Relenvance cũng đạt mức 90.28% Sự chênh lệch giữa các model

sau khi fine-tune là không đáng kể, Qwen2-7B cũng đạt hiệu suất gần bằng Mistral,

51.20% ROUGE-L, 37.30% BLEU và 90.00% AR.

Thông qua các bước phân tích kết quả va phan tích lỗi, nghiên cứu cũng da làm rõ

những mặt tích cực và hạn chế của phương pháp đề xuất, từ đó làm cơ sở để đưa ra các hướng phát triển tiếp theo Khóa luận cũng đã triển khai một chương trình minh

họa dựa trên phương pháp đề xuất.

Trang 9

Chương 1

MỞ ĐẦU

1.1 Lý do chọn đề tài

Trong thế giới thương mại điện tử năng động, việc cung cấp dịch vụ cho khách

hàng không còn là một lựa chọn nữa mà đó là điều cần thiết Sự gia tăng của mua sắm

trực tuyến đã làm tăng nhu cầu về trải nghiệm mua sắm đặc biệt là sự hỗ trợ kịp thời

24/24 Đây là nơi các chatbot được xây dựng trên sức mạnh của Mô hình ngôn ngữ

lớn sẽ phát triển mạnh mẽ.

Có thé nói chatbot hay hệ thống đàm thoại không phải là một dé tài mới nhưng những năm gan đây với sự bùng nổ của các mô hình ngôn ngữ lớn nói chung và các kỹ thuật xung quanh nó nói riêng đã một lần nữa thu hút được sự quan tâm đáng kể củacác nhà nghiên cứu và ứng dụng Thực tế, ngày càng nhiều các công ty, tổ chức, doanhnghiệp sử dụng chatbot để giao tiếp với khách hàng của họ, các ứng dụng của chatbot

có thể tìm thấy trong mọi lĩnh vực như ngân hàng, giáo dục, chăm sóc sức khỏe, Trong thương mại điện tử, chatbot có thể đóng vai trò là một nhân viên giải đáp thắcmắc của khách hàng một cách kịp thời mà không cần con người can thiệp, có thể giúpcải thiện chất lượng dịch vụ và tiết kiệm nguồn lực con người Tuy nhiên, không phảilúc nào khách hàng cũng hoàn toàn hài lòng với chatbot, sẽ có những phản hồi không

phù hợp, không đúng trọng tâm có thể làm khách hàng khó chịu, tạo khoảng cách giữa

khách hàng với doanh nghiệp.

Với sự phát triển nhanh chóng của thời dai LLM, việc tích hợp RAG cùng LLM

2

Trang 10

được áp dụng nhanh chóng và trở thành công nghệ then chốt trong việc cải thiện khảnăng của LLM, tạo một chatbot QnA đã trở nên dễ dàng và tốn ít thời gian hơn baogiờ hết Tuy nhiên, như đã đề cập ở trên, để không gây ra các hiệu ứng ngược lại chokhách hàng, hiệu suất của chatbot khi ứng dung là một van dé cần đặt lên hàng dau,nghiên cứu sẽ đi sâu, rộng hơn về hai phần lớn là RAG và fine-tune LLM trên bộ dữ liệu chuyên biệt, miền dif liệu lĩnh vực thương mại điện tử để cho cái nhìn tổng quan

về các kĩ thuật này cũng như hiệu quả và khả năng ứng dụng của nó Ngôn ngữ chínhđược sử dụng cho hệ thống là tiếng Việt, một ngôn ngữ vốn có ít tài nguyên trong lĩnhvực LLM Nghiên cứu của chúng tôi có những đóng góp có giá trị cho cộng đồng, sẽ

là cơ sở để phát triển các phương pháp mới cho ngôn ngữ này.

1.2 Mục tiêu và phạm vi nghiên cứu

Nghiên cứu đề xuất một hướng tiếp cận hiệu quả dựa trên những kỹ thuật tiên tiềncho bài toán Hỏi đáp tao sinh (Generative QA) Các van đề nghiên cứu chính trongphạm vi dé tài này bao gồm:

¢ Nghiên cứu tổng quan về bài toán Hoi đáp tao sinh, khảo sát những bộ dữ liệu

đã công bô và các công trình nghiên cứu liên quan.

* Nghiên cứu từ tổng quan đến nâng cao khi xây dựng một hệ thông RAG, kiếntrúc và luồng hoạt động của nó Đánh giá điểm quan trọng là mô hình embedding

và các độ đo đánh giá hiệu suất quá trình truy xuất ngữ cảnh gồm Context Recall

và Context Precision dựa vào khả nang của LLM.

* Nghiên cứu các mô hình ngôn ngữ lớn gốc và cách fine-tune một LLM Tiếp cậntheo hướng tối ưu hóa tài nguyên sử dụng và giảm thời gian huấn luyện mô hìnhnhưng vẫn đảm bảo chất lượng Các độ đo đánh giá hiệu suất của hệ thống hỏi

đáp như ROUGE-L, BLEU, Answer Relevence

* Thực nghiệm phương pháp đề xuất trên các điều kiện thực nghiệm khác nhautrên bộ dif liệu tạo được Đánh giá kết quả thực nghiệm Phân tích lỗi Dua ra kết

luận và hướng phát triển.

Trang 11

1.3 Đóng góp của khóa luận

Đề tài nghiên cứu của khóa luận có ba đóng góp chính như sau:

1 Thu thập và xây dựng thành công bộ dữ liệu phục vụ cho các tác vụ truy xuất và

tạo câu trả lời Bộ dữ liệu trên miền thương mại điện tử với số lượng lớn điểm dữliệu, ngôn ngữ tiếng Việt

2 Cho thấy sự khác biệt và hiệu quả khi kết hợp RAG và Fine-tune RAG đã được

chứng minh là có hiệu quả cao trong trường hợp truy xuất dữ liệu có liên quan

đến ngữ cảnh, chẳng hạn như trong việc giải thích dữ liệu sản phẩm, đồng thời

dẫn đến kết quả ngắn gọn hơn phản hồi tốt hơn so với mô hình gốc Mặt khác,việc fine-tune được cho là hữu ích trong việc dạy mô hình về văn phong, sắc thái

và các kỹ năng mới dành riêng cho lĩnh vực thương mại điện tử, cung cấp các

phản hồi chính xác và ngắn gon hơn

3 Chứng minh việc sử dụng LLM trong một domain khác nhau là có tiém năng

và khả quan Với những hiểu biết thu được từ nghiên cứu ban đầu cho lĩnh vực

thương mại điện tử có thể áp dụng cho các lĩnh vực khác.

Trang 12

Chương 2

TỔNG QUAN ĐỀ TÀI

2.1 Bài toán

Bài toán Hỏi đáp tạo sinh (tiếng Anh: Generative Question Answering) là một chủ

dé nghiên cứu nhận được nhiều sự quan tâm trong cộng đồng nghiên cứu trí tuệ nhântạo (AI) trên thế giới và gần đây có một số bước tiến nổi bật trong công đồng nghiên

cứu AT và khoa hoc dit liệu tại Việt Nam.

Tác vụ này của trí tuệ nhân tạo áp dụng các kỹ thuật tiêu biểu trong Xử lý ngôn

ngữ tự nhiên (NLP) nhằm cho phép những chiếc máy tính tao văn bản trực tiếp dựa

trên ngữ cảnh và đưa ra câu trả lời cho câu hỏi liên quan một cách tự động Hỏi đáp

tạo sinh có vô vàng những ứng dụng quan trọng vào thực tiễn đời sống như là lõi củachatbot về y té, giáo dục, thương mại,

Bài toán hỏi đáp trong thương mại điện tử là một thách thức và ngày càng phổ biếntrong kỷ nguyên số hóa hiện nay Nó liên quan đến việc phát triển các hệ thống thông

minh có khả năng hiểu và trả lời các câu hỏi của khách hàng một cách chính xác và kịp thời Những hệ thống này thường dựa trên các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và học máy (ML) để phân tích ngữ cảnh, ý định của người dùng, và trích xuất thông tin liên quan từ các nguồn dif liệu đa dạng Mục tiêu chính là nâng cao trải nghiệm khách hàng, giảm tải cho đội ngũ hỗ trợ, và tối ưu hóa quy trình bán hàng.Tuy nhiên, việc xây dựng một hệ thống hỏi đáp hiệu quả đòi hỏi phải giải quyết nhiều

thách thức như đa dạng ngôn ngữ, xử lý các câu hỏi phức tạp, và cập nhật liên tục

5

Trang 13

thông tin sản phẩm Nghiên cứu và phát triển trong lĩnh vực này đang tập trung vào

việc cải thiện độ chính xác, toc độ phan hoi, va khả năng tương tác tự nhiên của các

Camera sau của iphone 15 pro có

độ phan giải la bao nhiều

Cac loai iPhone 15 Pro co 3 camera sau va

co độ phan giải lan lượt: 48.0 MP + 12.0

MP + 12.0 MP

hệ thống hỏi đáp

Hình 2.1: Bài toán hoi đáp trong thương mại điện tử

Để giải quyết bài toán trên, cần xây dựng một hệ thống truy xuất để cung cấp ngữcảnh (RAG), và lựa chọn một mô hình thật tốt để tạo ra câu trả lời (LLM).

2.2 Tình hình và xu hướng nghiên cứu

Sự ra đời của kiến trúc Transformer [1] đã đặt nền móng cho trí tuệ nhân tạo trong

tác vụ hỏi đáp QA, cho phép tạo ra các mô hình như BERT [2], RoBERTa [3], và

GPT-3 [4], hiện được biết đến rộng rãi với tên gọi mô hình ngôn ngữ lớn (LLMs) từ

khoảng năm 2021.

Trang 14

Một trong những thách thức chính khi áp dụng LLMs vào QA là xử lý van ban dài

và duy trì ngữ cảnh trong các chuỗi mở rộng Các kỹ thuật như Longformer [5] và

Transformer-XL [6] đã được phát triển để giải quyết van dé này bằng cách giới thiệucác cơ chế chú ý xử lý hiệu quả các văn bản dài hơn Những tiến bộ này và các côngtrình liên quan đến chúng đã mở đường cho việc truy xuất và hiểu thông tin liên quanhiệu quả hơn trong các hệ thống QA.

Công trình tiên phong của Lewis et al 2021 [7] đã giới thiệu các kỹ thuật nền tảngcủa RAG, chứng minh hiệu quả của nó trong các tác vụ NLP đòi hỏi kiến thức chuyênsâu bằng cách tăng cường các mô hình tạo sinh với các tài liệu được truy xuất để cungcấp câu trả lời phong phú về ngữ cảnh Các nghiên cứu tiếp theo đã khám phá nhiều khía cạnh khác nhau của RAG, như việc tích hợp truy xuất và tạo sinh trong LLMs(Feng et al 2023) [§], tăng cường truy xuất dựa trên prompt (prompt-guided) cho cáctác vụ không đòi hỏi kiến thức chuyên sâu (Guo et al 2023) [9] Tính linh hoạt củacác hệ thống RAG đã được thể hiện qua kha năng xử lý da dang các loại câu hỏi va

Low Rank Adaptation (LoRA) finetuning của các mô hình ngôn ngữ lớn (LLM)

[11] đã mở ra một khả năng hoàn toàn mới trong việc tinh chỉnh một số lượng giớihạn các tham số thiết yêu, thường ở mức vài nghìn đến vài triệu, thay vì toàn bộ cáctham số vốn ở mức hang tỷ Công trình về lượng tử hóa LLM (quantizing LLMs) đã

mở ra cơ hội cho các hệ thống có tài nguyên về phần cứng hạn hẹp để fine-tune vớichi phí bộ nhớ thấp [12] Các bài báo về LLM được lượng tử hóa kết hợp với các kỹthuật hiệu quả về tham số như LORA đã tiếp tục cho phép đạt được kết quả thỏa đángvới tài nguyên thấp [13].

Trang 15

3.1 Phat biêu bài toán

Hỏi đáp tạo sinh (Generative QA) là dang mỏ rộng của tác vụ Hỏi đáp cho phép

máy tính tạo văn bản trực tiếp dựa trên ngữ cảnh Bài toán được định nghĩa như sau:

» Đầu vào: Một câu hỏi có thể trả lời được về thông tin của một sản phẩm có trên

sàn thương mại điện tử

¢ Đầu ra: Một câu trả lời về thông tin liên quan đến sản phẩm đó

Ngôn ngữ chính được sử dụng chính là tiếng Việt, bối cảnh là các sản phẩm điện

tử có tại Việt Nam

Trang 16

3.2 Giới thiệu bộ dữ liệu

3.2.1 Tổng quan về bộ dữ liệu

Để giải quyết bài toán trên, chúng tôi cần một số lượng lớn dữ liệu về sản phẩm và

đa dạng về danh mục Do đó, một trong những trang thương mại điện tử bán lẻ lớncủa Việt Nam là FPT Shop! được chúng tôi lựa chọn để thu thập dữ liệu Nhìn chung,lượng dữ liệu từ website này cung cấp có thể cho ta cái nhìn tổng quan về ngách thiết

bị điện tử, đồ gia dụng đang có tại Việt Nam với số lượng lớn sản phẩm Cụ thể, chúngtôi đã thu thập được 7615 sản phẩm, danh mục thiết bị điện tử gồm có: Điện thoại,

Laptop, Máy tính bảng, Phụ kiện, Linh kiện và danh mục Điện máy gia dụng.

ProductName: "iPhone 15 Pro Max 256GB"

ProductDetails: "Đánh giá iPhone 15 Pro Max 256GB từ FPT Shop15 Pro

Max là chiếc iPhone cao cấp nhất với màn hình lớn nhất, thời lượng pin tốt nhất, cầu hình mạnh nhất và thiết kế khung

Titan chuẩn hàng không vũ trụ siêu bên, siêu nhẹ iPhone 15 Pro Max sở hữu những điểm vượt trội nhất nhà Apple Theo

đó, người dùng sẽ trải nghiệm chiếc iPhone cao cấp với hiệu

năng “khủng” chip A17 Pro, khung titan, "

ProductFAQ: [

{

"question": "iPhone 15 Pro Max cố mấy màu?",

"answer": "iPhone 15 Pro Max hiện cố 4 mau,

bao gồm Titan Den, Titan Trắng, Titan Xanh,

Titan Tự Nhiên."

}, ]

Bảng 3.1: Một mẫu dữ liệu sau khi crawl va tiền xử ly

3.2.2 Dư liệu dùng cho Retrieval Task

Từ bảng 3.1 cho cái nhìn tổng quan về bộ dataset, trong đó trường dữ liệu Details sẽ được sử dụng cho nhiệm vụ truy xuất Dữ liệu này là các bài viết đánh giá

Product-Ìhbtps : //fptshop com vn/

Trang 17

đi kèm theo từng sản phẩm, cung cấp thông tin chung và các đặc điểm, thông số đặcbiệt của sản phẩm hoặc hãng sản xuất Chúng tôi sử dụng Vector Database để lưu trữ

dữ liệu này dưới dang vector, chi tiết được trình bày ở Phan 3.4, tổng cộng chúng tôi

có 53.760 mẫu dữ liệu được đưa vào cơ sở dữ liệu Nó được xem như một cơ sở dữ liệu

kiến thức, chứa kiến thức chính xác của sản phẩm Bằng cách này, với mỗi truy vancủa người dùng chúng tôi đều truy xuất vào cơ sở dữ liệu để tìm những nguồn thôngtin cung cấp chỉ tiết và chính xác, hỗ trợ các mô hình ngôn ngữ lớn (LLM) trong việc

sinh ra câu trả lời không bị ảo giác.

Trước khi chia nhỏ | Sau khi chia nhỏ

Sô lượng documents 7.615 53.706

Độ dài trung bình 3.151 493

Percentile 25 2.564 383

Bảng 3.2: Thống kê dữ liệu cho tác vụ truy xuất

3.2.3 Dư liệu dùng cho fine-tuning LLM (Generation Task)

Từ bang 3.1, chúng tôi sử dụng trường dữ liệu ProductFAQ cho nhiệm vu fine-tune

mô hình ProductFAQ là một danh sách các cặp câu hỏi và trả lời tương ứng với sản

phẩm Là một phần thiết yếu trong khóa luận này, chúng tôi đã tập trung xử lý kỹlưỡng và cẩn thận, kết quả là có hơn 10.043 cặp câu hỏi - đáp Sau đó cũng tôi sử

dụng phương pháp tang cường data sử dụng sức mạnh của LLM, được trình bày ở

phần 3.5, tăng thêm 5000 cặp câu, tổng cộng data cho tác vụ fine-tune là 15.043 cặp

câu trước khi chuyển sang định dạng Aplaca [14] cho Instruction Tuning [15] (được

trình bày ở Phần 3.6.5)

ProductFAQ | Generate (GPT3.5)

Số lượng cặp Q-A 10.043 5.000

Độ dài trung bình câu hỏi 64 70

Độ dài trung bình câu trả lời 154 127

Bang 3.3: Thống kê dif liệu cho tác vụ tạo sinh

10

Trang 18

& Generate Response

| User conversation data

Hình 3.1: Tổng quan hệ thống Chatbot

Hình 3.1 cho ta cái nhìn về kiến trúc tổng thể bao gồm một số thành phần chínhhoạt động cùng nhau để xử lý các truy vấn của người dùng, truy xuất thông tin liênquan, tạo ra các phản hồi, và liên tục cải thiện hiệu suất của hệ thống.

Trong phạm vi nghiên cứu này, chúng tôi sẽ tập trung vào 2 phần chính là khốimàu đỏ số 1, đây là khối Retriever được trình bay chi tiết ở Phan 3.4, khối màu đỏ số

2 là Generator, cách thức hoạt động, các thực nghiệm của khối này được trình bày chỉtiết trong Phần 3.6

3.4 Retrieval Augmented Generation (RAG) Nâng Cao

3.4.1 Vector Database

Vector database [16] là một công nghệ cơ sở dữ liệu chuyên biệt, được thiết kế để lưu trữ và xử lý hiệu quả các vector embedding - một dạng biểu diễn dif liệu quantrọng trong các ứng dụng AI hiện đại Trong bối cảnh cuộc cách mạng AI đang diễn

ra, vector database đóng vai trò then chốt bởi khả năng xử lý dữ liệu phức tạp ở quy

11

Trang 19

mô lớn, điều mà các cơ sở dữ liệu truyền thống không thể đáp ứng Nó cung cấp cáctính năng như tìm kiếm tương đồng nhanh chóng, loc metadata, khả năng mở rộngtheo chiều ngang và serverless, giúp tối ưu hóa việc lưu trữ và truy vấn embeddingcho các ứng dụng như mô hình ngôn ngữ lớn, generative AI và tìm kiếm ngữ nghĩa.

Sự ra đời của vector database thế hệ mới, đặc biệt là các giải pháp serverless, hứa hẹn mang lại hiệu quả cao hơn về chi phí và khả năng mở rộng cho các ứng dụng AI, đóng vai trò quan trọng trong việc hỗ trợ phát triển trí tuệ nhân tạo trong tương lai.

Cơ sở dif liệu vector khác biệt với cơ sở dữ liệu truyền thống ở chỗ nó lưu trữ và xử

lý dữ liệu dưới dạng vector thay vì các giá trị vô hướng Thay vì tìm kiếm chính xác,

nó sử dụng các thuật toán tìm kiếm Approximate Nearest Neighbor (ANN) để tìm cácvector tương tự nhất với truy vấn Quy trình hoạt động thường gồm ba bước chính: lập

chỉ mục vector sử dụng các thuật toán như PQ [17], LSH [18] hoặc HNSW [19], [20],

truy van bằng cách so sánh vector đã được lập chỉ mục, và hậu xử lý để tinh chỉnh kết

quả Cơ sở dữ liệu vector cân bằng giữa độ chính xác và tốc độ, cho phép tìm kiếm

nhanh chóng với độ chính xác cao trong không gian vector đa chiều.

Video Video Model Video Vector Embeddings

Hinh 3.2: Vector Database

HNSW (Hierarchical Navigable Small World) [20] là một cấu trúc dữ liệu va thuật toán tìm kiếm lân cận gần đúng hiệu quả trong không gian vector đa chiều Được pháttriển bởi Malkov và Yashunin năm 2016, HNSW tao ra một đồ thị phân cấp nhiễu lớp,trong đó mỗi lớp trên chứa một tập con của các vector trong lớp dưới Cấu trúc nàycho phép tìm kiếm nhanh chóng khu vực tổng quát trên các lớp cao, sau đó thu hẹp

12

Trang 20

xuống các lớp thấp hơn để tìm kết quả chính xác Phương pháp này cân bằng giữa tìm

kiếm toàn cục và cục bộ, giúp HNSW trở nên hiệu quả và linh hoạt, có thể điều chỉnh

để cân bằng giữa tốc độ, độ chính xác và yêu cầu tài nguyên.

nearest neig ~<a

ProductDetails Embedd Model

Hình 3.4: Luéng xử ly và nhập dữ liệu vào VectorDB

3.4.2.1 Chunking

Chunking là quá trình chia nhỏ các data, tài liệu cần truy xuất thành các khối nhỏ hơn và có thể quản lý dé dàng Điều này giúp cho hiệu quả của việc tìm kiếm, truyxuất thông tin được nâng cao Cụ thể, với các khối data nhỏ hơn sẽ phù hợp hơn giữa

câu hỏi của người dùng với nội dung cần truy xuất (vì đa số các câu hỏi đều rất ngắn),

như vậy vector của truy vấn sẽ gần hơn vector của các khối data trước đó đã được

13

Trang 21

vector hóa Ngoài ra, việc để các đoạn data quá lớn sẽ bao gồm các thông tin không

liên quan, gây nhiễu và giảm hiệu suất.

Vì vậy, việc chọn kích thước của chunk vừa ngắn gon lại không được mat mát

thông tin phụ thuộc vào từng bài toán khác nhau Các thư viện như LangChain’,

LLamalndexỶ hỗ trợ một số phương pháp phổ biến như Sentence Window, Parent

Document, Chunks with Overlap, Semantic Chunking, Trong bài toán này chúng

tôi đã tiến hành thử nghiệm trên một vài phương pháp và đi đến kết luận sử dụng

MarkdownHeaderTextSplitter (LangChain) Nguyên nhân vi data ProductDetails là

bài viết giới thiệu sản phẩm được viết bởi con người và được viết có cấu trúc đoạn,

mỗi đoạn là một nội dung cụ thể nên có ngữ nghĩa giống nhau, phù hợp các tiêu chí

khi chunking Ngoài ra, chúng tôi cũng gắn thêm tên sản phẩm và tên các header đoạn

vào mỗi chunk giữ lại những ý chính cần thiết.

Chunk: iPhone 15 Pro Max ITB, Tận hưởng sức mạnh đẳng cắp của A17

Pro, Với sức mạnh từ bộ vi xử lý trung tâm mang tên A17 Pro, iPhone 15

Pro Max có được hiệu năng đồ họa mạnh mẽ vượt trội so với các thé hệ iPhone trước A17 Pro có cau trúc GPU 6 lõi chuyên nghiệp, đồng thời ứngdung công nghệ dò tia đô họa bằng phan cứng - dat tốc độ gdp 4 lần nếu

so sánh với kỹ nghệ dò tia bằng phan mém

Chunk = [ProductName] + n.[Header] + [Splitted text]

3.4.2.2 Embedding

Embedding là tối quan trọng cho một hệ thống RAG Sau khi chunking thành các

khối nhỏ, bước tiếp theo là cần embedd chúng thành các vector và lưu xuống Vector

Database Embedding cũng đóng vai trò embedd câu hỏi đầu vào từ người dùng, từ

vector này sẽ tiễn hành truy xuất thông tin

Sau khi phân đoạn thành các khối nhỏ, bước tiếp theo trong quy trình RAG Augmented Generation) là embedd chúng thành các vector và lưu xuống vector database Embedding cũng đóng vai trò chuyển đổi cả câu truy vấn của người dùng và tài liệu

(Retrieval-?https : //github com/1angchain-ai/1angchain

3https : //github com/run-11ama/11ama_index

14

Trang 22

trong database thành một định dạng có thể so sánh được để tìm ra thông tin liên quannhất Có nhiều lựa chọn về mô hình nhúng, bao gồm nhúng thưa (sparse embedding)

như TF-IDF [21] - phù hợp cho việc so khớp từ khóa, và nhúng ngữ nghĩa (semantic

embedding) như BERT hoặc SentenceBERT [22] - nắm bắt tốt hơn ngữ cảnh và ý

nghĩa sâu của văn bản.

Sentence Transformers [22] là lựa chọn hàng đầu để tạo embedding trong hệ thống

RAG (Retrieval-Augmented Generation) vì khả năng hiểu va so sánh nội dung ngữ

nghĩa của câu Chúng cải thiện việc truy xuất tài liệu bằng cách nắm bắt ngữ nghĩa,

cho phép tìm kiếm ngữ nghĩa hiệu quả hơn của phương pháp dựa trên từ khóa Điềunày dẫn đến hiểu biết ngữ cảnh tốt hơn, tạo ra phản hồi chính xác và phù hợp hơn.Sentence Transformers cũng cung cấp khả năng mở rộng trong việc truy xuất thôngtin bằng cách tính toán trước embedding cho tat cả tài liệu, giúp quá trình truy xuấtnhanh hơn và dễ mở rộng Kết quả là, chúng nâng cao khả năng truy xuất của mô hìnhRAG, cải thiện hiệu suất trong các tác vụ như trả lời câu hỏi, chatbot và trích xuấtthông tin, dựa trên khối lượng lớn dif liệu văn bản.

3.4.3 Retrieval (Self-Reflective RAG)

Indexing Retrieval Generation

| |

Question —————> —> — ——_> cotat | ——> Answer

——— 1 Window =|

{ |

Tndex Relevant document TT”

Hình 3.5: Luồng RAG cơ bản

Luéng RAG cơ bản như hình 3.5 chi đơn giản sử dung một chuỗi: LLM xác địnhnhững gi cần tạo ra dựa trên các tài liệu đã truy xuất Tuy nhiên, việc này có thể làm

15

Trang 23

giảm tính linh hoạt của LM và dẫn đến việc tạo ra các phản hổi không hữu ích.

Ciphone 15 co may mau)

Hình 3.6: Ludng self-reflective RAG khi dùng Langgraph implementation

Self-Reflective RAG được giới thiệu là có thể linh hoạt chọn chiến lược phù hợpnhất cho LLM (tăng cường truy xuất) từ đơn giản nhất đến phức tạp nhất dựa trên độ

phức tạp của truy vấn Ý tưởng là sử dụng LLM để tự sửa lại việc truy xuất kém hoặc

tạo ra kết quả kém chất lượng Nó thường đòi hỏi việc re-generating câu hỏi và/hoặc

re-retrieving tài liệu.

Khi xây dựng một hệ thống RAG, data đến từ database có vẻ như là chưa đủ, đặc biệt là với bài toán trong thương mại điện tử, dữ liệu về sản phẩm, giá cả giảm giá, các chương trình khuyến mãi được thay đổi liên tục, néu lựa chọn liên tục update databasethì tính real-time sẽ bị ảnh hưởng, do đó, việc retrieval cần có khả năng gọi các APIthực tế, cụ thể ở đây là các API về giá cả và khuyến mãi

Một van dé cũng rất phổ biến thường gặp là việc với mỗi câu truy van khác nhau,chatbot sé cần có cách hoạt động khác nhau Vi dụ với các truy van về thông tin, thông

số kĩ thuật của sản phẩm thì chatbot có thể đưa ra câu trả lời dựa vào nguồn tài liệuđược cài đặt từ trước, nhưng với các câu hỏi về giá cả thì chatbot sẽ có cách trả lờikhác và dựa vào nguồn dif liệu khác, ngoài ra trong thực tế, các ý định về câu hỏi củangười dùng có thể liên quan đến các chính sách của sàn như bảo hành, đổi trả, giaohàng, hoặc có thể là phàn nàn, khiếu nại về một vấn đề gì đó

3.4.3.1 Function Calling

Function calling [23] là kha năng kết nối đáng tin cậy các mô hình ngôn ngữ lớn

(LLM) với các công cụ bên ngoài để cho phép sử dụng công cụ hiệu quả và tương tác

với các API bên ngoài.

16

Trang 24

Các mô hình không trực tiếp gọi các hàm này, mà thay vào đó tạo ra dữ liệu đầu ra

có cấu trúc chỉ định tên hàm va các đối số được dé xuất Dau ra này cho phép lấy đầu

ra có cau trúc và gọi các API bên ngoài, và kết quả đầu ra của API sẽ được sử dụngđúng mục đích, từ đó có các phản hồi truy vấn toàn diện hơn Việc dùng function

calling cho phép người dùng tương tác với thông tin thời gian thực và các dịch vụ

khác nhau, chẳng hạn như cơ sở dữ liệu, hệ thống quản lý quan hệ khách hàng và kho

lưu trữ tài liệu, nâng cao khả năng cung cấp câu trả lời phù hợp Một số trường hợp

sử dụng function calling cho hiệu quả tốt như:

* Conversational Agents: Function calling có thể được sử dung để tạo ra các

conversational agents phức tạp hoặc chatbot có khả năng trả lời các câu hỏi phức

tạp bằng cách gọi API bên ngoài hoặc cơ sở kiến thức bên ngoài và cung cấp cácphản hồi phù hợp và hữu ích hơn

¢ Natural Language Understanding: Nó có thể chuyển đổi ngôn ngữ tự nhiên thành dữ liệu JSON có cấu trúc, trích xuất dữ liệu có cau trúc từ văn bản, và thực hiện các nhiệm vụ như nhận dạng thực thể có tên, phân tích cảm xúc, và trích

xuất từ khóa

Trong thực nghiệm triển khai, trường hợp sử dụng NLU được sử dụng phổ biến,

hình 3.6 có các nodes sử dụng LLM function calling:

« Re-write question: Input là câu hỏi gốc, sử dung prompting và fewshots để LLMviết lại câu hỏi rõ ràng, có ý nghĩa và giúp cho việc truy xuất chính xác hơn Ví

dụ câu hỏi gốc là "ip 15 co may mau?" sau khi qua node này ta sẽ được câu hỏimới cho luồng tiếp theo là "iPhone 15 có mdy mau?

¢ Product Detection: Một ví du cu thể là câu hỏi "iPhone 15 có camera như thénào?", néu dùng input nay để thực hiện truy van vào VectorDB sẽ cho kết quả

nhiễu và không chính xác, vì với sản phẩm thương mại điện tử, các điện thoại, laptop đều có camera, hoặc các sản phầm khác như iPhone 15 Pro, Plus cũng cóthể cho thông tin sai lệch với yêu cầu ban đầu, do đó việc Detect ra được trongcâu hỏi có sản phẩm là "iPhone 15" kết hợp với filter search là điều cần thiết.Như vậy đây là bước quan trọng để thu hẹp số lượng tài liệu tìm kiếm xuống,nâng cao hiệu xuất truy vấn.

17

Trang 25

« Grade Document: Node này sử dụng kha năng hiểu ngữ cảnh và đánh giá củaLIM, với top-k document truy xuất được, chúng tôi kiểm tra lại một lần nữa, liệu

document nay có liên quan đên câu hỏi đầu vào không, nêu không, sẽ bị loại bỏ.

3.5 Tạo các cặp Q-A bằng LLM, tăng cường dataset

Chunk #2

Query #1

Answer #1

Query #N Answer #N

QnA pair #1

QnA pair #2

QnA pair #N 7

Hình 3.7: Luồng tao các cặp Q-A bang LLM

Việc tạo thủ công hàng trăm mẫu QA (Question-Context-Answer) từ các tài liệu có

thể tốn nhiều thời gian và công sức Ngoài ra, các câu hỏi do con người tạo ra có thểkhó đạt được mức độ phức tạp cần thiết để đánh giá kỹ lưỡng, cuối cùng ảnh hưởng

đến chất lượng của đánh giá Bằng cách sử dụng sức mạnh của LLM để tạo dữ liệu

tổng hợp chúng ta có thể giảm 90% thời gian và công sức.

Không giống như các phương pháp tạo dữ liệu thủ công hoặc tăng cường dữ liệutruyền thống, việc sử dụng LLM cho phép tạo ra các bộ dữ liệu phong phú, nhiều sắcthái và phù hợp với ngữ cảnh có thể nâng cao đáng kể tính hữu ích của nó đối với cácdoanh nghiệp và nhà phát triển.

18

Trang 26

3.6 Fine-tuning LLMs cho nhiệm vu Answer

Genera-tion

3.6.1 Vì sao lại chon LLM cho nhiệm vụ Answer Generation?

Việc chọn Mô hình Ngôn ngữ Lớn (LLM) thay vì các mô hình ngôn ngữ truyềnthống trong lĩnh vực hỏi đáp (QA) có nhiều lý do thuyết phục LLM mang lại khảnăng hiểu và xử lý ngôn ngữ tự nhiên vượt trội, đặc biệt trong việc nắm bắt ngữ cảnh

và ngữ nghĩa của câu hỏi Trong khi mô hình truyền thống thường dựa vào phươngpháp trích xuất thông tin từ cơ sở dit liệu có cấu trúc hoặc tìm kiếm câu trả lời dựa trên

từ khóa, LLM có thể xử lý các câu hỏi phức tạp, đa dạng và thậm chí mơ hồ Với kiếntrúc Transformer và cơ ché self-attention, LLM vượt qua giới hạn cửa sổ ngữ cảnh cốđịnh, cho phép hiểu sâu hơn về ngữ nghĩa, cú pháp phức tạp và kiến thức rộng lớnđược training trước đó LLM có khả năng tổng hợp thông tin từ nhiều nguồn, suy luận logic, và tạo ra câu trả lời mach lạc, chi tiết mà không chỉ đơn thuần trích dẫn thông tin có sẵn.

Hơn nữa, LLM mé ra tiềm năng ứng dụng rộng rãi và mạnh mẽ hơn trong QA nhờkhả năng học zero-shot và few-shot Trong khi các mô hình truyền thống cần đượchuấn luyện lại hoặc điều chỉnh đáng kể để xử lý các loại câu hỏi mới, LLM có thểnhanh chóng thích ứng với các chủ đề và định dạng câu hỏi mới mà không cần huấnluyện bổ sung Điều này cho phép LLM xử lý hiệu quả các câu hỏi về các chủ đềđương đại hoặc các lĩnh vực chuyên môn mà không cần cập nhật liên tục cơ sở dữ

liệu Ngoài ra, LLM còn có khả năng tạo ra các câu trả lời theo phong cách và ngữ

điệu phù hợp với ngữ cảnh, điều mà các mô hình truyền thống khó có thể đạt được.

Tuy nhiên, cần lưu ý rằng việc sử dụng LLM trong QA cũng đặt ra các thách thức về

độ chính xác, khả năng giải thích và xác minh thông tin, đòi hỏi các biện pháp kiểm soát và xác thực phù hợp Mặc dù vậy, tiềm năng to lớn của LLM trong việc cách mạng hóa cách chúng ta tương tác với máy tính và xử lý thông tin là không thể phủnhận, đánh dấu một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên và

đặc biệt là trong tác vụ hỏi đáp.

19

Trang 27

3.6.2 Foundation Model và LLM Pre-training

Mô hình ngôn ngữ lớn (LLM) là những mạng nơ-ron dựa trên kiến trúc ers, được xem như mô hình nền tảng do khả năng áp dụng cho nhiều tác vụ khác nhau thông qua tinh chỉnh LLM tập trung vào phần decoder của Transformer và hoạt động

Transform-bằng cách tính toán phân phối xác suất trên một bộ từ vựng cho trước, dựa trên đầu

vào là một "prompt" Mặc dù vẫn còn những hạn chế như ảo giác và van dé trongsuy luận chuỗi suy nghĩ, LLM đã đạt được những tiến bộ đáng kể kể từ sự ra đời của

BERT và GPT.

Claude Gemini

Jurassic-1 CodeGen Vicuna CodeGen 2

ALBERT Self-Instruct Retro BLOOM Mistral StarCoder

BERT” 15° mrs FLAN Chinchilla Alpaca Grok

ePT” GPT-2 GPT-3 Web-GPT Instruct GPT GPT4 PaLM-2

2017/2018 2019 —— 2020 2021 —2022 — 2023 2023 >

Geese BART Longrormer-, To OPT ppo* Toolformer

XL-Net DeBERTa Ernie 3.0 Galactia Llama 1/2 Zephyr

Roberta Electra CODEX PaLM Phi-1/2" Mixtral

Gopher LaMDA FALCON Mamba-Chat

MPT ORCA-2

Hình 3.8: Timeline của một số framework LLM tiêu biểu nhất (cho đến nay)

Sự phát triển của LLM bắt đầu với Transformers, tạo nền tảng cho việc pre-train

BERT và GPT sử dụng dữ liệu quy mô lớn không giám sát Điều này dẫn đến sự xuấthiện của các mô hình nền tảng phổ biến như RoBERTa [3], T5 [24] và BART [25].Tiếp theo, GPT-3 đã chứng minh khả năng học ít mẫu và học không cần mẫu thông

qua kỹ thuật prompt và học trong ngữ cảnh.

Các mô hình tiên tiền như ChatGPT, GPT-4 [26], LLaMA [27], Bloom [28], Falcon

[29], Qwen [30] va Mistral [31] đã mở rộng khả năng không chỉ trong mô hình hóa

ngôn ngữ mà còn trong lĩnh vực trí tuệ nhân tạo nói chung Những mô hình này thểhiện nhiều kỹ năng đa dạng và tạo ra kết quả chất lượng cao, đóng góp đáng kể vào

sự phát triển của công nghệ AI và xử lý ngôn ngữ tự nhiên.

20

Trang 28

3.6.3 Ky thuật Quantization

Mặc định, hầu hết các trọng số của mô hình ngôn ngữ lớn mã nguồn mở được pháthành ở độ chính xác 32 bit đầy di Ngay cả để tinh chỉnh một mô hình có kích thước

tương đối nhỏ, chang hạn 7B tham số, cũng cần gần 28 GB không gian VRAM Với

trọng số có độ chính xác cao hơn, các đơn vị tính toán phải tiêu tốn nhiều năng lượng

hơn trong các hoạt động di chuyển bộ nhớ trong quá trình tinh chỉnh Lượng tử hóa là quá trình giới hạn đầu vào từ một tập hợp giá trị liên tục thành một tập hợp rời rạc Việc lượng tử hóa trọng số mô hình xuống độ chính xác thấp hơn và tinh chỉnh giúp giảm đáng kể kích thước mà không ảnh hưởng đến chất lượng.

Các kỹ thuật lượng tử hóa đóng vai trò then chốt trong việc phổ cập hóa các mô hình ngôn ngữ lớn (LLMs) vì chúng tập trung vào việc biểu diễn dữ liệu với ít thông

tin hơn đồng thời cố gắng không làm mắt quá nhiều độ chính xác Điều này có nghĩa

là chuyển đổi một kiểu dữ liệu để biểu diễn cùng một thông tin với ít bit hơn Ví dụ,

nếu trọng số của mô hình của bạn được lưu trữ dưới dạng số thực dấu phẩy động 32bit và chúng được lượng tử hóa thành số thực dấu phẩy động 16 bit, điều này sẽ giảm một nửa kích thước mô hình, giúp dễ dàng lưu trữ hơn và giảm sử dụng bộ nhớ Lượng

tử hóa cũng có thể tăng tốc quá trình suy luận vì việc thực hiện các phép tính với ít bithơn sẽ mat ít thời gian hơn Một số quantization method hiện nay như AQLM [32],

AWQ [33], bitsandbytes [34], GPTQ [35] Trong nghiên cứu này, chúng tôi khảo sát

kỹ thuật cốt lõi: lượng tử hóa BnB gán một độ chính xác cô định là 4 hoặc 8 bit cho

toàn bộ mô hình.

3.6.4 Phương pháp PEFT (Parameter Efficient Fine Tuning)

Các mô hình ngôn ngữ lớn trở nên hiệu qua hơn với việc hoc chuyển giao thông

qua tinh chỉnh Tuy nhiên, mặt khác, việc tinh chỉnh trở nên thách thức đối với cơ sở

hạ tầng cần thiết, thời gian yêu cầu và nhu cầu bộ nhớ tổng thể Để vượt qua nhữngthách thức này, tinh chỉnh hiệu quả tham số được đưa ra Tinh chỉnh hiệu quả tham

số (PEET) [36] là một kỹ thuật được sử dụng trong Xử lý Ngôn ngữ Tự nhiên để cải thiện hiệu suất của các mô hình ngôn ngữ đã được huấn luyện trước đó trên các tác

vụ cụ thể Nó liên quan đến việc tái sử dụng các tham số của mô hình đã huấn luyệntrước và tinh chỉnh chúng trên một bộ dữ liệu nhỏ hơn, giúp tiết kiệm tài nguyên

21

Ngày đăng: 06/12/2024, 15:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN