1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn

77 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Hệ Thống Trả Lời Câu Hỏi Dựa Trên Mô Hình Ngôn Ngữ Lớn
Tác giả Lê Huỳnh Thanh Dưỡng
Người hướng dẫn Th.S Quách Đình Hoàng
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 77
Dung lượng 7,44 MB

Cấu trúc

  • 1. Tính cấp thiết của đề tài (16)
  • 2. Mục tiêu của đề tài (17)
  • 3. Phân tích các công trình nghiên cứu (17)
  • 4. Kết quả dự kiến đạt được (18)
  • 5. Đối tượng và phạm vi nghiên cứu (18)
  • CHƯƠNG 1: MÔ HÌNH NGÔN NGỮ LỚN (19)
    • 1.1 MÔ HÌNH NGÔN NGỮ LỚN (6)
    • 1.2 KIẾN TRÚC TRANSFORMER (6)
      • 1.2.1 Multi-Head Attention (21)
      • 1.2.2 Feed-Forward Network (24)
      • 1.2.3 Kết nối dư (Residual Connection) và chuẩn hóa lớp (Layer Normalization) (0)
    • 1.3 SỰ PHÁT TRIỂN CỦA MÔ HÌNH NGÔN NGỮ (6)
      • 1.3.1 Phân loại mô hình ngôn ngữ (25)
      • 1.3.2 Sự phát triển của mô hình ngôn ngữ lớn (26)
      • 1.3.2 Số lượng tham số của các mô hình ngôn ngữ lớn (28)
    • 1.4 Decoder-only với GPT (Generative Pre-trained Transformer) (7)
  • CHƯƠNG 2: TỔNG QUAN HỆ THỐNG TRẢ LỜI CÂU HỎI DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN (33)
    • 2.1 GIỚI THIỆU (7)
    • 2.2 KỸ THUẬT RAG (RETRIEVAL AUGMENTED GENERATION) (7)
      • 2.2.1 Vector Database (35)
      • 2.2.2 Retrieval (40)
    • 2.3 KỸ THUẬT ĐÁNH GIÁ HỆ THỐNG TRẢ LỜI CÂU HỎI (7)
  • CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI HỖ TRỢ NGƯỜI DÙNG LĨNH VỰC PHÁP LUẬT VIỆT NAM (47)
    • 3.1 BÀI TOÁN (7)
    • 3.2 XÂY DỰNG BỘ DỮ LIỆU PHÁP LUẬT (7)
      • 3.2.1 Tìm hiểu về tập dữ liệu (47)
      • 3.2.2 Thu thập dữ liệu (48)
    • 3.3 XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI VỚI RAG (7)
      • 3.3.1 Biến đổi và lưu trữ dữ liệu (0)
      • 3.3.2 Retrieval (Truy xuất) (52)
    • 3.3 Generate (LLM) (52)
    • 3.4 THỰC NGHIỆM (7)
    • 3.5 ĐÁNH GIÁ (7)
  • CHƯƠNG 4: XÂY DỰNG WEBSITE HIỆN THỰC HÓA HỆ THỐNG TRẢ LỜI CÂU HỎI (60)
    • 4.1 PHÂN TÍCH YÊU CẦU VÀ THIẾT KẾ CƠ SỞ DỮ LIỆU (7)
    • 4.2 CÁC CÔNG NGHỆ SỬ DỤNG (7)
    • 4.3 XÂY DỰNG WEBSITE (7)
    • 4.4 MÔ TẢ GIAO DIỆN VÀ DEMO KẾT QUẢ (7)
      • 4.4.1 Mô tả giao diện (66)
      • 4.4.2 Demo kết quả (69)
    • 1. Kết quả đạt được (73)
    • 2. Nhược điểm của đề tài (73)
    • 3. Hướng phát triển của đề tài (73)

Nội dung

TÓM TẮT KHÓA LUẬN Hệ thống trả lời câu hỏi là một ứng dụng tương tác giữa người dùng và máy tính theo cách trò chuyện, sử dụng ngôn ngữ tự nhiên để tạo ra nội dung câu trả lời dựa trên

Tính cấp thiết của đề tài

Hệ thống trả lời câu hỏi là một dạng chatbot, ứng dụng trí tuệ nhân tạo (AI) giúp tương tác với người dùng thông qua ngôn ngữ tự nhiên Nó tạo ra phản hồi cho các câu hỏi của người dùng bằng cách trò chuyện một cách tự nhiên và thân thiện.

Trước khi mô hình ngôn ngữ lớn (LLM) ra đời, các hệ thống trả lời câu hỏi chủ yếu dựa trên hai mô hình: hệ thống dựa trên quy tắc (rule-based system) và hệ thống truy xuất (retrieval-based system) Hệ thống dựa trên quy tắc sử dụng các quy tắc cố định để chọn phản hồi dựa vào từ vựng và mẫu trò chuyện đã được xác định trước, nhưng thường gặp khó khăn với lỗi chính tả và ngữ pháp, chỉ xem xét tin nhắn cuối cùng trong cuộc trò chuyện Ngược lại, hệ thống truy xuất lấy câu trả lời từ một cơ sở dữ liệu lớn chứa các câu hỏi và câu trả lời đã định nghĩa trước, cho phép đáp ứng một phạm vi rộng hơn các câu hỏi, nhưng vẫn bị giới hạn bởi dữ liệu có sẵn.

Sau khi ra đời, các mô hình ngôn ngữ lớn (LLM) đã cải thiện hệ thống trả lời câu hỏi, khắc phục nhược điểm của các mô hình trước LLM tạo ra phản hồi tự nhiên và linh hoạt, không bị ràng buộc bởi quy tắc cố định Chúng sử dụng xử lý ngôn ngữ tự nhiên (NPL) để hiểu và phân tích các câu hỏi phức tạp, từ đó tạo ra câu trả lời mới dựa trên kiến thức từ dữ liệu huấn luyện Khả năng học hỏi từ tương tác với người dùng giúp cải thiện phản hồi, làm cho hệ thống trả lời câu hỏi trở nên giống con người hơn.

ChatGPT, một hệ thống trả lời câu hỏi nổi tiếng, đã thu hút sự chú ý từ khi ra mắt vào tháng 11 năm 2022 Công cụ này nổi bật với khả năng cung cấp thông tin chính xác, nhanh chóng và tự nhiên Hoạt động dựa trên mô hình ngôn ngữ lớn (LLM), ChatGPT được huấn luyện từ một lượng lớn dữ liệu văn bản công khai, bao gồm sách, bài báo và trang web Nhờ vậy, nó có thể đáp ứng nhiều câu hỏi trong các lĩnh vực khoa học và đời sống, như toán học và tin học.

GVHD Ths Quách Đình Hoàng 2 vật lý nhận thấy rằng khi sử dụng ChatGPT, việc hỏi sâu về các lĩnh vực cụ thể như luật pháp hay địa chỉ nhà ở thường không nhận được câu trả lời chính xác Nguyên nhân chủ yếu là do nguồn dữ liệu trong những lĩnh vực này không phổ biến và có thể thay đổi theo thời gian, chẳng hạn như mô hình GPT-3.5-Turbo chỉ cập nhật dữ liệu đến tháng 10 năm 2022.

Trong khóa luận tốt nghiệp, chúng tôi tập trung vào đề tài “Xây dựng hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn” Mục tiêu của nghiên cứu là giải quyết bài toán tạo ra một hệ thống có khả năng xử lý dữ liệu từ một lĩnh vực cụ thể mà chúng tôi cung cấp cho mô hình ngôn ngữ lớn.

Mục tiêu của đề tài

- Tìm hiểu kiến trúc Transformer

- Tìm hiểu các LLM dựa trên kiến trúc Transformer

- Tìm hiểu hệ thống trả lời câu hỏi dựa trên các LLM

- Kết hợp mô hình RAG với một LLM để xây dựng hệ thống trả lời câu hỏi trên lĩnh vực luật pháp Việt Nam

- Xây dựng giao diện website để hiện thực hóa hệ thống trả lời câu hỏi.

Phân tích các công trình nghiên cứu

Hiện nay, nhiều nghiên cứu đã được thực hiện về hệ thống trả lời câu hỏi dựa trên các mô hình ngôn ngữ lớn (LLM) Dưới đây là một số công trình tiêu biểu trong lĩnh vực này.

Vào năm 2022, Meta AI giới thiệu hai mô hình ngôn ngữ lớn, LLaMA và OPT-175B, nhằm phục vụ cho các hệ thống AI, đặc biệt là chatbot như Galactica Galactica đã cho thấy tiềm năng trong việc sử dụng LLM để tạo ra nội dung khoa học và giáo dục Tuy nhiên, do cung cấp thông tin sai lệch, bản demo của Galactica đã bị gỡ bỏ ngay lập tức.

Vào tháng 11 năm 2022, OpenAI giới thiệu ứng dụng ChatGPT dựa trên mô hình GPT-3.5-Turbo, đánh dấu một trong những ứng dụng thành công nhất của LLM ChatGPT nổi bật với khả năng cung cấp phản hồi tự nhiên và chính xác trong nhiều lĩnh vực khoa học và đời sống.

- Vào tháng 3 năm 2024, OpenAI tiếp tục cho ra mắt mô hình GPT-4, được cung

GVHD là một bước tiến lớn trong công nghệ mô hình ngôn ngữ, với GPT-4 cải thiện độ chính xác, khả năng suy luận và xử lý ngôn ngữ tự nhiên so với các phiên bản trước Thông qua bản ChatGPT Plus (có trả phí), người dùng có thể trải nghiệm những nâng cấp đáng kể này.

Các nghiên cứu này nhằm khai thác sức mạnh của các Mô hình Ngôn ngữ Lớn (LLM) để phát triển hệ thống trả lời câu hỏi, có khả năng hiểu và phản hồi một cách tự nhiên.

Kết quả dự kiến đạt được

- Hiểu về cách thức hoạt động của một mô hình ngôn ngữ lớn (LLM)

- Nắm rõ cách thức hoạt động của mô hình RAG

- Xây dựng thành công hệ thống trả lời câu hỏi dựa trên mô hình RAG kết hợp với một LLM.

MÔ HÌNH NGÔN NGỮ LỚN

Decoder-only với GPT (Generative Pre-trained Transformer)

2 Chương 2: Tổng quan hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn 2.1 Giới thiệu

2.2 Kỹ thuật RAG (Retrieval Augmented Generation)

2.3 Kỹ thuật đánh giá hệ thống trả lời câu hỏi

3 Chương 3: Xây dựng hệ thống trả lời câu hỏi hỗ trợ người dùng lĩnh vực pháp luật Việt Nam

3.2 Xây dựng bộ dữ liệu pháp luật

3.3 Xây dựng hệ thống trả lời câu hỏi với RAG

4 Chương 4: Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi

4.1 Phân tích yêu cầu và thiết kế cơ sở dữ liệu

4.2 Các công nghệ sử dụng

4.4 Mô tả giao diện và demo kết quả

[1] Adamopoulou, E., Moussiades, L., "An Overview of Chatbot Technology," In: Maglogiannis, I., Iliadis, L., Pimenidis, E (eds) Artificial Intelligence Applications and Innovations AIAI 2020 IFIP Advances in Information and Communication Technology, 584, Springer, Cham, 2020 doi:

[2] Dilmegani, C., "LLM Fine Tuning Guide for Enterprises in 2023," https://research.aimultiple.com/llm-fine-tuning/, 2023

[3] Elastic, "What are Large Language Models?" https://www.elastic.co/what-is/large-language- models, n.d

[4] Elastic, "What is vector search?" https://www.elastic.co/what-is/vector-search, 2024

[5] Gao, Y., Xiong, Y., Gao, X., Jia, K et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv (Cornell University), 2023 doi: 10.48550/arXiv.2312.10997

[6] Hore, S., "What are Large Language Models (LLMs)?" https://www.analyticsvidhya.com/blog/2023/03/an-introduction-to-large-language-models-llms/, 2023

[7] IBM, "What is natural language processing?" https://www.ibm.com/topics/natural-language- processing, n.d

[8] Kang, B., Kim, J., Yun, T.R., Kim, C.E et al., "Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine," arXiv (Cornell University), 2024 doi: 10.48550/arXiv.2401.11246

[9] Manning, C.D., "Human language understanding & reasoning," Daedalus, 151, 2022, pp 127-138 doi: 10.1162/daed_a_01905

[10] Meyer, J.G., Urbanowicz, R.J., Martin, P.C.N et al., "ChatGPT and large language models in academia: opportunities and challenges," BioData Mining, 16, 20, 2023 doi: 10.1186/s13040-023- 00339-9

[11] OpenAI, "ChatGPT," Computer software, https://openai.com/blog/ChatGPT, Accessed 23 Apr

[12] RAG Documentation, https://docs.ragas.io/en/stable/index.html, 2023

[13] Stanford University, "Training," CS324: Systems for Machine Learning, https://stanford- cs324.github.io/winter2022/lectures/training/, 2022

[14] Vaswani, A., Shazeer, N., Parmar, N et al., "Attention is all you need," arXiv (Cornell

[15] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[16] Cổng thông tin điện tử pháp điển, https://phapdien.moj.gov.vn/Pages/home.aspx, 2023

[17] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[18] Life Architect (n.d.) Models Retrieved from https://lifearchitect.ai/models/

[19] Retrieval Augmented Generation từ Youtube AI VIET NAM

[20] Selvaganapathy C, "The Impact of Relevant Context Position and Context Size on LLM

Performance," The AI Discovery, 30 Jul 2023 Retrieved from newsletter.theaidiscovery.com/p/the- impact-of-relevant-context-position

[21] Alzubi, J A., Jain, R., Singh, et all, “COBERT: COVID-19 Question Answering System Using BERT,” Arabian Journal for Science and Engineering, 2021, doi:10.1007/s13369-021-05810-5

In the article by Levi Tian, published on December 20, 2023, the author discusses the implementation of hybrid search and reranking techniques to enhance the retrieval accuracy of Retrieval-Augmented Generation (RAG) systems This innovative approach aims to optimize information retrieval processes, ensuring more relevant and precise results for users By integrating hybrid search methods, the RAG system can effectively combine different retrieval strategies, leading to improved performance and user satisfaction The article highlights the significance of these advancements in the context of evolving search technologies.

STT Thời gian Công việc Ghi chú

Tìm hiểu cơ sở lý thuyết về mô hình ngôn ngữ Đã thực hiện thành công

Tìm hiểu kiến trúc transformer Đã thực hiện thành công

Tìm hiểu thông tin các mô hình ngôn ngữ lớn hiện nay Đã thực hiện thành công

Tìm hiểu mô hình RAG Đã thực hiện thành công

Thu thập dữ liệu về Luật pháp Việt

Nam Đã thực hiện thành công

Xây dựng hệ thống RAG kết hợp với một mô hình ngôn ngữ Đã thực hiện thành công

Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi Đã thực hiện thành công

Lê Huỳnh Thanh Dưỡng Ý kiến của giáo viên hướng dẫn

(ký và ghi rõ họ tên)

DANH MỤC HÌNH ẢNH DANH MỤC BẢNG DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT TÓM TẮT KHÓA LUẬN

1 Tính cấp thiết của đề tài 1

2 Mục tiêu của đề tài 2

3 Phân tích các công trình nghiên cứu 2

4 Kết quả dự kiến đạt được 3

5 Đối tượng và phạm vi nghiên cứu 3

CHƯƠNG 1: MÔ HÌNH NGÔN NGỮ LỚN 4

1.1 MÔ HÌNH NGÔN NGỮ LỚN 4

1.2.3 Kết nối dư (Residual Connection) và chuẩn hóa lớp (Layer Normalization) 10

1.3 SỰ PHÁT TRIỂN CỦA MÔ HÌNH NGÔN NGỮ 10

1.3.1 Phân loại mô hình ngôn ngữ 10

1.3.2 Sự phát triển của mô hình ngôn ngữ lớn 11

1.3.2 Số lượng tham số của các mô hình ngôn ngữ lớn 13

1.4 Decoder-only với GPT (Generative Pre-trained Transformer) 15

CHƯƠNG 2: TỔNG QUAN HỆ THỐNG TRẢ LỜI CÂU HỎI DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN 18

2.2 KỸ THUẬT RAG (RETRIEVAL AUGMENTED GENERATION) 19

2.3 KỸ THUẬT ĐÁNH GIÁ HỆ THỐNG TRẢ LỜI CÂU HỎI 29

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI HỖ TRỢ NGƯỜI DÙNG LĨNH VỰC PHÁP LUẬT VIỆT NAM 32

3.2 XÂY DỰNG BỘ DỮ LIỆU PHÁP LUẬT 32

3.2.1 Tìm hiểu về tập dữ liệu 32

3.3 XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI VỚI RAG 34

3.3.1 Biến đổi và lưu trữ dữ liệu 34

CHƯƠNG 4: XÂY DỰNG WEBSITE HIỆN THỰC HÓA HỆ THỐNG TRẢ LỜI CÂU HỎI 45

4.1 PHÂN TÍCH YÊU CẦU VÀ THIẾT KẾ CƠ SỞ DỮ LIỆU 45

4.2 CÁC CÔNG NGHỆ SỬ DỤNG 46

4.4 MÔ TẢ GIAO DIỆN VÀ DEMO KẾT QUẢ 51

2 Nhược điểm của đề tài 58

3 Hướng phát triển của đề tài 58

DANH MỤC TÀI LIỆU THAM KHẢO 60

Hình 1 Hình ảnh trực quan hóa của kiến trúc Transformer Bao gồm hai khối Encoder và Decoder, được hiển thị ở nửa trái và nửa phải 5

Hình 2 (Bên trái) Scaled Dot-Product Attention (Bên phải) Multi-Head Attention bao gồm các lớp Attention chạy song song 7

Hình 3 Cây tiến hóa của mô hình ngôn ngữ lớn (LLMs) thể hiện sự phát triển nhanh chóng của LLMs từ năm 2018 đến năm 2023 12

Hình 4 Kích thước của các mô hình ngôn ngữ lớn hiện nay 14

Hình 5 Mô hình Retrieval-Augmented Generation (RAG) 20

Hình 6 Đồ thị thể hiện độ chính xác của câu trả lời dựa trên vị trí của document 21

Hình 7 Mô hình text splitter 22

Hình 8 Kỹ thuật semantic splitter 23

Hình 9 Truy vấn với vector search 25

Hình 10 Truy vấn với keyword search 27

Hình 11 Truy vấn với Hybrid search 28

Hình 12 Đồ thị phân phối độ dài của dữ liệu 35

Hình 13 Lược đồ ERD (Entity-Relationship Diagram) 46

Hình 14 Giao diện trang chủ của hệ thống tư vấn luật pháp Việt Nam 51

Hình 15 Giao diện hiển thị nội dung của đoạn hội thoại 52

Hình 16 Giao diện hiển thị ngữ cảnh của câu truy vấn từ người dùng 53

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

Từ viết tắt Từ chuẩn Từ diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

LSTM Long short – term memory Mạng cải tiến để giải quyết vấn đề phụ thuộc quá dài

RNN Recurrent neural network Mạng nơ ron hồi quy LLMs Large language models Các mô hình ngôn ngữ lớn

NLP Natural language processing Tiến trình xử lý ngôn ngữ tự nhiên

Fine – tuning Là quá trình tinh chỉnh mô hinh lớn

RAG Retrieval augmented generation Truy xuất thế hệ tăng cường

FFN Feed-Forward Network Mạng truyền thẳng

CSDL Database Cơ sở dữ liệu

Hệ thống trả lời câu hỏi là một ứng dụng tương tác giữa người dùng và máy tính, sử dụng ngôn ngữ tự nhiên để tạo ra câu trả lời dựa trên câu hỏi của người dùng Sự ra đời của kiến trúc Transformer đã giúp các mô hình ngôn ngữ lớn (LLMs) dần thay thế các hệ thống truyền thống như hệ thống dựa trên luật và hệ thống truy xuất thông tin trong việc huấn luyện hệ thống trả lời câu hỏi Tuy nhiên, LLMs vẫn có hạn chế do thiếu dữ liệu trong các lĩnh vực cụ thể, dẫn đến việc cung cấp câu trả lời không chính xác Để khắc phục vấn đề này, hai phương pháp phổ biến hiện nay là fine-tuning và Retrieval-Augmented Generation (RAG) Phương pháp fine-tuning yêu cầu tinh chỉnh các tham số của mô hình, tiêu tốn nhiều tài nguyên và thời gian, trong khi RAG kết hợp sự ổn định của LLM hiện có với khả năng cập nhật dữ liệu bên ngoài, giúp cung cấp phản hồi phù hợp với ngữ cảnh trong lĩnh vực cụ thể.

Trong bài viết này, chúng tôi sử dụng kỹ thuật RAG kết hợp với mô hình ngôn ngữ GPT-3.5-Turbo để xây dựng hệ thống trả lời câu hỏi pháp luật Việt Nam, nhằm mang lại thông tin chính xác và nhanh chóng Hệ thống này hỗ trợ người dùng dễ dàng tiếp cận thông tin về các tình huống pháp lý, từ đó cải thiện trải nghiệm tra cứu pháp luật tại Việt Nam.

GVHD Ths Quách Đình Hoàng 1

1 Tính cấp thiết của đề tài

Hệ thống trả lời câu hỏi là một chatbot ứng dụng AI, tương tác với người dùng thông qua cuộc trò chuyện bằng ngôn ngữ tự nhiên để tạo ra phản hồi cho các câu hỏi.

Trước khi xuất hiện mô hình ngôn ngữ lớn (LLM), các hệ thống trả lời câu hỏi chủ yếu dựa vào hai mô hình: hệ thống dựa trên quy tắc (rule-based system) và hệ thống truy xuất (retrieval-based system) Hệ thống dựa trên quy tắc sử dụng các quy tắc cố định để chọn phản hồi dựa trên từ vựng và mẫu trò chuyện đã được xác định, nhưng thường gặp khó khăn với lỗi chính tả và ngữ pháp, chỉ xem xét tin nhắn cuối cùng Trong khi đó, hệ thống truy xuất tìm kiếm câu trả lời từ một cơ sở dữ liệu lớn chứa các câu hỏi và câu trả lời đã định nghĩa trước, cho phép đáp ứng nhiều câu hỏi hơn, nhưng vẫn bị giới hạn bởi dữ liệu có sẵn.

Sau khi ra đời, các mô hình ngôn ngữ lớn (LLM) đã cải thiện hệ thống trả lời câu hỏi bằng cách khắc phục những nhược điểm của các mô hình trước đó LLM có khả năng tạo ra phản hồi tự nhiên và linh hoạt, không bị ràng buộc bởi các quy tắc cố định Chúng sử dụng xử lý ngôn ngữ tự nhiên (NLP) để hiểu và phân tích các câu hỏi phức tạp, cho phép xử lý ngữ nghĩa một cách hiệu quả Đặc biệt, LLM có khả năng tạo ra câu trả lời mới dựa trên kiến thức từ dữ liệu huấn luyện và học hỏi từ tương tác với người dùng, từ đó cải thiện phản hồi qua các lần tương tác trước Nhờ vào những tính năng này, hệ thống trả lời câu hỏi ngày càng giống với con người hơn.

ChatGPT là một hệ thống trả lời câu hỏi nổi tiếng, được phát hành vào tháng 11 năm 2022 và nhanh chóng trở thành công cụ phổ biến nhờ khả năng cung cấp thông tin chính xác, nhanh chóng và tự nhiên ChatGPT hoạt động dựa trên mô hình ngôn ngữ lớn (LLM), được huấn luyện từ một lượng lớn dữ liệu văn bản công khai, bao gồm sách, bài báo và trang web Nhờ đó, nó có khả năng trả lời nhiều câu hỏi trong các lĩnh vực khoa học và đời sống, như toán học và tin học.

GVHD Trong quá trình sử dụng ChatGPT, chúng tôi nhận thấy rằng khi hỏi về các lĩnh vực chuyên sâu như luật pháp hay địa chỉ nhà ở, ChatGPT thường không cung cấp câu trả lời chính xác Nguyên nhân chủ yếu là do nguồn dữ liệu trong các lĩnh vực này không phổ biến và có thể thay đổi theo thời gian, ví dụ như mô hình GPT-3.5-Turbo chỉ cập nhật dữ liệu đến tháng 10 năm 2022.

Trong khóa luận tốt nghiệp, chúng tôi nghiên cứu đề tài “Xây dựng hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn” với mục tiêu giải quyết bài toán tạo ra một hệ thống có khả năng xử lý dữ liệu từ một lĩnh vực cụ thể mà chúng tôi cung cấp cho mô hình ngôn ngữ lớn.

2 Mục tiêu của đề tài

- Tìm hiểu kiến trúc Transformer

- Tìm hiểu các LLM dựa trên kiến trúc Transformer

- Tìm hiểu hệ thống trả lời câu hỏi dựa trên các LLM

- Kết hợp mô hình RAG với một LLM để xây dựng hệ thống trả lời câu hỏi trên lĩnh vực luật pháp Việt Nam

- Xây dựng giao diện website để hiện thực hóa hệ thống trả lời câu hỏi

3 Phân tích các công trình nghiên cứu

Hiện nay, nhiều nghiên cứu đã được thực hiện về hệ thống trả lời câu hỏi dựa trên các mô hình ngôn ngữ lớn (LLM) Dưới đây là một số công trình tiêu biểu trong lĩnh vực này.

Vào năm 2022, Meta AI đã giới thiệu hai mô hình ngôn ngữ lớn, LLaMA và OPT-175B, nhằm ứng dụng trong các hệ thống AI, đặc biệt là chatbot AI như Galactica Galactica cho thấy tiềm năng trong việc sử dụng LLM để tạo ra nội dung khoa học và giáo dục Tuy nhiên, do xuất hiện các phản hồi không chính xác, bản demo của Galactica đã nhanh chóng bị gỡ bỏ.

Vào tháng 11 năm 2022, OpenAI đã giới thiệu ứng dụng ChatGPT, được xây dựng trên nền tảng mô hình GPT-3.5-Turbo Ứng dụng này đã trở thành một trong những thành công nổi bật của LLM, cung cấp phản hồi tự nhiên và chính xác trong nhiều lĩnh vực khoa học và đời sống.

- Vào tháng 3 năm 2024, OpenAI tiếp tục cho ra mắt mô hình GPT-4, được cung

GVHD là một bước tiến lớn trong công nghệ mô hình ngôn ngữ lớn, với GPT-4 mang lại sự cải thiện đáng kể về độ chính xác, khả năng suy luận và xử lý ngôn ngữ tự nhiên so với các phiên bản trước Thông qua bản ChatGPT Plus (có trả phí), người dùng có thể trải nghiệm những nâng cấp này một cách hiệu quả.

Các nghiên cứu này nhằm khai thác sức mạnh của các mô hình ngôn ngữ lớn (LLM) để phát triển hệ thống trả lời câu hỏi, có khả năng hiểu và phản hồi một cách tự nhiên.

4 Kết quả dự kiến đạt được

- Hiểu về cách thức hoạt động của một mô hình ngôn ngữ lớn (LLM)

- Nắm rõ cách thức hoạt động của mô hình RAG

- Xây dựng thành công hệ thống trả lời câu hỏi dựa trên mô hình RAG kết hợp với một LLM

5 Đối tượng và phạm vi nghiên cứu

Các mô hình ngôn ngữ lớn hiện nay

Kỹ thuật RAG trong việc hiện thức hóa hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn

Nghiên cứu này được thực hiện để hỗ trợ quá trình học tập trong môn Khóa luận tốt nghiệp và được hoàn thành trong thời gian một học kỳ.

TỔNG QUAN HỆ THỐNG TRẢ LỜI CÂU HỎI DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN

KỸ THUẬT ĐÁNH GIÁ HỆ THỐNG TRẢ LỜI CÂU HỎI

3 Chương 3: Xây dựng hệ thống trả lời câu hỏi hỗ trợ người dùng lĩnh vực pháp luật Việt Nam

3.2 Xây dựng bộ dữ liệu pháp luật

3.3 Xây dựng hệ thống trả lời câu hỏi với RAG

4 Chương 4: Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi

4.1 Phân tích yêu cầu và thiết kế cơ sở dữ liệu

4.2 Các công nghệ sử dụng

4.4 Mô tả giao diện và demo kết quả

[1] Adamopoulou, E., Moussiades, L., "An Overview of Chatbot Technology," In: Maglogiannis, I., Iliadis, L., Pimenidis, E (eds) Artificial Intelligence Applications and Innovations AIAI 2020 IFIP Advances in Information and Communication Technology, 584, Springer, Cham, 2020 doi:

[2] Dilmegani, C., "LLM Fine Tuning Guide for Enterprises in 2023," https://research.aimultiple.com/llm-fine-tuning/, 2023

[3] Elastic, "What are Large Language Models?" https://www.elastic.co/what-is/large-language- models, n.d

[4] Elastic, "What is vector search?" https://www.elastic.co/what-is/vector-search, 2024

[5] Gao, Y., Xiong, Y., Gao, X., Jia, K et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv (Cornell University), 2023 doi: 10.48550/arXiv.2312.10997

[6] Hore, S., "What are Large Language Models (LLMs)?" https://www.analyticsvidhya.com/blog/2023/03/an-introduction-to-large-language-models-llms/, 2023

[7] IBM, "What is natural language processing?" https://www.ibm.com/topics/natural-language- processing, n.d

[8] Kang, B., Kim, J., Yun, T.R., Kim, C.E et al., "Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine," arXiv (Cornell University), 2024 doi: 10.48550/arXiv.2401.11246

[9] Manning, C.D., "Human language understanding & reasoning," Daedalus, 151, 2022, pp 127-138 doi: 10.1162/daed_a_01905

[10] Meyer, J.G., Urbanowicz, R.J., Martin, P.C.N et al., "ChatGPT and large language models in academia: opportunities and challenges," BioData Mining, 16, 20, 2023 doi: 10.1186/s13040-023- 00339-9

[11] OpenAI, "ChatGPT," Computer software, https://openai.com/blog/ChatGPT, Accessed 23 Apr

[12] RAG Documentation, https://docs.ragas.io/en/stable/index.html, 2023

[13] Stanford University, "Training," CS324: Systems for Machine Learning, https://stanford- cs324.github.io/winter2022/lectures/training/, 2022

[14] Vaswani, A., Shazeer, N., Parmar, N et al., "Attention is all you need," arXiv (Cornell

[15] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[16] Cổng thông tin điện tử pháp điển, https://phapdien.moj.gov.vn/Pages/home.aspx, 2023

[17] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[18] Life Architect (n.d.) Models Retrieved from https://lifearchitect.ai/models/

[19] Retrieval Augmented Generation từ Youtube AI VIET NAM

[20] Selvaganapathy C, "The Impact of Relevant Context Position and Context Size on LLM

Performance," The AI Discovery, 30 Jul 2023 Retrieved from newsletter.theaidiscovery.com/p/the- impact-of-relevant-context-position

[21] Alzubi, J A., Jain, R., Singh, et all, “COBERT: COVID-19 Question Answering System Using BERT,” Arabian Journal for Science and Engineering, 2021, doi:10.1007/s13369-021-05810-5

In the article "Introducing Hybrid Search and Rerank to Improve the Retrieval Accuracy of the RAG System," Levi Tian discusses innovative techniques to enhance the accuracy of retrieval in RAG systems The implementation of hybrid search combines traditional and modern retrieval methods, while reranking optimizes the results for better relevance These advancements aim to significantly boost the efficiency and effectiveness of information retrieval processes, making them more reliable for users For further insights, the full article can be accessed on LinkedIn.

STT Thời gian Công việc Ghi chú

Tìm hiểu cơ sở lý thuyết về mô hình ngôn ngữ Đã thực hiện thành công

Tìm hiểu kiến trúc transformer Đã thực hiện thành công

Tìm hiểu thông tin các mô hình ngôn ngữ lớn hiện nay Đã thực hiện thành công

Tìm hiểu mô hình RAG Đã thực hiện thành công

Thu thập dữ liệu về Luật pháp Việt

Nam Đã thực hiện thành công

Xây dựng hệ thống RAG kết hợp với một mô hình ngôn ngữ Đã thực hiện thành công

Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi Đã thực hiện thành công

Lê Huỳnh Thanh Dưỡng Ý kiến của giáo viên hướng dẫn

(ký và ghi rõ họ tên)

DANH MỤC HÌNH ẢNH DANH MỤC BẢNG DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT TÓM TẮT KHÓA LUẬN

1 Tính cấp thiết của đề tài 1

2 Mục tiêu của đề tài 2

3 Phân tích các công trình nghiên cứu 2

4 Kết quả dự kiến đạt được 3

5 Đối tượng và phạm vi nghiên cứu 3

CHƯƠNG 1: MÔ HÌNH NGÔN NGỮ LỚN 4

1.1 MÔ HÌNH NGÔN NGỮ LỚN 4

1.2.3 Kết nối dư (Residual Connection) và chuẩn hóa lớp (Layer Normalization) 10

1.3 SỰ PHÁT TRIỂN CỦA MÔ HÌNH NGÔN NGỮ 10

1.3.1 Phân loại mô hình ngôn ngữ 10

1.3.2 Sự phát triển của mô hình ngôn ngữ lớn 11

1.3.2 Số lượng tham số của các mô hình ngôn ngữ lớn 13

1.4 Decoder-only với GPT (Generative Pre-trained Transformer) 15

CHƯƠNG 2: TỔNG QUAN HỆ THỐNG TRẢ LỜI CÂU HỎI DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN 18

2.2 KỸ THUẬT RAG (RETRIEVAL AUGMENTED GENERATION) 19

2.3 KỸ THUẬT ĐÁNH GIÁ HỆ THỐNG TRẢ LỜI CÂU HỎI 29

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI HỖ TRỢ NGƯỜI DÙNG LĨNH VỰC PHÁP LUẬT VIỆT NAM 32

3.2 XÂY DỰNG BỘ DỮ LIỆU PHÁP LUẬT 32

3.2.1 Tìm hiểu về tập dữ liệu 32

3.3 XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI VỚI RAG 34

3.3.1 Biến đổi và lưu trữ dữ liệu 34

CHƯƠNG 4: XÂY DỰNG WEBSITE HIỆN THỰC HÓA HỆ THỐNG TRẢ LỜI CÂU HỎI 45

4.1 PHÂN TÍCH YÊU CẦU VÀ THIẾT KẾ CƠ SỞ DỮ LIỆU 45

4.2 CÁC CÔNG NGHỆ SỬ DỤNG 46

4.4 MÔ TẢ GIAO DIỆN VÀ DEMO KẾT QUẢ 51

2 Nhược điểm của đề tài 58

3 Hướng phát triển của đề tài 58

DANH MỤC TÀI LIỆU THAM KHẢO 60

Hình 1 Hình ảnh trực quan hóa của kiến trúc Transformer Bao gồm hai khối Encoder và Decoder, được hiển thị ở nửa trái và nửa phải 5

Hình 2 (Bên trái) Scaled Dot-Product Attention (Bên phải) Multi-Head Attention bao gồm các lớp Attention chạy song song 7

Hình 3 Cây tiến hóa của mô hình ngôn ngữ lớn (LLMs) thể hiện sự phát triển nhanh chóng của LLMs từ năm 2018 đến năm 2023 12

Hình 4 Kích thước của các mô hình ngôn ngữ lớn hiện nay 14

Hình 5 Mô hình Retrieval-Augmented Generation (RAG) 20

Hình 6 Đồ thị thể hiện độ chính xác của câu trả lời dựa trên vị trí của document 21

Hình 7 Mô hình text splitter 22

Hình 8 Kỹ thuật semantic splitter 23

Hình 9 Truy vấn với vector search 25

Hình 10 Truy vấn với keyword search 27

Hình 11 Truy vấn với Hybrid search 28

Hình 12 Đồ thị phân phối độ dài của dữ liệu 35

Hình 13 Lược đồ ERD (Entity-Relationship Diagram) 46

Hình 14 Giao diện trang chủ của hệ thống tư vấn luật pháp Việt Nam 51

Hình 15 Giao diện hiển thị nội dung của đoạn hội thoại 52

Hình 16 Giao diện hiển thị ngữ cảnh của câu truy vấn từ người dùng 53

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

Từ viết tắt Từ chuẩn Từ diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

LSTM Long short – term memory Mạng cải tiến để giải quyết vấn đề phụ thuộc quá dài

RNN Recurrent neural network Mạng nơ ron hồi quy LLMs Large language models Các mô hình ngôn ngữ lớn

NLP Natural language processing Tiến trình xử lý ngôn ngữ tự nhiên

Fine – tuning Là quá trình tinh chỉnh mô hinh lớn

RAG Retrieval augmented generation Truy xuất thế hệ tăng cường

FFN Feed-Forward Network Mạng truyền thẳng

CSDL Database Cơ sở dữ liệu

Hệ thống trả lời câu hỏi là ứng dụng tương tác giữa người dùng và máy tính qua ngôn ngữ tự nhiên, tạo ra câu trả lời dựa trên câu hỏi Sự phát triển của kiến trúc Transformer đã giúp các mô hình ngôn ngữ lớn (LLMs) thay thế các hệ thống truyền thống như hệ thống dựa trên luật và hệ thống truy xuất thông tin trong việc huấn luyện Tuy nhiên, các LLM vẫn gặp hạn chế do thiếu dữ liệu trong các lĩnh vực cụ thể, dẫn đến câu trả lời không chính xác Để khắc phục vấn đề này, hai phương pháp phổ biến là fine-tuning và Retrieval-Augmented Generation (RAG) được sử dụng Phương pháp fine-tuning yêu cầu tinh chỉnh tham số mô hình, tiêu tốn nhiều tài nguyên và thời gian, trong khi RAG kết hợp tính ổn định của LLM hiện có với khả năng cập nhật dữ liệu từ bên ngoài, cung cấp phản hồi phù hợp với ngữ cảnh.

Trong bài viết này, chúng tôi áp dụng kỹ thuật RAG kết hợp với mô hình ngôn ngữ GPT-3.5-Turbo để xây dựng hệ thống trả lời câu hỏi liên quan đến pháp luật Việt Nam, nhằm cung cấp thông tin chính xác và nhanh chóng Hệ thống này giúp người dùng dễ dàng tiếp cận thông tin về các tình huống pháp lý, từ đó nâng cao hiệu quả trong việc tra cứu pháp luật tại Việt Nam.

GVHD Ths Quách Đình Hoàng 1

1 Tính cấp thiết của đề tài

Hệ thống trả lời câu hỏi là một chatbot, ứng dụng của trí tuệ nhân tạo (AI), tương tác với người dùng qua hình thức trò chuyện Nó sử dụng ngôn ngữ tự nhiên để tạo ra phản hồi cho các câu hỏi của người dùng.

Trước khi xuất hiện mô hình ngôn ngữ lớn (LLM), các hệ thống trả lời câu hỏi chủ yếu dựa vào hai mô hình: hệ thống dựa trên quy tắc (rule-based system) và hệ thống truy xuất (retrieval-based system) Hệ thống dựa trên quy tắc sử dụng các quy tắc cố định để chọn phản hồi, nhưng gặp khó khăn với lỗi chính tả và ngữ pháp, thường chỉ xem xét tin nhắn cuối cùng trong cuộc trò chuyện Ngược lại, hệ thống truy xuất lấy câu trả lời từ cơ sở dữ liệu lớn chứa các câu hỏi và câu trả lời đã được định nghĩa trước, cho phép đáp ứng một phạm vi rộng hơn các câu hỏi, nhưng vẫn bị giới hạn bởi dữ liệu có sẵn.

Sau khi các mô hình ngôn ngữ lớn (LLM) ra đời, hệ thống trả lời câu hỏi đã khắc phục nhược điểm của các mô hình trước đó LLM có khả năng tạo ra phản hồi tự nhiên và linh hoạt, không bị giới hạn bởi quy tắc cố định Chúng sử dụng xử lý ngôn ngữ tự nhiên (NPL) để hiểu và phân tích các câu hỏi phức tạp về ngữ nghĩa Đặc biệt, LLM có khả năng tạo ra câu trả lời mới dựa trên kiến thức từ dữ liệu huấn luyện và học hỏi từ tương tác với người dùng, giúp cải thiện phản hồi theo thời gian Nhờ đó, hệ thống trả lời câu hỏi trở nên giống con người hơn.

ChatGPT, một hệ thống trả lời câu hỏi nổi tiếng, đã trở thành công cụ phổ biến từ khi ra mắt vào tháng 11 năm 2022 nhờ khả năng cung cấp thông tin chính xác, nhanh chóng và tự nhiên Được phát triển dựa trên mô hình ngôn ngữ lớn (LLM), ChatGPT được huấn luyện trên một lượng lớn dữ liệu văn bản công khai như sách, bài báo và trang web, cho phép nó trả lời nhiều câu hỏi trong các lĩnh vực khoa học và đời sống, bao gồm toán học và tin học.

GVHD Trong quá trình sử dụng ChatGPT, chúng tôi nhận thấy rằng khi hỏi về các lĩnh vực cụ thể như luật pháp hay địa chỉ nhà ở, ChatGPT thường không thể cung cấp câu trả lời chính xác Nguyên nhân chủ yếu là do nguồn dữ liệu về những lĩnh vực này không phổ biến và có thể thay đổi theo thời gian, ví dụ như mô hình GPT-3.5-Turbo chỉ cập nhật dữ liệu đến tháng 10 năm 2022.

Trong khóa luận tốt nghiệp này, chúng tôi nghiên cứu đề tài “Xây dựng hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn” với mục tiêu giải quyết bài toán tạo ra hệ thống có khả năng xử lý dữ liệu từ một lĩnh vực cụ thể mà chúng tôi cung cấp cho mô hình ngôn ngữ lớn.

2 Mục tiêu của đề tài

- Tìm hiểu kiến trúc Transformer

- Tìm hiểu các LLM dựa trên kiến trúc Transformer

- Tìm hiểu hệ thống trả lời câu hỏi dựa trên các LLM

- Kết hợp mô hình RAG với một LLM để xây dựng hệ thống trả lời câu hỏi trên lĩnh vực luật pháp Việt Nam

- Xây dựng giao diện website để hiện thực hóa hệ thống trả lời câu hỏi

3 Phân tích các công trình nghiên cứu

Hiện nay, nhiều nghiên cứu đã được thực hiện về hệ thống trả lời câu hỏi dựa trên các mô hình ngôn ngữ lớn (LLM) Dưới đây là một số công trình tiêu biểu trong lĩnh vực này.

Năm 2022, Meta AI đã giới thiệu hai mô hình ngôn ngữ lớn, LLaMA và OPT-175B, nhằm ứng dụng trong các hệ thống AI, đặc biệt là chatbot AI như Galactica Galactica cho thấy khả năng sử dụng LLM để tạo ra nội dung khoa học và giáo dục Tuy nhiên, do cung cấp các phản hồi sai, bản demo của Galactica đã bị gỡ bỏ nhanh chóng.

Vào tháng 11 năm 2022, OpenAI đã giới thiệu ứng dụng ChatGPT, dựa trên mô hình GPT-3.5-Turbo Ứng dụng này nổi bật với khả năng cung cấp phản hồi tự nhiên và chính xác trong nhiều lĩnh vực khoa học và đời sống, trở thành một trong những ứng dụng thành công nhất của LLM.

- Vào tháng 3 năm 2024, OpenAI tiếp tục cho ra mắt mô hình GPT-4, được cung

GVHD Ths Quách Đình Hoàng đã giới thiệu GPT-4 thông qua bản ChatGPT Plus (có phí), đánh dấu một bước tiến lớn trong công nghệ mô hình ngôn ngữ lớn GPT-4 không chỉ cải thiện độ chính xác mà còn nâng cao khả năng suy luận và xử lý ngôn ngữ tự nhiên so với các phiên bản trước đó.

Các nghiên cứu này nhằm khai thác tiềm năng của các Mô hình Ngôn ngữ Lớn (LLM) để phát triển hệ thống trả lời câu hỏi, cho phép hiểu và phản hồi một cách tự nhiên.

4 Kết quả dự kiến đạt được

- Hiểu về cách thức hoạt động của một mô hình ngôn ngữ lớn (LLM)

- Nắm rõ cách thức hoạt động của mô hình RAG

- Xây dựng thành công hệ thống trả lời câu hỏi dựa trên mô hình RAG kết hợp với một LLM

5 Đối tượng và phạm vi nghiên cứu

Các mô hình ngôn ngữ lớn hiện nay

Kỹ thuật RAG trong việc hiện thức hóa hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn

Nghiên cứu này được thực hiện với mục đích hỗ trợ quá trình học tập trong môn Khóa luận tốt nghiệp và được tiến hành trong phạm vi một học kỳ.

XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI HỖ TRỢ NGƯỜI DÙNG LĨNH VỰC PHÁP LUẬT VIỆT NAM

XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI VỚI RAG

4 Chương 4: Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi

4.1 Phân tích yêu cầu và thiết kế cơ sở dữ liệu

4.2 Các công nghệ sử dụng

4.4 Mô tả giao diện và demo kết quả

[1] Adamopoulou, E., Moussiades, L., "An Overview of Chatbot Technology," In: Maglogiannis, I., Iliadis, L., Pimenidis, E (eds) Artificial Intelligence Applications and Innovations AIAI 2020 IFIP Advances in Information and Communication Technology, 584, Springer, Cham, 2020 doi:

[2] Dilmegani, C., "LLM Fine Tuning Guide for Enterprises in 2023," https://research.aimultiple.com/llm-fine-tuning/, 2023

[3] Elastic, "What are Large Language Models?" https://www.elastic.co/what-is/large-language- models, n.d

[4] Elastic, "What is vector search?" https://www.elastic.co/what-is/vector-search, 2024

[5] Gao, Y., Xiong, Y., Gao, X., Jia, K et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv (Cornell University), 2023 doi: 10.48550/arXiv.2312.10997

[6] Hore, S., "What are Large Language Models (LLMs)?" https://www.analyticsvidhya.com/blog/2023/03/an-introduction-to-large-language-models-llms/, 2023

[7] IBM, "What is natural language processing?" https://www.ibm.com/topics/natural-language- processing, n.d

[8] Kang, B., Kim, J., Yun, T.R., Kim, C.E et al., "Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine," arXiv (Cornell University), 2024 doi: 10.48550/arXiv.2401.11246

[9] Manning, C.D., "Human language understanding & reasoning," Daedalus, 151, 2022, pp 127-138 doi: 10.1162/daed_a_01905

[10] Meyer, J.G., Urbanowicz, R.J., Martin, P.C.N et al., "ChatGPT and large language models in academia: opportunities and challenges," BioData Mining, 16, 20, 2023 doi: 10.1186/s13040-023- 00339-9

[11] OpenAI, "ChatGPT," Computer software, https://openai.com/blog/ChatGPT, Accessed 23 Apr

[12] RAG Documentation, https://docs.ragas.io/en/stable/index.html, 2023

[13] Stanford University, "Training," CS324: Systems for Machine Learning, https://stanford- cs324.github.io/winter2022/lectures/training/, 2022

[14] Vaswani, A., Shazeer, N., Parmar, N et al., "Attention is all you need," arXiv (Cornell

[15] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[16] Cổng thông tin điện tử pháp điển, https://phapdien.moj.gov.vn/Pages/home.aspx, 2023

[17] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[18] Life Architect (n.d.) Models Retrieved from https://lifearchitect.ai/models/

[19] Retrieval Augmented Generation từ Youtube AI VIET NAM

[20] Selvaganapathy C, "The Impact of Relevant Context Position and Context Size on LLM

Performance," The AI Discovery, 30 Jul 2023 Retrieved from newsletter.theaidiscovery.com/p/the- impact-of-relevant-context-position

[21] Alzubi, J A., Jain, R., Singh, et all, “COBERT: COVID-19 Question Answering System Using BERT,” Arabian Journal for Science and Engineering, 2021, doi:10.1007/s13369-021-05810-5

Levi Tian's article discusses the implementation of hybrid search and reranking techniques to enhance the retrieval accuracy of Retrieval-Augmented Generation (RAG) systems By integrating these advanced methods, the article highlights significant improvements in information retrieval processes, ultimately leading to more relevant and precise results for users The introduction of hybrid search strategies allows for a more effective combination of different retrieval approaches, while reranking further refines the output, ensuring that the most pertinent information is prioritized This innovative approach represents a crucial step forward in optimizing RAG systems for better performance.

STT Thời gian Công việc Ghi chú

Tìm hiểu cơ sở lý thuyết về mô hình ngôn ngữ Đã thực hiện thành công

Tìm hiểu kiến trúc transformer Đã thực hiện thành công

Tìm hiểu thông tin các mô hình ngôn ngữ lớn hiện nay Đã thực hiện thành công

Tìm hiểu mô hình RAG Đã thực hiện thành công

Thu thập dữ liệu về Luật pháp Việt

Nam Đã thực hiện thành công

Xây dựng hệ thống RAG kết hợp với một mô hình ngôn ngữ Đã thực hiện thành công

Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi Đã thực hiện thành công

Lê Huỳnh Thanh Dưỡng Ý kiến của giáo viên hướng dẫn

(ký và ghi rõ họ tên)

DANH MỤC HÌNH ẢNH DANH MỤC BẢNG DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT TÓM TẮT KHÓA LUẬN

1 Tính cấp thiết của đề tài 1

2 Mục tiêu của đề tài 2

3 Phân tích các công trình nghiên cứu 2

4 Kết quả dự kiến đạt được 3

5 Đối tượng và phạm vi nghiên cứu 3

CHƯƠNG 1: MÔ HÌNH NGÔN NGỮ LỚN 4

1.1 MÔ HÌNH NGÔN NGỮ LỚN 4

1.2.3 Kết nối dư (Residual Connection) và chuẩn hóa lớp (Layer Normalization) 10

1.3 SỰ PHÁT TRIỂN CỦA MÔ HÌNH NGÔN NGỮ 10

1.3.1 Phân loại mô hình ngôn ngữ 10

1.3.2 Sự phát triển của mô hình ngôn ngữ lớn 11

1.3.2 Số lượng tham số của các mô hình ngôn ngữ lớn 13

1.4 Decoder-only với GPT (Generative Pre-trained Transformer) 15

CHƯƠNG 2: TỔNG QUAN HỆ THỐNG TRẢ LỜI CÂU HỎI DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN 18

2.2 KỸ THUẬT RAG (RETRIEVAL AUGMENTED GENERATION) 19

2.3 KỸ THUẬT ĐÁNH GIÁ HỆ THỐNG TRẢ LỜI CÂU HỎI 29

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI HỖ TRỢ NGƯỜI DÙNG LĨNH VỰC PHÁP LUẬT VIỆT NAM 32

3.2 XÂY DỰNG BỘ DỮ LIỆU PHÁP LUẬT 32

3.2.1 Tìm hiểu về tập dữ liệu 32

3.3 XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI VỚI RAG 34

3.3.1 Biến đổi và lưu trữ dữ liệu 34

CHƯƠNG 4: XÂY DỰNG WEBSITE HIỆN THỰC HÓA HỆ THỐNG TRẢ LỜI CÂU HỎI 45

4.1 PHÂN TÍCH YÊU CẦU VÀ THIẾT KẾ CƠ SỞ DỮ LIỆU 45

4.2 CÁC CÔNG NGHỆ SỬ DỤNG 46

4.4 MÔ TẢ GIAO DIỆN VÀ DEMO KẾT QUẢ 51

2 Nhược điểm của đề tài 58

3 Hướng phát triển của đề tài 58

DANH MỤC TÀI LIỆU THAM KHẢO 60

Hình 1 Hình ảnh trực quan hóa của kiến trúc Transformer Bao gồm hai khối Encoder và Decoder, được hiển thị ở nửa trái và nửa phải 5

Hình 2 (Bên trái) Scaled Dot-Product Attention (Bên phải) Multi-Head Attention bao gồm các lớp Attention chạy song song 7

Hình 3 Cây tiến hóa của mô hình ngôn ngữ lớn (LLMs) thể hiện sự phát triển nhanh chóng của LLMs từ năm 2018 đến năm 2023 12

Hình 4 Kích thước của các mô hình ngôn ngữ lớn hiện nay 14

Hình 5 Mô hình Retrieval-Augmented Generation (RAG) 20

Hình 6 Đồ thị thể hiện độ chính xác của câu trả lời dựa trên vị trí của document 21

Hình 7 Mô hình text splitter 22

Hình 8 Kỹ thuật semantic splitter 23

Hình 9 Truy vấn với vector search 25

Hình 10 Truy vấn với keyword search 27

Hình 11 Truy vấn với Hybrid search 28

Hình 12 Đồ thị phân phối độ dài của dữ liệu 35

Hình 13 Lược đồ ERD (Entity-Relationship Diagram) 46

Hình 14 Giao diện trang chủ của hệ thống tư vấn luật pháp Việt Nam 51

Hình 15 Giao diện hiển thị nội dung của đoạn hội thoại 52

Hình 16 Giao diện hiển thị ngữ cảnh của câu truy vấn từ người dùng 53

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

Từ viết tắt Từ chuẩn Từ diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

LSTM Long short – term memory Mạng cải tiến để giải quyết vấn đề phụ thuộc quá dài

RNN Recurrent neural network Mạng nơ ron hồi quy LLMs Large language models Các mô hình ngôn ngữ lớn

NLP Natural language processing Tiến trình xử lý ngôn ngữ tự nhiên

Fine – tuning Là quá trình tinh chỉnh mô hinh lớn

RAG Retrieval augmented generation Truy xuất thế hệ tăng cường

FFN Feed-Forward Network Mạng truyền thẳng

CSDL Database Cơ sở dữ liệu

Hệ thống trả lời câu hỏi là một ứng dụng tương tác giữa người dùng và máy tính, sử dụng ngôn ngữ tự nhiên để tạo nội dung câu trả lời dựa trên câu hỏi của người dùng Với sự phát triển của kiến trúc Transformer, các mô hình ngôn ngữ lớn (LLMs) đã dần thay thế các mô hình truyền thống như hệ thống dựa trên luật và hệ thống truy xuất thông tin trong việc huấn luyện hệ thống trả lời câu hỏi Tuy nhiên, các LLM vẫn có hạn chế do thiếu dữ liệu trong các lĩnh vực cụ thể, dẫn đến việc đưa ra câu trả lời không chính xác Để khắc phục vấn đề này, hai phương pháp phổ biến là fine-tuning và Retrieval-Augmented Generation (RAG) được áp dụng Phương pháp fine-tuning yêu cầu tinh chỉnh tham số của mô hình, tiêu tốn nhiều tài nguyên và thời gian, trong khi RAG kết hợp tính ổn định của LLM hiện có với khả năng cập nhật nguồn dữ liệu bên ngoài, giúp cung cấp phản hồi phù hợp với ngữ cảnh cụ thể.

Trong bài luận này, chúng tôi sử dụng kỹ thuật RAG kết hợp với mô hình ngôn ngữ GPT-3.5-Turbo để xây dựng hệ thống trả lời câu hỏi liên quan đến pháp luật Việt Nam, đảm bảo độ chính xác cao Hệ thống này cho phép người dùng dễ dàng truy cập thông tin về các tình huống pháp lý, từ đó cải thiện hiệu quả trải nghiệm khi tra cứu pháp luật tại Việt Nam.

GVHD Ths Quách Đình Hoàng 1

1 Tính cấp thiết của đề tài

Hệ thống trả lời câu hỏi là một ứng dụng chatbot sử dụng trí tuệ nhân tạo (AI) để tương tác với người dùng Nó giao tiếp bằng ngôn ngữ tự nhiên, cho phép tạo ra các phản hồi từ câu hỏi của người dùng một cách hiệu quả.

Trước khi sự ra đời của mô hình ngôn ngữ lớn (LLM), các hệ thống trả lời câu hỏi chủ yếu dựa vào hai mô hình: hệ thống dựa trên quy tắc (rule-based system) và hệ thống truy xuất (retrieval-based system) Hệ thống dựa trên quy tắc sử dụng các quy tắc cố định để chọn phản hồi, nhưng thường gặp khó khăn với lỗi chính tả và ngữ pháp, chỉ xem xét tin nhắn cuối cùng trong cuộc trò chuyện Trong khi đó, hệ thống truy xuất lấy câu trả lời từ một cơ sở dữ liệu lớn chứa các câu hỏi và câu trả lời đã được định nghĩa trước, giúp mở rộng khả năng đáp ứng, nhưng vẫn bị giới hạn bởi dữ liệu có sẵn.

Sau khi các mô hình ngôn ngữ lớn (LLM) ra đời, hệ thống trả lời câu hỏi đã khắc phục nhược điểm của các mô hình trước đó LLM có khả năng tạo ra phản hồi tự nhiên và linh hoạt, không bị giới hạn bởi quy tắc cố định Chúng sử dụng xử lý ngôn ngữ tự nhiên (NPL) để hiểu và phân tích các câu hỏi phức tạp về ngữ nghĩa Đặc biệt, LLM có khả năng tạo ra câu trả lời mới dựa trên kiến thức từ dữ liệu huấn luyện và học từ tương tác với người dùng, giúp cải thiện phản hồi dựa trên các tương tác trước đó, làm cho hệ thống trả lời câu hỏi trở nên giống như con người hơn.

ChatGPT là một hệ thống trả lời câu hỏi nổi tiếng, ra mắt vào tháng 11 năm 2022, nhanh chóng trở thành công cụ phổ biến nhờ khả năng cung cấp thông tin chính xác, nhanh chóng và tự nhiên Hoạt động dựa trên mô hình ngôn ngữ lớn (LLM), ChatGPT được huấn luyện trên một lượng lớn dữ liệu văn bản công khai, bao gồm sách, bài báo và trang web, cho phép nó trả lời nhiều câu hỏi trong các lĩnh vực khoa học và đời sống, như toán học và tin học.

GVHD Ths Quách Đình Hoàng 2 vật lý chỉ ra rằng trong quá trình sử dụng ChatGPT, khi hỏi về các lĩnh vực cụ thể như luật pháp hay địa chỉ nhà ở, nó thường không cung cấp câu trả lời chính xác Nguyên nhân chính là do nguồn dữ liệu về những lĩnh vực này không phổ biến và có thể thay đổi theo thời gian, ví dụ như mô hình GPT-3.5-Turbo chỉ cập nhật dữ liệu đến tháng 10 năm 2022.

Trong khóa luận tốt nghiệp, chúng tôi nghiên cứu đề tài “Xây dựng hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn” với mục tiêu giải quyết bài toán tạo ra một hệ thống có khả năng xử lý dữ liệu từ một lĩnh vực cụ thể mà chúng tôi cung cấp cho mô hình ngôn ngữ lớn.

2 Mục tiêu của đề tài

- Tìm hiểu kiến trúc Transformer

- Tìm hiểu các LLM dựa trên kiến trúc Transformer

- Tìm hiểu hệ thống trả lời câu hỏi dựa trên các LLM

- Kết hợp mô hình RAG với một LLM để xây dựng hệ thống trả lời câu hỏi trên lĩnh vực luật pháp Việt Nam

- Xây dựng giao diện website để hiện thực hóa hệ thống trả lời câu hỏi

3 Phân tích các công trình nghiên cứu

Hiện nay, có nhiều nghiên cứu đáng chú ý về hệ thống trả lời câu hỏi dựa trên các mô hình ngôn ngữ lớn (LLM) Dưới đây là một số công trình tiêu biểu trong lĩnh vực này.

Vào năm 2022, Meta AI đã giới thiệu hai mô hình ngôn ngữ lớn, LLaMA và OPT-175B, nhằm phục vụ cho các ứng dụng AI, đặc biệt là chatbot như Galactica Galactica cho thấy tiềm năng của LLM trong việc tạo nội dung khoa học và giáo dục Tuy nhiên, vì cung cấp thông tin sai lệch, bản demo của Galactica đã bị gỡ bỏ ngay lập tức.

Vào tháng 11 năm 2022, OpenAI giới thiệu ứng dụng ChatGPT, dựa trên mô hình GPT-3.5-Turbo, nổi bật như một trong những ứng dụng thành công nhất của LLM ChatGPT cung cấp phản hồi tự nhiên và chính xác trong nhiều lĩnh vực khoa học và đời sống.

- Vào tháng 3 năm 2024, OpenAI tiếp tục cho ra mắt mô hình GPT-4, được cung

GVHD Ths Quách Đình Hoàng đã phát triển mô hình GPT-4 thông qua bản ChatGPT Plus (có trả phí) Đây là một bước tiến lớn trong công nghệ mô hình ngôn ngữ, với GPT-4 cải thiện đáng kể độ chính xác, khả năng suy luận và xử lý ngôn ngữ tự nhiên so với các phiên bản trước.

Các nghiên cứu này nhằm khai thác sức mạnh của các mô hình ngôn ngữ lớn (LLM) để phát triển hệ thống trả lời câu hỏi, giúp hiểu và phản hồi một cách tự nhiên.

4 Kết quả dự kiến đạt được

- Hiểu về cách thức hoạt động của một mô hình ngôn ngữ lớn (LLM)

- Nắm rõ cách thức hoạt động của mô hình RAG

- Xây dựng thành công hệ thống trả lời câu hỏi dựa trên mô hình RAG kết hợp với một LLM

5 Đối tượng và phạm vi nghiên cứu

Các mô hình ngôn ngữ lớn hiện nay

Kỹ thuật RAG trong việc hiện thức hóa hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn

Nghiên cứu này được thực hiện với mục đích hỗ trợ quá trình học tập cho môn Khóa luận tốt nghiệp và được tiến hành trong thời gian một học kỳ.

ĐÁNH GIÁ

4 Chương 4: Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi

4.1 Phân tích yêu cầu và thiết kế cơ sở dữ liệu

4.2 Các công nghệ sử dụng

4.4 Mô tả giao diện và demo kết quả

[1] Adamopoulou, E., Moussiades, L., "An Overview of Chatbot Technology," In: Maglogiannis, I., Iliadis, L., Pimenidis, E (eds) Artificial Intelligence Applications and Innovations AIAI 2020 IFIP Advances in Information and Communication Technology, 584, Springer, Cham, 2020 doi:

[2] Dilmegani, C., "LLM Fine Tuning Guide for Enterprises in 2023," https://research.aimultiple.com/llm-fine-tuning/, 2023

[3] Elastic, "What are Large Language Models?" https://www.elastic.co/what-is/large-language- models, n.d

[4] Elastic, "What is vector search?" https://www.elastic.co/what-is/vector-search, 2024

[5] Gao, Y., Xiong, Y., Gao, X., Jia, K et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv (Cornell University), 2023 doi: 10.48550/arXiv.2312.10997

[6] Hore, S., "What are Large Language Models (LLMs)?" https://www.analyticsvidhya.com/blog/2023/03/an-introduction-to-large-language-models-llms/, 2023

[7] IBM, "What is natural language processing?" https://www.ibm.com/topics/natural-language- processing, n.d

[8] Kang, B., Kim, J., Yun, T.R., Kim, C.E et al., "Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine," arXiv (Cornell University), 2024 doi: 10.48550/arXiv.2401.11246

[9] Manning, C.D., "Human language understanding & reasoning," Daedalus, 151, 2022, pp 127-138 doi: 10.1162/daed_a_01905

[10] Meyer, J.G., Urbanowicz, R.J., Martin, P.C.N et al., "ChatGPT and large language models in academia: opportunities and challenges," BioData Mining, 16, 20, 2023 doi: 10.1186/s13040-023- 00339-9

[11] OpenAI, "ChatGPT," Computer software, https://openai.com/blog/ChatGPT, Accessed 23 Apr

[12] RAG Documentation, https://docs.ragas.io/en/stable/index.html, 2023

[13] Stanford University, "Training," CS324: Systems for Machine Learning, https://stanford- cs324.github.io/winter2022/lectures/training/, 2022

[14] Vaswani, A., Shazeer, N., Parmar, N et al., "Attention is all you need," arXiv (Cornell

[15] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[16] Cổng thông tin điện tử pháp điển, https://phapdien.moj.gov.vn/Pages/home.aspx, 2023

[17] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[18] Life Architect (n.d.) Models Retrieved from https://lifearchitect.ai/models/

[19] Retrieval Augmented Generation từ Youtube AI VIET NAM

[20] Selvaganapathy C, "The Impact of Relevant Context Position and Context Size on LLM

Performance," The AI Discovery, 30 Jul 2023 Retrieved from newsletter.theaidiscovery.com/p/the- impact-of-relevant-context-position

[21] Alzubi, J A., Jain, R., Singh, et all, “COBERT: COVID-19 Question Answering System Using BERT,” Arabian Journal for Science and Engineering, 2021, doi:10.1007/s13369-021-05810-5

In the article by Levi Tian, published on December 20, 2023, the author discusses the implementation of Hybrid Search and Rerank techniques to enhance the retrieval accuracy of the RAG (Retrieval-Augmented Generation) system The integration of these methods aims to optimize information retrieval processes, ensuring more relevant results and improved user experience By leveraging advanced algorithms, the RAG system can significantly refine its search capabilities, making it a valuable tool for various applications in data retrieval and artificial intelligence.

STT Thời gian Công việc Ghi chú

Tìm hiểu cơ sở lý thuyết về mô hình ngôn ngữ Đã thực hiện thành công

Tìm hiểu kiến trúc transformer Đã thực hiện thành công

Tìm hiểu thông tin các mô hình ngôn ngữ lớn hiện nay Đã thực hiện thành công

Tìm hiểu mô hình RAG Đã thực hiện thành công

Thu thập dữ liệu về Luật pháp Việt

Nam Đã thực hiện thành công

Xây dựng hệ thống RAG kết hợp với một mô hình ngôn ngữ Đã thực hiện thành công

Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi Đã thực hiện thành công

Lê Huỳnh Thanh Dưỡng Ý kiến của giáo viên hướng dẫn

(ký và ghi rõ họ tên)

DANH MỤC HÌNH ẢNH DANH MỤC BẢNG DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT TÓM TẮT KHÓA LUẬN

1 Tính cấp thiết của đề tài 1

2 Mục tiêu của đề tài 2

3 Phân tích các công trình nghiên cứu 2

4 Kết quả dự kiến đạt được 3

5 Đối tượng và phạm vi nghiên cứu 3

CHƯƠNG 1: MÔ HÌNH NGÔN NGỮ LỚN 4

1.1 MÔ HÌNH NGÔN NGỮ LỚN 4

1.2.3 Kết nối dư (Residual Connection) và chuẩn hóa lớp (Layer Normalization) 10

1.3 SỰ PHÁT TRIỂN CỦA MÔ HÌNH NGÔN NGỮ 10

1.3.1 Phân loại mô hình ngôn ngữ 10

1.3.2 Sự phát triển của mô hình ngôn ngữ lớn 11

1.3.2 Số lượng tham số của các mô hình ngôn ngữ lớn 13

1.4 Decoder-only với GPT (Generative Pre-trained Transformer) 15

CHƯƠNG 2: TỔNG QUAN HỆ THỐNG TRẢ LỜI CÂU HỎI DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN 18

2.2 KỸ THUẬT RAG (RETRIEVAL AUGMENTED GENERATION) 19

2.3 KỸ THUẬT ĐÁNH GIÁ HỆ THỐNG TRẢ LỜI CÂU HỎI 29

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI HỖ TRỢ NGƯỜI DÙNG LĨNH VỰC PHÁP LUẬT VIỆT NAM 32

3.2 XÂY DỰNG BỘ DỮ LIỆU PHÁP LUẬT 32

3.2.1 Tìm hiểu về tập dữ liệu 32

3.3 XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI VỚI RAG 34

3.3.1 Biến đổi và lưu trữ dữ liệu 34

CHƯƠNG 4: XÂY DỰNG WEBSITE HIỆN THỰC HÓA HỆ THỐNG TRẢ LỜI CÂU HỎI 45

4.1 PHÂN TÍCH YÊU CẦU VÀ THIẾT KẾ CƠ SỞ DỮ LIỆU 45

4.2 CÁC CÔNG NGHỆ SỬ DỤNG 46

4.4 MÔ TẢ GIAO DIỆN VÀ DEMO KẾT QUẢ 51

2 Nhược điểm của đề tài 58

3 Hướng phát triển của đề tài 58

DANH MỤC TÀI LIỆU THAM KHẢO 60

Hình 1 Hình ảnh trực quan hóa của kiến trúc Transformer Bao gồm hai khối Encoder và Decoder, được hiển thị ở nửa trái và nửa phải 5

Hình 2 (Bên trái) Scaled Dot-Product Attention (Bên phải) Multi-Head Attention bao gồm các lớp Attention chạy song song 7

Hình 3 Cây tiến hóa của mô hình ngôn ngữ lớn (LLMs) thể hiện sự phát triển nhanh chóng của LLMs từ năm 2018 đến năm 2023 12

Hình 4 Kích thước của các mô hình ngôn ngữ lớn hiện nay 14

Hình 5 Mô hình Retrieval-Augmented Generation (RAG) 20

Hình 6 Đồ thị thể hiện độ chính xác của câu trả lời dựa trên vị trí của document 21

Hình 7 Mô hình text splitter 22

Hình 8 Kỹ thuật semantic splitter 23

Hình 9 Truy vấn với vector search 25

Hình 10 Truy vấn với keyword search 27

Hình 11 Truy vấn với Hybrid search 28

Hình 12 Đồ thị phân phối độ dài của dữ liệu 35

Hình 13 Lược đồ ERD (Entity-Relationship Diagram) 46

Hình 14 Giao diện trang chủ của hệ thống tư vấn luật pháp Việt Nam 51

Hình 15 Giao diện hiển thị nội dung của đoạn hội thoại 52

Hình 16 Giao diện hiển thị ngữ cảnh của câu truy vấn từ người dùng 53

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

Từ viết tắt Từ chuẩn Từ diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

LSTM Long short – term memory Mạng cải tiến để giải quyết vấn đề phụ thuộc quá dài

RNN Recurrent neural network Mạng nơ ron hồi quy LLMs Large language models Các mô hình ngôn ngữ lớn

NLP Natural language processing Tiến trình xử lý ngôn ngữ tự nhiên

Fine – tuning Là quá trình tinh chỉnh mô hinh lớn

RAG Retrieval augmented generation Truy xuất thế hệ tăng cường

FFN Feed-Forward Network Mạng truyền thẳng

CSDL Database Cơ sở dữ liệu

Hệ thống trả lời câu hỏi là ứng dụng tương tác giữa người dùng và máy tính, sử dụng ngôn ngữ tự nhiên để tạo nội dung câu trả lời Sự ra đời của kiến trúc Transformer đã giúp các mô hình ngôn ngữ lớn (LLMs) dần thay thế các hệ thống truyền thống như hệ thống dựa trên luật và hệ thống truy xuất thông tin trong huấn luyện hệ thống trả lời câu hỏi Tuy nhiên, LLMs vẫn gặp hạn chế khi không có đủ dữ liệu trong các lĩnh vực cụ thể, dẫn đến việc đưa ra câu trả lời không chính xác Để khắc phục vấn đề này, hai phương pháp phổ biến là fine-tuning và Retrieval-Augmented Generation (RAG) Phương pháp fine-tuning yêu cầu tinh chỉnh tham số mô hình, tiêu tốn nhiều tài nguyên và thời gian, trong khi RAG kết hợp tính ổn định của LLM hiện có với khả năng cập nhật nguồn dữ liệu bên ngoài, cung cấp phản hồi phù hợp với ngữ cảnh.

Trong bài viết này, chúng tôi sử dụng kỹ thuật RAG kết hợp với mô hình ngôn ngữ GPT-3.5-Turbo để xây dựng hệ thống trả lời câu hỏi pháp luật Việt Nam, nhằm mang đến các câu trả lời chính xác Hệ thống này giúp người dùng nhanh chóng tìm kiếm thông tin về các tình huống pháp lý, từ đó cải thiện trải nghiệm tra cứu pháp luật tại Việt Nam.

GVHD Ths Quách Đình Hoàng 1

1 Tính cấp thiết của đề tài

Hệ thống trả lời câu hỏi là một dạng chatbot, ứng dụng trí tuệ nhân tạo (AI) để tương tác với người dùng Nó giao tiếp bằng ngôn ngữ tự nhiên, tạo ra phản hồi từ các câu hỏi của người dùng.

Trước khi mô hình ngôn ngữ lớn (LLM) xuất hiện, các hệ thống trả lời câu hỏi chủ yếu dựa trên hai mô hình: hệ thống dựa trên quy tắc (rule-based system) và hệ thống truy xuất (retrieval-based system) Hệ thống dựa trên quy tắc sử dụng các quy tắc cố định để chọn phản hồi, nhưng thường gặp khó khăn với lỗi chính tả và ngữ pháp, chỉ xem xét tin nhắn cuối cùng trong cuộc trò chuyện Trong khi đó, hệ thống truy xuất khác biệt ở chỗ nó lấy câu trả lời từ cơ sở dữ liệu lớn chứa các câu hỏi và câu trả lời đã được định nghĩa, cho phép đáp ứng nhiều loại câu hỏi hơn, nhưng vẫn bị giới hạn bởi dữ liệu có sẵn.

Sau khi ra đời, các mô hình ngôn ngữ lớn (LLM) đã cải thiện hệ thống trả lời câu hỏi bằng cách khắc phục nhược điểm của các mô hình trước Với khả năng tạo ra phản hồi tự nhiên và linh hoạt, LLM không bị giới hạn bởi các quy tắc cố định Chúng sử dụng xử lý ngôn ngữ tự nhiên (NLP) để hiểu và phân tích các câu hỏi phức tạp, đồng thời có khả năng tạo ra câu trả lời mới dựa trên kiến thức từ dữ liệu huấn luyện và tương tác với người dùng Nhờ đó, hệ thống trả lời câu hỏi trở nên giống con người hơn.

ChatGPT, một hệ thống trả lời câu hỏi nổi tiếng, đã trở thành công cụ phổ biến kể từ khi ra mắt vào tháng 11 năm 2022 nhờ khả năng phản hồi thông tin chính xác, nhanh chóng và tự nhiên Hoạt động dựa trên mô hình ngôn ngữ lớn (LLM), ChatGPT được huấn luyện trên một khối lượng lớn dữ liệu văn bản công khai, bao gồm sách, bài báo và trang web, cho phép nó trả lời nhiều câu hỏi trong các lĩnh vực khoa học và đời sống như toán học và tin học.

GVHD Ths Quách Đình Hoàng 2 vật lý cho thấy rằng trong quá trình sử dụng, khi hỏi về các lĩnh vực cụ thể như luật pháp hay địa chỉ nhà ở, ChatGPT thường không cung cấp câu trả lời chính xác hoàn toàn Nguyên nhân chủ yếu là do nguồn dữ liệu trong những lĩnh vực này không phổ biến và có thể thay đổi theo thời gian, ví dụ như mô hình GPT-3.5-Turbo chỉ được cập nhật dữ liệu đến tháng 10 năm 2022.

Trong khóa luận tốt nghiệp này, chúng tôi nghiên cứu đề tài “Xây dựng hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn” Mục tiêu của nghiên cứu là giải quyết bài toán tạo ra một hệ thống có khả năng xử lý dữ liệu từ một lĩnh vực cụ thể mà chúng tôi cung cấp cho mô hình ngôn ngữ lớn.

2 Mục tiêu của đề tài

- Tìm hiểu kiến trúc Transformer

- Tìm hiểu các LLM dựa trên kiến trúc Transformer

- Tìm hiểu hệ thống trả lời câu hỏi dựa trên các LLM

- Kết hợp mô hình RAG với một LLM để xây dựng hệ thống trả lời câu hỏi trên lĩnh vực luật pháp Việt Nam

- Xây dựng giao diện website để hiện thực hóa hệ thống trả lời câu hỏi

3 Phân tích các công trình nghiên cứu

Hiện nay, nhiều nghiên cứu đã được thực hiện về hệ thống trả lời câu hỏi dựa trên các mô hình ngôn ngữ lớn (LLM) Dưới đây là một số công trình tiêu biểu trong lĩnh vực này.

Vào năm 2022, Meta AI đã giới thiệu hai mô hình ngôn ngữ lớn, LLaMA và OPT-175B, nhằm ứng dụng trong các hệ thống AI, đặc biệt là chatbot AI như Galactica Galactica cho thấy tiềm năng của LLM trong việc tạo ra nội dung khoa học và giáo dục Tuy nhiên, do cung cấp thông tin sai lệch, bản demo của Galactica đã bị gỡ bỏ nhanh chóng.

Vào tháng 11 năm 2022, OpenAI đã giới thiệu ứng dụng ChatGPT dựa trên mô hình GPT-3.5-Turbo, nổi bật là một trong những ứng dụng thành công nhất của LLM Ứng dụng này cung cấp phản hồi tự nhiên và chính xác trong nhiều lĩnh vực khoa học và đời sống.

- Vào tháng 3 năm 2024, OpenAI tiếp tục cho ra mắt mô hình GPT-4, được cung

GVHD là một bước tiến lớn trong công nghệ mô hình ngôn ngữ lớn với GPT-4, được phát triển bởi Quách Đình Hoàng thông qua bản ChatGPT Plus (có trả phí) Phiên bản này cải thiện đáng kể độ chính xác, khả năng suy luận và xử lý ngôn ngữ tự nhiên so với các phiên bản trước đó.

Các nghiên cứu này nhằm khai thác sức mạnh của các Mô hình Ngôn ngữ Lớn (LLM) để phát triển hệ thống trả lời câu hỏi, giúp hiểu và phản hồi một cách tự nhiên.

4 Kết quả dự kiến đạt được

- Hiểu về cách thức hoạt động của một mô hình ngôn ngữ lớn (LLM)

- Nắm rõ cách thức hoạt động của mô hình RAG

- Xây dựng thành công hệ thống trả lời câu hỏi dựa trên mô hình RAG kết hợp với một LLM

5 Đối tượng và phạm vi nghiên cứu

Các mô hình ngôn ngữ lớn hiện nay

Kỹ thuật RAG trong việc hiện thức hóa hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn

Nghiên cứu này được thực hiện với mục đích hỗ trợ quá trình học tập trong môn Khóa luận tốt nghiệp và được triển khai trong thời gian một học kỳ.

XÂY DỰNG WEBSITE HIỆN THỰC HÓA HỆ THỐNG TRẢ LỜI CÂU HỎI

MÔ TẢ GIAO DIỆN VÀ DEMO KẾT QUẢ

[1] Adamopoulou, E., Moussiades, L., "An Overview of Chatbot Technology," In: Maglogiannis, I., Iliadis, L., Pimenidis, E (eds) Artificial Intelligence Applications and Innovations AIAI 2020 IFIP Advances in Information and Communication Technology, 584, Springer, Cham, 2020 doi:

[2] Dilmegani, C., "LLM Fine Tuning Guide for Enterprises in 2023," https://research.aimultiple.com/llm-fine-tuning/, 2023

[3] Elastic, "What are Large Language Models?" https://www.elastic.co/what-is/large-language- models, n.d

[4] Elastic, "What is vector search?" https://www.elastic.co/what-is/vector-search, 2024

[5] Gao, Y., Xiong, Y., Gao, X., Jia, K et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv (Cornell University), 2023 doi: 10.48550/arXiv.2312.10997

[6] Hore, S., "What are Large Language Models (LLMs)?" https://www.analyticsvidhya.com/blog/2023/03/an-introduction-to-large-language-models-llms/, 2023

[7] IBM, "What is natural language processing?" https://www.ibm.com/topics/natural-language- processing, n.d

[8] Kang, B., Kim, J., Yun, T.R., Kim, C.E et al., "Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine," arXiv (Cornell University), 2024 doi: 10.48550/arXiv.2401.11246

[9] Manning, C.D., "Human language understanding & reasoning," Daedalus, 151, 2022, pp 127-138 doi: 10.1162/daed_a_01905

[10] Meyer, J.G., Urbanowicz, R.J., Martin, P.C.N et al., "ChatGPT and large language models in academia: opportunities and challenges," BioData Mining, 16, 20, 2023 doi: 10.1186/s13040-023- 00339-9

[11] OpenAI, "ChatGPT," Computer software, https://openai.com/blog/ChatGPT, Accessed 23 Apr

[12] RAG Documentation, https://docs.ragas.io/en/stable/index.html, 2023

[13] Stanford University, "Training," CS324: Systems for Machine Learning, https://stanford- cs324.github.io/winter2022/lectures/training/, 2022

[14] Vaswani, A., Shazeer, N., Parmar, N et al., "Attention is all you need," arXiv (Cornell

[15] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[16] Cổng thông tin điện tử pháp điển, https://phapdien.moj.gov.vn/Pages/home.aspx, 2023

[17] Yang, J., Jin, H., Tang, R et al., "Survey on ChatGPT and Beyond," arXiv (Cornell University),

[18] Life Architect (n.d.) Models Retrieved from https://lifearchitect.ai/models/

[19] Retrieval Augmented Generation từ Youtube AI VIET NAM

[20] Selvaganapathy C, "The Impact of Relevant Context Position and Context Size on LLM

Performance," The AI Discovery, 30 Jul 2023 Retrieved from newsletter.theaidiscovery.com/p/the- impact-of-relevant-context-position

[21] Alzubi, J A., Jain, R., Singh, et all, “COBERT: COVID-19 Question Answering System Using BERT,” Arabian Journal for Science and Engineering, 2021, doi:10.1007/s13369-021-05810-5

In the article by Levi Tian, titled "Introducing Hybrid Search and Rerank to Improve the Retrieval Accuracy of the RAG System," published on December 20, 2023, the author discusses innovative strategies to enhance the retrieval capabilities of Retrieval-Augmented Generation (RAG) systems The introduction of hybrid search techniques and reranking processes is emphasized as a means to significantly improve the accuracy of information retrieval This advancement aims to optimize the performance of RAG systems, making them more effective in delivering relevant results For more insights, you can read the full article on LinkedIn.

STT Thời gian Công việc Ghi chú

Tìm hiểu cơ sở lý thuyết về mô hình ngôn ngữ Đã thực hiện thành công

Tìm hiểu kiến trúc transformer Đã thực hiện thành công

Tìm hiểu thông tin các mô hình ngôn ngữ lớn hiện nay Đã thực hiện thành công

Tìm hiểu mô hình RAG Đã thực hiện thành công

Thu thập dữ liệu về Luật pháp Việt

Nam Đã thực hiện thành công

Xây dựng hệ thống RAG kết hợp với một mô hình ngôn ngữ Đã thực hiện thành công

Xây dựng website hiện thực hóa hệ thống trả lời câu hỏi Đã thực hiện thành công

Lê Huỳnh Thanh Dưỡng Ý kiến của giáo viên hướng dẫn

(ký và ghi rõ họ tên)

DANH MỤC HÌNH ẢNH DANH MỤC BẢNG DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT TÓM TẮT KHÓA LUẬN

1 Tính cấp thiết của đề tài 1

2 Mục tiêu của đề tài 2

3 Phân tích các công trình nghiên cứu 2

4 Kết quả dự kiến đạt được 3

5 Đối tượng và phạm vi nghiên cứu 3

CHƯƠNG 1: MÔ HÌNH NGÔN NGỮ LỚN 4

1.1 MÔ HÌNH NGÔN NGỮ LỚN 4

1.2.3 Kết nối dư (Residual Connection) và chuẩn hóa lớp (Layer Normalization) 10

1.3 SỰ PHÁT TRIỂN CỦA MÔ HÌNH NGÔN NGỮ 10

1.3.1 Phân loại mô hình ngôn ngữ 10

1.3.2 Sự phát triển của mô hình ngôn ngữ lớn 11

1.3.2 Số lượng tham số của các mô hình ngôn ngữ lớn 13

1.4 Decoder-only với GPT (Generative Pre-trained Transformer) 15

CHƯƠNG 2: TỔNG QUAN HỆ THỐNG TRẢ LỜI CÂU HỎI DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN 18

2.2 KỸ THUẬT RAG (RETRIEVAL AUGMENTED GENERATION) 19

2.3 KỸ THUẬT ĐÁNH GIÁ HỆ THỐNG TRẢ LỜI CÂU HỎI 29

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI HỖ TRỢ NGƯỜI DÙNG LĨNH VỰC PHÁP LUẬT VIỆT NAM 32

3.2 XÂY DỰNG BỘ DỮ LIỆU PHÁP LUẬT 32

3.2.1 Tìm hiểu về tập dữ liệu 32

3.3 XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI VỚI RAG 34

3.3.1 Biến đổi và lưu trữ dữ liệu 34

CHƯƠNG 4: XÂY DỰNG WEBSITE HIỆN THỰC HÓA HỆ THỐNG TRẢ LỜI CÂU HỎI 45

4.1 PHÂN TÍCH YÊU CẦU VÀ THIẾT KẾ CƠ SỞ DỮ LIỆU 45

4.2 CÁC CÔNG NGHỆ SỬ DỤNG 46

4.4 MÔ TẢ GIAO DIỆN VÀ DEMO KẾT QUẢ 51

2 Nhược điểm của đề tài 58

3 Hướng phát triển của đề tài 58

DANH MỤC TÀI LIỆU THAM KHẢO 60

Hình 1 Hình ảnh trực quan hóa của kiến trúc Transformer Bao gồm hai khối Encoder và Decoder, được hiển thị ở nửa trái và nửa phải 5

Hình 2 (Bên trái) Scaled Dot-Product Attention (Bên phải) Multi-Head Attention bao gồm các lớp Attention chạy song song 7

Hình 3 Cây tiến hóa của mô hình ngôn ngữ lớn (LLMs) thể hiện sự phát triển nhanh chóng của LLMs từ năm 2018 đến năm 2023 12

Hình 4 Kích thước của các mô hình ngôn ngữ lớn hiện nay 14

Hình 5 Mô hình Retrieval-Augmented Generation (RAG) 20

Hình 6 Đồ thị thể hiện độ chính xác của câu trả lời dựa trên vị trí của document 21

Hình 7 Mô hình text splitter 22

Hình 8 Kỹ thuật semantic splitter 23

Hình 9 Truy vấn với vector search 25

Hình 10 Truy vấn với keyword search 27

Hình 11 Truy vấn với Hybrid search 28

Hình 12 Đồ thị phân phối độ dài của dữ liệu 35

Hình 13 Lược đồ ERD (Entity-Relationship Diagram) 46

Hình 14 Giao diện trang chủ của hệ thống tư vấn luật pháp Việt Nam 51

Hình 15 Giao diện hiển thị nội dung của đoạn hội thoại 52

Hình 16 Giao diện hiển thị ngữ cảnh của câu truy vấn từ người dùng 53

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

Từ viết tắt Từ chuẩn Từ diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

LSTM Long short – term memory Mạng cải tiến để giải quyết vấn đề phụ thuộc quá dài

RNN Recurrent neural network Mạng nơ ron hồi quy LLMs Large language models Các mô hình ngôn ngữ lớn

NLP Natural language processing Tiến trình xử lý ngôn ngữ tự nhiên

Fine – tuning Là quá trình tinh chỉnh mô hinh lớn

RAG Retrieval augmented generation Truy xuất thế hệ tăng cường

FFN Feed-Forward Network Mạng truyền thẳng

CSDL Database Cơ sở dữ liệu

Hệ thống trả lời câu hỏi là một ứng dụng tương tác giữa người dùng và máy tính thông qua ngôn ngữ tự nhiên, tạo ra nội dung dựa trên câu hỏi của người dùng Sự phát triển của kiến trúc Transformer đã giúp các mô hình ngôn ngữ lớn (LLMs) thay thế các hệ thống truyền thống như hệ thống dựa trên luật và hệ thống truy xuất thông tin trong việc huấn luyện hệ thống trả lời câu hỏi Tuy nhiên, LLMs vẫn gặp khó khăn với các lĩnh vực cụ thể do thiếu dữ liệu, dẫn đến câu trả lời không chính xác Để khắc phục vấn đề này, hai phương pháp phổ biến là fine-tuning và Retrieval-Augmented Generation (RAG) được áp dụng Phương pháp fine-tuning yêu cầu tinh chỉnh tham số mô hình, tiêu tốn nhiều tài nguyên và thời gian, trong khi RAG kết hợp tính ổn định của LLM hiện có với khả năng cập nhật nguồn dữ liệu bên ngoài, giúp cung cấp phản hồi phù hợp hơn với ngữ cảnh.

Trong bài viết này, chúng tôi giới thiệu việc áp dụng kỹ thuật RAG kết hợp với mô hình ngôn ngữ GPT-3.5-Turbo để xây dựng hệ thống trả lời câu hỏi liên quan đến pháp luật Việt Nam Hệ thống này được thiết kế nhằm cung cấp các câu trả lời chính xác, giúp người dùng nhanh chóng tìm kiếm thông tin về các tình huống pháp lý, từ đó nâng cao trải nghiệm tra cứu pháp luật tại Việt Nam.

GVHD Ths Quách Đình Hoàng 1

1 Tính cấp thiết của đề tài

Hệ thống trả lời câu hỏi là một loại chatbot, ứng dụng của trí tuệ nhân tạo (AI), tương tác với người dùng thông qua cuộc trò chuyện bằng ngôn ngữ tự nhiên để cung cấp phản hồi cho các câu hỏi.

Trước khi sự xuất hiện của mô hình ngôn ngữ lớn (LLM), các hệ thống trả lời câu hỏi chủ yếu dựa vào hai mô hình chính: hệ thống dựa trên quy tắc (rule-based system), sử dụng các quy tắc cố định để phản hồi dựa trên từ vựng và mẫu trò chuyện đã xác định, nhưng gặp khó khăn với lỗi chính tả và ngữ pháp; và hệ thống dựa trên truy xuất (retrieval-based system), truy xuất câu trả lời từ cơ sở dữ liệu lớn với các câu hỏi và câu trả lời đã định nghĩa trước, cho phép đáp ứng đa dạng hơn nhưng vẫn bị giới hạn bởi dữ liệu có sẵn.

Sau khi ra đời, các mô hình LLM đã cải thiện đáng kể hệ thống trả lời câu hỏi bằng cách khắc phục nhược điểm của các mô hình trước đó Chúng có khả năng tạo ra phản hồi tự nhiên và linh hoạt, không bị giới hạn bởi quy tắc cố định Thông qua xử lý ngôn ngữ tự nhiên (NPL), LLM hiểu và phân tích các câu hỏi phức tạp về ngữ nghĩa Đặc biệt, chúng có thể tạo ra câu trả lời mới dựa trên kiến thức từ dữ liệu huấn luyện và học hỏi từ tương tác với người dùng, từ đó cải thiện phản hồi qua các lần tương tác trước Nhờ vậy, hệ thống trả lời câu hỏi trở nên giống con người hơn.

ChatGPT là một hệ thống trả lời câu hỏi nổi tiếng, ra mắt vào tháng 11 năm 2022, nhanh chóng trở thành công cụ phổ biến nhờ khả năng cung cấp thông tin chính xác và tự nhiên Được phát triển dựa trên mô hình ngôn ngữ lớn (LLM), ChatGPT được huấn luyện trên một khối lượng lớn dữ liệu văn bản công khai, bao gồm sách, bài báo và trang web, giúp nó có khả năng trả lời đa dạng câu hỏi trong các lĩnh vực khoa học và đời sống như toán học và tin học.

GVHD Trong quá trình sử dụng ChatGPT, chúng tôi nhận thấy rằng khi hỏi về các lĩnh vực cụ thể như luật pháp hay địa chỉ nhà ở, nó thường không đưa ra được câu trả lời chính xác Nguyên nhân chủ yếu là do nguồn dữ liệu về những lĩnh vực này không phổ biến và có thể thay đổi theo thời gian, chẳng hạn như mô hình GPT-3.5-Turbo chỉ cập nhật dữ liệu đến tháng 10 năm 2022.

Trong khóa luận tốt nghiệp này, chúng tôi nghiên cứu đề tài “Xây dựng hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn” Mục tiêu của nghiên cứu là phát triển một hệ thống có khả năng xử lý và trả lời câu hỏi từ một lĩnh vực cụ thể mà chúng tôi cung cấp cho mô hình ngôn ngữ lớn.

2 Mục tiêu của đề tài

- Tìm hiểu kiến trúc Transformer

- Tìm hiểu các LLM dựa trên kiến trúc Transformer

- Tìm hiểu hệ thống trả lời câu hỏi dựa trên các LLM

- Kết hợp mô hình RAG với một LLM để xây dựng hệ thống trả lời câu hỏi trên lĩnh vực luật pháp Việt Nam

- Xây dựng giao diện website để hiện thực hóa hệ thống trả lời câu hỏi

3 Phân tích các công trình nghiên cứu

Hiện nay, nhiều công trình nghiên cứu đã được thực hiện về hệ thống trả lời câu hỏi dựa trên các mô hình ngôn ngữ lớn (LLM) Dưới đây là một số nghiên cứu tiêu biểu trong lĩnh vực này.

Vào năm 2022, Meta AI giới thiệu hai mô hình ngôn ngữ lớn, LLaMA và OPT-175B, nhằm cải thiện hệ thống AI, đặc biệt là trong các chatbot như Galactica Galactica đã chứng minh khả năng của LLM trong việc sản xuất nội dung khoa học và giáo dục Tuy nhiên, do cung cấp thông tin sai lệch, bản demo của Galactica đã bị gỡ bỏ ngay lập tức.

Vào tháng 11 năm 2022, OpenAI đã giới thiệu ứng dụng ChatGPT dựa trên mô hình GPT-3.5-Turbo, trở thành một trong những ứng dụng thành công nhất của LLM Ứng dụng này nổi bật trong việc cung cấp phản hồi tự nhiên và chính xác trên nhiều lĩnh vực khoa học và đời sống.

- Vào tháng 3 năm 2024, OpenAI tiếp tục cho ra mắt mô hình GPT-4, được cung

GVHD Ths Quách Đình Hoàng 3 đã được nâng cấp thông qua bản ChatGPT Plus (có phí) Đây là một bước tiến lớn trong công nghệ mô hình ngôn ngữ lớn, vì GPT-4 cải thiện đáng kể độ chính xác, khả năng suy luận và xử lý ngôn ngữ tự nhiên so với các phiên bản trước.

Các nghiên cứu này nhằm khai thác sức mạnh của các Mô hình Ngôn ngữ Lớn (LLM) để phát triển hệ thống trả lời câu hỏi, có khả năng hiểu và phản hồi một cách tự nhiên.

4 Kết quả dự kiến đạt được

- Hiểu về cách thức hoạt động của một mô hình ngôn ngữ lớn (LLM)

- Nắm rõ cách thức hoạt động của mô hình RAG

- Xây dựng thành công hệ thống trả lời câu hỏi dựa trên mô hình RAG kết hợp với một LLM

5 Đối tượng và phạm vi nghiên cứu

Các mô hình ngôn ngữ lớn hiện nay

Kỹ thuật RAG trong việc hiện thức hóa hệ thống trả lời câu hỏi dựa trên mô hình ngôn ngữ lớn

Nghiên cứu này được thực hiện nhằm hỗ trợ quá trình học tập trong môn Khóa luận tốt nghiệp và được tiến hành trong thời gian một học kỳ.

Kết quả đạt được

Trong đề tài này, chúng tôi đã hoàn thành được các công việc sau:

- Hoàn thiện trong việc tìm hiểu các mô hình ngôn ngữ lớn dựa trên kiến trúc Transformer

- Ứng dụng thành công mô hình GPT (Generative Pre-trained transformer) để tạo ra các câu trả lời tự động

Tích hợp kỹ thuật RAG giúp tối ưu hóa việc sử dụng cơ sở dữ liệu vector và các phương pháp tìm kiếm vector, đảm bảo khả năng truy xuất thông tin chính xác và nhanh chóng từ nguồn dữ liệu pháp điển Việt Nam.

Hệ thống trả lời câu hỏi hỗ trợ người dùng trong lĩnh vực pháp luật được phát triển nhằm cung cấp thông tin pháp lý chính xác và nhanh chóng Với khả năng hiểu và phản hồi các câu hỏi pháp lý, hệ thống này giúp người dùng giải quyết vấn đề một cách hiệu quả và tin cậy.

Nhược điểm của đề tài

Trong đề tài này vẫn còn khá nhiều hạn chế cần được xử lý:

- Chất lượng và sự đa dạng của dữ liệu huấn luyện có thể chưa đủ để mô hình đạt hiệu quả tối đa trong mọi trường hợp

Hệ thống đôi khi có thể đưa ra câu trả lời không chính xác hoặc không phù hợp với ngữ cảnh câu hỏi Điều này xảy ra do những hạn chế trong việc tìm kiếm dữ liệu bằng phương pháp vector search, ảnh hưởng đến khả năng cung cấp ngữ cảnh cho mô hình.

Việc đánh giá mô hình của chúng tôi gặp khó khăn do thiếu hụt bộ dữ liệu đáng tin cậy chứa các câu hỏi và câu trả lời liên quan đến pháp luật, điều này ảnh hưởng đến khả năng đánh giá toàn diện hệ thống.

Hướng phát triển của đề tài

Dựa trên những hạn chế đã được đề cập, chúng tôi định hướng phát triển hệ thống trong tương lai theo các hướng sau:

- Cập nhật dữ liệu: chúng tôi sẽ cập nhật và bổ sung thêm các dữ liệu pháp luật đang

GVHD Ths Quách Đình Hoàng 59 đã ban hành quy định từ “Cổng thông tin điện tử pháp điển” để đảm bảo tính chính xác của dữ liệu và tạo sự đa dạng về thông tin liên quan đến các chủ đề trong đời sống Điều này sẽ giúp hệ thống cung cấp thông tin pháp luật một cách toàn diện và đáng tin cậy hơn.

Chúng tôi sẽ cải thiện mô hình Embedding bằng cách áp dụng các phương pháp tiên tiến hơn để biểu diễn ngữ cảnh dữ liệu Việc này sẽ nâng cao khả năng hiểu ngữ cảnh cho các truy vấn từ người dùng.

Kết hợp tìm kiếm vector và tìm kiếm theo từ khóa giúp tối ưu hóa trải nghiệm truy vấn của người dùng Phương pháp này đặc biệt hiệu quả khi từ khóa mà người dùng cung cấp trùng khớp với các tài liệu trong cơ sở dữ liệu vector.

GVHD Ths Quách Đình Hoàng 60

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Adamopoulou, E., Moussiades, L., "An Overview of Chatbot Technology," In: Maglogiannis, I., Iliadis, L., Pimenidis, E (eds) Artificial Intelligence Applications and Innovations AIAI 2020 IFIP Advances in Information and Communication Technology, 584, Springer, Cham, 2020 doi:

[2] Dilmegani, C., "LLM Fine Tuning Guide for Enterprises in 2023," https://research.aimultiple.com/llm-fine-tuning/, 2023

[3] Elastic, "What are Large Language Models?" https://www.elastic.co/what-is/large-language- models, n.d

[4] Elastic, "What is vector search?" https://www.elastic.co/what-is/vector-search, 2024

[5] Gao, Y., Xiong, Y., Gao, X., Jia, K et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv (Cornell University), 2023 doi: 10.48550/arXiv.2312.10997

[6] Hore, S., "What are Large Language Models (LLMs)?" https://www.analyticsvidhya.com/blog/2023/03/an-introduction-to-large-language-models-llms/, 2023

[7] IBM, "What is natural language processing?" https://www.ibm.com/topics/natural-language- processing, n.d

[8] Kang, B., Kim, J., Yun, T.R., Kim, C.E et al., "Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine," arXiv

[9] Manning, C.D., "Human language understanding & reasoning," Daedalus, 151, 2022, pp 127-138 doi: 10.1162/daed_a_01905

[10] Meyer, J.G., Urbanowicz, R.J., Martin, P.C.N et al., "ChatGPT and large language models in academia: opportunities and challenges," BioData Mining, 16, 20, 2023 doi: 10.1186/s13040-023- 00339-9

[11] OpenAI, "ChatGPT," Computer software, https://openai.com/blog/ChatGPT, Accessed 23 Apr

[12] RAG Documentation, https://docs.ragas.io/en/stable/index.html, 2023

[13] Stanford University, "Training," CS324: Systems for Machine Learning, https://stanford- cs324.github.io/winter2022/lectures/training/, 2022

[14] Vaswani, A., Shazeer, N., Parmar, N et al., "Attention is all you need," arXiv (Cornell

Ngày đăng: 19/11/2024, 12:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Dilmegani, C., "LLM Fine Tuning Guide for Enterprises in 2023," https://research.aimultiple.com/llm-fine-tuning/, 2023 Sách, tạp chí
Tiêu đề: LLM Fine Tuning Guide for Enterprises in 2023
[3] Elastic, "What are Large Language Models?" https://www.elastic.co/what-is/large-language-models, n.d Sách, tạp chí
Tiêu đề: What are Large Language Models
[4] Elastic, "What is vector search?" https://www.elastic.co/what-is/vector-search, 2024 Sách, tạp chí
Tiêu đề: What is vector search
[5] Gao, Y., Xiong, Y., Gao, X., Jia, K. et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv (Cornell University), 2023. doi: 10.48550/arXiv.2312.10997 Sách, tạp chí
Tiêu đề: Retrieval-Augmented Generation for Large Language Models: A Survey
[6] Hore, S., "What are Large Language Models (LLMs)?" https://www.analyticsvidhya.com/blog/2023/03/an-introduction-to-large-language-models-llms/, 2023 Sách, tạp chí
Tiêu đề: What are Large Language Models (LLMs)
[7] IBM, "What is natural language processing?" https://www.ibm.com/topics/natural-language-processing, n.d Sách, tạp chí
Tiêu đề: What is natural language processing
[8] Kang, B., Kim, J., Yun, T.R., Kim, C.E. et al., "Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine," arXiv (Cornell University), 2024. doi: 10.48550/arXiv.2401.11246 Sách, tạp chí
Tiêu đề: Prompt-RAG: Pioneering Embedding vector-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine
[9] Manning, C.D., "Human language understanding & reasoning," Daedalus, 151, 2022, pp. 127-138. doi: 10.1162/daed_a_01905 Sách, tạp chí
Tiêu đề: Human language understanding & reasoning
[10] Meyer, J.G., Urbanowicz, R.J., Martin, P.C.N. et al., "ChatGPT and large language models in academia: opportunities and challenges," BioData Mining, 16, 20, 2023. doi: 10.1186/s13040-023- 00339-9 Sách, tạp chí
Tiêu đề: ChatGPT and large language models in academia: opportunities and challenges
[11] OpenAI, "ChatGPT," Computer software, https://openai.com/blog/ChatGPT, Accessed 23 Apr 2023, 2022 Sách, tạp chí
Tiêu đề: ChatGPT
[13] Stanford University, "Training," CS324: Systems for Machine Learning, https://stanford- cs324.github.io/winter2022/lectures/training/, 2022 Sách, tạp chí
Tiêu đề: Training
[14] Vaswani, A., Shazeer, N., Parmar, N. et al., "Attention is all you need," arXiv (Cornell University), 2017. doi: 10.48550/arXiv.1706.03762 Sách, tạp chí
Tiêu đề: Attention is all you need
[12] RAG Documentation, https://docs.ragas.io/en/stable/index.html, 2023 Link

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w