1. Trang chủ
  2. » Giáo Dục - Đào Tạo

luận văn thạc sĩ phát triển chatbot trên nền tảng transformers ứng dụng trong tìm kiếm tra cứu thông tin về trường đại học công nghệ đông á

70 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề PHÁT TRIÂN CHATBOT TRấN NÀN TÀNG TRANSFORMERS ĄNG DĀNG TRONG TèM KIắM, TRA CĄU THễNG TIN VÀ TR¯õNG ĐắI HàC CễNG NGHị ĐễNG Á
Tác giả Bà CễNG TH¯ĂNG
Người hướng dẫn TS. Trần Hựng C°ồng, TS. Đò Văn Tuấn
Trường học TR¯õNG ĐắI HàC CễNG NGHIịP HÀ NịI
Chuyên ngành Hà THàNG THễNG TIN
Thể loại ĐÀ ÁN TàT NGHIàP THắC S)
Năm xuất bản 2024
Thành phố Hà Nỏi
Định dạng
Số trang 70
Dung lượng 909,21 KB

Nội dung

Mä ĐÄU LÝ DO CHàN ĐÀ TÀI Trong thåi đ¿i sá hóa hián nay, sự phát triển nhanh chóng cÿa trí tuá nhân t¿o và công nghá xử lý ngôn ngữ tự nhiên đã t¿o ra c¢ hái āng dụng các há tháng Chatbo

NHU C Ä U TRA C Ą U THễNG TIN THễNG V À TR¯õNG Đắ I H à C CÔNG NGH ị ĐÔNG ÁHàC CÔNG NGHịĐÔNG ÁH á c sinh, ph ā huynh tìm hi à u thông tin v Á tr°ã ng

Nh° chỳng ta thấy tr°óc mòi kỳ thi tuyển sinh đ¿i học, mòi học sinh và phụ huynh cÿa cỏc em luụn phải chọn lựa ngành, nghÁ và tr°ồng cho cỏc em theo học Để quy¿t đỏnh lựa chọn mỏt ngụi tr°ồng, ngành, nghÁ phự hợp vói mỡnh, mòi học sinh và phụ huynh đÁu phải tỡm hiểu rất kỹ vÁ ngụi tr°ồng và cỏc thụng tin liờn quan Mòi năm cú tói cả triỏu thớ sinh thi tỏt nghiỏp Trung học phổ thụng và tuyển sinh Đ¿i học Mòi học sinh hay phụ huynh mong muỏn tìm hiểu nh° thông tin cụ thểnh°: Lo¿i hình, hình thāc và cấp đào t¿o, ch°¢ng trỡnh học, bằng cấp, chāng chò, quy đỏnh, hồs thi tuyển, hỡnh thāc tuyển sinh, c sở vật chất, trang thi¿t bỏ, đỏi ngũ Giảng viờn, vớ trớ đỏa lý, học phớ, hò trợ tài chính, học bổng, °u đãi, uy tín, danh ti¿ng, áp dụng công nghá trong đào t¿o, giảng d¿y, đầu ra sinh viên…

Tuy à n d ā ng nhân l ā c

Đại học Công nghệ Đông Á là cơ sở giáo dục đại học đào tạo các học viên đại học, thạc sĩ, và nhiều ngành nghề đang là xu hướng của xã hội Nhà trường cung cấp nguồn nhân lực chất lượng cao, toàn diện, có phẩm chất đạo đức và trình độ chuyên môn giỏi Nhờ đó, Đại học Công nghệ Đông Á là đơn vị uy tín cho hoạt động tuyển dụng nhân lực của các doanh nghiệp trên địa bàn và cả nước Khi tuyển dụng, các doanh nghiệp thường tìm hiểu thông tin liên quan về nhà trường để đánh giá nguồn nhân lực đã được đào tạo.

Thụng tin tuy à n d āng, c hò i nghiờn c ą u

Hàng năm Nhà tr°ồng tuyển dụng những vỏ trớ giảng viờn, nhõn viờn cho các khoa và phòng ban Viác cung cấp thông tin tuyển dụng trên các kênh thông tin truyÁn thông là không thể thi¿u

Giảng viờn và sinh viờn cÿa tr°ồng đÁu là cỏc nhà khoa học thực hiỏn nghiờn cāu khoa học, vói những đÁ tài cấp bỏmụn, khoa và Tr°ồng; thụng tin vÁ nghiờn cāu khoa học cÿa tr°ồng cũng đ°ợc truyÁn tải trờn cỏc kờnh truyÁn thông.

K ¿ t n ò i c òng đỏ ng sinh viờn, c ā u sinh viờn

Vói bÁdày đào t¿o hÂn 15 năm, Nhà tr°ồng đó cú rất nhiÁu lóp sinh viờn ra tr°ồng Nhu cầu tỡm hiểu thụng tin vÁ tr°ồng, k¿t nỏi cựu sinh viờn là rất lón Mòi sinh viờn khi ra tr°ồng cú thểđ¿n mọi miÁn cÿa Tổ quỏc để làm viỏc, thậm trí là cả n°ãc ngoài, họ có nhu cầu tìm ki¿m thông tin, theo dõi quá trình phỏt triển cÿa Nhà tr°ồng Đang học t¿i tr°ồng là cỏc lóp sinh viờn đ°ợc sinh ho¿t trong cỏc nhúm, cõu l¿c bỏ Viỏc truy cập, chia sẻ thụng tin vÁ tr°ồng đ°ợc thực hiỏn th°ồng xuyên.

TH Ā C TR ắ NG, CÁC GI ÀI PHÁP ĐANG Đ¯ỵ C ÁP D Ā NG TRONG TRA C Ą U THÔNG TIN V À TR¯õNG Đắ I H à C CÔNG NGH ị ĐÔNG TRA CĄU THÔNG TIN VÀTR¯õNG ĐắI HàC CÔNG NGHịĐÔNGTrang thụng tin điò n t ĉ

Nhà trường ứng dụng công nghệ web trong xây dựng trang thông tin điện tử về trồng trọt tại địa chỉ eaut.edu.vn Đây là nơi cung cấp các thông tin từ cơ bản đến chi tiết về mọi mặt của ngành trồng trọt Trang web cung cấp các thông tin dưới dạng văn bản, hình ảnh, âm thanh và video Việc tìm kiếm, hỗ trợ trả lời thông tin về trồng trọt được thực hiện thông qua các ứng dụng Facebook, Messenger và tawk.to Các ứng dụng này đã được tạo, quản lý tài khoản và trực tiếp con người sử dụng để trả lời các câu hỏi của người dùng và chưa sử dụng công nghệ hiện đại của Chatbot.

Cỏc s ā ki ò n truy Á n thụng

Để lan tòa thụng tin; Nhà tr°ồng đó sử dụng cỏc sự kiỏn truyÁn thụng nh°:

- Chào đún tõn sinh viờn đ°ợc thực hiỏn mòi năm;

- Lò cụng nhận, trao bằng đ°ợc thực hiỏn mòi năm;

- Hái thảo khoa học các cấp;

M ¿ ng xó h ò i

Vãi xu th¿ và sự bùng phát cÿa các m¿ng xã hái; để quảng bá hình ảnh Nhà tr°ồng và truyÁn tải đ°ợc nhiÁu thụng tin hÂn tói nhiÁu ng°ồi hÂn Nhà tr°ồng đó sử dụng cỏc m¿ng Xó hỏi nh° Zalo, Facebook để k¿t nỏi, chia sẻ thông tin.

T° và n h á c t ¿p, t° và n tuy à n sinh

Là kênh truyÁn tháng giúp truyÁn tải, cung cấp thông tin tãi học sinh, sinh viờn và ng°ồi nhà học sinh Nhà tr°ồng cú đỏi ngũ t° vấn tuyển sinh chuyờn nghiỏp, chÿđỏng trong cụng tỏc t° vấn Mòi khoa đÁu cú cỏc trợ lý học tập giúp sinh viên hiểu h¢n vÁ các quy đánh, quy ch¿ và cách thực hián các thÿ tục trong Nhà tr°ồng T° vấn trực ti¿p hoặc thụng qua cỏc m¿ng xó hỏi nh°

ĐÁNH GIÁ HIị U QU À C Ă A CÁC GI ÀI PHÁP ĐANG Đ¯ỵ C ÁP D Ā NG DĀNG

Những giải pháp đang thực hiện đang thể hiện các °u điểm nh°:

- Trang thông tin đián tử mang l¿i sự tián lợi trong viác truy cập thông tin mọi lúc, mọi n¢i vãi mát thi¿t bá k¿t nái internet;

- Cung cấp mát nguồn thông tin đa d¿ng vÁch°¢ng trình học, sự kián và thông báo quan trọng;

- Sự kián truyÁn thông t¿o c¢ hái cho t°¢ng tác trực ti¿p giữa cáng đồng và tr°ồng Đ¿i Học Cụng Nghỏ Đụng Á;

- M¿ng xã hái t¿o điÁu kián cho t°¢ng tác liên tục và phản hồi từ cáng đồng;

- T° vấn học tập và tuyển sinh cung cấp hò trợ cỏ nhõn húa cho sinh viờn vãi thông tin đác đáo vÁ khóa học và ch°¢ng trình học

Cùng với đó là những bất cập cần đ°ợc giải quyết và khắc phục:

- Ng°ồi dựng cú thể gặp khú khăn khi tỡm ki¿m thụng tin chi ti¿t trong các trang có nhiÁu nái dung;

- Sự kián có thể giãi h¿n đái t°ợng tham gia và không tián lợi cho những ng°ồi khụng thể tham gia trực ti¿p;

- Thông tin trên m¿ng xã hái có thể bá lan truyÁn nhanh chóng, nh°ng cũng dò bỏ hiểu lầm hoặc bi¿n đổi;

- Có thể h¿n ch¿ vÁ khả năng t°¢ng tác và truyÁn đ¿t thông tin tự nhiên;

- Cần sử dụng nhiÁu nhân lực trong các ph°¢ng pháp truyÁn tháng

Viác tích hợp Chatbot vào há tháng truyÁn thông có thể giúp tái °u hóa các lợi ích và giảm thiểu các h¿n ch¿ Chatbot có thể cung cấp thông tin linh ho¿t, hò trợ t°Âng tỏcđồng thồi tăng c°ồng trải nghiỏm ng°ồi dựng ĐiÁu này giỳp cả cỏng đồng thuận tiỏn truy cập thụng tin và t°Âng tỏc vói tr°ồng mỏt cách hiáu quả và hấp dÁn.

CHATBOT VÀ Ą NG D Ā NG C Ă A CHATBOT [9]Khỏi ni ò m Chatbot

Chatbot, viết tắt của "chat robot", là một phần mềm ứng dụng trí tuệ nhân tạo (AI) được thiết kế để mô phỏng và xử lý các cuộc trò chuyện của con người thông qua ngôn ngữ tự nhiên Nhờ khả năng tương tác với người dùng qua văn bản hoặc giọng nói, chatbot giúp tự động hóa các nhiệm vụ giao tiếp và cung cấp thông tin một cách hiệu quả Những tiến bộ trong xử lý ngôn ngữ tự nhiên (NLP) và học sâu (deep learning) đã làm tăng cường khả năng của chatbot trong việc hiểu và phản hồi các truy vấn của người dùng một cách chính xác và tự nhiên.

Các lo ¿ i Chatbot

Chatbot có thể đ°ợc phân lo¿i thành hai nhóm chính: chatbot dựa trên quy tắc (rule-based) và chatbot dựa trên AI

Chatbot dāa trên quy tÁc: Những chatbot này ho¿t đáng dựa trên các quy tắc và kách bản đ°ợc lập trình sẵn Chúng phản hồi theo các mÁu câu và từ khúa đó đ°ợc xỏc đỏnh tr°óc ¯u điểm cÿa lo¿i chatbot này là dò triển khai và kiểm soát, nh°ng nh°ợc điểm là h¿n ch¿ trong viác xử lý các truy vấn phāc t¿p và linh ho¿t

Chatbot dāa trên AI: Những chatbot này sử dụng công nghá AI và học mỏy (machine learning) để học hòi từ dữ liỏu và cải thiỏn khả năng hiểu và phản hồi Chúng có thể phân tích ngữ cảnh, học từcác t°¢ng tác tr°ãc đó và tự đỏng điÁu chònh phản hồi Nh°ợc điểm cÿa lo¿i này là cần dữ liỏu lón và tài nguyên tính toán m¿nh để huấn luyán và vận hành.

Ą ng d ā ng c ă a Chatbot

Chatbot đã đ°ợc āng dụng ráng rãi trong nhiÁu l*nh vực khác nhau, mang l¿i nhiÁu lợi ích đáng kể

Trò chuyện trực tiếp với khách hàng: Trợ lý ảo có thể hoạt động 24/7 để hỗ trợ khách hàng, trả lời các câu hỏi thường gặp, giải quyết các vấn đề cơ bản và hướng dẫn khách hàng trong quá trình sử dụng sản phẩm hoặc dịch vụ.

Trong thương mại điện tử, chatbot có thể tư vấn sản phẩm, hỗ trợ quy trình đặt hàng, cung cấp thông tin và tình trạng đơn hàng, đồng thời giải quyết các khiếu nại của khách hàng Chatbot còn có khả năng phân tích dữ liệu khách hàng để đưa ra gợi ý sản phẩm phù hợp, giúp doanh nghiệp tăng cường trải nghiệm mua sắm cho khách hàng và tối ưu hóa hoạt động kinh doanh.

Giỏo dāc: Trong l*nh vực giỏo dục, chatbot cú thể hò trợ học tập, giải đáp thắc mắc vÁ bài học, cung cấp tài liáu học tập và nhắc nhở học sinh vÁ lách học Đặc biỏt, chatbot cú thể hò trợ trong viỏc t° vấn tuyển sinh, cung cấp thụng tin vÁ các khóa học và ch°¢ng trình đào t¿o

Y t¿: Trong y t¿, chatbot cú thểt° vấn sāc khòe, đặt lỏch hẹn khỏm bỏnh, cung cấp thông tin vÁ triáu chāng bánh và thuác, và nhắc nhở bánh nhân uáng thuỏc đỳng giồ Chatbot giỳp giảm bót gỏnh nặng cho cỏc nhõn viờn y t¿ và cải thiỏn chất l°ợng chăm súc sāc khòe

Ngân hàng và tài chính: Chatbot có thể hỗ trợ khách hàng thực hiện các giao dịch ngân hàng, kiểm tra số dư tài khoản, tư vấn tài chính và giải đáp các thắc mắc liên quan đến dịch vụ ngân hàng Điều này giúp tăng cường hiệu quả dịch vụ và cải thiện trải nghiệm khách hàng.

L ÿ i ích c ă a Chatbot

Chatbot mang l¿i nhiÁu lợi ích cho các tổ chāc và doanh nghiáp, bao gồm:

Tăng c°óng hiòu quÁ: Chatbot cú thể xử lý mỏt l°ợng lón yờu cầu cựng lỳc mà khụng gặp phải sự mỏt mòi, giỳp tăng c°ồng hiỏu quả làm viỏc và giảm thiểu thồi gian chồđợi cÿa khỏch hàng

Tiết kiệm chi phí: Sử dụng chatbot giúp giảm chi phí đáng kể cho các công việc lặp đi lặp lại và tăng cường tự động hóa các quy trình kinh doanh.

Nõng cao trÁi nghiòm khỏch hàng: Chatbot cung cấp dỏch vụ liờn tục

24/7, giỳp giải đỏp kỏp thồi cỏc thắc mắc cÿa khỏch hàng và cải thiỏn sự hài lòng cÿa họ

Thu th¿p và phõn tớch dÿ liòu: Chatbot cú khả năng thu thập và phõn tích dữ liáu từ các t°¢ng tác vãi khách hàng, giúp doanh nghiáp hiểu rõ h¢n vÁ nhu cầu và hành vi cÿa khách hàng để đ°a ra các chi¿n l°ợc kinh doanh phù hợp.

Thỏch th ą c trong vi ò c tri à n khai Chatbot

Mặc dù có nhiÁu lợi ích, viác triển khai chatbot cũng đái mặt vãi mát sá thách thāc:

HiÃu ngÿ cÁnh: Viác hiểu và xử lý ngữ cảnh trong các cuác trò chuyán phāc t¿p là mát thách thāc lãn đái vãi chatbot

BÁo m¿t và quyÁn riêng t°: Viác bảo vá thông tin cá nhân và đảm bảo quyÁn riờng t° cÿa ng°ồi dựng là mỏt vấn đÁ quan trọng khi triển khai chatbot

ChÃt l°ÿng dÿ liòu: Chatbot dựa trờn AI cần dữ liỏu lón và chất l°ợng cao để huấn luyán Dữ liáu không đầy đÿ hoặc không chính xác có thể ảnh h°ởng đ¿n hiáu quả cÿa chatbot

T°¢ng tác tā nhiên: Để t¿o ra trải nghiám t°¢ng tác tự nhiên, chatbot cần đ°ợc thi¿t k¿ sao cho phản hồi mát cách linh ho¿t và phù hợp vãi ngữ cảnh

CH¯ĂNG 2 - CĂ Sọ Lí THUYắT

Bài viết này sẽ tập trung khám phá về Transformers, trình bày quá trình đào tạo và đặc điểm của các mô hình ngôn ngữ lớn (Large Language Model - LLMs).

MắNG NĂ -RON KắT NịI ĐÄY ĐĂKhỏi niòm vÁ m¿ng n -ron k¿t nòi đÅy đă

M¿ng n¢-ron k¿t nái đầy đÿ (fully connected neural network), còn đ°ợc gọi là m¿ng n¢-ron truyÁn thẳng (feedforward neural network), là mát lo¿i ki¿n trỳc m¿ng nÂ-ron c bản trong học sõu Trong m¿ng nÂ-ron này, mòi nÂ-ron trong mát lãp đ°ợc k¿t nái vãi tất cả các n¢-ron trong lãp liÁn tr°ãc và lãp liÁn sau nó [6]

Mạng nơ-ron kết nối đầy đủ gồm một lớp đầu vào, một hoặc nhiều lớp ẩn, và một lớp đầu ra Trong mỗi lớp, mỗi nơ-ron được kết nối với tất cả nơ-ron trong lớp liền trước và lớp liền sau nó thông qua trọng số và ngưỡng Mỗi nơ-ron trong các lớp ẩn và lớp đầu ra thường áp dụng một hàm kích hoạt phi tuyến tính, như hàm sigmoid, tanh hoặc ReLU, để tạo ra đầu ra phi tuyến Tính toán đầu ra của mạng bằng cách truyền dữ liệu từ lớp đầu vào qua các lớp ẩn cho đến lớp đầu ra Quá trình này không có chu kỳ phản hồi, nghĩa là không có kết nối ngược từ lớp đầu ra đến các lớp ẩn.

H iòn t°ÿng overfit ting, underfitting và cỏch khÁc phāc

Overfiting: Khi mô hình có đá chính xác cao vãi bá dữ liáu huấn luyán, nh°ng đá chính xác thấp vãi bá dữ liáu mãi (hay dữ liáu tổng thể) [6]

Hình 2.3 Hàm mục tiêu và overfitting Underfitting là hián t°ợng khi mô hình xây dựng ch°a có đá chính xác cao trong tập dữ liáu huấn luyán cũng nh° tổng quát hóa vãi tổng thể dữ liáu

Khi hián t°ợng Underfitting xảy ra, mô hình đó sẽ không phải là tát vãi bất kì bá dữ liáu nào trong từng bài toán cụ thể.

MắNG HàI QUY VÀ BÀI TO ÁN S2SKi¿n trúc m¿ng hái quy cho bài toán S2S

Mát vấn đÁ đặt ra trong xử lý ngôn ngữ tự nhiên là xác đánh từ, cụm từ ti¿p theo trong ngữ cảnh cÿa cõu hòi hay cÿa từ tr°óc đú tāc là viỏc suy luận dựa trên những từ lân cận vá trí hián t¿i để đ°a ra từ ti¿p theo mát cách chính xác, phù hợp vãi ngữ cảnh Mát trong những điểm nổi bật cÿa m¿ng n¢-ron hồi quy là các m¿ng con có thể sử dụng dữ liáu tr°ãc đó để xử lý cho công viác hián t¿i [8]

M¿ng bá nhã ngắn h¿n - dài h¿n (Long Short-Term Memory - LSTM) là mát lo¿i n¢-ron hồi quy đặc biát, có khảnăng học các phụ thuác dài h¿n Chúng đ°ợc giói thiỏu bởi Hochreiter & Schmidhuber (1997) và đ°ợc nhiÁu ng°ồi cải ti¿n, áp dụng ráng rãi trong các giải pháp trong đó bài toán S2S là mát điển hình [8]

LSTM th°ồng cú cỏc lóp t°Âng tỏc vói nhau theo ph°Âng thāc đ°ợc quy đánh từ tr°ãc cÿa chúng

Hình 2.4 Ví dụ m¿ng n¢-ron hồi quy LSTM Trong đó các ký hiáu đ°ợc giải thích:

Hình 2.5 Các thành phần trong m¿ng n¢-ron hồi quy LSTM Biểu t°ợng vòng tròn màu hồng biểu thá các phép cáng véc-t¢, hình chữ nhật màu vàng biểu thá cho các lãp m¿ng n¢-ron Các mũi tên đ¢n màu đen biểu thá cho sự ghép nái, các mũi tên phân nhánh biểu thá cho nái dung đang đ°ợc sao chép

2.2.2 ¯u điÃm và h¿n ch¿ căa m¿ng hỏi qui đòi vỏi bài toỏn S2S ¯u điểm:

- Khả năng xử lý dữ liáu tuần tự: M¿ng hồi quy rất phù hợp vãi dữ liáu tuần tự nh° văn bản, vì chúng có khảnăng ghi nhã thông tin từcác b°ãc tr°ãc và sử dụng thông tin đó để dựđoán b°ãc ti¿p theo;

- Khả năng xử lý cỏc chuòi cú đỏ dài khỏc nhau: Trong bài toỏn dỏch ngụn ngữ, đầu vào và đầu ra th°ồng cú đỏ dài khỏc nhau M¿ng hồi quy cú thể xửlý điÁu này mát cách tự nhiên

Mạng LSTM và GRU giải quyết vấn đề độ dốc trở nên rất nhỏ hoặc biến mất trong quá trình huấn luyện hiệu quả Tuy nhiên, chúng vẫn gặp khó khăn trong việc ghi nhớ thông tin qua các chuỗi dài.

- Tác đá huấn luyán: Do tính tuần tự cÿa dữ liáu, viác huấn luyán m¿ng hồi quy th°ồng mất nhiÁu thồi gian hÂn so vói cỏc lo¿i m¿ng nÂ-ron khỏc.

TRANSFORMERSKi¿n trúc Transformers

Transformers là mô hình bao gồm 2 thành phần chính: mã hóa (Encoder) và giải mã (Decoder)

Encoder là mát ngăn x¿p gồm 6 lãp riêng biát x¿p chồng lên nhau, sá lóp ởđõy cú thể tựy chònh phụ thuỏc vào mục đớch từng bài toỏn Mòi lóp bao gồm 2 lãp con, đầu tiên là lãp xử lý chú ý đa đầu (Multi-head Attention) và lãp con thā hai đ¢n giản là mát m¿ng n¢-ron truyÁn thẳng (Feed-forward) K¿t nái phần d° (Residuals Connection) bao quanh hai lãp con này ti¿p theo đó là b°ãc chu¿n hóa lãp (Layer Normalization) giúp mô hình huấn luyán hiáu quảh¢n và tránh mất mát thông tin [7]

Decoder cũng đ°ợc cấu thành từ 6 lãp riêng biát (cùng sá lãp vãi encoder) Mòi lóp bao gồm 2 lóp con giỏng vói encoder và thờm mỏt lóp Multi- head attention nằm ở giữa giúp Decoder t¿o đ°ợc mái t°¢ng quan vãi câu đầu vào Giáng vãi Encoder kỹ thuật Residual Connection và Layer Normalization cũng đ°ợc áp dụng trên các lãp con Có mát sự thay đổi ở lãp con Multi-head Attention đầu tiên, thay vì truyÁn tất cả các từ trong câu vào Decoder, thực hián che đi các từ ch°a đ°ợc mô hình dách đ¿n gọi là c¢ ch¿ Masked Multi-head Attention

Hình 2.6 S¢ đồ mô hình Transformers

Mó húa vò trớ căa tć

Word embedding giỳp biểu diòn ngữ ngh*a cÿa mỏt từ, tuy nhiờn cựng mát từ ở vá trí khác nhau cÿa câu l¿i mang ý ngh*a khác nhau Do đó Transformers có thêm mát phần Positional Encoding đểđ°a thêm thông tin vÁ vá trí cÿa mát từ

PE(pos, 2i) = sin(þýý 1000⁄ 2�㕖 �㕑 ⁄ þ�㕜ý þý) (2.1)

PE(pos, 2i+1) = cos(þýý 10000⁄ 2�㕖 �㕑 ⁄ þ�㕜ý þý) (2.2) Trong đó pos là vá trí cÿa từ trong câu, PE là giá trá phần tử thā i trong embeddings có đá dài dmodel Sau đó cáng véc-t¢ PE và véc-t¢ Embedding

Hình 2.7 Mã hóa vá trí từ nhúng

Self-Attention và Cross -Attention

Sử dụng m¿ng LSTM gặp phải mát sákhó khăn sau:

Thời gian huấn luyện LSTM thường dài và phức tạp vì gradient path rất dài, đặc biệt khi xử lý chuỗi dài Điều này dẫn đến thời gian huấn luyện kéo dài và độ phức tạp tăng lên đáng kể Mỗi chuỗi dữ liệu có độ dài khác nhau tương ứng với một mạng lưới huấn luyện có kích thước tương ứng, gây ra khó khăn trong quá trình tối ưu hóa.

Transfer learning khụng hiỏu quả: LSTM th°ồng khụng thớch āng tỏt vói viác chuyển giao ki¿n thāc từ mát nhiám vụ huấn luyán sang mát nhiám vụ mói ĐiÁu này cú ngh*a là khi ỏp dụng LSTM vào mỏt bài toỏn mói, th°ồng cần phải huấn luyỏn l¿i mụ hỡnh vói dữ liỏu mói, tỏn kộm thồi gian và tài nguyên

H¿n ch¿ cÿa mô hình seq2seq: Trong mô hình seq2seq vãi LSTM, viác encoder "nộn" toàn bỏ chuòi đầu vào thành mỏt vector biểu diòn duy nhất cú thể dÁn đ¿n viỏc mất mỏt thụng tin quan trọng, đặc biỏt là khi chuòi đầu vào cú đỏ dài lón Decoder chò cú thể nhỡn vào mỏt vector đầu vào duy nhất, điÁu này làm giảm khảnăng xử lý cỏc phần khỏc nhau cÿa chuòi đầu vào t¿i từng b°óc, dÁn đ¿n sự giãi h¿n trong viác trích xuất thông tin cần thi¿t C¢ ch¿ chú ý (Attention mechanism) ra đồi để giải quy¿t vấn đÁ này bằng cỏch tập trung vào cỏc phần quan trọng cÿa chuòi đầu vào t¿i mòi b°óc trong quỏ trỡnh giải mó

Tự chú ý (Self-Attention) cho phép Transformers, một loại mạng nơ-ron, hiểu được mối quan hệ giữa các từ trong một câu Ví dụ: từ "đá" trong câu "Tôi đá quả bóng" có liên quan gì đến các từ khác?

Liên quan mật thi¿t đ¿n từ "I" (chÿ ngữ), "kicked" là chính nó lên sẽ luôn "liên quan m¿nh" và "ball" (vá ngữ) Ngoài ra từ "the" là giãi từ nên sự liên k¿t vãi từ "kicked" gần nh° không có [7]

Hình 2.8 C¢ ch¿ Self-Attention Đầu vào cÿa các mô-đun Multi-head Attention có ba mũi tên là ba véc- t¢ Querys (Q), Keys (K) và Values (V) Từ ba véc-t¢ này, tính véc-t¢ attention Z cho mát từ theo công thāc sau: ý = ýý�㕓þ �㕚þ�㕥 (√Dimension of vector Q K or V �㕄.�㔾 �㕇 ) �㕉 (2.3) Thực hián tính nh° sau:

B°ớc 1: Tính ba véc-t¢ Q, K, V, input embedding đ°ợc nhân vãi ba ma trận trọng sát°¢ng āng WQ, WK, WV

Bước 2: Các vectơ từ đóng vai trò như đại diện cho các từ trong câu, được sử dụng như các "khóa" Vectơ Q, đại diện cho từ hiện tại hoặc từ đang được xem xét, sẽ truy vấn đến các vectơ K của các từ khác trong câu bằng cách thực hiện phép nhân chập giữa chúng Nhân chập để tính toán độ liên quan giữa các từ với nhau (2 từ liên quan đến nhau sẽ có "Score" lớn) Bước "Scale" chia để chuẩn hóa "Score".

"Score" cho căn bậc hai cÿa sá chiÁu cÿa Q/K/V (trong hình chia 8 vì Q/K/V là 64-D véc-t¢) giúp giá trá "Score" không phụ thuác vào đá dài cÿa véc-t¢ Q/K/V

B°ớc 3: Sử dụng hàm softmax để chu¿n hóa các giá trá k¿t quả vÁ đo¿n từ0 đ¿n 1 K¿t quả cÿa quá trình này thể hián māc đát°¢ng đồng giữa Q và K

N¿u giá trá là 1 tāc là t°¢ng đồng hoàn toàn và 0 biểu thá sựkhông t°¢ng đồng

B°ớc 4: Nhõn phõn bỏ xỏc suất đú vói vộc-t V để lo¿i bò những từ khụng cần thi¿t (xỏc suất nhò) và giữ l¿i những từ quan trọng (xỏc suất lón)

Bước thứ năm là thực hiện phép nhân các vectơ V để tạo ra vectơ chú ý Z cho mỗi từ cụ thể Quá trình này lặp lại cho tất cả các từ trong câu để tạo ra ma trận chú ý cho câu đó.

C¢ ch¿ chú ý chéo (Cross-Attention) hoặc lãp chú ý chéo, cho phép các mô hình xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) nắm bắt cỏc mỏi quan hỏ phāc t¿p và sự phụ thuỏc giữa cỏc chuòi đầu vào khỏc nhau Nú v°ợt xa c ch¿ tự chỳ ý, tập trung vào sự hiểu bi¿t trong mỏt chuòi duy nhất và cho phép mô hình ti¿p thu thông tin từ nhiÁu nguồn mát cách hiáu quả

Chú ý chéo ho¿t đáng bằng cách tính toán trọng sá attention phản ánh māc đỏ liờn quan cÿa từng phần tử trong chuòi này vói cỏc phần tử trong chuòi khác Bằng cách tận dụng các truy vấn, khóa và giá trá, c¢ ch¿ này sẽ tính toán trọng sỏ chỳ ý dựa trờn sựt°Âng đồng hoặc t°Âng quan giữa cỏc chuòi Ng°ợc l¿i, các trọng sánày đ°ợc sử dụng để t¿o ra các véc-t¢ ngữ cảnh nhằm nắm bắt thụng tin quan trọng từ chuòi khỏc Khả năng m¿nh mẽ này cho phộp cỏc mụ hình trích xuất những hiểu bi¿t sâu sắc vÁ sắc thái và đ°a ra quy¿t đánh sáng suát trong các nhiám vụ NLP khác nhau.

Mòt sò LLM nói ti¿ng sĉ dāng ki¿n trỳc Transformer s

Bidirectional Encoder Representations from Transformers (BERT):

BERT là mô hình huấn luyện trước, sử dụng véc-tơ biểu diễn từ theo ngữ cảnh hai chiều để chuyển giao sang các bài toán xử lý ngôn ngữ tự nhiên khác Điểm nổi bật của BERT là khả năng nắm bắt mối quan hệ ngữ nghĩa của các từ trong ngữ cảnh cụ thể, giúp hiệu quả hơn trong các tác vụ như phân tích tình cảm, trả lời câu hỏi và tóm tắt văn bản.

BERT là mô hình đ°ợc xây dựng và huấn luyán bởi Google trên kho văn bản lãn gồm Toronto Book Corpus và Wikipedia [9] BERT đ°ợc thi¿t k¿ để huấn luyỏn tr°óc cỏc biểu diòn hai chiÁu từ văn bản khụng đ°ợc gắn nhón bằng cách điÁu hòa chung cả ngữ cảnh bên trái và bên phải trong tất cả các lãp Do đú, mụ hỡnh BERT đ°ợc huấn luyỏn tr°óc cú thể đ°ợc tinh chònh chò vói mỏt lãp đầu ra bổsung để t¿o ra các mô hình hián đ¿i cho nhiÁu nhiám vụ, chẳng h¿n nh° trả lồi cõu hòi và suy luận ngụn ngữ mà khụng cần phải thực hiỏn tỏc vụ quan trọng nào nhằm sửa đổi ki¿n trúc cụ thể

BERT đ°ợc thi¿t k¿ để t¿o ra cỏc biểu diòn ngụn ngữ hai chiÁu từ văn bản ch°a đ°ợc gán nhãn thông qua viác đồng nhất thông tin từ cả hai phía ngữ cảnh, từ trái sang phải và ng°ợc l¿i t¿i tất cả các lãp Vì vậy BERT có khảnăng học đ°ợc cỏc biểu diòn tự nhiờn và phong phỳ cÿa từ trong ngữ cảnh cÿa chỳng

Mô hình ngôn ngữ BERT được đào tạo trước có thể dễ dàng tinh chỉnh cho các nhiệm vụ cụ thể bằng cách thêm một lớp đầu ra mới mà không cần phải điều chỉnh toàn bộ kiến trúc Khả năng này mở ra khả năng xây dựng các mô hình ngôn ngữ lớn và hiện đại thực hiện các nhiệm vụ như trả lời câu hỏi và suy luận ngôn ngữ mà không yêu cầu quá nhiều công sức đại vế việc sửa đổi kiến trúc.

Generative Pre-training Transformers (GPT):

GPT là mát dòng mô hình ngôn ngữ tự nhiên dựa trên ki¿n trúc Transformers, đ°ợc phát triển bởi OpenAI Mục tiêu chính cÿa GPT là mát mô hình có khảnăng t¿o ra văn bản tự nhiên và hiểu ngữ cảnh ngôn ngữ

GPT sử dụng ki¿n trúc Transformers, mát mô hình m¿ng n¢-ron sâu không đá quy, nh°ng có khảnăng hiểu và mô hình hóa các mái quan há phāc t¿p trong ngôn ngữ tự nhiên Ki¿n trúc này cho phép mô hình học đ°ợc các biểu diòn phõn phỏi cho từng từ trong cõu mỏt cỏch hiỏu quả

GPT được đào tạo trên một lượng lớn dữ liệu văn bản không được gắn nhãn từ Internet và các nguồn khác Sau đó, mô hình được tinh chỉnh trên các tác vụ cụ thể như phản hồi văn bản, dịch máy hoặc tạo văn bản GPT có khả năng tạo ra các văn bản tự nhiên và đa dạng, nghĩa là mô hình có thể tạo ra các đoạn văn bản mạch lạc dựa trên ngữ cảnh được cung cấp, và mỗi lần tạo ra có thể cho ra kết quả khác nhau.

Hình 2.10 Mô hình GPT Mát sá phiên bản cÿa GPT:

- GPT2 (Medium, Large): phiên bản này có 1,5 tỷ tham sá - GPT3: vãi 175 tỷ tham sá

- GPT4: vãi 4000 tỷ tham sá

Large Language Model Meta AI (LlaMA):

LlaMA là mô hình ngôn ngữ lãn vÁ AI cÿa Meta vãi 70 tỷ tham sá, nó ho¿t đỏng d°ói d¿ng OpenSource, hoàn toàn miòn phớ cho phộp cỏc nhà nghiờn cāu, tổ chāc chớnh phÿ, xó hỏi sử dụng miòn phớ LLaMA tập trung hò trợ cho

20 ngôn ngữ dùng bảng chữ cái Latinh, đáng ti¿c là Ti¿ng Viát cÿa chúng ta ch°a nằm trong danh sách này

Quỏ trỡnh huÃn luyòn và đặc tr°ng căa LLMs

Hình 2.12 Quá trình huấn luyán mô hình ngôn ngữ Các mô hình ngôn ngữ lãn ban đầu đ°ợc huấn luyán thông qua học tự giám sát trên kho dữ liáu văn bản khổng lồ mà không cần nhãn Sau giai đo¿n huấn luyán tự giám sát, chúng ta có mát mô hình ngôn ngữđã đ°ợc huấn luyán

Mô hình này đã học đ°ợc các mÁu ngữngh*a và cú pháp từ dữ liáu huấn luyán vãi toàn bá dữ liáu trên Wikipedia và 11.038 quyển sách

Bảng 2.1 C¢ sở dữ liáu Pre-trained LLMs

Mụ hỡnh CÂ sồ dÿ liòu training Sòl°ÿng

GPT3 Common Crawl,Webtext2,Books, Wikipedia 499 B

LlaMa2 CommonCrawl, Github, Wikipedia, Books,

ArXiv, StackExchange 2000 B Để thực hián những nhiám vụ cụ thể, trên những tập dữ liáu mãi, đặc thù cÿa từng nhiỏm vụ; mụ hỡnh sẽ đ°ợc chuyển sang giai đo¿n tinh chònh Mụ hỡnh đó đ°ợc huấn luyỏn sẽ đ°ợc điÁu chònh để tỏi °u húa hiỏu suất trờn tỏc vụ cụ thể Những tỏc vụ này cú thể bao gồm

Ngày đăng: 19/09/2024, 22:56

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w