Đặc biệt là trong lĩnhvực y tế, mô hình ngôn ngữ lớn đã được ứng dụng rộng rãi, mang lại nhiều lợi ích trongviệc hỗ trợ chẩn đoán, tư vấn lâm sàng, các nhân hóa chăm sóc sức khỏe, nghiên
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Trang
MÔ HÌNH NGÔN NGỮ LỚN VÀ ỨNG DỤNG KHAI PHÁ
DỮ LIỆU Y VĂN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2024
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Trang
MÔ HÌNH NGÔN NGỮ LỚN VÀ ỨNG DỤNG KHAI PHÁ
DỮ LIỆU Y VĂN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS Đặng Thanh Hải
HÀ NỘI - 2024
Trang 3LỜI CẢM ƠN
Lời đầu tiên em xin dành lời cảm ơn chân thành đến thầy Đặng Thanh Hải Trong quátrình làm khóa luận em đã nhận được sự hướng dẫn nhiệt tình và chu đáo của Thầy Nhữngtrải nghiệm, kiến thức em có được khi tham gia nghiên cứu cùng Tthầy đã giúp em rấtnhiều, không chỉ là khóa luận mà còn là cả thế giới quan của em
Tiếp theo em xin cảm ơn Ban lãnh đạo và các Giảng viên của Trường Đại học CôngNghệ - Đại học Quốc Gia Hà Nội đã tạo điều kiện cho em được học tập tại một môi trườngchất lượng và đã truyền đạt những kinh nghiệm và kiến thức quý báu cho em, từ đó tạo mộtnền tảng tốt để em tiếp bước trong cuộc sống và công việc sau này
Đặc biệt, em xin gửi lời cảm ơn tới bố mẹ Bố mẹ không chỉ là nguồn động viên lớnnhất mà còn là người thầy, người bạn đã luôn lắng nghe và chia sẻ những niềm vui, nỗibuồn trong cuộc sống của con Tình yêu thương vô điều kiện và những lời khuyên quý giácủa bố mẹ đã giúp con vượt qua nhiều thử thách và khó khăn Sự hy sinh và cố gắng của bố
mẹ đã trở thành động lực lớn nhất để con phấn đấu và hoàn thành bài khóa luận này
Mặc dù đã rất cố gắng nhưng chắc chắn khóa luận này vẫn còn nhiều thiếu sót, em rấtmong nhận được chỉ bảo, góp ý của các Thầy/Cô Em xin chân thành cảm ơn!
Trang 4TÓM TẮT
Tóm tắt: Trong những năm gần đây, việc sử dụng mô hình ngôn ngữ lớn (LLM) trongcác ứng dụng công nghệ đã mang lại nhiều bước tiến quan trọng Đặc biệt là trong lĩnhvực y tế, mô hình ngôn ngữ lớn đã được ứng dụng rộng rãi, mang lại nhiều lợi ích trongviệc hỗ trợ chẩn đoán, tư vấn lâm sàng, các nhân hóa chăm sóc sức khỏe, nghiên cứu vàphân tích dữ liệu y tế, giáo dục và đào tạo y tế, hỗ trợ sức khỏe tâm thần Sức khỏe tinhthần là một thành phần quan trọng của sức khỏe cộng đồng hiện tại Do đó, nó đã thu hút
sự quan tâm đặc biệt của nhiều nhóm nghiên cứu về ứng dụng mô hình ngôn ngữ lớn vàứng dụng trong lĩnh vực y tế Trong đó có nhóm nghiên cứu của Siyang Liu và cộng sự tạiĐại học Thanh Hoa, Trung Quốc (Tsinghua University, Shenzhen, China) Nhóm nghiêncứu này đã đề xuất một khung hội thoại hỗ trợ cảm xúc ESC (Emotional SupportConversation) cũng như đã xây dựng thành công và đưa ra bộ dữ liệu ESConv Bộ dữ liệu
này có thể hỗ trợ cho việc xây dựng một chatbot trò chuyện đồng cảm với người đang trảiqua căng thẳng, hoặc có vấn đề về cảm xúc
Khóa luận này tập trung vào việc xử lý bộ dữ liệu ESConv để xây dựng một bộ dữliệu ViESConv tương tự, có chất lượng cao cho với mục tiêu tạo ra một bộ dữ liệu tiếngViệt chất lượng cao, dựa trên khung ESC, từ đó có thể phục vụ cho xây dựng các hệ thốnghội thoại hỗ trợ chăm sóc sức khỏe tinh thần cho người Việt Khóa luận đã ứngáp dụng
thành công mô hình ngôn ngữ lớn tiếng Việt vàtrên bộ dữ liệu tiếng Việt ViESConv dựatrên khung ESC đã xử lý để xây dựng một chatbot trò chuyện đồng cảm, hỗ trợ nhữngngười đang cảm thấy căng thẳng hoặc gặp các vấn đề về cảm xúc, với kỳ vọng Mục tiêu
là bước đầu có thể cải thiện các vấn đề về sức khỏe thần thần cho người Việt
Chatbot là một công cụ tự động hóa có khả năng tương tác với con người thông quacác cuộc trò chuyện Sức khỏe tâm thần là một trong những vấn đề quan trọng trong xãhội hiện nay Trong bối cảnh sức khỏe tâm thần ngày càng trở nên quan trọng trong xã hộihiện đại ngày nay, trong đó có Việt Nam, nghiên cứu này của tôi khoá luận được kỳ vọng
hy vọng sẽ có thể cải thiện các vấn đề về sức khỏe tâm thần cho người Việt, góp phầnnâng cao chất lượng cuộc sống và tạo ra một giải pháp thiết thực cho cộng đồng
Từ khóa: Mô hình ngôn ngữ lớn , Chatbot, Sức khoẻ Tinh thần.
Trang 5LỜI CAM ĐOAN
Em xin cam đoan rằng chatbot hỗ trợ sức khỏe tinh thần này là của em và chưa từngđược nộp như một báo cáo luận văn của Trường Đại học Công Nghệ- Đại học Quốc Gia
Hà Nội Những gì viết ra trong luận văn này không sao chép tài liệu hoặc sử dụng các kếtquả nghiên cứu của người khác mà không trích dẫn cụ thể Nếu có sai phạm, gian lận, emxin chịu hoàn toàn trách nhiệm và nhận bất kỳ hình thức xử phạt nào
Hà Nội, ngày tháng năm 2024 Học viên
Nguyễn Thị Trang
Trang 6MỤC LỤC
MỞ ĐẦU
Chương 1 Cơ sở lý thuyết
1.1 Mô hình ngôn ngữ lớn
1.1.1 Mô hình ngôn ngữ lớn là gì?
1.2 Tổng quan về chatbot và ứng dụng trong lĩnh vực y tế
1.2.1 Chatbot là gì?
1.2.2 Lịch sử phát triển của chatbot
1.2.3 Ứng dụng mô hình ngôn ngữ lớn và chatbot trong lĩnh vực y tế và sức khỏe tâm thần
1.2.4 Thách thức và hạn chế
Chương 2 Phương pháp nghiên cứu
2.1 Cách thức nghiên cứu
2.2 Lựa chọn mô hình Vinallama-7B-chat
2.3 Dữ liệu
2.4 Kỹ thuật tinh chỉnh mô hình
2.4.1 Tinh chỉnh mô hình ngôn ngữ lớn với chi phí thấp Low-Rank Adaptation (LoRA)
2.4.2 Kỹ thuật để giảm việc sử dụng GPU và thư viện BitsAndBytes
Chương 3 Xây dựng Chatbot
Trang 73.1 Tiền xử lý dữ liệu
3.1.1 Chọn lọc và dịch dữ liệu sang tiếng Việt
3.1.2 Chuẩn bị dữ liệu huấn luyện cho mô hình ngôn ngữ
3.2 Tinh chỉnh mô hình
3.3 Xây dựng chatbot
3.3.1 Giao diện người dùng
3.3.2 Hệ thống quản lý cơ sở dữ liệu
3.3.3 Máy chủ quản lý yêu cầu và chạy mô hình ngôn ngữ lớn
3.3.4 Máy chủ trung gian
Chương 4 Kết quả
4.1 Đánh giá tự động mô hình tinh chỉnh
4.1.1 Bilingual Evaluation Understudy (BLEU)
4.1.2 Recall-Oriented Understudy for Gisting Evaluation (ROUGE)
4.1.3 Perplexity score
4.1.4 Kết quả đánh giá tự động
4.2 Đánh giá dựa trên tương tác người dùng
Chương 5 Kết luận
Tài liệu Tham khảo
Trang 8DANH SÁCH HÌNH VẼ
Hình 1.1 Các thành phần chính của mô hình ngôn ngữ lớn
Hình 1.2 Kiến trúc của Transformer
Hình 1.3: Cách mô hình học tập
Hình 1.4: Minh họa tinh chỉnh một mô hình
Hình 2.1: Thống kê về thời gian xuất bản và loại bài báo nghiên cứu về LLMs và sức khỏe tinh thần
Hình 2.2: Những chủ đề được sử dụng trong huấn luyện mô hình VinaLLaMA
Hình 2.3: Tổng quan về khung ESC
Hình 2.4: Cách hoạt động của LoRA
Hình 3.1: Quy trình xử lý dữ liệu
Hình 3.2: Quy trình tinh chỉnh mô hình
Hình 3.3 Kết quả tinh chỉnh 1
Hình 3.4 Kết quả tinh chỉnh 2
Hình 3.5 Kết quả tinh chỉnh 3
Hình 3.6: Quá trình tương tác của ứng dụng với người dùng
Trang 9DANH SÁCH BẢNG
Bảng 1.1: Các thành phần chính của mô hình ngôn ngữ lớn
Bảng 2.1: Ví dụ về bộ dữ liệu ESConv
Bảng 2.2: Thống kê các vấn đề và cảm xúc của người dùng trong bộ dữ liệu
Bảng 2.3: Đánh giá mô hình EnViT5 so với các mô hình dịch thuật khác
Bảng 3.1: Tham số tinh chỉnh mô hình
Bảng 4.1: Kết quả đánh giá tự động theo BLEU-2, ROUGE và Perplexity
Bảng 4.2: Kết quả đánh giá của người dùng
Trang 10Mạng thần kinh hồi quy
LST
M
Long short-term memory Bộ nhớ dài-ngắn hạn
SFT Supervised Fine-tuning Tinh chỉnh có giám sát
RLH
F
Reinforcement Learningfrom Human Feedback
Học tăng cường từ phản hồicủa người dùng
Nghiên cứu đánh giá song ngữ
ROU
GE
Recall-OrientedUnderstudy for Gisting
Nghiên cứu theo định hướng
Trang 11Evaluation thu hồi để đánh giá Gisting
PPL Perplexity Bối rối
Trang 12MỞ ĐẦU
Trong xã hội hiện đại, sức khỏe tâm thần ngày càng trở thành mối quan tâm hàng đầu Khichúng ta sống trong một thế giới có nhịp độ nhanh và kết nối với nhau, các cá nhân phảiđối mặt với vô số thách thức có thể ảnh hưởng tới sức khỏe tinh thần của họ Sức khỏetinh thần gây ảnh hưởng đến tất cả các lĩnh vực trong cuộc sống của con người, làm giảmkhả năng làm việc, học tập, khó khăn khi đương đầu với cuộc sống hằng ngày, gây ảnhhưởng lớn cho xã hội và nhiều người trên thế giới Cũng như nhiều quốc gia trên thế giới,Việt Nam đang đối mặt với tình trạng rối loạn tâm thần có xu hướng gia tăng Theo báocáo của Bệnh viện Tâm thần Trung ương, tỷ lệ mắc 10 chứng rối loạn tâm thần phổ biếntrong năm 2014 là 14,2%, trong đó riêng rối loạn trầm cảm chiếm 2,45% Tỷ lệ tự sáttrong năm 2015 là 5,87% trên 100.000 dân Cả nước có khoảng 14 triệu người rối loạntâm thần nhưng chỉ có 143 nhà tâm lý lâm sàng và tâm lý trị liệu [1]
Xử lý ngôn ngữ tự nhiên (NLP: Natural Language Processing), một nhánh của khoahọc máy tính cho phép máy tính sử dụng thông tin văn bản miễn phí theo những cách cónghĩa Xử lý ngôn ngữ tự nhiên đã cho thấy sự hứa hẹn về một công cụ hỗ trợ các nhiệm
vụ liên quan đến sức khỏe tâm thần Mô hình ngôn ngữ lớn (LLM) là những tiến bộ gầnđây nhất trong NLP, mở rộng hơn nữa tiềm năng của nó cho việc chăm sóc sức khỏe tâmthần LLM có thể tận dụng những kiến thức sâu rộng và khả năng xử lý ngôn ngữ củamình để tham gia vào các cuộc trò chuyện và cung cấp hỗ trợ cho những người có nhucầu Tuy nhiên, các giải pháp mô hình ngôn ngữ lớn hiện tại như GPT4, PaLM, Llama2chủ yếu tập trung vào các nhiệm vụ trong lĩnh vực chung Những mô hình này thườngthiếu đào tạo và chuyên môn cụ thể trong lĩnh vực tư vấn tâm lý
Với mong muốn cung cấp một nguồn hỗ trợ tinh thần và tâm lý cho người đang trảiqua những vấn đề về cảm xúc và căng thẳng Mục tiêu của khóa luận là ứng dụng mô hìnhngôn ngữ lớn để xây dựng một chatbot có khả năng tương tác và đồng cảm với người dùng,giúp người dùng cảm thấy được lắng nghe và thấu hiểu trong thời điểm họ đang trải quanhững cảm xúc tiêu cực, cảm thấy căng thẳng, buồn chán và lo âu
Trang 13Để đạt được mục tiêu này, khóa luận thực hiện các bước sau:
- Thu thập dữ liệu: Thu thập những dữ liệu về các tình huống cảm xúc và căngthẳng từ các nguồn đáng tin cậy như diễn đàn trực tuyến, tài liệu y khoa và cáctài liệu nghiên cứu
- Tiền xử lý dữ liệu: Lọc và tiền xử lý dữ liệu để loại bỏ nhiễu và chuẩn bị dữ liệucho việc huấn luyện mô hình
- Tinh chỉnh mô hình: Tinh chỉnh mô hình ngôn ngữ lớn trên bộ dữ liệu cho nhiệm
Khóa luận được tổ chức thành bốn chương như sau:
Chương 1: Cơ sở lý thuyết: Giới thiệu về lý thuyết của mô hình ngôn ngữ lớn và
chatbot Trình bày những vấn đề và thách thức trong hỗ trợ sức khỏe tâm thần
Chương 2: Phương pháp nghiên cứu: Trình bày phương pháp xây dựng chatbot hỗ
trợ sức khỏe tinh thần dựa trên tinh chỉnh mô hình ngôn ngữ lớn
Chương 3: Xây dựng chatbot: Trình bày chi tiết về quá trình xây dựng chatbot hỗ
trợ sức khỏe tinh thần
Chương 4: Kết quả: Trình bày chi tiết kết quả thực nghiệm bao gồm đánh giá kết
quả huấn luyện mô hình và kết quả đánh giá trên người dùng
Phần kết luận và hướng nghiên cứu tiếp theo: Đưa ra những kết luận, đánh giá và
định hướng nghiên cứu tiếp theo
Trang 14lý ngôn ngữ tự nhiên (NLP), cụ thể như dịch thuật tự động, tóm tắt văn bản, sinh văn bản,
hỗ trợ đào tạo và giáo dục, hỗ trợ sức khỏe y tế
Mô hình ngôn ngữ lớn (LLM) là một mô hình ngôn ngữ với khả năng tổng quáttrong việc tạo ngôn ngữ và các tác vụ xử lý ngôn ngữ tự nhiên khác LLM có được khảnăng này bằng cách học các mối quan hệ thống kê từ các văn bản trong quá trình huấnluyện tự giám sát và bán giám sát có độ phức tạp tính toán cao Các mô hình này được đàotạo trên tập dữ liệu văn bản khổng lồ để tìm hiểu các mẫu, cấu trúc và ngữ cảnh trongngôn ngữ, cho phép nó có khả năng tạo văn bản tương tự như con người và thực hiệnnhiều tác vụ xử lý ngôn ngữ tự nhiên khác nhau
Mô hình ngôn ngữ lớn thực sự là những tiến bộ tiên tiến trong lĩnh vực học sâu(deep learning) được thiết kế để xử lý và hiểu ngôn ngữ của con người Các mô hình lớnnhất và có khả năng mạnh mẽ nhất, tính đến tháng 3 năm 2024, được xây dựng với kiếntrúc dựa trên transformer chỉ bao gồm bộ giải mã (decoder) Các mô hình ngôn ngữ khác
Trang 15nhau có thể có độ phức tạp khác nhau Thuật ngữ mô hình ngôn ngữ lớn thường dùng đểchỉ các mô hình sử dụng kỹ thuật học sâu và có số lượng tham số lớn, có thể từ vài tỷ đếnhàng nghìn tỷ Những mô hình này có khả năng phát hiện các quy luật phức tạp trongngôn ngữ và tạo ra các văn bản giống với con người.
Sự phát triển của mô hình ngôn ngữ lớn dẫn đến nhiều loại mô hình khác nhau đượcsinh ra, mỗi loại có những đặc điểm riêng biệt, phục vụ cho các loại tác vụ riêng biệt của
nó Một số mô hình ngôn ngữ lớn nổi bật bao gồm:
- Mô hình dựa trên bộ mã hóa tự động (AutoEncoder-Based): Dựa trên bộ mã hóa
tự động như BERT mã hóa văn bản đầu vào thành một biểu diễn rút gọn, sau đótạo ra văn bản mới từ biểu diễn này Loại mô hình này thực hiện tốt trong việctóm tắt nội dung và tạo ra văn bản một cách hiệu quả
- Mô hình chuỗi sang chuỗi (Sequence-to-Sequence): Mô hình tiếp nhận một chuỗiđầu vào và tạo ra chuỗi đầu ra tương ứng Được ứng dụng tốt trong tác vụ dịchvăn bản sang nhiều ngôn ngữ khác nhau hoặc rút gọn thông tin cho việc tóm tắt
- Mô hình dựa trên Transformer (Transformer-Based Frameworks): Tận dụng kiếntrúc nơron có khả năng giải mã các mối quan hệ ngữ cảnh phức tạp trên các đoạnvăn dài Dựa vào tính linh hoạt tốt mô hình ứng dụng cho các nhiệm vụ tạo vănbản, dịch ngôn ngữ và trả lời câu hỏi
- Mô hình mạng nơ-ron đề quy (Recursive Neural Network): Mô hình này đượctùy chỉnh cho dữ liệu có cấu trúc Nổi bật với các nhiệm vụ đánh giá tâm trạng vàsuy luận ý nghĩa trong ngôn ngữ tự nhiên
- Mô hình cấu trúc phân cấp (Hierarchical Structures): Mô hình này được thiết kế
để hiểu văn bản ở cấp độ chi tiết, có thể là câu, đoạn văn hoặc toàn bộ tài liệu.Phục vụ cho các tác vụ phân loại tài liệu và trích xuất
1.1.1 Kiến trúc của mô hình ngôn ngữ lớn
Các thành phần chính của mô hình ngôn ngữ lớn
Các mô hình ngôn ngữ lớn là các kiến trúc mạng nơron phức tạp đã cách mạng hóacác nhiệm vụ xử lý ngôn ngữ tự nhiên Các mô hình này bao một một số thành phần chính
Trang 16hoạt động cùng nhau để giúp chúng hiểu, tạo ra và điều chỉnh ngôn ngữ con người mộtcách mạnh mẽ và chính xác.
Hình 1.1 Các thành phần chính của mô hình ngôn ngữ lớn
Bảng 1.1: Các thành phần chính của mô hình ngôn ngữ lớn
Tokenization Là quá trình chia một đoạn văn bản thành các phần nhỏ hơngọi là “token” Mỗi token thường là một từ hoặc một phần
của từ Tokenization đánh dấu bước nền tảng trong quátrình phát triển của các mô hình ngôn ngữ lớn, trong đó cácchuỗi văn bản trải qua quá trình phân chia thành các đơn vịhoặc các token nhỏ hơn Trong bối cảnh của các mô hìnhnâng cao, quá trình phát triển bao gồm việc tận dụng cácthuật toán phân tách từ một cách khéo léo, đáp ứng hiệu quảkhả năng của mô hình nhằm đáp ứng vốn từ vựng đa dạngcho mô hình, đồng thời đảm bảo hiệu quả hoạt động
Là các biểu diễn vectơ của từng token trong một mô hìnhngôn ngữ lớn Các nhúng là không thể thiếu đối với hoạt
Trang 17Cơ chế
Attention
Là cơ chế cho phép mô hình tập trung vào các phần quantrọng của đầu vào trong quá trình xử lý Đặc biệt là sự tựchú ý (self-attention) trong kiến trúc transformer, đóng vaitrò quan trọng trong khả năng xử lý kích thước lớn của các
mô hình ngôn ngữ lớn Cơ chế tự chú ý phân tích mối quan
hệ giữa tất cả các token trong một chuỗi, hỗ trợ việc bắt kịpcác phụ thuộc tầm xa Trong các mô hình ngôn ngữ lớn, cơchế attention có tính song song hóa cao, cho phép xử lý cácchuỗi rất dài
Trang 18trong các nhiệm vụ khác nhau Phương pháp chuyển giaohọc tận dụng quy mô lớn của mô hình tiền huấn luyện đểthích ứng với các nhiệm vụ mới mà không cần phải huấnluyện lại từ đầu.
và phù hợp với ngữ cảnh trên nhiều lĩnh vực khác nhau.Việc tiếp xúc rộng rãi trong quá trình đào tạo cho phépchúng bắt chước cách sử dụng ngôn ngữ giống con người,biến chúng thành công cụ linh hoạt cho các nhiệm vụ nhưtạo nội dung, dịch thuật, tóm tắt, v.v Các thành phần này làcác khía cạnh quan trọng của mô hình ngôn ngữ lớn Dựavào việc phác thảo các chức năng và thuộc tính cho phépcác mô hình này thường được sử dụng trong xây dựngchatbot, hiểu và tạo ra văn bản giống con người trên mộtloạt các tác vụ xử lý ngôn ngữ tự nhiên hiệu quả
Kiến trúc của mô hình ngôn ngữ lớn
Kiến trúc của các mô hình ngôn ngữ lớn hiện nay đều bắt nguồn từ khungTransformer, được các nhà nghiên cứu tại Google phát triển vào năm 2017 Khung này về
cơ bản đã định hình lại bối cảnh xử lý và hiểu ngôn ngữ tự nhiên Transformer bao gồmhai thành phần chính: Bộ mã hóa (encoder) và bộ giải mã (decoder) Mô hình phức tạpnày dựa trên việc chia nhỏ dữ liệu đầu vào thành các token, sau đó thực hiện các phéptoán nhằm khám phá các mối quan hệ phức tạp giữa các token Quá trình này trích xuất vànhận dạng các mẫu theo cách tương tự như khả năng hiểu của con người
Kiến trúc của mô hình Transformer không sử dụng sự lặp lại như các mô hình truyềnthống khác như Mạng thần kinh hồi quy (RNNs) hoặc Mạng bộ nhớ dài-ngắn hạn
(LSTMs) Thay vào đó , Transformer sử dụng cơ chế tự chú ý (self-attention) để tạo ra cácphụ thuộc chung giữa đầu vào và đầu ra Transformer cho phép song song hóa đáng kểhơn và là mô hình chuyển đổi đầu tiên dựa hoàn toàn vào cơ chế tự chú ý để tính toán
Trang 19biểu diễn của đầu vào và đầu ra mà không sử dụng các mạng nơron nối tiếp được sắp xếptheo chuỗi hoặc tích chập [3].
Hình 1.2 Kiến trúc của Transformer
Trong hình 2.2 ta có thể quan sát thấy có một mô hình bộ mã hóa ở bên trái và bộgiải mã ở bên phải Cả hai đều chứa phần cốt lõi là cơ chế tập trung đa đầu (Multi-HeadAttention) và mạng truyền xuôi theo vị trí (Feed-Forward Network) được lặp lại N lần.Sức mạnh của Transformer nằm ở cơ chế tự chú ý Cơ chế này góp phần đẩy nhanhquá trình học tập và mang lại cho mô hình Transformer khả năng vượt trội để xem xét kỹlưỡng một cách tỉ mỉ các phân đoạn riêng biệt của một trình tự nhất định hoặc thậm chíbao gồm toàn bộ ngữ cảnh này cho phép mô hình đưa ra các dự đoán với mức độ chính
Trang 20xác và phù hợp cao hơn Đầu tiên, mỗi từ hoặc phần tử trong chuỗi đầu vào được ánh xạsang ba loại vectơ: vectơ Truy vấn (vectơ Query), vectơ Khóa (vectơ Key) và vectơ Giátrị (vectơ Value) Tiếp theo, điểm tập trung được tính toán cho mỗi cặp Truy vấn và Khóa
để đo độ quan trọng của Khóa đối với Truy vấn Các điểm tập trung này được sử dụng đểtổng hợp thông tin từ các vectơ Giá trị, tạo ra một vectơ tổng quát biểu diễn sự chú ý của
mô hình đối với từng từ trong chuỗi Cuối cùng, các vectơ kết quả từ quá trình tự chú ýđược kết hợp với biểu diễn ban đầu của từ, tạo ra biểu diễn cuối cùng của từ sau quá trìnhself-attention Điều này giúp mô hình hiểu được mối quan hệ và ngữ cảnh giữa các từtrong chuỗi đầu vào, từ đó cải thiện khả năng hiểu và sinh văn bản tự nhiên
Kiến trúc mô hình transformer bao gồm một số yếu tố thiết yếu, mỗi yếu tố đều đónggóp vào hiệu suất mạnh mẽ của mô hình:
- Các nhúng đầu vào (Input Embeddings): Các từ được chuyển đổi thành cácvectơ chiều cao được gọi là các nhúng Trong các mô hình lớn, các nhúng cóthể có kích thước rất cao, từ 128 đến 1024 trở lên
- Mã hóa vị trí (Position Encodings): Để giải thích tính chất tuần tự của ngônngữ, mã hóa vị trí được thêm vào các nhúng đầu vào Cung cấp thông tin về vịtrí của các từ trong một chuỗi
- Tự chú ý đa đầu (Multi-Head Self-Attention): Các mô hình lớn sử dụng nhiềuđầu tự chú ý song song, mỗi đầu nắm bắt các loại mối quan hệ và sự phụ thuộckhác nhau Điều này nâng cao khả năng hiểu bối cảnh của mô hình trên nhiềuquy mô khác nhau
- Lớp chuẩn hóa (Layer Normalization) và Kết nối dư (Residual Connections):Khi dữ liệu tiến triển qua từng lớp, chuẩn hóa lớp được áp dụng một cách cóchiến lược, thúc đẩy quá trình đào tạo ổn định Việc đưa vào các kết nối còn lạinhằm mục đích duy trì và truyền tải thông tin từ các giai đoạn trước
- Mạng truyền xuôi theo vị trí (Feedforward Neural Networks): Dựa trên việc dichuyển qua các lớp tự chú ý, mô hình sử dụng các mạng nơ ron truyền ngược(feedforward) được đặc trưng bởi nhiều lớp và các hàm kích hoạt phi tuyến tính
Trang 21Giai đoạn này hỗ trợ quá trình xử lý và biến đổi các biểu diễn được thu thập,đánh dấu bởi các chi tiết phức tạp được nhấn mạnh bởi cơ chế tự chú ý.
1.1.2 Các kỹ thuật quan trọng
Các mô hình ngôn ngữ đã đạt được những tiến bộ đáng chú ý trong việc hiểu và tạo rangôn ngữ tự nhiên Những mô hình này học thông qua sự kết hợp giữa tiền huấn luyện,tinh chỉnh và học trong ngữ cảnh
Hình 1.3: Cách mô hình học tập
Tiền huấn luyện
Tiền huấn luyện là giai đoạn đầu tiên trong quá trình học tập của các mô hình ngônngữ Trong giai đoạn này, các mô hình được huấn luyện trên một lượng lớn dữ liệu vănbản chưa được gắn nhãn, bao gồm dữ liệu từ sách, báo và các trang web Mục tiêu củatiền huấn luyện là hiểu rõ cấu trúc ngôn ngữ và nắm bắt kiến thức ngữ nghĩa cơ bản trongkho văn bản
Các đặc điểm chính của tiền huấn luyện bao gồm:
- Học không giám sát (pre-training): Tiền huấn luyện thường là một quátrình học không giám sát, trong đó các mô hình học từ dữ liệu văn bảnkhông được gắn nhãn mà không có hướng dẫn hoặc nhãn rõ ràng
Trang 22- Mô hình ngôn ngữ được gán mặt nạ (mask): Các mô hình được tiền huấnluyện bằng cách dự đoán các từ bị thiếu hoặc bị che trong câu, từ đó họccác mối quan hệ theo ngữ cảnh và nắm bắt các mẫu ngôn ngữ.
- Kiến trúc transformer: Tiền huấn luyện thường sử dụng các kiến trúc dựatrên Transformer, một kiến trúc có khả năng nắm bắt các phần phụ thuộctầm xa và thông tin theo ngữ cảnh một cách xuất sắc
Ứng dụng của tiền huấn luyện là cung cấp các mô hình ngôn ngữ cơ bản, là nền tảngcho nhiều tác vụ xử lý ngôn ngữ tự nhiên như phân loại văn bản, nhận dạng thực thể đượcđặt tên và phân tích cảm xúc Những mô hình này cung cấp sự hiểu biết tổng quát vềngôn ngữ và có thể được tinh chỉnh cho các nhiệm vụ cụ thể sau này
Tinh chỉnh mô hình (Fine tuning)
Tinh chỉnh là một quá trình đào tạo một mô hình ngôn ngữ lớn (LLM) cho mộtnhiệm vụ cụ thể trong một miền nhất định.Quá trình này bắt đầu với việc sử dụng môhình ngôn ngữ đã được tiền huấn luyện làm điểm khởi đầu, sau đó tiến hành đào tạo nótrên tập dữ liệu được gắn nhãn cho nhiệm vụ hoặc miền cụ thể Tinh chỉnh có thể cảithiện hiệu suất của mô hình ngôn ngữ lớn trên nhiệm vụ hoặc miền cụ thể bằng cách điềuchỉnh trọng số của mô hình để phù hợp hơn với dữ liệu
Có hai phương pháp để tinh chỉnh một mô hình, tinh chỉnh có giám sát và học tăngcường từ phản hồi của con người Tinh chỉnh có giám sát (SFT) là một loại tinh chỉnh sửdụng dữ liệu được gắn nhãn để huấn luyện mô hình ngôn ngữ lớn Dữ liệu đầu vào là dữliệu mà mô hình ngôn ngữ lớn sẽ được cung cấp và dữ liệu đầu ra là dữ liệu mà mô hìnhngôn ngữ lớn dự kiến sẽ tạo ra Tinh chỉnh có giám sát là một cách tương đối đơn giản vàhiệu quả để tinh chỉnh mô hình ngôn ngữ lớn Học tăng cường từ phản hồi của con người(RLHF) là một loại tinh chỉnh sử dụng phản hồi của con người để đào tạo mô hình ngônngữ lớn Phản hồi của con người có thể thu thập theo nhiều cách khác nhau, chẳng hạnnhư thông qua khảo sát, phỏng vấn hoặc nghiên cứu người dùng Học tăng cường từ phảnhồi của con người là cách phức tạp và tốn thời gian hơn để tinh chỉnh mô hình ngôn ngữlớn, nhưng nó có hiệu quả hơn tinh chỉnh có giám sát
Trang 23Phương pháp tốt nhất để tinh chỉnh mô hình ngôn ngữ lớn phụ thuộc vào một sốyếu tố, như tính sẵn có của dữ liệu được gắn nhãn, thời gian và nguồn lực sẵn có cũngnhư hiệu suất mong muốn Nếu dữ liệu đã được gắn nhãn, tinh chỉnh có giám sát là mộtlựa chọn tốt Lợi ích của việc tinh chỉnh đó là cải thiện hiệu suất của mô hình tiền huấnluyện trên một nhiệm vụ hoặc miền cụ thể Điều này có thể mang lại kết quả tốt hơn chocác tác vụ như tạo ngôn ngữ tự nhiên, trả lời câu hỏi và dịch thuật Tinh chỉnh cho phépcác mô hình chuyên môn hóa và thực hiện tốt các nhiệm vụ cụ thể bằng cách tận dụngkiến thức được đào tạo trước.
Các đặc điểm chính bao gồm học chuyển giao (Transfer learning) Tinh chỉnh thúcđẩy việc học chuyển giao, trong đó các mô hình chuyển các biểu diễn đã học từ tiềnhuấn luyện sang nhiệm vụ mục tiêu cụ thể Dữ liệu dành riêng cho nhiệm vụ cụ thể, các
mô hình được đào tạo dựa trên dữ liệu được gắn nhãn dành riêng cho nhiệm vụ mục tiêu,chẳng hạn như các câu được gắn nhãn cảm xúc hoặc các cặp câu hỏi-câu trả lời Tối ưuhóa dựa trên độ dốc (Gradient-based optimization), tinh chỉnh thường bao gồm các kỹthuật tối ưu hóa dựa trên độ dốc để cập nhật các tham số của mô hình dựa trên dữ liệu cụthể của nhiệm vụ
Hình 1.4: Minh họa tinh chỉnh một mô hình
1.2.
Chatbot trong lĩnh vực y tế
1.1.2
Trang 24[1.1.2.] Tổng quan về Chatbot trong lĩnh vực y tế
[1.1.3.] Giới thiệu về Chatbot
Chatbot là một ứng dụng phần mềm hoặc giao diện web được thiết kế để bắt chướcmột cuộc trò chuyện của con người thông qua tương tác bằng văn bản hoặc giọng nói [4].Các chatbot hiện đại thường trực tuyến và sử dụng hệ thống trí tuệ nhân tạo tổng hợp cókhả năng duy trì cuộc trò chuyện với người dùng bằng ngôn ngữ tự nhiên và mô phỏngcách con người cư xử với tư cách là đối tác đàm thoại Những chatbot như vậy thường sửdụng deep learning và xử lý ngôn ngữ tự nhiên, nhưng những chatbot đơn giản hơn đã tồntại trong nhiều thập kỷ qua
Có nhiều loại chatbot khác nhau đang được nghiên cứu và sử dụng, bao gồm:
Chatbot có kịch bản hoặc trả lời nhanh: Chatbot cơ bản nhất này hoạt động như mộtcây quyết định phân cấp, tương tác với người dùng thông qua các câu hỏi được xác địnhtrước cho đến khi chatbot trả lời câu hỏi của người dùng
Chatbot dựa trên nhận dạng từ khóa: Chatbot này cố gắng nghe những gì người dùng
gõ và phản hồi tương ứng bằng cách sử dụng từ khóa từ phản hồi của khách hàng
Chatbot kết hợp: Chatbot này kết hợp các yếu tố của chatbot dựa trên menu vàchatbot dựa trên nhận dạng từ khóa Người dùng có thể chọn để có câu trả lời trực tiếphoặc sử dụng menu của chatbot để thực hiện các lựa chọn nếu nhận dạng từ khóa khônghiệu quả
Chatbot ngữ cảnh: Đây là các chatbot phức tạp hơn và yêu cầu tập trung vào dữ liệu
Họ sử dụng trí tuệ nhân tạo và học máy để ghi nhớ các cuộc trò chuyện và tương tác củangười dùng, và sử dụng những kí ức này để phát triển và cải thiện theo thời gian
Chatbot có khả năng nhận dạng giọng nói: Loại chatbot này sử dụng đối thoại nói từngười dùng làm đầu vào để tạo ra các nhiệm vụ sáng tạo hoặc phản hồi Các nhà phát triển
có thể tạo ra các chatbot này bằng cách sử dụng API chuyển văn bản thành giọng nói vànhận dạng giọng nói
1.1.3.[1.1.4.] Lịch sử phát triển của chatbot
Trang 25Chatbots đã xuất hiện được một thời gian, nhưng chỉ trong những năm gần đây,chúng mới thực sự phổ biến đối với người dùng và doanh nghiệp Hầu hết, sự thay đổinhận thức về chatbot diễn ra cùng với sự phát triển của trí tuệ nhân tạo và học máy cũngnhư sự phổ biến ngày càng tăng của các ứng dụng nhắn tin Vậy lịch sử của chatbot rasao, chatbot đến từ khi nào.
Năm 1950, bài báo nổi tiếng “Computing Machinery and Intelligence” của AlanTuring được xuất bản, trong đó đề xuất đến bài kiểm tra Turing, liệu một chương trìnhmáy tính có thể nói chuyện với một nhóm người mà không nhận ra rằng người đối thoạivới họ là nhân tạo hay không Tiêu chí này phụ thuộc vào khả năng chương trình máy tínhmạo danh con người trong cuộc trò chuyện đến mức sự đánh giá của một con người vềcuộc trò chuyện không thể phân biệt một cách chính xác giữa chương trình và một conngười thực sự nếu chỉ dựa trên nội dung hội thoại Từ ý tưởng sáng tạo này, sự phát triểncủa chatbot bắt đầu
Bước phát triển ban đầu là những Chatbot cơ bản Với sự khởi đầu mang tên ELIZAđược xây dựng vào năm 1966, mô phỏng thao tác của nhà trị liệu tâm lý Mặc dù khả nănggiao tiếp của chatbot này còn hạn chế nhưng nó là nguồn cảm hứng cho sự phát triển tiếptheo của các chatbot khác Sau sự ra đời của ELIZA, hàng loạt những phát triển mới từchatbot cơ bản này xuất hiện như PARRY, ELIZA, ALICE, SmarterChild Thế hệ chatbot
cơ bản đầu tiên sử dụng thuật toán để phát hiện các từ khóa trong câu hỏi của người dùng
và đưa ra các phản hồi được xác định trước Vi những chatbot này thiếu khả năng xử lýngôn ngữ tự nhiên tiên tiến nên ngôn ngữ của con người thường khiến chúng bối rối.Những tiến bộ trong học máy đã dẫn đến sự xuất hiện của các hệ thống đối thoại vàođầu những năm 2010 Các hệ thống đối thoại này sử dụng các khả năng xử lý ngôn ngữ tựnhiên một cách chính xác hơn so với các chatbot cơ bản, và có thể học từ các tương táctrong quá khứ, hiểu lệnh giọng nói và thực hiện các nhiệm vụ Các hệ thống đối thoạiphục vụ các nhân được gọi là các trợ lý ảo Đại diện cho các chatbot của thế hệ này baogồm IBM Watson, Siri và Alexa
Với những tiến bộ của máy học như kiến trúc transformer và mô hình ngôn ngữ lớn
đã mở ra thế hệ chatbot mới, chatbot trí tuệ nhân tạo (AI) tạo sinh Những tiến bộ học máynày cho phép các nhà phát triển đào tạo chatbot trên các tập dữ liệu khổng lồ, giúp chúnghiểu ngôn ngữ tự nhiên tốt hơn Các chatbot có thể sáng tạo ra các văn bản giống như conngười như thơ, lời bài hát, truyện ngắn chỉ trong vài giây Ngoài ra, các chatbot này còn
Trang 26cung cấp các tương tác giống con người, có thể các nhân hóa hoạt động tự phục vụ củakhách hàng Việc phát hành ChatGPT vào năm 2022 đã làm dấy lên làn sóng quan tâmmạnh mẽ đến trí tuệ nhân tạo tạo sinh từ các nhà cung cấp công nghệ, công chúng và cácchuyên gia Trong khi các chatbot đơn giản hơn có thể xử lý các yêu cầu dịch vụ kháchhàng cơ bản, thì chatbot AI tạo sinh có thể giúp các trung tâm liên lạc tự động hóa tỷ lệtương tác dịch vụ khách hàng lớn hơn rất nhiều.
1.1.4.[1.1.5.] Chatbot trong lĩnh vực y tế và sức khỏe tâm thần
Ứng dụng chatbot trong lĩnh vực y tế
Sự giao thoa giữa trí tuệ nhân tạo (AI) và chăm sóc sức khỏe đã trở thành điểm nóngcho hoạt động khám phá đổi mới Một lĩnh vực được quan tâm đặc biệt là việc sử dụngchatbot AI, đã chứng tỏ tiềm năng đầy hứa hẹn với tư cách là cố vấn sức khỏe, công cụphân loại ban đầu và người bạn đồng hành về sức khỏe tâm thần [5] Tuy nhiên, tương laicủa các chatbot AI này liên quan đến các chuyên gia y tế là một chủ đề gợi ra nhiều ý kiến
và dự đoán khác nhau Bài báo “Will AI chatbots replace medical professionals in thefuture?” đi sâu vào diễn ngôn này, thách thức chúng ta xem xét sự cân bằng giữa nhữngtiến bộ trong AI và các khía cạnh không thể thay thế của con người trong chăm sóc y tế
Sự nổi lên của chatbot AI trong chăm sóc sức khỏe chatbot AI đang đóng vai trò ngàycàng biến đổi trong việc cung cấp các dịch vụ chăm sóc sức khỏe Bằng cách xử lý lượnglớn dữ liệu, chatbot giảm bớt tải trọng cho hệ thống chăm sóc sức khỏe, cho phép cácchuyên gia y tế tập trung hơn vào các nhiệm vụ chăm sóc phức tạp
Sự phát triển nhanh chóng và việc áp dụng chatbot AI trong lĩnh vực chăm sóc sứckhỏe được minh họa bằng chatGPT Chỉ trong vòng 5 ngày kể từ khi ra mắt, chatGPT đãthu hút được một triệu người dùng ấn tượng và số lượng người dùng tăng lên 100 triệungười chỉ sau hai tháng [6] Một nghiên cứu được thực hiện về việc sử dụng chatbot AItrong số các nhân viên y tế cho thấy gần 20% trong số họ sử dụng chatGPT [7] Tỷ lệ nàyhiện còn cao hơn do sự phụ thuộc ngày càng tăng vào các chatbot AI trong chăm sóc sứckhỏe
Trang 27Việc áp dụng nhanh chóng chatGPT và các công nghệ tương tự làm nổi bật tầm quantrọng và tác động ngày càng tăng của chatbot AI trong việc chuyển đổi các dịch vụ chămsóc sức khỏe và tăng cường chăm sóc bệnh nhân Khi các chatbot AI tiếp tục phát triển vàcải tiến chúng được kỳ vọng sẽ đóng một vai trò quan trọng hơn nữa trong lĩnh vực chămsóc sức khỏe, đơn giản hóa các quy trình hơn nữa và tối ưu hóa việc phân bổ nguồn lực.Một số ứng dụng cụ thể của chatbot AI là lên lịch hẹn và lời nhắc, phân tích các triệuchứng và đưa ra các chẩn đoán khả thi dựa trên dữ liệu đầu vào, phân loại bệnh nhân, hỗtrợ sức khỏe tâm thần và hỗ trợ nghiên cứu y tế Trong hỗ trợ sức khỏe tâm thần, chatbot
AI hỗ trợ đánh giá sơ bộ cho quá trình chẩn đoán, hoặc hỗ trợ trò chuyện với người đang
có vấn đề về sức khỏe tinh thần Tạo điều kiện thuận lợi cho việc quản lý các rối loạn tâmthần và tăng cường các biện pháp can thiệp trị liệu
Chatbot trong sức khỏe tâm thần
Để nghiên cứu tình hình ứng dụng mô hình ngôn ngữ lớn trong chăm sóc sức khỏe
tâm thần hiện nay, các tác giả trong bài báo “Large Language Models in Mental Health
Care: A Scoping Review” đã tiến hành một cuộc khảo sát tìm hiểu về vấn đề này Bài báo
thu thập dữ liệu về những nghiên cứu và ứng dụng của mô hình ngôn ngữ lớn trong hỗ trợsức khỏe tâm thần hiện nay và đánh giá các hướng ứng dụng mô hình ngôn ngữ, các vấn
đề sức khỏe tâm thần được nghiên cứu, các mô hình và kỹ thuật đào tạo
Các ứng dụng của mô hình ngôn ngữ chủ yếu là ứng dụng vào hệ thống hội thoại, tàinguyên dữ liệu và mô hình phân loại Ứng dụng vào hệ thống hội thoại có 16 nghiên cứutập trung vào việc cải thiện khả năng tạo ra phản hồi thấu hiểu cảm xúc và nhận biết ngữcảnh Một số ứng dụng cụ thể bao gồm hỗ trợ trực tiếp cho người tìm kiếm đến sự hỗ trợ
về mặt sức khỏe tinh thần, tư vấn trực tuyến theo yêu cầu và hỗ trợ cảm xúc Nghiên cứu
về vấn đề tài nguyên tập trung vào việc tạo ra các nội dung giáo dục ví dụ như các trườnghợp liên quan đến tâm lý xã hội và tài liệu giáo dục tâm lý cá nhân hóa Ứng dụng môhình ngôn ngữ lớn để phân loại chi tiết các chẩn đoán tâm thần bao gồm phân loại nhịphân và phân loại đa lớp để cung cấp thông tin cụ thể về tình trạng tâm thần phục vụ chođiều trị lâm sàng trong y tế [8]
Trang 28Trong tổng số 34 bài báo liên quan đến nghiên cứu và ứng dụng mô hình ngôn ngữlớn trong sức khỏe tâm thần được đánh giá, 23 bài báo tập trung vào các vấn đề sức khỏetâm thần cụ thể Các vấn đề được nghiên cứu nhiều nhất bao gồm: stress, tự tử, trầm cảm.Ngoài ra còn có các nghiên cứu về lo âu, rối loạn lưỡng cực, hội chứng suy nhược sauchấn thương, rối loạn tự kỷ, rối loạn nhân cách, cô đơn, các vấn đề liên quan đến tìnhhuống cuộc sống như vấn đề mối quan hệ, vấn đề giấc ngủ, bạo lực tình dục, vấn đề nuôicon và bắt nạt [8].
Khảo sát trên cho thấy mô hình ngôn ngữ lớn đang đóng vai trò lớn trong việc hỗ trợsức khỏe tâm thần thông qua trí tuệ nhân tạo Các nghiên cứu được đưa ra đã chứng minhhiệu quả của việc sử dụng công nghệ này trong việc cung cấp hỗ trợ tâm lý, tư vấn cảmxúc và giảm bớt gánh nặng cho các chuyên gia tâm lý Với những tiềm năng trên, khóaluận này tập trung vào hệ thống hội thoại, khả năng của nó có thể tiếp cận và hỗ trợ lượnglớn người dùng bao gồm cả những người khó tiếp cận dịch vụ tư vấn tâm lý truyền thống.Một chatbot trò chuyện đồng cảm hỗ trợ về mặt tâm lý có thể hỗ trợ liên tục và nhất quán,không bị giới hạn bởi thời gian và địa điểm Giúp giảm thiểu áp lực lên các chuyên giatâm lý bằng cách hỗ trợ các trường hợp ít nghiêm trọng hoặc chớm ảnh hưởng đến tinhthần, đồng thời cung cấp các sự hỗ trợ sơ bộ trước khi người dùng tiếp cận dịch vụ chuyênnghiệp
1.1.5.[1.1.6.] Thách thức và hạn chế
Mặc dù chatbot AI mang lại nhiều lợi ích nhưng điều quan trọng là phải hiểu đượcnhững hạn chế của chúng Hiện tại, AI thiếu khả năng thể hiện sự đồng cảm, trực giác vàkinh nghiệm nhiều năm mà các chuyên gia y tế mang lại [7] Những đặc điểm con ngườinày là vô giá trong việc chăm sóc bệnh nhân hiệu quả, đặc biệt khi phát huy tác dụngtrong diễn giải ngôn ngữ đa sắc thái và các tín hiệu phi ngôn ngữ Chatbot AI bị giới hạnhoạt động trên dữ liệu và thuật toán cài sẵn, chất lượng của các đề xuất từ chatbot AI chitốt khi dữ liệu được cung cấp cho chúng và bất kỳ dữ liệu nào không đạt tiêu chuẩn hoặcsai lệch đều có thể dẫn đến kết quả đầu ra có hại