1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo tổng kết đề tài nghiên cứu khoa học của sinh viên chatbot hỗ trợ sinh viên hỏi đáp quy chế học tập

54 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TP, HO CHi MINH

BO GIAO DUC VA DAO TAO

TRUONG DAI HOC SU PHAM TP HO CHi MINH

BAO CAO TONG KET

ĐÈ TÀI NGHIÊN CỨU KHOA HỌC CÚA SINH VIÊN

CHATBOT HỖ TRỢ SINH VIÊN HOI DAP QUY CHE HỌC TẬP

Thuộc nhóm ngành khoa học: Công nghệ thông tin

TP Hồ Chí Minh, 4/2024

Trang 2

BO GIAO DUC VA DAO TAO

TRƯỜNG ĐẠI HỌC SU PHAM TP HO CHÍ MINH

BAO CAO TONG KET

ĐÈ TÀI NGHIÊN CỨU KHOA HỌC CÚA SINH VIÊN

CHATBOT HỖ TRỢ SINH VIÊN HOI DAP QUY CHE HỌC TẬP

Thuộc nhóm ngành khoa học: Công nghệ thông tin Người hướng dẫn: Th§ Võ Hoàng Quân SV thực hiện:

Nguyễn Đức Tâm — 48.01.104.128

Nguyễn Đức Duy — 48.01.104.034

Lê Ngọc Minh — 48.01.104.088 Nguyễn Phúc Thịnh — 48.01.104.128

Lớp, khoa: Công nghệ thông tin Năm thứ: 2 /Số năm đào tạo: 4 Ngành học: Công nghệ théng tin

TP Hồ Chí Minh, 4/2024

Trang 3

LOD Camm GOA eee cece ence acca c eens ces aceseeeesecesceeseeceseceseeeseeceeessecsaeeneeaeesnseeees 6 LOD CAIN OD e 7 Danh muc ac chit viet tate c.ccccccccccccsccscescesesscsesseeecssesessessvsvesesevssvessusevsvevsreasseseveveeses 8 Danh mục các bảng 0 L2 1112 122 1110211110111 11H 1H KT KH gà khen rà 9

Chương 1 Mở đầu 5 S1 ST xEEEEE11 011 11111 121111 HH ng He 11 1.1 Lý do chọn để tải St TT HE H1 HH HH re 11

1.2 Mục tiêu và nhiệm vụ nghiên CỨU L2 2221121112211 121 1121111511181 1111k 12 1.2.1 Mục tiêu nghiên cứu - - -:- - c1 2 1221212111211 1151112112211 115111181 xxx Hưu 12 1.2.2 Nhiêm vụ nghiên cứu - c2 2211221111 1122111 1158125 11112 xen sờy 13 1.3 Cách tiếp cận, đôi tượng và phạm vi nghiên cứu ¿55 s2 set srresre 13

1.3.1 Cách tiếp cận 55 TT 1 1211211212111 121101211 H1 nga 13

1.3.2 Đối tượng và phạm vi nghiên cứu - - + s2 xE 2111211211111 tk erree 14 1.4 Phương pháp nghiên cứu - - - 1222122111211 1 1211151125111 11 19115501151 xxx ce 14

1.4.1 Phương pháp nghiên cứu lý thuyẾt 5c S21 E2 E2 xiên 14

1.4.2 Phương pháp nghiên cửu thực nghiệm 5 2222211221122 1122221 sekxes 14 L5 Ý nghĩa khoa học và thực na 15 1.5.1 Y nghia e8 2 15 1.52 Ý nghĩa thực TA ẦỒẦ 15 1.6 Nội dung văn bản - L0 2212221212111 11151112115 111151111115 1111118115111 ky 15 Chương 2 Tổng quan và tình hình nghiên cứu 2-52 TS SE th rerryn 16 2.1 Tổng quan tình hình nghiên cứu thuộc Tinh Vc cece cceseeccseeesesseecevsseeseeseseseees 16

2.2 Một số thách thức 2: 2222221 2211127111222111.211112111121112.1112001211121 2c 19

2.3 Sơ lược về các tập dữ liệu - c c kT2E21211 121211 t1 re 19 Chương 3 Cơ sở lý thuyẾt 1 ST E112 12121112121 11H Hai 22

3.1 NLP và một số phương pháp tiền xử lý - 55 s S1 E1 12H HH yệy 22

3.1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên (NLP) - c ScSncncnrnesHese 22

3.1.2 Ngôn ngữ lập trình phố biến - - 2S 1S SE E11 E1 121111 111.11 1 tre 24 EIB AI UO‹ on ion 25 SEN Ni900/(0((VvouuaaaÝẢi 28

Trang 4

K”e® i8 ằaốax.x.xxaắáa 31 “852 a1 31

3.3 Mô hình Viet-MIistral/V1stral-7B-Chat à St SH 1S HH Hệ 34

3.3.1 Giới thiệu về mô hình Mistralai/Mistral-7B-v0 -.-:55scsccvvvsrvrv 34

3.3.2 Ứng dụng của Viet-Mistral/Vistral-7B-Chat Trong Chatbot 5-s- 35 3.3.3 Thách thức và ứng dụng cụ thê cho giải đáp câu hỏi quy chế học tập 35 Chương 4 Phương pháp nghiên cứu và xây dựng chatbot hỗ trợ sinh viên giải đáp

4.1 Thiết kế chatbot 222: 222 2222212221112211112221 12221112112 11.111 111 36

4.1.1 Giao diện người dùng và tính năng 2c 2 2222112111122 221 3111 tre 36 4.1.2 Tích hợp công nghệ tương {ác - L1 0112112 1n 11H11 1 11 ru 37 4.2 Xây dựng bộ dữ liệu - c2 22221121 2211212 111111112111 111 11101111 0 1E HH he ray 39 4.2.2 Thu thập dữ liệu - 2 222122221121 1211511 121111112111 111111 201211 011 HH Hy kg 39 4.2.3 Gan nhãn và phân loại dữ liệu - c2 22222222221 1211 1112111111151 111 2111 s2 40 4.3 Dữ liệu đào tạo mô hình V1et-MIstral/V1stral-7B-Chat c2 c2 ss 4I

4.3.1 Chuẩn bị dữ liệu cho dao tạo mô hình 2222222222122 zrtrrree 41

4.3.2 Xác định mục tiêu đào tạO TQ 009111 2 22 211v ng ga 42 4.4 Phương pháp đánh g14 Ặ 2 0 20 2221122111211 1121112111 111181110115 1115111111111 1k ch 42 4.4.1 Xác định tiêu chí đánh g14 2 0 22121221121 121 151191151171 182111122 01111101111 kg 42

4.4.2 Đánh giá hiệu suất chatboI 55 SE 1 1121121211211 1 121tr Hee 43

4.5 Quy trình Fine-tune a pretrained modelL -.‹ c2 1211221112252 1 121 rreo 44

4.5.1 Xử lý dữ liệu đầu vào s- c nc nh HH HH1 H1 re 44

4.5.2 Tỉnh chỉnh mô hỉnh 5: 2c 22322121321 151 1513512152121 11121 15112121111 111111 xxe 45 Chương 5 Thực nghiệm và đánh giá 0 0022211211 1221 122 1E ty Hay 47 3.1 Môi trường thực nghiệm 2 221112112 1212121 1111118111111 1111811181121 ke 47

5.1.1 Môi trường triển khai - c1 2112121111 1211112121 g rH re 47

5.1.2 Cài đặt và triển khai s-2cc 2 221 21211121111121111121111111111.11111 0.1111 ee 47

3.2 Thực hiện thử nghiệm L0 22222111211 1121 1151125111111 1 1211221111111 111 11118 kkHhườy 47 5.2.1 Chon lọc dữ liệu thử nghiệm - 1 2 22 1222122112111 121 11558118118 47 3.2.2 Kịch bản thử nghiệm 2 2 222012221 221221 111111151151 1181 1115111811181 1 1 xưng 48 5.3 Kết quả thực nghiệm - G222 121112211211 121 1151115112511 111 1111111811111 1111811 key 48

Trang 5

5.3.1 Hiéu suat chatbot trong môi trường thực TT 5.3.2 Thời gian phản hồi và tương tác -sc c 1T E1 12212101211 1t tre

Chương 6 Kết luận và hướng phát triển 52 TT 1E E221 18m tung

6.1 Kết luận

6.2 Hướng phát triển

Trang 6

Loi cam doan

Tôi là Nguyễn Đức Tâm nhóm trưởng nhóm nghiên cửu, sinh viên khoa công nghệ thông

tin trường Đại học Sư Phạm thành phố Hồ Chí Minh Nhóm xin cam đoan rằng báo cáo

nghiên cứu khoa học đề tài “CHATBOT HỖ TRỢ SINH VIÊN HỎI ĐÁP QUY CHE

HỌC TẬP” là công trình nghiên cứu của riêng nhóm, do nhóm tìm hiểu, nghiên cứu và thực hiện Công trình nghiên cứu của nhóm không có sự sao chép từ các tài liệu, công trình nghiên cứu khác mà không ghi rõ nguồn trong tài liệu tham khảo

Các kết quả, ý tưởng và nội dung trình bảy trong báo cáo này là trung thực và chưa từng được công bồ trong bất kỳ công trình nghiên cứu nào khác Nhóm cam kết tuân thủ đầy đủ các quy định về đạo đức và bảo vệ quyền sở hữu trí tuệ trong quá trình thực hiện và trình bày nghiên cứu này Nhóm xin chịu hoàn toàn trách nhiệm về kết quả thực hiện và lời cam đoan này

Thành phố Hồ Chí Minh, tháng 4 năm 2024

Trang 7

Loi cam on

Trước tiên, nhóm xin gửi lời cảm ơn chân thành tới Trường đại học sư phạm thành phố Hồ Chí Minh đã trợ giúp, tạo điều kiện và hỗ trợ nhóm trong suốt quá trình thực hiện nghiên cửu nay

Nhóm cũng xin được gửi lời cám ơn đến với Thạc sĩ Võ Hoàng Quân với vai trò là giảng viên hướng dẫn đã nhiệt tình hướng và giúp đỡ nhóm trong suốt quá trình thực hiện nghiên cứu Những ý kiến đóng góp quý báu của thầy đã góp phần quan trọng vào việc hoàn thành nghiên cứu này

Nhóm cũng xin chân thành cảm ơn các thây/cô giáo, đã tận tình giảng dạy và chia sẻ những kiến thức quý báu trong suốt thời gian học tập của nhóm

Cuối cùng, nhóm xin gửi lời cảm ơn tới gia đình, bạn bè và những người thân yêu đã luôn bên cạnh, động viên và giúp đỡ tôi trong suốt thời gian thực hiện báo cáo này

Thành phố Hồ Chí Minh, tháng 4 năm 2024

Trang 8

Danh mục các chữ viêt tắt

Td viết tắt Td đầy đủ

AI Artificial Intelligence ASR Automatic Speech Recognition

Trang 9

Danh muc cac bang

Bảng 5-1: Tóm tắt đánh giá của người dùng ST 212122 re Bảng 5-2: Hạn chế và cách khắc phỤC . L1 2222212121111 11 221112 212g nườy

Trang 10

Danh muc cac hinh vé, dé thi

Hinh 2-1: Hinh 2-2: Hinh 2-3: Hinh 3-1: Hinh 3-2: Hinh 3-3: Hinh 3-4: Hinh 3-5: Hinh 3-6: Hinh 3-7: Hinh 3-8: Hinh 3-9: Hinh 4-1: Hinh 4-2: Hinh 4-3: Hinh 4-4: Hinh 4-5: Hinh 5-1: Hinh 5-2: Hinh 5-3: Hinh 5-4:

Tập dữ liệu từ số tay sinh viên - 5c n SE EE HH HH HH ru 20

Tập dữ liệu đào tạo mô hình Ì - 2 22 1222122222211 115125111 re 21 Tập dữ liệu đào tạo mô hình 2 - 2 2 1221221112 2221 1211151251111 nay 21 So dé pham vi NLP trong nganh trí tuệ nhân tạo eect ee eee ees 22 Hoạt động của NLU và NLUG trong NLP c2 22221212 re 24 Ảnh minh họa từ biến đổi sau khi qua token1zafion -cccccccccccccssce: 26 Các bước xóa các stop words khỏi các token óc cc che 29 Ảnh minh họa việc loại bỏ các từ không cần thiết 22 2 SE Hye 30 Biểu đồ thê hiện quan hệ giữa tần suất của từ - 1 St nhe Hee 31 Logo của thư viện Py Tord c1 12111222122 11 1155215111111 1k na e 31 Logo của thư viện TransÍOTI€TsS c1 2212221221111 1225111211151 11 12 2 ke 32 Bảng so sánh Vistral-7B-Chat với các LLM tiếng Việt khác 5-5 34 Logo Tadlo - c1 1122112111211 1511151151111 1111115111111 1H kk HH the 36 GHao diện của chatboi TS ST H521 1 HH ng xxx ky 37 Một kiến tric chatbot CO DAM cccccccccccccscsceseceesesesessvsvesevevesevevsvevevsvevevsveveveveves 38 M6 ta trién khai m6 hinh dén nguoi dung cece cecesceeceseeseseeseesesseevevseeeseeeee 39

Bộ dữ liệu đầu vào của mô hình ¿22+ 222222222 tre 45

Tải các thư viện cần thiết 22 ST HE E E251 51 855125112 He nen ng 47 Tải mô hình chat và fOk€fI1ZT G2: 2261211321351 1151351 1153111511111 511 11x 47 Sơ đồ về các khóa sinh viên thực hiện khảo sát S2 2S SE 2155122 xexez 49

Sơ đồ đánh giá cảm nhận về chatbot - 5c s22 112722121 1E ckcrrke 49

Trang 11

Chương 1 Mở đầu

1.1 Ly do chon dé tai

Trong bối cảnh cuộc Cách mạng Công nghiệp 4.0, công nghệ đang phát triển với tốc độ chóng mặt, đặc biệt là trí tuệ nhân tạo (AI) Không thể phủ nhận vai trò quan trọng mà công nghệ đóng góp vào nhiều lĩnh vực cuộc sống hàng ngày, trong đó có lĩnh vực giáo dục Một trong những ứng dụng đây tiềm năng của AI trong lĩnh vực giáo dục là việc tận dụng chatbot để cải thiện trải nghiệm học tập của sinh viên

Chatbot là một loại chương trình máy tính mô phỏng các cuộc trò chuyện của con người Nó giúp tương tác giữa con người và máy tính thông qua âm thanh hoặc tin nhắn văn bản Chatbot hoạt động độc lập và tạo ra các câu trả lời dựa trên các kịch bản được xác định trước và các thuật toán học máy Khi được đặt một câu hỏi, chatbot phản ứng dựa trên kiến thức hiện tại và dữ liệu có sẵn Với mỗi tương tác, chatbot mở rộng phạm vĩ và tính phù hợp của mình Độ phức tạp của một chatbot phụ thuộc vào tính phức tạp của phần mềm cơ bản và phạm vi dữ liệu mà chatbot có thê truy cập Việc phát triển và triển khai chatbot có tiềm năng mang lại lợi ích rất lớn vì chúng có thể hoạt động liên tục, học nhanh hơn con người và phản ứng ngay lập tức.[ 19]

Hiện nay sinh viên ngày càng sử dụng các thiết bị di động và thích nghi nhanh chóng với công nghệ thì Chatbot đang dần trở thành một công cụ hữu hiệu hỗ trợ sinh viên tiếp cận các thông tin liên quan đến quy chế học tập Với khả năng xử lý ngôn ngữ tự nhiên, trả lời câu hỏi 24/7, chatbot sẽ là người trợ lý ảo thông minh, cung cấp cho sinh viên mọi thắc mắc về các quy định áp dụng trong suốt quá trình học tập tại trường.[ I]

Chatbot cũng sẽ là cầu nỗi giữa nhà trường và sinh viên, giúp giảm áp lực cho đội ngũ cán bộ tư vấn học tập, cho phép tập trung vào giải quyết những vấn đề phức tạp, đòi hỏi xử lý riêng biệt Đồng thời, việc tích hợp công nghệ chatbot cũng tạo ra một trải nghiệm tương tác tích cực, thúc đây sự tham gia và tương tác của sinh viên với thông tin học tập

Chatbot sẽ là một trợ lý áo linh hoạt, có khả năng cung cấp thông tin liên quan đến quy chế học tập bất cứ lúc nào và ở mọi nơi Điều này giúp sinh viên tiếp cận thông tin

11

Trang 12

một cách dễ dang, dic biét la trong nhimg tinh huéng khẩn cấp hoặc khi cần biết chỉ tiết

về các quy định và chính sách

Đề tài "Chatbot Hỗ Trợ Sinh Viên Hỏi Đáp Quy Ché Học Tập” được chọn lựa với mong muốn tạo ra một giải pháp hiệu quả, tiện lợi và tương tác để cung cấp thông tin liên quan đến quy chế học tập cho sinh viên Trong bối cảnh sự phát triển mạnh mẽ của công nghệ thông tin, việc sử dụng chatbot không chỉ là một bước tiễn vững chắc trong quản lý

học tập mà còn mang lại nhiều lợi ích đáng kẻ

Việc ứng dụng công nghệ chatbot vào hỗ trợ sinh viên về quy chế học tập vừa giải quyết được nhu cầu thực tế, vừa tiết kiệm nhân lực và tài nguyên Đồng thời nó cũng mở ra cơ hội để sinh viên tiếp cận và làm quen với các công nghệ thông minh hiện đại Chatbot sé là một trợ lý ảo linh hoạt, có khả năng cung cấp thông tin liên quan đến quy chế học tập bất cứ lúc nào và ở mọi nơi Điều này giúp sinh viên tiếp cận thông tin một

cách dễ dàng, đặc biệt là trong những tình huống khẩn cấp hoặc khi cần biết chỉ tiết về

các quy định và chính sách.|2] 1.2 Mục tiêu và nhiệm vụ nghiên cứu

1.2.1 Mục tiêu nghiên cứu

Nâng cao kiến thức về xử lý ngôn ngữ tự nhiên: Nghiên cứu này hướng tới mục tiêu giúp sinh viên hiểu rõ hơn về lĩnh vực NLP và các bài toán liên quan, tập trung vào phân tích các mô hình xử lý ngôn ngữ tự nhiên tiếng Việt

Phát triển chatbot giải đáp thắc mắc bằng tiếng Việt: Xây dựng một chatbot có khả năng đáp ứng nhu cầu tra cứu thông tin bằng tiếng Việt của sinh viên về các quy định, nội quy học tập cũng như hỗ trợ giải quyết một số thủ tục hành chính

Tối ưu hóa trải nghiệm của sinh viên: Mục tiêu là cung cấp một công cụ hỗ trợ giúp sinh viên tiết kiệm thời gian và công sức trong việc tìm hiểu các thông tin, quy định về công tác học vụ

Cung cấp dữ liệu chính xác và đầy đủ: Chatbot nhằm mục đích cung cấp các thông tin cập nhật, đúng đắn và đầy đủ liên quan đến chương trình đảo tạo, lịch học và các quy định của nhà trường.

Trang 13

H6 tro vé cac van dé tai chinh: Chatbot sé cung cap cho sinh vién cac théng tin can thiết về học phí, học bông và các chính sách hỗ trợ tài chính của trường đề giúp sinh viên

có kế hoạch đóng học phí và chuẩn bi tài chính tốt nhất

1.1.2 Nhiêm vụ nghiên cứu

Tìm hiểu tổng quan các công trình nghiên cứu về chatbot tiếng việt hiện nay, đặt biệt là sử dụng mô hình tiếng việt trong lĩnh vực giáo dục:

- Tìm hiểu, tham khảo các nghiên cứu và bài viết khoa học liên quan đến chatbot tiếng Việt trong lĩnh vực giáo dục Đánh giá, học hỏi cách mà các nghiên cứu trước đó đã giải quyết các thách thức và vấn đề tương tự

- _ Nghiên cứu các ứng dụng cụ thể của chatbot trong giáo dục, chăng hạn như hỗ trợ tư vấn học tập, cung cấp thông tin về chính sách học tập, hoặc hỗ trợ sinh viên trong quá trình học

Nghiên Cứu Về Xử Lý Ngôn Ngữ Tự Nhiên (NLP):

- - Tìm hiểu về các mô hình xử lý ngôn ngữ tự nhiên hiện đại, đặc biệt là những mô hình được áp dụng cho tiếng Việt

- - So sánh hiệu suất của các mô hình xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt là những mô hình đã được áp dụng trong lĩnh vực giáo dục

- _ Tìm hiểu về các bộ dữ liệu sử dụng để đánh giá mô hình, đặc biệt là những bộ dữ

liệu liên quan đến câu hỏi và trả lời trong lĩnh vực giáo dục Xây Dựng Chatbot Tiếng Việt:

- Tham gia vào quá trình phát triển và lập trình chatbot, có thể sử dụng các framework như Python và các thu vién NLP nhu Transformers

- _ Nắm vững về cách tích hợp mô hình NLP vào chatbot và làm thế nào chúng có thê hiệu quả trong việc hiểu va tra loi câu hỏi của người dùng

- Xem xét xử lý các trường hợp đặc biệt và nâng cao khả năng tương tác của chatbot.

Trang 14

1.3 Cách tiếp cận, đôi tượng và phạm vi nghiên cứu

1.4.1 Cách tiếp cận

Trong thời đại công nghệ hiện đại, đặc biệt là trong lĩnh vực giáo dục Đại học, việc phát triển một Chatbot nhằm hỗ trợ sinh viên trong giải quyết các thách thức liên quan đến học tập trở nên ngày cảng quan trọng Trong nghiên cứu này, nhóm xây dựng một chatbot AI với khả năng giao tiếp bằng ngôn ngữ tự nhiên tiếng Việt để hỗ trợ sinh viên giải đáp các thắc mắc về công tác học vụ Đề tai này tập trung vào xây dựng một Chatbot nhằm cung cấp sự giúp đỡ cho sinh viên trong việc đối mặt với các vẫn đề học vụ, như bảo lưu học tập, chuyển ngành học và nhiều vẫn đề khác

Chatbot được xem là một công cụ hữu ích, giúp tối ưu hóa quản lý học tập và tạo điều

kiện thuận lợi cho sinh viên tự xử lý các thủ tục liên quan đến học vụ Đồng thời, đề tài

tận dụng sức mạnh của công nghệ xử lý ngôn ngữ tự nhiên (NLP) trong ngôn ngữ tiếng Việt, nhằm cung cấp hỗ trợ dựa trên tri thức và phản hồi tức thì, nâng cao trải nghiệm học tập của sinh viên

1.3.2 Đối tượng và phạm vi nghiên cứu

Đôi tượng nghiên cứu: Nghiên cứu sẽ chủ yêu tập trung vào sinh viên đại học, nhóm người sử dụng chính của Chatbot đề hỗ trợ giải đáp các thắc mắc liên quan đến quy chế học tập tại Trường Đại học Sư phạm TPHCM

Phạm vi nghiên cứu: Nhóm xây dựng Chatbot đề hỗ trợ sinh viên hỏi đáp các quy chế, cung cấp thông tin, giải đáp thắc mắc, và hỗ trợ sinh viên nắm bắt nhanh chóng các quy định, thủ tục hành chính, và chính sách học tập áp dụng trong suốt quá trình học tại Trường Đại học Sư phạm TPHCM

1.4 Phương pháp nghiên cửu

1.4.1 Phương pháp nghiên cứu lý thuyết

- Tìm hiệu, tham khảo các tài liệu nghiên cứu, nghiên cứu trước đây và các công trình liên quan đến việc sử dung Chatbot trong hệ thống hỗ trợ sinh viên Ví Dụ: Chatbot for admission to National Economics University,

Trang 15

- Téng hop cac théng tin thu thập được đề xây dựng nên tảng lý thuyết cho việc phat triên Chafbot hỗ trợ sinh viên trong môi trường đại học

- Phân tích và tổng hợp: Phân tích, so sánh các công trình nghiên cứu đề đưa ra cách

tiếp cận phù hợp cho đề tài

1.4.2 Phương pháp nghiên cứu thực nghiệm

- Str dung framework như Python và thư viện NLP như Transformers để xây dựng Chatbot với khả năng hiểu và trả lời các câu hỏi của người dùng

- Tự xây dựng bộ dữ liệu sẵn có dựa trên số tay sinh viên, các văn bản học tập, thông báo, quy chế của trường Đại học Sư phạm TPHCM để sử dụng trong quá trình huấn luyện Chatbot

- Dữ liệu được thu thập thông qua quá trình thử nghiệm bao gồm các bài đánh giá, cuộc khảo sát, và việc chạy các phiên thử nghiệm Ngoài ra, dữ liệu còn được chọn lọc từ các nguồn trực tuyến như trang Fanpage của trường và các kênh thông tin chính thống của trường Đại học Sư phạm TPHCM

- Thử nghiệm với người dùng thực tế để đảm bảo khả năng đáp ứng và hiệu quả của

Chatbot cải tiên chatbot dựa trên kết quá đánh gia ban dau L5 Ý nghĩa khoa học và thực tiễn

15.LÝ nghĩa khoa học

Nghiên cứu này đóng góp vào lĩnh vực khoa học bằng cách mở rộng hiểu biết về sử dụng Chatbot trong hệ thông hỗ trợ sinh viên Qua việc phân tích, so sánh các công trình nghiên cứu liên quan, nghiên cứu cung cấp cái nhìn sâu sắc và toàn diện về khả năng ứng dụng của công nghệ Chatbot trong môi trường giáo dục Đồng thời, nó có thê làm nền tảng cho các nghiên cứu tương lai về ứng dụng của trí tuệ nhân tạo trong việc cải thiện trải nghiệm học tập

1.5.2 Ý nghĩa thực tiễn

Chatbot giúp giảm thời gian và công sức của sinh viên trong việc tra cứu thông tm, thực hiện các thủ tục hành chính liên quan đến học vụ Điều này tạo điều kiện cho sinh viên tập trung hơn vào việc nghiên cứu và học tập

15

Trang 16

Định hướng phát triển các ứng dụng AI trong công tác đảo tạo và hỗ trợ học tập Góp phần nâng cao chất lượng, hiệu quả hoạt động giáo dục và đảo tạo

1.6 Nội dung văn bản Đề tài gồm 6 chương:

Chương 1 Mở đầu

Chương mở đầu trình bày bối cảnh nghiên cứu, tầm quan trọng của việc xây dựng một Chatbot hỗ trợ sinh viên tại Trường Đại học Sư phạm TPHCM Nêu rõ mục tiêu, ý nghĩa và giả thuyết của nghiên cứu, phạm vi và đối tượng nghiên cứu

Chương 2 Tổng quan và tình hình nghiên cứu

Chương này đưa ra cái nhìn tổng quan về môi trường giáo dục hiện đại và thách thức mà

sinh viên đang phải đối mặt Đồng thời, trình bày tình hình sử dụng công nghệ, đặc biệt là

Chatbot, trong lĩnh vực giáo dục và hỗ trợ sinh viên

Chương 3 Cơ sở lý thuyết

Chương này giới thiệu về cơ sở lý thuyết và xử lý ngôn ngữ tự nhiên (NLP) Phân tích

các mô hình NLP, đặc biệt là mô hình Viet-Mistral/Vistral-7B-Chat được mở rộng từ mô hình Mistralai/Mistral-7B-v0.1 của Mistral AI, với sự tập trung vào khả năng ứng dụng trong việc hỗ trợ sinh viên

Chương 4 Phương pháp nghiên cứu và xây dựng chatbot hỗ trợ sinh viên giải đáp quy chế học tập

Chương này trình bày về phương pháp nghiên và về quá trình xây dựng Chatbot Mô tả về việc sử dung framework Python và thư viện NLP như Transformers, cùng việc xây dựng bộ dữ liệu từ các nguồn tài liệu của trường Đại học Sư phạm TPHCM

Chương 5 Thực nghiệm và đánh giá

Chương này trình bày về quá trình thực nghiệm, đánh giá hiệu suất, phân tích những điểm mạnh và yếu của Chatbot dựa trên kết quả thực nghiệm

Chương 6 Kết luận và hướng phát triển

Chương này tổng kết lại những gì đã đạt được và chưa đạt được trong quá trình nghiên cứu Từ đó có những định hướng nghiên cứu, phát triển và cái tiễn chatbot trong tương lai.

Trang 17

Chương 2 Tổng quan và tình hình nghiên cứu

2.1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực

Trí tuệ nhân tạo (AI) đã được tích hợp sâu rộng trong nhiều lĩnh vực của giáo dục, bao gồm việc hướng dan va tu van cho học sinh va sinh viên Một điển hình về sự sớm áp dụng trí tuệ nhân tạo trong giáo dục là sự phát triển của các Hệ thông Hướng dẫn Thông minh (ITS), được thiết kế để cung cấp hướng dẫn và phản hồi cá nhân hóa dựa trên nhu cầu và khả năng cụ thê của từng học viên Những phương pháp này thường được triển khai như các chương trình máy tính bố sung cho hình thức đào tạo truyền thống trong giáo dục

Trong thời gian gần đây, chatbot đã trở thành một công cụ quan trọng, tự động hóa nhiều khía cạnh của hướng dẫn và tư vẫn Cụ thể, chúng có khả năng cung cấp hướng dẫn

và phản hồi cá nhân hóa, xác định nhu cầu và rào cản học tập của học sinh, và thiết kế kế

hoạch học tập cá nhân hóa Ứng dụng trí tuệ nhân tạo trong hướng dẫn và tư vấn giúp cải thiện trải nghiệm học tập của sinh viên, tự động hóa giao tiếp và giải đáp các câu hỏi dựa trên thông tin cung cấp Sinh viên ngày nay có khả năng tiếp cận thông tin về trường học mọi lúc, mọi nơi thông qua hệ thông chatbot khi có kết nối internet.[3]

Với tác động đáng kể đối với cuộc sống sinh viên, chatbot đóng vai trò quan trọng trong việc giải quyết các thách thức học tập và giúp tiết kiệm thời gian Bằng cách cung cấp câu trả lời tức thì cho các câu hỏi của sinh viên, hệ thống chatbot không chỉ làm cho việc truyền đạt thông tin trở nên dễ dàng hơn mà còn giúp giảm áp lực công việc cho các phòng ban, giúp họ tập trung vào những công việc quan trọng hơn trong quá trình học tập

Theo ta được biết cố vấn học tập là người tô chức thảo luận, triển khai các quy định, quy chế về học chế tín chỉ, các quy định của nhà trường liên quan đến quyền và nghĩa vụ cho sinh viên lớp mình cô vấn Cô vẫn học tập sẽ có các nhiệm vụ chính như sau:

L] Tư vẫn và hỗ trợ sinh viên về việc lập kế hoạch học tập Như giúp sinh viên lựa chọn các môn phù hợp với chuyên ngành, sở thích va năng lực Ngoài ra, còn có tư vấn về việc đăng ký tín chỉ, thủ tục chuyên ngành.

Trang 18

LI Tư vấn và hỗ trợ sinh viên về phát triển kỹ năng học tập như hướng dẫn kỹ

thuật học tập, tổ chức thời gian thi cử và chuẩn bị thi

[] Tư vấn và hỗ trợ sinh viên về vấn đề cá nhân như tài chính, sức khỏe, tâm

ly và tiễn độ học tập của sinh viên

LI Liên kết và phối hợp với các phòng ban, các giảng viên và sự kiện hỗ trợ sinh viên

Công tác cô vấn học tập là công tác kiêm nhiệm nên hầu hết giảng viên đều rất bận rộn với nhiều công việc như: giảng dạy, nghiên cứu khoa học, biên soạn giáo trình, bài giảng, công việc gia đình nên rất ít đành thời gian dành gian cho hoạt động cô vấn học tập mà chủ yếu là giải quyết các công việc mang tính bắt buộc như hướng dẫn sinh viên lập kế hoạch học tập, duyệt kế hoạch học tập

Chính vi vay, chatbot la m6t công cụ hữu ich đối với sinh viên đang tìm kiếm thông tin liên quan đến các thủ tục và quy định tại trường Thông qua chatbot sinh viên có thê tiếp nhận thông tin trực tiếp mà không cân liên hệ với cô vẫn học tập hoặc nhà trường [4]

Trong suốt thời gian, trí tuệ nhân tạo đã được sử dụng đề từng bước tự động hóa nhiều khía cạnh của việc hướng dẫn và tư vấn, chẳng hạn như việc cung cấp hướng dẫn và phản hồi cá nhân hóa, xác định nhu cầu và rào cản trong quá trình học tập của học sinh, và thiết kế kế hoạch học tập cá nhân hóa Ứng dụng của trí tuệ nhân tạo trong việc hướng dẫn và tư vấn có tiềm năng gia tăng và cải thiện quá trình học tập đồng thời cung cấp cho học sinh trải nghiệm học tập cá nhân hóa hơn.[S]

Ngoài ra theo HCMUS[6], thì chatbot được sử dụng dé trả lời các câu hỏi đa phần là 90% cho "Học bông", "Ngành học", "Tốt nghiệp"; và hơn 80% cho "Kỳ thi", "Đăng ký học phân", "Điểm học phần", "Học phần thay thế", "Học phần chuyên nganh".Vi du, "Học bông" và "Tốt nghiệp" rất dễ nhận biết vì chúng hiển thị các từ đặc trưng như "học bong" va "tốt nghiệp” tương ứng Tuy nhiên, kết quả xác định các lớp khác như "Bài tập" và "Nội dung học phần" không tốt lắm vì đã có sự mơ hồ trong việc phân loại các lớp

này Đề cải thiện hiệu suất phân loại của những lớp này, cần thu thập thêm dữ liệu đào

tạo cho chúng.

Trang 19

Voi viéc ing dung chatbot vào trong giáo dục và ở các môi trường giáo dục nay tại Việt Nam Chúng ta đã phân tích và làm rõ nội dung cơ bản và nhiệm vụ về tư vấn, giải đáp về các vấn đề quyên lợi của sinh viên, vấn đề liên quan đến học phân, học phí, phương pháp giáo dục và ứng dụng liên quan học tập trong giáo dục đại học hiện nay tại

Việt Nam Tuy nhiên việc triển khai và duy trì một chatbot có thê đòi hỏi nguồn lực tài

chính đáng kẻ Nhưng nếu được triển khai một cách hiệu quả và được tích hợp vào quy

trình làm việc có tổ chức, chatbot có thê tạo ra giá trị đối với tổ chức và tiết kiệm tài

chính trong thời gian dài 2.2 Một số thách thức

Khả Năng Hiểu Ngôn Ngữ Tự Nhiên: Các chatbot thường đối mặt với thách thức hiểu ý của người dùng khi sử dụng ngôn ngữ tự nhiên Sự phức tạp và đa nghĩa của ngôn ngữ có thê dẫn đến hiểu lầm Điều này đặt ra yêu cầu cao về khả năng xử lý ngôn ngữ và tư duy máy học của chatbot

Khả Năng Tương Tác Người-Máy: Việc tạo ra trải nghiệm tương tác tự nhiên vẫn là

một thách thức Chatbot cần phải có khả năng phản ứng linh hoạt và thích ứng với nhiều

tình huống khác nhau, đề giao tiếp một cách mượt mà và hiệu quả

Dữ Liệu và Ngôn Ngữ Đặc Biệt: Trong lĩnh vực giáo dục, có nhiều thuật ngữ chuyên ngành và ngôn ngữ đặc biệt Chatbot cần có khả năng hiểu và xử lý thông tin chính xác trong ngữ cảnh này, đặt ra thách thức về việc xây dựng kiến thức chuyên sâu và linh hoạt Hỗ Trợ Nhiều Chủ Đề: Một chatbot giáo dục cần phải đáp ứng một loạt các chủ đè, từ nội dung học tập đến thông tin hành chính Việc này đòi hỏi khả năng xử lý đa dạng và phức tạp của thông tin, đồng thời duy trì sự hiệu quả trong truyền đạt kiến thức

Quản Lý Thông Tin Phản Hồi: Chatbot cần phải xử lý phản hồi từ người dùng để

liên tục cải thiện khả năng hiểu và phản ứng của mình Quản lý thông tin phản hồi một cách hiệu quả là quan trọng đề thích nghỉ với nhu cầu và mong đợi người dùng.

Trang 20

2.3 Sơ lược về các tập dữ liệu

Để xây dựng một chatbot hỗ trợ sinh viên về các vấn đề liên quan đến quy chế học tập tập dữ liệu huấn luyện là yêu tố quan trọng quyết định đến khả năng hoạt động và hiệu quả của chatbot

Một số tập dữ liệu phục vụ cho việc xây dựng chatbot như: Tập dữ liệu số tay sinh viên:

oMô tả: Tập dữ liệu này bao gồm thông tin từ số tay sinh viên, bao gồm các nội dung liên quan đến quy ché hoc tập, hướng dẫn về quy trình học, và câu hỏi thường gặp oNguồn gốc: Dữ liệu được thu thập từ hệ thống quản lý học tập của trường đại học, bao

gồm cả tài liệu được cung cấp cho sinh viên và các tài liệu hỗ trợ khác

oĐặc điểm: Dữ liệu được tô chức dưới dang van bản có cau tric va không cầu trúc, bao gồm cả văn bản dễ hiểu và các câu hỏi

oSử dụng: Tập dữ liệu này được sử dụng đề xây dựng và đào tạo mô hình chatbot dé hỗ trợ sinh viên giải đáp các câu hỏi liên quan đến quy chế học tập

Hình 2-1: Tập đữ liệu từ số tay sinh viên Tập dữ liệu huấn luyện mô hình:

20

Trang 21

oMô tả: Tập dữ liệu này chứa các cặp câu hỏi và câu tra lời được sử dụng đề đào tạo mô hinh chatbot

oNguồn gốc: Dữ liệu được tạo ra từ việc kết hợp dữ liệu từ số tay sinh viên và các nguồn đữ liệu tương tự

oĐặc điểm: Dữ liệu này được chuẩn bị và gán nhãn đề phù hợp với mô hình chatbot và

yêu cầu đào tạo

oSử dụng: Dữ liệu huấn luyện này được sử dụng đề huấn luyện mô hình chatbot và cải thiện khả năng hiệu biết và phản hoi cua no

Hình 2-2: Tập dữ liệu dao tao mô hình I

21

Trang 22

Hình 2-3: Tập dữ liệu đào tạo mô hình 2

Một số dữ liệu huấn luyện quan trọng bao gồm: cơ sở dữ liệu các câu hỏi thường gặp của sinh viên về quy chế học tập, tải liệu quy chế và các văn bản pháp quy của nhà trường: tập dữ liệu các câu trả lời mẫu của cán bộ tư vấn cho các câu hỏi

Việc xây dựng, cập nhật và làm phong phú các tập dữ liệu đào tạo sẽ giúp chatbot ngày cảng thông minh và hiệu quả hơn trong việc hỗ trợ cho sinh viên về các vấn đề liên quan đến quy chế học tập và đào tạo

Chương 3 Cơ sở lý thuyết

3.1 NLP và một số phương pháp tiền xử lý

3.1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên (NLP)

Xử lý ngôn ngữ tự nhiên (NLP) là một nhánh của trí tuệ nhân tao (AI) cho phép máy tính hiểu, tạo ra và thao tác với ngôn ngữ tự nhiên của con người Hầu hết chúng ta đã

từng tương tác với NLP mà không nhận ra Chẳng hạn, NLP là công nghệ cốt lõi đăng

sau trợ lý ảo, nhự Trợ lý kỹ thuật số Oracle, Siri, Cortana hoặc Alexa Khi chúng ta đặt các câu hỏi cho những trợ lý ảo này, NLP là công nghệ cho phép chúng không chỉ hiểu yêu cầu của người dùng mà còn trả lời bằng ngôn ngữ tự nhiên giống như con người Ngoài ra NLP còn có thê hỗ trợ nhiều ngôn ngữ khác nhau Nó cũng được sử dụng trong

22

Trang 23

nhiéu ứng dụng hữu ích như tìm kiếm web, lọc thư rác email, dịch tự động văn bản hoặc, tóm tắt tài liệu, phân tích cảm xúc và kiêm tra ngữ pháp/chính ta.[8]

Hình 3-1: Sơ đồ phạm vi NLP trong ngành trí tuệ nhân tạo[7]

Xử lý ngôn ngữ tự nhiên thường được chia thành hai lĩnh vực - hiểu ngôn ngữ tự nhién (NLU) va tao ra ngôn ngữ tự nhiên (NLỤG)

Hiểu ngôn ngữ tự nhiên (NLU) là lĩnh vực nghiên cứu về khả năng của máy tính để

hiểu ngôn ngữ của con người NLU tập trung vào khả năng của máy tính đề hiểu ý nghĩa và kiến thức từ ngôn ngữ của con người Các ứng dụng của khả năng này gần như không giới hạn, vì nó cung cấp một giải pháp hấp dẫn: tự động xây dựng một cơ sở kiến thức có cầu trúc bằng cách đọc văn bản ngôn ngữ tự nhiên Rất nhiều thông tin có thể được trích xuất dưới dạng thực thể, mối quan hệ, cảm xúc và sự kiện.[9]

Tạo ngôn ngữ tự nhiên (NLUG) là một lĩnh vực trong trí tuệ nhân tạo tập trung vào việc chuyền đối dữ liệu và thông tin thành ngôn ngữ tự nhiên mà con người có thé hiểu được Những ứng dụng của NLG như:

23

Trang 24

NLG có thê được sử dụng để tóm tắt văn bản dài thành các đoạn văn bản ngắn hơn,

dễ hiểu hơn Điều này rất hữu ích khi cần xử lý một lượng lớn văn bản như cần tóm tắt

một bài báo NLG còn có thể được sử dụng để viết lại văn bản theo nhiều phong cách khác nhau, chuyền đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác Ngoài ra, NLG có thê được sử dụng để phát hiện và sửa lỗi chính tả trong văn bản, qua đó giúp cải thiện chất lượng của văn bản

NLG còn có thể được sử dụng để trả lời các câu hỏi một cách tự nhiên và dễ hiểu Điều này có thế thấy trong các hệ thống dịch vụ khách hàng, chatbot hoặc các công cụ hỗ trợ khác

NLG được sử dụng trong các chatbot để tạo ra các cuộc trò chuyện tự nhiên và tạo sự hứng thú với người dùng Chatbot có thê được sử dụng trong nhiều lĩnh vực khác nhau như chăm sóc sức khỏe, dịch vụ khách hàng hoặc giáo dục NLUG cũng được sử dụng trong các hệ thống trợ lý ảo như Siri, Alexa và Google Assistant đề tạo ra các phản hồi tự nhiên từ người dùng

Hình 3-2: Hoạt động của NLU va NLG trong NLP [9]

Các mô hình NLP hiện đại dựa nhiều vào một phương pháp của trí tuệ nhân tạo được gọi là học máy Học máy tạo ra các dự đoán bằng cách tổng quát hóa qua các ví dụ trong một tập dữ liệu Tập dữ liệu này được gọi là dữ liệu huấn luyện, và các thuật toán học

24

Trang 25

may duoc huấn luyện trên dữ liệu này để tạo ra một mô hình học máy thực hiện một nhiệm vụ mục tiêu [8 |

Ví dụ, dữ liệu huấn luyện cho chatbot bao gồm các câu hỏi cùng với câu trả lời tương ứng của chúng Một thuật toán học máy đọc tập dữ liệu này và tạo ra một mô hình nhận các câu hỏi làm đầu vào và trả lại câu trả lời phù hợp Mô hình này nhận các câu hỏi và trả lời làm đầu vào và trả lại một câu trả lời cho mỗi câu hỏi được gọi là mô hình chatbot Các mô hình chatbot có thê được sử dụng để giải đáp câu hỏi theo nhiều chủ đề khác nhau (ví dụ, chăm sóc sức khỏe, du lịch, công nghệ, v.v.)

3.1.2 Ngôn ngữ lập trình phô biến

Python là ngôn ngữ lập trình được sử dụng rộng rãi trong xử lý ngôn ngữ tự nhiên với các thư viện và công cụ NLP phong phú Sự phô biến của Python làm cho nó trở thành lựa chọn hàng đầu cho phát triển các dự án NLP Môi trường phát triển tương tác của Python giúp dễ dàng phát triển và kiêm thử mã mới

Trong trường hợp xử lý lượng dữ liệu lớn, Java và C++ thường được ưa chuộng vì khả năng hỗ trợ mã nguồn hiệu quả hơn Tính linh hoạt của Java và tính hiệu quả của C+ + làm cho chúng trở thành lựa chọn phô biến cho các dự án NLP có quy mô lớn và yêu cầu hiệu suất cao

3.1.3 Tokenization

Trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), đề cập đến quá trình chuyền đôi một chuỗi văn bản thành các phần nhỏ hơn, được gọi là các "token" Những token này có thể nhỏ như các ký tự hoặc dài như các từ Quá trình đó được gọi là Tokenization Qua trình này đóng vai trò quan trọng trong việc giúp máy tính hiểu ngôn ngữ con người bằng cách chia nhỏ văn bản thành các đơn vị dé dàng phân tích và xử lý hơn

Khi dạy trẻ em đọc, chúng ta thường bắt đầu từ các chữ cái, sau đó là âm tiết và cuối cùng là toàn bộ từ Tương tự, trong token1zation, văn bản được chia thành các đơn vị nhỏ

hon dé may tinh dé hiéu hơn Mục tiêu của tokenization là biểu diễn văn bản một cách có

ý nghĩa cho máy tính và vẫn giữ nguyên bổi cảnh ban đầu Việc chuyên đối văn bản

25

Trang 26

thành các token giúp các thuật toán nhận biết mẫu một cách dễ dàng hơn Điều này quan trọng vì giúp máy tính hiểu và phản ứng với đầu vào của con người.[ 10]

Hình 3-3: Ảnh minh họa từ biến đối sau khi qua tokenization

Tokens là các đơn vị cơ bản trong xử lý ngôn ngữ tự nhiên (NLP) Tokens có thê là một từ (word), một từ phụ (sub-word) hoặc thậm chí là một ký tự (character) Dưới đây là ba loại thường được sử dụng:

Word-based tokenization(mã hóa dựa trên từ) là một trong những kỹ thuật phố biến trong việc phân tích văn bản, nó phân chia một đoạn văn bản thành các từ (trong tiếng Anh) hoặc các âm tiết (trong tiếng Việt) dựa trên các dấu phân cách như dấu cách trắng Trong tiếng Việt, một từ có thể bao gồm 2 hoặc 3 âm tiết được liên kết với nhau thông qua dau cach trang

Quá trình tách từ có thể thực hiện dễ dàng bằng cách sử dụng phương thức split() của RegEx hoặc trong ngôn ngữ lập trình Python Ngoài ra, có nhiều thư viện Python như NLTK, spaCy, Keras, Gensim hỗ trợ việc thực hiện tokenization một cách thuận tiện

26

Trang 27

Các mô hình NLP thường áp dụng các phương pháp tách từ phủ hợp với từng ngôn ngữ cụ thê Tùy thuộc vào yêu cầu cụ thể của vấn đề, cùng một đoạn văn bản có thê được xử lý thành các loại tokens khác nhau Mỗi token thường được định danh bằng một ID duy nhất, giúp mã hóa và định danh chúng trong không gian số

Nhược điểm của kỹ thuật tokemization là nó tạo ra một kho từ vựng lớn và đòi hỏi một

lượng dữ liệu đáng kể, làm cho mô hình trở nên phức tạp và đòi hỏi nhiều tài nguyên tính

toán hơn Hơn nữa, một vấn đề khác liên quan đến việc xử lý các từ viết sai chính tả Để vượt qua những thách thức này, các nhà nghiên cứu đã đề xuất các kỹ thuật mã hóa dựa trên ký tự

Ví dụ văn bản đâu vào: "Học máy là một lĩnh vực quan trọng." Tokens: [ "Học", "máy”, "là", "một", "lĩnh", "vực", "quan", "trọng"”]

Character-based tokenization(mã hóa dựa trên ký tự) chia văn bản thô thành các ký tự riêng lẻ Lý do cơ bản là mỗi ngôn ngữ có một số ký tự cố định nhưng có nhiều từ khác nhau, dẫn đến sự phong phú trong vốn từ vựng Ví dụ, tiếng Anh có 256 ký tự khác nhau, nhưng gần 170.000 từ trong từ điển Do đó, mã hóa dựa trên ký tự sẽ sử dụng ít token hơn so với mã hóa dựa trên từ

Tuy nhiên, loại mã hóa này khá đơn giản và có thê làm giảm độ phức tạp của bộ nhớ và thời gian Không phải lúc nào nó cũng là thuật toán tốt nhất cho việc tách từ Một ký tự thường không mang bất kỳ ý nghĩa hoặc thông tin nào như một từ Ngoài ra, mặc dù giảm kích thước từ vựng, nhưng mã hóa dựa trên ký tự lại làm tăng độ dài chuỗi Mỗi từ

được chia thành các ký tự riêng biệt, dẫn đến chuỗi mã hóa dài hơn nhiều so với văn bản

ban đầu Do đó, dù giải quyết được nhiều thách thức, mã hóa dựa trên ký tự vẫn gặp phải

một số van đề nhất định

Ví dụ văn bản đâu vào: "Học máy là một lĩnh vực quan trọng."

‡† ‡†

2

Tokens: ["Hoc", "ma", ny", "la", "mot", "i", "nh, "h", "vực quan”, "trọ ; ng"|

Subword-based tokenization(mã hóa dựa trên từ phụ) là một kỹ thuật phố biến nằm giữa mã hóa dựa trên từ và ký tự Nó giải quyết đồng thời các vấn đề của cả hai kỹ thuật trên Ý tưởng chính của mã hóa dựa trên từ phụ là không chia các từ thường dùng thành

27

Ngày đăng: 02/08/2024, 16:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN