Phân loại văn bản là một trong những phương pháp quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên NLP, giúp tự động sắp xếp và gán nhãn các văn bản vào các danh mục cụ thể.. Đề tài “Phâ
Trang 1Phân loại văn bản sử dụng thư viện Transformer
Giáng viên hướng dẫn : Đặng Như Phú
Sinh viên thực hiện : Vương Hoàng Thiện
Trang 2Phân loại văn bản sử dụng thư viện Transformer
Giáng viên hướng dẫn : Đặng Như Phú
Sinh viên thực hiện : Vương Hoàng Thiện
Trang 3TRƯỜNG ĐẠI HỌC NGUYÊN TÁT THÀNH _ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập — Tự do ~ Hạnh phúc
CHUONG 1 NHIEM VU BO AN MON HOC
(Sinh viên phải đóng tờ này vào cuốn báo cáo)
Họ và tên: Vương Hoàng Thiện MSSV: 2100011846
Chuyên ngành: Trí tuệ nhân tạo
Lớp: 2IDHT2A
Email: 2100011846@nttu.edu.vn
2300) K05 Số ea
Tên đề tài: phân loại văn bản sử dụng thư viện TransfÍormer : 5-2-5:
Giảng viên giảng dạy: Ths Đặng Như Phú
Thời gian thực hiện: / 2024 đến / /2024
Nhiệm vụ/nội dung (mô tả chỉ tiết nội dung, yêu cầu, phương pháp ):
Nội dung và yêu cầu đã được thông qua Bộ môn
SỐ Tp.HCM, ngày tháng 9 năm 2024
TRUONG BOQ MON GIANG VIEN GIANG DAY
(Ky va ghi ré ho tén) (Ky và ghi rõ họ tên)
TS Hà Minh Tân ThS Đặng Như Phú
Trang 4LỜI CÁM ƠN
Trước hết, em chân thành cảm ơn các thầy cô và cán bộ của trường Đại học Nguyễn Tất
Thành đã tạo điều kiện thuận lợi cho em trong suốt quá trình học Trong quá trình nghiên cứu đề tài , em đã nhận được sự giúp đỡ của lãnh
đạo khoa Công nghệ thông tin, thầy cô giáo trường Đại học Nguyễn Tất Thành cùng các bạn trong khoa đã quản lý và tổ chức hiệu qua và chất lượng giúp em yên tâm trong suốt quá trình học tập và nghiên cứu
Xin tỏ lòng kính trọng và biết ơn sâu sắc đến giảng viên Đặng Như Phú về những ý kiến đóng góp về chuyên môn và sự động viên khích lệ của cô cũng là người trực tiếp hướng dẫn và giúp đỡ trong suốt quá trình xây đựng báo cáo và hoàn thành đồ án của em Trong quá trình thực hiện Báo cáo, nhận thấy mình đã cô gắng hết sức nhưng vì kiến thức vấn còn hạn hẹp nên vẫn còn nhiều thiểu sót, em rất mong nhận được những ý kiến đóng góp quý báu của quý Thầy Cô đề hoàn thiện đỗ án của mình
Cuối cùng em kính chúc quý thầy, cô dỗi đào sức khỏe và thành công trong sự nghiệp cao quý, luôn đồi dào sức khỏe, đạt được nhiều thành công tốt đẹp trong công việc để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau
Em xm chân thành cảm ơn!
Trang 5LỜI MỞ ĐẦU
Trong thời đại bùng nô thông tin như hiện nay, lượng dữ liệu văn bản trực tuyên không ngừng gia tăng với tốc độ chóng mặt Các nền tảng mạng xã hội, điễn đàn trực tuyến, và
các trang web tin tức đã tạo ra một lượng lớn đỡ liệu văn bản chưa từng có trong lịch sử
Việc phân tích và xử lý hiệu quả các văn bản này đã trở thành một thách thức lớn, nhưng đồng thời cũng mở ra những cơ hội to lớn trong nhiều lĩnh vực như truyền thông, kinh doanh, y tế, và giáo dục
Phân loại văn bản là một trong những phương pháp quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), giúp tự động sắp xếp và gán nhãn các văn bản vào các danh mục cụ thể Từ việc phân loại tin tức theo chủ đề, gán nhãn cảm xúc cho các bài đánh giá sản phâm, đến phát hiện spam trong email, các ứng dụng của phân loại văn bản đang ngày càng trở nên phô biên và cần thiết
Với sự phát triển mạnh mẽ của các mô hình học sâu và đặc biệt là các mô hình Transformer nhu BERT, kha nang phan loai van ban da duoc nang lén mét tầm cao mới
Các mô hình này không chỉ có khả năng hiểu ngữ nghĩa của từ ngữ mà còn có thể nhận diện các mối quan hệ ngữ cảnh phức tạp giữa chúng, từ đó cải thiện đáng kế độ chính xác
trong các nhiệm vụ phân loại
Đề tài “Phân loại văn bản sử đụng mô hình Transformer” không chỉ tập trung vào việc tìm hiểu và áp dụng các mô hình tiên tiên trong phân loại văn bản mà còn nhân mạnh vào việc
khám phá các kỹ thuật tiền xử lý đữ liệu và tinh chỉnh mô hình đề đạt được kết quả tối ưu
Qua đó, đề tài này mong muốn đóng góp một phần nhỏ vào việc khai thác hiệu quả nguồn
đữ liệu văn bản khong 16 hién nay, hé tro ra quyét dinh va cai thién chat lượng dịch vụ
trong các ứng dụng thực tiến
UL
Trang 6TRƯỜNG ĐẠI HỌC NGUYÊN TẤT THÀNH
TRUNG TÂM KHẢO THÍ
Môn thi: Đồ án chuyên ngành
Nhóm sinh viên thực hiện :
1.Vương Hoàng Thiện 5 ccccscs s2 Tham gia đóng góp: 100%
 LH HH HH HH nh HH HH Tham gia đóng 8óp:
 ch nh HH Hà Hà HH nh HH HH Tham gia đóng 8óp:
Ác ch HH Hà HH HH nh HH HH ch Tham gia đóng 8óp:
L 1t n1 1H H11 HH HH HH Hà HH 11 tá chg Tham gia đóng 8óp:
ĐT HH HH HH HH HH nh nh HH HH Tham gia đóng góp:
TT 1 11 1 11H HH HH Hà HH 11 11H chu Tham gia đóng góp:
ÂU n1 HH HH HH HH thấu Tham gia đóng góp:
Ngày thị:24/9/2024 L1 HH HH 1 nàn Ho Phòng thi:L402
BM-ChT- PHIEU CHAM THI TIEU LUAN/DO AN Lop hoc phan:21DTH2A KY THI KET THUC HQC PHAN HỌC KỲ 3 NĂM HỌC .2024 -
Phân đánh giá của giảng viên (căn cứ trên thang rubrics của môn học): Tiêu chí (theo CDR HP) Danh gia cha GV Diem toi da Diem dat được Câu trúc của DAO CAO lo cceccccsccecsscevsvstescssusvecssvscscsvssestsvsstsvssestsviseesen Nội dung - Cac IUNiitddầdả
dung thành fae phần Lập luận - Kết luận Trinh bay TONG DIEM
Giang vién cham thi
(ky, ghi ré ho tén)
Trang 7NHAN XET CUA GIANG VIEN GIANG DAY
Tp.HCM, Neay thang ndm Giảng viên giảng day (Ký tên và ghi rõ họ tên)
MỤC LỤC
Trang 8PHỤ LỤC 5 5221221221211 11221 122 121 121 1 re 19 DANH MỤC TÀI LIỆU THAM KHẢO 2-5 522E211221121122121221 1 Eeertxe 20
Trang 9- So thir hai chi thir ty bảng biều trong mỗi chương
- Tên đề của bang biểu nằm phía trên của bảng phải có ghi chú, giải thích, nêu rõ
nguồn trích hoặc sao chụp
vill
Trang 10DANH MỤC HÌNH
Hình I Hình minh họa G Q1 11109999 999915 151111 SS ng g1 1 5 15111 na 1 Hình 2 Hình minh họa G G 111110 00099099915 5511111 1kg S S1 ng 2 500 1111k TT ng 1 Hình 3 Hình minh họa
Hình 4 Hình minh họa
Hình 5 Hình minh họa
Ghi chu:
- §6 thi nhat chi sé thu tu chuong
-_ Số thử hai chỉ thứ tự hình, trong mỗi chương
- _Ở cuối mỗi hình, trong mỗi chương phải có ghi chú, giải thích, nêu rõ nguồn trích
hoặc sao chup,
- _ Tên của hình (đồ thị, hình vẽ) đặt ở bên dưới hình (đồ thị, hình vẽ)
Trang 11ki HIEU CAC CUM TU VIET TAT
Chữ viết tắt Ý nghĩa
Vi du: CSDL Cơ sở đữ liệu
Ghi chủ:
Cụm từ viết viết tắt là các chữ cái và các ký hiệu thay chữ được viết liền nhau,
dé thay cho một cụm từ có nghĩa thường được lặp nhiều lần trong văn bán hoặc
được mọi người mặc nhiên chấp nhận, xếp theo thự tự ABC
Trang 12CHUONG 1 Giới Thiệu 1.1 Giới thiệu đề tài
kỷ nguyên số hóa hiện đại, văn bản trở thành một trong những dạng dữ liệu phố biến và quan trọng nhất Với sự phát trién của Internet và các nên tảng trực tuyến, chúng ta đang chứng kiến một lượng thông tin văn bản không lỗ được tạo ra mỗi ngày Từ các bài viết trên mạng xã hội, bình luận sản phâm, đến email và tài liệu công, việc, việc quản lý và xử
lý hiệu quả các đữ liệu văn bản đã trở thành một nhu cầu cấp thiết
Phân loại văn bản là một trong những bài toán cơ bản nhưng quan trọng trong lĩnh vực xử
lý ngôn ngữ tự nhiên (NLP) Nó cho phép tự động hóa việc Sắp xếp văn bản vào các danh mục định trước, giúp tiết kiệm thời gian và công sức so với các phương pháp truyền thống yêu cầu con người phải xử lý thủ công Các ứng dụng của phân loại văn bản rất đa đạng, bao gồm phân loại tin tức, phát hiện spam, phân tích cảm xúc, và nhiều lĩnh vực khác Gần đây, sự ra đời của các mô hình Transformer, tiêu biểu là BERT (Bidirectional Encoder Representations from Transformers), d4 cach mạng hóa cách chúng ta tiếp cận các bài toán NLP Với khả năng xử lý ngữ cảnh hai chiều và học sâu từ các tập đữ liệu lớn, mo hình Transformer đã vượt xa các phương pháp truyền thông về độ chính xác và hiệu suât
Đề tài “Phân loại văn bản sử đụng mô hình Transformer” nhằm mục đích khám phá và áp dụng các mô hình tiên tiến này vào việc phân loại văn bản Đề tài sẽ nghiên cứu các bước
từ tiền xử lý dữ liệu, huấn luyện mô hình, đến đánh giá hiệu suất trên các tập đữ liệu khác
nhau Qua đó, chúng tôi hy vọng sẽ đưa ra được một giải pháp hiệu quả, đóng góp vào việc tự động hóa và tối ưu hóa quy trình xử lý văn bản trong thực tế, giúp các tô chức và
cá nhân khai thác tối đa tiềm năng của dữ liệu văn bản
1.2 Ly do chon dé tai
Sự phát triển của Trí tuệ nhân tạo và NLP: Trong những năm gần đây, các mô hình học
sâu và trí tuệ nhân tạo thế hệ tiếp theo đã đạt được những tiễn bộ đáng kể trong lĩnh vực
xử lý ngôn ngữ tự nhiên Điều này đã giúp nâng cao hiệu suất và khả năng của các mô
hình Text Generation, dem lại những văn bản tự nhiên và sáng tạo hơn
Phân loại văn bản là một trong những bài toán cơ ban và thường gặp trong xử lý ngôn ngữ
tự nhiên (NLP), với vô số ứng dụng thực tiễn như lọc email spam, phân loại tin tức, đánh
giá cảm xúc trong các bài viết và bình luận, hay thậm chí là phân loại tài liệu pháp lý và y khoa Tuy nhiên, với sự gia tăng về sô lượng và độ phức tạp của các văn bán hiện nay, các
1
Trang 13phương pháp truyền thong nhu Naive Bayes, SVM hay cac mô hình dựa trên vector từ đã bộc lộ nhiều hạn chế, đặc biệt là khi xử lý các ngữ cảnh phức tạp và môi quan hệ ngữ nghĩa sâu sắc trong văn bản
Sự ra đời của các mô hình Transformer, đặc biệt là BERT, đã mang đến một cuộc cách mạng trong lĩnh vực NLP Với khả năng nắm bắt ngữ cảnh hai chiều và học hỏi từ một
lượng đữ liệu lớn, BERT đã chứng tỏ được hiệu quả vượt trội trong nhiều tác vụ, bao gồm
cả phân loại văn bản Việc nghiên cứu và ứng dụng các mô hình tiên tiễn này không chỉ giúp nâng cao độ chính xác của việc phân loại văn bản mà còn mở ra cơ hội đề giải quyết các bài toán phức tạp hơn trong NLP
Lựa chọn đề tài “Phân loại văn bản sử dụng mô hình Transformer” xuất phát từ mong muốn khám phá và ap dụng những tiên bộ mới nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên, đồng thời giải quyết một vần đề thực tiễn quan trọng Đề tài không chỉ nhằm tìm hiểu sâu về các mô hình Transformer mà còn hướng tới việc áp dụng chúng vào thực tiễn,
từ đó cải thiện hiệu quả và độ chính xác của các hệ thống phân loại văn bản, đóng góp vào
sự phát triển chung của công nghệ và khoa học dữ liệu
1.3 Mục tiêu của đề tài
Mục tiêu của nghiên cứu đề tài "Phân loại văn bán sử dụng mô hình Transformer” của em
là tập trung vào việc phát triên và tôi ưu hóa các mô hình Transformer nhằm tự động phân
loại văn bản một cách chính xác và hiệu quả Các mục tiêu cụ thé bao gom:
Xây dựng mô hình phân loại văn bản chất lượng: Mục tiêu chính của đề tài là phát triển một mô hình Transformer có khả năng phân loại văn bản với độ chính xác cao Mô hình cần xử lý hiệu quá các văn bản với ngữ cảnh phức tạp và có khả năng áp đụng vào nhiều loại đữ liệu khác nhau, dam bao tinh nhat quan và đáng tin cậy trong việc gán nhãn cho các văn bản đầu vào
Dáp ứng yêu cầu học thuật và nghiên cứu: Đề tài này không chỉ nhằm mục đích hoàn thành yêu cầu của môn học xử lý ngôn ngữ tự nhiên mà còn nhằm tăng cường kiến thức
và kỹ năng về trí tuệ nhân tạo nói chung, và các mô hình Transformcr nói riêng Điều này
sẽ giúp chúng em hiều sâu hơn về cách áp dụng các kỹ thuật tiên tiến trong xử lý ngôn
ngữ tự nhiên và phân loại văn bản
Ứng dụng thực tế: Đề tài hướng tới việc áp đụng mô hình phân loại văn bản vào các ứng dụng thực tế như phân loại tin tức, phân tích cảm xúc, phát hiện email spam, và nhiều ứng dụng khác Điều này giúp kiểm tra khả năng ứng dụng của mô hình trong các bối cảnh thực tiễn và đánh giá hiệu quả của nó trong việc hỗ trợ ra quyết định và tự động hóa các quy trình
Tối ưu và cải tiễn mô hình: Mục tiêu là nghiên cứu và áp dụng các kỹ thuật tối ưu hóa mô hình Transformer nhằm cải thiện hiệu suất, độ chính xác và khả năng tông quát của mô
Trang 14hình trên các tập dữ liệu khác nhau Việc tối ưu hóa này sẽ đảm bảo rằng mô hình không chỉ đạt kết quả tốt mà còn sử dụng tải nguyên hiệu quả, đáp ứng được các yêu cầu về tính khả thi và khả năng triển khai trong thực tế
1.4 công nghệ áp dụng
Trong những năm gần đây, các mô hình ngôn ngữ dựa trên Transformer đã trở thành
trọng tâm trong nghiên cứu và phát triển trí tuệ nhân tạo, đặc biệt là trong lĩnh vực xử lý
ngôn ngữ tự nhiên (NLP) Mô hình BERTT (Bidirectional Encoder Represenftatlons from Transformers) của Google là một trong những mô hình tiên phong, đã mang lại nhiều cải tiên vượt bậc trong các tác vụ như phân loại văn bản, phân tích cảm xúc, và nhiều ứng
dụng khác
Bài báo cáo này cung cấp một cái nhìn tông quan ngắn gọn về các kỹ thuật và mô hình
Transformer hiện đại, bao gôm:
Transformer: Một kiến trúc mạng nơ-ron sâu dựa trên cơ chế Attention, cho phép mô hình
xử lý các môi quan hệ ngữ cảnh trong văn bản một cách hiệu qua Transformer da tro
thành nên tảng cho các mô hình như BERT, GPT, RoBERTa, va nhieu mô hình tiên tiền
khác
BERT (Bidirectional Encoder Representations from Transformers): Một mô hình ngôn ngữ pre-trained mạnh mẽ, sử dụng cơ chế Attention hai chiều đề hiểu ngữ cảnh cả trước
và sau của mỗi từ trong câu, giúp cải thiện đáng kê độ chính xác trong phân loại văn bản
Các kỹ thuật và mô hình trong bài báo cáo này sẽ được triên khai và chạy thực nghiệm bằng ngôn ngữ lập trình Python, sử dụng các môi trường phát triển như Jupyter Notebook
va Google Colab dé dam bao tính linh hoạt và khả năng tái lập trong quá trình nghiên cứu
và thử nghiệm
CHƯƠNG 2
Cơ sở lý thuyết
2.1 Transformer
Mô hình học máy Transformer là một trong những mô hình quan trọng và ảnh hưởng nhất
trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và các nhiệm vụ tương tự Mô hình này
duoc gidi thigu trong bai bao "Attention is All You Need" vao nim 2017 boi Vaswani et
al va đã tao ra một bước tiên đáng kề trong việc xử lý ngôn ngữ tự nhiên
Trang 15Trong mô hình học máy Transformer, các từ trong văn bán đầu vào được biểu diễn đưới dạng vectơ và đưa vào qua một kiến tric mang mà không yêu cầu việc sử dụng các cơ chế RNN (Recurrent Neural Network) truyền thống Kiến trúc chính của Transformer bao
gồm hai thành phần chính:
Encoder: Đây là phân đầu tiên của mô hình, nơi đữ liệu đầu vào được biểu diễn và xử lý
dé tao ra các vectơ biểu diễn gọi là "contextual embeddings" cho từng từ Mỗi từ trong