Đồ án chuyên ngành phân loại văn bản sử dụng thư viện transformer

Phân loại văn bản là một trong những phương pháp quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên NLP, giúp tự động sắp xếp và gán nhãn các văn bản vào các danh mục cụ thể.. Đề tài “Phâ

Trang 1

Phân loại văn bản sử dụng thư viện Transformer

Giáng viên hướng dẫn : Đặng Như Phú

Sinh viên thực hiện : Vương Hoàng Thiện

Trang 2

Phân loại văn bản sử dụng thư viện Transformer

Giáng viên hướng dẫn : Đặng Như Phú

Sinh viên thực hiện : Vương Hoàng Thiện

Trang 3

TRƯỜNG ĐẠI HỌC NGUYÊN TÁT THÀNH _ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập — Tự do ~ Hạnh phúc

CHUONG 1 NHIEM VU BO AN MON HOC

(Sinh viên phải đóng tờ này vào cuốn báo cáo)

Họ và tên: Vương Hoàng Thiện MSSV: 2100011846

Chuyên ngành: Trí tuệ nhân tạo

Lớp: 2IDHT2A

Email: 2100011846@nttu.edu.vn

2300) K05 Số ea

Tên đề tài: phân loại văn bản sử dụng thư viện TransfÍormer : 5-2-5:

Giảng viên giảng dạy: Ths Đặng Như Phú

Thời gian thực hiện: / 2024 đến / /2024

Nhiệm vụ/nội dung (mô tả chỉ tiết nội dung, yêu cầu, phương pháp ):

Nội dung và yêu cầu đã được thông qua Bộ môn

SỐ Tp.HCM, ngày tháng 9 năm 2024

TRUONG BOQ MON GIANG VIEN GIANG DAY

(Ky va ghi ré ho tén) (Ky và ghi rõ họ tên)

TS Hà Minh Tân ThS Đặng Như Phú

Trang 4

LỜI CÁM ƠN

Trước hết, em chân thành cảm ơn các thầy cô và cán bộ của trường Đại học Nguyễn Tất

Thành đã tạo điều kiện thuận lợi cho em trong suốt quá trình học Trong quá trình nghiên cứu đề tài , em đã nhận được sự giúp đỡ của lãnh

đạo khoa Công nghệ thông tin, thầy cô giáo trường Đại học Nguyễn Tất Thành cùng các bạn trong khoa đã quản lý và tổ chức hiệu qua và chất lượng giúp em yên tâm trong suốt quá trình học tập và nghiên cứu

Xin tỏ lòng kính trọng và biết ơn sâu sắc đến giảng viên Đặng Như Phú về những ý kiến đóng góp về chuyên môn và sự động viên khích lệ của cô cũng là người trực tiếp hướng dẫn và giúp đỡ trong suốt quá trình xây đựng báo cáo và hoàn thành đồ án của em Trong quá trình thực hiện Báo cáo, nhận thấy mình đã cô gắng hết sức nhưng vì kiến thức vấn còn hạn hẹp nên vẫn còn nhiều thiểu sót, em rất mong nhận được những ý kiến đóng góp quý báu của quý Thầy Cô đề hoàn thiện đỗ án của mình

Cuối cùng em kính chúc quý thầy, cô dỗi đào sức khỏe và thành công trong sự nghiệp cao quý, luôn đồi dào sức khỏe, đạt được nhiều thành công tốt đẹp trong công việc để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau

Em xm chân thành cảm ơn!

Trang 5

LỜI MỞ ĐẦU

Trong thời đại bùng nô thông tin như hiện nay, lượng dữ liệu văn bản trực tuyên không ngừng gia tăng với tốc độ chóng mặt Các nền tảng mạng xã hội, điễn đàn trực tuyến, và

các trang web tin tức đã tạo ra một lượng lớn đỡ liệu văn bản chưa từng có trong lịch sử

Việc phân tích và xử lý hiệu quả các văn bản này đã trở thành một thách thức lớn, nhưng đồng thời cũng mở ra những cơ hội to lớn trong nhiều lĩnh vực như truyền thông, kinh doanh, y tế, và giáo dục

Phân loại văn bản là một trong những phương pháp quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), giúp tự động sắp xếp và gán nhãn các văn bản vào các danh mục cụ thể Từ việc phân loại tin tức theo chủ đề, gán nhãn cảm xúc cho các bài đánh giá sản phâm, đến phát hiện spam trong email, các ứng dụng của phân loại văn bản đang ngày càng trở nên phô biên và cần thiết

Với sự phát triển mạnh mẽ của các mô hình học sâu và đặc biệt là các mô hình Transformer nhu BERT, kha nang phan loai van ban da duoc nang lén mét tầm cao mới

Các mô hình này không chỉ có khả năng hiểu ngữ nghĩa của từ ngữ mà còn có thể nhận diện các mối quan hệ ngữ cảnh phức tạp giữa chúng, từ đó cải thiện đáng kế độ chính xác

trong các nhiệm vụ phân loại

Đề tài “Phân loại văn bản sử đụng mô hình Transformer” không chỉ tập trung vào việc tìm hiểu và áp dụng các mô hình tiên tiên trong phân loại văn bản mà còn nhân mạnh vào việc

khám phá các kỹ thuật tiền xử lý đữ liệu và tinh chỉnh mô hình đề đạt được kết quả tối ưu

Qua đó, đề tài này mong muốn đóng góp một phần nhỏ vào việc khai thác hiệu quả nguồn

đữ liệu văn bản khong 16 hién nay, hé tro ra quyét dinh va cai thién chat lượng dịch vụ

trong các ứng dụng thực tiến

UL

Trang 6

TRƯỜNG ĐẠI HỌC NGUYÊN TẤT THÀNH

TRUNG TÂM KHẢO THÍ

Môn thi: Đồ án chuyên ngành

Nhóm sinh viên thực hiện :

1.Vương Hoàng Thiện 5 ccccscs s2 Tham gia đóng góp: 100%

Â LH HH HH HH nh HH HH Tham gia đóng 8óp:

Â ch nh HH Hà Hà HH nh HH HH Tham gia đóng 8óp:

Ác ch HH Hà HH HH nh HH HH ch Tham gia đóng 8óp:

L 1t n1 1H H11 HH HH HH Hà HH 11 tá chg Tham gia đóng 8óp:

ĐT HH HH HH HH HH nh nh HH HH Tham gia đóng góp:

TT 1 11 1 11H HH HH Hà HH 11 11H chu Tham gia đóng góp:

ÂU n1 HH HH HH HH thấu Tham gia đóng góp:

Ngày thị:24/9/2024 L1 HH HH 1 nàn Ho Phòng thi:L402

BM-ChT- PHIEU CHAM THI TIEU LUAN/DO AN Lop hoc phan:21DTH2A KY THI KET THUC HQC PHAN HỌC KỲ 3 NĂM HỌC .2024 -

Phân đánh giá của giảng viên (căn cứ trên thang rubrics của môn học): Tiêu chí (theo CDR HP) Danh gia cha GV Diem toi da Diem dat được Câu trúc của DAO CAO lo cceccccsccecsscevsvstescssusvecssvscscsvssestsvsstsvssestsviseesen Nội dung - Cac IUNiitddầdả

dung thành fae phần Lập luận - Kết luận Trinh bay TONG DIEM

Giang vién cham thi

(ky, ghi ré ho tén)

Trang 7

NHAN XET CUA GIANG VIEN GIANG DAY

Tp.HCM, Neay thang ndm Giảng viên giảng day (Ký tên và ghi rõ họ tên)

MỤC LỤC

Trang 8

PHỤ LỤC 5 5221221221211 11221 122 121 121 1 re 19 DANH MỤC TÀI LIỆU THAM KHẢO 2-5 522E211221121122121221 1 Eeertxe 20

Trang 9

- So thir hai chi thir ty bảng biều trong mỗi chương

- Tên đề của bang biểu nằm phía trên của bảng phải có ghi chú, giải thích, nêu rõ

nguồn trích hoặc sao chụp

vill

Trang 10

DANH MỤC HÌNH

Hình I Hình minh họa G Q1 11109999 999915 151111 SS ng g1 1 5 15111 na 1 Hình 2 Hình minh họa G G 111110 00099099915 5511111 1kg S S1 ng 2 500 1111k TT ng 1 Hình 3 Hình minh họa

Hình 4 Hình minh họa

Hình 5 Hình minh họa

Ghi chu:

- §6 thi nhat chi sé thu tu chuong

-_ Số thử hai chỉ thứ tự hình, trong mỗi chương

- _Ở cuối mỗi hình, trong mỗi chương phải có ghi chú, giải thích, nêu rõ nguồn trích

hoặc sao chup,

- _ Tên của hình (đồ thị, hình vẽ) đặt ở bên dưới hình (đồ thị, hình vẽ)

Trang 11

ki HIEU CAC CUM TU VIET TAT

Chữ viết tắt Ý nghĩa

Vi du: CSDL Cơ sở đữ liệu

Ghi chủ:

Cụm từ viết viết tắt là các chữ cái và các ký hiệu thay chữ được viết liền nhau,

dé thay cho một cụm từ có nghĩa thường được lặp nhiều lần trong văn bán hoặc

được mọi người mặc nhiên chấp nhận, xếp theo thự tự ABC

Trang 12

CHUONG 1 Giới Thiệu 1.1 Giới thiệu đề tài

kỷ nguyên số hóa hiện đại, văn bản trở thành một trong những dạng dữ liệu phố biến và quan trọng nhất Với sự phát trién của Internet và các nên tảng trực tuyến, chúng ta đang chứng kiến một lượng thông tin văn bản không lỗ được tạo ra mỗi ngày Từ các bài viết trên mạng xã hội, bình luận sản phâm, đến email và tài liệu công, việc, việc quản lý và xử

lý hiệu quả các đữ liệu văn bản đã trở thành một nhu cầu cấp thiết

Phân loại văn bản là một trong những bài toán cơ bản nhưng quan trọng trong lĩnh vực xử

lý ngôn ngữ tự nhiên (NLP) Nó cho phép tự động hóa việc Sắp xếp văn bản vào các danh mục định trước, giúp tiết kiệm thời gian và công sức so với các phương pháp truyền thống yêu cầu con người phải xử lý thủ công Các ứng dụng của phân loại văn bản rất đa đạng, bao gồm phân loại tin tức, phát hiện spam, phân tích cảm xúc, và nhiều lĩnh vực khác Gần đây, sự ra đời của các mô hình Transformer, tiêu biểu là BERT (Bidirectional Encoder Representations from Transformers), d4 cach mạng hóa cách chúng ta tiếp cận các bài toán NLP Với khả năng xử lý ngữ cảnh hai chiều và học sâu từ các tập đữ liệu lớn, mo hình Transformer đã vượt xa các phương pháp truyền thông về độ chính xác và hiệu suât

Đề tài “Phân loại văn bản sử đụng mô hình Transformer” nhằm mục đích khám phá và áp dụng các mô hình tiên tiến này vào việc phân loại văn bản Đề tài sẽ nghiên cứu các bước

từ tiền xử lý dữ liệu, huấn luyện mô hình, đến đánh giá hiệu suất trên các tập đữ liệu khác

nhau Qua đó, chúng tôi hy vọng sẽ đưa ra được một giải pháp hiệu quả, đóng góp vào việc tự động hóa và tối ưu hóa quy trình xử lý văn bản trong thực tế, giúp các tô chức và

cá nhân khai thác tối đa tiềm năng của dữ liệu văn bản

1.2 Ly do chon dé tai

Sự phát triển của Trí tuệ nhân tạo và NLP: Trong những năm gần đây, các mô hình học

sâu và trí tuệ nhân tạo thế hệ tiếp theo đã đạt được những tiễn bộ đáng kể trong lĩnh vực

xử lý ngôn ngữ tự nhiên Điều này đã giúp nâng cao hiệu suất và khả năng của các mô

hình Text Generation, dem lại những văn bản tự nhiên và sáng tạo hơn

Phân loại văn bản là một trong những bài toán cơ ban và thường gặp trong xử lý ngôn ngữ

tự nhiên (NLP), với vô số ứng dụng thực tiễn như lọc email spam, phân loại tin tức, đánh

giá cảm xúc trong các bài viết và bình luận, hay thậm chí là phân loại tài liệu pháp lý và y khoa Tuy nhiên, với sự gia tăng về sô lượng và độ phức tạp của các văn bán hiện nay, các

1

Trang 13

phương pháp truyền thong nhu Naive Bayes, SVM hay cac mô hình dựa trên vector từ đã bộc lộ nhiều hạn chế, đặc biệt là khi xử lý các ngữ cảnh phức tạp và môi quan hệ ngữ nghĩa sâu sắc trong văn bản

Sự ra đời của các mô hình Transformer, đặc biệt là BERT, đã mang đến một cuộc cách mạng trong lĩnh vực NLP Với khả năng nắm bắt ngữ cảnh hai chiều và học hỏi từ một

lượng đữ liệu lớn, BERT đã chứng tỏ được hiệu quả vượt trội trong nhiều tác vụ, bao gồm

cả phân loại văn bản Việc nghiên cứu và ứng dụng các mô hình tiên tiễn này không chỉ giúp nâng cao độ chính xác của việc phân loại văn bản mà còn mở ra cơ hội đề giải quyết các bài toán phức tạp hơn trong NLP

Lựa chọn đề tài “Phân loại văn bản sử dụng mô hình Transformer” xuất phát từ mong muốn khám phá và ap dụng những tiên bộ mới nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên, đồng thời giải quyết một vần đề thực tiễn quan trọng Đề tài không chỉ nhằm tìm hiểu sâu về các mô hình Transformer mà còn hướng tới việc áp dụng chúng vào thực tiễn,

từ đó cải thiện hiệu quả và độ chính xác của các hệ thống phân loại văn bản, đóng góp vào

sự phát triển chung của công nghệ và khoa học dữ liệu

1.3 Mục tiêu của đề tài

Mục tiêu của nghiên cứu đề tài "Phân loại văn bán sử dụng mô hình Transformer” của em

là tập trung vào việc phát triên và tôi ưu hóa các mô hình Transformer nhằm tự động phân

loại văn bản một cách chính xác và hiệu quả Các mục tiêu cụ thé bao gom:

Xây dựng mô hình phân loại văn bản chất lượng: Mục tiêu chính của đề tài là phát triển một mô hình Transformer có khả năng phân loại văn bản với độ chính xác cao Mô hình cần xử lý hiệu quá các văn bản với ngữ cảnh phức tạp và có khả năng áp đụng vào nhiều loại đữ liệu khác nhau, dam bao tinh nhat quan và đáng tin cậy trong việc gán nhãn cho các văn bản đầu vào

Dáp ứng yêu cầu học thuật và nghiên cứu: Đề tài này không chỉ nhằm mục đích hoàn thành yêu cầu của môn học xử lý ngôn ngữ tự nhiên mà còn nhằm tăng cường kiến thức

và kỹ năng về trí tuệ nhân tạo nói chung, và các mô hình Transformcr nói riêng Điều này

sẽ giúp chúng em hiều sâu hơn về cách áp dụng các kỹ thuật tiên tiến trong xử lý ngôn

ngữ tự nhiên và phân loại văn bản

Ứng dụng thực tế: Đề tài hướng tới việc áp đụng mô hình phân loại văn bản vào các ứng dụng thực tế như phân loại tin tức, phân tích cảm xúc, phát hiện email spam, và nhiều ứng dụng khác Điều này giúp kiểm tra khả năng ứng dụng của mô hình trong các bối cảnh thực tiễn và đánh giá hiệu quả của nó trong việc hỗ trợ ra quyết định và tự động hóa các quy trình

Tối ưu và cải tiễn mô hình: Mục tiêu là nghiên cứu và áp dụng các kỹ thuật tối ưu hóa mô hình Transformer nhằm cải thiện hiệu suất, độ chính xác và khả năng tông quát của mô

Trang 14

hình trên các tập dữ liệu khác nhau Việc tối ưu hóa này sẽ đảm bảo rằng mô hình không chỉ đạt kết quả tốt mà còn sử dụng tải nguyên hiệu quả, đáp ứng được các yêu cầu về tính khả thi và khả năng triển khai trong thực tế

1.4 công nghệ áp dụng

Trong những năm gần đây, các mô hình ngôn ngữ dựa trên Transformer đã trở thành

trọng tâm trong nghiên cứu và phát triển trí tuệ nhân tạo, đặc biệt là trong lĩnh vực xử lý

ngôn ngữ tự nhiên (NLP) Mô hình BERTT (Bidirectional Encoder Represenftatlons from Transformers) của Google là một trong những mô hình tiên phong, đã mang lại nhiều cải tiên vượt bậc trong các tác vụ như phân loại văn bản, phân tích cảm xúc, và nhiều ứng

dụng khác

Bài báo cáo này cung cấp một cái nhìn tông quan ngắn gọn về các kỹ thuật và mô hình

Transformer hiện đại, bao gôm:

Transformer: Một kiến trúc mạng nơ-ron sâu dựa trên cơ chế Attention, cho phép mô hình

xử lý các môi quan hệ ngữ cảnh trong văn bản một cách hiệu qua Transformer da tro

thành nên tảng cho các mô hình như BERT, GPT, RoBERTa, va nhieu mô hình tiên tiền

khác

BERT (Bidirectional Encoder Representations from Transformers): Một mô hình ngôn ngữ pre-trained mạnh mẽ, sử dụng cơ chế Attention hai chiều đề hiểu ngữ cảnh cả trước

và sau của mỗi từ trong câu, giúp cải thiện đáng kê độ chính xác trong phân loại văn bản

Các kỹ thuật và mô hình trong bài báo cáo này sẽ được triên khai và chạy thực nghiệm bằng ngôn ngữ lập trình Python, sử dụng các môi trường phát triển như Jupyter Notebook

va Google Colab dé dam bao tính linh hoạt và khả năng tái lập trong quá trình nghiên cứu

và thử nghiệm

CHƯƠNG 2

Cơ sở lý thuyết

2.1 Transformer

Mô hình học máy Transformer là một trong những mô hình quan trọng và ảnh hưởng nhất

trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và các nhiệm vụ tương tự Mô hình này

duoc gidi thigu trong bai bao "Attention is All You Need" vao nim 2017 boi Vaswani et

al va đã tao ra một bước tiên đáng kề trong việc xử lý ngôn ngữ tự nhiên

Trang 15

Trong mô hình học máy Transformer, các từ trong văn bán đầu vào được biểu diễn đưới dạng vectơ và đưa vào qua một kiến tric mang mà không yêu cầu việc sử dụng các cơ chế RNN (Recurrent Neural Network) truyền thống Kiến trúc chính của Transformer bao

gồm hai thành phần chính:

Encoder: Đây là phân đầu tiên của mô hình, nơi đữ liệu đầu vào được biểu diễn và xử lý

dé tao ra các vectơ biểu diễn gọi là "contextual embeddings" cho từng từ Mỗi từ trong

Tiêu đề	Phân Loại Văn Bản Sử Dụng Thư Viện Transformer
Tác giả	Vương Hoàng Thiện
Người hướng dẫn	ThS. Đặng Như Phú
Trường học	Trường Đại Học Nguyễn Tất Thành
Chuyên ngành	Trí Tuệ Nhân Tạo
Thể loại	Đồ Án
Năm xuất bản	2024
Thành phố	Tp HCM

Định dạng
Số trang	31
Dung lượng	1,03 MB