Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập phân dewey

TÓM TẮTLuận văn “Phân loại chủ đề tài liệu tiếng Việt theo khung phân loại thập phânDewey” thực hiện tìm hiểu, phân tích, nghiên cứu các giải thuật nhằm tìm ra giảipháp tốt để xây dựng h

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ

TRỊNH QUỐC VƯƠNG

PHÂN LOẠI CHỦ ĐỀ TÀI LIỆU TIẾNG VIỆT THEO

KHUNG PHÂN LOẠI THẬP PHÂN DEWEY

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

MÃ SỐ 8480101

NĂM 2024

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ

Trang 2

TRỊNH QUỐC VƯƠNG MSHV: M3720022

PHÂN LOẠI CHỦ ĐỀ TÀI LIỆU TIẾNG VIỆT THEO

KHUNG PHÂN LOẠI THẬP PHÂN DEWEY

LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

Trang 5

TÓM TẮT

Luận văn “Phân loại chủ đề tài liệu tiếng Việt theo khung phân loại thập phânDewey” thực hiện tìm hiểu, phân tích, nghiên cứu các giải thuật nhằm tìm ra giảipháp tốt để xây dựng hệ thống phân loại tài liệu tiếng Việt tự động ứng dụng tạiTrung tâm Học liệu, hỗ trợ thư viện viên tăng hiệu quả, năng suất công việc biênmục

Đề tài thực hiện thu thập dữ liệu là các tài liệu tiếng Việt mà Trung tâm Họcliệu đã xây dựng và gán nhãn, thực hiện các bước tiền xử lý văn bản, sau đó xâydựng các mô hình thử nghiệm với hai mô hình học máy và hai mô hình học sâu lầnlượt là Bayes thơ ngây, SVM, LSTM và BiLSTM

Kết quả thu được sau khi thực nghiệm các mô hình phân loại, Bayes thơ ngâyđạt 83,1%, SVM đạt 84,56%, LSTM đạt 82,58%, BiLSTM đạt 83,05% Từ kết quảtrên, đề tài đề xuất giải pháp xây dựng hệ thống phân loại tài liệu tiếng Việt tại Trungtâm Học liệu với mô hình SVM Linear

Từ khóa: phân loại văn bản, SVM, Naive Bayes, LSTM, BiLSTM

ii

ABSTRACT

The thesis "Classification of Vietnamese document topics according to theDewey Decimal Classification" aims to study, analyze, and research algorithms tofind the best solution to build an automatic Vietnamese document classificationsystem for application at the Learning Resource Center, supporting librarians to

Trang 6

increase the efficiency and productivity of cataloging work.

The study collected data from Vietnamese documents that the LearningResource Center has built and labeled, performed text preprocessing steps, and thenbuilt experimental models with two machine learning models and two deep learningmodels, namely Naive Bayes, SVM, LSTM, and BiLSTM

The results obtained after experimenting with the classification modelsshowed that Naive Bayes achieved 83,1%, SVM achieved 84,56%, LSTM achieved82,58%, and BiLSTM achieved 83,05% Based on these results, the study proposes asolution to build a Vietnamese document classification system at the LearningResource Center using the SVM Linear model

Keywords: text classification, SVM, Naive Bayes, LSTM, BiLSTM

iii

Trang 8

MỤC LỤC

TÓM

TẮT iiABSTRACT

iii

CHƯƠNG 1: GIỚI THIỆU 11.1 Lý do chọn đề tài 1 1.2Đối tượng và phạm vi nghiên cứu 2 1.2.1Đối tượng nghiên cứu 2 1.2.2Phạm vi nghiên cứu và phương pháp nghiên cứu 2 1.3 Ý nghĩakhoa học và thực tiễn của đề tài 2 CHƯƠNG 2:TỔNG QUAN 4 2.1 Nghiêncứu liên quan 4 2.2 Phân loạivăn bản 6 2.3 Tiền xử lý dữliệu 7 2.4 Phân loại tài liệutrong thư viện 8 2.5 Khung phân loại thậpphân Dewey 8 2.6 Mô hình trọng số TF-IDF

10 2.7 Mô hình Word2vec 11 2.7.1 Mô hình CBOW

(Continuous bag of words) 11 2.7.2 Mô hìnhSkip-gram 12 2.8 Các phươngpháp học máy 12 2.8.1 Giải thuậtBayes thơ ngây 12 2.8.2 Giải thuật máyvectơ hỗ trợ (SVM) 14 2.9 Các phương pháp họcsâu 17 2.9.1 Mạng nơron hồi quyRecurrent neural network (RNN) 17 2.9.2 Giải thuật LSTM (Long

short-term memory) 18 2.9.3 Giải thuật BiLSTM(Bidirectional Long short-term memory) 21 2.10 Phương pháp đánh giá 22 2.11 Kỹ thuật xử lý dữ liệumất cân bằng SMOTE 26 2.12 Một số công cụ được sử

dụng trong nghiên cứu 26

v2.12.1 Thư viện Scikit-learn 262.12.2 Thư viện TensorFlow 27

Trang 9

2.12.3 Thư viện Keras 29

2.12.4 Thư viện Levenshtein 29

2.12.5 Telegram Bot 30

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 31

3.1 Tổng quan hệ thống 31

3.2 Thu thập và tiền xử lý dữ liệu 31

3.3 Xây dựng và thử nghiệm mô hình 33

CHƯƠNG 4: KẾT QUẢ VÀ ĐÁNH GIÁ 35

4.1 Tổng quan tập dữ liệu 35

4.2 Mô hình Bayes thơ ngây 36 4.3 Mô hình SVM 39 4.4 Mô hình LSTM 44 4.5 Mô hình BiLSTM 48 4.6 Đánh giá kết quả 49

CHƯƠNG 5: KẾT LUẬN VÀ ĐỀ XUẤT 52

5.1 Kết luận 52

5.1.1 Kết luận 52

5.1.2 Những đóng góp của đề tài 52 5.1.3 Hạn chế 52 5.2 Đề xuất 52 TÀI LIỆU THAM KHẢO 54

vi DANH MỤC BẢNG Bảng 4.1 Sự phân bố của tập dữ liệu 35

Bảng 4.2 Phân bố độ dài văn bản trong tập dữ liệu 36

Bảng 4.3 Kích thước tập từ vựng của các n-gram 37

Bảng 4.4 Ảnh hưởng của alpha đối với mô hình Bayes thơ ngây 2-gram 37 Bảng 4.5 Kết quả huấn luyện mô hình Bayes thơ ngây với alpha=0,1 .38 Bảng 4.6 Ảnh hưởng của C đối với mô hình SVM Linear 1-gram 39 Bảng 4.7 Kết quả huấn luyện mô hình SVM Linear với

Trang 10

C=1 40 Bảng 4.8 Ảnh hưởng của C đối với mô hình SVM RBF1-gram 41 Bảng 4.9 Kết quả huấn luyện mô hình SVM RBF vớiC=10 41 Bảng 4.10 So sánh mô hình SVM Linear khi cânbằng trọng số lớp 42 Bảng 4.11 Ảnh hưởng của độ dài vectơ từWord2vec đối với mô hình LSTM 44 Bảng 4.12 Ảnh hưởng của tốc độ học đốivới mô hình LSTM 45 Bảng 4.13 Kết quả huấn luyện mô hìnhLSTM 46 Bảng 4.14 Ảnh hưởng của các phươngpháp cân bằng dữ liệu đối với mô hình LSTM 47 Bảng 4.15 Kết quả huấn luyện môhình BiLSTM 48 Bảng 4.16 So sánh hiệu quả các

mô hình được lựa chọn 49 Bảng 4.17 So sánh F1-scoregiữa các mô hình theo từng lớp 50

vii

DANH MỤC HÌNH

6 Hình 2.2 Quá trình phânloại 7 Hình 2.3 Mô hìnhCBOW 11 Hình 2.4 Mô hìnhskip-gram 12 Hình 2.5 Phân lớpnhị phân tuyến tính 14 Hình 2.6 Phân lớptuyến tính với SVM 15 Hình 2.7 Phươngpháp 1-vs-all của mô hình SVM đa lớp 16 Hình 2.8Phương pháp 1-vs-1 của mô hình SVM đa lớp 17 Hình 2.9

Mô hình RNN 17 Hình2.10 Kiến trúc của LSTM 18 Hình2.11 Tầng cổng quên 19 Hình

Trang 11

2.12 Tầng cổng vào 20 Hình 2.13 Cập nhật thông tin qua cổng vào và cổng quên 20 Hình

2.14 Tầng cổng ra 21

Hình 2.15 Mô hình mạng BiLSTM 22

Hình 2.16 Ma trận hỗn loạn 23

Hình 3.1 Tổng quan hệ thống phân loại văn bản tiếng Việt 31

Hình 4.1 Sự phân bố của tập dữ liệu 35

Hình 4.2 Sự phân bố độ dài văn bản của trong tập dữ liệu 36

Hình 4.3 Ảnh hưởng của alpha với mô hình Bayes thơ ngây 2-gram 37

Hình 4.4 Kết quả huấn luyện mô hình Bayes thơ ngây với alpha=0,1 38

Hình 4.5 Ảnh hưởng của C đối với mô hình SVM Linear 1-gram 39

Hình 4.6 Kết quả huấn luyện mô hình SVM Linear với C=1 40

Hình 4.7 Ảnh hưởng của C đối với mô hình SVM RBF 1-gram 41

Hình 4.8 Kết quả huấn luyện mô hình SVM RBF với C=10 42

Hình 4.9 So sánh mô hình SVM Linear khi cân bằng trọng số lớp 43

Hình 4.10 Ảnh hưởng của độ dài vectơ từ Word2vec đối với mô hình LSTM 44

Hình 4.11 Ảnh hưởng của tốc độ học đối với mô hình LSTM 45

Hình 4.12 Kết quả mô hình LSTM kết hợp Word2vec 46

Hình 4.13 So sánh các phương pháp cân bằng dữ liệu đối với mô hình LSTM(128) 47

Hình 4.14 Kết quả mô hình BiLSTM kết hợp Word2vec 48

Hình 4.15 Hiệu quả các mô hình NB, SVM, LSTM, BiLSTM 49

Hình 4.16 Chỉ số F1-score của các mô hình theo từng lớp 50

viii

DANH MỤC CÁC TỪ VIẾT TẮT

API Application

Programming Interface

Giao diện lập trình ứng dụng

BiLSTM Bidirectional Long

Short-Term Memory

Mạng bộ nhớ dài ngắn hai chiều

CBOW Continuous Bag of Words Túi từ liên tục

CPU Central Processing Unit Bộ xử lý trung tâm

DDC Dewey Decimal Classification Khung phân loại thập phân Dewey GPU Graphics Processing Unit Bộ xử lý đồ họa

IDE Integrated Development

Environment

Môi trường phát triển tích hợp KNN K-Nearest Neighbors K láng giềng gần nhất

Trang 12

LLC Library of Congress

Classification

Khung phân loại Thư việnQuốc hội Hoa kỳ

LSTM Long Short-Term Memory Mạng bộ nhớ dài ngắn

RNN Recurrent Neural Network Mạng nơron hồi quy

SMOTE Synthetic Minority Over

sampling Technique

Kỹ thuật tăng cường mẫu thiểu

số tổng hợpSVM Support Vector Machine Học máy vectơ hỗ trợ

TF-IDF Term Frequency-Inverse

Document Frequency

Tần suất từ - Tần suất nghịchcủa tài liệu

TPU Tensor Processing Unit Bộ xử lý tensor

UDC Universal Decimal

Trong kỷ nguyên số, khi tài liệu điện tử ngày càng trở nên phổ biến và tiện lợi,người ta thường có xu hướng đánh giá thấp vai trò của tài liệu in Tuy nhiên, khôngthể phủ nhận rằng tài liệu in vẫn là một nguồn tài nguyên vô cùng quý giá và cần thiếttrong thư viện Sách, báo, luận văn, luận án không chỉ chứa đựng những kiến thứcchuyên sâu mà còn mang đến cho người đọc những trải nghiệm đọc độc đáo, khó cóthể thay thế bằng các thiết bị điện tử

Để quản lý khối lượng tài liệu in khổng lồ và đảm bảo người dùng dễ dàng tìmkiếm thông tin, thư viện đã áp dụng hệ thống phân loại khoa học Tại Trung tâm Họcliệu, hệ thống phân loại thập phân Dewey (DDC) được lựa chọn để sắp xếp tài liệu.DDC là một hệ thống phân loại thư viện quốc tế, sử dụng các số thập phân để

phân chia kiến thức thành các lĩnh vực khác nhau

Việc áp dụng DDC giúp cho việc quản lý và sắp xếp tài liệu trong thư viện trởnên có hệ thống và hiệu quả Nhờ đó, người đọc có thể dễ dàng tìm thấy tài liệu cầnthiết thông qua các số hiệu phân loại hoặc từ khóa Ngoài ra, hệ thống DDC còn hỗ trợtrong việc xây dựng các danh mục thư mục, cơ sở dữ liệu thư viện và các dịch vụthông tin khác

Việc biên mục tài liệu trong thư viện truyền thống thường được thực hiện thủ

Trang 13

công bởi các thư viện viên Họ phải đọc kỹ tiêu đề, nội dung của tài liệu, sau đó dựatrên kiến thức chuyên môn và kinh nghiệm của mình để phân loại tài liệu theo hệ thốngDDC Tuy nhiên, phương pháp này đặt ra nhiều thách thức Đối với tài liệu chuyênngành phức tạp, đòi hỏi kiến thức sâu rộng, việc phân loại chính xác trở nên khó khăn

và thường cần đến sự hỗ trợ của các chuyên gia trong lĩnh vực đó Bên cạnh đó, tínhchủ quan của người biên mục cũng ảnh hưởng đến kết quả phân loại Điều này có thểdẫn đến tình trạng cùng một tài liệu nhưng lại được phân vào các số hiệu khác nhau khiđược biên mục bởi những người khác nhau, gây khó khăn cho người dùng trong việctìm kiếm thông tin Ngoài ra, việc biên mục thủ công còn tốn nhiều thời gian và côngsức, đặc biệt đối với các thư viện có lượng tài liệu lớn Do đó, việc tìm kiếm các giảipháp để tự động hóa và nâng cao hiệu quả quá trình biên mục là điều cần thiết

Ngoài ra, hệ thống này tiếp tục phát triển trong tương lai còn có thể tích hợpvới các cơ sở dữ liệu thư viện hiện có, tạo thành một nền tảng quản lý tài liệu thôngminh, hỗ trợ các hoạt động như kiểm kê, thống kê và báo cáo Qua đó, góp phần nângcao hiệu quả quản lý thư viện, đáp ứng tốt hơn nhu cầu của người dùng và tạo điềukiện thuận lợi cho công tác nghiên cứu khoa học

1.2 Đối tượng và phạm vi nghiên cứu

1.2.1 Đối tượng nghiên cứu

Đề tài nghiên cứu đặc trưng phương pháp TF-IDF kết hợp với các giải thuậthọc máy phổ biến Bayes thơ ngây và SVM, cùng với phương pháp Word2vec kết hợpvới LSTM và BiLSTM Từ đó rút ra giải pháp phù hợp để xậy dựng hệ thống phânloại tài liệu tiếng Việt theo khung phân loại thập phân DDC ứng dụng trong biên mụctài liệu tiếng Việt tại Trung tâm Học liệu

1.2.2 Phạm vi nghiên cứu và phương pháp nghiên cứu

Để thực hiện nghiên cứu, đề tài đã thu thập tập dữ liệu từ kho sách của Trungtâm Học liệu, bao phủ 10 chủ đề theo khung phân loại DDC, mỗi tài liệu thuộc về duynhất một nhóm được đánh dấu từ 0 đến 9

Đề tài tập trung thực hiện 4 phương pháp phân loại, trong đó là Bayes thơ ngây

và SVM [1] là hai phương pháp hàng đầu thuộc lĩnh vực học máy, hai phương pháphọc sâu là LSTM và BiLSTM cũng đã được chứng mình tính hiệu quả với nhiều tác

vụ xử lý văn bản Đề tài cố gắng tìm ra phương pháp tối ưu trong các phương pháptrên đối với tập dữ liệu được đề tài thu thập

1.3 Ý nghĩa khoa học và thực tiễn của đề tài

Đề tài này được thực hiện nhằm tìm ra giải pháp xây dựng hệ thống phân loại

Trang 14

tài liệu tiếng Việt sử dụng tại Trung tâm Học liệu – trường Đại học Cần Thơ, hỗ trợcho việc biên mục tài liệu mới vào thư viện hiệu quả hơn, tiết kiệm thời gian, qua đógóp phần tăng năng suất biên mục để phục vụ bạn đọc Bên cạnh đó, hệ thống cũng cóthể ứng dụng vào tra cứu tài liệu giúp bạn đọc xác định vị trí những tài liệu có liênquan đến nội dung mà bản thân quan tâm, qua đó có thể dễ dàng tìm đọc tham khảo tạikho sách của Trung tâm Học liệu.

Trang 15

CHƯƠNG 2: TỔNG QUAN2.1 Nghiên cứu liên quan

Trong thời đại hiện nay, việc áp dụng các tiến bộ về công nghệ trí tuệ nhân tạovào việc giải quyết các vấn đề trong cuộc sống ngày càng trở nên phổ biến và thu hútnhiều sự chú ý từ cộng đồng khoa học, doanh nghiệp và cả xã hội Trí tuệ nhân tạo đãkhông còn chỉ là một khái niệm mang tính lý thuyết mà đã và đang được hiện thực hóadưới nhiều dạng khác nhau để mang lại hiệu quả thực tiễn Trong đó, các mô hình họcmáy như SVM, Bayes thơ ngây, đã khẳng định được khả năng vượt trội trong việc giảiquyết các bài toán phân loại, từ phân tích ngôn ngữ, hình ảnh đến dự đoán xu hướng

Trang 16

trong nhiều lĩnh vực khác nhau Trên thực tế, các nghiên cứu đã thử nghiệm những môhình này trên hàng loạt tập dữ liệu đa dạng, từ nhỏ đến lớn, và kết quả thu được đãchứng minh tính ổn định và độ chính xác cao của chúng.

Trong nghiên cứu của nhóm tác giả Trần Cao Đệ - Phạm Nguyên Khang đã đềxuất phương pháp “Phân loại văn bản với máy vector hỗ trợ và cây quyết định” [2] vớikết luận là SVM kết hợp với giải thuật tách từ MMSEG, sử dụng SVD để rút gọn sốchiều không gian đặc trưng cho độ chính xác khả quan Qua nghiên cứu cho thấy rằngSVM thực sự tốt hơn cây quyết định khi số chiều không gian đặc trưng được rút gọnmột cách hợp lí Việc rút gọn đặc trưng còn giúp cho không gian lưu trữ giảm xuống

và thời gian thực hiện phân lớp nhanh hơn vì số chiều của không gian đặc trưng nhỏhơn nhiều so với số chiều của không gian đặc trưng ban đầu

Bên cạnh đó, trong nghiên cứu của nhóm tác giả Colas, F., Brazdil, P

“Comparison of SVM and Some Older Classification Algorithms in TextClassification Tasks” [3] cũng đã có những so sánh giữa SVM, kNN và Naive Bayes(NB) để đưa ra kết luận SVM cũng không phải luôn tốt trong mọi tình huống, các môhình truyền thống cũng có hiệu quả nhất định So với SVM thì kNN và NB đơn giảnhơn, dễ hiểu hơn, thực thi nhanh hơn rất nhiều Nhược điểm lớn của SVM là

mất nhiều thời gian khi huấn luyện với các bộ dữ liệu lớn

Nghiên cứu “Article Classification using Natural Language Processing andMachine Learning” [4] của các tác giả T T Dien, B H Loc and N Thai-Nghe cũngkết luận SVM khả thi trong phân loại bài báo tự động Các tác giả đã so sánh hiệu quảphân loại của SVM, NB, kNN và đưa ra kết luận giải thuật SVM cho kết quả

phân loại tốt hơn

Trong nghiên cứu “Naive Bayes for Text Classification with UnbalancedClasses” [5] của nhóm tác giả Eibe Frank và Remco R Bouckaert, chỉ ra rằng việcchuẩn hóa thực sự có thể cải thiện đáng kể hiệu suất Bài báo cũng đã chỉ ra rằngMultinomial Naive Bayes với chuẩn hóa vectơ lớp có liên quan rất chặt chẽ với bộ

4phân loại trọng tâm tiêu chuẩn để phân loại văn bản nếu vectơ lớp được chuẩn hóatheo độ dài đơn vị và xác minh mối quan hệ theo kinh nghiệm

Ngoài ra, trong lĩnh vực xử lý dữ liệu chuỗi liên tục, văn bản và ngôn ngữ tựnhiên, những mô hình mạng nơ-ron hồi quy (Recurrent Neural Networks - RNN) cùngvới biến thể cải tiến là Long short-term memory (LSTM) đã mang lại nhiều đột pháđáng kể Các mô hình RNN có khả năng nắm bắt các mối quan hệ liên kết trong dữliệu theo chuỗi, giúp chúng đặc biệt hữu ích trong các bài toán như phân loại văn bản,dịch máy, nhận dạng giọng nói, và dự đoán chuỗi thời gian Đặc biệt, LSTM với cơchế ghi nhớ thông tin dài hạn đã khắc phục được những hạn chế của RNN truyềnthống trong việc xử lý các chuỗi dữ liệu dài và phức tạp Các nghiên cứu gần đây đãchỉ ra rằng việc ứng dụng LSTM trong các tác vụ như phân tích ngữ cảnh, cảm xúc từvăn bản hay dự đoán xu hướng dữ liệu đã mang lại nhiều kết quả vượt mong đợi, đónggóp tích cực vào sự phát triển của trí tuệ nhân tạo và các ứng dụng thực tế trong đờisống

Trang 17

Các tác giả Nguyen Phu, Hong Tham, Nguyen Kiet, Nguyen Ngan đã công

bố trong nghiên cứu [6] về việc phân tích cảm tính các tập dữ liệu được tạo ra từ phảnhồi của sinh viên bằng thuật toán học tập có giám sát Các nhà nghiên cứu đã sử dụng

4 thuật toán bao gồm Naive Bayes, Maximum Entropy, LSTM và BiLSTM trên bộ dữliệu phản hồi của sinh viên và đưa ra kết luận rằng BiLSTM vượt trội hơn

Tiếp đến, LSTM đã được các tác giả trong nghiên cứu [7] (Arifin et al.) kếtluận là các nghiên cứu liên quan đến LSTM đã có sự cải thiện đáng kể trong nhữngthập kỷ qua và cho thấy tiềm năng lớn cho nghiên cứu trong tương lai Điều đó chothấy LSTM là một mô hình rất tiềm năng và đã được chứng mình ở nhiều nghiên cứukhác về sự hiệu quả trong phân loại văn bản

Trong nghiên cứu [8] (Triyadi et al.) các tác giả đã thực hiện nghiên cứu tập dữliệu tin tức có 4 lớp là giải trí, kinh doanh, khoa học và sức khỏe Các kết quả thuđược với độ chính xác cao là 93,15% Điều này củng cố việc phân loại văn bản tin tứcbằng phương pháp học sâu với thuật toán LSTM hiệu quả khi sử dụng trong phân loạivăn bản

Thêm vào đó, trong bài báo [9] ( Asrawi et al.) với nghiên cứu phân loại trêntập dữ liệu gồm 18.000 mẫu tin tức thuộc 20 chủ đề khác nhau, cho kết quả mạngGRU hai chiều (một biến thể khác của LSTM) cũng rất hiệu quả trong phân loại vănbản, thậm chí còn hiệu quả hơn mô hình LSTM

Trong nghiên cứu “Hate Speech Detection on Vietnamese Social Media Textusing the Bidirectional-LSTM Model” [10] do nhóm tác giả Do et al nghiên cứu đãthử nghiệm các mô hình trên tập dữ liệu VLSP Shared Task 2019 từ đó đạt được kết

5quả khả quan với mô hình BiLSTM trong tác vụ phát hiện ngôn từ thù địch trên vănbản mạng xã hội Việt Nam

Ngoài ra, trong bài báo “Sự ảnh hưởng của phương pháp tách từ trong bài toánphân lớp văn bản tiếng Việt” [11] (Pham et al.) các tác giả đã trình bày một nghiêncứu so sánh về sự ảnh hưởng của các phương pháp tách từ tiếng Việt đối với hiệu quảphân lớp trong bài toán phân loại văn bản tiếng Việt Các kết quả thực nghiệm trên tập

dữ liệu văn bản gồm 6000 văn bản thuộc 10 chủ đề của trang báo điện tửvnexpress.net và tập dữ liệu sách với 166 chủ đề cho thấy rằng việc tách từ đa âm tiếtvới các tiếp cận khác nhau và tách từ đơn âm tiết hoàn toàn không có ảnh hưởng hoặcảnh hưởng không đáng kể đối với hiệu quả phân lớp Với kết quả như

thế, hoàn toàn có thể sử dụng phương pháp tách từ đơn âm tiết (dựa trên khoảng trắngnhư tiếng Anh) hoặc tách từ theo phương pháp so khớp từ dài nhất trong từ điển vàobài toán phân loại văn bản tiếng Việt để tăng tốc độ xử lý trong khi vẫn giữ được hiệuquả phân lớp cao

2.2Phân loại văn bản

Bài toán phân loại văn bản có thể được hiểu là khi có một tập dữ liệu gồmnhiều văn bản được ký hiệu là D={d1, d2,…, dn} và tập chủ đề được ký hiệu là C={c1,

c2,…, cm}, nhiệm vụ của bài toán là gán nhãn cicho tài liệu djvới i [1,��] và j [1,

��] [12]

Trang 18

Nghĩa là phải đi tìm giá trị của hàm��, sao cho:

��(��, ��) = {��

�� (2.1)

��(��, ��) = True nếu d thuộc về lớp c

��(��, ��) = False nếu d không thuộc về lớp c

Có nhiều phương pháp tiếp cận bài toán phân loại văn bản như tiếp cận dựatrên lý thuyết đồ thị, tiếp cận thống kê… nhưng tựu chung lại chúng đều dựa trên cácphương pháp mô hình học máy hoặc học sâu

Về tổng quan, mô phân loại văn bản có 2 giai đoạn: giai đoạn huấn luyện vàgiai đoạn phân loại, được thể hiện trong hình 2.1 và 2.2:

Thu thập

dữ liệu

huấnluyệnTiền

xử lý dữ

liệuVectơhóa vănbản

Trích đặctrưngvăn bản

Áp dụng

mô hìnhphânlớp

Đánh giáhiệu quả

Vectơhóa vănbản

Trích đặctrưngvăn bản

Sử dụng

mô hình

đã phânlớp

Lớp củavăn bản

Hình 2.2 Quá trình phân loại

2.3Tiền xử lý dữ liệu

Các phương pháp xử lý văn bản thường phân tích các văn bản thành các đặctrưng của văn bản chứ không làm việc trực tiếp với cá từ của văn bản Do đó, để phânloại văn bản cần một quá trình tiền xử lý để đưa văn bản về dạng có cấu trúc – thường

là vectơ hóa, sau đó đưa vào các mô hình học máy để phân loại Về cơ bản, quá trìnhtiền xử lý dữ liệu có thể đưa vào các bước sau:

- Làm sạch dữ liệu: thông thường bộ dữ liệu văn bản sau khi được thu thập sẽkhông chỉ chứa các văn bản mong muốn, nằm ngoài phạm vi phân loại, do đó quátrình làm sạch dữ liệu hoặc sẽ loại bỏ các văn bản đó, hoặc sẽ biến đổi chúng thànhdạng thích hợp cho mục tiêu phân loại Trong đó, các bước làm sạch dữ liệu thườnggặp là: loại bỏ các ký tự thừa (các ký tự đặc biệt, dấu câu, khoảng trắng thừa,…).Ngoài ra văn bản xử lý cũng cần đưa các dạng chữ in hoa về dạng in thường (nghĩacủa từ sẽ không phụ thuộc vào in hoa hay in thường)

- Tách từ (word segmentation): tách các câu trong văn bản tành các cụm từ có ýnghĩa Trong tiếng Anh, người ta thường dùng khảng trắng dể thực hiện quá trình tách

từ, Tuy nhiên, các từ ghép tiếng Việt được tạo thành bởi nhiều từ đơn âm tiết, do đó

Trang 19

khoảng trắng không phải là dấu hiệu phân cách “từ” trong tiếng Việt Việc tách từtrong văn bản đầu vào trước khi đưa vào huấn luyện mô hình là việc rất quan trọngnhằm để giải quyết các bài toàn liên quan đến ngữ nghĩa.

- Loại bỏ từ dừng (stopwords): từ dừng là những từ xuất hiện nhiều trong văn bảnnhưng lại không mang lại nhiều ý nghĩa, thậm chí làm gia tăng độ phực tạp của bộ từvựng dẫn đến làm chậm quá trình huấn luyện Các ngôn ngữ khác nhau có những từdừng khác nhau, ví dụ như trong tiếng Anh thì các từ như: a, the, is, this, that… đượcxem là các từ dừng Trong tiếng Việt cũng có các từ dừng, ví dụ như: thì, là, à, ạ,…Loại bỏ các từ dừng giúp giảm kích thước tập dữ liệu, đấy nhanh quá trình tính toáncủa các mô hình phân loại Để loại bỏ các từ dừng trong văn bản thường có hai cách:

o Sử dụng từ điển chứa danh sách các từ dừng đã được tổng hợp, dùng bộ lọc

để loại bỏ các từ trong văn bản đầu vào có tồn tại trong từ điển

7

o Dựa vào tần suất xuất hiện của từ, tiến hành loại bỏ các từ có tần suất xuấthiện nhiều nhất vì những từ này thường không mang ý nghĩa cho việc phânloại

Kết thúc quá trình tiền xử lý văn bản, tập hợp thu được sẽ là tập hợp đặc trưngcủa các văn bản, các mô hình phân loại văn bẩn sử dụng các đặc trưng này để thực hiệnviệc phân loại

2.4Phân loại tài liệu trong thư viện

Trong lĩnh vực thư viện, công tác phân loại đóng vai trò vô cùng quan trọng,đây là một trong những bước xử lý tài liệu then chốt Phân loại tài liệu không chỉ giúp

tổ chức các tài liệu một cách có hệ thống, mà còn tạo điều kiện thuận lợi cho người sửdụng thư viện trong việc tìm kiếm và tiếp cận các nguồn thông tin cần thiết Hơn nữa,công tác này còn hỗ trợ việc sắp xếp các tiêu đề trong mục lục phân loại, cũng nhưtrong thư mục, đảm bảo tính nhất quán và chính xác trong việc quản lý thông tin

Việc sử dụng các khung phân loại chuẩn tắc trong thư viện là rất cần thiết để tối

ưu hóa quy trình này Hiện nay, ba khung phân loại tiêu biểu nhất [13] được sử dụngrộng rãi trong các hệ thống thư viện trên thế giới bao gồm:

- Khung phân loại Thập phân Dewey (Dewey Decimal Classification – DDC): đây

là hệ thống phân loại được thiết kế để phục vụ các thư viện vừa và nhỏ DDC tổ chứctài liệu theo hệ thống số thập phân, chia kiến thức thành 10 lĩnh vực chính, từ đó phânnhánh ra các phân loại nhỏ hơn Ưu điểm của DDC là tính linh hoạt, dễ sử dụng và cókhả năng mở rộng phù hợp với nhiều chủ đề khác nhau

- Khung phân loại Thư viện Quốc hội Hoa Kỳ (Library of Congress Classification– LCC): được xây dựng bởi Thư viện Quốc hội Hoa kỳ và áp dụng chủ yếu trong cácthư viện có quy mô lớn, với hơn một triệu đầu sách LCC sử dụng các ký hiệu chữ cáiLatin để phân loại các tài liệu theo từng lĩnh vực kiến thức khác nhau Với độ chi tiếtcao, hệ thống này đặc biệt phù hợp cho các thư viện nghiên cứu và học thuật lớn, nơicần sự phân loại kỹ lưỡng hơn

- Bảng phân loại Thập phân Bách khoa (Universal Decimal Classification – UDC):

hệ thống phân loại được phát triển dựa trên DDC và mở rộng thêm, UDC được sử

Trang 20

dụng rộng rãi cho các thư viện đa ngành hoặc liên ngành Điểm mạnh của UDC là khảnăng kết hợp các mã phân loại từ nhiều lĩnh vực khác nhau để phân loại các tài liệuphức tạp, từ đó mang lại sự linh hoạt và chính xác cao trong việc phân loại tài liệu.

2.5Khung phân loại thập phân Dewey

Khung phân loại DDC, hay còn gọi là Hệ thống phân loại thập phân Dewey, làmột hệ thống phân loại thư viện được phát triển bởi Melvil Dewey vào năm 1876 Hệthống này được sử dụng rộng rãi trong các thư viện trên toàn thế giới để tổ chức

8

và sắp xếp sách, tài liệu dựa trên chủ đề của chúng DDC được biết đến với tính linhhoạt, dễ sử dụng và khả năng thích ứng với các chủ đề mới trong nhiều lĩnh vực trithức khác nhau Ý tưởng của DDC là dùng 10 chữ số Ả Rập từ 0 đến 9 để sắp xếptoàn bộ tri thức nhân loại thể hiện trên các ấn phẩm [13]

Dewey đã đưa ra một trật tự chặt chẽ cho việc sắp xếp các lớp trong khungphân loại DDC, kế thừa những khung phân loại trước

Khung phân loại DDC: gồm 10 lớp chính (chủ đề chính), trong đề tài ký hiệu

từ 0 đến 9 [14]:

- 0: Tin học, Thông tin và tác phẩm tổng quát: dành cho những tài liệu có nội dung

về nhiều môn ngành khoa học (ví dụ: bách khoa toàn thư, báo chí, các xuất bản phẩmđịnh kỳ…), ngoài ra lớp này còn bao gồm một số ngành khoa học liên quan đến trithức như tin học, khoa học thư viện và thông tin, nghề báo

- 1: Triết học và tâm lý học: triết học, các hiện tượng huyền bí và tâm lý học - 2:Tôn giáo: dành riêng cho các tôn giáo

- 3: Khoa học xã hội: xã hội học, nhân loại học, khoa học thống kê, khoa học chínhtrị, kinh tế, luật pháp, quản lý công quyền, các vấn đề và các dịch vụ xã hội, giáo dục,thương mại, truyền thông, giao thông vận tải, phong tục tập quán - 4: Ngôn ngữ: ngônngữ học và các ngôn ngữ cụ thể

- 5: Khoa học tự nhiên: các khoa học tự nhiên như toán học, vật lý, hóa học, thiênvăn học, khoa học trái đất, sinh vật học

- 6: Công nghệ: các lĩnh vực sử dụng khoa học để khai thác thế giới tự nhiên phục

vụ cho lợi ích của con người

- 7: Nghệ thuật và vui chơi giải trí: các ngành nghệ thuật như nghệ thuật trang trí,hội họa, âm nhạc, nghệ thuật biểu diễn, thể thao và các trò chơi giải trí - 8: Văn học và

tu từ học: bao gồm tu từ học, nền văn học của các nước trên thế giới (văn học dân gianđược phân về phong tục tập quán ở lớp 3) - 9: Lịch sử và địa lý: tài liệu nói về các sựkiện đã diễn ra hoặc tình hình hiện tại của một vùng hoặc một nơi cụ thể (lịch sử củamột chủ đề cụ thể được phân về chủ đề đó)

Ưu điểm nổi bật của DDC là tính đơn giản, linh hoạt, hệ thống DDC được cấutrúc theo hệ thống phân cấp, dễ mở rộng, cho phép người biên mục dễ dàng học hỏi và

áp dụng trong quá trình phân loại tài liệu và điều chỉnh khi có những lĩnh vực tri thứcmới xuất hiện Người dùng có thể dễ dàng tìm thấy tài liệu về một chủ đề cụ

thể dựa trên số phân loại của DDC So với LLC và UDC, DDC có cấu trúc ít phức tạphơn, không đòi hỏi người biên mục có kiến thức sâu về hệ thống biên mục Mặc dùDDC có khả năng mở rộng nhưng hệ thống này không được thiết kế để phân loại các

lĩnh vực học thuật phức tạp hoặc liên ngành với độ chi tiết cao Các

Trang 21

2.6Mô hình trọng số TF-IDF

TF-IDF (viết tắt của term frequency – inverse document frequency) là mộtphương thức thống kê dùng để đánh giá mức độ quan trọng của một cụm từ đối vớimột tài liệu cụ thể trong một tập hợp bao gồm nhiều tài liệu Trong đó:

- TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗi thành phầntrong một vectơ thuật ngữ được tính bởi số lần thuật ngữ đó xuất hiện trong tài liệu -IDF (Inverse Document Frequency) là tần suất nghịch của một cụm từ trong một tậphợp gồm nhiều tài liệu được tính bằng công thức IDF = log(N/ni), với N là toàn bộ tàiliệu trong tập hợp và nilà số các tài liệu chứa thuật ngữ i Với chỉ TF, nếu một thuậtngữ xuất hiện thường xuyên trong các tài liệu thì nó chưa chắc đã là lựa chọn tốt làmthuật ngữ chỉ mục, vì nó không giúp phân biệt các tài liệu người sử dụng quan tâm vớicác tài liệu khác, tức là số lượng tài liệu được truy tìm lớn nhưng độ chính xác khôngcao IDF giúp cải thiện vấn đề này, trọng số của thuật ngữ sẽ rất cao nếu nó xuất hiệnthường xuyên chỉ trong một vài tài liệu, tức là giúp tăng cường sự phân biệt

- Tính TF-IDF: Trong mỗi từ trong cụm từ tìm kiếm, nhân giá trị normalized TFcủa nó trong mỗi văn bản với giá trị IDF của từ đó để tính được giá trị TF*IDF củamột từ trong từng văn bản

Giả sử:

- Có 1 tập D gồm M văn bản

- Văn bản d ⊆ D có m từ, từ vựng w xuất hiện c(w, d) lần

- Từ vựng w xuất hiện trong f(w, D) văn bản

Trang 22

2.7Mô hình Word2vec

Nhúng từ (word embedding) là tập hợp các vectơ dùng để biểu diễn các từ.Những cách biểu diển nhúng từ giúp máy tính có thể hiểu và làm việc trên dữ liệungôn ngữ của con người Một số phương pháp nhúng từ phổ biến như Word2vec,GloVe, FastText…

Phương pháp Word2vec được Mikolov và nhóm nghiên cứu đề xuất để giảiquyết vấn đề không thể hiện được sự tương đồng giữa các từ khi được biểu diễn bằngone-hot vectơ Nó anh xạ mỗi từ thành các vectơ có độ dài cố định, các vectơ này cóthể thể hiện tốt mối quan hệ giữa các từ khác nhau Word2vec chứa hai mô hình làCBOW [15] và Skip-gram [16]

2.7.1 Mô hình CBOW (Continuous bag of words)

Mô hình CBOW dự đoán từ hiện tại trên ngữ cảnh của các từ xung quanh nó.Kiến trúc của CBOW thường bao gồm lớp đầu vào, lớp ẩn và lớp đầu ra [17]:

Lớp đầu vào bao gồm các từ ngữ cảnh được mã hóa dưới dạng onehot vectơ Lớp ẩn xử lý đầu vào bằng cách thực hiện các phép biến đổi phi tuyến để nắm bắt mốiquan hệ ngữ nghĩa giữa các từ

Lờp đầu ra tạo ra sự phân bố xác suất của mỗi từ trên tập từ vựng

Mô hình CBOW thường được sử dụng để tạo các từ nhúng để sử dụng trongcác mô hình xử lý văn bản tự nhiên khác hoặc trong các tác vụ đề cao yếu tố ngữ cảnh

Trang 23

Skip-gram cũng gồm lớp đầu vào, lớp ẩn, và lớp đầu ra [17]:

- Lớp đầu vào nhận một từ được mã hóa dưới dạng one-hot vectơ - Lớp ẩn biếnđổi từ đầu vào thành biểu diễn phân tán trong lớp ẩn - Lớp đầu ra dự đoán các từ ngữcảnh xung quanh dựa trên các biểu diễn đã học trong lớp ẩn

Skip-gram thường được sử dụng trong các lĩnh vực phân tích tình cảm, truy

xuất thông tin hoặc tạo sinh văn bản…

Hình 2.4 Mô hình skip-gram

2.8 Các phương pháp học máy

2.8.1 Giải thuật Bayes thơ ngây

Giải thuật Bayes thơ ngây (Naive Bayes) được đề xuất lần đầu bởi Good [18] từnăm 1965, là một mô hình xác suất nằm trong 10 mô hình sử dụng phổ biến [1], hiệuquả trong cộng đồng khai thác dữ liệu… Giải thuật Bayes thơ ngây đơn giản, dễ hiểu,chạy nhanh và tỏ ra khá hiệu quả khi ứng dụng vào các tác vụ phân lớp như phân loạivăn bản, lọc thư rác… ứng dụng trong thực tế [19]

Giải thuật Bayes thơ ngây dựa trên định lý xác suất của Bayes - tác giả là nhà khoa

học Thomas Bayes, như sau:

��[��|��] =��[��|��] ��[��]

��[��](2.5)12

Trong đó:

P[A|B] là xác suất có điều kiện của sự kiện A với điều kiện B đã xảy ra

P[B|A] là xác suất có điều kiện của sự kiện B với điều kiện A đã xảy ra

-P[A] là xác suất A khi không có thông tin về sự kiện B

- P[B] là xác suất B khi không có thông tin về sự kiện A, xác suất này còn đượcbiết đến như là hằng số chuẩn hóa vì nó không phụ thuộc vào sự kiện A Với giả thiết

là các thuộc tính độc lập có điều kiện, các dự báo trong mô hình Bayes thơ ngây đượctính theo công thức:

��[��|��] =��[��1|��] ��[��2|��] … ��[��|��] ��[��]

Trang 24

��[��](2.6)Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu được biểu diễnbằng vectơ với n thuộc tính ký hiệu là B1, B2, , Bn, được phân vào m lớp y1, y2, ,ym.

Giả sử X là phần tử dữ liệu mới đến cần gán nhãn có n thuộc tính X1, X2, …,

Xn lần lượt có giá trị x1, x2, …, xn và các thuộc tính của X độc lập với nhau, dựa vàođịnh lý Bayes có các xác suất:

Mô hình dự báo Bayes thơ ngây không cần tính chính xác xác suất nhưng vẫn

có thể dự báo được Một số trường hợp có thể gặp giá trị của thuộc tính không xuấthiện trong tất cả các lớp, xác suất của thuộc tính lúc này bằng 0, có thể sử dụng ướclượng Laplace để giải quyết tình huống này Giả sử�� là hằng số dương và ��làcác hệ số dương mà ∑��= 1 Cộng thêm cho tử số một giá trị là �� vàmẫu số là�� để tính xác suất

Nếu tập dữ liệu là dữ liệu liên tục, với giả thiết là dữ liệu tuân theo phân phốiGauss, sử dụng hàm mật độ xác suất:

��(��) =1 √2�� −(��−��)

2

2��2(2.10)

13

Để tính các giá trị (PXi = xi|Ai) Trong đó giá trị trung bình�� và phương sai

��2được tính như sau:

Trang 25

Mục tiêu của giải thuật SVM là tìm ra siêu phẳng (hyperplane) tối ưu, táchkhông gian n chiều thành các lớp có đặc trương riêng biệt để cố gắng phân loại chínhxác các phần tử dữ liệu [19].

Hình 2.5Phân lớp nhị phân tuyến tínhXét bài toán phân lớp nhị phân tuyến tính như hình 2.1 Với m phần tử x1,x2…, xm trong không gian n chiều, có nhãn của các phần tử là y1, y2,…, ym có giá trị

1 hoặc -1 Có rất nhiều các mô hình tuyến tính (các siêu phẳng p1, p2, p3…) phân chia

dữ liệu thành 2 phần, tuy nhiên vấn đề đặt ra ở đây là mô hình nào trong số đó là môhình phân lớp tối ưu

14Theo ý tưởng SVM, siêu phẳng tối ưu là siêu phẳng có khoảng cách đến cácphân tử dữ liệu của các lớp là lớn nhất và phân chia sao cho khoảng cách từ điểm gầnnhất của mỗi lớp tới siêu phẳng là bằng nhau

Siêu phẳng trong không gian n chiều được biểu diễn bởi vectơ pháp tuyếnw=[w1, w2…, wn] và độ lệch b của siêu phẳng so với gốc đọa độ SVM tìm siêu phẳng(w,b) để phân chia dữ liệu

Trang 26

Hình 2.6Phân lớp tuyến tính với SVMViệc chia cắt được thực hiện nhờ vào 2 siêu phẳng hỗ trợ song song, siêu phẳng

hỗ trợ cho lớp dương (+1) là siêu phẳng mà các phần tử thuộc lớp dương năm về phíabên phải của siêu phẳng này Tương tự, siêu phẳng hỗ trợ cho lớp âm (-1) là siêuphẳng mà các phần tử nằm về bên trái của siêu phẳng này Viết lại công thức của haisiêu phẳng hỗ trợ song song như sau:

��.�� ≥ ��, ∀i có y i = +1 (2.13)

��.�� ≤ ��, ∀i có y i = -1 (2.14)

Kết hợp cả 2.13 và 2.14 được:

��(�� −��) ≥ 1 (2.15)Khoảng cách giữa 2 siêu phẳng hỗ trợ song song được gọi là lề (margin), đượctính bằng:

�� =2

‖ ��‖(2.16)Trong đó ||w|| là độ lớn của vectơ w

Siêu phẳng tối ưu phân chia tập các điểm thành 2 lớp nằm ở giữa 2 siêu phẳng

hỗ trợ Giải thuật SVM tìm siêu phẳng tối ưu bằng cách cực đại hóa lề Giải thuậtSVM đưa đến vấn đề việc giải bài toán quy hoạch toàn phương:

Giải bài toán quy hoạch toàn phương (số) thu được các��và các phần tử xitương ứng với ��> 0 là các vectơ hỗ trợ, tập các vectơ hỗ trợ (SV) được dùng đểphân lớp các phần tử x mới bằng hàm predict:

#��

Trang 27

��(��, ��) = ��(−��‖�� − ��‖2) (2.19) Để giải quyết các vấn

đề phân lớp đa lớp, giải thuật SVM thường sử dụng các phương pháp:

-Phương pháp 1-tất cả (1 vs all): xây dựng k mô hình cho k lớp, mỗi mô hình phântách 1 lớp từ các lớp khác

-Phương pháp 1-1 (1 vs 1): xây dựng k(k-1)/2 mô hình cho k lớp, mỗi mô hìnhphân tách 2 lớp

-Phương pháp phân tách 2 nhóm, mỗi nhóm có thể bao gồm nhiều lớp, xác địnhcác phân tách nhóm sao cho có lợi nhất

Hình 2.7 Phương pháp 1-vs-all của mô hình SVM đa lớp

16

Trang 28

Hình 2.8 Phương pháp 1-vs-1 của mô hình SVM đa lớpPhương pháp 1-vs-all xây dựng n mô hình SVM nhị phân (n > 2 là số lớp cầnphân lớp), mô hình nitách lớp nira khỏi các lớp khác Phương pháp 1-vs-1 xây dựngn(n-1)/2 mô hình SVM nhị phân, mỗi mô hình tách hai lớp, việc phân lớp dựa trênkhoảng cách đến siêu phẳng thu được từ SVM nhị phân.

2.9 Các phương pháp học sâu

2.9.1 Mạng nơron hồi quy Recurrent neural network (RNN) Mạng RNN

(Recurrent neural network) [21] là một dạng mạng nơron nhân tạo được hình thànhdựa trên ý tưởng sử dụng một bộ nhớ để lưu lại thông tin từ những bước tính toántrước và dựa vào đó đưa ra dự đoán chính xác nhất cho bước dự đoán hiện tại RNNđược gọi là lặp lại vì chúng thực hiện cùng một tác vụ cho mọi phần tử của chuỗi, vớikết quả đầu ra phụ thuộc vào đầu vào là kết quả của tính toán trước đó RNN đã đượcchứng minh hiệu quả tốt ở các tác vụ xử lý ngôn ngữ tự nhiên như nhận dạng giọng

nói, mô hình hóa ngôn ngữ, dịch máy… [22]

Hình 2.9

Mô hình RNN

17Trong đó:

- xtlà đầu vào ở bước t

- stlà trạng thái ẩn ở bước t, đây là bộ nhớ của mạng, stđược tính dựa trên trạngthái ẩn trước đó và đầu vào ở bước hiện tại stnắm bắt thông tin về những gì đã xảy ratrong các bước trước đó Hàm f thường có tính phi tuyến như tanh hoặc ReLU

- htlà đầu ra ở bước t, đầu ra này được tính toán dựa trên bộ nhớ tại thời điểm t

Trang 29

Khác với các mạng nơ ron truyền thống thường sử dụng các tham số khác nhau

ở mỗi lớp, RNN chia sẻ các tham số giống nhau (U, V, W) trong tất cả các bước, nghĩa

là RNN thực hiện cùng một nhiệm vụ ở mỗi bước với các đầu vào khác nhau

Như đã đề cập, RNN có khả năng kết nối các thông tin trước đó để tính toáncho hiện tại, tuy nhiên, trong các tình huống cần sử dụng ngữ cảnh xa hơn để suy luậnthì RNN tỏ ra không hiệu quả, nói cách khác RNN hạn chế trong việc xử lý các phụthuộc xa (long-term dependencies)

2.9.2 Giải thuật LSTM (Long short-term memory)

Mạng bộ nhớ dài ngắn (Long short-term memory), thường được gọi là LSTM,

là một dạng đặc biệt của RNN, điểm nổi bật của mạng này là có khả năng học đượccác phụ thuộc xa, giải quyết được điểm yếu của RNN đã được nhắc ở trên LSTMđược giới thiệu bởi Hochreiter và Schmidhuber vào năm 1997 [23] và sau đó được cảitiến rất nhiều cho đến nay LSTM hoạt động cực kỳ hiệu quả trên nhiều bài toán khácnhau nên đã dần phổ biến cho đến nay [22]

Điểm đặc biệt của LSTM so với RNN là việc nhớ thông tin trong khoảng thờigian dài (thể hiện trong tên của giải thuật) Cấu trúc của mạng LST khác với RNNchuẩn là ở mỗi bước tính toán có 4 tầng tương tác với nhau thay vì chỉ một như trongRNN Hình 2.6 thể hiện một kiến trúc chuẩn của LSTM

Hình 2.10 Kiến trúc của LSTM

18LSTM có trạng thái tế bào (cell state) chạy xuyên suốt qua cac nút mạng,tương tác thông qua các cổng (gate) - nơi sàng lọc thông tin đi qua nó Cổng cấu tạo từmột tầng mạng sigmoid và một phép nhân Tầng sigmoid sẽ cho kết quả đầu ra nằmtrong khoảng từ [0,1] - đặc trưng cho thông tin được đi qua nó, khi đầu ra bằng 0nghĩa là không có thông tin nào đi qua nó, ngược lại đầu ra bằng 1 nghĩa là tất cảthông tin được đi qua Như hình 2.6 minh họa một LSTM có 3 cổng sigmoid để điềuhành trạng thái tế bào

Chi tiết hơn, bước đầu tiên của LSTM là tầng cổng quên (Forget Gate layer)quyết định thông tin nào cần bỏ bớt từ trạng thái tế bào, nó sẽ lấy đầu vào là ht-1và xt

rồi đưa ra kết quả:

Trang 30

Hình 2.11 Tầng cổng quên

��=��(�� [ℎ��−1,��] +��) (2.20) Trong đó:

- ftlà giá trị đầu ra của cổng quên ở bước t

- sigma (ký hiệu): là hàm sigmoid

- Wflà vectơ trọng số của cổng ft

- ht-1là thông tin ở bước t-1

- xtlà thông tin đầu vào ở bước t

- bfngưỡng (bias) của cổng ft

Bước tiếp theo sẽ quyết định xem thông tin mới nào sẽ được lưu vào trạng thái

tế bào Đầu tiên, một hàm sigmoid được gọi là tầng cổng vào (Input Gate layer) đểquyết định giá trị sẽ được lấy, phần tiếp theo sẽ là một tầng tanh (tanh hyperbolic) tạo

ra vectơ trạng thái có giá trị��̃ mới để cập nhật trạng thái tế bào (hình 2.8)

Trang 31

Trong đó:

- itlà giá trị đầu ra của tầng cổng vào ở bước t

- Ctlà trạng thái mới ở bước t

- sigmoid là hàm sigmoid

- Wivà WClần lượt là vectơ trọng số của itvà Ct

- ht-1là thông tin ở bước t-1

- xtlà thông tin đầu vào ở bước t

- bivà bClần lượt là ngưỡng (bias) của itvà Ct

Tiếp theo, 2 giá trị it và Ct sẽ được kết hợp lại để tạo ra trạng thái mới bằngcách nhân trạng thái Ct-1với ft, nhân it với ��̃ và cộng hai kết quả này với nhau,công thức:

̃ (2.23)

��=��∗��−1+��∗��

Hình 2.13 Cập nhật thông tin qua cổng vào và cổng quên

20Cuối cùng, giá trị đầu ra sẽ được quyết định dựa vào trạng thái tế bào Đầutiên, một tầng sigmoid được chạy để quyết định phần trạng thái tế bào sẽ xuất ra, sau

đó trạng thái tế bào sẽ đi qua một hàm tanh để đưa giá trị về khoảng [-1,1], sau đónhân với đầu ra của cổng sigmoid để để được htđầu ra mong muốn

Hình 2.14 Tầng cổng ra

��=��(�� [ℎ��−1,��] +��) (2.24) ℎ��=��∗

��ℎ(��) (2.25)

2.9.3 Giải thuật BiLSTM (Bidirectional Long short-term memory) Hạn chế của

LSTM là mạng này chỉ quan tâm đến những thông tin phía trước, LSTM hai chiều,

Tiêu đề	Phân Loại Chủ Đề Tài Liệu Tiếng Việt Theo Khung Phân Loại Thập Phân Dewey
Tác giả	Trịnh Quốc Vương
Người hướng dẫn	TS. Trần Thanh Điền
Trường học	Trường Đại Học Cần Thơ
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2024
Thành phố	Cần Thơ

Định dạng
Số trang	63
Dung lượng	1,04 MB