Luận văn thạc sĩ Khoa học máy tính: Phân loại văn bản dựa trên mô hình tiền xử lý transfomer

Có rất nhiều mô hình được sử dụng cho bài toán phân loại, một trong những bài toán phân loại đầutiên là dùng mô hình cổ điển như Naive Bayes, Support Vector Machine hoặc mô hình cây quyế

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH:

TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM

Cán bộ hướng dẫn: PGS.TS Quản Thành Thơ

Cán bộ chấm nhận xét 1: TS Lê Thanh Vân

Cán bộ chấm nhận xét 2: TS Nguyễn Lưu Thùy Ngân

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCMngày 06 tháng 08 năm 2021 (trực tuyến)

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 TS Nguyễn Đức Dũng

2 TS Nguyễn Tiến Thịnh

3 TS Lê Thanh Vân

4 TS Nguyễn Lưu Thùy Ngân

5 PGS.TS Lê Anh Cường

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

——————–

CỘNG HÒA XÃ HÔI CHỦ NGHĨA VIỆT NAM

Độc Lập - Tự Do - Hạnh phúc

———————

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: Từ Lãng Phiêu

Ngày, tháng năm sinh: 12/05/1979

Chuyên ngành: Khoa học máy tính

MSHV: 1770158Nơi sinh: Ninh Thuận

độ hiệu quả của các mô hình

3 NGÀY GIAO NHIỆM VỤ:22/02/2021

4 NGÀY HOÀN THÀNH NHIỆM VỤ:13/06/2021

5 CÁN BỘ HƯỚNG DẪN:PGS.TS Quản Thành Thơ

TP Hồ Chí Minh, ngày 15 tháng 7 năm 2021

(Họ tên và chữ ký)

Trang 4

Lời cảm ơn

Tôi xin cảm ơn PGS.TS Quản Thành Thơ, thầy đã hỗ trợ tận tình cho tôi rất nhiều ngay từ nhữngngày đầu thực hiện luận văn, thầy đã góp ý và chỉ dạy cho tôi kiến thức chuyên môn trong học tập khiđịnh hướng làm đề tài này Tôi xin cảm ơn em Vũ Đức Duy đã hỗ trợ tôi tìm hiểu về cơ sở lý thuyết vàđồng hành góp ý và cho tôi những tài liệu quan trọng trong việc hiện thực đề tài Tôi cũng xin cảm ơncác bạn trong nhóm nghiên cứu Unlimited Research Group of AI(URA) của thầy Thơ đã giúp tôi thuthập dữ liệu cho đề tài, mọi dữ liệu mà nhóm cung cấp là vô cùng quý giá giúp cho đề tài rất nhiều.Cuối cùng tôi xin bày tỏ lòng biết ơn đến thầy Thơ, em Vũ Đức Duy cùng quý thầy cô đã giảng dạy

và hướng dẫn tôi trong khoảng thời gian qua Tôi cũng cảm ơn gia đình, bạn bè những người đã theodõi và sát cánh với tôi trên mọi chặng đường trong thời gian học tập

Học viên thực hiện

Từ Lãng Phiêu

Trang 5

Tóm tắt luận văn

Phân loại văn bản là quá trình phân loại tài liệu cho một danh mục nào dựa trên những nội dung liênquan trong tài liệu đó Một số ứng dụng cho bài toán phân loại như:

• Phân loại nội dung vào từng chủ đề cho bài báo điện tử

• Phân loại email spam hay không spam

• Hiểu được ý nghĩa, đánh giá, bình luận của người dùng từ mạng xã hội

Có rất nhiều mô hình được sử dụng cho bài toán phân loại, một trong những bài toán phân loại đầutiên là dùng mô hình cổ điển như Naive Bayes, Support Vector Machine hoặc mô hình cây quyết định.Tuy nhiên mô hình cổ điển có độ chính xác không cao và chỉ giải quyết được bài toán có tập dữ liệunhỏ Để giải quyết vấn đề trên luận văn sẽ tập trung vào xây dựng mô hình học sâu và so sánh và đánhgiá từng loại mô hình đặc biệt luận văn dùng mô hình BERT dựa trên kiến trúc Transformer, mô hìnhnày xử lý song song thay vì xử lý tuần tự như mô hình học sâu khác và được đánh giá là một mô hìnhtốt nhất hiện nay trong lĩnh vực xử lý ngôn ngữ tự nhiên Và sau cùng là xây dựng giao diện cho bàitoàn phân loại này

Trang 6

Text classification is the process of classifying documents into a certain category based on the relatedcontent in that document Some applications for classification problems are as follows:

• Categorize content into each topic for electronic articles

• Classify spam or non-spam emails

• Understand the meaning, rating, comments of users from social networks

There are many models used for classification problems, one of the first classification problems is touse shallow models such as Naive Bayes, Support Vector Machine, or decision tree models However,shallow models have The accuracy is not high and only solves the problem with small data set Tosolve the above problem, the thesis will focus on building deep learning models and comparing andevaluating each type of model In particular, the thesis uses the BERT model using Transformer archi-tecture for parallel processing instead of sequential processing like other deep learning models and isconsidered as the best model currently in the field of natural language processing And finally, buildthe interface for this all-category post

Trang 7

Lời cam đoan

Tôi xin cam đoan luận văn “Phân loại văn bản dựa trên mô hình tiền xử lý Transformer-based” là kếtquả nghiên cứu của tôi dưới sự hướng dẫn và góp ý của PGS TS Quản Thành Thơ Những thông tintham khảo từ các công trình khác có liên quan đều đã được ghi rõ trong luận văn Nội dung nghiêncứu và các kết quả đều là do chính tôi thực hiện, không sao chép hay lấy từ một nguồn nào khác Tôixin chịu toàn bộ trách nhiệm về lời cam đoan này

Từ Lãng Phiêu

Trang 8

Mục lục

1.1 Lý do chọn đề tài 1

1.1.1 Giới thiệu sơ lược 1

1.1.2 Lý do chọn đề tài 2

1.2 Mục tiêu, đối tượng phạm vi nghiên cứu 2

1.2.1 Mục tiêu 2

1.2.2 Đối tượng 3

1.2.3 Phạm vi nghiên cứu 3

1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học 3

1.3.1 Ý nghĩa thực tiễn 3

1.3.2 Ý nghĩa khoa học 4

Chương 2 TỔNG QUAN 5 2.1 Các công trình liên quan 5

2.1.1 Mô hình học nông- shallow learning model 5

2.1.2 Mô hình học sâu - Deep learning model 7

2.2 Vấn đề chung còn tồn tại 8

2.3 Hướng giải quyết 8

2.4 Kết quả dự kiến của đề tài 8

Chương 3 CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC NGHIỆM 9 3.1 Cơ sở lý thuyết 9

3.1.1 Mạng neural nhân tạo - Artificial Neural Network (ANN) 9

3.1.2 Activation Function 10

3.1.2.1 Sigmoid 10

3.1.2.2 Tanh 11

3.1.2.3 ReLU 11

3.1.3 Word2Vec 12

3.1.4 Mạng hồi quy - Recurrent Neural Network (RNN) 14

3.1.5 Lan truyền ngược theo thời gian - Back Propagation Through Time (BPTT) 15 3.1.6 Vanishing Gradient 15

3.1.7 Long Short Term Memory (LSTM) 16

Trang 9

3.1.7.1 Tổng quan [1] 16

3.1.7.2 Cấu trúc mạng LSTM 17

3.1.8 Cơ chế tập trung(Attention)[2] 19

3.1.9 Mô hình chuyển đổi-(Transformer) 20

3.1.9.1 Biểu diễn vị trí (Positional Encoding) 21

3.1.9.2 Bộ Mã hóa (Encoder) 22

3.1.9.3 Cơ chế tự chú ý trong Transformer (Self-Attention) 23

3.1.10 Cách tính Cơ chế tự chú ý trong Transformer 23

3.1.10.1 Cơ chế tập trung đa đầu (Multi Head Attention) 24

3.1.10.2 Residuals Connection và Normalization Layer 25

3.1.11 Đại diện bộ mã hóa hai chiều từ Transformer encoder- Bidirectional Encoder Representation from Transformer (BERT) 25

3.1.11.1 Tổng quan 25

3.1.11.2 Đại diện bộ mã hóa hai chiều từ Transformer encoder 25

3.1.11.3 Masked Language Modeling 25

3.1.11.4 Phương pháp Fine-tuning BERT 26

3.2 Phương pháp thực nghiệm 27

3.2.1 Phương pháp thu thập dữ liệu 27

3.2.2 Phương pháp xử lý tiếng Việt 27

3.2.3 Phương pháp mô hình học sâu 27

3.2.3.1 Tiền xử lý 27

3.2.3.2 Xây dựng mô hình 27

3.2.3.3 Đánh giá mô hình 28

3.2.4 Phương pháp nghiên cứu khoa học 28

3.2.5 Đánh giá kết quả 28

3.2.6 Mô hình ngôn ngữ - Language Model (LM) 28

3.2.6.1 Mô hình Word2vec-LSTM 28

3.2.6.2 Mô hình dựa trên kiến trúc Transformer Encoder 29

Chương 4 HIỆN THỰC VÀ ĐÁNH GIÁ 31 4.1 Hiện thưc đề tài 31

4.1.1 Mô hình bài toán 31

4.1.2 Giải thích chi tiết mô hình 31

4.1.2.1 Mô hình Word2Vec-LSTM 31

4.1.2.2 Mô hình Word2Vec-CNN 32

4.1.2.3 Mô hình tiền xử lý dựa trên Transformer 32

4.2 Đánh giá 35

4.2.1 Tập dữ liệu 35

4.2.2 Cách đánh giá 36

4.2.3 Kết quả 36

Chương 5 KẾT LUẬN VÀ KIẾN NGHỊ HƯỚNG MỞ RỘNG CỦA ĐỀ TÀI 39 5.1 Kết luận 39

5.2 Hướng mở rộng của đề tài 39

Trang 10

Danh sách hình vẽ

1.1 Minh họa phân loại văn bản 1

2.1 Lưu đồ phân loại văn bản bằng mô hình cổ điển và học sâu 5

3.1 Kiến trúc của mạng ANN 9

3.2 Mô hình mạng Nơ-ron 9

3.3 Sigmoid 10

3.4 Tanh 11

3.5 ReLU 12

3.6 mối tương quan giữa các từ trong corpus 12

3.7 mô hình skip-gram 13

3.8 mô hình CBOW 14

3.9 Mô hình RNN và biểu diễn mạng theo trục thời gian 14

3.10 BPTT cho mạng RNN 15

3.11 Mô hình chuẩn mạng RNN 16

3.12 Mô hình mạng LSTM 16

3.13 Các kí hiệu trên mô hình 16

3.14 Đường truyền thẳng của mạng LSTM 17

3.15 Cổng forget của mạng LSTM 17

3.16 Cập nhật trạng thái Ct 18

3.17 Cổng output của Ct 18

3.18 Cổng output của ht 18

3.19 Cơ chế Attention áp dụng trong bài toán dịch máy 19

3.20 Mô hình mạng Transformer 20

3.21 Encoder và Decoder của mô hình Transformer 20

3.22 Kiến trúc mô hình Transformer 21

3.23 Tổng quan mô hình Transformer 21

3.24 Phương pháp biểu diễn vị trí các từ 22

3.25 Kiến trúc 1 lớp encoder 22

3.26 Cơ chế Self-Attention 23

3.27 Tính Self-Attention 24

3.28 Multi head attention 25

3.29 Kiến trúc transformer endcoder 26

3.30 fine-tuning BERT 26

3.31 Sơ đồ mô hình Word2vec-LSTM 28

3.32 Mô hình LSTM 29

3.33 Mô hình phân loại dùng Transformer encoder 29

4.1 Mô hình thực hiện bài toán 31

4.2 Mô hình thực hiện bài toán 31

4.3 Mô hình tiền xử lý dựa trên kiến trúc Transformer 32

Trang 11

4.4 Thông tin vị trí các từ khi đưa vào mô hình Transformer 33

4.5 Thực hiện phép nhân embedding với ma trận trọng số 34

4.6 Tính toán kết quả cho vector Z 34

4.7 Sau khi lấy softmax vector Z 35

4.8 Kết quả dự đoán của mô hình cho một tập dữ liệu 37

4.9 Kết quả đánh giá mô hình cho một tập dữ liệu 37

4.10 Kết quả dự đoán 38

Trang 12

M Ở ĐẦU

1.1 Lý do chọn đề tài

1.1.1 Giới thiệu sơ lược

Phân loại (Classification): Việc phân loại diễn ra khi biến đầu ra là một thể loại nào đó, chẳng hạnnhư “đỏ” hoặc “xanh” hoặc “bệnh” và “không có bệnh” Phân loại văn bản là một bài toán thuộc lĩnhvực xử lý ngôn ngữ tự nhiên Mục tiêu của phân loại văn bản là tự động hóa phân loại văn bản vàomột hoặc nhiều danh mục (chuyên mục) đã được xác định trước đó Một vài ví dụ của phân loại vănbản là:

• Phân loại cảm xúc của người viết bài (vui, buồn, tức giận ) từ mạng xã hội

• Phát hiện thư rác

• Tự động gán nhãn các truy vấn của khách hàng

• Sắp xếp các tin tức trên báo vào các danh mục tương ứng như từ thiện, thể thao, giải trí, xãhội như các tờ báo điện tử thường làm Việc này có thể được thực hiện thủ công bởi các biêntập viên tuy nhiên nó rất là mất thời gian và công sức Thay vào đó chúng ta sẽ sử dụng một số

kĩ thuật học máy để tiến hành phân loại tự động các tin tức đó sẽ đỡ tốn công sức của các biêntập viên rất nhiều

Hình 1.1: Minh họa phân loại văn bản

Trang 13

sử dụng rất nhiều trong bài toán Phân loại thư rác Mở ra một kỷ nguyên mới cho ứng dụng xử lýngôn ngữ tự nhiên bằng cách dự trên mô hình học sâu của mạng nơ-ron Nghiên cứu trong lĩnh vực

sử dụng các mô hình được huấn luyện trước khi cho kết quả có độ chính xác cao và mang đến chonhiều ứng dụng trong xử lý ngôn ngữ tự nhiên, chẳng hạn như phân loại văn bản, suy luận tự nhiên vàtrả lời câu hỏi như mô hình sử dụng CNN hoặc mô hình LSTM được thử nghiệm cho bài toán phânloại văn bản cho độ chính xác tương đối cao điển hình như mô hình CNN hoặc mô hình LSTM đượcthử nghiệm cho bài toán Phân loại cho độ chính xác tương đối cao Tuy nhiên vào cuối năm 2018,các nhà nghiên cứu tại Google AI Language đã công bố mã nguồn mở cho một kỹ thuật mới trongNatural Language Processing (NLP), được dựa trên kiến trúc Transformer gọi là BERT (BidirectionalEncoder Representations from Transformers) mô hình BERT được coi là một bước đột phá lớn và gâyđược tiếng vang trong cộng đồng học sâu và giải quyết bài toán tập dữ liệu lớn và cho độ chính xáctốt hơn so với việc phân loại bài toán truyền thống như dùng phương pháp Naive Bayes, Cây QuyếtĐịnh, Máy vector hỗ trợ (Support Vector Machine - SVM) Một ứng dụng cho mô hình Transformercho tiếng việt là phoBERT Do đó, nghiên cứu của chúng tôi hứa hẹn một cách tiếp cận khác lạ và sẽmang lại kết quả tốt hơn Chúng tôi lựa chọn kiến trúc Transformer làm mô hình trong đề tài vì 3 lýdo:

1 Dựa trên kiến trúc Transformer, BERT đã được tiền huấn luyện trên tập dữ liệu văn bản rất lớnnên nó không yêu cầu nhiều dữ liệu đã được gán nhãn

2 Dùng kiến trúc Transformer cung cấp khả năng xử lý song song thay vì tuần tự như kiến trúcRNN hay LSTM nên kiến trúc này có tốc độ huấn luyện nhanh

3 Mô hình Transformer là 1 trong những mô hình tốt nhất hiện nay trong lĩnh vực xử lý ngôn ngữ

tự nhiên Được giới thiệu lần đầu vào năm 2018 cho đến nay đã có nhiều biến thể của BERT, ví

dụ như ALBERT, RoBERTa, DistilBERT

Trang 14

1.2.3 Phạm vi nghiên cứu

Phạm vi nghiên cứu của đề tài này của chúng tôi dùng phương pháp học máy trong đó cụ thể là các

mô hình mạng nơ ron học sâu (deep neural network), chúng tôi sẽ dùng kết quả tiến tiến của mô hìnhhọc sâu để phân loại văn bản một cách tương đối chính xác và kết quả của bài toán thực hiện được sosánh với các mô hình học máy khác nhằm đánh giá mô hình nào tốt hơn để lựa chọn phù hợp với mỗibài toán trong thực tiễn

• Nguồn dữ liệu chủ yếu lấy từ các trang web trên internet, các bài báo mạng, các trang du lịch,

• Từ, câu nghĩa của tiếng việt phức tạp nên ảnh hưởng kết quả huấn luyện

• Các từ ngữ địa phương hay các từ có nghĩa xu hướng tuổi teen cũng có xuất hiện trong tập dữliệu nên có thể gây ra xác sụất dự đoán của mô hình giảm đi

• Mặc dù có độ chính xác tốt, nhưng thời gian training mô hình chạy hơi lâu

1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học

1.3.1 Ý nghĩa thực tiễn

Tốc độ phát triển về thương mại điện tử đòi hỏi người quản lý của một trang web mà có khối lượnglớn nội dung cần phải phân loại sắp xếp chủ đề một cách nhanh chóng và hợp lý, việc này sẽ giúpngười đọc dễ dàng tiếp cận nội dụng mình muốn đọc hoặc tìm kiếm một cách nhanh chóng Kết quảnghiên cứu trong luận văn này có thể áp dụng để xây dựng một ứng dụng thực tế giúp cho các doanhnghiệp tiết kiệm được thời gian xử lý công việc trong phân loại nội dung theo chủ đề, lợi ích chúng tađạt được như sau:

• Quảng cáo sản phẩm, dịch vụ, của tổ chức, công ty thương mại nào đó

• Nhằm giúp khách hàng hoặc người đọc chú ý đến những chi tiết cần quan tâm tới đối tượng màbản thân cần thiết để xem xét

• Loại bỏ được nội dung không có ích cho người dùng

• Tăng thêm tiện ích cho các trang thương mại điện tử, góp phần tăng tính chuyên nghiệp củatrang web và thu hút người được người đọc, hoặc khách hàng sử dụng dịch vụ

Vì vậy mục đích xây dựng đề tài giúp người dùng phát hiện những thể loại nào có lợi, cần thiết đểngười dùng quan tâm (ví dụ: khuyến mại sản phẩm, giới thiệu mặt hàng mới, tin tức mới liên quan:

Từ thiện, y tế ) và thể loại nào không có lợi cho người dùng sẽ được bỏ qua

Trang 15

MỞ ĐẦU

1.3.2 Ý nghĩa khoa học

Đối với ý nghĩa về mặt khoa học, luận văn đóng góp những nội dung như sau:

• Củng cố kiến thức phương pháp học sâu cho hướng nghiên cứu Xử lý ngôn ngữ tự nhiên

• Xu hướng phát triển bài toán phân loại văn bản trong và ngoài nước

• Thử nghiệm và so sánh các loại mô hình học máy bằng phương pháp học sâu khác nhau

• Đánh giá và phân tích kết quả và hướng phát triển tiếp theo của đề tài

Trang 16

T ỔNG QUAN

2.1 Các công trình liên quan

2.1.1 Mô hình học nông- shallow learning model

• A Survey on Text Classification: From Shallow to Deep Learning[3]

Trong bài báo này tác giả đề cập đến việc phân loại dữ liệu lớn bằng thủ công sẽ tốn nhiều thờigian không đảm bảo chính xác do yếu tố từ con người như mệt mỏi hoặc do chuyên môn Vìvậy phân loại văn bản bằng học máy sẽ mang lại kết quả đáng tin cậy và ít chủ quan hơn nữaviệc này giúp nâng cao hiệu quả truy xuất thông tin và giảm bớt quá tải thông tin bằng cách xácđịnh vị trí cần thiết

Hình 2.1: Lưu đồ phân loại văn bản bằng mô hình cổ điển và học sâu

Theo bài báo mô hình học nông - Shallow Learning Models bao gồm Naive Bayes, k-NN, SVMtác giả có thống kê các phương pháp phân loại bao gồm các ứng dụng ứng dụng trong bảng nàybao gồm phân tích cảm xúc, gán nhãn theo chủ đề, phân loại tin tức, trả lời câu hỏi, phân loạihành động hội thoại, suy luận ngôn ngữ tự nhiên, phân loại quan hệ và dự đoán sự kiện Môhình học nông được huấn luyện trong việc phân loại văn bản dựa trên đặc điểm văn bản khácnhau được trích xuất từ văn bản thô Kỹ thuật tính năng là công việc khó khăn Trước khi huấnluyện lại bộ phân loại, chúng ta cần thu thập kiến thức hoặc kinh nghiệm để trích xuất các tínhnăng từ văn bản gốc Phương pháp này hướng tới các bộ dữ liệu nhỏ, thì mô hình này đạt hiệusuất cao hơn so với mô hình học sâu Các phương pháp phân loại bằng thuật toán cổ điển thường

bị hạn chế, mô hình học sâu khác với mô hình học nông là tích hợp kỹ thuật tính năng vào quytrình điều chỉnh mô hình bằng cách học một tập hợp các phép biến đổi phi tuyến để anh xạ trựctiếp các đối tượng đến kết quả đầu ra

Tác giả so sánh kiến trúc giữa ELMo, OpenAI GPT và BERT ELMo là một phương pháp dựatrên tính năng sử dụng LSTM, và BERT và OpenAI GPT là các phương pháp tinh chỉnh sử dụngTransformer Hơn nữa, ELMo và BERT là mô hình huấn luyện hai chiều Do đó, mô hình dựatrên kiến trúc Transformer nhận được kết quả tốt hơn so với mô hình truyền thống khác

• Text Categorization with Support Vector Machines: Learning with Many Relevant tures[4]

Trang 17

Fea-TỔNG QUAN

Trong bài báo này tác giả Joachims, lần đầu tiên, sử dụng phương pháp SVM để phân loại vănbản biểu thị mỗi văn bản dưới dạng vectơ

Bài báo này giới thiệu phương pháp SVM để phân loại văn bản

Tác giả đề cập tới khả năng tổng quát hóa tốt trong không gian đặc trưng có chiều cao, SVMloại bỏ nhu cầu lựa chọn đặc trưng, làm cho việc áp dụng phân loại văn bản dễ dàng hơn đángkể

Tác giả cho thấy phương pháp SVM so với các phương pháp khác là có hiệu suất tốt trong tất

cả các thử nghiệm, Hơn nữa, SVM không yêu cầu bất kỳ điều chỉnh thông số nào, vì chúng cóthể tự động cài đặt thông số tốt

Tuy nhiên trong bài báo chưa thể hiện việc tính xác suất của một thành viên trong một nhóm đểphân loại một cách chính xác hơn mà chỉ thể hiện việc phân lớp của SVM chỉ là việc cố gắngtách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM

• A new feature selection score for multinomial naive Bayes text classification based on divergence[5]

KL-Trong bài báo này, tác giả đã sử dụng Multinomial Naive Bayes để phân loại nội dung văn bảntác giả nghiên cứu cả 2 phương pháp KL (Kullback-Leibler divergence), và dKL (là biến thểKL) Thử nghiệm với 20 nhóm tin được thực hiện với xác thực chéo 5 lần, sử dụng 80% dữ liệu

để huấn luyện và 20% để kiểm tra kết quả dKL đều đạt giá trị cao hơn một chút đối với KL hoạtđộng tốt nhất ở 20000 từ với 90, 1% recall trung bình vi mô, so với 89, 3% đối với thông tin lẫnnhau So sánh độ chính xác (accuracy) của phân loại dKL vượt trội hơn đặc biệt là đối với kíchthước từ vựng nhỏ hơn

• Nearest neighbor pattern classification[6]

Là thuật toán đi tìm đầu ra của một điểm dữ liệu mới bằng cách chỉ dựa trên thông tin của Kđiểm dữ liệu gần nhất trong tập huấn luyện Thuật toán này được xếp vào loại lazy learning,không học một điều gì từ dữ liệu huấn luyện mọi tính toán được thực hiện khi nó cần dự đoánkết quả của dữ liệu mới

Tác giả cho rằng việc tính khoảng cách tới từng điểm dữ liệu trong tập huấn luyện tốn kém rấtnhiều thời gian cho tập dữ liệu, đặc biệt là với các cơ sở dữ liệu có số chiều lớn và có nhiềuđiểm dữ liệu

• A decision-tree-based symbolic rule induction system for text categorization [7]

Trong bài báo này, tác giả mô tả một quy trình, thay vì cắt tỉa cây đã phát triển đầy đủ, ước tínhlại xác suất của mọi nút lá bằng cách lấy trung bình các ước lượng xác suất dọc theo đường dẫn

từ nút gốc đến nút lá này Tác giả cho thấy so với thuật toán tiêu chuẩn, không chỉ có thể nhanhhơn hàng trăm lần trên một số dữ liệu văn bản mà còn có thể xử lý các tập hợp tính năng lớnhơn, do đó dẫn đến các quy tắc chính xác hơn

Trong bài báo này tác giả so sánh cách phân loại văn bản bằng thuật toán tiêu chuẩn (ID3, C4.5)trong phương pháp này gồm ba ý chính:

– Tận dụng cấu trúc thưa mà thuật toán tiêu chuẩn không có.

– Sử dụng entropy biến đổi làm thước đo độ hỗn tạp.

– Sử dụng làm mịn để cắt tỉa.

Tuy nhiên, với dữ liệu quá lớn phức tạp và nhiều biến với thuộc tính khác nhau thì sẽ tốn nhiềuthời gian cho sự tính toán và kết quả phân loại sẽ không chính xác khi áp dụng cho dữ liệu kiểmtra (test) và dữ liệu mới

Trang 18

TỔNG QUAN

2.1.2 Mô hình học sâu - Deep learning model

• Actionable and Political Text Classification using Word Embeddings and LSTM [8]

Trong bài báo này, tác giả đã áp dụng mô hình nhúng từ (Word embedding) và mạng nơ-ronvới bộ nhớ ngắn dài (Long Short-Term Memory) cho bài toán phân loại văn bản về chủ đề hànhđộng và chính trị

Mô hình đầu tiên là mô hình phân loại cho văn bản về chủ đề hoạt động: xem xét trong ngữcảnh hỗ trợ khách hàng trên phương tiện truyền thống xã hội, nơi phản hồi ý kiến qua các bàiđăng của khách hàng trên nền tảng tin nhắn khách hàng trên facebook, Twitter và Google+ Đại

lý phản hồi cho khách hàng là hành động được gán nhãn là 1 hoặc không hành động được gánnhã là 0, kích thước tin nhắn từ 270 nghìn đến 8,5 triệu tin nhắn Trong thí nghiệm, với mỗingôn ngữ tác giả phân làm hai loại, kích thước từ vững nhỏ là 20.000 từ và kích thước từ vữnglớn là 100.000 từ Tập dữ liệu huấn luyện và kiểm tra được tạo dưới dạng 80/20 phân tách từ tập

dữ liệu mẫu sau đó được đưa vào mô hình giải quyết cho nhiều ngôn ngữ khác nhau và nhậnthấy mô hình hoạt động rất tốt với hầu hết các ngôn ngữ với độ chính xác gần 90% với một sốngôn ngữ và kết quả thí nghiệm tác gỉa cho thấy rằng mô hình Word embedding kết hợp LSTMvượt trội hơn kỹ thuật truyền thống khác

Mô hình thứ hai là mô hình phân loại tin nhắn khuynh hướng chính trị ở Hoa Kỳ gồm phe Dânchủ và Cộng hòa dựa trên quan điểm thể hiện trong tin nhắn, các tin nhắn được đăng bởi đảngDân chủ trên mạng xã hội Twitter được gán nhãn là 0 và của đảng Cộng hòa được gán nhãn là

1 Sau đó, tác giả chia tập dữ liệu này thành các tập huấn luyện và kiểm tra với tỷ lệ phân chia80/20 Mô hình có khả năng phân loại tin nhắn với độ chính xác cao 87,57%

• Recurrent Neural Network for Text Classification with Multi-Task Learning [9]

Trong bài báo này, tác giả đề xuất ba mô hình chia sẻ khác nhau thông tin với mạng (RNN) Tất

cả các nhiệm vụ liên quan được tích hợp vào một hệ thống duy nhất để được huấn luyện chung

Mô hình đầu tiên chỉ sử dụng một lớp chia sẻ cho tất cả các tác vụ Mô hình thứ hai sử dụngcác lớp khác nhau cho các nhưng mỗi lớp có thể đọc thông tin từ các lớp khác Mô hình thứ bakhông chỉ chỉ định một lớp cụ thể mà còn xây dựng một lớp chia sẻ cho tất cả các tác vụ Ngoài

ra, tác giả còn giới thiệu một cơ chế kiểm soát để cho phép mô hình sử dụng có chọn lọc thôngtin được chia sẻ Kết quả thử nghiệm trên bốn nhiệm vụ phân loại văn bản và cho thấy rằng việchọc chung nhiều task vụ liên quan với nhau có thể cải thiện hiệu suất tốt hơn

Tuy nhiên, tác giả cho biết có một vấn đề xảy ra với RNN này là trong quá trình huấn luyện, cácthành phần của vector gradient có thể tăng lên theo cấp số nhân thông qua các chuỗi tuần tự dài,theo thử nghiệm các tác giả [Hochreiter và cộng sự, 2001; Hochreiter và Schmidhuber, 1997].Vấn đề với các vector gradient hoặc biến mất, khiến mô hình RNN khó tìm các mối tương quan

về khoảng cách vị trí từ đang xét trong một chuỗi trình tự dài

• Convolutional Neural Networks for Sentence Classification [10]

Tác giả trình bày để cập đến dùng CNN để phân loại câu, liên quan đến việc học các biểu diễnvector từ thông qua các mô hình ngôn ngữ nơ-ron (Bengio và cộng sự, 2003; Yih và cộng sự,2011; Mikolov và cộng sự, 2013) và thực hiện thành phần trên vectơ từ đã học để phân loại.Tác giả dùng mô hình mô hình đa kênh (Multichannel) so với mô hình kênh đơn (Single ChannelModels) với mong muốn kiến trúc đa kênh sẽ ngăn chặn việc overfitting bằng cách đảm bảo đểcác vectơ đã học không bị lệch quá xa so với các giá trị ban đầu và do đó hoạt động tốt hơn môhình kênh đơn, Tuy nhiên, các kết quả không như mong muốn

• Bangla Text Classification using Transformers[11]

Trong bài báo này, tác giả đã dùng fine-tune các mô hình Transformer đa ngôn ngữ, tác giả phânloại văn bản Bangla trong các lĩnh vực khác nhau, bao gồm phân tích tình cảm, phát hiện cảmxúc, phân loại tin tức và phân bổ quyền tác giả Tác giả thử nghiệm các tập dự liệu từ nguồn từ

Trang 19

TỔNG QUAN

bình luận trên Youtube và trên các trang báo tin tức mới để phân tích tình cảm và phân tích cảmxúc, tác giả dùng mô hình SVM và Naive Bayes được huấn luyện dùng TF-IDF trích xuất đặctrưng với n-gram Trong khi mô hình CNN và LSTM dùng Word2vec để nhúng từ Đối với môhình dùng kiến trúc Transformer tác giả dùng các mô hình: BERT-base, XLM-RoBERTa-base,XLM-RoBERTa-large

Kết quả cho thấy các mô hình dùng kiến trúc Transformer cho kết quả có độ chính xác cao hơncác mô hình truyền thống khác

2.2 Vấn đề chung còn tồn tại

• Mô hình vẫn còn khá lớn trong khi tập dữ liệu và thời gian huấn luyện hạn chế

• Mặc dù có độ chính xác tốt, nhưng mô hình chạy rất chậm chúng tôi chưa có đủ thời gian đểthử nghiệm nhiều cấu hình khác nhau xem ảnh hưởng của nó tới độ chính xác như thế nào

2.3 Hướng giải quyết

• Trong đề tài này tôi sử dụng mô hình BERT để so sánh với các mô hình khác

• Thời gian huấn luyện khá lâu đòi hỏi máy tiêu tốn nhiều tài nguyên, đòi hỏi máy phải có cấuhình cao

2.4 Kết quả dự kiến của đề tài

Sau khi hoàn thành dự án nghiên cứu, tôi hy vọng rằng sẽ đạt được kết quả sau đây:

1 Giải quyết bài toán phân loại bằng một mô hình học sâu tiến tiến có xác suất dự đoán tốt hơn sovới mô hình truyền thống thường sử dụng

2 Mô hình đủ đánh giá tốt để đưa ra ứng dụng vào thực tế

3 Một mô hình có hiệu suất tốt hơn

Qua đó mô hình có thể được dùng để huấn luyện mô hình có hiệu suất cao mà không cần quá nhiều

dữ liệu, giảm đáng kể chi phí thu thập dữ liệu và đánh nhãn

Trang 20

C Ơ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC NGHIỆM

3.1 Cơ sở lý thuyết

3.1.1 Mạng neural nhân tạo - Artificial Neural Network (ANN)

Một mạng ANN gồm 3 thành phần chính như hình 3.1:

1 Input : Là tầng gồm các node là input đầu vào hoặc là output từ một mạng neural trước đó

2 Hidden: Gồm các neural, nhận dữ liệu từ tầng input sau đó xử lý tạo ra output cho lớp tiếp theo

3 Output: Là tầng dự đoán cuối cùng hoặc làm input cho lớp mạng tiếp theo

Hình 3.1: Kiến trúc của mạng ANN

Hình 3.2 Mô tả xử lý của các node trong lớp mạng ANN:

Hình 3.2: Mô hình mạng Nơ-ron

Trang 21

CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC NGHIỆM

• Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này thường đượcđưa vào dưới dạng một vector N chiều

• Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết wi Thông thường, cáctrọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và các trọng số này

sẽ được cập nhật trong quá trình học

• Ngưỡng b: thường được gọi độ lệch - bias được đưa vào như là một thành phần của hàm truyền

• Hàm truyền: Được dùng để giới hạn đầu ra của mỗi nơ-ron

Mỗi đầu vào tương ứng với 1 thuộc tính của dữ liệu Trọng số (Weights) là thành phần rất quan trọngcủa một ANN, nó thể hiện mức độ quan trọng hay có thể hiểu là độ mạnh của dữ liệu đầu vào đối vớiquá trình xử lý thông tin, chuyển đổi dữ liệu từ layer này sang layer khác Quá trình học (LearningProcessing) của ANN là quá trình điều chỉnh các trọng số (Weight) của các input data để có được kếtquả mong muốn Hàm tổng (Summation Function) cho phép tính tổng trọng số của tất cả các inputđược đưa vào mỗi neuron Hàm tổng của một neuron đối với n input được tính theo công thức sau:

Y = ∑ni=1wixi+ b

Kết quả đầu ra: ˆy= f (∑niwixi+ b)

Kết quả trên cho biết khả năng kích hoạt của neuron đó Các neuron này có thể sinh ra một outputhoặc không trong ANN, hay nói cách khác rằng có thể output của 1 neuron có thể được chuyển đếnlayer tiếp trong mạng neural hoặc không là do ảnh hưởng bởi hàm activation function

Việc lựa chọn activation function có tác động lớn đến kết quả của ANN Vì kết quả xử lý tại cácneuron là hàm tính tổng tuyến tính nên khả năng phân lớp không đủ tốt, nên người ta thường áp dụngcác hàm phi tuyến lên kết quả để tăng hiệu năng cho mạng

Hai hàm được sử dụng phổ biến trong ANN là Sigmoid [3.1.2.1] và ReLU [3.1.2.3]:

Trang 22

Ưu điểm

• Làm mượt output

• Giới hạn output trong khoảng [0,1], tương tự việc normalize data

• Tăng sự khác biệt giữa các output

Nhược điểm

• Vanishing gradient: làm triệt tiêu các trọng số trong ma trận weights nếu dữ liệu quá lớn hoặcquá bé

• Đầu ra không nhận 0 là giá trị trung tâm

• Tốn kém tài nguyên tính toán

3.1.2.2 Tanh

Công thức:

tanh(x) = (e

x− e−x)(ex+ e−x)

Trang 23

Hình 3.5: ReLU

Ưu điểm

• Tính toán nhanh, ít tốn chi phí

• Mặc dù nhìn giống hàm linear nhưng lại là một non-linear function

Hình 3.6: mối tương quan giữa các từ trong corpus

Trang 24

Thông tin ngữ cảnh của một từ mục tiêu (focus word) là một cửa sổ (window) chứa các từ ở bên trái

và bên phải của từ mục tiêu, được gọi là các từ ngữ cảnh (context word) Ta nói kích thước cửa sổ

(window size) = k khi cửa sổ này chứa k từ bên trái và k từ bên phải của từ mục tiêu

Ví dụ:

• Hôm nay tôi cũng đi học

• Dữ liệu thu được:

• (cũng,tôi), (cũng, Hôm nay), (cũng,đi), (cũng,học)

Có hai mô hình word2vec khác nhau là skip-gram và CBOW (Continuous Bag of Words)

• Sử dụng một từ để dự đoán ngữ cảnh mục tiêu là mô hình skip-gram

• Sử dụng ngữ cảnh để dự đoán mục tiêu mô hình CBOW

Mô hình Skip-gram

Hình 3.7: mô hình skip-gram

Trang 25

Mô hình CBOW

Hình 3.8: mô hình CBOW

3.1.4 Mạng hồi quy - Recurrent Neural Network (RNN)

Đặc điểm của của mạng RNN là có thể nhớ được những đặc tính của dữ liệu đã đi qua mạng trước đó

để xử lí cho chuỗi dữ liệu tiếp theo dữ liệu dạng chuỗi là dữ liệu gồm nhiều thành phần có liên quanđến nhau theo thời gian như: các chữ trong một câu nói, một đoạn âm thanh, một đoạn video

Hình 3.9: Mô hình RNN và biểu diễn mạng theo trục thời gian

Hình 3.9 phần bên trái là cấu trúc của một lớp RNN, khi chạy RNN dữ liệu dạng chuỗi sẽ đi vào lầnlượt theo từng thời điểm t được mô tả như phần bên phải của hình

• st: Hidden state tại thời điểm t, sẽ đóng vai trò đầu vào cho mạng trong thời điểm tiếp theo t+1.Công thức:

st= f (U xt+W st−1)

Trang 26

• ot: output tại thời điểm t Công thức:

ot= softmax (V st)

3.1.5 Lan truyền ngược theo thời gian - Back Propagation Through Time (BPTT)

Back Propagation là phương pháp lan truyền ngược để cập nhật trọng số cho các mạng neural dựa vàođạo hàm theo trọng số của hàm mất mát (Loss function):

z2= U x2+W s1

3.1.6 Vanishing Gradient

Vanishing Gradient là một vấn đề rất hay gặp trong Deep Learning khi quá trình lan truyền ngược cậpnhật lại trọng số của mạng sau khi qua một lượng đáng kể các hidden layer làm trọng số của nó tiến

về 0 hoặc vô cùng làm mạng không còn học được nữa Như cách cập nhật trọng số ở trên [3.1.5] Ta

có thể thấy RNN sẽ dễ gặp vấn đề về Vanishing gradient nên một số biến thể nổi bật của nó là LSTMđược đề xuất để khắc phục những vấn đề trên

Tiêu đề	Phân loại văn bản dựa trên mô hình tiền xử lý Transformer/Text classification Transformer-based pre-trained language model.
Tác giả	Từ Lãng Phiêu
Người hướng dẫn	PGS.TS. Quản Thành Thơ
Trường học	Đại học Quốc gia Tp.HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	53
Dung lượng	1,8 MB