Luận văn thạc sĩ Kỹ thuật viễn thông: Phân loại chủ đề bản tin online sử dụng máy học

 Khảo sát và nghiên cứu một số phương pháp trích xuất đặc trưng phổ biến trong phân loại văn bản.. Cùng với đó, sự phát triển liên tục của các mô hình máy học đã thúc đẩycác ý tưởng áp

Trang 1

TOPIC CLASSIFICATION OF ONLINE NEWS ARTICLES

USING MACHINE LEARNING

Chuyên ngành: Kӻ Thuұt ViӉn Thông

Mã sӕ: 8520208

LUҰ19Ă17+Ҥ&6Ƭ

TP HӖCHÍ MINH, tháng 8QăP

Trang 2

&+Ӫ7ӎ&++Ӝ,ĈӖ1* 75ѬӢ1*.+2$Ĉ,ӊ1± Ĉ,ӊ17Ӱ

*676/Ç7,ӂ17+ѬӠ1*

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: TÔ NGUYỄN PHƯỚC VINH MSHV: 1870325 Ngày, tháng, năm sinh: 06/06/1995 Nơi sinh: Đồng Tháp Chuyên ngành: Kỹ thuật Viễn thông Mã số : 8520208

I TÊN ĐỀ TÀI:

Tiếng Việt: PHÂN LOẠI CHỦ ĐỀ BẢN TIN ONLINE SỬ DỤNG MÁY HỌC

Tiếng Anh: TOPIC CLASSIFICATION OF ONLINE NEWS ARTICLES USING

MACHINE LEARNING

II NHIỆM VỤ VÀ NỘI DUNG:

 Thực hiện thu thập, và xây dựng cơ sở dữ liệu bản tin online

 Khảo sát và nghiên cứu một số phương pháp trích xuất đặc trưng phổ biến trong phân loại văn bản

 Đề xuất phương pháp trích xuất đặc trưng mới cho bản tin online

 Khảo sát các thuật toán máy học, và xây dựng mô hình máy học áp dụng cho phân loại bản tin online

III NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài) 22/02/2021

IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài) 05/12/2021

V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS.TS HÀ HOÀNG KHA

Tp HCM, ngày tháng năm 20

CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký)

TRƯỞNG KHOA ĐIỆN - ĐIỆN TỬ

(Họ tên và chữ ký)

Trang 4

Đầu tiên xin gửi lời cảm ơn sâu sắc nhất đến công ơn sinh thành và nuôi dưỡngcủa cha mẹ Tình yêu thương vô bờ bến của cha mẹ là nguồn sức mạnh to lớncho hành trình trên chặn đường dài trong tương lai.

Xin cảm ơn rất nhiều đến giảng viên hướng dẫn là Thầy PGS TS Hà HoàngKha - người đã dành thời gian quý báu của mình để gặp gỡ, thảo luận, nghiêncứu và giải quyết các vấn đề khó khăn Luôn theo sát quá trình và đưa ranhững góp ý kịp thời từ những ngày đầu khi nhận đề tài luận văn thạc sĩ.Cảm ơn Thầy đã luôn tận tình chỉ bảo, luôn hối thúc để tiến độ công việcđược hoàn thành đúng hạn Cảm ơn Thầy đã ủng hộ tinh thần, cũng như hỗtrợ về chuyên môn, đóng góp những ý kiến Ngoài những lời góp ý sâu sắcsau mỗi buổi báo cáo để luận văn được hoàn hảo, thầy còn cho những kinhnghiệm vô giá trong học tập và nghiên cứu; cũng như những lời khuyên vôcùng bổ ích về cuộc sống và định hướng phát triển trong tương lai

Cũng vô cùng biết ơn đến ban chủ nhiệm khoa Điện - Điện tử; cũng như banchủ nhiệm bộ môn Viễn thông nói riêng đã tạo điều kiện về cơ sở vật chất nhưphòng thí nghiệm, máy móc, thiết bị, bàn ghế, để việc học tập và nghiêncứu được thuận lợi

Cuối cùng, xin gửi lời cảm ơn đến các công sự, bạn bè đã luôn chia sẻ, giúp

đỡ trong suốt quá trình thực hiện luận văn

Tp Hồ Chí Minh, ngày 19 tháng 07 năm 2021

Tô Nguyễn Phước Vinh

Trang 5

Trong hơn nhiều thập kỷ qua, sự chuyển đổi mạnh của các trang báo in sangbáo điện tử làm cho mỗi ngày có hàng ngàn bài báo của các cơ quan báo điện

tử khác nhau được đăng tải lên Internet Khác với báo in, báo điện tử cầnchia rõ danh sách các bản tin dựa theo chủ đề mà chúng đề cập đến Việc này

sẽ tốn một lượng lớn thời gian của các biên tập viên cho việc phân loại chủ

đề Cùng với đó, sự phát triển liên tục của các mô hình máy học đã thúc đẩycác ý tưởng áp dụng các mô hình này vào trong việc phân loại chủ đề các bảntin online, nhằm giảm đi thời gian phân loại thủ công của các biên tập viên.Trong số các mô hình máy học, mô hình neural networks (NN) và mô hìnhsupport vector machine (SVM) được xem là hai mô hình mạnh mẽ nhất.Chính vì những điều đó đã thúc đẩy, tạo động lực để luận văn đóng góp nghiêncứu, phát triển một mô hình kết hợp của hai mô hình máy học mạnh mẽ nàycho vấn đề phân loại bản tin online tiếng Việt Cụ thể hơn, luận văn đã xâydựng một bộ dữ liệu mới cho các bản tin online tiếng Việt được thu thập từcác trang báo điện tử lớn và uy tín tại Việt Nam với số lượng lớn các chủ đề.Các chủ đề này còn được phân chia một cách hợp lý theo đúng mong muốncủa các biên tập viên nhằm tránh sự nhầm lẫn giữa các chủ đề với nhau và

xa rời quyết định của các biên tập viên giàu kinh nghiệm Tiếp đến luận văntrình bày các bước tiền xử lý Sau đó, các bản tin đã được tiền xử lý sẽ được ápdụng phương pháp Term Frequency - Inverse Document Frequency (TF-IDF)

để biến đổi các từ trong bản tin thành các số thực, và tạo ra vector đặc trưngTF-IDF cho việc phân lớp Tuy nhiên, điểm yếu của vector đặc trưng này làvector TF-IDF là một vector thưa và có tính phân lớp khá yếu Do đó, luậnvăn đề xuất sử dụng mô hình NN để tạo ra vector đặc trưng mới có tính phânlớp cao với số chiều thấp hơn rất nhiều từ vector TF-IDF Mô hình phân loạiSVM sẽ được tận dụng để phân loại các bản tin với vector đặc trưng ngõ vào

là các đặc trưng được lấy ra từ NN

Cuối cùng, luận văn so sánh với các phương pháp giảm chiều dữ liệu kinh điểnđược sử dụng nhiều trong các nghiên cứu trước đây Các kết quả mô phỏng đãcho thấy mô hình kết hợp NN-SVM đề xuất cho kết quả tốt hơn nhiều so vớicác phương pháp trước đây cả về mặt hiệu quả phân loại và thời gian huấnluyện

Trang 6

During the last decades, the traditional news articles have changed into the online news,which results in a thousand news articles have been uploaded onto the Internet everyday.Apart from traditional newspaper, online news articles need to be categorized their ap-propriate topics before publishing on news websites As a result, editors should spend alot of time and efforts to accomplish this task At the same time, machine learning modelshave exponentially thrived that encourages to apply those models into the online newsarticle topic classification task in order to reduce editors’ workloads Among many impres-sive machine learning models, neural network models (NN) and support vector machine(SVM) are most powerful.

For these points, the contribution of this thesis is to research and develop a nation of these two best models NN and SVM for Vietnamese online news articles topicclassification To be more specific, this thesis has contributed a Vietnamese online newsarticle dataset which is collected from the famous official online news websites in Viet-nam with the large number of topics The topics in this dataset is appropriately dividedfollowing editors’ wishes to avoid mislabeling and conflicting with experienced editors’decisions The first basic preprocessing step is to eliminate noise in the collected newsarticles The Term Frequency - Inverse Document Frequency (TF-IDF) method has beenthen applied to transform the list of words in articles into the real number vectors calledTF-IDF feature vectors However, the drawback of these feature vectors is that TF-IDFvectors is the sparse vectors and less discriminating power Therefore, the NN models havebeen proposed in this thesis as a solution to generate the more discriminating feature vec-tors with the smaller dimension than TF-IDF feature vectors’ one The SVM classifiers

combi-is utilized to label topics for Vietnamese online news articles from these improved featurevectors which is the output of NN model

Finally, this thesis compares the efficiency between traditional dimensional reductionmethods and the proposed method with NN models The experimental results have shownthat the proposed combination of NN and SVM models outperforms the traditional meth-ods in both accuracy and time

Trang 7

Tôi tên Tô Nguyễn Phước Vinh, là học viên cao học chuyên ngành Kỹ thuật ViễnThông, khóa 2018, tại Đại Học Quốc Gia TP.HCM - Trường Đại Học Bách Khoa ThànhPhố Hồ Chí Minh Tôi xin cam đoan những nội dung sau đều là sự thật:

- Công trình nghiên cứu này hoàn toàn do chính tôi thực hiện trong suốt quá trìnhthực hiện đề tài dưới sự hướng dẫn của PGS TS Hà Hoàng Kha

- Các tài liệu và các trích dẫn trong luận văn đều được tham khảo từ các nguồn thực

tế, uy tín và có độ chính xác cao

- Các số liệu và kết quả mô phỏng được thực hiện một cách độc lập và hoàn toàntrung thực

Tp Hồ Chí Minh, ngày 19 tháng 07 năm 2021

Tô Nguyễn Phước Vinh

Trang 8

NHIỆM VỤ LUẬN VĂN i

DANH MỤC HÌNH ẢNH x

DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC LƯU ĐỒ GIẢI THUẬT 1 MỞ ĐẦU 1 1.1 Đặt vấn đềnghiên cứu 1

1.1.1 Tổng quan 1

1.1.2 Tình hình nghiên cứu 2

1.2 Lý do chọnđềtài 6

1.3 Mục tiêu và nhiệmvụ của luận văn 6

1.4 Đối tượng và phạmvi nghiên cứu 7

1.4.1 Đối tượng nghiêncứu 7

1.4.2 Phạm vi nghiên cứu 7

1.5 Phương pháp nghiêncứu 8

1.6 Bố cục của luận văn 8

1.7 Các bài báo đãhoàn thành trongluận văn 9

xiii xv

Trang 9

2 TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU VÀ LÝ THUYẾT LIÊN

2.1 Nhúng từ 10

2.1.1 One-hot vector 10

2.1.2 Mô hình Skip-gram 11

2.1.3 Mô hình Continuous Bag of Words 13

2.1.4 Mô hình nhúng từ với vectors toàn cục 15

2.2 Chọn lọc đặc trưng 19

2.2.1 Mutual Information 19

2.2.2 Chi square 20

2.2.3 Information gain 20

2.2.4 Frequency-based feature selection 21

2.2.5 Orthogonal centroid feature selection 21

2.3 Lý thuyết toán tối ưu 21

2.3.1 Tối ưu không ràng buộc 22

2.3.2 Momentum gradient descent 25

2.3.3 Tối ưu ràng buộc 28

2.3.4 Tối ưu lồi 30

2.4 Kết luận chương 32

3 MÔ HÌNH KẾT HỢP NN VÀ SVM 33 3.1 Bộ dữ liệu bản tin online tiếng Việt 34

3.2 Tiền xử lý dữ liệu 35

3.3 Trích xuất đặc trưng Term Frequency - Inverse Document Frequency 38

3.3.1 Phân tách từ 38

3.3.2 Biến đổi Term Frequency - Inverse Document Frequency 40

3.4 Neural Networks cho giảm chiều dữ liệu 48

3.5 Bộ phân lớp sử dụng Support Vector Machine 64

3.6 Kết luận chương 68

4 KẾT QUẢ THỰC NGHIỆM 70 4.1 Thực nghiệm chọn mô hình Neural Networks cho phân loại chủ đề bản tin 70 4.2 Kết quả phân lớp 79

4.3 Kết quả thực nghiệm trên các bộ phân lớp khác nhau 90

5 KẾT LUẬN CHUNG VÀ HƯỚNG NGHIÊN CỨU KẾ TIẾP 93 5.1 Kết luận chung 93

5.2 Hướng phát triển 94

5.2.1 Bộ dữ liệu 94

Trang 10

5.2.2 Trích xuất đặc trưng 955.2.3 Mô hình Neural Networks 955.2.4 Bộ phân lớp Support Vector Machine 95

Trang 11

2.1 Bảng ví dụ xác suất các từ trong bộ dữ liệu 17

3.1 Bảng thống kê số lượng bản tin thu được theo từng trang mạng 34

3.2 Bảng các hàm kernel thông dụng 68

4.1 Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt ReLU 71

4.2 Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt tanh 72

4.9 Bảng định nghĩa True Positive, True Negative, False Positive, False Negative 81 4.10 Kết quả nhận dạng mô hình M1 trong ví dụ 81

4.11 Kết quả nhận dạng mô hình M2 trong ví dụ 81

4.12 Kết quả tính toán F1 score của hai mô hình M1 và M2 trong ví dụ 81

4.13 Thời gian huấn luyện và kiểm tra cho bộ phân lớp SVM của các phương pháp giảm chiều dữ liệu khác nhau với K = 128 90

4.14 So sánh mô hình SVM và NN cho phân loại 92

Trang 12

1.1 Biểu đồ số lượng các cơ quan báo điện tử tại Việt Nam tính đến năm 2019 2

1.2 Mô hình phân loại bản tin online được nghiên cứu trong bài báo [9] 4

1.3 Mô hình NN sử dụng trong nghiên cứu [20] 4

1.4 Bộ dữ liệu tiếng Ả Rập được sử dụng trong nghiên cứu [23] 5

2.1 Mô hình skip-gram sử dụng central target word để tính xác suất có điều kiện của việc tạo ra những context words về ngữ nghĩa 12

Mô hình CBOW quan tâm tới xác suất có điều kiện của việc tạo central 2.2 target word từ những context words đã cho 14

2.3 Minh họa phương pháp gradient descent 22

2.4 Gradient descent trên cho mặt phẳng 2 chiều 24

2.5 Minh họa chọn tốc độ học không phù hợp 24

2.6 Minh họa phương pháp momentum gradient descent 26

2.7 Minh họa phương pháp Nesterov momentum gradient descent 26

2.8 Minh họa tập lồi và tập không lồi trong hình học 31

2.9 Minh họa hàm lồi và hàm không lồi trong hình học 32

3.1 Phân bố số lượng bản tin theo từng chủ đề 35

3.2 Ví dụ về nhiễu HTML tags có trong các bản tin thu thập 36

3.3 Kết quả loại bỏ những ký tự đặc biệt trong đoạn văn 36

3.4 Kết quả hoàn tất quá trình tiền xử lý đoạn văn 37

3.5 Các phương pháp N-gram khác nhau cho tách từ 39

3.6 Ví dụ tách từ của một câu theo mô hình kết hợp uni-gram và bi-gram 40

3.7 Ví dụ tập dữ liệu với ba bản tin ngắn được tiền xử lý 45

3.8 Kết quả của quá trình trích xuất đặc trưng từ bộ dữ liệu mẫu 45

3.9 Vector đặc trưng của các bản tin mẫu với K = 164 chiều 46

3.10 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “tennis”, “thế giới động vật”, “xe”, “giao thông”, “bóng đá” trong mặt phẳng 2 chiều 47

Trang 13

3.11 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ

đề “chứng khoán”, “điện ảnh”, “ẩm thực”, “âm nhạc”, “bất động sản” trong

mặt phẳng 2 chiều 48

3.12 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “thị trường”, “chính trị”, “môi trường”, “pháp luật”, “khởi nghiệp” trong mặt phẳng 2 chiều 50

3.13 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “du lịch”, “quân sự”, “quốc phòng”, “kinh doanh quốc tế”, “công nghệ” trong mặt phẳng 2 chiều 51

3.14 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “làm đẹp”, “thời trang”, “giới tính”, “y tế”, “ khỏe đẹp” trong mặt phẳng 2 chiều 52

3.15 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “văn học”, “cuộc sống đó đây”, “kiều bào”, “du học”, “tuyển sinh” trong mặt phẳng 2 chiều 53

3.16 Mô hình NN được huấn luyện cho giảm chiều dữ liệu 54

3.17 Sơ đồ mô tả lan truyền thuận và lan truyền ngược ở lớp ngõ ra 58

3.18 Sơ đồ mô tả lan truyền thuận và lan truyền ngược ở lớp ẩn thứ l 61

3.19 Minh họa phương pháp SVM lề mềm 64

3.20 Sơ đồ hệ thống đề xuất trong luân văn 69

4.9 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “tennis”, “thế giới động vật”, “xe”, “giao thông”, “bóng đá” trong mặt phẳng 2 chiều 82

4.10 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “chứng khoán”, “điện ảnh”, “ẩm thực”, “âm nhạc”, “bất động sản” trong mặt phẳng 2 chiều 83

4.11 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “thị trường”, “chính trị”, “môi trường”, “pháp luật”, “khởi nghiệp” trong mặt phẳng 2 chiều 84

Trang 14

4.12 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “dulịch”, “quân sự”, “quốc phòng”, “kinh doanh quốc tế”, “công nghệ” trong mặtphẳng 2 chiều 854.13 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề

“làm đẹp”, “thời trang”, “giới tính”, “y tế”, “ khỏe đẹp” trong mặt phẳng 2chiều 864.14 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề

“văn học”, “cuộc sống đó đây”, “kiều bào”, “du học”, “tuyển sinh” trong mặtphẳng 2 chiều 874.15 Kết quả khảo sát các kernel khác nhau trong mô hình phân loại SVM sửdụng kỹ thuật “one-vs-rest” 884.16 Kết quả khảo sát các kernel khác nhau trong mô hình phân loại SVM sửdụng kỹ thuật “one-vs-one” 884.17 Kết quả so sánh phương pháp giảm chiều dữ liệu đề xuất với hai phươngpháp hiệu quả nhất trong [9] 904.18 Kết quả thực nghiệm phân loại bản tin online tiếng Việt trên các bộ phânlớp khác nhau 91

Trang 15

χ2 Chi Square

Adam Adaptive Moment Estimation

Ước Lượng Moment Thích Nghi

Túi TừCBOW Continuous Bag of Words

Chọn Lọc Đặc Trưng Theo Tần SuấtGloVe Global Vectors for Word Representation

Trang 16

NN Neural Networks

Mạng NeuralOCFS Orthogonal Centroid Feature Selection

Tâm Trực Giao Chọn Lọc Đặc Trưng

Gradient Ngẫu NhiênSVM Support Vector Machine

Trang 17

1 Thuật toán chọn lọc đặc trưng cơ bản để chọn ra k đặc trưng tốt nhất 19

2 Thuật toán chọn lọc đặc trưng OCFS 21

3 Thuật toán SGD với momentum 27

4 Thuật toán SGD với Nesterov momentum 28

5 Thuật toán N-gram tạo từ điển cho một bản tin 39

6 Thuật toán tính giá trị TF của một phần tử trong bản tin 41

7 Thuật toán tính giá trị IDF của một phần tử trong bản tin 43

8 Thuật toán Batch Normalization cho quá trình huấn luyện 55

9 Thuật toán cập nhật hệ số học với mini-batch dựa trên Adam gradient descent 58

Trang 18

MỞ ĐẦU

1.1 Đặt vấn đề nghiên cứu

1.1.1 Tổng quan

Trong những thập kỷ qua, sự bùng nổ về công nghệ số đã thúc đẩy việc chuyển đổi từ báo

in cổ điển sang các bản tin online Báo điện tử ngày nay không còn xa lạ với mọi người,

nó đã xuất hiện trong mọi nhà và được sử dụng hàng ngày Tại Việt Nam, tính đến cuốinăm 2019 đã có 116 cơ quan báo điện tử, 52 báo, tạp chí điện tử của các cơ quan báo in,

23 báo, tạp chí điện tử độc lập, 207 trang thông tin điện tử tổng hợp của các cơ quan báochí Ngoài ra, trong thời đại hiện nay, các tin tức được cập nhật và thêm mới theo mỗiphút trên các trang báo điện tử Như vậy, mỗi ngày một lượng rất lớn các bản tin đượcđăng tải lên, giúp cho người đọc có thể tìm kiếm được các thông tin mong muốn [1].Bên cạnh đó, máy học đã và đang phát triển vượt trội [2] từ việc nổ lực huấn luyệnmáy tính thực hiện việc nhận dạng các ký tự viết tay, đến việc nhận dạng các vật thểkhác nhau trong đời sống; cũng như hiểu được ý nghĩa của một đoạn văn bản Cùng với

sự phát triển mạnh mẻ đó, xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực quan trọngtrong máy học cũng có nhiều ứng dụng rất hữu ích cho cuộc sống Trong đó, phân loạivăn bản (TC) đã được triển khai rộng rãi như là một phần quan trọng trong lĩnh vựcNLP [3] Một số các ứng dụng thực tế của NLP như nhận dạng email rác (spam emaildetection) [4], nhận dạng những tin tức phản cảm (hate-speech detection) [5], tự độngphân loại chủ đề bản tin (auto-tagging articles) [6], hay chatbot [7]

Trang 19

Hình 1.1: Biểu đồ số lượng các cơ quan báo điện tử tại Việt Nam tính đến năm 2019.

Việc áp dụng máy học vào phân loại bản tin online không chỉ giúp giảm thời gianphân loại chủ đề cho các bản tin, mà còn giúp xây dựng các nền tảng nhằm cung cấp các

đề xuất đúng đắn các chủ đề bản tin cho người đọc cũng như giảm đi việc quá tải thôngtin [8] Theo báo cáo hồi tháng 2 của trang VnExpress - trang báo điện tử Tiếng Việtđược nhiều người xem nhất, những công nghệ mới trong lĩnh vực AI đang được áp dụng

tự đề nghị chủ đề, tin liên quan sau khi biên tập viên hoàn thành bài viết đã hỗ trợ đắclực trong việc sản xuất tin bài của phóng viên Nhờ những lợi ích trên mà trong nhiềunăm qua đã có rất nhiều nghiên cứu để đưa ra các thuật toán vận dụng máy học để phânloại các bản tin online

1.1.2 Tình hình nghiên cứu

Trong nghiên cứu [9] được thực hiện vào năm 2007, nhóm tác giả đã khảo sát hai phươngpháp TC phổ biến lúc đó là mô hình Bag-of-Words (BoW) và mô hình thống kê N-gram để phân loại hai bộ dữ liệu các bản tin online tiếng Việt được thu thập từ cáctrang báo online tiếng Việt nổi tiếng Hình 1.2 tóm tắt lại hai phương pháp nghiên cứuđược nhóm tác giả thực hiện Đặc biệt trong mô hình đâu tiên, nhóm tác giả thực hiệnviệc khảo sát các phương pháp giảm chiều của vectors đặc trưng như information gain(IG), mutual information (MI), GSS coefficient, chi-square (χ2), odds ratio (OR), DIA

Trang 20

association factor, relevancy score (RS) tương tự như cách [10] đã khảo sát cho việc TC.Ngoài ra, nhóm tác giả còn áp dụng nghiên cứu trong [11] - phương pháp giảm chiều dữliệu Optimal Orthogonal Centroid Feature Selection (OCFS) phục vụ cho TC tiếng Việt.Kết quả của nghiên cứu là hai phương pháp giảm chiều đặc trưng OCFS và χ2 là haiphương pháp cho kết quả tốt nhất trong việc phân loại các bản tin online tiếng Việt Mộtcải tiến trong phương pháp tách từ được thực hiện vào năm 2009 bởi nhóm tác giả trong[12] Nhóm đã nổ lực để xây dựng một bộ phân lớp hiệu quả nhất cho phân loại các vănbản tiếng Việt bằng cách thực hiện một cách mới để tạo ra từ điển gồm các phần tử cótrong một văn bản tiếng Việt, đó là kết hợp các phương pháp trích xuất từ điển uni-gram

và bi-gram Tương ứng với mỗi phần tử là một và hai từ tiếng Việt gần kề nhau Nghiêncứu cũng sử dụng phương pháp IG để giảm chiều vectors đặc trưng, sau đó khảo sát trêncác bộ phân lớp khác nhau như Naive Bayes [13], K-Nearest Neigbour (KNN) [14], và máyvéc tơ hỗ trợ (SVM) [15] Tương tự, nghiên cứu [16] các tác giả đã nổ lực cải tiến phươngpháp giảm chiều dữ liệu cho vectors đặc trưng bằng cách kết hợp hai phương pháp χ2 và

IG được gọi là SIGCHI để phân loại chủ đề các bài báo online tiếng Việt Bộ dữ liệu được

sử dụng trong nghiên cứu là bộ dữ liệu được thu thập bởi [17], [18], và của nghiên cứu [9].Bên cạnh đó, phương pháp giảm chiều dữ liệu document frequency (DF) [19] cũng được

áp dụng như một phương pháp so sánh với phương pháp đề xuất Một hướng tiếp cậnkhác là áp dụng mô hình NN cho phân loại bản tin online tiếng Việt được nhóm tác giảtrong [20] đề xuất Bằng phương pháp trích xuất đặc trưng mới là key-words extractioncho tiếng Việt gọi tắt là KEBoW lên bộ dữ liệu của [9] Nhóm nghiên cứu đã áp dụng

mô hình NN với 6 lớp ẩn áp dụng hàm kích hoạt tanh với ngõ vào là vectors đặc trưngKEBoW cho tác vụ phân loại bản tin trực tiếng Việt như trong Hình1.3 Gần đây nhất,nhóm tác giả trong [21] đã cung cấp thêm một bộ dữ liệu các bản tin online Tiếng Việtmới với 25 chủ đề khác nhau gọi là VNNews-01 Nghiên cứu còn thực hiện một loạt khảosát độ hiệu quả của nhiều bộ phân lớp khác nhau lên tập dữ liệu đề xuất như multinomial

NB, multinomial Bernouli NB, logistic regression (LR), KNN, decision tree (DT), randomforest (RF), SVM

Trang 21

Hình 1.2: Mô hình phân loại bản tin online được nghiên cứu trong bài báo [9].

Hình 1.3: Mô hình NN sử dụng trong nghiên cứu [20]

Không chỉ có những nghiên cứu về phân loại chủ đề bản tin online cho tiếng Việt, màcòn có nhiều nghiên cứu nhằm cải tiến liên tục một cách có hiệu quả các tác vụ phân loại

Trang 22

chủ để bản tin online cho các ngôn ngữ khác Nhóm tác giả trong[22] đã đánh giá hiệuquả phân lớp của các phương pháp NB, KNN, SVM cho việc phân loại bản tin onlinetiếng Trung và tiếng Anh dựa trên nhiều bộ dữ liệu các bản tin tiếng Trung phổ biến như:Fudan University news text classification corpus, Sogou laboratory news corpus, ChineseAcademy of Sciences Chinese and English news corpus Ngoài ra, bài nghiên cứu còn sosánh hiệu quả trong việc trích xuất đặc trưng trên các công cụ phân đoạn từ ngữ tiếngTrung như SnowNLP, Jieba segmentation, THULAC, NLPIR and ICTCLAS Kết luậncủa nghiên cứu là bộ phân lớp dùng NB cho thấy hiệu quả hơn về thời gian và dễ thựchiện mà độ chính xác vẫn không thua kém nhiều bộ phân lớp SVM và KNN Trong khi

đó, một loạt các so sánh về hiệu quả của 10 bộ phân lớp được thực hiện trong [23] Các

so sánh này được thực hiện trên bộ dữ liệu các bản tin online tiếng Ả Rập với bốn chủ đềkhác nhau được mô tả trong hình 1.4 Các bộ phân lớp được áp dụng trong bài nghiêncứu gồm: LR, Nearest Centroid, DT, SVM, KNN, XGBoost, RF, Multinomial Classifier,Ada-Boost, và Multi-Layer Perceptron Khác với bài nghiên cứu trên, kết quả khảo sátcủa bài nghiên cứu này cho thấy SVM là mô hình phân lớp hiệu quả nhất trong số các

mô hình được khảo sát Công việc tương tự cho bài khảo sát các bộ phân lớp trong phânloại bản tin online tiếng Indonesia của [24] Trong nghiên cứu này, nhóm tác giả tập trungđánh giá giữa mô hình phân lớp SVM với RBF kernel và các biến thể của mô hình NB.Kết quả cho thấy trong vấn đề phân loại bản tin online tiếng Indonesia mô hình NB chokết quả tốt hơn SVM

Hình 1.4: Bộ dữ liệu tiếng Ả Rập được sử dụng trong nghiên cứu [23]

Rõ ràng vấn đề phân loại chủ đề bản tin online tiếng Việt đóng vai trò rất quan trọngcho thời đại công nghệ số hiện nay; đặc biệt là khi xu hướng chuyển đổi các bản tin báo

in cổ điển sáng báo điện tử Qua các nghiên cứu, luận văn nhận thấy rằng vẫn còn nhiều

Trang 23

cần được nghiên cứu và phát triển thêm cho vấn đề này.

1.2 Lý do chọn đề tài

Từ các vấn đề về việc xử lý gán nhãn chủ đề cho một lượng lớn các bản tin online tiếngViệt nêu trên; cùng với những lợi ích mà máy học đem lại cho các tác vụ NLP nói chungcũng như phân loại chủ đề bản tin nói riêng, luận văn nhận thấy cần có những hướngnghiên cứu và phát triển mới, nhằm tạo ra nhiều hướng đi mới đa dạng và hiệu quả khôngchỉ cho vấn đề phân loại chủ đề bản tin mà còn trong các vấn đề TC khác Từ đó, luậnvăn định ra một số hướng chính được tóm tắt nhau sau (chi tiết về kỹ thuật sẽ được trìnhbày ở các phần sau):

Cung cấp một bộ dữ liệu các bản tin online tiếng Việt từ các trang thông tin onlinelớn và uy tín tại Việt Nam Bộ dữ liệu này cần cải thiện về số lượng chủ đề so vớicác bộ dữ liệu hiện có

Nghiên cứu tìm hiểu những vấn đề hiện có trong các phương pháp trước đây trongphân loại chủ đề bản tin tiếng Việt, đồng thời vận dụng các mô hình máy học đểgiải quyết vấn đề

Kết hợp một số mô hình máy học nhằm tìm ra hướng đi mới hiệu quả cho vấn đềphân loại chủ đề bản tin tiếng Việt

Chính vì những lý do và định hướng trên, luận văn thực hiện có tên “PHÂN LOẠICHỦ ĐỀ BẢN TIN ONLINE SỬ DỤNG MÁY HỌC”

1.3 Mục tiêu và nhiệm vụ của luận văn

Dựa trên các định hướng trên, luận văn cần đạt được các kiến thức và kết quả sau:

Thực hiện thu thập và xây dựng bộ cơ sở dữ liệu các bản tin online tiếng Việt Bêncạnh đó, cũng chỉ ra điểm mạnh, điểm yếu của bộ dữ liệu được sử dụng trong luậnvăn

Khảo sát và nghiên cứu một số các phương pháp trích xuất đặc trưng được sử dụngphổ biến trong các tác vụ TC thuộc lĩnh vực NLP Các hạn chế và cải tiến của cácphương pháp này

Đề xuất phương pháp trích xuất đặc trưng văn bản So sánh, đánh giá độ hiệu quảcủa phương pháp sử dụng so với các phương pháp trích xuất đặc trưng khác trongvấn đề phân loại bản tin tiếng Việt

Trang 24

Khảo sát các kỹ thuật chọn lọc đặc trưng kinh điển, và đề xuất kỹ thuật chọn lọcđặc trưng mới vận dụng mô hình máy học Nêu rõ ưu điểm của kỹ thuật chọn lọcđặc trưng đề xuất; đồng thời, so sánh, đánh giá giữa kỹ thuật chọn lọc đặc trưng

đề xuất với các kỹ thuật trước đây

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận văn bao gồm:

Phân tích cấu trúc xây dựng các trang thông tin điện tử chính thống và phổ biếntại Việt Nam

Các phương pháp tiền xử lý văn bản được sử dụng cho bài toán TC trong lĩnh vựcNLP

Phương pháp trích xuất các đặc trưng chuyển đổi văn bản các ký tự chữ thành cácvectors số thực

Các kỹ thuật giúp giảm chiều đặc trưng nhằm sử dụng hiệu quả một số ít các đặctrưng

Các mô hình máy học có thể áp dụng để giải quyết hiệu quả vấn đề phân loại bảntin online tiếng Việt được nghiên cứu trong luận văn

Một vài hệ số trong các kỹ thuật sử dụng trong luận văn như chiều dài vector đặctrưng, hay số nút ẩn trong NN được chọn ở mức phù hợp với hiệu năng của thiết

bị nghiên cứu

Trang 25

1.5 Phương pháp nghiên cứu

Trong luận văn này, phương pháp nghiên cứu được sử dụng là kế thừa các công trìnhnghiên cứu trước đây Các công trình liên quan đến áp dụng máy học trong NLP đượckhảo sát, phân tích, tổng hợp, và đánh giá ưu nhược điểm Sau đó, đề xuất một hay nhiềugiải pháp để khắc phục nhược điểm; cũng như phát huy ưu điểm dựa trên tính kỹ thuật,

và đưa ra hướng giải quyết cho giải pháp đã đề xuất Do hạn chế về công nghệ và chi phíxây dựng, việc khảo sát giải pháp đề xuất trên hệ thống thực tế là không khả thi Việcnghiên cứu sẽ được tiến hành thông qua mô phỏng bằng chương trình máy tính và lấykết quả trên các mô hình

Phương pháp có thể trình bày qua các bước sau:

Tham khảo các bài báo nghiên cứu khoa học (từ các tạp chí khoa học uy tín nhưIEEE, Springer, Wiley) liên quan đến vấn đề phân loại văn bản sử dụng máy học

Tiến hành thu thập cơ sở dữ liệu cho nghiên cứu từ các bản tin online đã đượcđăng trên các trang tin tức trực tuyến uy tín tại Việt Nam như: dantri.com.vn,doisongsuckhoe.vn, qdnd.vn, thanhnien.vn, vnexpress.net

Xem xét tổng quan vấn đề phân loại chủ đề bản tin online dựa trên các tài liệu đãxác định, tổng kết các nội dung đã được thực hiện thành một chuỗi các công trình

có tính liên quan về phân loại chủ đề bản tin

Từ các hướng tiếp cận trước đây, thực hiện việc xây dựng mô hình máy học chophân loại chủ đề bản tin online tiếng Việt

Tiến hành khảo sát nhiều mô hình máy học khác nhau, lựa chọn các thông số kỹthuật tối ưu nhất cho mô hình phân loại bản tin online tiếng Việt

Tiến hành viết các chương trình máy tính cho giải thuật đề ra và chạy mô phỏngkết quả bằng số liệu với ngôn ngữ lập trình Python

Đưa ra thảo luận nhận xét về các kết quả phân loại bản tin của các mô hình khảosát, tính hiệu quả và yếu điểm của phương pháp đề ra

Viết báo cáo các quy trình, các phân tích và kết quả thực nghiệm các mô hình phânloại bản tin online Cuối cùng đưa ra các kết luận và kiến nghị

1.6 Bố cục của luận văn

Toàn bộ luận văn sẽ được trình bày theo một bố cục liên hệ mạch lạc với nhau xuyênsuốt trong luận văn này Các nội dung của luận văn sẽ được chia thành các chương cụ thể

Trang 26

để có thể dễ dàng xem xét và nắm bắt vấn đề cũng như tạo sự mạch lạc, logic cho luậnvăn Cụ thể, bố cục luận văn sẽ được trình bày như sau:

Chương 2 - TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU sẽ trình bày tóm tắt một

số phương pháp trích xuất đặc trưng cơ bản được sử dụng trong lĩnh vực NLP Các

kỹ thuật chọn lọc đặc trưng được nghiên cứu, sử dụng và đánh giá trong các nghiêncứu trước đây Ngoài ra, chương này cũng cung cấp kiến thức toán tối ưu cơ bảncho các mô hình máy học

Chương 3 - MÔ HÌNH KẾT HỢP NN VÀ SVM sẽ đi sâu và chi tiết về các đề xuấtđược thực hiện trong luận văn Từ việc mô tả bộ dữ liệu được thu thập, xử lý vàphân chia chủ đề, các kỹ thuật tiền xử lý được áp dụng cho bộ dữ liệu, và các tríchxuất đặc trưng từ các bản tin trong bộ dữ liệu; đến phương pháp giảm chiều dữ liệuđược đề xuất trong luận văn, và cuối cùng là bộ phân lớp sử dụng máy học

Chương 4 - KẾT QUẢ THỰC NGHIỆM là các kết quả mô phỏng, khảo sát, so sánhgiữa các mô hình máy học khác nhau được thực hiện Đồng thời, cũng so sánh vớicác mô hình khác đã được trình bày trong các nghiên cứu trước đây cho cùng vấn

đề phân loại bản tin online tiếng Việt

Các kết luận và định hướng phát triển trong tương lai sẽ được nêu ra ở Chương 5 KẾT LUẬN CHUNG VÀ HƯỚNG NGHIÊN CỨU

-Cuối cùng là danh mục các tài liệu tham khảo trong luân văn

1.7 Các bài báo đã hoàn thành trong luận văn

Trong quá trình thực hiện luận văn, các nội dung nghiên cứu đề cập trong các chương kếtiếp đã được viết thành 2 bài báo khoa học đã được gửi lên các tạp chí, và hội nghị quốc

tế Cụ thể được liệt kê như sau:

Bài báo đã được đăng trên hội nghị quốc tế ISEE:

1 T N P Vinh and H H Kha, “Feature extraction using neural networks forvietnamese text classification,” in 2021 International Symposium on Electrical andElectronics Engineering (ISEE) IEEE, Apr 2021, pp 120–124

Bài báo đã được chấp nhận trên tạp chí quốc tế JAIT:

1 To Nguyen Phuoc Vinh and Ha Hoang Kha, “Vietnamese news articles fication using neural networks,” in Journal of Advances in Information Technology(JAIT) (Scorpus Indexing) - Accepted Jan 5, 2021

Trang 27

độ hiệu quả của bộ phân lớp Cuối cùng, chương này sẽ đề cập tới một số kiến thức toántối ưu cơ bản.

Ngôn ngữ tự nhiên là một hệ thống phức tạp được dùng để biểu đạt ngữ nghĩa Trong

hệ thống này, các từ là đơn vị cơ bản nhất của ngữ nghĩa Vector từ được hiểu trực tiếptheo đúng cái tên của nó là một vector dùng để đại diện cho một từ Vector này cũng

có thể dùng trực tiếp như một vector đặc trưng Kỹ thuật biến đổi các từ trong văn bảnthành các vectors số thực được gọi là nhúng từ Nhiều năm trở lại đây, nhúng từ đã dầntrở thành kỹ thuật cơ bản không thể thiếu trong NLP

2.1.1 One-hot vector

Một one-hot vector là một vector thưa với chỉ một phần tử bằng một, trong khi các phần

tử còn lại bằng không Với một từ điển có N từ khác nhau, mỗi từ có thể tương ứngmột-một với một con số nguyên từ 0 đến N − 1 [25] Những số nguyên này tương ứng vớicác từ trong từ điển và được gọi là chỉ số của từ Giả sử rằng chỉ số của một từ là i, để

Trang 28

áp dụng one-hot vector đại diện cho từ này, chúng ta tạo một vector với tất cả các phần

tử có giá trị là 0 ngoại trừ phần tử thứ i Theo cách này, mỗi từ trong một văn bản sẽđược thể hiện bằng một vector có độ dài N tương ứng với độ dài của từ điển

Dù one-hot vector có cấu trúc đơn giản, nhưng chúng không thật sự tốt trong các tác

vụ NLP Một lý do chính là các one-hot vectors không thể thể hiện chính xác mối quan

hệ giữa các từ khác nhau Ví dụ như việc tính độ tương quan cosine giữa hai one-hotvectors x và y ∈ RN:

2.1.2 Mô hình Skip-gram

Mô hình skip-gram [26] giả sử rằng một từ có thể được dùng để tạo ra một từ khác xungquanh nó trong một câu Ví dụ trong câu: “Mẹ yêu thương con cái”, nếu lấy từ “thương”làm tâm và xét trong khoảng hai từ trước và sau từ “thương” ta được Hình2.1, cho centraltarget word mà ta quan tâm là từ “thương”, mô hình skip-gram liên quan tới việc tínhxác suất có điều kiện để tạo ra ngữ nghĩa cho các từ nằm trong context window có kíchthước là hai từ - “mẹ”, “yêu”, “con”, “cái”

P (me,yeu,con,cai|thuong) (2.2)

Giả sử rằng việc tạo ra những context words liền kề là độc lập với nhau, khi đó (2.2) sẽbằng:

P (me|thuong) × P (yeu|thuong) × P (con|thuong) × P (cai|thuong) (2.3)

Trong mô hình skip-gram, mỗi từ được đại diện bởi hai vectors d chiều, được dùng đểtính xác suất có điều kiện Giả sửa rằng, một từ tại vị trí thứ i trong từ điển, vector biểudiễn cho nó là vi ∈ Rd khi từ này là central target word; và vector ui ∈ Rd khi từ này là

từ được tạo ra bởi một central target word khác Gọi central target word và từ được tạo

ra là wc và wo là hai từ nằm tại vị trí c và o trong từ điển Xác suất có điều kiện cho việctạo ra từ liên quan tương ứng với central target word được xác định theo (2.4)

Trang 29

Hình 2.1: Mô hình skip-gram sử dụng central target word để tính xác suất có điều kiệncủa việc tạo ra những context words về ngữ nghĩa.

ký hiệu là w(t) Giả sử rằng các từ được tạo ra một cách độc lập từ central target word.Khi context window có kích thước là m, hàm likelihood của mô hình skip-gram là mộthàm xác suất đồng thời cho việc tạo ra tất cả các từ bất kì central target word nào (2.5)

Huấn luyện mô hình skip-gram

Các hệ số trong mô hình skip-gram là các central target word vectors và các context wordvectors cho mỗi từ trong từ điển Trong quá trình huấn luyện, các hệ số này sẽ được họcsao cho hàm likelihood đạt giá trị lớn nhất Điều này đồng nghĩa với việc tối thiểu hàmmục tiêu bên dưới:

log P (wo|wc) = uTovc− logX

i∈ Vexp u

T

i vc (2.7)

Trang 30

Đạo hàm (2.6) theo vc ta được:

Sau quá trình huấn luyện này, một từ tại vị trí thứ i trong từ điển sẽ được biểu diễnbởi hai vectors từ là vi và ui Trong các ứng dụng của NLP, các central target wordvectors trong mô hình skip-gram thường được sử dụng như một vector đại diện cho từ đótrong văn bản

2.1.3 Mô hình Continuous Bag of Words

Mô hình Continuous Bag of Words (CBOW) [26] là một mô hình tương tự như mô hìnhskip-gram Khác biệt rõ ràng nhất của hai mô hình này chính là CBOW giả sử rằng cáccentral target words sẽ được tạo ra dựa trên các context words trước và sau nó trong mộtđoạn văn bản Xét lại câu ví dụ ở phần trên với từ “thương” là central target word, vàcontext window có kích thước là hai, mô hình CBOW quan tâm đến xác suất có điều kiệncủa việc tạo ra central target word này dựa trên các context words trong khoảng cửa sổnhư: “mẹ”, “yêu”, “con”, “cái”, được mô tả trong Hình 2.2 Bởi vì một central target word

sẽ có rất nhiều context words phụ thuộc vào kích thước của context window, nên phươngpháp CBOW chọn cách tính trung bình tất cả các context word vectors này lại và sau đó

sử dụng cách tương tự như mô hình skip-gram để tính toán xác suất có điều kiện.Giả sử rằng vi ∈ Rd và ui ∈ Rd là các context word vector và central target wordvector của một từ nằm tại vị trí thứ i trong từ điển Ký hiệu wc biểu diễn central targetword thứ c, và wo 1, , wo 2m là ký hiệu của các context words thứ o1, , o2m trong từđiển Vậy, xác suất có điều kiện cho việc tạo ra central target word từ các context wordsđược cho là:

P (wc|wo1, , wo2m) = exp

1

c (vo1 + + vo2m)P

i (vo 1 + + vo 2m) (2.9)

Để đơn giản, chúng ta ký hiệu Wo = {wo1, , wo2m}, và ¯vo = (vo1 + + vo2m) /2m

Trang 31

Hình 2.2: Mô hình CBOW quan tâm tới xác suất có điều kiện của việc tạo central targetword từ những context words đã cho.

Phương trình (2.9) được đơn giản thành:

từ được ký hiệu là w(t), và context window có kích thước m Hàm likelihood của mô hìnhCBOW là xác suất để tạo ra bất kỳ central target word nào bằng những context wordsnằm trong context window cho trước (2.11)

T

Y

t=1

Huấn luyện mô hình CBOW

Việc huấn luyện mô hình CBOW khá giống với huấn luyện mô hình skip-gram Ước lượngmaximum likelihood của mô hình CBOW tương đương với việc tối thiểu hàm mục tiêu(2.12)

Trang 32

2.1.4 Mô hình nhúng từ với vectors toàn cục

Trước tiên, xét lại xác suất có điều kiện được sử dụng trong mô hình Skip-gram trong(2.4) Ta có, xác suất có điều kiện P (wj|wi) được tính bằng công thức hàm softmax nhưsau:

từ wi này làCi = {1, 1, 2, 2, 2, 2, 3, 5}, trong đó, số lượng phần tử “1” là 2, số lượng phần

từ “2” là 4, và số lượng phần tử của cả “3” và “5” đều là 1 Đặt xij là số lượng phần tửcủa j trong tập con Ci; cũng như số lượng từ wj trong tất cả các context windows củacentral target word wi xuất hiện trong toàn bộ dữ liệu Do đó, hàm mục tiêu của mô hìnhSkip-gram có thể được viết theo một cách khác:

Trang 33

wi là pij Hàm mục tiêu của mô hình Skip-gram có thể được viết lại như sau:

từ Công thức (2.17), khi đó, dự đoán của phân bố xác suất có điều kiện sẽ tiến dần tớiphân bố xác suất có điều kiện thực tế

Tuy nhiên, dù là hàm mục tiêu khá phổ biến trong các tác vụ máy học, cross-entropyđôi khi cũng không phải là lựa chọn hữu hiệu Việc tính toán mô hình dự đoán qij vớitổng tất cả các phần tử trong từ điển dưới mẫu của nó sẽ tiêu tốn rất nhiều tài nguyên.Mặc khác, thông thường sẽ có rất nhiều những từ không phổ biến xuất hiện trong từ điển,

và chúng hiếm khi xuất hiện trong tập dữ liệu, mà trong hàm mục tiêu cross-entropy, dựđoán cuối cùng của phân bố xác suất có điều kiện trên một lượng lớn từ không phổ biếndẫn tới sự thiếu chính xác

Mô hình GloVe

Để giải quyết vấn đề trên, mô hình nhúng từ với vectors toàn cục (GloVe) [27] là một

mô hình nhúng từ phát triển bằng việc thay thế hàm mục tiêu cross-entropy thành hàmsquared loss Ba điểm khác biệt giữa mô hình Skip-gram và GloVe dựa trên việc thay đổihàm mục tiêu là:

GloVe sử dụng các biến là giá trị thực p0

ij = xij và q0ij = exp uTjvi sau đólấy log của chúng Do đó, hàm mục tiêu square loss sẽ là log p0ij − log q02

Trang 34

Một điều kiện kèm theo là:

Hiểu về GloVe bằng tỷ số xác suất có điều kiện

Một cách khác để hiểu về mô hình Glove trong việc nhúng từ là dựa trên các tỷ số xácsuất có điều kiện Tương tự như các phần trước, P (wj|wi) đại diện cho xác suất có điềukiện của việc tạo ra context word wj với central target word wi trong tập dữ liệu, và giátrị của nó là pij Xét ví dụ trong Bảng 2.1 là hai tập xác suất có điều kiên với “băng” và

“hơi” là các central target words và tỷ số giữa chúng

Bảng 2.1: Bảng ví dụ xác suất các từ trong bộ dữ liệu

p1 = P(wk|băng) 0.00019 0.000066 0.003 0.000017

p2=P(wk|hơi) 0.000022 0.00078 0.0022 0.000018

Dựa vào bảng trên có thể nhận ra có bốn trường hợp như sau:

Cho một từ wk có liên hệ tới “băng” nhưng không liên quan tới “hơi”, ví dụ như wk

= “rắn”, khi đó, tỷ số của hai xác suất có điều kiện của việc tạo ra từ “rắn” từ haicontext words này là 8.9 Điều này đồng nghĩa, khi có từ “băng” xuất hiện thì khảnăng từ “rắn” trong câu cao hơn khi từ được cho là từ “hơi”

Ngược lại, một từ wk có liên hệ tới “hơi” nhưng không liên quan tới “băng” như từ

“khí”, sẽ cho ra tỷ số xác suất nhỏ

Trang 35

Nếu một từ wk có liên hệ tới “hơi” và cũng liên quan tới “băng” như từ “nước”, sẽcho ra tỷ số xác suất tiệm cận 1 Vì khi đó, xác suất xuất hiện của từ “nước” là caoxấp xỉ nhau khi central target words là từ “hơi” và “băng” trong một chuỗi từ.

Điều tương tự cũng xảy ra với từ wk = “áo” - một từ không liên quan tới cả “băng”

và “hơi” Tỷ số xác suất này cũng sẽ tiệm cận 1, nhưng là xác suất xuất hiện từ “áo”khi central target word là “băng” hoặc “hơi” là thấp như nhau

Từ các trường hợp kể trên, có thể nhận thấy mối quan hệ giữa các từ khác nhau cóthể được thể hiện một cách trực quan hơn qua tỷ số xác suất có điều kiện tương ứng.Một hàm vector từ có thể được xây dựng sao cho nó mô hình hóa được tỷ số xác suất cóđiều kiện này một cách hiệu quả để có được một tỷ số này từ bất kì ba từ wi, wj, wk Gọi

tỷ số xác suất có điều kiện với trung tâm từ wi là pij/pik Chúng ta hoàn toàn có thể tìmđược một hàm số có thể mô hình hóa giá trị này

f (uj, uk, vi) ≈ pij

Hàm f (uj, uk, vi) như trong (2.20) không phải là hàm duy nhất Do đó, chúng ta chỉcần tìm một hàm số phù hợp Chú ý rằng, tỷ số xác suất phải là một số thực, vì vậychúng ta có thể giới hạn hàm f là một hàm số thực: f (uj, uk, vi) = f(uj − uk)Tvi.Sau đó, thay đổi chỉ số j và k, ta nhận thấy rằng hàm f thỏa điều kiện f (x) f (−x) = 1,

do đó, hàm số phù hợp nhất đó là hàm exponential f (x) = exp (x) Vì vậy, ta có:

số Xét pij = xij/xi, sau đó, lấy log hai vế ta được

exp uTjvi ≈ log α + log xij − log xi (2.22)Thêm thành phần bias của central target word và context word lần lượt là bi và cj vào(2.22), khi đó có thể lượt bỏ log α − log xi, ta được:

uTjvi+ bi+ cj ≈ log (xij) (2.23)Bằng cách lấy bình phương sai số và đánh trọng số vế trái và vế phải của phương trình(2.23), ta sẽ thu được hàm mục tiêu của mô hình GloVe

Trang 36

2.2 Chọn lọc đặc trưng

Chọn lọc đặc trưng là quá trình lựa chọn một tập nhỏ các đặc trưng xuất hiện trong tậphuấn luyện và chỉ dùng tập nhỏ các đặc trưng này để làm đặc trưng TC [28] Chọn lọcđặc trưng có hai mục đích chính Đầu tiên, nó làm cho việc huấn luyện và áp dụng các

mô hình phân lớp hiệu quả hơn do việc giảm kích thước của từ điển Điều này rất quantrọng cho các bộ phân lớp tốn nhiều thời gian và bộ nhớ để huấn luyên Thứ hai, chọnlọc đặc trưng thường tăng độ chính xác cho các bộ phân lớp bằng cách loại bỏ đi các đặctrưng nhiễu Một đặc trưng nhiễu là đặc trưng mà khi được thêm vào làm đại diện chovăn bản sẽ làm tăng sai số trong bộ phân lớp

Chọn lọc đặc trưng còn có thể được hiểu như là một phương pháp giúp thay thế một

bộ phân lớp phức tạp (sử dụng tất cả các đặc trưng để phân lớp) thành một bộ phânlớp đơn giản hơn (sử dụng một tập nhỏ các đặc trưng) Thuật toán chọn lọc đặc trưng

cơ bản được mô tả trong Thuật toán1 Cho một nhãn c, bằng việc tính toán một giá trịchọn lọc A (t, c) cho mỗi thành phần trong từ điển và chọn k phần tử có giá trị A (t, c)cao nhất; cũng như loại bỏ tất cả các phần tử khác Tập k phần tử được giữ lại này sẽđược đưa vào làm đặc trưng ngõ vào cho các bộ phân lớp

Algorithm 1 Thuật toán chọn lọc đặc trưng cơ bản để chọn ra k đặc trưng tốt nhất.1: procedure SelectFeatures(D, c, k)

Trang 37

trong đó U là một biến ngẫu nhiên nhận giá trị et = 1 (khi văn bản chứa phần tử t) và

et = 0 (khi văn bản không chứa phần tử t) C cũng là một biến ngẫu nhiên ec = 1 (khivăn bản thuộc lớp c) và et= 0 (khi văn bản không thuộc lớp c)

Về mặt ước lượng maximum likelihood, Công thức (2.24) tương đương với (2.25).Trong đó, Ns là số lượng các văn bản có giá trị et và ec Ví dụ, N10 là số lượng văn bảnchứa t (et = 1) và không thuộc lớp c (ec= 0) N1. = N10+ N11 là số lượng văn bản chứa

t (et = 1) bất kể có thuộc lớp c hay không (ec ∈ {0, 1}) N = N00+ N01+ N10+ N11 làtổng số văn bản trong tập dữ liệu

Một phương pháp chọn lọc đặc trưng phổ biến khác là Chi square (χ2) Về mặt thống kê,

χ2 được áp dụng để đánh giá hai sự kiện độc lập mà tại đó hai sự kiện A, và B được xem

là độc lập nếu P (AB) = P (A) P (B), hay P (A|B) = P (A) và P (B|A) = P (B) Trongchọn lọc đặc trưng, hai sự kiện đó là sự có mặt của đặc trưng t và thuộc hay không thuộclớp c Giá trị đánh giá đặc trưng trong phương pháp χ2 được tính như sau:

trong đó, et, ec được định nghĩa như trong (2.24) N là tần suất trong D và E là tần suất

kì vọng Ví dụ, E11 là tần suất kì vọng cho sự xuất hiện của t và văn bản thuộc lớp c xảy

ra đồng thời với giả sử phần tử t này và lớp c là độc lập Công thức (2.26) có thể đượctính toán đại số đơn giản như sau:

χ2(D, t, c) = (N11+ N10+ N01+ N00) (N11N00− N10N01)

2

(N11+ N10) (N11+ N10) (N10+ N00) (N01+ N00). (2.27)2.2.3 Information gain

Tương tự như hai phương pháp trên, information gain (IG) cũng chọn ra k đặc trưngtrong một tập lớn các đặc trưng bằng cách tính giá trị chọn lọc của một nhóm các đặctrưng theo Công thức (2.28)

IG (T ) = −Pc

j=1Pr(cj) log Pc(cj) + Pr(T )Pc

j=1Pr(cj|T ) log Pc(cj|T )+Pr(T )Pc

j=1Pr(˜cj|T ) log Pc(˜cj|T ), (2.28)

Trang 38

trong đó, Pc(cj) là tỷ lệ mẫu trong lớp cj trong toàn bộ dữ liệu, Pr(T ) là tỷ lệ nhóm Tcác đặc trưng, và Pr(cj|T ) là xác suất có điều kiện tương ứng.

2.2.4 Frequency-based feature selection

Phương pháp chọn lọc đặc trưng Frequency-based feature selection (FFS) là phương pháplựa chọn các phần tử xuất hiện thường xuyên trong một lớp Frequency ở đây có thể là

số lượng văn bản trong lớp c có chứa phần tử t; hoặc cũng có thể là số lần phần tử t xuấthiện trong lớp c FFS chọn ra một số đặc trưng không chứa bất kì một thông tin cụ thểnào liên quan tới một lớp Khi số lượng đặc trưng cần chọn lọc lên tới hàng ngàn đặctrưng thì phương pháp FFS làm việc rất hiệu quả Do vậy, nếu muốn điều chỉnh để tăng

độ chính xác đôi chút thì FFS là một phương pháp đơn giản được ưu lựa chọn so với cácphương pháp phức tạp khác

2.2.5 Orthogonal centroid feature selection

Orthogonal centroid feature selection (OCFS) được đề xuất trong [11] như một phươngpháp mới để chọn lọc đặc trưng dựa trên thuật toán Orthogonal Centroid [29], [30].Phương pháp này có nhiều điểm nổi bật hơn các phương pháp khác

Bằng cách tối ưu hàm mục tiêu của thuật toán Orthogonal Centroid, do đó, nó cóthể hoạt động tốt cho tập các vectors đặc trưng thưa

Được đánh giá là hiệu quả hơn phương pháp IG và χ2 trong việc chọn lọc đặc trưngtrong tác vụ TC

Dễ thực hiện bằng lý thuyết đơn giản

Thuật toán của phương pháp OCFS được mô tả trong Thuật toán 2

Algorithm 2 Thuật toán chọn lọc đặc trưng OCFS

1: Bước 1 Tính vector đặc trưng trọng tâm mi ∀i = 1, , c của từng lớp trong bộ dữliệu huấn luyện

2: Bước 2 Tính vector đặc trưng trọng tâm của tất cả các mẫu huấn luyện

3: Bước 3 Tính giá trị OCFS s (i) = Pc

2.3 Lý thuyết toán tối ưu

Trong phần này luận văn mô tả phương pháp số để huấn luyện tối ưu các hệ số trong

Trang 39

lượng “tốt” ở đây được xác định bởi hàm mục tiêu hoặc một mô hình thống kê Cho mộthàm mục tiêu, việc tìm tập hệ số “tốt” nhất được thực hiện bởi các phương pháp tối ưu.Phần này sẽ đề cập đến hai nhánh của phương pháp tối ưu liên tục là tối ưu không ràngbuộc và tối ưu có ràng buộc.

2.3.1 Tối ưu không ràng buộc

Xét bài toán tìm giá trị nhỏ nhất của một hàm số thực:

min

trong đó f : Rd → R là một hàm mục tiêu của mô hình máy học Giả sử rằng hàm f khả

vi và không thể giải tìm nghiệm bằng phương pháp giải tích Khi đó, để tìm được nghiệmtối ưu, các phương pháp tối ưu số sẽ được áp dụng

Hình 2.3: Minh họa phương pháp gradient descent

Gradiend descent là một phương pháp tối ưu bậc nhất Để tìm được nghiệm tối ưu làcực tiểu cục bộ của một hàm mục tiêu dùng phương pháp gradient descent, giá trị nghiệmhiện tại phải di chuyển theo hướng ngược hướng gradient của hàm mục tiêu Đối với hàmmục tiêu là hàm nhiều biến, tưởng tượng rằng một mặt phẳng (được mô tả bởi hàm mụctiêu f (x) cùng với một hòn bi đặt tại một điểm x0 bất kỳ Khi bắt đầu thả, hòn bi sẽ lăn

về phía thấp nhất của mặt phẳng theo hướng ngược lại của con dốc (Hình 2.3) Phươngpháp gradient descent mô phỏng lại hiện tượng này bằng cách cho giá trị nghiệm x0 ban

Trang 40

đầu di chuyển theo hướng ngược lại của gradient −((∇f ) (x0))T của hàm mục tiêu f (x)tại x0 Vì hàm mục tiêu là hàm khả vi nên:

x1 = x0− η((∇f ) (x0))T, (2.30)với η là một số dương nhỏ η ≥ 0 và được gọi là tốc độ học Theo mô tả trên ta luôn được:

f (x0) > f (x1) (2.31)

Từ (2.30) và (2.31), thuật toán gradient descent được định nghĩa một cách đơn giản nhưsau: để tìm được nghiệm tối ưu cục bộ x∗ của một hàm mục tiêu f : Rd→ R, x 7→ f (x),một điểm ngẫu nhiên ban đầu x0 của các hệ số cần được tối ưu sẽ được khởi tạo Tiếptheo, thuật toán gradient descent sẽ lặp vòng theo (2.32)

xi+1= xi− η((∇f ) (xi))T (2.32)Giá trị η cần được chọn phù hợp sao cho gradient descent luôn nhận được (2.33) Đồngnghĩa với việc thuật toán đã tìm được nghiệm tối ưu cực tiểu cục bộ của hàm mục tiêu

f (x0) > f (x1) > f (x2) > > f (x∗) (2.33)Gradient descent có thể hội tụ khá chậm đến điểm cực tiểu So với nhiều phương phápkhác, tốc độ hội tụ của nó thấp hơn rất nhiều Sử dùng hòn bi lăn xuống dưới đồi để mô

tả phương pháp này sẽ tạo ra một bài toán khó giải quyết khi mặt phẳng là một thunglũng dài và rộng [31] Để giải quyết bài toán này, phương pháp gradient descent sẽ tăng

độ “zigzag” khi nghiệm hiện tại rất gần với nghiệm tối ưu của bài toán Hướng giải quyếtnày được minh họa trong Hình2.4

Tốc độ học

Như đã đề cập ở trên, việc chọn tốc độ học tốt là rất quan trọng trong phương phápgradient descent Nếu chọn tốc độ học quá nhỏ, gradient sẽ hội tụ rất chậm vì; tương tựnhư việc di chuyển từ bước rất nhỏ xuống đồi, như vậy sẽ rất lâu hòn bi mới chạm đượcđiểm thấp nhất của mặt phẳng Ngược lại, nếu chọn tốc độ học quá lớn, gradient descent

sẽ bị overshoot nghĩa là điều kiện (2.33) sẽ không được đảm bảo, từ đó phương pháp sẽthất bại trong việc hội tụ Hình2.5 minh họa hai trường hợp chọn tốc độ học không phùhợp nêu trên

Nhằm giảm thiểu việc chọn tốc độ học không phù hợp, các phương pháp adaptivegradient được đề xuất để tinh chỉnh lại tốc độ học sau mỗi vòng lặp, dựa trên đặc tính

Tiêu đề	Phân loại chủ đề bản tin online sử dụng máy học
Tác giả	Tễ Nguyễn Phước Vinh
Người hướng dẫn	PGS.TS. Hà Hoàng Kha
Trường học	ĐẠI HỌC QUỐC GIA TP.HCM
Chuyên ngành	Kỹ thuật Viễn thông
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Tp. HCM

Định dạng
Số trang	118
Dung lượng	3,85 MB