Đánh giá các kỹ thuật biểu diễn văn bản...15PART 3: XÂY DỰNG MÔ HÌNH PHÂN LOẠI BÀI BÁO SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY KHÁC NHAU...161.. Các phương pháp biểu diễn văn bản và độ đo.Để xây
Trang 1TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA CÔNG NGHỆ THÔNG TIN
NATURAL LANGUAGE PROCESSING
Trang 2TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA CÔNG NGHỆ THÔNG TIN
NATURAL LANGUAGE PROCESSING
Trang 3LỜI CẢM ƠNLời đầu tiên, chúng em xin chân thành cảm ơn thầy Lê Anh Cường đã dạy vàhướng dẫn chi tiết những nền tảng cơ bản để chúng em hoàn thành bài dự án giữa kìmột cách hoàn chỉnh và đầy đủ Trong quá trình làm bài có thể sẽ có sai sót mong thầythông cảm và góp ý, chỉnh sửa để chúng em hoàn thiện hơn bài làm của mình Một lần nữa chúng em xin cảm ơn thầy và chúc thầy luôn có sức khỏe thật tốt vàthành công trong sự nghiệp.
TP Hồ Chí Minh, ngày 20 tháng 3 năm 2023
Tác giả(ký và ghi rõ họ tên)
Trang 4BÁO CÁO ĐƯỢC HOÀN THÀNH
TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướngdẫn khoa học của Thầy Lê Anh Cường Các nội dung nghiên cứu, kết quả trong đề tàinày là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệutrong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giảthu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo
Ngoài ra, trong bài báo cáo còn sử dụng một số nhận xét, đánh giá cũng như sốliệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồngốc
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm
về nội dung bài báo cáo của mình Trường Đại học Tôn Đức Thắng không liên quanđến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếucó)
TP Hồ Chí Minh, ngày 20 tháng 3 năm 2023
Tác giả(ký và ghi rõ họ tên)
Trang 5PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊNPhần xác nhận của giảng viên hướng dẫn
_ _ _ _ _ _
TP Hồ Chí Minh, ngày tháng năm (kí và ghi rõ họ tên)
Phần đánh giá của giảng viên chấm bài
_
TP Hồ Chí Minh, ngày tháng năm (kí và ghi rõ họ tên)
Trang 6DANH MỤC HÌNH ẢNH
Picture 1 Dữ liệu các bài báo của Việt Nam 1
Picture 2 Phân tích thông tin của tập dữ liệu 1
Picture 3 Xây dựng với độ đo Cosine similarity 5
Picture 4 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 5
Picture 5 Xây dựng với độ đo Euclidean distances 6
Picture 6 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 6
Picture 7 Xây dựng với độ đo Cosine Similarity 9
Picture 8 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 9
Picture 9 Xây dựng với độ đo Euclidean distances 10
Picture 10.Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 10
Picture 11 Xây dựng với độ đo Euclidean distances 13
Picture 12 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 13
Picture 13 Xây dựng với độ đo Cosine similarity 14
Picture 14 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 14
Picture 15 Xây dựng phương pháp BOW 17
Picture 16 Xây dựng với mô hình Naive Bayes 17
Picture 17 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình Naive Bayes 18
Picture 18 Xây dựng với mô hình K-Nearest Neighbor (KNN) 18
Picture 19 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình KNN 19
Picture 20 Với mô hình DT (Decision Trees) 19
Picture 21 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình DT 20
Picture 22 Với mô hình LR (Logistic Regression) 21
Picture 23 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình LR 21
Picture 24 Với mô hình SVM (Support Vector Machines) 22
Picture 25 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình SVM 22
Picture 26 Với mô hình RF (Random Forest) 23
Picture 27 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình RF 23
Picture 28 Xây dựng phương pháp TF-IDF 24
Picture 29 Với mô hình NB (Naive Bayes) 24
Picture 30 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình NB 25
Picture 31 Với mô hình DT (Decision Trees) 25
Picture 32 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình DT 26
Picture 33 Với mô hình LR (Logistic Regression) 27
Picture 34 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình LR 27
Picture 35 Với mô hình SVM (Support Vector Machines) 28
Picture 36 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình SVM 28
Picture 37 Với mô hình RF (Random Forest) 29
Picture 38 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình RF 29
Picture 39 Xây dựng phương pháp Word2Vec 30
Trang 7Picture 43 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình KNN 32
Picture 44 Với mô hình DT (Decision Trees) 33
Picture 45 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình DT 33
Picture 46 Với mô hình LR (Logistic Regression) 34
Picture 47 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình LR 34
Picture 48 Với mô hình SVM (Support Vector Machines) 35
Picture 49 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình SVM 35
Picture 50 Với mô hình RF (Random Forest) 36
Picture 51 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình RF 36
Picture 52 Xây dựng phương pháp Doc2Vec 37
Picture 53 Với mô hình NB (Naive Bayes) 37
Picture 54 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình NB 38
Picture 55 Với mô hình KNN (K-Nearest Neighbor) 38
Picture 56 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình KNN 39
Picture 57 Với mô hình DT (Decision Trees) 39
Picture 58 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình DT 40
Picture 59 Với mô hình LR (Logistic Regression) 40
Picture 60 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình LR 41
Picture 61 Với mô hình SVM (Support Vector Machines) 41
Picture 62 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình SVM 42
Picture 63 Với mô hình RF (Random Forest) 42
Picture 64 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình RF 43
Picture 65 Hàm tính toán xác suất có điều kiện cho các bigram trong danh sách các đoạn văn bản được cung cấp 46
Picture 66 Hàm dự đoán từ tiếp theo dựa trên cụm từ đầu vào 47
Picture 67 Hàm tạo ra một đoạn văn bản mới bắt đầu từ cũm từ nhập vào 47
Picture 68 Kết quả khi nhập vào đoạn văn bản “Đơn hàng chưa” 47
Picture 69 Hàm tính toán xác suất có điều kiện cho các bigram trong danh sách các đoạn văn bản được cung cấp 48
Picture 70 Hàm dự đoán từ tiếp theo dựa trên cụm từ đầu vào 48
Picture 71 Hàm tạo ra một đoạn văn bản mới bắt đầu từ cũm từ nhập vào 49
Picture 72 Kết quả khi nhập vào đoạn văn bản “Đơn hàng chưa” 49
Trang 8TÓM TẮTDưới đây là báo cáo dự án giữa kỳ môn xử lí ngôn ngữ tự nhiên Báo cáo gồm 4 phần Trong đó:
+ Phần 1: Phân tích dữ liệu bài báo
+ Phần 2: Xây dưng mô hình tìm bài báo gần nhất với bài báo mới,
+ Phần 3: Xây dựng mô hình phân loại bài báo sử dụng các phượng pháp học máy khác nhau
+ Phần 4:Xây dựng mô hình ngôn ngữ sử dụng phương pháp n-gram
Trang 9MỤC LỤC
LỜI CẢM ƠN i
BÁO CÁO ĐƯỢC HOÀN THÀNH ii
PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii
DANH MỤC HÌNH ẢNH iv
TÓM TẮT vi
MỤC LỤC vii
PART 1: PHÂN TÍCH DỮ LIỆU BÀI BÁO 1
PART 2: XÂY DỰNG MÔ HÌNH TÌM BÀI BÁO GẦN NHẤT VỚI BÀI BÁO MỚI 2
1 Các phương pháp biểu diễn văn bản và độ đo 2
1.1 Phương pháp biểu diễn văn bản 2
1.2 Độ đo áp dụng 2
1.1.1 Với độ đo Cosine Similarity 2
1.1.2 Với độ đo Euclidean distances 2
2 BOW (Bag-of-Words) 3
2.1 Lý thuyết 3
2.1.1 Với độ đo Cosine similarity 3
2.1.2 Với độ đo Euclidean distances 3
2.1.3 Ưu điểm và nhược điểm của BOW 4
2.2 Áp dụng phương pháp 5
3 TF-IDF (Term Frequency-Inverse Document Frequency) 7
3.1 Lý thuyết 7
3.1.1 Với độ đo Cosine similarity 7
3.1.2 Với độ đo Euclidean distances 7
3.1.3 Ưu điểm và nhược điểm của TF-IDF 8
3.2 Áp dụng phương pháp 9
4 Word2Vec 11
4.1 Lý thuyết 11
4.1.1 Với độ đo Cosine similarity 11
4.1.2 Với độ đo Euclidean distances 12
Trang 104.1.3 Ưu điểm và nhược điểm của Word2Vec 12
4.2 Áp dụng phương pháp 13
5 Đánh giá các kỹ thuật biểu diễn văn bản 15
PART 3: XÂY DỰNG MÔ HÌNH PHÂN LOẠI BÀI BÁO SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY KHÁC NHAU 16
1 Các phương pháp biểu diễn văn bản, mô hình học máy 16
1.1 Phương pháp biểu diễn văn bản 16
1.2 Mô hình học máy 16
2 BOW (Bag-of-Word) 17
2.1 Với mô hình Naive Bayes 17
2.2 Với mô hình K-Nearest Neighbor (KNN) 18
2.3 Với mô hình DT (Decision Trees) 19
2.4 Với mô hình LR (Logistic Regression) 21
2.5 Với mô hình SVM (Support Vector Machines) 22
2.6 Với mô hình RF (Random Forest) 23
2.7 Đánh giá phương pháp với các mô hình sử dụng 24
3 TF-IDF (Term Frequency-Inverse Document Frequency) 24
3.1 Với mô hình NB (Naive Bayes) 24
3.2 Với mô hình DT (Decision Trees) 25
3.3 Với mô hình LR (Logistic Regression) 27
3.4 Với mô hình SVM (Support Vector Machines) 28
3.5 Với mô hình RF (Random Forest) 29
3.6 Đánh giá phương pháp với các mô hình sử dụng 30
4 Word2Vec 30
4.1 Với mô hình NB (Naive Bayes) 31
4.2 Với mô hình KNN (K-Nearest Neighbor) 32
4.3 Với mô hình DT (Decision Trees) 33
4.4 Với mô hình LR (Logistic Regression) 34
4.5 Với mô hình SVM (Support Vector Machines) 35
4.6 Với mô hình RF (Random Forest) 36
4.7 Đánh giá phương pháp với các mô hình sử dụng 37
Trang 115.1 Với mô hình NB (Naive Bayes) 37
5.2 Với mô hình KNN (K-Nearest Neighbor) 38
5.3 Với mô hình DT (Decision Trees) 39
5.4 Với mô hình LR (Logistic Regression) 40
5.5 Với mô hình SVM (Support Vector Machines) 41
5.6 Với mô hình RF (Random Forest) 42
5.7 Đánh giá phương pháp với các mô hình sử dụng 43
6 Đánh giá phương pháp biểu diễn văn bản 43
PART 4: XÂY DỰNG MÔ HÌNH NGÔN NGỮ DỰA THEO PHƯƠNG PHÁP N-GRAM 45
1 Lý thuyết 45
1.1 Giới thiệu mô hình 45
1.2 Laplace smoothing 46
2 Áp dụng phương pháp 46
2.1 Bigrams 46
2.1 N-grams 48
TÀI LIỆU THAM KHẢO 50
Trang 12PART 1: PHÂN TÍCH DỮ LIỆU BÀI BÁO
Trong bài dự án giữa kì, nhóm chúng em sử dụng tập dữ liệu các bài báo của ViệtNam
Picture 1 Dữ liệu các bài báo của Việt Nam
Trong tập dữ liệu gồm có ba thông tin chính như là category (loại), title (tiêu đề),content (nội dung) trong một năm
Picture 2 Phân tích thông tin của tập dữ liệu
Trang 13PART 2: XÂY DỰNG MÔ HÌNH TÌM BÀI BÁO GẦN NHẤT
VỚI BÀI BÁO MỚI.
1 Các phương pháp biểu diễn văn bản và độ đo
Để xây dựng mô hình tìm bài báo gần nhất với bài báo mới, nhóm chúng em sử dụng 3phương pháp biểu diễn văn bản chính và 2 độ đo áp dụng cho mỗi mô hình
1.1 Phương pháp biểu diễn văn bản
Phương pháp biểu diễn văn bản chính: BOW (Bag-of-Words), TF-IDF (TermFrequency-Inverse Document Frequency), Word2Vec
1.2 Độ đo áp dụng
1.1.1 Với độ đo Cosine Similarity
Độ đo Cosine similarity là một phương pháp đo độ tương đồng giữa hai vector Phươngpháp này đo đạc sự khác biệt giữa hai vector bằng cách tính toán cosin của góc giữachúng Giá trị Cosine similarity nằm trong khoảng từ -1 đến 1, với 1 là giá trị tươngđồng tuyệt đối giữa hai vector và -1 là sự phản đối tuyệt Công thức tính Cosinesimilarity:
1.1.2 Với độ đo Euclidean distances
Độ đo Euclidean distances, hay khoảng cách Euclidean, là một độ đo khoảng cách giữahai điểm trong không gian nhiều chiều Nó được tính bằng cách lấy căn bậc hai củatổng bình phương các khoảng cách giữa các thành phần tương ứng của hai vector.Công thức tính khoảng cách Euclidean như sau:
Trang 142 BOW (Bag-of-Words)
2.1 Lý thuyết
BOW (Bag-of-Words) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, được sử dụng đểbiểu diễn văn bản dưới dạng vector Kỹ thuật này xem một văn bản như một tập hợpcác từ và loại bỏ các thông tin về cấu trúc câu và thứ tự các từ Sau đó, ta đếm số lầnxuất hiện của mỗi từ trong văn bản và sử dụng kết quả này để tạo ra một vector đặctrưng của văn bản
2.1.1 Với độ đo Cosine similarity
Trong NLP, BOW và độ đo Cosine similarity có thể được sử dụng để đo độ tươngđồng giữa hai hoặc nhiều văn bản trong tập dữ liệu BOW được sử dụng để chuyển đổicác văn bản thành các vector đặc trưng, sau đó độ đo Cosine similarity được sử dụng
để tính toán độ tương đồng giữa các cặp vector đặc trưng Giá trị độ tương đồng tínhđược từ độ đo Cosine similarity có thể được sử dụng để xác định liệu hai văn bản cótương đồng nghĩa hay không
Kết quả cuối cùng sẽ là một giá trị nằm trong khoảng từ 0 đến 1, nơi giá trị 1 tươngđương với sự giống nhau tuyệt đối giữa hai văn bản
2.1.2 Với độ đo Euclidean distances
Mô hình BoW (Bag of Words) sử dụng độ đo Euclidean distances để tính toán khoảngcách giữa các văn bản Khi biểu diễn mỗi văn bản dưới dạng một vector đại diện, ta cóthể sử dụng độ đo Euclidean distances để tính toán khoảng cách giữa hai vector đạidiện của hai văn bản Cách tính khoảng cách này giúp cho việc tính toán trở nên đơngiản và nhanh chóng
Trang 15Càng nhỏ khoảng cách thì hai văn bản càng tương đồng về mặt nội dung Tương tự, khi
có nhiều hơn hai văn bản, ta có thể tính toán khoảng cách Euclidean distances giữatừng cặp văn bản và sử dụng kết quả này để phân loại văn bản
2.1.3 Ưu điểm và nhược điểm của BOW
Độ chính xác cao: BoW cho kết quả phân loại chính xác với nhiều tập dữ liệukhác nhau
+ Nhược điểm:
Không xử lý được thông tin về trật tự từ: Do BOW không tính toán tương quangiữa các từ trong văn bản, nó không thể xử lý được thông tin về trật tự từ trongcâu
Bị ảnh hưởng bởi các từ không có ý nghĩa cao: Các từ như "a", "the", "and"thường xuất hiện nhiều trong các văn bản và không có ý nghĩa quan trọng về nộidung của văn bản, nhưng BOW vẫn tính toán chúng và gán trọng số cho chúng.Không hiệu quả đối với các văn bản có chủ đề tương tự nhau: Nếu có nhiều vănbản có chủ đề tương tự nhau, chẳng hạn như các email quảng cáo, việc sử dụngBOW có thể không hiệu quả và dễ bị nhầm lẫn
Trang 162.2 Áp dụng phương pháp
Picture 3 Xây dựng với độ đo Cosine similarity
Picture 4 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”
Trang 17Picture 5 Xây dựng với độ đo Euclidean distances.
Picture 6 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”
Trang 183 TF-IDF (Term Frequency-Inverse Document Frequency)
3.1 Lý thuyết
TF-IDF (Term Frequency-Inverse Document Frequency) là một phương pháp phổ biếntrong xử lý ngôn ngữ tự nhiên (NLP) để biểu diễn các văn bản dưới dạng vector đạidiện TF-IDF được sử dụng để đánh giá mức độ quan trọng của các từ trong một vănbản hoặc tập văn bản
Phương pháp TF-IDF sử dụng hai thông tin quan trọng về từ trong tập dữ liệu đó là:Tần số của từ trong văn bản (term frequency - TF)
Tần số nghịch đảo của từ trong tất cả các văn bản (inverse document frequency IDF)
-Tần số của từ trong văn bản (TF) là số lần xuất hiện của từ đó trong văn bản Tuynhiên, nếu chỉ sử dụng TF để biểu diễn văn bản thì các từ phổ biến như "an", "the",
"is", sẽ có trọng số cao trong các văn bản mà chúng xuất hiện, mặc dù chúng không
có ý nghĩa quan trọng về nội dung
3.1.1 Với độ đo Cosine similarity
Mô hình TF-IDF sử dụng độ đo Cosine similarity để tính độ tương đồng giữa hai vănbản Độ đo Cosine similarity là một phương pháp đo sự tương đồng giữa hai vector vàđược sử dụng rộng rãi trong các ứng dụng tìm kiếm thông tin, phân loại văn bản.Kết quả của độ đo Cosine similarity cho ra giá trị tương đồng giữa hai văn bản đangđược so sánh Giá trị tương đồng này nằm trong khoảng từ -1 đến 1, với giá trị cànggần 1 thì hai văn bản càng giống nhau
3.1.2 Với độ đo Euclidean distances
Mô hình sử dụng độ đo Euclidean distances để đo độ tương đồng giữa hai văn bản cóthể được thực hiện bằng cách sử dụng TF-IDF để biểu diễn các văn bản dưới dạngvector và tính khoảng cách Euclidean giữa chúng
Trang 19Mỗi văn bản sẽ được biểu diễn dưới dạng một vector Euclidean distances với độ dàibằng với số lượng từ trong từ điển Trong đó, giá trị của mỗi phần tử trong vector sẽđược tính bằng căn bậc hai của tổng bình phương của trọng số của từ đó trong văn bản.Kết quả của độ đo Euclidean distances cho ra giá trị khoảng cách giữa hai vector đạidiện cho hai văn bản Giá trị này càng nhỏ thì hai văn bản càng giống nhau.
3.1.3 Ưu điểm và nhược điểm của TF-IDF
+ Ưu điểm:
Phù hợp với các tập dữ liệu có kích thước lớn: TF-IDF cho phép lưu trữ các vănbản dưới dạng vector có kích thước nhỏ hơn so với đăng ký đầy đủ của từ điểncác từ bằng cách loại bỏ các từ không quan trọng
Đánh giá độ quan trọng của từ: Phương pháp TF-IDF giúp đánh giá độ quantrọng của từ trong mỗi văn bản, giúp khối lượng văn bản được giảm và tập trungvào những từ quan trọng hơn
Sử dụng cho nhiều mục đích khác nhau: TF-IDF có thể được sử dụng cho nhiềutác vụ khác nhau, bao gồm tìm kiếm thông tin, phân loại văn bản, tóm tắt vănbản và phân tích cảm xúc của người dùng
+ Nhược điểm:
Không lưu trữ thông tin về cấu trúc và ngữ nghĩa của văn bản: TF-IDF chỉ lưutrữ thông tin về tần số xuất hiện của từ trong mỗi văn bản, mà không lưu trữthông tin về mối quan hệ, vị trí và ngữ nghĩa của các từ
Không xử lý được các từ đa nghĩa: TF-IDF có thể gặp khó khăn trong việc xử lýcác từ đa nghĩa hoặc đồng âm, vì nó chỉ xem xét tần số xuất hiện của từ trongvăn bản mà không xử lý được nghĩa của từ Ví dụ như từ "các" và "cựu" đều cótần suất xuất hiện cao trong các tài liệu chính trị, nhưng ý nghĩa của chúng khácnhau
Có thể bị ảnh hưởng bởi tần suất xuất hiện của từ: TF-IDF có thể bị ảnh hưởngbởi tần suất xuất hiện của các từ Các từ có tần suất xuất hiện cao hơn sẽ có ảnh
Trang 20hưởng lớn hơn đến tính toán TF-IDF, trong khi những từ không xuất hiện nhiều
có thể bị loại bỏ hoặc được xếp vào nhóm nhỏ hơn
3.2 Áp dụng phương pháp
Picture 7 Xây dựng với độ đo Cosine Similarity
Picture 8 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”
Trang 21Picture 9 Xây dựng với độ đo Euclidean distances.
Picture 10.Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”
Trang 224 Word2Vec
4.1 Lý thuyết
Word2Vec là một mô hình học máy được sử dụng để biểu diễn các từ dưới dạngvector Mô hình này được phát triển bởi Tomas Mikolov và nhóm nghiên cứu của ôngtại Google vào năm 2013, dựa trên một hướng tiếp cận mới với bài toán NLP là
"distributed representations of words" - biểu diễn phân tán của các từ
Word2Vec có thể học được các biểu diễn phân tán cho mỗi từ trong một tập dữ liệu,dựa trên việc phân tích ngữ cảnh xung quanh các từ đó Từ đó, các từ có ý nghĩa tươngđồng với nhau sẽ có những biểu diễn gần với nhau hơn trong không gian vector, giúpcho việc so sánh, tìm kiếm và phân loại các từ trở nên dễ dàng hơn
Word2Vec là một trong những mô hình NLP được sử dụng rộng rãi hiện nay để biểudiễn ngôn ngữ tự nhiên dưới dạng vector có kích thước thấp và giúp cho việc giải quyếtcác bài toán NLP như phân loại văn bản, dịch thuật, tóm tắt văn bản, xác định ngữcảnh, trở nên hiệu quả và chính xác hơn
4.1.1 Với độ đo Cosine similarity
Cụ thể, khi sử dụng Word2Vec, mỗi từ được biểu diễn dưới dạng một vector, sao chohai từ có ý nghĩa tương đồng sẽ có kết quả Cosine similarity gần với 1, và hai từ không
có quan hệ gì với nhau sẽ có kết quả Cosine similarity gần với 0
Khi sử dụng Word2Vec với độ đo Cosine similarity, có thể tính toán độ tương đồnggiữa các từ trong tập từ điển bằng cách tính Cosine similarity giữa các vector biểu diễncủa từ đó
Việc kết hợp Word2Vec với độ đo Cosine similarity giúp cho việc tìm kiếm các từtương đồng hoặc liên quan đến nhau trở nên dễ dàng hơn Nó được ứng dụng rộng rãitrong các bài toán NLP như phân loại văn bản, tìm kiếm thông tin, dịch thuật, tóm tắtvăn bản, ngữ liệu học,
Trang 234.1.2 Với độ đo Euclidean distances.
Word2Vec thường không được sử dụng với độ đo Euclidean distances để đo độ tươngđồng giữa các vector biểu diễn từ vì điều này có thể dẫn đến các kết quả không chínhxác
Độ đo Euclidean distances còn được sử dụng như một độ đo khoảng cách giữa cácvector trong không gian vector, nhưng khi áp dụng vào mô hình word2vec, việc sửdụng Euclidean distances là không hiệu quả Việc tính toán khoảng cách không mô tảchính xác độ tương đồng giữa các từ trong văn bản, vì nó có thể liên quan đến cả sựkhác biệt về kích thước giữa các vector biểu diễn từ
4.1.3 Ưu điểm và nhược điểm của Word2Vec
+ Ưu điểm:
Biểu diễn phân tán
Đa dạng, đồng nhất và hiệu quả: Word2Vec có thể học được mô hình biểu diễntích lũy cho các ngôn ngữ khác nhau và cải thiện hiệu quả trong các công việc
xử lý ngôn ngữ tự nhiên
Tính đối xứng: Quan hệ giữa hai từ trong từ điển là đối xứng, điều này giúpWord2Vec tạo ra các vector biểu diễn cho các từ đó là khá tương đồng.Ứng dụng rộng rãi: Word2Vec đã được sử dụng trong nhiều bài toán khác nhautrong lĩnh vực xử lý ngôn ngữ tự nhiên, từ dịch thuật đến phân loại văn bản.+ Nhược điểm:
Yêu cầu dữ liệu lớn: Mô hình Word2Vec cần một lượng dữ liệu khá lớn để cóthể đạt được độ chính xác cao
Yêu cầu phần cứng mạnh:Việc huấn luyện Word2Vec cần phải sử dụng mộtlượng phần cứng đáng kể để đạt được kết quả tốt
Không xử lý được các từ mới: Word2Vec không thể xử lý được các từ không cótrong tập dữ liệu huấn luyện và chúng được coi như là các từ mới
Trang 24Không giải quyết được mối quan hệ xung quanh bài toán:Word2Vec chỉ giảiquyết được việc biểu diễn của từ trên không gian vector, không xử lý được mốiquan hệ xung quanh bài toán.
4.2 Áp dụng phương pháp
Picture 11 Xây dựng với độ đo Euclidean distances
Picture 12 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”
Trang 25Picture 13 Xây dựng với độ đo Cosine similarity.
Picture 14 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”
Trang 265 Đánh giá các kỹ thuật biểu diễn văn bản
+ Đánh giá về thời gian chạy
Cosine Similarities Euclidean distances
Với độ đo Cosine Similarities: 3 phương pháp có thời gian thực hiện không có
sự chênh lệch quá nhiều
- Phương pháp TF-IDF có thời gian thực hiện nhanh nhất, BOW có thời gian thựchiện chậm nhất
Với độ đo Euclidean distances: 3 mô hình có thời gian có sự chênh lệch lớn
- Phương pháp TF-IDF có thời gian thực hiện nhanh nhất, Word2Vec có thời gianthực hiện chậm nhất
Qua kết quả chạy các phương pháp qua 2 độ đo ta có thể thấy được phương phápTF-IDF được cho là có độ chính xác cao hơn so với BOW và Word2Vec
Trang 27PART 3: XÂY DỰNG MÔ HÌNH PHÂN LOẠI BÀI BÁO SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY KHÁC NHAU
1 Các phương pháp biểu diễn văn bản, mô hình học máy
1.1 Phương pháp biểu diễn văn bản
Với yêu cầu của bài toán, nhóm chúng em giải quyết bằng cách áp dụng 4 phương pháp chính, theo đó là 6 mô hình để đo độ chính xác của từng phương pháp.Phương pháp biểu diễn văn bản chính:
Trang 29Picture 17 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình Naive Bayes.2.2 Với mô hình K-Nearest Neighbor (KNN)
Picture 18 Xây dựng với mô hình K-Nearest Neighbor (KNN)
Trang 30Picture 19 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình KNN.2.3 Với mô hình DT (Decision Trees).
Picture 20 Với mô hình DT (Decision Trees)