natural language processing mideterm project

Đánh giá các kỹ thuật biểu diễn văn bản...15PART 3: XÂY DỰNG MÔ HÌNH PHÂN LOẠI BÀI BÁO SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY KHÁC NHAU...161.. Các phương pháp biểu diễn văn bản và độ đo.Để xây

Trang 1

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

KHOA CÔNG NGHỆ THÔNG TIN

NATURAL LANGUAGE PROCESSING

Trang 2

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

KHOA CÔNG NGHỆ THÔNG TIN

NATURAL LANGUAGE PROCESSING

Trang 3

LỜI CẢM ƠNLời đầu tiên, chúng em xin chân thành cảm ơn thầy Lê Anh Cường đã dạy vàhướng dẫn chi tiết những nền tảng cơ bản để chúng em hoàn thành bài dự án giữa kìmột cách hoàn chỉnh và đầy đủ Trong quá trình làm bài có thể sẽ có sai sót mong thầythông cảm và góp ý, chỉnh sửa để chúng em hoàn thiện hơn bài làm của mình Một lần nữa chúng em xin cảm ơn thầy và chúc thầy luôn có sức khỏe thật tốt vàthành công trong sự nghiệp.

TP Hồ Chí Minh, ngày 20 tháng 3 năm 2023

Tác giả(ký và ghi rõ họ tên)

Trang 4

BÁO CÁO ĐƯỢC HOÀN THÀNH

TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướngdẫn khoa học của Thầy Lê Anh Cường Các nội dung nghiên cứu, kết quả trong đề tàinày là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệutrong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giảthu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo

Ngoài ra, trong bài báo cáo còn sử dụng một số nhận xét, đánh giá cũng như sốliệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồngốc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm

về nội dung bài báo cáo của mình Trường Đại học Tôn Đức Thắng không liên quanđến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếucó)

TP Hồ Chí Minh, ngày 20 tháng 3 năm 2023

Tác giả(ký và ghi rõ họ tên)

Trang 5

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊNPhần xác nhận của giảng viên hướng dẫn

_ _ _ _ _ _

TP Hồ Chí Minh, ngày tháng năm (kí và ghi rõ họ tên)

Phần đánh giá của giảng viên chấm bài

_

TP Hồ Chí Minh, ngày tháng năm (kí và ghi rõ họ tên)

Trang 6

DANH MỤC HÌNH ẢNH

Picture 1 Dữ liệu các bài báo của Việt Nam 1

Picture 2 Phân tích thông tin của tập dữ liệu 1

Picture 3 Xây dựng với độ đo Cosine similarity 5

Picture 4 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 5

Picture 5 Xây dựng với độ đo Euclidean distances 6

Picture 7 Xây dựng với độ đo Cosine Similarity 9

Picture 10.Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam” 10

Picture 13 Xây dựng với độ đo Cosine similarity 14

Picture 15 Xây dựng phương pháp BOW 17

Picture 16 Xây dựng với mô hình Naive Bayes 17

Picture 17 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình Naive Bayes 18

Picture 18 Xây dựng với mô hình K-Nearest Neighbor (KNN) 18

Picture 19 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình KNN 19

Picture 20 Với mô hình DT (Decision Trees) 19

Picture 21 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình DT 20

Picture 22 Với mô hình LR (Logistic Regression) 21

Picture 23 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình LR 21

Picture 24 Với mô hình SVM (Support Vector Machines) 22

Picture 25 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình SVM 22

Picture 26 Với mô hình RF (Random Forest) 23

Picture 27 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình RF 23

Picture 28 Xây dựng phương pháp TF-IDF 24

Picture 29 Với mô hình NB (Naive Bayes) 24

Picture 30 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình NB 25

Picture 32 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình DT 26

Picture 34 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình LR 27

Picture 36 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình SVM 28

Picture 38 Kết quả phân loại bài báo bằng phương pháp TF-IDF với mô hình RF 29

Picture 39 Xây dựng phương pháp Word2Vec 30

Trang 7

Picture 43 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình KNN 32

Picture 45 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình DT 33

Picture 47 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình LR 34

Picture 49 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình SVM 35

Picture 51 Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình RF 36

Picture 52 Xây dựng phương pháp Doc2Vec 37

Picture 53 Với mô hình NB (Naive Bayes) 37

Picture 54 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình NB 38

Picture 55 Với mô hình KNN (K-Nearest Neighbor) 38

Picture 56 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình KNN 39

Picture 58 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình DT 40

Picture 60 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình LR 41

Picture 62 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình SVM 42

Picture 64 Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình RF 43

Picture 65 Hàm tính toán xác suất có điều kiện cho các bigram trong danh sách các đoạn văn bản được cung cấp 46

Picture 66 Hàm dự đoán từ tiếp theo dựa trên cụm từ đầu vào 47

Picture 67 Hàm tạo ra một đoạn văn bản mới bắt đầu từ cũm từ nhập vào 47

Picture 68 Kết quả khi nhập vào đoạn văn bản “Đơn hàng chưa” 47

Picture 69 Hàm tính toán xác suất có điều kiện cho các bigram trong danh sách các đoạn văn bản được cung cấp 48

Picture 70 Hàm dự đoán từ tiếp theo dựa trên cụm từ đầu vào 48

Picture 71 Hàm tạo ra một đoạn văn bản mới bắt đầu từ cũm từ nhập vào 49

Picture 72 Kết quả khi nhập vào đoạn văn bản “Đơn hàng chưa” 49

Trang 8

TÓM TẮTDưới đây là báo cáo dự án giữa kỳ môn xử lí ngôn ngữ tự nhiên Báo cáo gồm 4 phần Trong đó:

+ Phần 1: Phân tích dữ liệu bài báo

+ Phần 2: Xây dưng mô hình tìm bài báo gần nhất với bài báo mới,

+ Phần 3: Xây dựng mô hình phân loại bài báo sử dụng các phượng pháp học máy khác nhau

+ Phần 4:Xây dựng mô hình ngôn ngữ sử dụng phương pháp n-gram

Trang 9

MỤC LỤC

LỜI CẢM ƠN i

BÁO CÁO ĐƯỢC HOÀN THÀNH ii

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii

DANH MỤC HÌNH ẢNH iv

TÓM TẮT vi

MỤC LỤC vii

PART 1: PHÂN TÍCH DỮ LIỆU BÀI BÁO 1

PART 2: XÂY DỰNG MÔ HÌNH TÌM BÀI BÁO GẦN NHẤT VỚI BÀI BÁO MỚI 2

1 Các phương pháp biểu diễn văn bản và độ đo 2

1.1 Phương pháp biểu diễn văn bản 2

1.2 Độ đo áp dụng 2

1.1.1 Với độ đo Cosine Similarity 2

1.1.2 Với độ đo Euclidean distances 2

2 BOW (Bag-of-Words) 3

2.1 Lý thuyết 3

2.1.1 Với độ đo Cosine similarity 3

2.1.3 Ưu điểm và nhược điểm của BOW 4

2.2 Áp dụng phương pháp 5

3 TF-IDF (Term Frequency-Inverse Document Frequency) 7

3.1 Lý thuyết 7

3.1.3 Ưu điểm và nhược điểm của TF-IDF 8

4 Word2Vec 11

4.1 Lý thuyết 11

Trang 10

4.1.3 Ưu điểm và nhược điểm của Word2Vec 12

5 Đánh giá các kỹ thuật biểu diễn văn bản 15

PART 3: XÂY DỰNG MÔ HÌNH PHÂN LOẠI BÀI BÁO SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY KHÁC NHAU 16

1 Các phương pháp biểu diễn văn bản, mô hình học máy 16

1.1 Phương pháp biểu diễn văn bản 16

1.2 Mô hình học máy 16

2 BOW (Bag-of-Word) 17

2.1 Với mô hình Naive Bayes 17

2.2 Với mô hình K-Nearest Neighbor (KNN) 18

2.3 Với mô hình DT (Decision Trees) 19

2.4 Với mô hình LR (Logistic Regression) 21

2.5 Với mô hình SVM (Support Vector Machines) 22

2.6 Với mô hình RF (Random Forest) 23

2.7 Đánh giá phương pháp với các mô hình sử dụng 24

3 TF-IDF (Term Frequency-Inverse Document Frequency) 24

3.1 Với mô hình NB (Naive Bayes) 24

4 Word2Vec 30

4.2 Với mô hình KNN (K-Nearest Neighbor) 32

Trang 11

5.2 Với mô hình KNN (K-Nearest Neighbor) 38

6 Đánh giá phương pháp biểu diễn văn bản 43

PART 4: XÂY DỰNG MÔ HÌNH NGÔN NGỮ DỰA THEO PHƯƠNG PHÁP N-GRAM 45

1 Lý thuyết 45

1.1 Giới thiệu mô hình 45

1.2 Laplace smoothing 46

2 Áp dụng phương pháp 46

2.1 Bigrams 46

2.1 N-grams 48

TÀI LIỆU THAM KHẢO 50

Trang 12

PART 1: PHÂN TÍCH DỮ LIỆU BÀI BÁO

Trong bài dự án giữa kì, nhóm chúng em sử dụng tập dữ liệu các bài báo của ViệtNam

Picture 1 Dữ liệu các bài báo của Việt Nam

Trong tập dữ liệu gồm có ba thông tin chính như là category (loại), title (tiêu đề),content (nội dung) trong một năm

Picture 2 Phân tích thông tin của tập dữ liệu

Trang 13

PART 2: XÂY DỰNG MÔ HÌNH TÌM BÀI BÁO GẦN NHẤT

VỚI BÀI BÁO MỚI.

1 Các phương pháp biểu diễn văn bản và độ đo

Để xây dựng mô hình tìm bài báo gần nhất với bài báo mới, nhóm chúng em sử dụng 3phương pháp biểu diễn văn bản chính và 2 độ đo áp dụng cho mỗi mô hình

1.1 Phương pháp biểu diễn văn bản

Phương pháp biểu diễn văn bản chính: BOW (Bag-of-Words), TF-IDF (TermFrequency-Inverse Document Frequency), Word2Vec

1.2 Độ đo áp dụng

1.1.1 Với độ đo Cosine Similarity

Độ đo Cosine similarity là một phương pháp đo độ tương đồng giữa hai vector Phươngpháp này đo đạc sự khác biệt giữa hai vector bằng cách tính toán cosin của góc giữachúng Giá trị Cosine similarity nằm trong khoảng từ -1 đến 1, với 1 là giá trị tươngđồng tuyệt đối giữa hai vector và -1 là sự phản đối tuyệt Công thức tính Cosinesimilarity:

1.1.2 Với độ đo Euclidean distances

Độ đo Euclidean distances, hay khoảng cách Euclidean, là một độ đo khoảng cách giữahai điểm trong không gian nhiều chiều Nó được tính bằng cách lấy căn bậc hai củatổng bình phương các khoảng cách giữa các thành phần tương ứng của hai vector.Công thức tính khoảng cách Euclidean như sau:

Trang 14

2 BOW (Bag-of-Words)

2.1 Lý thuyết

BOW (Bag-of-Words) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, được sử dụng đểbiểu diễn văn bản dưới dạng vector Kỹ thuật này xem một văn bản như một tập hợpcác từ và loại bỏ các thông tin về cấu trúc câu và thứ tự các từ Sau đó, ta đếm số lầnxuất hiện của mỗi từ trong văn bản và sử dụng kết quả này để tạo ra một vector đặctrưng của văn bản

2.1.1 Với độ đo Cosine similarity

Trong NLP, BOW và độ đo Cosine similarity có thể được sử dụng để đo độ tươngđồng giữa hai hoặc nhiều văn bản trong tập dữ liệu BOW được sử dụng để chuyển đổicác văn bản thành các vector đặc trưng, sau đó độ đo Cosine similarity được sử dụng

để tính toán độ tương đồng giữa các cặp vector đặc trưng Giá trị độ tương đồng tínhđược từ độ đo Cosine similarity có thể được sử dụng để xác định liệu hai văn bản cótương đồng nghĩa hay không

Kết quả cuối cùng sẽ là một giá trị nằm trong khoảng từ 0 đến 1, nơi giá trị 1 tươngđương với sự giống nhau tuyệt đối giữa hai văn bản

Mô hình BoW (Bag of Words) sử dụng độ đo Euclidean distances để tính toán khoảngcách giữa các văn bản Khi biểu diễn mỗi văn bản dưới dạng một vector đại diện, ta cóthể sử dụng độ đo Euclidean distances để tính toán khoảng cách giữa hai vector đạidiện của hai văn bản Cách tính khoảng cách này giúp cho việc tính toán trở nên đơngiản và nhanh chóng

Trang 15

Càng nhỏ khoảng cách thì hai văn bản càng tương đồng về mặt nội dung Tương tự, khi

có nhiều hơn hai văn bản, ta có thể tính toán khoảng cách Euclidean distances giữatừng cặp văn bản và sử dụng kết quả này để phân loại văn bản

2.1.3 Ưu điểm và nhược điểm của BOW

Độ chính xác cao: BoW cho kết quả phân loại chính xác với nhiều tập dữ liệukhác nhau

+ Nhược điểm:

Không xử lý được thông tin về trật tự từ: Do BOW không tính toán tương quangiữa các từ trong văn bản, nó không thể xử lý được thông tin về trật tự từ trongcâu

Bị ảnh hưởng bởi các từ không có ý nghĩa cao: Các từ như "a", "the", "and"thường xuất hiện nhiều trong các văn bản và không có ý nghĩa quan trọng về nộidung của văn bản, nhưng BOW vẫn tính toán chúng và gán trọng số cho chúng.Không hiệu quả đối với các văn bản có chủ đề tương tự nhau: Nếu có nhiều vănbản có chủ đề tương tự nhau, chẳng hạn như các email quảng cáo, việc sử dụngBOW có thể không hiệu quả và dễ bị nhầm lẫn

Trang 16

2.2 Áp dụng phương pháp

Picture 3 Xây dựng với độ đo Cosine similarity

Picture 4 Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”

Trang 17

Picture 5 Xây dựng với độ đo Euclidean distances.

Trang 18

3 TF-IDF (Term Frequency-Inverse Document Frequency)

3.1 Lý thuyết

TF-IDF (Term Frequency-Inverse Document Frequency) là một phương pháp phổ biếntrong xử lý ngôn ngữ tự nhiên (NLP) để biểu diễn các văn bản dưới dạng vector đạidiện TF-IDF được sử dụng để đánh giá mức độ quan trọng của các từ trong một vănbản hoặc tập văn bản

Phương pháp TF-IDF sử dụng hai thông tin quan trọng về từ trong tập dữ liệu đó là:Tần số của từ trong văn bản (term frequency - TF)

Tần số nghịch đảo của từ trong tất cả các văn bản (inverse document frequency IDF)

-Tần số của từ trong văn bản (TF) là số lần xuất hiện của từ đó trong văn bản Tuynhiên, nếu chỉ sử dụng TF để biểu diễn văn bản thì các từ phổ biến như "an", "the",

"is", sẽ có trọng số cao trong các văn bản mà chúng xuất hiện, mặc dù chúng không

có ý nghĩa quan trọng về nội dung

Mô hình TF-IDF sử dụng độ đo Cosine similarity để tính độ tương đồng giữa hai vănbản Độ đo Cosine similarity là một phương pháp đo sự tương đồng giữa hai vector vàđược sử dụng rộng rãi trong các ứng dụng tìm kiếm thông tin, phân loại văn bản.Kết quả của độ đo Cosine similarity cho ra giá trị tương đồng giữa hai văn bản đangđược so sánh Giá trị tương đồng này nằm trong khoảng từ -1 đến 1, với giá trị cànggần 1 thì hai văn bản càng giống nhau

Mô hình sử dụng độ đo Euclidean distances để đo độ tương đồng giữa hai văn bản cóthể được thực hiện bằng cách sử dụng TF-IDF để biểu diễn các văn bản dưới dạngvector và tính khoảng cách Euclidean giữa chúng

Trang 19

Mỗi văn bản sẽ được biểu diễn dưới dạng một vector Euclidean distances với độ dàibằng với số lượng từ trong từ điển Trong đó, giá trị của mỗi phần tử trong vector sẽđược tính bằng căn bậc hai của tổng bình phương của trọng số của từ đó trong văn bản.Kết quả của độ đo Euclidean distances cho ra giá trị khoảng cách giữa hai vector đạidiện cho hai văn bản Giá trị này càng nhỏ thì hai văn bản càng giống nhau.

3.1.3 Ưu điểm và nhược điểm của TF-IDF

+ Ưu điểm:

Phù hợp với các tập dữ liệu có kích thước lớn: TF-IDF cho phép lưu trữ các vănbản dưới dạng vector có kích thước nhỏ hơn so với đăng ký đầy đủ của từ điểncác từ bằng cách loại bỏ các từ không quan trọng

Đánh giá độ quan trọng của từ: Phương pháp TF-IDF giúp đánh giá độ quantrọng của từ trong mỗi văn bản, giúp khối lượng văn bản được giảm và tập trungvào những từ quan trọng hơn

Sử dụng cho nhiều mục đích khác nhau: TF-IDF có thể được sử dụng cho nhiềutác vụ khác nhau, bao gồm tìm kiếm thông tin, phân loại văn bản, tóm tắt vănbản và phân tích cảm xúc của người dùng

+ Nhược điểm:

Không lưu trữ thông tin về cấu trúc và ngữ nghĩa của văn bản: TF-IDF chỉ lưutrữ thông tin về tần số xuất hiện của từ trong mỗi văn bản, mà không lưu trữthông tin về mối quan hệ, vị trí và ngữ nghĩa của các từ

Không xử lý được các từ đa nghĩa: TF-IDF có thể gặp khó khăn trong việc xử lýcác từ đa nghĩa hoặc đồng âm, vì nó chỉ xem xét tần số xuất hiện của từ trongvăn bản mà không xử lý được nghĩa của từ Ví dụ như từ "các" và "cựu" đều cótần suất xuất hiện cao trong các tài liệu chính trị, nhưng ý nghĩa của chúng khácnhau

Có thể bị ảnh hưởng bởi tần suất xuất hiện của từ: TF-IDF có thể bị ảnh hưởngbởi tần suất xuất hiện của các từ Các từ có tần suất xuất hiện cao hơn sẽ có ảnh

Trang 20

hưởng lớn hơn đến tính toán TF-IDF, trong khi những từ không xuất hiện nhiều

có thể bị loại bỏ hoặc được xếp vào nhóm nhỏ hơn

Picture 7 Xây dựng với độ đo Cosine Similarity

Trang 21

Picture 9 Xây dựng với độ đo Euclidean distances.

Picture 10.Kết quả khi nhập nội dung bài báo nội dung “bóng đá Việt Nam”

Trang 22

4 Word2Vec

4.1 Lý thuyết

Word2Vec là một mô hình học máy được sử dụng để biểu diễn các từ dưới dạngvector Mô hình này được phát triển bởi Tomas Mikolov và nhóm nghiên cứu của ôngtại Google vào năm 2013, dựa trên một hướng tiếp cận mới với bài toán NLP là

"distributed representations of words" - biểu diễn phân tán của các từ

Word2Vec có thể học được các biểu diễn phân tán cho mỗi từ trong một tập dữ liệu,dựa trên việc phân tích ngữ cảnh xung quanh các từ đó Từ đó, các từ có ý nghĩa tươngđồng với nhau sẽ có những biểu diễn gần với nhau hơn trong không gian vector, giúpcho việc so sánh, tìm kiếm và phân loại các từ trở nên dễ dàng hơn

Word2Vec là một trong những mô hình NLP được sử dụng rộng rãi hiện nay để biểudiễn ngôn ngữ tự nhiên dưới dạng vector có kích thước thấp và giúp cho việc giải quyếtcác bài toán NLP như phân loại văn bản, dịch thuật, tóm tắt văn bản, xác định ngữcảnh, trở nên hiệu quả và chính xác hơn

Cụ thể, khi sử dụng Word2Vec, mỗi từ được biểu diễn dưới dạng một vector, sao chohai từ có ý nghĩa tương đồng sẽ có kết quả Cosine similarity gần với 1, và hai từ không

có quan hệ gì với nhau sẽ có kết quả Cosine similarity gần với 0

Khi sử dụng Word2Vec với độ đo Cosine similarity, có thể tính toán độ tương đồnggiữa các từ trong tập từ điển bằng cách tính Cosine similarity giữa các vector biểu diễncủa từ đó

Việc kết hợp Word2Vec với độ đo Cosine similarity giúp cho việc tìm kiếm các từtương đồng hoặc liên quan đến nhau trở nên dễ dàng hơn Nó được ứng dụng rộng rãitrong các bài toán NLP như phân loại văn bản, tìm kiếm thông tin, dịch thuật, tóm tắtvăn bản, ngữ liệu học,

Trang 23

4.1.2 Với độ đo Euclidean distances.

Word2Vec thường không được sử dụng với độ đo Euclidean distances để đo độ tươngđồng giữa các vector biểu diễn từ vì điều này có thể dẫn đến các kết quả không chínhxác

Độ đo Euclidean distances còn được sử dụng như một độ đo khoảng cách giữa cácvector trong không gian vector, nhưng khi áp dụng vào mô hình word2vec, việc sửdụng Euclidean distances là không hiệu quả Việc tính toán khoảng cách không mô tảchính xác độ tương đồng giữa các từ trong văn bản, vì nó có thể liên quan đến cả sựkhác biệt về kích thước giữa các vector biểu diễn từ

4.1.3 Ưu điểm và nhược điểm của Word2Vec

+ Ưu điểm:

Biểu diễn phân tán

Đa dạng, đồng nhất và hiệu quả: Word2Vec có thể học được mô hình biểu diễntích lũy cho các ngôn ngữ khác nhau và cải thiện hiệu quả trong các công việc

xử lý ngôn ngữ tự nhiên

Tính đối xứng: Quan hệ giữa hai từ trong từ điển là đối xứng, điều này giúpWord2Vec tạo ra các vector biểu diễn cho các từ đó là khá tương đồng.Ứng dụng rộng rãi: Word2Vec đã được sử dụng trong nhiều bài toán khác nhautrong lĩnh vực xử lý ngôn ngữ tự nhiên, từ dịch thuật đến phân loại văn bản.+ Nhược điểm:

Yêu cầu dữ liệu lớn: Mô hình Word2Vec cần một lượng dữ liệu khá lớn để cóthể đạt được độ chính xác cao

Yêu cầu phần cứng mạnh:Việc huấn luyện Word2Vec cần phải sử dụng mộtlượng phần cứng đáng kể để đạt được kết quả tốt

Không xử lý được các từ mới: Word2Vec không thể xử lý được các từ không cótrong tập dữ liệu huấn luyện và chúng được coi như là các từ mới

Trang 24

Không giải quyết được mối quan hệ xung quanh bài toán:Word2Vec chỉ giảiquyết được việc biểu diễn của từ trên không gian vector, không xử lý được mốiquan hệ xung quanh bài toán.

Picture 11 Xây dựng với độ đo Euclidean distances

Trang 25

Picture 13 Xây dựng với độ đo Cosine similarity.

Trang 26

5 Đánh giá các kỹ thuật biểu diễn văn bản

+ Đánh giá về thời gian chạy

Cosine Similarities Euclidean distances

Với độ đo Cosine Similarities: 3 phương pháp có thời gian thực hiện không có

sự chênh lệch quá nhiều

- Phương pháp TF-IDF có thời gian thực hiện nhanh nhất, BOW có thời gian thựchiện chậm nhất

Với độ đo Euclidean distances: 3 mô hình có thời gian có sự chênh lệch lớn

- Phương pháp TF-IDF có thời gian thực hiện nhanh nhất, Word2Vec có thời gianthực hiện chậm nhất

Qua kết quả chạy các phương pháp qua 2 độ đo ta có thể thấy được phương phápTF-IDF được cho là có độ chính xác cao hơn so với BOW và Word2Vec

Trang 27

PART 3: XÂY DỰNG MÔ HÌNH PHÂN LOẠI BÀI BÁO SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY KHÁC NHAU

1 Các phương pháp biểu diễn văn bản, mô hình học máy

1.1 Phương pháp biểu diễn văn bản

Với yêu cầu của bài toán, nhóm chúng em giải quyết bằng cách áp dụng 4 phương pháp chính, theo đó là 6 mô hình để đo độ chính xác của từng phương pháp.Phương pháp biểu diễn văn bản chính:

Trang 29

Picture 17 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình Naive Bayes.2.2 Với mô hình K-Nearest Neighbor (KNN)

Picture 18 Xây dựng với mô hình K-Nearest Neighbor (KNN)

Trang 30

Picture 19 Kết quả phân loại bài báo bằng phương pháp BOW với mô hình KNN.2.3 Với mô hình DT (Decision Trees).

Picture 20 Với mô hình DT (Decision Trees)

Tiêu đề	Natural Language Processing Midterm Project
Tác giả	Hồ Đăng Phúc Bảo, Phạm Hùng Phát
Người hướng dẫn	Thầy Lê Anh Cường
Trường học	Trường Đại Học Tôn Đức Thắng
Thể loại	midterm project
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	61
Dung lượng	1,29 MB