MỤC LỤC
Trong bài dự án giữa kì, nhóm chúng em sử dụng tập dữ liệu các bài báo của Việt Nam. Trong tập dữ liệu gồm có ba thông tin chính như là category (loại), title (tiêu đề), content (nội dung) trong một năm.
Xử lý được các văn bản dài và có nhiều từ vựng: Do BoW không phân biệt sự xuất hiện các từ vựng trong văn bản, nên nó có thể xử lý được các văn bản có độ dài lớn và có nhiều từ vựng. Không hiệu quả đối với các văn bản có chủ đề tương tự nhau: Nếu có nhiều văn bản có chủ đề tương tự nhau, chẳng hạn như các email quảng cáo, việc sử dụng BOW có thể không hiệu quả và dễ bị nhầm lẫn. Mô hình sử dụng độ đo Euclidean distances để đo độ tương đồng giữa hai văn bản có thể được thực hiện bằng cách sử dụng TF-IDF để biểu diễn các văn bản dưới dạng vector và tính khoảng cách Euclidean giữa chúng.
Phù hợp với các tập dữ liệu có kích thước lớn: TF-IDF cho phép lưu trữ các văn bản dưới dạng vector có kích thước nhỏ hơn so với đăng ký đầy đủ của từ điển các từ bằng cách loại bỏ các từ không quan trọng. Sử dụng cho nhiều mục đích khác nhau: TF-IDF có thể được sử dụng cho nhiều tác vụ khác nhau, bao gồm tìm kiếm thông tin, phân loại văn bản, tóm tắt văn bản và phân tích cảm xúc của người dùng. Không lưu trữ thông tin về cấu trúc và ngữ nghĩa của văn bản: TF-IDF chỉ lưu trữ thông tin về tần số xuất hiện của từ trong mỗi văn bản, mà không lưu trữ thông tin về mối quan hệ, vị trí và ngữ nghĩa của các từ.
Không xử lý được các từ đa nghĩa: TF-IDF có thể gặp khó khăn trong việc xử lý các từ đa nghĩa hoặc đồng âm, vì nó chỉ xem xét tần số xuất hiện của từ trong văn bản mà không xử lý được nghĩa của từ. Word2Vec là một trong những mô hình NLP được sử dụng rộng rãi hiện nay để biểu diễn ngôn ngữ tự nhiên dưới dạng vector có kích thước thấp và giúp cho việc giải quyết các bài toán NLP như phân loại văn bản, dịch thuật, tóm tắt văn bản, xác định ngữ cảnh,. Cụ thể, khi sử dụng Word2Vec, mỗi từ được biểu diễn dưới dạng một vector, sao cho hai từ có ý nghĩa tương đồng sẽ có kết quả Cosine similarity gần với 1, và hai từ không có quan hệ gì với nhau sẽ có kết quả Cosine similarity gần với 0.
Độ đo Euclidean distances còn được sử dụng như một độ đo khoảng cách giữa các vector trong không gian vector, nhưng khi áp dụng vào mô hình word2vec, việc sử dụng Euclidean distances là không hiệu quả.
Kết quả phân loại bài báo bằng phương pháp BOW với mô hình Naive Bayes. Qua kết quả trên, ta thấy giữa các mô hình có độ chêch lệch không lớn về độ chính xác. Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình KNN.
Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình LR. Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình SVM. Kết quả phân loại bài báo bằng phương pháp Word2Vec với mô hình RF.
Qua kết quả trên, ta thấy giữa các mô hình có độ chêch lệch không lớn về độ chính xác. Kết quả phân loại bài báo bằng phương pháp Doc2Vec với mô hình KNN. Qua kết quả trên, ta thấy giữa các mô hình có độ chêch lệch không lớn về độ chính xác.
-Với BOW, các từ được đếm xuất hiện trong tài liệu và đưa vào một vector đại diện cho tài liệu. Các vector này có thể được sử dụng để phân loại tài liệu dựa trên sự xuất hiện của một từ trong đó. -Với TF-IDF, các từ được đếm và đưa vào một vector đại diện cho tài liệu cùng với trọng số của từ đó được tính bằng công thức TF-IDF.
TF-IDF giúp giải quyết vấn đề của các từ đồng nghĩa bằng cách tăng trọng số của từ đó khi xuất hiện ít hơn trong các tài liệu khác. -Với Word2Vec, mỗi từ được chuyển đổi thành một vector và các vector này có thể được sử dụng để phân loại tài liệu. Word2Vec giúp giải quyết vấn đề của các từ đồng nghĩa và các từ không liên quan bằng cách sử dụng ngữ nghĩa của từ để định vị nó trong không gian vector.
-Với Doc2Vec, mỗi tài liệu được chuyển đổi thành một vector đại diện và các vector này có thể được sử dụng để phân loại tài liệu. Doc2Vec giúp giải quyết vấn đề của BOW và TF-IDF bằng cách sử dụng ngữ nghĩa của tài liệu để định vị nó trong không gian vector.
Laplace smoothing giảm các giá trị xác suất tới một mức độ nhất định, nhưng theo cách này, ta thêm vào từng thành phần của phân số một lượng cố định, điều này đảm bảo rằng không có giá trị nào sẽ bằng 0 và dẫn đến zero problem. Hàm tính toán xác suất có điều kiện cho các bigram trong danh sách các đoạn văn bản được cung cấp. Hàm tạo ra một đoạn văn bản mới bắt đầu từ cũm từ nhập vào.
Hàm tính toán xác suất có điều kiện cho các bigram trong danh sách các đoạn văn bản được cung cấp. Hàm tạo ra một đoạn văn bản mới bắt đầu từ cũm từ nhập vào.