Mơ hình chung của Word2Vec

Một phần của tài liệu Kiểm duyệt bài viết và bình luận tiếng việt có nội dung không phù hợp trên mạng xã hội facebook (Trang 38 - 41)

Ý tưởng chính của CBOW là dựa vào các context word (hay các từ xung

quanh) để dự đốn center word (từ ở giữa). CBOW cĩ điểm thuận lợi là training

mơ hình nhanh hơn so với mơ hình skip-gram, thường cho kết quả tốt hơn với frequence words (các từ thường xuất hiện trong văn cảnh).

Skip-gram thì ngược lại với CBOW, dùng target word để dự đốn các từ xung quanh. Skip-gram huấn luyện chậm hơn. Thường làm việc khá tốt với các tập data nhỏ, đặc biệt do đặc trưng của mơ hình nên khả năng vector hĩa cho các từ ít xuất hiện tốt hơn CBOW.

(3) Wordnet:

Wordnet [41] là một cơ sở dữ liệu về từ, trong đĩ các từ được nhĩm lại thành các loạt từ đồng nghĩa, các loạt từ đồng nghĩa này được gắn kết với nhau nhờ các quan hệ ngữ nghĩa. Tuy nhiên, wordnet cĩ một số hạn chế như:

- Thiếu sắc thái, ví dụ như các từ đồng nghĩa: Cố, cố gắng, gắng, nỗ lực được xem là cĩ mức độ như nhau.

- Thiếu từ mới hoặc ý nghĩa mới (khơng thể cập nhật): Sống thử, lầy, thả thính, trẻ trâu, gấu…

- Chủ quan, phụ thuộc vào người tạo.

- Yêu cầu nhiều cơng sức tạo ra và cập nhật để thích ứng. - Khĩ đo chính xác khoảng cách về nghĩa giữa các từ. - Các hạn chế khác về chất lượng và cấu trúc lưu trữ. (4) Fasttext:

Một nhược điểm lớn của Word2vec là nĩ chỉ sử dụng được những từ cĩ trong dataset, để khắc phục được điều này, chúng ta cĩ Fasttext [42] là mở rộng của Word2vec, được xây dựng bởi Facebook năm 2016. Thay vì training cho đơn vị word, Fasttext chia văn bản ra làm nhiều đoạn nhỏ được gọi là n-gram với cấp độ ký tự, ví dụ apple sẽ thành app, ppl và ple, vector của từ apple sẽ bằng tổng của tất cả cái các thành phần này. Do vậy, nĩ xử lý rất tốt cho những trường hợp từ hiếm gặp.

2.2.2. Mơ hình, thuật tốn phân loại phổ biến

Trong phần trước, luận văn đã đưa ra các phương pháp trích chọn đặc trưng của ngơn từ phản động; cách thức vector hĩa các đặc trưng của văn bản. Mỗi bài viết, bình luận sau khi được trích chọn đặc trưng, đều sẽ được biểu diễn bằng một vector đặc trưng như đã được trình bày. Nội dung của Mục này sẽ trình bày một số mơ hình, thuật tốn phân lớp phổ biến được sử dụng để phát hiện nội dung phản động.

Trong NLP, các kiến trúc, mơ hình huấn luyện được áp dụng chủ yếu là thuật tốn học máy (Machine Learning) và thuật tốn học sâu (Deep Learning). Các thuật tốn học máy được chia làm 3 loại chính: Học cĩ giám sát (Supervised

Learning), học khơng giám sát (Unsupervised Learning), học tăng cường

(Reinforcement Learning). Học cĩ giám sát thường được dùng trong các trường hợp một thuộc tính/nhãn cĩ sẵn cho một tập dữ liệu nhất định (tập huấn luyện), nhưng khơng được đầy đủ và được dự đốn cho nhiều trường hợp khác. Học khơng giám sát thường được sử dụng trong các trường hợp cần khám phá các mối quan hệ tiềm ẩn nằm trong dữ liệu khơng cĩ nhãn. Học tăng cường là phương pháp nằm giữa hai loại thuật tốn trên.

Zaghloul và cộng sự [54] đã so sánh độ hiệu suất trong việc phân lớp nhị phân khi sử dụng SVM và mạng nơ-ron nhân tạo. Nghiên cứu chỉ ra rằng, SVM là bộ phân loại tốt nhất, và mạng nơ-ron nhân tạo cĩ thể sử dụng làm bộ phân loại văn bản nếu hiệu suất của chúng tương đương với SVM. Các tác giả đã phát hiện ra rằng, mạng nơ-ron nhân tạo là cơng cụ phân lớp văn bản rất khả thi với hiệu suất tương đương với SVM, hơn thế, nĩ cịn làm giảm kích thước dữ liệu đi nhiều lần. Việc sử dụng các mạng nơ-ron để phân lớp văn bản sẽ là một lợi thế lớn như một cơng cụ phân loại so với các cơng cụ khác vì nĩ cĩ thể mang lại sự tiết kiệm đáng kể về thời gian và chi phí tính tốn.

Trong phạm vi bài tốn xây dựng giải pháp kiểm duyệt bài viết, bình luận tiếng Việt cĩ nội dung phản động, tơi thử nghiệm một thuật tốn học cĩ giám sát là thuật tốn máy vector hỗ trợ SVM và một mơ hình mạng nơ-ron đa tầng truyền thẳng MLP.

2.2.2.1. Thuật tốn VM

Thuật tốn SVM được Vapnik giới thiệu vào năm 1995. SVM được dùng cho bài tốn phân lớp nhị phân, tức là số lớp hạn chế là hai lớp. Giả sử đầu bài cho tập hợp các điểm thuộc 2 loại trong mơi trường N chiều, SVM là phương pháp để tìm ra N-1 mặt phẳng để ngăn các điểm thành 2 nhĩm. Một ví dụ cụ thể đĩ là cho một tập hợp các điểm thuộc 2 loại như hình mơ tả phía dưới, SVM cĩ nhiệm vụ tìm ra một đường thẳng để phân tách những điểm đĩ thành 2 loại sao cho độ dài khoảng cách giữa đường thẳng và những điểm là xa nhất cĩ thể. SVM rất hiệu quả để giải quyết các bài tốn với dữ liệu cĩ số chiều lớn như các vector biểu diễn văn bản. Hiện nay, SVM được đánh giá là bộ phân lớp chính xác nhất cho bài tốn phân lớp văn bản, bởi đặc tính phân lớp với tốc độ rất nhanh và hiệu quả đối với bài tốn phân lớp văn bản. Đối với bài tốn phân lớp văn bản sử dụng phương pháp SVM thì việc lựa chọn thuộc tính cho từng phân

lớp lại là vấn đề cực kỳ quan trọng, nĩ quyết định đến hiệu quả của phân lớp. Phương pháp này thực hiện phân lớp dựa trên nguyên lý Cực tiểu hĩa rủi ro cĩ cấu trúc SRM (Structural Risk Minimization) [43], được xem là một trong các phương pháp phân lớp giám sát khơng tham số tinh vi. Các hàm cơng cụ của SVM cho phép tạo khơng gian chuyển đổi để xây dựng mặt phẳng phân lớp để phân chia các lớp ra thành các phần riêng biệt.

Một phần của tài liệu Kiểm duyệt bài viết và bình luận tiếng việt có nội dung không phù hợp trên mạng xã hội facebook (Trang 38 - 41)

Tải bản đầy đủ (PDF)

(89 trang)