Mơ hình, thuật tốn phân loại phổ biến

Một phần của tài liệu Kiểm duyệt bài viết và bình luận tiếng việt có nội dung không phù hợp trên mạng xã hội facebook (Trang 39 - 44)

Trong phần trước, luận văn đã đưa ra các phương pháp trích chọn đặc trưng của ngơn từ phản động; cách thức vector hĩa các đặc trưng của văn bản. Mỗi bài viết, bình luận sau khi được trích chọn đặc trưng, đều sẽ được biểu diễn bằng một vector đặc trưng như đã được trình bày. Nội dung của Mục này sẽ trình bày một số mơ hình, thuật tốn phân lớp phổ biến được sử dụng để phát hiện nội dung phản động.

Trong NLP, các kiến trúc, mơ hình huấn luyện được áp dụng chủ yếu là thuật tốn học máy (Machine Learning) và thuật tốn học sâu (Deep Learning). Các thuật tốn học máy được chia làm 3 loại chính: Học cĩ giám sát (Supervised Learning), học khơng giám sát (Unsupervised Learning), học tăng cường (Reinforcement Learning). Học cĩ giám sát thường được dùng trong các trường hợp một thuộc tính/nhãn cĩ sẵn cho một tập dữ liệu nhất định (tập huấn luyện), nhưng khơng được đầy đủ và được dự đốn cho nhiều trường hợp khác. Học khơng giám sát thường được sử dụng trong các trường hợp cần khám phá các mối quan hệ tiềm ẩn nằm trong dữ liệu khơng cĩ nhãn. Học tăng cường là phương pháp nằm giữa hai loại thuật tốn trên.

Zaghloul và cộng sự [54] đã so sánh độ hiệu suất trong việc phân lớp nhị phân khi sử dụng SVM và mạng nơ-ron nhân tạo. Nghiên cứu chỉ ra rằng, SVM là bộ phân loại tốt nhất, và mạng nơ-ron nhân tạo cĩ thể sử dụng làm bộ phân loại văn bản nếu hiệu suất của chúng tương đương với SVM. Các tác giả đã phát hiện ra rằng, mạng nơ-ron nhân tạo là cơng cụ phân lớp văn bản rất khả thi với hiệu suất tương đương với SVM, hơn thế, nĩ cịn làm giảm kích thước dữ liệu đi nhiều lần. Việc sử dụng các mạng nơ-ron để phân lớp văn bản sẽ là một lợi thế lớn như một cơng cụ phân loại so với các cơng cụ khác vì nĩ cĩ thể mang lại sự tiết kiệm đáng kể về thời gian và chi phí tính tốn.

Trong phạm vi bài tốn xây dựng giải pháp kiểm duyệt bài viết, bình luận tiếng Việt cĩ nội dung phản động, tơi thử nghiệm một thuật tốn học cĩ giám sát là thuật tốn máy vector hỗ trợ SVM và một mơ hình mạng nơ-ron đa tầng truyền thẳng MLP.

2.2.2.1. Thuật tốn SVM

Thuật tốn SVM được Vapnik giới thiệu vào năm 1995. SVM được dùng cho bài tốn phân lớp nhị phân, tức là số lớp hạn chế là hai lớp. Giả sử đầu bài cho tập hợp các điểm thuộc 2 loại trong mơi trường N chiều, SVM là phương pháp để tìm ra N-1 mặt phẳng để ngăn các điểm thành 2 nhĩm. Một ví dụ cụ thể đĩ là cho một tập hợp các điểm thuộc 2 loại như hình mơ tả phía dưới, SVM cĩ nhiệm vụ tìm ra một đường thẳng để phân tách những điểm đĩ thành 2 loại sao cho độ dài khoảng cách giữa đường thẳng và những điểm là xa nhất cĩ thể. SVM rất hiệu quả để giải quyết các bài tốn với dữ liệu cĩ số chiều lớn như các vector biểu diễn văn bản. Hiện nay, SVM được đánh giá là bộ phân lớp chính xác nhất cho bài tốn phân lớp văn bản, bởi đặc tính phân lớp với tốc độ rất nhanh và hiệu quả đối với bài tốn phân lớp văn bản. Đối với bài tốn phân lớp văn bản sử dụng phương pháp SVM thì việc lựa chọn thuộc tính cho từng phân

lớp lại là vấn đề cực kỳ quan trọng, nĩ quyết định đến hiệu quả của phân lớp. Phương pháp này thực hiện phân lớp dựa trên nguyên lý Cực tiểu hĩa rủi ro cĩ cấu trúc SRM (Structural Risk Minimization) [43], được xem là một trong các phương pháp phân lớp giám sát khơng tham số tinh vi. Các hàm cơng cụ của SVM cho phép tạo khơng gian chuyển đổi để xây dựng mặt phẳng phân lớp để phân chia các lớp ra thành các phần riêng biệt.

Hình 2.5. Support Vectors trong SVM

Các đường phân chia lớp được gọi là siêu phẳng (hyper-plane). Support Vectors là các đối tượng trên đồ thị tọa độ quan sát, SVM là một biên giới để chia hai lớp tốt nhất.

Hình 2.6. Margin trong SVM

Margin là khoảng cách giữa siêu phẳng đến 2 điểm dữ liệu gần nhất tương ứng với các phân lớp. Trong ví dụ ở hình trên, margin chính là khoảng cách giữa siêu phẳng và hai hình vuơng, trịn gần nĩ nhất. Điều quan trọng ở đây đĩ là phương pháp SVM luơn cố gắng cực đại hĩa margin này, từ đĩ thu được một

siêu phẳng tạo khoảng cách xa nhất so với các hình vuơng và trịn.

Ưu điểm của SVM:

Là một kĩ thuật phân lớp khá phổ biến, SVM thể hiện được nhiều ưu điểm trong số đĩ cĩ việc tính tốn hiệu quả trên các tập dữ liệu lớn. Cĩ thể kể thêm một số ưu điểm của phương pháp này như:

- Xử lý trên khơng gian số chiều cao: SVM là một cơng cụ tính tốn hiệu quả trong khơng gian cĩ số chiều cao, trong đĩ đặc biệt áp dụng cho các bài tốn phân loại văn bản và phân tích quan điểm nơi chiều cĩ thể cực kỳ lớn.

- Tiết kiệm bộ nhớ: Do chỉ cĩ một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới nên chỉ cĩ những điểm cần thiết mới được lưu trữ trong bộ nhớ khi ra quyết định.

- Tính linh hoạt - phân lớp thường là phi tuyến tính. Khả năng áp dụng Kernel mới cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đĩ khiến cho hiệu suất phân loại lớn hơn.

Nhược điểm của SVM:

- Bài tốn số chiều cao: Trong trường hợp số lượng thuộc tính (p) của tập dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu (n) thì SVM cho kết quả khá tồi.

- Chưa thể hiện rõ tính xác suất: Việc phân lớp của SVM chỉ là việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM. Điều này chưa giải thích được xác suất xuất hiện của một thành viên trong một nhĩm là như thế nào. Tuy nhiên, hiệu quả của việc phân lớp cĩ thể được xác định dựa vào khái niệm margin từ điểm dữ liệu mới đến siêu phẳng phân lớp đã nêu trên.

2.2.2.2. Mơ hình MLP

MLP là mạng nơ-ron đơn giản được tạo ra từ các liên kết giữa các perceptron (nơ-ron đơn lẻ) và là nền tảng để hiểu các mạng khác phức tạp hơn trong học sâu. Một mạng MLP tổng quát là mạng cĩ n (n≥2) tầng (thơng thường tầng đầu vào khơng được tính đến): Trong đĩ, gồm một tầng đầu ra (tầng thứ n) và (n-1) tầng ẩn.

Hình 2.7: Cấu tạo mạng MLP cơ bản

Kiến trúc của một mạng MLP tổng quát cĩ thể mơ tả như sau:

Đầu vào là các vector (x1, x2, …, xp) trong khơng gian p chiều, đầu ra là các vector (y1, y2, …, yq) trong khơng gian q chiều. Đối với các bài tốn phân loại, p chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại.

Mỗi nơ-ron thuộc tầng sau liên kết với tất cả các nơ-ron thuộc tầng liền trước nĩ. Đầu ra của nơ-ron tầng trước là đầu vào của nơ-ron thuộc tầng liền sau nĩ.

Hoạt động của mạng MLP như sau:

Tại tầng đầu vào các nơ-ron nhận tín hiệu vào xử lý (tính tổng trọng số, gửi tới hàm truyền) rồi cho ra kết quả (là kết quả của hàm truyền); kết quả này sẽ được truyền tới các nơ-ron thuộc tầng ẩn thứ nhất; các nơ-ron tại đây tiếp nhận như là tín hiệu đầu vào, xử lý và gửi kết quả đến tầng ẩn thứ 2. Quá trình tiếp tục cho đến khi các nơ-ron thuộc tầng ra cho kết quả. Mạng MLP cĩ thể được huấn luyện bởi cả ba phương pháp học phổ biến là học cĩ giám sát, học khơng giám sát và học tăng cường.

Ứng dụng MLP cho bài tốn phân loại văn bản: Để cĩ thể sử dụng MLP cho bài tốn phân loại văn bản, cần nhúng từ (word embedding) để chuyển đổi dữ liệu văn bản sang mơ hình vector. Sau khi qua các lớp ẩn, đầu ra của mạng MLP là số lượng lớp văn bản cần phần loại. Chúng ta cĩ thể dễ dàng thiết kế mạng MLP với số lượng lớp ẩn, số lượng nút tùy biến phù hợp với yêu cầu bài tốn. Các hàm kích hoạt thường được sử dụng bao gồm hàm ReLU, hàm sigmoid và hàm tanh.

Một phần của tài liệu Kiểm duyệt bài viết và bình luận tiếng việt có nội dung không phù hợp trên mạng xã hội facebook (Trang 39 - 44)

Tải bản đầy đủ (PDF)

(89 trang)