Ứng dụng thị giác máy tính trong phân loại tin tức

MỤC LỤC

Thị giác máy tính

 Thị giác máy tính (Computer vision) tập trung vào việc hiểu, giải thích và phân tích hình ảnh và video. Nó đòi hỏi khả năng của máy tính để nhận dạng và hiểu được các đối tượng, khuôn mặt, vật thể, cấu trúc không gian và các thông tin khác từ hình ảnh. Thị giác máy tính sử dụng các phương pháp và thuật toán để trích xuất các đặc trưng, phân loại, nhận dạng và theo dừi cỏc đối tượng trong hỡnh ảnh.

 Với sự phát triển của công nghệ và khả năng tính toán, thị giác máy tính và xử lý ảnh ngày càng gần nhau và tương hỗ nhau trong nhiều ứng dụng. Thị giác máy tính thường sử dụng các kỹ thuật xử lý ảnh để tiền xử lý dữ liệu hình ảnh trước khi áp dụng các thuật toán phân loại, nhận dạng, theo dừi và hiểu thụng tin từ hỡnh ảnh. Xử lý ảnh cung cấp các công cụ và phương pháp để làm sạch, cải thiện chất lượng, loại bỏ nhiễu và phân tách đối tượng trong hình ảnh, từ đó hỗ trợ các nhiệm vụ của thị giác máy tính.

THUẬT TOÁN VÀ PHƯƠNG PHÁP

Thuật toán Convolutional Neural Network (CNN)
Thuật toán Support Vector Machine (SVM) 1. Định nghĩa
Thuật toán Logictics Regression 1. Định nghĩa
Thuật toán Naive Bayes (MultinomialNB) 1. Định nghĩa

 Bước 5: Lớp kết nối đầy đủ: Lớp kết nối đầy đủ nhận các đặc trưng đã được làm phẳng và thực hiện phân loại các lớp dựa trên các đặc trưng đó. Support Vector Machine (SVM) là một mô hình phân loại hoạt động bằng việc xây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong không gian n chiều của dữ liệu sao cho siêu phẳng này phân loại các lớp một cách tối ưu nhất. Nói cách khác, cho một tập dữ liệu có nhãn (học có giám sát), thuật toán sẽ dựa trên dữ liệu học để xây dựng một siêu phẳng tối ưu được sử dụng để phân loại dữ liệu mới.

Ở không gian 2 chiều thì siêu phẳng này là 1 đường thẳng phân cách chia mặt phẳng không gian thành 2 phần tương ứng 2 lớp với mỗi lớp nằm ở 1 phía của đường thẳng.  Xử lý trên không gian số chiều cao: SVM là một công cụ tính toán hiệu quả trong không gian chiều cao, trong đó đặc biệt áp dụng cho các bài toán phân loại văn bản và phân tích quan điểm nơi chiều có thể cực kỳ lớn.  Bài toán số chiều cao: Trong trường hợp số lượng thuộc tính (p) của tập dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu (n) thì SVM cho kết quả khá tồi.

 Chưa thể hiện rừ tớnh xỏc suất: Việc phõn lớp của SVM chỉ là việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM. Tuy nhiên hiệu quả của việc phân lớp có thể được xác định dựa vào khái niệm margin từ điểm dữ liệu mới đến siêu phẳng phân lớp mà chúng ta đã bàn luận ở trên. Thuật toán Logistic Regression (Hồi quy Logistic) là một phương pháp thống kê được sử dụng trong bài toán phân loại, đặc biệt là trong trường hợp phân loại nhị phân (hai nhãn).

 Sử dụng tập dữ liệu kiểm tra để đánh giá hiệu suất của mô hình, bao gồm độ chính xác (accuracy) và các độ đo đánh giá khác như độ phủ (recall), độ chính xác (precision), F1-score, v.v.  Đơn giản và dễ hiểu: Logistic Regression là một thuật toán đơn giản và dễ hiểu, không đòi hỏi kiến thức toán cao cấp và có thể được áp dụng một cách nhanh chóng.  Có thể xác định độ quan trọng của đặc trưng: Logistic Regression cung cấp thông tin về độ quan trọng của từng đặc trưng trong việc phõn loại.

 Yêu cầu đặc trưng độc lập: Logistic Regression yêu cầu rằng các đặc trưng độc lập với nhau, tức là không có tương quan hoặc phụ thuộc tuyến tính mạnh giữa chúng.  Khả năng xử lý dữ liệu lớn bị hạn chế: Mặc dù Logistic Regression có khả năng xử lý tốt với dữ liệu lớn, nó có thể gặp khó khăn khi số lượng đặc trưng (biến) rất lớn so với kích thước mẫu huấn luyện.  Tiền xử lý dữ liệu: Chuyển đổi dữ liệu văn bản thành vectơ đặc trưng sử dụng phương pháp như TF-IDF (Term Frequency-Inverse Document Frequency) để biểu diễn tần suất của từng từ trong văn bản.

 Độ chính xác tốt với dữ liệu lớn: Mặc dù giả thuyết Naive Bayes không thể đáp ứng đầy đủ với sự phụ thuộc giữa các đặc trưng, nhưng trong thực tế nó có thể mang lại kết quả phân loại tốt, đặc biệt là với tập dữ liệu lớn.  Giả định độc lập không thực tế: Giả định Naive Bayes về sự độc lập giữa các đặc trưng có thể không phù hợp với một số bài toán thực tế, khi các đặc trưng có sự tương quan hoặc phụ thuộc vào nhau.

KẾT QUẢ NGHIÊN CỨU

Ngoài ra, bài toán này còn có thể được ứng dụng trong các lĩnh vực khác như phân tích cảm xúc và phát hiện tin giả. Đây là một trong những bộ dữ liệu tin tức lớn nhất và có thể dùng làm chuẩn cho nhiều nhiệm vụ ngôn ngữ tính toán. HuffPost đã ngừng duy trì kho lưu trữ rộng rãi các bài báo sau khi tập dữ liệu này được thu thập lần đầu vào năm 2018, vì vậy không thể thu thập tập dữ liệu như vậy vào thời điểm hiện tại.

Hiệu suất của hệ thống trong phân loại được đo bằng cách sử dụng ma trận nhầm lẫn (Confusion matrix) để đạt được độ chính xác, recall, precision và đánh giá F1.  Dương tính giả (FP): Mô hình đã dự đoán một nhãn, nhưng nó không phải là một phần của nhãn thực tế (Lỗi Loại I).  Âm tính giả (FN): Mô hình không dự đoán nhãn, nhưng nó là một phần của nhãn thực tế (Lỗi Loại II).

 Huấn luyện mô hình mạng neural đa nhiệm để dự đoán thể loại của các bài báo dựa trên nội dung văn bản và hình ảnh. Cụ thể, chương trình sử dụng thư viện Keras để xây dựng mô hình mạng neural đa nhiệm với hai đầu vào là văn bản và hình ảnh, và đầu ra là các nhãn thể loại. Sau đó, chương trình huấn luyện mô hình trên dữ liệu huấn luyện bao gồm các đầu vào văn bản và hình ảnh, và nhãn thể loại tương ứng.

Cuối cùng, chương trình sử dụng mô hình đã huấn luyện để dự đoán nhãn thể loại cho các bài báo trong tập kiểm tra. Cụ thể, chương trình sử dụng thư viện scikit-learn để huấn luyện mô hình SVM trên các vector đặc trưng được tạo ra từ tập huấn luyện bao gồm các đặc trưng văn bản. Sau đó, chương trình sử dụng mô hình đã huấn luyện để dự đoán nhãn thể loại cho các bài báo trong tập kiểm tra.

Cuối cùng, chương trình tính toán độ chính xác của phương pháp SVM trên tập kiểm tra và so sánh với kết quả của mô hình mạng neural đa nhiệm.  Kết quả cho thấy rằng mô hình hệ thống được sử dụng có thể phân loại các nhãn với độ chính xác tốt nhất ở tập đánh giá là khoảng 94%. Trong tương lai, điều này có thể khắc phục bằng cách thêm dữ liệu, thực hiện kỹ thuật làm giàu dữ liệu, huấn luyện với nhiều epochs hơn và huấn luyện với mạng nơ-ron phức tạp hơn.

Bảng 1. Kết quả đánh giá trên tập thử nghiệm