Luận văn thạc sĩ Khoa học máy tính: Nhận diện các video có yếu tố chính trị Việt Nam trên mạng xã hội tiktok

Trong đó, sử dụng kỹ thuật Word Embedding là FastText để phân tích văn bản, các mô hình CNN đã được huấn luyện trước gồm: Inception-V3, MTCNN, VGG-Face để trích xuất đặc trưng hình ảnh v

Tính ứng dụng của đề tài

Trong thực tế, các nhà quản lý Việt Nam đang gặp phải rất nhiều khó khăn trong việc nắm bắt thông tin, tình hình diễn biến đang xảy ra trong nhiều ngành, nhiều lĩnh vực nói chung và về chủ đề chính trị nói riêng trên các trang mạng xã hội Lợi dụng “khoảng trống thông tin” nhiều video tấn công vào sự hiếu kỳ của công chúng và làm mới thông tin cũ, bịa đặt thông tin mới Nhiều thông tin bị xuyên tạc, bóp méo sự thật, thông qua những tiêu đề “giật gân”, “câu khách” về vấn đề dư luận đang quan tâm, nhất là vấn đề liên quan đến chính trị như: nội bộ Đảng, Nhà nước, tham nhũng, tiêu cực với mục đích xâm phạm an ninh quốc gia, trật tự an toàn xã hội, quyền và lợi ích của tổ chức, cá nhân Nhiều video mang nội dung riêng tư, bịa đặt, xuyên tạc hoặc thật giả lẫn lộn nhằm khủng bố tinh thần và tạo dư luận xã hội trên cộng đồng mạng phục vụ các ý đồ đen tối, gây phương hại đến ổn định chính trị và trật tự, an toàn xã hội

Bên cạnh đó, mỗi ngày có hàng tỷ video được đăng tải lên các trang mạng xã hội, trong khi hệ thống kiểm duyệt của các trang mạng xã hội này không thể ngay lập tức

5 ngăn chặn các nội dung vi phạm pháp luật Việt Nam, mà phải có các yêu cầu gỡ bài từ các nhà quản lý Đến lúc đó các video vi phạm này đã được lan truyền rộng rãi gây ảnh hưởng tiêu cực đến xã hội

Hiện tại chưa có bất kỳ hệ thống nào có thể giải quyết triệt để vấn đề video vi phạm pháp luật Việt Nam, mà phải có sự giám sát và phân loại bởi con người Trong khi nguồn lực con người có giới hạn, số lượng video cần nắm bắt và phân loại lên đến hàng tỷ mỗi ngày Đề tài này sẽ cung cấp một framework tự động thu thập video từ Tiktok, phân loại và đưa ra video có khả năng cao có yếu tố chính trị tích cực và tiêu cực Từ đó giúp các nhà quản lý tốn ít thời gian hơn để để nắm bắt thông tin trên mạng xã hội Tiktok

Hình 1.2 Minh họa tính ứng dụng của framework

Mục tiêu và giới hạn của đề tài

Mục tiêu

Mục tiêu của đề tài này bao gồm:

- Thu thập, xử lý các video từ Tiktok và văn bản từ các trang mạng để làm dữ liệu: Để khách quan và khi huấn luyện các mô hình không bị Overfitting, các video sẽ được thu thập từ chính mạng xã hội Titkok Do đặc trưng văn bản được kết hợp gồm tiêu đề, mô tả và sinh ra từ giọng nói từ video tikok tương đôi ít, nên đề tài sẽ thu thập thêm các văn bản từ các trang web: vnexpress.net, chinhphu.vn, vietnamnet.vn để phục vụ cho quá trình huấn luyện và kiểm thử các mô hình dựa trên đặc trưng văn bản

- Nghiên cứu các mô hình phân loại video dựa trên đa đặc trưng và kết hợp đa mô hình: đề tài đề xuất xây dựng framework đa mô hình để trích xuất các đặc trưng hình ảnh, văn bản của video; bằng chiến lược kết hợp chậm (slow fusion [1]) để đưa ra phân loại cấp độ video; bộ phân loại ở cấp độ video sử dụng kỹ thuật LightGBM [11] để thấy được trọng số của các đặc trưng và giải quyết được vấn đề thiếu dữ liệu của một đặc trưng riêng lẻ

- Huấn luyện, tối ưu và thử nghiệm các mô hình trên tập dữ liệu thu thập được: tối thiểu hóa hàm mất mát, thử nghiệm và tối ưu khi huấn luyện mô hình, từ đó đánh giá độ chính xác so với các mô hình dựa trên từng đặc trưng riêng lẻ

- Hiện thực ứng dụng phân loại video: từ mô hình được huấn luyện, tiến hành xây dựng ứng dụng giao diện người dùng, cho phép nhập đường dẫn video Titok, kết quả đầu ra bao gồm: thông tin video, hình ảnh, kết quả phân loại của framework

- Đưa ra kết luận và hướng phát triển tiếp theo của đề tài trong tương lai: Đề tài thu được một số kết quả khả quan, từ đó đề xuất ra những hướng mở rộng trong tương lai

Giới hạn đề tài

Tiktok không có API [16] để các nhà phát triển thu thập dữ liệu, cũng như có chính sách chặn các trình thu thập dữ liệu, vì vậy việc thu thập dữ liệu để phục vụ đề tài gặp nhiều khó khăn; cùng với sự hạn chế về nhân lực và tài nguyên, vì vậy đề tài chỉ thu thập được 10.000 video, với số lượng video hạn chế như vậy, đề tài sẽ không ứng dụng các mô hình học sâu kết hợp yếu tố không-thời gian như: CNN Fusion [1], CNN-LSTM [6], LR-CN [6] để phân loại video theo như đề cương luận văn, vì các mô hình này phải được huấn luyện trên tập dữ liệu vài triệu video để đảm bảo mô hình cho kết quả chính xác Thay vào đó, luận văn sẽ tiến hành hiện thực framework đã giới thiệu trong phần tổng quan Đặc thù trên mạng xã hội Titkok các video đã được xử lý và thêm nhiều hiệu ứng hình ảnh, và âm thanh, đặc biệt phần lớn video đều được gắn kèm nhạc nền, nên đặc trưng âm thanh đề tài sẽ không sử dụng trong framework phân loại

Bên cạnh đó, đề tài tập trung vào việc thu thập dữ liệu và xây dựng framework phân loại, vì vậy đề tài sẽ sử dụng Google API speech to text [20] để chuyển giọng nói của video thành văn bản

Do đặc trưng dữ liệu, sau khảo sát dữ liệu nhận thấy rằng các văn bản trích xuất được từ OCR (Optical Character Recognition – nhận diện ký tự quang học) rất ít, và bị nhiễu nhiều bởi hiệu ứng trong video dẫn đến mô hình phát hiện các văn bản hoạt động không tốt Ngoài ra khi kiểm tra nội dung các văn bản có thể có trong các video, tác giả nhận thấy các nội dung đó không thống nhất với nội dung video, nên quyết định không sử dụng OCR để trích xuất văn bản phục vụ việc nhận diện các video chính trị Việt Nam trên mạng xã hội Tiktok

Do thời gian thực hiện luận văn và nguồn lực có hạn, vì vậy, để có thể triển khai toàn bộ framework một cách hoàn chỉnh, đề tài giới hạn các video có yếu tố chính trị Việt Nam gồm trường hợp:

- Các hoạt động hội họp, các chuyến thăm và làm việc của 18 Ủy viên Bộ chính trị khóa XIII;

- Các hoạt động hội họp, các chuyến thăm và làm việc của 28 thành viên Chính phủ nhiệm kỳ 2021 – 2026 Đề tài cũng giới hạn chỉ thu thập và xây dựng cơ sở dữ liệu gương mặt của các chính trị gia như đã nêu ở trên.

Cấu trúc của luận văn

Chương 1: Tổng quan về nội dung, mục tiêu và cấu trúc luận văn

Chương 2: Kiến thức nền tảng có liên quan đến đề tài như Word Embedding, mạng nơ-ron, mạng CNN, mô hình học chuyển tiếp, Light GBM

Chương 3: Các công trình nghiên cứu có liên quan đến đề tài

Chương 4: Trình bày các phương pháp sử dụng khi hiện thực luận văn

Chương 5: Mô tả thực tế hiện thực hệ thống và đánh giá kết quả

Chương 6: Kết luận các kết quả đạt được, khó khăn, hạn chế và hướng mở rộng của đề tài

Mạng nơron nhân tạo (Artificial Neural Network – ANN)

Giới thiệu

Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm rất nhiều các node được liên kết với nhau tạo thành một mạng lưới cực kì lớn và phức tạp ANN hoạt động giống như bộ não của con người, được học bởi kinh nghiệm (thông qua

9 việc huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức) và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết (unseen data)

Kiến trúc chung của một ANN gồm 3 thành phần chính, đó là: Input Layer, Hidden Layer và Output Layer (hình 2.1) Trong đó, lớp ẩn (Hidden Layer) gồm các nơ-ron nhận dữ liệu input từ các nơ-ron ở lớp (layer) trước đó và chuyển đổi các input này cho các lớp xử lý tiếp theo Trong một ANN có thể có nhiều lớp ẩn Các node xử lý của ANN gọi là nơ-ron Chúng nhận các dữ liệu vào (inputs), tính toán và cho ra một kết quả (output) duy nhất Kết quả xử lý của nơ-ron này có thể làm input cho các nơ- ron khác Quá trình xử lý thông tin của một ANN:

Mỗi input tương ứng với 1 thuộc tính (attribute) của dữ liệu Các giá trị này thường được đưa vào dưới dạng một vector m-chiều Output là kết quả đầu ra tương ứng với dữ liệu input Các trọng số liên kết (Weights) là thành phần rất quan trọng của ANN, nó thể hiện mức độ quan trọng giữa các input đầu vào đối với quá trình xử lý thông tin, chuyển đổi dữ liệu từ layer này sang layer khác Cuối cùng là bias (hệ số tự do) giúp chuẩn hoá trong quá trình cập nhật trọng trọng số Quá trình học (Learning Processing) của ANN thực ra là quá trình điều chỉnh các Weights để có được kết quả mong muốn Hàm tổng (Summation Function) cho phép tính tổng có trọng số của tất cả các input được đưa vào mỗi nơ-ron và giá trị bias Hàm tổng của một nơ-ron đối với N input được tính theo công thức sau:

Kết quả trên sẽ được cho vào một hàm kích hoạt (Activation function) để đánh giá khả năng đi tiếp trong mạng Có nghĩa là liệu output của nơ-ron này có thể được lan truyền đến layer tiếp theo để làm input hay không?

10 Việc lựa chọn hàm kích hoạt rất quan trọng vì nó có tác động lớn đến kết quả của ANN Người ta thường sử dụng các hàm phi tuyến để tăng hiệu năng cho mạng Một số hàm kích hoạt phổ biến sẽ được trình bày rõ ở phần sau.

Các hàm kích hoạt (Activation function)

Có rất nhiều dạng hàm phi tuyến tính có thể sử dụng cho các tầng ẩn Hiện tại không có lý thuyết nào về việc sử dụng hàm phi tuyến tính nào trong trường hợp nào, và cách chọn hàm phi tuyến tính thích hợp cho một tác vụ cụ thể trong thực nghiệm Trong số các hàm phi tuyến tính, các hàm sau được sử dụng nhiều nhất: tanh, sigmoid, rectified linear unit (ReLU)

Hàm tanh có công thức tanh(𝑥) = ! ! !" !" "# $# có dạng chữ S, biến đổi giá trị x vào miền [-1, 1]

Hình 2.1 Đồ thị hàm tanh [22]

Hàm Sigmoid có công thức 𝜎(𝑥) = #$ ! # #" có dạng chữ S, biến đổi giá trị x vào miền [0,1]

Hình 2.2 Đồ thị hàm Sigmoid [22]

Hàm ReLU, là một hàm phi tuyến tính đơn giản để sử dụng và cho kết quả rất tốt trong thực nghiệm Hàm ReLU sẽ biến mỗi giá trị x < 0 thành 0 Mặc dù đơn giản nhưng ReLU lại hiệu quả với nhiều tác vụ, đặc biệt là khi kết hợp với kỹ thuật dropout regularization Hàm ReLU có công thức dạng:

Hình 2.3 Đồ thị hàm ReLU [22]

Hàm chi phí mất mát

Cũng giống như khi huấn luyện một bộ phân loại tuyến tính, khi huấn luyện một mạng nơ-ron ta cũng phải định nghĩa một loss function 𝐿(𝑦1), image score (0 -> 1), face (0 or 1) Sử dụng điểm số trên tập B để tiến hành huấn luyện mô hình kết hợp dựa trên ba đặc trưng văn bản, hình ảnh, gương mặt

- C: sử dụng cả bốn mô hình để dự đoán trên tập C, sau đó so sánh kết quả

Hình 5.3 Minh họa chia tỷ lệ để huấn luyện và kiểm thử.

Huấn luyện mô hình kết hợp

Đề tài sử dụng chiến lược kết hợp chậm, mô hình Logistic Regession và LighGBM để kết hợp thông tin từ các mô hình dựa trên từng đặc trưng riêng lẻ để thử nghiệm kết quả, tuy nhiên mô hình Logistic Regession không nhận đầu vào tham số là NULL, nên

61 khi đặc trưng văn bản bị NULL thì các trường hợp này sẽ xóa luôn khi tiến hành huấn luyện mô hình Logistic Regession Sau đây là đoạn mã xây dựng và huấn luyện mô hình:

Mã chương trình 5.9 Huấn luyện mô hình kết hơp sử dụng Logistic Regession

Mã chương trình 5.9 Mô tả huấn mô hình kết hợp sử dụng Logistic Regession, gồm các bước:

- Sử dụng thư việc Logistic Regression

- Khởi tạo mô hình với tham số mặc định

- Huấn luyện mô hình với các đặc trưng văn bản, hình ảnh, gương mặc đã được trích xuất

Mã chương trình 5.10 Huấn luyện mô hình kết hơp sử dụng LightGBM

Mã chương trình 5.10 Mô tả huấn mô hình kết hợp sử dụng LightGBM, gồm các bước:

- Sử dụng thư việc lightgbm

- Khởi tạo mô hình với tham số mặc định

- Huấn luyện mô hình với các đặc trưng văn bản, hình ảnh, gương mặc đã được trích xuất.

Kết quả của mô hình và nhận xét

Tập dữ liệu

Mô hình được huấn luyện và thử nghiệm theo luồng đã trình bày ở trên, tập dữ liệu tự thu thập được gồm:

- Dữ liệu Video: được thu thập từ tiktok, sau đó tiến hành trích xuất khung chính, trong đó:

Liên quan đến chính trị Phi chính trị

Bảng 5.1 Số dữ liệu video và khung chính

Chuyển giọng nói thành văn bản từ video tiktok:

Liên quan đến chính trị Phi chính trị

Bảng 5.2 Số lượng chuyển giọng nói thành văn bản

63 + Các video còn lại chứa nhạc nền, không phải là giọng đọc hay lời nói

+ Sau đó nối với mô tả video, thu được văn bản để trích xuất đặc trưng.

Thử nghiệm và đánh giá kết quả

Tiến hành thử nghiệm và đánh giá kết quả trên tập dữ liệu 10.000 videos đã thu thập và gán nhãn tự động theo hashtag:

Hình 5.4 Cho thấy số lượng giữ liệu của từng nhãn ở lần kiểm thử đầu tiên

Sau khi thử nghiệm các mô hình dựa trên từng đặc trưng riêng lẻ và mô hình dựa trên phương pháp kết hợp chậm, nhận thấy phương pháp kết hợp chậm với mô hình Light GBM cho kết quả độ đo Acurraycy [22] và F1-Score [22] tốt nhất, cụ thể được thể hiện trong bảng sau:

Bảng 5.3 Kết quả của các mô hình sau lần kiểm thử đầu tiên

Sau khi thử nghiệm và đánh giá lần một nhận thấy kết quả chưa được tốt và quan sát thấy dữ liệu bị gán nhãn sai nhiều, tiến hành gắn nhãn thủ công thu được khoảng 9.000 videos, sau đây là đồ thị thể hiện tập dữ liệu sau khi gán nhãn thủ công lại:

Hình 5.5 Cho thấy số lượng giữ liệu của từng nhãn ở lần kiểm thử lần hai

65 Sau khi thử nghiệm các mô hình dựa trên từng đặc trưng riêng lẻ và mô hình dựa trên phương pháp kết hợp chậm trên tập dữ liệu được gắn nhãn thủ công cho kết quả tốt hơn hẳn so với trên tập dữ liệu được gắn nhãn tự động bằng hashtag, cụ thể được thể hiện trong bảng sau:

Bảng 5.4 Kết quả của các mô hình sau lần kiểm thử lần hai

Kết quả thử nghiệm cho thấy, Frameword được đề xuất cho kết quả độ chính xác tốt nhất đạt 0.93

Bên cạnh đó, Ligh GBM còn đưa ra độ quan trọng của các đặc trưng, theo đó hình ảnh có ảnh hưởng nhất đến kết quả phân loại của mô hình

Hình 5.6 Mô tả mức độ quan trọng của từng đặc trưng trong việc phân loại cấp độ video.

Xây dựng ứng dụng thử nghiệm

Để thuận tiện cho việc trải nghiệm tính chính xác của framework, tác giả đóng gói các thư viện thu thập dữ liệu, các mô hình đã được huấn luyện, và nhúng vào một tệp mã nguồn python duy nhất có tên predict.py; lệnh command line để sử dụng như sau:

Hình 5.7 Khởi chạy tệp predcit.py với tham số là id của video Tiktok Đầu vào nhận là id video Tiktok, và hiển thị kết quả các thông tin sau khi thu thập, xử lý video, kết quả phân loại dựa trên từng đặc trưng riêng lẻ và kết hợp các mô hình Video có liên quan đến chính trị khi điểm số của kết hợp các mô hình lớn hơn 0.8 Ngoài ra, đề tài có xây dựng thêm giao diện ứng dụng người dùng:

Hình 5.8 Giao diện người dùng cho ứng dụng nhận diện video có yếu tố chính trị Việt

Nam trên mạng xã hội Tiktok

Người dùng nhập đường dẫn url tiktok và nhấn nút dự đoán, ứng dụng sẽ hiển thị các thông tin của video như: tiêu đề, hình ảnh đầu tiên, và kết quả dự đoán video có yếu tố chính trị hay không

Hình 5.9 Ứng dụng người dùng dự đoán video

Các kết quả đạt được

- Thu thập và xử lý 10.000 videos từ mạng xã hội Tiktok

- Thu thập 8.500 bài viết từ các trang web vnexpress.net, chinhphu.vn, vietnamnet.vn để phục vụ cho quá trình huấn luyện và kiểm thử các mô hình dựa trên đặc trưng văn bản

- Tìm hiểu các kiến thức nền tảng về phân loại văn bản, phân loại video, nhận diện gương mặt

- Tìm hiểu các công trình phân loại video dựa trên đa đặc trưng và kết hợp đa mô hình;

- Đề xuất framework phân loại video dựa trên ba đặc trưng của video là văn bản, gương mặt, hình ảnh; sử dụng chiến lược kết hợp chậm để tổng hợp thông tin từ ba mô hình từ đó đưa ra kết quả phân loại ở cấp độ video

- Huấn luyện, tối ưu và thử nghiệm framwork trên tập dữ liệu thu thập được; kết quả thử nghiệm của framework cho kết quả tốt hơn so với các mô hình dựa trên từng đặc trưng riêng lẻ cũng như phương pháp kết hợp thông thường Cụ thể độ chính xác tốt nhất của framework đạt 0.93, và mô hình dựa trên từng đặc trưng văn bản, gương mặt, hình ảnh lần lượt là 0.88, 0.68, 0.88.

- Sử dụng chiến lược kết hợp chậm để đưa ra phân loại ở cấp độ video bằng cách áp dụng gradient boosting (mô hình Light GBM) vào bài toán phân loại, đối với phương pháp này mô hình cho phép đầu vào là giá trị null nhằm giải quyết vấn đề thiếu dữ liệu của các đặc trưng, và đưa ra được trọng số tầm quan trọng của các đặc trưng trong việc phân loại video

- Ngoài ra, Với những video có gương mặt chính trị gia nhưng nội dung không liên quan với chính trị thì framework cũng có thể phân loại được, bằng cách sử dụng mô hình kết hợp chậm ba đặc trưng là hình ảnh, gương mặt

Khó khăn và hạn chế

Các khó khăn gặp phải:

- Tiktok không có API để các nhà phát triển thu thập dữ liệu, cũng như có chính sách chặn các chương trình thu thập dữ liệu, vì vậy việc thu thập dữ liệu để phục vụ đề tài gặp nhiều khó khăn, tác giả phải thuê proxy, random session, token key để có thể thu thập đủ dữ liệu thực hiện đề tài

- Việc gắn nhãn tự động bằng hashtag cho video thu thập được từ Titkok bị sai nhiều, do các hashtag do người dùng nhập không chính xác, thậm chí không thống nhất với nội dung video, vì vậy tác giả phải gẵn nhãn lại bằng cách thủ công

- Quá trình huấn luyện các mô hình tốn nhiều thời gian do hạn chế tài nguyên

- Do sự hạn chế về nhân lực và tài nguyên, vì vậy đề tài chỉ thu thập được 10.000 videos, với số lượng video hạn chế như vậy, đề tài không ứng dụng được các mô hình học sâu kết hợp yếu tố không-thời gian như: CNN Fusion [1], CNN-LSTM [6], LR-CN [6]

- Cơ sở dữ liệu để nhận diện gương mặt chỉ bao gồm một số lãnh đạo trong Bộ chính trị, Bộ trưởng trong chính phủ Việt Nam

- Chưa hiện thực OCR (Optical Character Recognition – nhận diện ký tự quang học) để bổ sung vào đặc trưng văn bản

- Do tác giả gắn lại nhãn thủ công cho các video Tiktok nên còn mang yếu tố chủ quan.

Hướng mở rộng của đề tài

- Tiếp tục thu thập thêm dữ liệu, đủ để triển khai các mô hình phân loại video dựa trên đặc trưng hình ảnh kết hợp yếu tố không-thời gian: CNN Fusion [1], CNN- LSTM [6], LR-CN [6]

- Mở rộng dữ liệu về gương mặt của các chính trị gia, để có thể áp dụng một mô hình nhận diện gương mặt, hoặc triển khai một cơ sở dữ liệu cho phép tìm kiếm gần đúng để có thể nhận diện gương mặt tốt hơn

- Xây dựng hệ thống thu thập, phân loại video có yếu tốt chính trị Việt Nam tự động; dựa vào lượt thích, bình luận, chia sẻ của video để đưa ra cảnh báo, sau khi được đánh nhãn, sẽ tự động huấn luyện lại mô hình

- Sau khi phân loại, các video có thể được tự động tóm tắt nội dung, mục đích của video, trích xuất ý chính từ video Từ đó có thể nhóm các video vào một sự kiện để tổng quát hóa

Tiêu đề	Nhận diện các video có yếu tố chính trị Việt Nam trên mạng xã hội tiktok
Tác giả	Nguyễn Bình Long
Người hướng dẫn	PGS.TS Đặng Trần Khánh, PGS.TS Lê Hồng Trang
Trường học	Đại học Quốc Gia TP. HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	89
Dung lượng	3,1 MB