Luận văn thạc sĩ Khoa học máy tính: Cách tiếp cận học sâu cho việc phát hiện bot trên twitter sử dụng mạng nơ-ron đồ thị

Vì vậy, việcphát triển các biện pháp phòng ngừa và đối phó hiệu quả để ngăn chặn hoạt động sai trái của botxã hội và giảm thiểu hậu quả nghiêm trọng của chúng là một nhiệm vụ cấp thiết,

Giới thiệu chung

Trong hơn thập kỷ qua, mạng xã hội đã trở thành một trong những công cụ truyền thông phổ biến và ảnh hưởng nhất trên Internet Các nền tảng này cho phép người dùng tạo hồ sơ cá nhân, kết nối, tương tác và chia sẻ thông tin với nhau, tạo nên một không gian xã hội sôi động và đa dạng Sự phát triển vượt bậc của mạng xã hội đã khiến chúng trở thành một phần không thể thiếu trong đời sống hàng ngày của hàng tỷ người trên toàn cầu Đặc biệt, trong bối cảnh đại dịch COVID-19 lan rộng toàn cầu, khi con người phải đối mặt với nhiều thách thức trong việc duy trì các hoạt động thường nhật, mạng xã hội đã trở thành một kênh quan trọng để tìm kiếm thông tin về sức khỏe và kết nối với cộng đồng Điều này nhấn mạnh tầm quan trọng của các nền tảng mạng xã hội như một phương tiện truyền thông thiết yếu trong các tình huống khẩn cấp và khủng hoảng toàn cầu [1].

Tuy nhiên, sự phát triển nhanh chóng của mạng xã hội cũng mang đến những thách thức đáng kể Một trong những mối đe dọa lớn nhất đối với tính toàn vẹn và độ tin cậy của các nền tảng này là sự xuất hiện ngày càng nhiều của các bot xã hội tự động, hay còn gọi là spambot. Những bot này thực hiện các hoạt động độc hại như phát tán phần mềm độc hại, quảng bá các trang web lừa đảo và đăng tải nội dung rác Chúng hoạt động một phần hoặc hoàn toàn tự động, thường được thiết kế để giả mạo hành vi của con người nhằm qua mặt các cơ chế phát hiện của nền tảng Ước tính cho thấy bot độc hại chiếm một tỷ lệ đáng kể trong tổng số tài khoản trên mạng xã hội, gây ra nhiều hậu quả tiêu cực.

Quy mô của vấn đề bot xã hội đã được làm rõ trong nhiều nghiên cứu Theo Varol và cộng sự [49], từ 9% đến 15% tài khoản trên Twitter là bot, tương đương với khoảng 48 triệu tài khoản 1 Một nghiên cứu khác cũng ước tính rằng các bot xã hội đóng góp tới 35% nội dung được đăng tải trên nền tảng này [2] Những con số này cho thấy mức độ nghiêm trọng của vấn đề và sự cần thiết phải có các giải pháp hiệu quả để đối phó.

Cộng đồng nghiên cứu đã nỗ lực giải quyết các thách thức liên quan đến việc sử dụng tài khoản tự động trên mạng xã hội Mục tiêu chính là ngăn chặn sự lan truyền của nội dung rác, liên kết lừa đảo và sự thao túng của các tài khoản thật thông qua chiếm đoạt và lừa dối người dùng Đáng chú ý, những cá nhân kiểm soát bot (botmaster), những người quản lý các nhóm bot xã hội, thường đóng vai trò then chốt trong các hoạt động độc hại này và là mục tiêu quan trọng của các nỗ lực phát hiện và ngăn chặn.

Sự hiện diện của bot xã hội không chỉ gây ra các hoạt động gian lận và lừa đảo, mà còn tác

1 https://expandedramblings.com/index.php/twitter-stats-facts/ động tiêu cực đến toàn bộ môi trường trực tuyến Chúng tạo ra nhiều mối quan hệ xã hội giả tạo, làm suy yếu chất lượng nội dung và gây ảnh hưởng xấu đến trải nghiệm của người dùng thực. Bot xã hội cũng có khả năng tổng hợp thông tin từ web để mạo danh người khác, bắt chước hành vi con người một cách tinh vi, gây khó khăn cho việc phát hiện và loại bỏ chúng Vì vậy, việc phát triển các biện pháp phòng ngừa và đối phó hiệu quả để ngăn chặn hoạt động sai trái của bot xã hội và giảm thiểu hậu quả nghiêm trọng của chúng là một nhiệm vụ cấp thiết, đòi hỏi sự nỗ lực của cả cộng đồng nghiên cứu và các nền tảng mạng xã hội.

Mục tiêu đề tài

Trong bối cảnh sự bùng nổ của mạng xã hội và những thách thức ngày càng gia tăng từ các tài khoản bot độc hại, nghiên cứu này tập trung vào việc khảo sát, đánh giá một cách toàn diện và hệ thống các phương pháp tiên tiến nhất trong lĩnh vực phát hiện bot xã hội Trên cơ sở đó, luận văn đề xuất một giải pháp đột phá, một mô hình học sâu tiên tiến, nhằm giải quyết vấn đề phát hiện bot một cách hiệu quả, chính xác và toàn diện hơn so với các phương pháp hiện có.

Cụ thể, mô hình học sâu được đề xuất sẽ tích hợp bốn loại thông tin quan trọng, bao gồm:

1 Các thuộc tính đa dạng và phong phú của người dùng: Mô hình sẽ khai thác triệt để các thuộc tính và đặc trưng ở nhiều khía cạnh khác nhau của người dùng, bao gồm thông tin hồ sơ, hành vi tương tác, lịch sử hoạt động, v.v Việc tận dụng tối đa các thông tin này sẽ giúp mô hình nắm bắt chính xác và toàn diện hơn về đặc điểm của từng cá nhân, từ đó phân biệt hiệu quả giữa người dùng thật và bot.

2 Ngữ nghĩa phong phú của các tweet: Bên cạnh việc xem xét các thuộc tính của người dùng, mô hình còn đi sâu vào phân tích ngữ nghĩa của từng tweet Bằng cách áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến, mô hình sẽ trích xuất và khai thác triệt để các thông tin ngữ nghĩa phong phú, bao gồm từ vựng, cấu trúc ngữ pháp, ngữ điệu, phong cách diễn đạt, v.v Những thông tin này sẽ cung cấp những tín hiệu quan trọng để phân biệt giữa tweet do con người tạo ra và tweet được tạo bởi bot.

3 Mối quan hệ phức tạp giữa các tweet: Không chỉ xem xét từng tweet riêng lẻ, mô hình còn khai thác và mô hình hóa mối quan hệ phức tạp giữa các tweet Thông qua việc phân tích các mối liên kết ngữ nghĩa, chủ đề, thời gian, v.v giữa các tweet, mô hình sẽ tạo ra một cấu trúc mạng phức tạp, cho phép nắm bắt và khai thác hiệu quả các mối quan hệ đa chiều giữa các tweet Điều này sẽ cung cấp thêm những tín hiệu mạnh mẽ để phát hiện các hành vi bất thường hoặc dấu hiệu của bot.

4 Mối quan hệ đa chiều giữa các tài khoản: Mô hình sẽ đi xa hơn việc chỉ xem xét từng tài khoản riêng lẻ, mà còn mô hình hóa và khai thác mối quan hệ đa chiều giữa các tài khoản. Thông qua việc xây dựng các mạng kết nối dựa trên tương tác, lan truyền thông tin, và các mối liên hệ khác giữa các tài khoản, mô hình sẽ tạo ra một bức tranh tổng thể về cấu trúc cộng đồng và mối quan hệ phức tạp trong mạng xã hội Điều này cho phép phát hiện các nhóm bot có tổ chức, các chiến dịch lan truyền tin giả, và các hành vi bất thường khác ở cấp độ mạng lưới. Điểm mạnh và sự khác biệt của mô hình học sâu được đề xuất nằm ở khả năng học và khai thác đồng thời, hiệu quả các đặc trưng và mối quan hệ đa chiều từ nhiều góc độ khác nhau của dữ liệu, bao gồm thuộc tính người dùng, ngữ nghĩa tweet, mối quan hệ giữa tweet, và mối quan hệ giữa tài khoản Sự tích hợp toàn diện này cho phép mô hình đưa ra những dự đoán chính xác và tin cậy về xác suất một tweet hoặc tài khoản cụ thể là bot Thông qua nghiên cứu này, học viên kỳ vọng đóng góp một bước tiến quan trọng trong lĩnh vực phát hiện bot xã hội, vượt trội hơn so với các phương pháp hiện có Giải pháp đề xuất hứa hẹn sẽ nâng cao đáng kể hiệu quả và độ chính xác trong việc nhận diện và loại bỏ bot, từ đó góp phần quan trọng vào nỗ lực đảm bảo một môi trường mạng xã hội an toàn, lành mạnh và đáng tin cậy Đồng thời, những đóng góp khoa học và kỹ thuật của luận văn cũng sẽ mở ra những hướng nghiên cứu mới, thúc đẩy sự phát triển của lĩnh vực này trong tương lai.

Giới hạn phạm vi và đối tượng nghiên cứu

Để đảm bảo tính khả thi, hiệu quả và sự tập trung trong khuôn khổ của một luận văn thạc sĩ, học viên xin đề xuất các giới hạn cụ thể và rõ ràng về phạm vi và đối tượng nghiên cứu như sau:

1 Phạm vi nghiên cứu: luận văn này tập trung vào việc phân tích, xử lý và khai thác dữ liệu thu thập từ nền tảng mạng xã hội Twitter Sự lựa chọn Twitter như một phạm vi nghiên cứu chính đặt nền tảng vững chắc cho đóng góp khoa học của luận văn Twitter hiện là một trong những mạng xã hội lớn nhất và phổ biến nhất trên toàn cầu, với hàng trăm triệu người dùng tích cực Nền tảng này tạo ra một lượng dữ liệu khổng lồ, phong phú và đa dạng, bao gồm các thông tin về người dùng, nội dung tweet, tương tác và mối quan hệ giữa các tài khoản Đồng thời, Twitter cũng là môi trường hoạt động tích cực của nhiều loại bot xã hội, từ các bot thương mại, bot chính trị, đến các bot độc hại và lừa đảo Việc tập trung vào Twitter cho phép nghiên cứu đi sâu vào một bối cảnh cụ thể, đại diện và thách thức, từ đó đưa ra những đóng góp thiết thực và ý nghĩa.

• Tập dữ liệu thí nghiệm: Để đảm bảo tính tin cậy, khách quan và so sánh được với các nghiên cứu khác trong lĩnh vực, luận văn sử dụng tập dữ liệu chuẩn và được công nhận rộng rãi - tập dữ liệu Cresci-2015 Đây là một tập dữ liệu toàn diện và đa dạng, được xây dựng bởi các chuyên gia hàng đầu, dành riêng cho mục đích nghiên cứu và đánh giá các phương pháp phát hiện bot xã hội Tập dữ liệu bao gồm một số lượng lớn các tài khoản người dùng thật và bot, được thu thập và gán nhãn một cách cẩn thận Ngoài ra, tập dữ liệu còn cung cấp một loạt các thông tin phong phú, bao gồm nội dung tweet, thuộc tính người dùng, mối quan hệ và tương tác giữa các tài khoản Đặc biệt, tập dữ liệu chứa thông tin chi tiết về mối quan hệ giữa các tài khoản, bao gồm số lượng người theo dõi (follower) và số lượng người mà một tài khoản đang theo dõi (following) Những thông tin này rất quan trọng để hiểu và mô hình hóa cấu trúc mạng xã hội, cũng như phát hiện các dấu hiệu bất thường liên quan đến bot Sự đa dạng và toàn diện này cho phép nghiên cứu khai thác tối đa các khía cạnh khác nhau của dữ liệu, từ đó xây dựng và đánh giá các mô hình phát hiện bot một cách hiệu quả và tin cậy.

• Mô hình học sâu: Trọng tâm của luận văn là việc nghiên cứu, ứng dụng và phát triển các mô hình học sâu tiên tiến, đặc biệt là Mạng nơ-ron đồ thị (Graph Neural Network - GNN) và các biến thể của chúng GNN là một lớp mô hình mạnh mẽ và linh hoạt, được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc đồ thị phức tạp, như dữ liệu mạng xã hội Thông qua việc kết hợp các lớp tích chập đồ thị và các cơ chế truyền thông tin, GNN có khả năng học và khai thác hiệu quả các đặc trưng và mối quan hệ phức tạp, đa chiều trong dữ liệu Các biến thể và mở rộng của GNN như GAT còn cho phép mô hình thích ứng và tối ưu hóa cho các bối cảnh và yêu cầu cụ thể Những mô hình này đã thể hiện tiềm năng to lớn và đạt được kết quả ấn tượng trong nhiều ứng dụng liên quan đến dữ liệu đồ thị,như dự đoán liên kết, phân loại nút, hay phát hiện cộng đồng Bên cạnh đó, để khai thác hiệu quả thông tin ngữ nghĩa phong phú trong nội dung tweet, luận văn sử dụng mô hìnhSentenceTransformer (SBERT) để mã hóa văn bản thành các vector đặc trưng SBERT là một mô hình encoder dựa trên kiến trúc transformer, đã được tinh chỉnh trên nhiều tập dữ liệu lớn theo hướng tiếp cận self-supervised learning, giúp học các biểu diễn ngữ nghĩa phong phú và thích ứng Việc sử dụng các biểu diễn ngữ nghĩa từ SBERT như một thành phần đầu vào quan trọng của GNN sẽ giúp mô hình nắm bắt tốt hơn ngữ nghĩa và ngữ cảnh của các tweet, từ đó nâng cao khả năng phát hiện bot Việc tập trung nghiên cứu và phát triển các mô hình GNN kết hợp với SBERT cho phép luận văn đưa ra những đóng góp mới mẻ, tiên phong và có giá trị khoa học cao trong lĩnh vực phát hiện bot xã hội.

• Phương pháp đánh giá: Để đánh giá một cách toàn diện và khách quan hiệu quả của các mô hình đề xuất, luận văn sử dụng một bộ các độ đo phổ biến và được công nhận rộng rãi trong cộng đồng học máy Bộ độ đo này bao gồm Độ chính xác tổng quát (Accuracy), Độ chính xác về mặt dương tính (Precision), Độ nhạy (Recall) và Điểm F1 (F1 Score). Accuracy cho biết tỷ lệ dự đoán đúng trên tổng số mẫu, phản ánh khả năng tổng quát của mô hình Precision đo lường mức độ chính xác trong số các dự đoán dương tính, tập trung vào khả năng tránh dự đoán sai các tài khoản thật Recall đánh giá khả năng phát hiện đúng các tài khoản bot trong tập dữ liệu F1 Score là trung bình điều hòa của Precision và Recall, cung cấp một độ đo cân bằng và tổng quát Việc sử dụng đồng thời nhiều độ đo cho phép đánh giá toàn diện và chi tiết các khía cạnh khác nhau trong hiệu quả của mô hình, từ đó có cái nhìn sâu sắc và khách quan về khả năng phát hiện bot trong các điều kiện và ngữ cảnh khác nhau.

3 Giới hạn về thời gian nghiên cứu: Để đảm bảo tính khả thi và hiệu quả, cũng như phù hợp với yêu cầu của một luận văn thạc sĩ, thời gian thực hiện luận văn được giới hạn trong vòng

1 năm kể từ thời điểm bắt đầu Trong khoảng thời gian này, các hoạt động chính bao gồm: (1) Tổng quan và phân tích sâu các nghiên cứu liên quan trong tài liệu tham khảo; (2) Thu thập, tiền xử lý và phân tích dữ liệu; (3) Thiết kế, xây dựng và tối ưu hóa các mô hình học sâu; (4) Tiến hành các thử nghiệm, đánh giá và so sánh các mô hình trên tập dữ liệu chuẩn; (5) Phân tích, diễn giải kết quả và rút ra các kết luận khoa học; (6) Viết báo cáo luận văn và kết quả đạt được.

Mạng xã hội Twitter và bot mạng xã hội

Twitter

Twitter là một trong những nền tảng mạng xã hội và microblogging hàng đầu trên thế giới, cho phép người dùng chia sẻ và tương tác với các thông điệp ngắn gọn được gọi là ”tweets”. Với Twitter, người dùng chưa đăng ký chỉ có quyền truy cập vào các tweets công khai, trong khi người dùng đã xác thực danh tính có thể tạo, thích và chia sẻ lại (retweet) các nội dung của mình cũng như của người khác Sự tiện lợi và đa dạng trong cách thức truy cập Twitter, thông qua trình duyệt web hoặc ứng dụng di động, đã góp phần không nhỏ vào sự phổ biến của mạng xã hội này trên toàn cầu.

Sức ảnh hưởng và tầm quan trọng của Twitter trong xã hội hiện đại là không thể phủ nhận. Tính đến tháng 4 năm 2022, Twitter ghi nhận có trung bình 229 triệu người dùng hoạt động hàng ngày trong quý đó, tăng thêm ấn tượng 14 triệu người dùng so với quý trước 1 Đây là minh chứng rõ nét cho sự tăng trưởng mạnh mẽ và ổn định của nền tảng, bất chấp sự cạnh tranh gay gắt từ các đối thủ khác trong lĩnh vực mạng xã hội.

Twitter không chỉ là một không gian để con người kết nối và chia sẻ cuộc sống hàng ngày, mà còn là một công cụ truyền thông đắc lực cho các cá nhân, tổ chức và doanh nghiệp Nhiều nhân vật nổi tiếng, chính trị gia và thương hiệu lớn đã tận dụng sức mạnh của Twitter để tương tác trực tiếp với công chúng, truyền tải thông điệp và xây dựng hình ảnh Bên cạnh đó, Twitter cũng đóng vai trò quan trọng trong việc lan truyền tin tức, thông tin và các sự kiện nóng hổi nhất trên toàn cầu Trong nhiều trường hợp, Twitter trở thành nguồn tin chính thống và kịp thời nhất, đi trước cả các phương tiện truyền thông truyền thống.

Tuy nhiên, sự phát triển của Twitter cũng đi kèm với những thách thức không nhỏ Một trong số đó là sự xuất hiện ngày càng nhiều của các tài khoản tự động (bot) trên nền tảng Những bot này, vốn được lập trình để bắt chước hành vi của người dùng thật, đã gây ra nhiều tác động tiêu cực như lan truyền thông tin sai lệch, thao túng dư luận và làm giảm chất lượng trải nghiệm của người dùng chân chính Chính vì vậy, việc nghiên cứu và phát triển các phương pháp hiệu quả để phát hiện và ngăn chặn các bot trên Twitter trở nên vô cùng cấp thiết, nhằm đảm bảo một môi trường mạng lành mạnh, minh bạch và đáng tin cậy.

1 https://www.aljazeera.com/economy/2022/4/28/twitter-daily-user-growth-rises-as-mus k-readies-to-take-control

Các mối quan hệ trên Twitter

Trên nền tảng Twitter, ”Số lượng người theo dõi” đóng vai trò là chức năng chính và duy nhất để thiết lập mối liên kết giữa các người dùng Khi một người dùng 𝐴quyết định theo dõi người dùng 𝐵, tên của người dùng 𝐵 sẽ được tự động thêm vào danh sách ”Đang theo dõi” (Following list) của người dùng𝐴, đồng thời người dùng 𝐴cũng sẽ xuất hiện trong danh sách

”Người theo dõi” (Follower list) của người dùng𝐵 Cơ chế này tạo nên mạng lưới các mối quan hệ một chiều trên Twitter, trong đó với mỗi tài khoản, ta có thể dễ dàng truy xuất danh sách các người dùng mà tài khoản đó đang theo dõi cũng như danh sách các người dùng đang theo dõi tài khoản.

Bên cạnh thuật ngữ ”Người theo dõi”, khái niệm ”Bạn bè” (friends) cũng thường được sử dụng trong ngữ cảnh mối quan hệ trên Twitter Tuy nhiên, cần lưu ý rằng định nghĩa của ”Bạn bè” không hoàn toàn thống nhất giữa các nghiên cứu Một số học viên cho rằng ”Bạn bè” là những người dùng mà một tài khoản đang theo dõi và đồng thời cũng được tài khoản đó theo dõi lại, tạo nên mối quan hệ hai chiều Mặt khác, trong tài liệu chính thức của Twitter, thuật ngữ

”Bạn bè” lại được sử dụng như một từ đồng nghĩa với ”Những người đang theo dõi” (following), chỉ các tài khoản mà một người dùng đang theo dõi Để tránh sự nhầm lẫn và đảm bảo tính nhất quán, trong phạm vi luận văn này, chúng ta sẽ không sử dụng thuật ngữ ”Bạn bè” khi đề cập đến các mối quan hệ trên Twitter.

Việc nắm bắt và phân tích cấu trúc mạng lưới người dùng trên Twitter đóng vai trò quan trọng trong nhiều ứng dụng, đặc biệt là trong lĩnh vực phát hiện bot xã hội Các mối quan hệ theo dõi một chiều và mối tương quan giữa danh sách người theo dõi và danh sách đang theo dõi có thể cung cấp những thông tin quý giá về hành vi và đặc điểm của người dùng Chẳng hạn, một tài khoản có số lượng người theo dõi lớn hơn nhiều so với số lượng người mà nó đang theo dõi có thể là dấu hiệu của một người dùng nổi tiếng hoặc có ảnh hưởng Ngược lại, các tài khoản bot thường có xu hướng theo dõi nhiều người dùng khác một cách ngẫu nhiên để thu hút sự chú ý và tăng mức độ tương tác.

Bằng việc khai thác các đặc trưng và mối quan hệ trong mạng lưới người dùng Twitter, các nhà nghiên cứu và các giải pháp phát hiện bot có thể xây dựng các mô hình máy học hiệu quả để nhận diện và phân biệt giữa người dùng thật và bot Đây là một hướng tiếp cận quan trọng và đầy triển vọng trong cuộc chiến chống lại các tài khoản tự động độc hại trên nền tảng mạng xã hội này.

Tweets

Tweets là một trong những tính năng cốt lõi của Twitter, cho phép người dùng chia sẻ câu chuyện, kinh nghiệm và quan điểm của mình với cộng đồng rộng lớn trên nền tảng Ban đầu, tweets bị giới hạn ở độ dài tối đa 140 ký tự, tuy nhiên, giới hạn này đã được nâng lên thành 280 ký tự cho hầu hết các ngôn ngữ, ngoại trừ tiếng Trung, tiếng Nhật và tiếng Hàn (CJK) Bên cạnh nội dung văn bản, tweets còn có thể bao gồm các phương tiện đa dạng như hình ảnh, âm thanh và video, với điều kiện đoạn âm thanh hoặc video không vượt quá 140 giây (áp dụng cho phần lớn các tài khoản) Về bản chất, tweets tương tự như các hình thức truyền thông kỹ thuật số khác như email, bài viết blog hoặc bài đăng trên các mạng xã hội như Facebook hay LinkedIn Người dùng Twitter có thể tương tác với tweets thông qua các hoạt động cơ bản sau:

• Đăng tweet:Chia sẻ công khai nội dung với tất cả thành viên của nền tảng (hoặc chỉ với những người theo dõi nếu tài khoản được đặt ở chế độ bảo vệ, tùy thuộc vào cài đặt quyền riêng tư của người dùng).

• Thích tweet:Thể hiện sự quan tâm, đồng tình hoặc ủng hộ đối với một tweet cụ thể Về nguyên tắc, một tweet có số lượt thích cao sẽ có khả năng tiếp cận nhiều người dùng hơn, kể cả những người chưa từng nhìn thấy tweet đó trước đây (với điều kiện tweet được đặt ở chế độ công khai).

• Retweet:Khi một người dùng retweet một tweet, điều này đồng nghĩa với việc họ đang chuyển tiếp nội dung của tweet đó đến những người theo dõi của mình Hành động retweet thường thể hiện sự đồng ý, tin tưởng hoặc đánh giá cao đối với nội dung của tweet gốc. Tính năng này tương tự như chức năng chia sẻ trên các nền tảng mạng xã hội khác.

• Trả lời tweet:Tham gia thảo luận hoặc bình luận về nội dung của một tweet Chức năng này tương đương với tính năng bình luận trên các mạng xã hội khác. Đáng lưu ý, trên Twitter, các hoạt động retweet và trả lời cũng được coi là một dạng tweet, tuy nhiên chúng được phân loại vào các thể loại khác nhau Ngoài ra, trong nội dung của một tweet,người dùng có thể sử dụng ba loại mã thông báo đặc biệt Thứ nhất, để đề cập đến một người dùng khác, ta có thể sử dụng ký hiệu “@” theo sau bởi tên người dùng mục tiêu Thứ hai, để gắn nhãn hoặc phân loại tweet theo các chủ đề cụ thể, người dùng có thể sử dụng hashtag, được đánh dấu bằng ký hiệu “” đứng trước từ khóa Cuối cùng, người dùng có thể chèn các siêu liên kết (hyperlinks) vào trong nội dung tweet, cho phép những người đọc truy cập trực tiếp đến các nguồn tài nguyên bên ngoài thông qua trình duyệt web.

Bot mạng xã hội

Định nghĩa:Bot mạng xã hội (hay còn gọi là bot xã hội) là các chương trình máy tính được thiết kế để tự động hóa các hoạt động và mô phỏng hành vi của con người trên các nền tảng mạng xã hội Nền tảng của các bot xã hội dựa trên sự kết hợp của trí tuệ nhân tạo, phân tích dữ liệu lớn và các chương trình hoặc cơ sở dữ liệu chuyên biệt, cho phép chúng hoạt động như những người dùng hợp lệ trên không gian mạng xã hội Việc phân biệt rõ ràng giữa bot xã hội và bot nói chung là rất quan trọng Bot (viết tắt của robot) là một thuật ngữ chung để chỉ các chương trình máy tính tự động thực hiện các tác vụ được định sẵn theo chu kỳ hoặc đáp ứng với các sự kiện kích hoạt Trên môi trường mạng xã hội, các loại bot phổ biến bao gồm bot trình duyệt web, bot trò chuyện, người chơi máy tính ảo và bot xã hội Như vậy, bot xã hội chỉ là một loại bot đặc thù, và điểm khác biệt then chốt của chúng là khả năng bắt chước hành vi của con người trong không gian mạng xã hội Để thuận tiện cho việc trình bày, trong các phần tiếp theo của luận văn, thuật ngữ “bot” sẽ được sử dụng để chỉ riêng “bot xã hội”, mặc dù chúng có nguồn gốc khác biệt Sự hiện diện của bot xã hội được chấp nhận trên một số nền tảng mạng xã hội, do chúng đã chứng minh được giá trị và lợi ích trong một số trường hợp nhất định Những bot được sử dụng theo cách hữu ích này thường được gọi là bot hữu ích Các bot hữu ích có thể:

• Tự động đăng tải thông tin cập nhật khi có sự kiện quan trọng xảy ra.

• Tạo ra nội dung giải trí, hài hước hoặc tổng hợp tin tức từ nhiều nguồn.

• Hỗ trợ tìm kiếm từ khóa và phát hiện các hoạt động đáng ngờ hoặc nguy hiểm.

• Cung cấp dịch vụ chăm sóc khách hàng hoặc hỗ trợ lập lịch đăng bài cho các thương hiệu.

Tuy nhiên, việc sử dụng bot xã hội một cách tham lam và không thích hợp đã biến chúng thành một mối đe dọa đáng kể Những bot này thường được gọi là bot độc hại Bot độc hại có thể:

• Làm tăng giả số lượng người theo dõi và chia sẻ bài viết để tạo ra ảo tưởng về sự ảnh hưởng và phổ biến.

• Gây quá tải hoặc phá hoại danh tiếng của các tài khoản mục tiêu, thậm chí gây ra sự gián đoạn hoạt động.

• Lừa đảo, đánh cắp thông tin cá nhân hoặc quảng cáo sản phẩm một cách sai trái.

• Lan truyền thông tin sai lệch về chính trị, hạn chế quyền tự do ngôn luận và gây ảnh hưởng tiêu cực đến quá trình dân chủ.

Bot xã hội trên Twitter

Trên nền tảng Twitter, bot xã hội có khả năng tự động thực hiện nhiều hành động như đăng tweet, retweet, thích, theo dõi, hủy theo dõi hoặc gửi tin nhắn trực tiếp Như đã đề cập, sự hiện diện của bot xã hội được chấp nhận trên một số mạng xã hội Đối với Twitter, các bot này không bị hạn chế hoàn toàn, miễn là chúng tuân thủ các quy tắc tự động hóa do nền tảng đặt ra 2 Twitter trở thành một trong những mạng xã hội thu hút nhiều bot xã hội nhất, một phần do đặc thù về độ dài ngắn gọn của các tweet Với giới hạn ký tự trong mỗi tweet, khả năng sử dụng ngôn ngữ tự nhiên một cách tinh vi của các bot trở nên khó nhận biết hơn, giúp chúng dễ dàng hòa lẫn vào môi trường mạng xã hội.

Hồi quy Logistic

Hồi quy Logistic là một phương pháp phân loại nhị phân, được xây dựng bởi một hàm nhận giá trị thực bất kỳ và trả về giá trị thuộc miền (0,1) Thú vị là hồi quy Logistic không phải là một hồi quy, tên gọi này xuất phát từ thống kê và là do công thức toán học của hồi quy Logistic tương tự như hồi quy tuyến tính.

Hàm được sử dụng trong hồi quy Logistic là hàm sigmoid (hay hàm logistic tiêu chuẩn): ˆ

• 𝑤và𝑏là trọng số và độ lệch.

• 𝑥 là đầu vào. Đồ thị của hàm sigmoid được miêu tả trong hình 2.4a Trong phân loại nhị phân, nếu ta xác định nhãn âm là 0 và nhãn dương là 1, thì nếu giá trị trả về từ hàm sigmoid cho đầu vào𝑥 gần với 0, ta gán nhãn âm cho𝑥; ngược lại, ví dụ, nếu giá trị trả về từ hàm sigmoid gần với 1, ta gán nhãn dương cho𝑥 Dòng chảy đó, đầu ra của hàm sigmoid là xác suất của một ví dụ được gán nhãn dương:

Kỹ thuật tiền xử lý văn bản

Tách từ (Word Tokenization)

Tách từ là bước đầu tiên và cơ bản nhất trong tiền xử lý văn bản Quá trình này liên quan đến việc chia nhỏ một chuỗi văn bản thành các đơn vị nhỏ hơn có ý nghĩa, gọi là các token Token có thể là một từ đơn, một cụm từ ngắn hoặc thậm chí là một ký tự đặc biệt Ví dụ, câu ”Tôi đang sống ở New York”có thể được tách thành các token như sau: [’Tôi’, ’đang’, ’sống’, ’ở’, ’New’,

Quá trình tách từ thường được gọi là Phân tích từ vựng (Lexical Analysis) và thường sử dụng các biểu thức chính quy (regular expressions) để xác định ranh giới giữa các token Tuy nhiên, việc tách từ không chỉ đơn giản là chia văn bản dựa trên khoảng trắng Có nhiều vấn đề cần xem xét và quyết định trong quá trình tách từ, tùy thuộc vào ngôn ngữ và mục đích cụ thể của dự án.

Một trong những câu hỏi phổ biến là liệu chúng ta có nên giữ lại các dấu câu như một phần của token hay không Ví dụ, từ ”aren’t”trong tiếng Anh có thể được tách thành [”aren”, ”’”, ”t”] hoặc [”aren’t”] Việc quyết định này sẽ ảnh hưởng đến kích thước từ vựng và cách mô hình xử lý ngữ nghĩa của văn bản.

Một vấn đề khác là sự xuất hiện của các token đa âm tiết, bao gồm khoảng trắng bên trong.

Ví dụ như ”New York”, ”bộ nhớ trong”, ”cao su thiên nhiên”, v.v Trong trường hợp này, chúng ta cần xác định xem có nên coi chúng là một token duy nhất hay chia nhỏ thành các token riêng biệt.

Những thách thức này cho thấy rằng tách từ là một quá trình phụ thuộc vào ngôn ngữ và có nhiều sự không rõ ràng Mỗi ngôn ngữ lại có những đặc thù riêng và đòi hỏi các chiến lược tách từ khác nhau Việc lựa chọn chiến lược tách từ phù hợp đóng vai trò quan trọng trong việc xây dựng một hệ thống NLP hiệu quả.

Loại bỏ từ dừng (Stop Words Removal)

Loại bỏ từ dừng là một kỹ thuật quan trọng trong tiền xử lý văn bản, nhằm giảm thiểu số lượng từ vựng và tăng tính hiệu quả của mô hình NLP Từ dừng (stop words) là những từ phổ biến, xuất hiện với tần suất cao trong ngôn ngữ tự nhiên nhưng lại mang ít hoặc không mang thông tin quan trọng đối với việc hiểu và phân tích ngữ nghĩa của văn bản Trong tiếng Anh, các từ dừng phổ biến bao gồm các từ chức năng như ”a”, ”an”, ”the”, ”in”, ”on”, ”to”, ”and”, ”but”, v.v Những từ này thường không mang nhiều ý nghĩa đối với việc phân tích nội dung và chủ đề của văn bản Do đó, việc loại bỏ chúng giúp giảm thiểu không gian đặc trưng (feature space) và tăng tốc độ xử lý của mô hình Quá trình loại bỏ từ dừng thường bao gồm các bước sau:

Xây dựng một danh sách từ dừng: Danh sách này có thể được xây dựng thủ công hoặc sử dụng các nguồn có sẵn như danh sách từ dừng của NLTK (Natural Language Toolkit) hoặc spaCy Tiền xử lý văn bản: Thực hiện các bước tiền xử lý cơ bản như chuyển đổi văn bản thành chữ thường, loại bỏ các ký tự đặc biệt, v.v Lọc từ dừng: Duyệt qua từng từ trong văn bản và so sánh với danh sách từ dừng Nếu từ đó nằm trong danh sách từ dừng, loại bỏ nó khỏi văn bản.

Tuy nhiên, việc loại bỏ từ dừng cũng cần được cân nhắc cẩn thận Trong một số trường hợp,các từ dừng lại mang ý nghĩa quan trọng đối với ngữ cảnh cụ thể Ví dụ, trong cụm từ ”to be or not to be”, việc loại bỏ từ ”to”sẽ làm mất đi ý nghĩa của cả cụm từ Do đó, việc lựa chọn danh sách từ dừng phù hợp và điều chỉnh cho từng tác vụ cụ thể là rất cần thiết.

Chuẩn hóa từ (Stemming và Lemmatization)

Stemming và Lemmatization là hai kỹ thuật quan trọng trong tiền xử lý văn bản, nhằm giảm thiểu sự đa dạng của từ vựng và chuẩn hóa các từ về dạng cơ bản của chúng Mục đích chính của hai kỹ thuật này là giảm thiểu kích thước từ điển, loại bỏ sự trùng lặp và tăng tính đồng nhất của dữ liệu văn bản.

Stemminglà quá trình cắt bỏ các phần phụ (tiền tố, hậu tố) của một từ để thu được phần gốc (stem) của từ đó Ví dụ, trong tiếng Anh, các từ như ”running”, ”runs”, ”ran”sẽ được rút gọn về dạng gốc là ”run” Stemming thường sử dụng các quy tắc và thuật toán đơn giản để loại bỏ các phần phụ dựa trên các quy luật ngữ pháp và hình thái học Tuy nhiên, Stemming có một số hạn chế Thứ nhất, nó có thể tạo ra các từ gốc không có nghĩa hoặc không tồn tại trong ngôn ngữ Ví dụ, từ ”ponies”sau khi qua Stemming có thể trở thành ”poni”, từ ”cared”có thể trở thành ”car”. Thứ hai, Stemming không giải quyết được các trường hợp bất quy tắc trong ngôn ngữ, ví dụ như các động từ bất quy tắc trong tiếng Anh.

Lemmatizationlà một kỹ thuật tinh vi hơn so với Stemming Thay vì chỉ cắt bỏ các phần phụ, Lemmatization sử dụng các tri thức ngôn ngữ học và từ điển để trả về dạng cơ bản (lemma) của một từ Lemma là dạng từ điển của một từ, thường là dạng không chia của động từ hoặc dạng số ít của danh từ Ví dụ, từ ”better”sẽ được lemma hóa thành ”good”, từ ”ate”sẽ trở thành ”eat”. Lemmatization đòi hỏi sự hiểu biết sâu về ngữ pháp và cú pháp của ngôn ngữ, cũng như sử dụng các tài nguyên như từ điển và bộ gán nhãn từ loại (part-of-speech tagging) Lemmatization cho kết quả chính xác hơn so với Stemming, đặc biệt trong việc xử lý các trường hợp bất quy tắc và các từ đồng âm khác nghĩa Tuy nhiên, nó cũng đòi hỏi nhiều tài nguyên và thời gian tính toán hơn Việc lựa chọn giữa Stemming và Lemmatization phụ thuộc vào yêu cầu cụ thể của dự án và sự cân bằng giữa hiệu suất và độ chính xác Trong nhiều trường hợp, Stemming là đủ để đạt được kết quả tốt, đặc biệt khi xử lý các ngôn ngữ có hình thái học đơn giản Tuy nhiên, đối với các ngôn ngữ phức tạp hơn hoặc các tác vụ đòi hỏi độ chính xác cao, Lemmatization có thể là lựa chọn tốt hơn Tóm lại, tiền xử lý văn bản đóng vai trò quan trọng trong Xử lý Ngôn ngữ Tự nhiên, giúp chuẩn hóa và làm sạch dữ liệu trước khi đưa vào các mô hình và thuật toán Tách từ, loại bỏ từ dừng, Stemming và Lemmatization là những kỹ thuật cơ bản và không thể thiếu trong quy trình này Việc lựa chọn và áp dụng các kỹ thuật này một cách phù hợp sẽ giúp cải thiện đáng kể chất lượng và hiệu suất của các hệ thống NLP.

Mô hình biểu diễn từ

TF–IDF

TF–IDF (Term Frequency–Inverse Document Frequency) là một kỹ thuật quan trọng trong

Xử lý Ngôn ngữ Tự nhiên (NLP) và Truy xuất Thông tin (Information Retrieval), nhằm đánh giá tầm quan trọng của một từ trong một tài liệu, trong bối cảnh của một tập hợp tài liệu TF–IDF kết hợp hai khái niệm chính: Tần số Từ (Term Frequency - TF) và Nghịch đảo Tần số Tài liệu(Inverse Document Frequency - IDF) Ý tưởng cơ bản của TF–IDF là: một từ càng xuất hiện nhiều lần trong một tài liệu, và càng xuất hiện trong ít tài liệu trong toàn bộ tập hợp, thì từ đó càng quan trọng và mang tính đặc trưng cho tài liệu đó Điều này dựa trên giả định rằng các từ xuất hiện với tần suất cao trong một tài liệu cụ thể có khả năng liên quan chặt chẽ đến chủ đề và nội dung của tài liệu đó, trong khi các từ xuất hiện trong nhiều tài liệu khác nhau có thể mang tính chung chung và ít giá trị phân biệt TF–IDF được sử dụng để cải thiện hạn chế của mô hìnhTúi từ (Bag-of-Words) truyền thống Trong mô hình Túi từ, mỗi tài liệu được biểu diễn bởi một vector đặc trưng, trong đó mỗi phần tử tương ứng với tần suất xuất hiện của một từ trong tài liệu đó Tuy nhiên, mô hình này không xem xét sự khác biệt về tầm quan trọng giữa các từ Ví dụ, các từ chức năng như ”the”, ”a”, ”and”thường xuất hiện với tần suất cao trong hầu hết các tài liệu, nhưng lại mang ít giá trị thông tin TF–IDF giải quyết vấn đề này bằng cách đánh trọng số cho các từ dựa trên tần suất xuất hiện trong tài liệu cụ thể và độ hiếm của chúng trong toàn bộ tập hợp tài liệu Công thức tổng quát để tính TF–IDF cho một từ𝑡trong một tài liệu𝑑, trong bối cảnh của tập hợp tài liệu𝐷, được định nghĩa như sau: tf–idf(𝑡 , 𝑑 , 𝐷) =tf(𝑡 , 𝑑) ×idf(𝑡 , 𝐷)

Trong đó, tf(𝑡 , 𝑑)là Tần số Từ (Term Frequency) của từ𝑡trong tài liệu𝑑, và idf(𝑡 , 𝐷)là Nghịch đảo Tần số Tài liệu (Inverse Document Frequency) của từ𝑡trong tập hợp tài liệu𝐷.

Tần số Từ (Term Frequency - TF)

Tần số Từ (TF) đo lường tần suất xuất hiện của một từ trong một tài liệu cụ thể Nó phản ánh mức độ phổ biến và tầm quan trọng của từ đó trong tài liệu Công thức tính TF cho từ𝑡trong tài liệu𝑑 được định nghĩa như sau: tf(𝑡 , 𝑑) = 𝑓 𝑡 ,𝑑 Í

• 𝑓 𝑡 ,𝑑 là số lần xuất hiện của từ𝑡trong tài liệu𝑑.

𝑡 0 ∈ 𝑑 𝑓 𝑡 0 ,𝑑 là tổng số lần xuất hiện của tất cả các từ trong tài liệu𝑑.

Công thức trên chuẩn hóa tần suất xuất hiện của từ𝑡bằng cách chia cho tổng số từ trong tài liệu. Điều này giúp đối phó với sự khác biệt về độ dài giữa các tài liệu, vì các tài liệu dài hơn có xu hướng có tần suất từ cao hơn.

Nghịch đảo Tần số Tài liệu (Inverse Document Frequency - IDF)

Nghịch đảo Tần số Tài liệu (IDF) đo lường tầm quan trọng của một từ trong toàn bộ tập hợp tài liệu Nó dựa trên ý tưởng rằng các từ xuất hiện trong nhiều tài liệu khác nhau có xu hướng mang ít thông tin phân biệt hơn so với các từ xuất hiện trong ít tài liệu Công thức tính IDF cho từ𝑡trong tập hợp tài liệu𝐷 được định nghĩa như sau: idf(𝑡 , 𝐷) =log 𝑁

• 𝐷 là tập hợp tài liệu.

• 𝑁 là tổng số tài liệu trong tập hợp𝐷.

• 𝑛 𝑡 là số lượng tài liệu chứa từ𝑡.

Hàm logarit được sử dụng để làm mịn giá trị IDF, giảm sự chênh lệch quá lớn giữa các từ phổ biến và các từ hiếm Nếu một từ xuất hiện trong tất cả các tài liệu,𝑛 𝑡 = 𝑁, khi đó idf(𝑡 , 𝐷) =log 1=0, cho thấy từ đó không mang giá trị phân biệt Sau khi tính toán TF và IDF, giá trị TF–IDF của từ𝑡trong tài liệu𝑑được tính bằng tích của TF và IDF: tf–idf(𝑡 , 𝑑 , 𝐷) =tf(𝑡 , 𝑑) ×idf(𝑡 , 𝐷)

Giá trị TF–IDF cao cho thấy từ𝑡xuất hiện thường xuyên trong tài liệu𝑑 nhưng hiếm khi xuất hiện trong các tài liệu khác, do đó mang tính đặc trưng và quan trọng cho tài liệu𝑑 TF–IDF được sử dụng rộng rãi trong nhiều ứng dụng NLP và Truy xuất Thông tin, bao gồm:

Biểu diễn văn bản: TF–IDF được sử dụng để xây dựng vector đặc trưng cho các tài liệu, trong đó mỗi phần tử của vector tương ứng với giá trị TF–IDF của một từ trong tài liệu Điều này giúp biểu diễn tài liệu dưới dạng số, thuận tiện cho các thuật toán học máy và xử lý văn bản Truy xuất thông tin: TF–IDF được sử dụng để tính toán sự tương đồng giữa truy vấn và tài liệu Các từ trong truy vấn được gán trọng số TF–IDF, và các tài liệu được xếp hạng dựa trên độ tương đồng của chúng với truy vấn, sử dụng các độ đo như cosine similarity Phân loại văn bản: TF–IDF được sử dụng như một phép biến đổi đặc trưng trong các mô hình phân loại văn bản, giúp nhấn mạnh các từ quan trọng và phân biệt giữa các lớp tài liệu khác nhau Tóm tắt văn bản: TF–IDF có thể được sử dụng để xác định các câu hoặc đoạn văn quan trọng trong một tài liệu, dựa trên sự xuất hiện của các từ có giá trị TF–IDF cao.

Tuy nhiên, TF–IDF cũng có một số hạn chế Nó không xem xét thứ tự và ngữ cảnh của các từ,cũng như không nắm bắt được các mối quan hệ ngữ nghĩa giữa các từ Để giải quyết những hạn chế này, các kỹ thuật biểu diễn từ và văn bản tiên tiến hơn như word embeddings (Word2Vec,GloVe) và contextualized embeddings (BERT, ELMo) đã được phát triển Tóm lại, TF–IDF là một kỹ thuật quan trọng và hiệu quả trong Xử lý Ngôn ngữ Tự nhiên và Truy xuất Thông tin,giúp đánh giá tầm quan trọng của các từ trong tài liệu và tập hợp tài liệu Nó đóng vai trò nền tảng cho nhiều ứng dụng và mô hình xử lý văn bản, và là một công cụ hữu ích trong việc biểu diễn và phân tích dữ liệu văn bản.

Sentence Transformers

Sentence Transformers là một kỹ thuật tiên tiến trong Xử lý Ngôn ngữ Tự nhiên (NLP), nhằm biểu diễn các câu và đoạn văn dưới dạng vector số thực trong không gian đa chiều Được phát triển dựa trên sự kết hợp của các mô hình tiền huấn luyện (pre-trained models) như BERT, RoBERTa và các kiến trúc transformer khác, Sentence Transformers cho phép tạo ra các biểu diễn ngữ nghĩa phong phú và đa dạng cho văn bản ở cấp độ câu và đoạn văn. Ý tưởng cốt lõi của Sentence Transformers là sử dụng các mô hình ngôn ngữ tiền huấn luyện, vốn đã học được kiến thức ngôn ngữ sâu rộng từ một lượng lớn dữ liệu văn bản, để trích xuất thông tin ngữ nghĩa và ngữ cảnh từ câu và đoạn văn Thông qua quá trình mã hóa (encoding) bằng các mô hình này, mỗi câu hoặc đoạn văn được biến đổi thành một vector số thực, nắm bắt được ý nghĩa và mối quan hệ ngữ nghĩa của nó.

Quá trình tạo ra biểu diễn câu trong Sentence Transformers bao gồm các bước chính sau:

1 Tiền xử lý văn bản: Câu hoặc đoạn văn đầu vào được tiền xử lý, bao gồm việc tokenization (chia nhỏ thành các token), chuẩn hóa (như chuyển đổi thành chữ thường), và đôi khi áp dụng các bước tiền xử lý khác như loại bỏ dấu câu, stemming, hoặc lemmatization.

2 Mã hóa bằng mô hình tiền huấn luyện: Câu hoặc đoạn văn đã qua tiền xử lý được đưa vào mô hình tiền huấn luyện, như BERT hoặc RoBERTa Mô hình sẽ xử lý câu thông qua nhiều lớp transformer, học cách chú ý (attention) đến các từ và cụm từ quan trọng, và tạo ra một biểu diễn ngữ nghĩa phong phú cho toàn bộ câu.

3 Pooling và tạo vector câu: Các biểu diễn từ (word embeddings) được tạo ra bởi mô hình tiền huấn luyện cho mỗi token trong câu sẽ được kết hợp lại thông qua các phương pháp pooling, như lấy trung bình (mean pooling), lấy phần tử lớn nhất (max pooling), hoặc sử dụng token đặc biệt như [CLS] trong BERT Kết quả là một vector số thực đại diện cho toàn bộ câu hoặc đoạn văn.

Các vector câu được tạo ra bởi Sentence Transformers mang trong mình thông tin ngữ nghĩa phong phú và có thể được sử dụng trong nhiều ứng dụng NLP, bao gồm:

1 Tìm kiếm văn bản: Bằng cách so sánh sự tương đồng giữa vector câu của truy vấn và vector câu của các tài liệu, có thể tìm kiếm và truy xuất các câu hoặc đoạn văn liên quan một cách hiệu quả.

2 Phân loại văn bản: Các vector câu có thể được sử dụng làm đầu vào cho các mô hình phân loại, giúp xác định chủ đề, cảm xúc hoặc ý định của câu hoặc đoạn văn.

3 Tóm tắt văn bản: Bằng cách tính toán sự tương đồng giữa các vector câu và vector tóm tắt, có thể xác định các câu quan trọng và tạo ra bản tóm tắt của văn bản.

4 Hỏi đáp và chatbot: Sentence Transformers giúp tìm kiếm câu trả lời phù hợp nhất cho câu hỏi dựa trên sự tương đồng giữa vector câu hỏi và vector câu trả lời trong cơ sở dữ liệu.

5 Dịch máy và so sánh ngôn ngữ: Các vector câu có thể được sử dụng để đánh giá chất lượng dịch, tìm kiếm câu tương đương giữa các ngôn ngữ, hoặc làm đầu vào cho các mô hình dịch máy.

Sentence Transformers mang lại nhiều lợi ích so với các phương pháp truyền thống như túi từ (bag-of-words) hay TF-IDF Thay vì chỉ dựa trên tần suất xuất hiện của từ, Sentence Transformers nắm bắt được ngữ nghĩa, ngữ cảnh và mối quan hệ giữa các từ trong câu Điều này giúp tạo ra các biểu diễn văn bản phong phú hơn, cho phép so sánh và tìm kiếm văn bản ở cấp độ ngữ nghĩa.

Tuy nhiên, Sentence Transformers cũng có một số hạn chế Mô hình phụ thuộc vào chất lượng và sự đa dạng của dữ liệu tiền huấn luyện Nếu dữ liệu huấn luyện không bao phủ đủ miền hoặc ngữ cảnh cụ thể, mô hình có thể gặp khó khăn trong việc tạo ra biểu diễn chính xác Ngoài ra, việc xử lý các câu dài hoặc phức tạp đôi khi có thể gây khó khăn cho mô hình.

Mặc dù vậy, sự ra đời của Sentence Transformers đã mở ra nhiều cơ hội mới trong NLP. Khả năng tạo ra các biểu diễn câu và đoạn văn phong phú, mang tính ngữ nghĩa cao đã thúc đẩy sự phát triển của nhiều ứng dụng và nghiên cứu trong lĩnh vực này Kết hợp với các kỹ thuật tiền huấn luyện ngôn ngữ và trích xuất đặc trưng tiên tiến, Sentence Transformers hứa hẹn sẽ tiếp tục đóng vai trò quan trọng trong tương lai của xử lý ngôn ngữ tự nhiên.

2.5 Mạng perceptron đa tầng (Multi-Layer Perceptron)

Mạng perceptron đa tầng (MLP) là một loại mạng nơ-ron nhân tạo (ANN) truyền thẳng Một ANN dựa trên một tập hợp các nút được kết nối với nhau, mô phỏng lỏng lẻo các nơ-ron trong não sinh học Mỗi kết nối, giống như các synapse trong não sinh học, có thể truyền tín hiệu đến các nút khác Một nút nhận được tín hiệu sau đó xử lý nó và có thể gửi tín hiệu đến các nút được kết nối với nó “Tín hiệu” tại một kết nối là một số thực, và đầu ra của mỗi nút được tính bằng một hàm phi tuyến của tổng các đầu vào của nó, hàm này được gọi là hàm kích hoạt Nút và kết nối thường có một trọng số điều chỉnh khi quá trình học diễn ra Thường, các nút được tổng hợp thành các tầng Các tầng khác nhau có thể thực hiện các biến đổi khác nhau trên đầu vào của chúng Tín hiệu di chuyển từ tầng đầu tiên (tầng đầu vào) đến tầng cuối cùng (tầng đầu ra).

Một MLP bao gồm một tầng đầu vào, một tầng đầu ra và nhiều tầng ẩn ở giữa chúng Số lượng tầng 𝐿 trong một MLP là số lượng tầng ẩn cộng thêm một, tức là, chúng ta không tính tầng đầu vào Các tầng được đánh số từ𝑙 =1, , 𝐿 từ tầng ẩn đầu tiên đến tầng đầu ra Hình2.1 cho thấy một ví dụ về MLP với hai tầng ẩn.

Hình 2.1: Một MLP với hai tầng ẩn [48]

Hàm Sigmoid

Hàm sigmoid, hay còn được gọi là hàm logistic, là một trong những hàm kích hoạt phổ biến nhất trong lĩnh vực học máy và học sâu Như đã đề cập trong phần 2.2, hàm sigmoid nhận đầu vào là một giá trị số thực bất kỳ và cho đầu ra nằm trong khoảng từ 0 đến 1 Công thức toán học của hàm sigmoid được định nghĩa như sau:

Trong đó, 𝑥là giá trị đầu vào và 𝜎(𝑥) là giá trị đầu ra tương ứng Hàm sigmoid có một số đặc điểm quan trọng Thứ nhất, khi giá trị đầu vào𝑥 càng lớn, giá trị đầu ra𝜎(𝑥) sẽ càng tiệm cận 1 Ngược lại, khi giá trị đầu vào𝑥 càng nhỏ, giá trị đầu ra 𝜎(𝑥) sẽ càng tiệm cận 0 Điều này cho phép hàm sigmoid ”nén”các giá trị đầu vào vào khoảng từ 0 đến 1, tạo ra một phân bố xác suất hoặc một xác suất dự đoán trong các bài toán phân loại nhị phân.

Thứ hai, hàm sigmoid có đồ thị hình chữ S đặc trưng, thể hiện độ dốc mượt và liên tục Tính chất này giúp hàm sigmoid trở thành một lựa chọn tốt để đưa tính phi tuyến vào mô hình mạng nơ-ron Tuy nhiên, một nhược điểm của hàm sigmoid là đạo hàm của nó, được tính bằng công thức𝜎 0 (𝑥) =𝜎(𝑥) (1−𝜎(𝑥)), chỉ đáng kể khi giá trị đầu vào𝑥gần 0 Khi giá trị đầu vào xa 0, độ dốc của hàm sigmoid trở nên rất nhỏ, gây ra hiện tượng ”gradient biến mất”(vanishing gradient problem) Điều này có thể làm chậm quá trình học và gây khó khăn trong việc huấn luyện các mạng nơ-ron sâu.

Mặc dù có nhược điểm về gradient biến mất, hàm sigmoid vẫn được sử dụng rộng rãi trong nhiều ứng dụng, đặc biệt là trong các mô hình hồi quy logistic và các lớp đầu ra của mạng nơ-ron khi cần dự đoán xác suất Tuy nhiên, trong các kiến trúc mạng nơ-ron sâu, hàm sigmoid thường được thay thế bằng các hàm kích hoạt khác như ReLU hoặc các biến thể của nó để khắc phục vấn đề gradient biến mất và tăng tốc quá trình học.

Softmax

Hàm softmax là một sự mở rộng của hàm sigmoid, được sử dụng phổ biến trong các bài toán phân loại đa lớp Trong khi hàm sigmoid chỉ áp dụng cho phân loại nhị phân, hàm softmax cho phép tính toán xác suất của mỗi lớp trong số𝐶 lớp đầu ra Công thức của hàm softmax được định nghĩa như sau: softmax(𝑧 𝑖 ) = 𝑒 𝑧 𝑖 Í 𝐶

Trong đó, 𝑧 𝑖 là giá trị đầu vào tương ứng với lớp thứ𝑖, và𝐶 là tổng số lớp Hàm softmax nhận một vector đầu vàoz = (𝑧 1 , 𝑧 2 , , 𝑧 𝐶 ) và tính toán xác suất cho mỗi lớp bằng cách lấy hàm số mũ của từng giá trị 𝑧 𝑖 và chia cho tổng của các hàm số mũ Kết quả đầu ra của hàm softmax là một vector xác suấtp= (𝑝 1 , 𝑝 2 , , 𝑝 𝐶 ), trong đó 𝑝 𝑖 đại diện cho xác suất của lớp thứ𝑖 và tổng của các xác suất bằng 1.

Hàm softmax có một số tính chất quan trọng Thứ nhất, nó đảm bảo rằng đầu ra của mô hình là một phân bố xác suất hợp lệ, với các giá trị nằm trong khoảng từ 0 đến 1 và có tổng bằng 1. Điều này giúp diễn giải kết quả dự đoán một cách trực quan và dễ hiểu Thứ hai, hàm softmax nhạy cảm với sự chênh lệch giữa các giá trị đầu vào Nếu một giá trị đầu vào lớn hơn đáng kể so với các giá trị khác, xác suất tương ứng sẽ tiệm cận 1, trong khi các xác suất khác sẽ tiệm cận

0 Tính chất này giúp mô hình đưa ra quyết định rõ ràng và tự tin hơn.

Hàm softmax thường được sử dụng trong lớp đầu ra của các mạng nơ-ron phân loại đa lớp, kết hợp với hàm mất mát entropy chéo (cross-entropy loss) để huấn luyện mô hình Trong quá trình lan truyền xuôi (forward propagation), giá trị đầu vào được truyền qua hàm softmax để tính toán xác suất cho mỗi lớp Trong quá trình lan truyền ngược (backward propagation), gradient của hàm mất mát được tính toán và cập nhật trọng số của mô hình để tối ưu hóa quá trình học.

Mặc dù hàm softmax rất hữu ích trong phân loại đa lớp, nó cũng có một số hạn chế Khi số lớp lớn, việc tính toán hàm số mũ và tổng của chúng có thể trở nên tốn kém về mặt tính toán.Ngoài ra, hàm softmax cũng có thể gặp phải vấn đề ”độ tự tin quá mức”(overconfidence) khi một lớp có xác suất gần 1 và các lớp khác có xác suất gần 0, ngay cả khi mô hình không thực sự chắc chắn về quyết định của mình Để giải quyết những vấn đề này, các kỹ thuật như softmax với nhiệt độ (temperature softmax) hoặc các phương pháp điều chỉnh entropy đã được đề xuất.Hình 2.4 minh họa đồ thị của các hàm kích hoạt phổ biến, bao gồm hàm sigmoid, ReLU và tanh.

Hàm Tanh

Hàm tanh, viết tắt của hyperbolic tangent, là một hàm kích hoạt khác tương tự như hàm sigmoid về hình dạng đồ thị Tuy nhiên, khác với hàm sigmoid có đầu ra nằm trong khoảng từ

0 đến 1, hàm tanh có đầu ra nằm trong khoảng từ -1 đến 1 Công thức toán học của hàm tanh được định nghĩa như sau: tanh(𝑥) = 𝑒 𝑥 −𝑒 − 𝑥

Trong đó, 𝑥 là giá trị đầu vào và tanh(𝑥) là giá trị đầu ra tương ứng Hàm tanh có một số đặc điểm tương tự như hàm sigmoid Khi giá trị đầu vào𝑥 càng lớn, giá trị đầu ratanh(𝑥) sẽ càng tiệm cận 1 Ngược lại, khi giá trị đầu vào𝑥càng nhỏ, giá trị đầu ratanh(𝑥) sẽ càng tiệm cận -1 Điều này cho phép hàm tanh ”nén”các giá trị đầu vào vào khoảng từ -1 đến 1, tạo ra một phân bố đầu ra đối xứng qua điểm 0.

Giống như hàm sigmoid, hàm tanh cũng gặp phải vấn đề về gradient biến mất Tuy nhiên, so với hàm sigmoid, hàm tanh có một số ưu điểm Thứ nhất, do đầu ra của hàm tanh là đối xứng qua điểm 0, nó giúp các gradient không bị hạn chế trong việc di chuyển theo một hướng nhất định Điều này giúp quá trình học ổn định hơn và tránh được một số vấn đề liên quan đến sự thiên vị (bias) trong mạng nơ-ron Thứ hai, hàm tanh thường được ưa chuộng hơn hàm sigmoid trong các lớp ẩn của mạng nơ-ron sâu, vì nó cung cấp một phạm vi đầu ra rộng hơn và cho phép các giá trị âm, điều này hữu ích trong việc học các đặc trưng phức tạp.

Tuy nhiên, hàm tanh vẫn gặp phải vấn đề về gradient biến mất, đặc biệt khi mạng nơ-ron trở nên sâu hơn Điều này đã dẫn đến sự ra đời của các hàm kích hoạt khác như ReLU và các biến thể của nó, nhằm khắc phục nhược điểm này và cải thiện khả năng học của mô hình.

ReLU

Rectified Linear Unit (ReLU) là một hàm kích hoạt đơn giản nhưng đã mang lại những bước tiến đáng kể trong lĩnh vực học sâu Hàm ReLU được định nghĩa như sau:

Trong đó, 𝑥 là giá trị đầu vào và 𝑓(𝑥) là giá trị đầu ra tương ứng Hàm ReLU có tính chất đơn giản: nếu giá trị đầu vào𝑥 nhỏ hơn 0, đầu ra sẽ bằng 0; ngược lại, nếu giá trị đầu vào𝑥lớn hơn hoặc bằng 0, đầu ra sẽ bằng chính giá trị đầu vào𝑥.

Hàm ReLU có một số ưu điểm so với các hàm kích hoạt truyền thống như sigmoid và tanh. Thứ nhất, ReLU tính toán đơn giản và hiệu quả hơn, vì nó chỉ yêu cầu một phép so sánh và một phép gán Điều này giúp tăng tốc quá trình tính toán và giảm thiểu chi phí tính toán trong các mạng nơ-ron sâu Thứ hai, ReLU giúp giảm thiểu vấn đề gradient biến mất, vì đạo hàm của nó bằng 1 cho các giá trị dương và bằng 0 cho các giá trị âm Điều này giúp gradient dễ dàng truyền ngược qua các lớp của mạng nơ-ron và tạo điều kiện thuận lợi cho quá trình học.

Tuy nhiên, ReLU cũng có một nhược điểm đáng kể, đó là vấn đề ”dying ReLU”hoặc ”neuron chết” Khi một neuron có giá trị đầu ra âm lớn hoặc trọng số được khởi tạo không phù hợp, đầu ra của neuron đó sẽ luôn bằng 0 và gradient của nó cũng bằng 0 Điều này dẫn đến tình trạng neuron đó không được cập nhật trong quá trình học và trở nên ”chết” Để khắc phục vấn đề này,các biến thể của ReLU đã được đề xuất, bao gồm:

• Leaky ReLU: 𝑓(𝑥) =max(𝛼𝑥 , 𝑥), trong đó𝛼là một hằng số nhỏ (thường là 0.01) Leaky ReLU cho phép một độ dốc nhỏ cho các giá trị âm, giúp tránh tình trạng neuron chết hoàn toàn.

• Parametric ReLU: 𝑓(𝑥) = max(𝛼𝑥 , 𝑥), trong đó𝛼là một tham số có thể học được trong quá trình huấn luyện Điều này cho phép mô hình tự động điều chỉnh độ dốc cho các giá trị âm, thích nghi với từng bài toán cụ thể.

• Exponential Linear Units (ELUs): 𝑓(𝑥) =max(𝛼(𝑒 𝑥 −1), 𝑥), trong đó𝛼là một hằng số. ELUs có đầu ra âm cho các giá trị âm, giúp giảm thiểu tình trạng neuron chết và cải thiện khả năng học của mô hình.

Nhìn chung, ReLU và các biến thể của nó đã trở thành lựa chọn phổ biến trong các kiến trúc mạng nơ-ron sâu, đặc biệt là trong các mạng nơ-ron tích chập (Convolutional Neural Networks

- CNNs) và các mạng nơ-ron hồi quy (Recurrent Neural Networks - RNNs) Chúng đã góp phần đáng kể vào sự thành công của học sâu trong nhiều lĩnh vực, bao gồm thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói.

Tuy nhiên, việc lựa chọn hàm kích hoạt phù hợp vẫn là một thách thức trong việc thiết kế và huấn luyện các mô hình học sâu Không có một hàm kích hoạt ”tốt nhất”cho mọi bài toán, và việc lựa chọn hàm kích hoạt phụ thuộc vào nhiều yếu tố như bản chất của dữ liệu, kiến trúc mạng nơ-ron, và mục tiêu của bài toán Trong thực tế, các nghiên cứu và thử nghiệm thường được tiến hành để tìm ra hàm kích hoạt tối ưu cho từng trường hợp cụ thể.

Ngoài các hàm kích hoạt đã đề cập, còn có nhiều hàm kích hoạt khác cũng đang được nghiên cứu và áp dụng, như Swish, Mish, và Gaussian Error Linear Units (GELUs) Những hàm kích hoạt này thường là các biến thể hoặc cải tiến của ReLU, nhằm giải quyết các nhược điểm và nâng cao hiệu suất của mô hình.

Trong tương lai, việc tìm kiếm và phát triển các hàm kích hoạt mới vẫn sẽ là một hướng nghiên cứu quan trọng trong lĩnh vực học sâu Với sự tiến bộ của công nghệ và sự gia tăng của dữ liệu, các hàm kích hoạt tiên tiến hơn có thể được đề xuất để đáp ứng các yêu cầu ngày càng cao của các ứng dụng thực tế.

Tóm lại, hàm kích hoạt đóng vai trò quan trọng trong việc xây dựng và huấn luyện các mô hình học sâu Sigmoid, tanh và ReLU là ba hàm kích hoạt phổ biến và có ảnh hưởng lớn trong lịch sử phát triển của học sâu Tuy nhiên, việc lựa chọn hàm kích hoạt phù hợp vẫn là một thách thức và đòi hỏi sự hiểu biết sâu sắc về bản chất của từng bài toán cũng như các đặc tính của từng loại hàm kích hoạt Việc nghiên cứu và phát triển các hàm kích hoạt mới cũng sẽ tiếp tục là một hướng đi quan trọng trong tương lai, nhằm nâng cao hiệu suất và mở rộng khả năng ứng dụng của học sâu trong các lĩnh vực khác nhau.

Mạng nơ-ron tích chập (Convolutional Neural Networks)

Mạng nơ-ron tích chập (CNN) ban đầu được thiết kế để xử lý hình ảnh, trong đó hình ảnh được mã hóa dưới dạng ma trận trong nhiều chiều Vì kỹ thuật Word Embedding cho phép biểu diễn các văn bản dưới dạng ma trận, CNN hoặc một số kiến trúc mạng nơ-ron trong lĩnh vực Thị giác Máy tính có thể được áp dụng vào văn bản Hình 2.5 minh họa một ví dụ về việc áp dụng CNN vào một câu đơn giản và sau đó đưa ra kết quả cho một bài toán phân loại.

Trong khi mỗi đơn vị đầu vào sẽ được kết nối với mỗi đơn vị đầu ra trong lớp tiếp theo trong các mạng nơ-ron truyền thống, ví dụ như mạng nơ-ron nhiều lớp (multi-layer perceptron), trongCNN, mỗi vùng của đầu vào được kết nối với một đơn vị đầu ra Điều này dẫn đến giảm số tham

(c) Hàm TanhHình 2.4: Đồ thị của các hàm kích hoạt

Hình 2.5: Cách áp dụng CNN vào một câu đơn giản [36] số có thể được huấn luyện Ngoài ra, mỗi lớp áp dụng số lượng bộ lọc khác nhau.

Trong CNN, thường có một lớp gộp (pooling) tiếp theo sau lớp tích chập Một lớp gộp có thể thực hiện hoạt động tối đa trên khu vực (max pooling) hoặc hoạt động trung bình (average pooling) Lớp gộp giảm kích thước đầu ra trong khi giữ lại thông tin quan trọng nhất.

Các mô hình tuần tự

Mạng nơ-ron tuần tự (Recurrent Neural Networks)

Trong dữ liệu văn bản, thứ tự của một từ trong câu sẽ mang lại ý nghĩa riêng của từ đó, của câu hoặc của đoạn văn bản Đó là lý do tại sao dữ liệu văn bản được coi là một chuỗi dữ liệu có thứ tự Khi làm việc với dữ liệu văn bản, rất khó có thể có tất cả các đầu vào có cùng số từ (tức là số chiều) như nhau Do đó, mạng nơ-ron truyền thẳng gặp vấn đề với loại dữ liệu này:

• Nó không thể xử lý các đầu vào, đầu ra có độ dài khác nhau trong các ví dụ khác nhau.

• Nó không chia sẻ các đặc trưng đã học được qua các vị trí khác nhau trong văn bản.

Một mạng nơ-ron tuần tự [45] (RNN) có thể được sử dụng để gán nhãn, phân loại hoặc tạo ra các chuỗi Trong RNN, các kết nối giữa các nút tạo thành một đồ thị có hướng theo chuỗi thời gian Điều này cho phép nó hiển thị hành vi động theo thời gian Từ mạng nơ-ron truyền thẳng, RNN có thể xử lý chuỗi đầu vào có độ dài thay đổi bằng cách sử dụng trạng thái nội bộ (bộ nhớ) của nó.

Một mạng nơ-ron tuần tự không phải là mạng truyền thẳng vì nó chứa các vòng lặp Trong mạng nơ-ron truyền thẳng, thông tin chỉ di chuyển một chiều từ các lớp đầu vào thông qua các lớp ẩn đến các lớp đầu ra Kết quả trong một lớp phụ thuộc vào dữ liệu đầu vào duy nhất Trong khi đó, mạng nơ-ron tuần tự xem xét đầu vào hiện tại và cũng như những gì nó đã học từ các đầu vào đã nhận được trước đó.

Lan Truyền Thuận Đối với mỗi bước𝑡, kích hoạt𝑎 và đầu ra𝑦 được tính toán như sau:

• 𝑥 là đầu vào của bước thứ𝑡.

• ˆ𝑦 là đầu ra của bước thứ𝑡.

• 𝑎 là trạng thái ẩn của mô hình và giả sử𝑎 < 0 > = 0 là trạng thái ban đầu.

• 𝑔 1 và 𝑔 2 là các hàm kích hoạt Thông thường,𝑔 1 (𝑥) = tanh(𝑥) hoặc𝑔 1 (𝑥) = ReLU(𝑥) và𝑔 2 (𝑥) =𝜎(𝑥)hoặc𝑔 2 (𝑥) =softmax(𝑥).

• 𝑊 𝑎𝑥 ,𝑊 𝑎 𝑎 ,𝑊 𝑦 𝑎 , 𝑏 𝑎 và𝑏 𝑦 là trọng số mô hình được chia sẻ theo thời gian.

Hình 2.6 mô tả biểu diễn lan truyền thuận trong Mạng nơ-ron tuần tự.

Hình 2.6: Quá trình lan truyền thuận trong RNNs [4]

Trong khi mạng nơ-ron truyền thẳng ánh xạ một đầu vào thành một đầu ra, RNN có thể có số lượng đầu vào và đầu ra tùy ý, và các số này có thể khác nhau Do đa dạng đó, RNN có nhiều loại tương ứng với nhiều ứng dụng Kiến trúc một-đến-nhiều được sử dụng cho việc tạo ra âm nhạc, nhiều-đến-một được sử dụng cho các nhiệm vụ phân loại (ví dụ: phân loại tâm trạng), nhiều-đến-nhiều trong đó độ dài đầu vào và đầu ra giống nhau được sử dụng cho việc nhận dạng thực thể được đặt tên, trong khi độ dài khác nhau có thể được sử dụng cho việc dịch máy Hình 2.7 mô tả các loại RNN khác nhau.

Trong trường hợp một mạng nơ-ron tuần tự, hàm mất mátL của tất cả các bước được định nghĩa dựa trên hàm mất mát ở mỗi bước:

(a) One-to-one ( 𝑇 𝑥 = 𝑇 𝑦 = 1) (b) One-to-many ( 𝑇 𝑥 = 1 , 𝑇 𝑦 > 1)

(c) Many-to-one ( 𝑇 𝑥 > 1 , 𝑇 𝑦 = 1) (d) Many-to-many with 𝑇 𝑥 = 𝑇 𝑦

Hình 2.7: Các loại mô hình RNNs [4] trong đó

• ˆ𝑦 là giá trị dự đoán của bước thứ𝑖,

• 𝑦 là giá trị thực tế của bước thứ𝑖,

• 𝑇 𝑦 là độ dài đầu ra Tương tự, 𝑇 𝑥 là độ dài đầu vào Trong trường hợp nhiều-đến-một,

Lan Truyền Ngược Qua Thời Gian

Trong mạng nơ-ron, chúng ta thực hiện lan truyền thuận để có đầu ra của mô hình và kiểm tra xem đầu ra này có chính xác hay không, để có được sai số Lan truyền ngược không gì khác là đi ngược lại trong mạng nơ-ron của bạn để tìm các đạo hàm riêng của sai số theo trọng số, từ đó giúp bạn trừ giá trị này khỏi trọng số.

Các đạo hàm này sau đó thường được sử dụng bởi gradient descent, một thuật toán có thể tối thiểu hoá tuần tự một hàm đã cho Sau đó, nó điều chỉnh trọng số lên hoặc xuống, tùy thuộc vào cái nào làm giảm sai số. Ưu điểm và Nhược điểm

Mạng nơ-ron tuần tự khắc phục nhược điểm của mạng nơ-ron truyền thẳng, là không khả năng xử lý các độ dài đầu vào khác nhau, cũng như việc chia sẻ trọng số theo thời gian Ngoài ra, kích thước mô hình không tăng theo kích thước đầu vào và tính toán lấy vào những thông tin lịch sử Nhược điểm của RNN là nó tốn nhiều tính toán, khó tiếp cận thông tin từ lâu đằng sau và không thể xem xét đầu vào trong tương lai trong khi trong dữ liệu văn bản, đầu vào trong tương lai quan trọng cùng với đầu vào lịch sử.

Bộ nhớ ngắn-dài hạn (Long Short-Term Memory)

Vấn đề về việc xử lý các phụ thuộc dài hạn trong RNN đã được đề cập trước đó là do gradient biến mất (tức là gradient giảm một cách mũ) và gradient bùng nổ (tức là gradient tăng một cách mũ) [6].

[28] giới thiệu Long Short-Term Memory (LSTM), một loại đặc biệt của mạng nơ-ron tuần tự có khả năng nhớ mẫu một cách chọn lọc trong thời gian dài Nó là một lựa chọn lý tưởng để mô hình dữ liệu tuần tự và do đó được sử dụng để học các động học phức tạp của hoạt động con người.

Một đơn vị LSTM thông thường được tạo thành từ một ô và ba cổng: cổng đầu vào, cổng đầu ra và cổng quên Ô nhớ ghi nhớ giá trị qua các khoảng thời gian tùy ý và ba cổng điều chỉnh luồng thông tin vào và ra khỏi ô nhớ Hành vi kiểm soát luồng thông tin được xây dựng từ các phương trình:

• 𝑥 là đầu vào của bước thứ𝑡,

• ˆ𝑦 là đầu ra của bước thứ𝑡,

• 𝑐 là trạng thái trong nội bộ (tức là trạng thái ô nhớ) ở bước thứ𝑡,

• 𝑐˜ biểu thị ứng viên cho trạng thái nội bộ ở bước thứ𝑡,

• 𝑊 𝑖 ,𝑊 ℎ𝑖 , 𝑊 𝑓 , 𝑊 ℎ 𝑓 , 𝑊 𝑜 ,𝑊 ℎ𝑜 , 𝑊 𝑐 , 𝑊 ℎ𝑐 , 𝑏 𝑖 , 𝑏 𝑓 , 𝑏 𝑜 , 𝑏 𝑐 là các trọng số và độ lệch của các cổng và ô nhớ,

• biểu thị phép nhân theo phần tử giữa các ma trận.

Các cổng trong LSTM có thể có giá trị thực trong khoảng từ 0 đến 1 do đặc tính của hàm sigmoid (𝜎) Nếu giá trị là 0 thì tất cả thông tin sẽ bị bỏ qua Nếu giá trị là 1, thông tin sẽ được giữ lại Cổng đầu ra cho biết thông tin nào sẽ được truyền sang trạng thái ẩn tiếp theo.

Với sự sử dụng của các cổng, LSTM có thể được áp dụng để làm việc với dữ liệu tuần tự trong các nhiệm vụ như tạo ra chuỗi, nhận dạng giọng nói và viết tay, tạo ra âm nhạc, v.v Hình 2.8 mô tả một đơn vị LSTM.

Hình 2.8: Sơ đồ hàm chuyển đổi cho đơn vị LSTM cơ bản [40]

Bộ nhớ ngắn-dài hạn hai chiều (Bidirectional Recurrent Neural Networks) 26

Mạng nơ-ron tuần tự hai chiều (Bidirectional Recurrent Neural Networks) [47] có thể tận dụng thông tin từ quá khứ và tương lai Để làm điều này, thay vì chạy một đơn vị RNN từ từ đầu đến cuối, Bi-RNN bắt đầu từ cuối và chạy một đơn vị RNN khác từ cuối đến đầu Kết quả của mỗi bước sẽ được kết hợp với biểu diễn cuối cùng bằng cách nối, tổng phần tử, trung bình hoặc nhân Hình 2.9 mô tả kiến trúc của mạng nơ-ron tuần tự hai chiều.

Bằng cách thay thế đơn vị RNN bằng đơn vị LSTM, ta có Bi-LSTM.

Mạng nơ-ron đồ thị (Graph Neural Networks)

Truyền tin (Message Passing)

Truyền tin (message passing) là một khái niệm cốt lõi trong Mạng nơ-ron đồ thị (GNNs), đóng vai trò quan trọng trong việc cập nhật biểu diễn của các nút dựa trên thông tin từ các nút lân cận Quá trình này cho phép mỗi nút tích hợp thông tin ngữ cảnh từ cấu trúc đồ thị xung quanh nó, giúp GNNs học được các biểu diễn phong phú và tinh tế của từng nút trong bối cảnh của toàn bộ đồ thị.

Cơ chế truyền tin trong GNNs thường bao gồm ba bước chính: tính toán tin nhắn, tổng hợp tin nhắn và cập nhật trạng thái nút.

Trong bước đầu tiên, tính toán tin nhắn, một hàm tin nhắn (message function) được áp dụng cho mỗi cạnh trong đồ thị để tính toán tin nhắn từ nút nguồn đến nút đích Hàm tin nhắn này có thể phụ thuộc vào các tính năng (features) của cả nút nguồn và nút đích, cũng như trọng số của cạnh nối giữa chúng Ví dụ, trong một đồ thị có trọng số, hàm tin nhắn có thể nhân các tính năng của nút nguồn với trọng số cạnh trước khi truyền đến nút đích Hàm tin nhắn cũng có thể là một mạng nơ-ron (neural network) nhỏ để học cách tính toán tin nhắn phù hợp.

Sau khi tính toán các tin nhắn, bước tiếp theo là tổng hợp tin nhắn Trong bước này, các tin nhắn từ tất cả các nút lân cận của một nút được tổng hợp lại thông qua một hàm tổng hợp(aggregation function) Các hàm tổng hợp phổ biến bao gồm tổng (sum), trung bình (mean) hoặc một hàm tổng hợp có trọng số Ví dụ, nếu sử dụng hàm tổng, tin nhắn tổng hợp của một nút sẽ là tổng của tất cả các tin nhắn từ các nút lân cận của nó Việc lựa chọn hàm tổng hợp phù hợp phụ thuộc vào bài toán cụ thể và đặc điểm của đồ thị.

Cuối cùng, trong bước cập nhật trạng thái nút, biểu diễn của mỗi nút được cập nhật bằng cách kết hợp biểu diễn hiện tại của nó với tin nhắn tổng hợp thông qua một hàm cập nhật (update function) Hàm cập nhật này có thể là một mạng nơ-ron nhỏ, thường là một hoặc nhiều lớp fully connected, để học cách kết hợp thông tin từ tin nhắn tổng hợp với biểu diễn hiện tại của nút. Quá trình này giúp mỗi nút tích hợp thông tin từ các nút lân cận và cập nhật biểu diễn của chính nó.

Quá trình truyền tin được lặp lại qua nhiều lớp (layers) trong kiến trúc của GNNs Khi số lớp tăng lên, mỗi nút có thể tích hợp thông tin từ một vùng lân cận rộng hơn trong đồ thị Ví dụ, với một GNN hai lớp, mỗi nút sẽ tích hợp thông tin từ các nút lân cận trực tiếp của nó ở lớp đầu tiên, và từ các nút lân cận của lân cận (tức là các nút cách nó hai bước) ở lớp thứ hai Điều này cho phép GNNs học được các biểu diễn phong phú hơn và nắm bắt được các mối quan hệ phức tạp hơn trong đồ thị.

Tuy nhiên, việc truyền tin qua nhiều lớp cũng có thể dẫn đến một số thách thức Một trong những thách thức đó là hiện tượng over-smoothing, khi các biểu diễn của các nút trở nên quá giống nhau và mất đi thông tin phân biệt sau nhiều lớp truyền tin Điều này có thể làm giảm khả năng phân biệt và học các đặc trưng quan trọng của từng nút Các kỹ thuật như sử dụng các cơ chế attention, skip connections, hoặc điều chỉnh số lớp truyền tin được sử dụng để giảm thiểu vấn đề này.

Một thách thức khác là sự phức tạp tính toán khi áp dụng truyền tin trên các đồ thị lớn Việc tính toán và tổng hợp các tin nhắn có thể trở nên tốn kém về mặt tính toán khi số lượng cạnh và nút trong đồ thị tăng lên Các phương pháp như lấy mẫu các nút lân cận, sử dụng các kỹ thuật tính toán song song và phân tán, hoặc áp dụng các chiến lược tối ưu hóa hiệu quả được nghiên cứu để giải quyết vấn đề này.

Mặc dù còn những thách thức, cơ chế truyền tin vẫn là một thành phần quan trọng và không thể thiếu trong GNNs Nó cho phép GNNs học được các biểu diễn phong phú và tinh tế của các nút trong bối cảnh của cấu trúc đồ thị, mở ra nhiều ứng dụng thú vị trong các lĩnh vực khác nhau.Các nghiên cứu tiếp theo tập trung vào việc cải tiến cơ chế truyền tin, như sử dụng các hàm tin nhắn và hàm tổng hợp tinh vi hơn, kết hợp với các kỹ thuật attention và học tăng cường, hứa hẹn sẽ nâng cao hơn nữa hiệu suất và khả năng của GNNs trong tương lai.

Xây dựng mạng nơ-ron đồ thị

Mạng nơ-ron đồ thị (Graph Neural Networks - GNNs) là một lớp mô hình học sâu được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc đồ thị GNNs được giới thiệu lần đầu tiên bởi [46] và kể từ đó, nhiều biến thể của GNNs đã được phát triển và áp dụng thành công trong nhiều lĩnh vực khác nhau Các ứng dụng của GNNs bao gồm xác minh và lập luận chương trình, dự đoán ảnh hưởng xã hội, hệ thống gợi ý, mô hình hóa hồ sơ sức khỏe điện tử, phân tích mạng não, và nhiều ứng dụng khác.

Kiến trúc cơ bản của một lớp GNN bao gồm hai bước chính: truyền tin (message passing) và tổng hợp (aggregation) Hình 2.10a và 2.10b minh họa cấu trúc của một lớp GNN đơn.Trong bước truyền tin, các vector đặc trưng của các đỉnh trong vùng lân cận của một đỉnh𝑣 được biến đổi thông qua một hàm truyền tinMSGtrước khi được gửi đến𝑣 Quá trình này được mô tả bằng công thức sau:

𝑙 −1) 𝑢 trong đó 𝑙 =1, , 𝐿 là chỉ số của lớp GNN,ℎ (𝑙−1) 𝑢 là vector ẩn (hidden vector) của đỉnh𝑢 tại lớp trước đó (vớiℎ 0

𝑢 =𝑥 𝑢 là vector đặc trưng ban đầu của đỉnh𝑢), vàMSGlà hàm truyền tin được sử dụng để cập nhật các vector đặc trưng.

Hàm truyền tinMSGcó thể được thiết kế theo nhiều cách khác nhau Một cách đơn giản là sử dụng một ma trận trọng số có thể học𝑊 (𝑙) để biến đổi tuyến tính các vector đặc trưng, tức là MSG (𝑙) (𝑥) =𝑊 ( 𝑙 ) 𝑥 Một cách khác là giữ nguyên các vector đặc trưng, tức làMSG (𝑙) (𝑥)=𝑥.

Sau khi truyền tin, bước tổng hợp được thực hiện để kết hợp các vector đặc trưng từ vùng lân cận của đỉnh 𝑣 thành một vector duy nhất có cùng chiều với vector đặc trưng của 𝑣 Quá trình này được mô tả bằng công thức sau:

𝑢 , 𝑢∈ 𝑁(𝑣)} trong đóAGGlà hàm tổng hợp,𝑁(𝑣)là tập hợp các đỉnh lân cận của đỉnh𝑣 Các hàm tổng hợp phổ biến bao gồm tổng (SUM), trung bình (MEAN), hoặc giá trị lớn nhất (MAX).

Xếp chồng các lớp GNN

Một trong những ưu điểm của GNNs là khả năng xếp chồng nhiều lớp GNN để mở rộng vùng tiếp nhận (receptive field) của mỗi đỉnh Bằng cách xếp chồng các lớp GNN, mỗi đỉnh có thể thu thập thông tin không chỉ từ các đỉnh lân cận trực tiếp mà còn từ các đỉnh ”xa hơn”trong đồ thị Hình 2.10c minh họa quá trình hình thành cây khi sử dụng GNN với hai lớp Trong một GNN với𝐾 lớp, mỗi đỉnh sẽ có một vùng lân cận mở rộng đến𝐾 bước.

Tuy nhiên, việc xếp chồng quá nhiều lớp GNN cũng có thể gây ra một số vấn đề Khi số lớp tăng lên, các vùng lân cận của các đỉnh có thể trở nên chồng chéo lên nhau, đặc biệt trong trường hợp đồ thị có mật độ cao Điều này dẫn đến hiện tượng các vector đặc trưng của các đỉnh trở nên rất giống nhau, gây ra vấn đề ”quá mượt”(over-smoothing) Khi đó, khả năng phân biệt và học các đặc trưng quan trọng của từng đỉnh bị giảm đi.

Thiết kế kiến trúc GNN

Việc thiết kế một kiến trúc GNN hiệu quả đòi hỏi sự cân nhắc kỹ lưỡng về các thành phần khác nhau của mô hình Các biến thể của GNN có thể được tạo ra bằng cách thay đổi các yếu tố sau:

• Hàm truyền tinMSG: Lựa chọn hàm truyền tin phù hợp là rất quan trọng để truyền tải thông tin một cách hiệu quả giữa các đỉnh Các hàm truyền tin có thể được thiết kế dựa trên các phép biến đổi tuyến tính, phi tuyến, hoặc sử dụng các mạng nơ-ron con.

• Hàm tổng hợpAGG: Hàm tổng hợp quyết định cách kết hợp thông tin từ các đỉnh lân cận Việc lựa chọn hàm tổng hợp phù hợp phụ thuộc vào bài toán cụ thể và đặc điểm của đồ thị.

• Hàm mất mát: Hàm mất mát được sử dụng để đào tạo GNN phụ thuộc vào nhiệm vụ cụ thể, chẳng hạn như phân loại, hồi quy, hoặc dự đoán liên kết.

• Số lớp GNN: Số lớp GNN xác định độ sâu của mô hình và khả năng thu thập thông tin từ các đỉnh xa hơn Tuy nhiên, cần cân bằng giữa độ sâu và vấn đề quá mượt.

• Các kỹ thuật điều chuẩn: Các kỹ thuật như chuẩn hóa theo lô (batch normalization), tắt ngẫu nhiên (dropout) có thể được áp dụng để cải thiện hiệu suất và khả năng tổng quát hóa của mô hình.

Việc thiết kế một kiến trúc GNN tối ưu đòi hỏi sự hiểu biết sâu sắc về bài toán, đặc điểm của dữ liệu đồ thị, và sự thử nghiệm với các lựa chọn khác nhau Các nghiên cứu gần đây cũng tập trung vào việc phát triển các kiến trúc GNN tiên tiến hơn, như sử dụng cơ chế attention, học đa tác vụ, hoặc kết hợp với các kỹ thuật học sâu khác.

Tóm lại, GNNs là một lớp mô hình mạnh mẽ và linh hoạt để xử lý dữ liệu có cấu trúc đồ thị Bằng cách xây dựng các lớp GNN và xếp chồng chúng lại với nhau, GNNs có thể học được các biểu diễn phong phú và tinh tế của các đỉnh trong đồ thị, mở ra nhiều ứng dụng thú vị trong nhiều lĩnh vực khác nhau Tuy nhiên, việc thiết kế một kiến trúc GNN hiệu quả đòi hỏi sự cân nhắc kỹ lưỡng về các thành phần khác nhau và sự hiểu biết sâu sắc về bài toán cụ thể.

Mạng nơ-ron tích chập đồ thị (Graph Convolutional Neural Network) 31

Mạng nơ-ron tích chập đồ thị (Graph Convolutional Neural Network - GCN) là một biến thể phổ biến của GNN, được giới thiệu bởi [?] GCN áp dụng phép tích chập trên đồ thị để học các biểu diễn của các đỉnh dựa trên thông tin từ các đỉnh lân cận.

Trong GCN, đầu ra của vector ẩn sau khi được đưa vào lớp𝑙 được định nghĩa như sau:

|𝑁(𝑣) | +𝑏 (𝑙) ê ® ơ trong đó 𝑔là hàm kích hoạt phi tuyến (thường là ReLU),𝑊 (𝑙) và𝑏 (𝑙) là các tham số có thể học được của lớp𝑙, 𝑁(𝑣)là tập hợp các đỉnh lân cận của đỉnh𝑣, và|𝑁(𝑣) | là số lượng các đỉnh lân cận.

Cụ thể, hàm truyền tin và tổng hợp của GCN có thể được viết lại như sau:

Trong GCN, hàm truyền tinMSGthực hiện phép biến đổi tuyến tính trên các vector ẩn của các đỉnh lân cận bằng ma trận trọng số𝑊 ( 𝑙 ) Sau đó, hàm tổng hợpAGGtính tổng các vector đã được biến đổi và áp dụng hàm kích hoạt phi tuyến𝑔để tạo ra vector ẩn mới cho đỉnh𝑣.

GCN đã đạt được thành công trong nhiều ứng dụng, bao gồm phân loại đồ thị, dự đoán liên kết, và học biểu diễn đồ thị Tuy nhiên, GCN cũng có một số hạn chế, chẳng hạn như khả năng tổng quát hóa kém trên các đồ thị lớn và phức tạp, và khó khăn trong việc xử lý các đồ thị có nhãn cạnh.

Mạng nơ-ron chú ý đồ thị (Graph Attention Network)

Mạng nơ-ron chú ý đồ thị (Graph Attention Network - GAT), được giới thiệu bởi [51], là một biến thể của GNN nhằm cải thiện khả năng học biểu diễn của các đỉnh bằng cách sử dụng cơ chế chú ý (attention mechanism) GAT gán các trọng số khác nhau cho các đóng góp của các đỉnh lân cận, dựa trên tầm quan trọng của chúng Ý tưởng chính của GAT là không phải tất cả các đỉnh lân cận đều có đóng góp như nhau vào biểu diễn của một đỉnh.

Trong GAT, đầu ra của vector ẩn sau khi được đưa vào lớp𝑙 được tính toán như sau:

𝑢 +𝑏 ( 𝑙 ) ê ® ơ trong đó𝑔là hàm kích hoạt phi tuyến,𝑊 ( 𝑙 ) và𝑏 ( 𝑙 ) là các tham số có thể học được của lớp𝑙, và𝛼 𝑣𝑢 là trọng số chú ý của thông điệp từ đỉnh𝑢đến đỉnh𝑣. Điểm khác biệt chính giữa GCN và GAT nằm ở việc sử dụng trọng số chú ý𝛼 𝑣𝑢 Trong GAT, một cơ chế chú ý𝑎 được sử dụng để tính toán các hệ số chú ý cho mỗi cặp đỉnh Cơ chế chú ý

𝑎có thể được tham số hóa bởi một mạng nơ-ron truyền thẳng (feedforward neural network) và các hệ số chú ý được tính toán như sau:

Sau đó, các hệ số chú ý được chuẩn hóa bằng hàm softmax trên tất cả các đỉnh lân cận của đỉnh𝑣để tạo ra các trọng số chú ý𝛼 𝑣𝑢 :

Nếu cơ chế chú ý 𝑎 là một mạng nơ-ron truyền thẳng một lớp với trọng số𝑎, các trọng số chú ý có thể được tính toán cụ thể như sau:

• ã 𝑇 biểu thị phộp chuyển vị ma trận,

• 𝑊 là ma trận trọng số có thể học được.

Bằng cách sử dụng cơ chế chú ý, GAT có thể học được các trọng số khác nhau cho các đỉnh lân cận, cho phép mô hình tập trung vào các đỉnh quan trọng hơn và bỏ qua các đỉnh ít liên quan. Điều này giúp cải thiện khả năng học biểu diễn của các đỉnh và nâng cao hiệu suất của mô hình trên nhiều tác vụ, như phân loại đồ thị và dự đoán liên kết.

GAT đã đạt được kết quả ấn tượng trên nhiều tập dữ liệu và bài toán khác nhau Tuy nhiên, GAT cũng có một số hạn chế, chẳng hạn như tính toán phức tạp hơn so với GCN do việc tính toán các trọng số chú ý, và khó khăn trong việc mở rộng cho các đồ thị lớn và nhiều lớp.

Trong tổng thể, GAT là một phương pháp mạnh mẽ và linh hoạt để học biểu diễn của các đỉnh trong đồ thị Bằng cách kết hợp thông tin từ các đỉnh lân cận một cách có trọng số thông qua cơ chế chú ý, GAT có thể học được các biểu diễn phong phú và đạt được hiệu suất cao trên nhiều tác vụ liên quan đến đồ thị.

(b) Truyền tin và tổng hợp từ láng giềng cục bộ đến đỉnh

(c) Thu thập thông tin hơn cho đỉnh 𝐴 với 2 lớp GNNHình 2.10: Minh họa về mạng Nơ-ron đồ thị [41]

CÁC CÔNG TRÌNH NGHIÊN CỨU

Định nghĩa vấn đề

Phân loại các đặc trưng trên nền tảng Twitter

Trong mạng xã hội Twitter, mỗi người dùng𝑈được đặc trưng bởi ba thành phần thông tin chính: tập hợp các thuộc tính𝑃, mạng lưới các láng giềng𝑁 và tập hợp các tweet đã đăng tải

𝑇 Tập hợp thuộc tính𝑃bao gồm nhiều đặc trưng đa dạng, có thể được phân chia thành hai loại chính: đặc trưng khởi tạo𝑃 𝑖 và đặc trưng hoạt động𝑃 𝑎 Đặc trưng khởi tạo𝑃 𝑖 bao gồm tất cả các trường thông tin có thể được người dùng tùy chỉnh trong quá trình tạo tài khoản, ví dụ như tên người dùng, ngày sinh, giới tính và hình ảnh hồ sơ Mặt khác, đặc trưng hoạt động𝑃 𝑎 đề cập đến các thuộc tính động, được cập nhật liên tục dựa trên các hành vi tương tác của người dùng𝑈 hoặc các láng giềng trong mạng lưới của𝑈, bao gồm các hoạt động như theo dõi, yêu thích và trả lời Thông tin về mạng lưới láng giềng𝑁 của người dùng𝑈 bao gồm danh sách những người theo dõi (followers) và những người được𝑈 theo dõi (followees), tạo thành một đồ thị mối quan hệ xã hội phong phú Việc phân loại các đặc trưng thành các nhóm riêng biệt như trên mang lại nhiều lợi ích trong việc phân tích và đánh giá các phương pháp phát hiện tài khoản bot xã hội Thông qua việc xem xét cách các nhà nghiên cứu khai thác và sử dụng từng nhóm đặc trưng trong quá trình xây dựng các mô hình dự đoán, chúng ta có thể hiểu sâu hơn về các giả định và tiên đề mà họ đặt ra về mỗi loại đặc trưng Đồng thời, việc tổng hợp và so sánh xu hướng lựa chọn đặc trưng trong các nghiên cứu về học máy và học sâu qua nhiều năm cũng trở nên dễ dàng hơn, giúp xác định những đặc trưng nào đã nhận được sự quan tâm và khai thác nhiều nhất trong cộng đồng nghiên cứu.

Phương pháp phát hiện tài khoản giả mạo ở cấp độ tài khoản

Các phương pháp phát hiện bot xã hội ở cấp độ tài khoản tập trung vào việc trả lời câu hỏi cốt lõi:Liệu một tài khoản Twitter cho trước có phải do con người hay bot điều khiển? Mục tiêu chính của các phương pháp này là phân biệt chính xác giữa tài khoản bot và tài khoản người dùng thực dựa trên các đặc trưng và hành vi của chúng Định nghĩa toán học của bài toán phát hiện bot ở cấp độ tài khoản có thể được diễn đạt như sau: Cho một tài khoản𝑈 được biểu diễn bởi bộ ba thông tin(𝑇 , 𝑃, 𝑁), trong đó𝑇 là tập hợp các tweet,𝑃là tập hợp các thuộc tính và𝑁 là mạng lưới láng giềng, mục tiêu là học một hàm phát hiện bot 𝑓 sao cho 𝑓(𝑈(𝑇 , 𝑃, 𝑁)) → ˆ𝑦,với𝑦ˆlà nhãn dự đoán của tài khoản, xấp xỉ nhãn thực tế𝑦một cách tối ưu nhằm tối đa hóa độ chính xác phân loại Nhãn thực tế𝑦của một tài khoản chỉ có thể nhận một trong hai giá trị: con người (𝑦=0) hoặc bot (𝑦=1) [22].

Phương pháp phát hiện tài khoản giả mạo ở cấp độ tweet

Khác với phương pháp phát hiện ở cấp độ tài khoản, các phương pháp phát hiện bot xã hội ở cấp độ tweet tập trung vào việc trả lời câu hỏi:Liệu một tweet cho trước có phải do con người hay bot tạo ra? Mục tiêu chính của các phương pháp này là phân biệt chính xác nguồn gốc của một tweet dựa trên nội dung, siêu dữ liệu và mối quan hệ của nó với các tweet khác Định nghĩa toán học của bài toán phát hiện bot ở cấp độ tweet có thể được diễn đạt như sau: Cho một tweet

𝑇 được biểu diễn bởi bộ ba thông tin(𝑇 𝑠 , 𝑇 𝑡 , 𝑇 𝑟 ), trong đó𝑇 𝑠 là ngữ nghĩa của tweet,𝑇 𝑡 là siêu dữ liệu của tweet và𝑇 𝑟 là mối quan hệ của tweet với các tweet khác, mục tiêu là học một hàm phát hiện bot𝑔sao cho𝑔(𝑇(𝑇 𝑠 , 𝑇 𝑡 , 𝑇 𝑟 )) → ˆ𝑦, vớiˆ𝑦là nhãn dự đoán của tweet, xấp xỉ nhãn thực tế𝑦một cách tối ưu nhằm tối đa hóa độ chính xác phân loại Nhãn thực tế 𝑦của một tweet chỉ có thể nhận một trong hai giá trị: có tính chất con người (𝑦 =0) hoặc có tính chất bot (𝑦 =1).

Phát hiện dựa trên Học Máy

Chu và cộng sự [10] đã đề xuất một hệ thống phân loại gồm bốn thành phần: thành phần dựa trên entropy, thành phần phát hiện thư rác, thành phần thuộc tính tài khoản và thành phần ra quyết định Ba thành phần đầu tiên xử lý hành vi tweet, nội dung tweet và thuộc tính tài khoản tương ứng Thành phần cuối cùng sử dụng mô hình phân loại Rừng Ngẫu Nhiên (Random Forest) để phân biệt một tài khoản là người thật, bot hay tài khoản lai (cyborg) Các tác giả nhận thấy rằng việc sử dụng khoảng thời gian giữa các tweet như một đại lượng đo độ phức tạp hành vi có vai trò quan trọng nhất Các đặc trưng khác như tỷ lệ URL, tỷ lệ thiết bị tự động, độ thư rác theo mô hình Bayes, tỷ lệ thiết bị thủ công, ngày đăng ký, tỷ lệ đề cập cũng có đóng góp cao trong nhiệm vụ phân loại Dickerson và cộng sự [17] sử dụng 25 đặc trưng từ Bộ dữ liệu Bầu cử Ấn Độ, chia thành bốn danh mục: cú pháp tweet, ngữ nghĩa tweet, hành vi người dùng và hàng xóm người dùng SentiMetrix [5] được sử dụng để trích xuất cảm xúc từ các tweet của người dùng. Một số đặc trưng bị ảnh hưởng bởi cảm xúc của chính người dùng, các láng giềng hoặc toàn bộ cảm xúc Các tác giả đã thử nghiệm với sáu bộ phân loại học máy bằng phương pháp tìm kiếm lưới bao gồm: Gaussian Naive Bayes, Máy Vector Hỗ trợ (Support Vector Machine - SVM), Rừng Ngẫu Nhiên (Random Forests), Phân loại Cây Tăng trưởng (Gradient Boosting Trees), AdaBoost và Phân loại Rừng (Random Forests) Kết quả thực nghiệm cho thấy Random Forests cung cấp kết quả phân loại bot tốt nhất trên tập dữ liệu này, đồng thời cảm xúc cũng đóng vai trò quan trọng trong việc phát hiện bot xã hội Alarifi và cộng sự [3] đã áp dụng hai bộ lọc thuộc tính để thực hiện lựa chọn đặc trưng tự động:CfsSubsetEvalvàPrincipalComponents Sau quá trình lọc, tám đặc trưng đã được lựa chọn bao gồm: số ký tự trung bình cho mỗi tweet, độ lệch chuẩn của số ký tự trên mỗi tweet, số lượng hashtag trung bình cho mỗi tweet, số lượng liên kết trung bình, số lần người dùng được yêu thích, số lượng tweet trung bình được tạo ra cùng một thời điểm, số lần người dùng được retweet trung bình Nhiều bộ phân loại đã được thử nghiệm và đánh giá thông qua tỷ lệ phát hiện (độ chính xác) Random Forests và mạng Bayesian đã hoạt

Hình 3.1: Hệ thống phân loại bot xã hội của [10] động tốt hơn trên tập dữ liệu của họ Cuối cùng, nhóm tác giả trình bày một ứng dụng để cảnh báo các tài khoản độc hại bằng màu sắc, giúp người dùng có thể thực hiện các hành động thích hợp Kantepe và Ganiz [29] cung cấp một quy trình xử lý tiền xử lý, trích xuất và xử lý 62 đặc trưng từ người dùng và tweet của họ Các đặc trưng này được chia thành 3 danh mục: đặc trưng người dùng, đặc trưng tweet và đặc trưng theo chu kỳ Mô hình Cây Tăng Trưởng có độ dốc (Gradient Boosted Trees) cho kết quả tốt nhất với bộ đặc trưng này Hơn nữa, các tác giả cũng tận dụng một số chỉ số để lựa chọn đặc trưng có tương quan cao với nhãn lớp mục tiêu, bao gồm Information Gain, Mutual Information và Chi-Square Các đặc trưng có độ quan trọng cao nhất bao gồm số hashtag giống nhau tối đa, phiên hoạt động lâu nhất, entropy tweet, ngày hoạt động nhiều nhất, số người theo dõi/đang theo dõi, số tweet, giờ hoạt động nhiều nhất, độ tương đồng trung bình giữa các tweet, tỷ lệ phản hồi, bảo vệ theo chu kỳ và hình ảnh hồ sơ mặc định Tuy nhiên, các tác giả không nêu rõ liệu họ đã sử dụng 62 đặc trưng hay 11 đặc trưng từ quá trình lựa chọn làm đầu vào cho bộ phân loại Ersahin và cộng sự [18] sử dụng quá trình rời rạc hóa để chuyển đổi các đặc trưng liên tục thành các đặc trưng dựa trên khoảng Cụ thể, các tác giả thử nghiệm với rời rạc hóa cùng chiều rộng và rời rạc hóa cùng giảm thiểu entropy Rời rạc hóa cùng chiều rộng chia khoảng giá trị thành𝑘 khoảng có chiều rộng bằng nhau Trong khi đó, rời rạc hóa cùng giảm thiểu entropy định nghĩa các điểm cắt bằng cách sử dụng entropy Cho một tập hợp các trường hợp𝑆, một đặc trưng 𝐴và một ranh giới phân vùng𝑇, entropy của thông tin lớp của phân vùng được tạo ra bởi T được cho bởi:

Ranh giới𝑇 min làm giảm thiểu hàm entropy qua tất cả các ranh giới phân vùng có thể sẽ được chọn làm ranh giới rời rạc nhị phân Việc chia nhỏ tiếp tục được thực hiện một cách đệ quy.Bằng cách sử dụng rời rạc hóa và bộ phân loại Naive Bayes, hiệu suất phân loại đã được cải thiện Gilani và cộng sự [25] giới thiệu loại nguồn hoạt động, số lượng nguồn và kích thước nội dung CDN làm đầu vào mới cho nhiệm vụ phát hiện bot Họ tập trung vào phân tích các đặc điểm giữa các nhóm tài khoản có số lượng người theo dõi khác nhau Kết quả thực nghiệm sử dụng bộ phân loại Random Forests cho thấy một số đặc trưng có ý nghĩa quan trọng trong việc phân biệt giữa con người và bot xã hội, bao gồm: số lần người dùng được yêu thích, số lượt yêu thích trên mỗi tweet, số lượt retweet trên mỗi tweet, phản hồi người dùng, retweet người dùng,tần suất tweet, số lượng URL và số lượng nguồn Beskow và cộng sự [7] tập trung vào tên màn hình như là đặc trưng duy nhất để phát hiện bot xã hội Họ đặt giả thuyết rằng tính ngẫu nhiên của tên màn hình của một bot xã hội có thể giúp xác định những tài khoản độc hại này Từ tên màn hình, họ trích xuất cặp ký tự (tức là TF-IDF của các cặp ký tự), số lượng ký tự viết thường, số lượng ký tự viết hoa và entropy Shannon Trong entropy Shannon, cho trước số lần xuất hiện chuẩn hóa cho mỗi ký tự𝑖được tìm thấy trong tên màn hình 𝑝 𝑖 , entropy có thể tính toán là:

Quá trình phân loại được thực hiện bằng mô hình Hồi quy Logistic Khaled và cộng sự [31], với mục tiêu tự động thu thập các đặc trưng hiệu quả, đã đề xuất một mô hình giảm thiểu đặc trưng cùng với mô hình tiền xử lý dữ liệu, mô hình phân loại và mô hình đánh giá Với 16 đặc trưng được chỉ định, nhiệm vụ của họ là xác định tổ hợp đặc trưng nào cho độ chính xác tốt nhất Bốn kỹ thuật giảm dữ liệu đã được xem xét: Phân tích Thành phần Chính (PCA), xếp hạng thứ tự Spearman, Lựa chọn Đặc trưng Wrapper sử dụng SVM và Hồi quy Tuyến tính Đa biến.

Họ cũng mô tả thuật toán phân loại mới của mình, SVM-NN, là sự kết hợp giữa Support Vector Machine (SVM) và Neural Network (NN), để chọn ra đặc trưng tốt nhất từ đầu ra của mô hình giảm thiểu đặc trưng (tức là tất cả các tổ hợp đặc trưng có thể) SVM-NN và xếp hạng thứ tự Spearman đã được đánh giá là kết hợp tốt nhất cho mô hình của họ.

Hình 3.2: Minh họa thuật toán SVM-NN trong [31]

Kudugunta và Ferrara [32] đã đề xuất hai mô hình riêng biệt để giải quyết việc phát hiện bot theo cấp độ tài khoản và theo cấp độ tweet Đối với phát hiện theo cấp độ tài khoản, họ áp dụng các phương pháp dựa trên học máy Cụ thể, họ sử dụng kỹ thuật tái cân bằng ít số liệu thiểu số (SMOTE) và Edited Nearest Neighbors (ENN) để cân bằng tỷ lệ giữa bot và tài khoản hợp lệ trong tập dữ liệu, đồng thời sử dụng Random Forests như bộ phân loại phù hợp nhất Trong việc phát hiện bot theo cấp độ tweet, họ tiếp tục sử dụng phương pháp học sâu, sẽ được đề cập chi tiết trong phần tiếp theo Pakaya và cộng sự [42] nghiên cứu phát hiện bot theo cấp độ tweet bằng cách phân tích sự khác biệt giữa cách một tài khoản chính thống và bot xã hội đăng bài trên mạng xã hội Các tác giả mã hóa mỗi tweet thành các đặc trưng TF-IDF, Word2Vec và Bigram, sau đó sử dụng các mô hình Hồi quy Logistic, AdaBoost, XGBoost và Random Forests để tìm ra tổ hợp tối ưu Kết quả cho thấy đặc trưng TF-IDF và thuật toán XGBoost đạt độ chính xác cao nhất trên tập dữ liệu của họ Các tác giả cũng thực hiện phân loại đa lớp, trong đó spam bot và fake followers, hai biến thể của bot xã hội, được xem xét riêng biệt Đặc trưng Word2Vec và thuật toán XGBoost hoạt động tốt nhất trong tình huống này Parischa và Hayes [43] mã hóa ba loại tweet: tweet, phản hồi và retweet thành các chữ cái A, C và T Kết quả là lịch sử tweet của một tài khoản được chuyển đổi thành một chuỗi ký tự tương tự với một chuỗi DNA thực sự Sau đó, họ sử dụng một thuật toán nén không mất mát, thu thập thống kê và sử dụng chúng như một thước đo về tính dự đoán trong hành vi của các tài khoản Twitter Hồi quy Logistic được sử dụng để đánh giá các tài khoản dựa trên các thống kê tính toán Yang và cộng sự [55] xây dựng một mô hình phát hiện bot xã hội có khả năng mở rộng và tính tổng quát cao dựa trên

8 đặc trưng thuộc tính người dùng, 6 đặc trưng đại diện cho sự phát triển của các đặc trưng số học trước đó và 6 đặc trưng được trích xuất từ tên màn hình, tên người dùng và mô tả của người dùng Random Forests cũng được chọn để thực hiện giai đoạn phân loại Để tận dụng thông tin mạng lưới xã hội, Karpov và cộng sự [30] đã cố gắng sử dụng Node2Vec [26] và Attri2Vec [56], các kỹ thuật nhúng đồ thị Hiệu quả của các kỹ thuật nhúng này đã được chứng minh qua kết quả thực nghiệm, tuy nhiên, việc thực nghiệm với quy mô nhỏ khiến cho kết luận chưa thực sự thuyết phục Rất nhiều công sức đã được đổ vào việc phát hiện bot xã hội với các phương pháp học máy Tóm lại, các công trình liên quan chủ yếu tập trung vào:

• Phân tích giá trị của một đặc trưng hoặc tập hợp con các đặc trưng có thể thu thập từ một tài khoản Twitter trong việc phát hiện bot xã hội.

• Đề xuất một quy trình tiền xử lý cho phép các nhà khoa học hoặc phân tích dữ liệu chọn lọc hoặc trích xuất đặc trưng theo hướng dẫn thông qua hiểu biết về dữ liệu hoặc tự động sử dụng các thuật toán lựa chọn/giảm số chiều đặc trưng.

• Giảm sự mất cân bằng giữa số lượng tài khoản bot và tài khoản hợp lệ trong tập dữ liệu, hoặc giữa số lượng dự đoán chính xác trên các tài khoản này nhằm tối đa hóa chỉ số F1. Dưới đây là một số đặc điểm chung có thể tìm thấy trong các công trình trên:

• Đặc trưng thuộc tính người dùng là tập hợp đặc trưng được xem xét nhiều nhất.

• Phát hiện bot theo cấp độ tài khoản là nhiệm vụ được quan tâm nhiều nhất.

• Các bộ phân loại có kiến trúc dựa trên cây thường cho kết quả độ chính xác cao hơn các thuật toán khác khi sử dụng cùng tập đặc trưng và kỹ thuật tiền xử lý tương tự [34,17,10, 32] Trong đó, Random Forests là thuật toán được sử dụng phổ biến.

• Các chỉ số đánh giá phổ biến nhất là độ chính xác và diện tích dưới đường cong ROC (AUC/ROC).

Phương pháp học máy có một số hạn chế do những lý do sau:

• Kỹ thuật lựa chọn đặc trưng tốn thời gian.Trong phương pháp học máy, hiệu suất của bộ phân loại phụ thuộc rất nhiều vào chất lượng của kỹ thuật lựa chọn đặc trưng, đòi hỏi một lượng lớn kỹ năng khai thác dữ liệu và chuyên môn trong lĩnh vực Trên thực tế, các công trình hiện có đã tạo ra cuộc tranh luận về việc“Đặc trưng nào là tốt nhất?”và đạt được nhiều kết quả thực nghiệm thành công Tuy nhiên, do sử dụng các tập dữ liệu khác nhau, điều này làm giảm tầm ảnh hưởng của quan điểm của họ Cho đến nay, Yang và cộng sự [55] đã được thử nghiệm trên nhiều tập dữ liệu khác nhau và quá trình lựa chọn, trích xuất đặc trưng tương đối đơn giản.

• Giả định về tính độc lập của tài khoản.Hầu hết các công trình và tập dữ liệu được xây dựng dựa trên giả định rằng các tài khoản là độc lập với nhau Theo đó, việc gán nhãn thủ công và phân loại tự động xem xét từng tài khoản riêng lẻ để xác định xem tài khoản đó có phải là bot xã hội hay không Các láng giềng của chúng ít có khả năng ảnh hưởng đến nhãn dự đoán Với sự tiến hóa và mô phỏng ngày càng tinh vi của các thế hệ bot xã hội mới, những tài khoản độc hại này có khả năng tránh bị phát hiện cao hơn [11].

Phát hiện dựa trên Học Sâu

Học sâu là một lĩnh vực của học máy sử dụng các mạng nơ-ron nhiều tầng để học các biểu diễn trừu tượng ở nhiều cấp độ từ dữ liệu Gần đây, học sâu đã nhận được rất nhiều sự chú ý từ cộng đồng học thuật trong nhiều lĩnh vực khác nhau, đặc biệt là trong thị giác máy tính và xử lý ngôn ngữ tự nhiên Ban đầu, các nhà nghiên cứu đã nhận ra hai lợi thế chính của việc áp dụng các kỹ thuật học sâu trong phát hiện bot xã hội so với học máy cạn:

• Các mô hình học sâu có khả năng tự động học các đặc trưng phức tạp và tinh tế từ dữ liệu thông qua các hàm kích hoạt phi tuyến trong quá trình lan truyền xuôi (feedforward) Nhờ đó, thời gian dành cho kỹ thuật thiết kế đặc trưng thủ công có thể được tiết kiệm đáng kể.

• Với sự xuất hiện của các mô hình nhúng từ được tiền huấn luyện như GloVe (Global Vectors for Word Representation) hay Word2Vec, các kiến trúc mạng nơ-ron hiệu suất cao như Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN), Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) hoặc các biến thể của chúng đã đạt được hiệu suất tốt nhất trong các tác vụ phân loại văn bản, cùng với sự ra đời của các Mạng nơ-ron đồ thị (Graph Neural Networks - GNN), học sâu đã được áp dụng trong nhiều thử nghiệm nhằm tạo ra các biện pháp đối phó hiệu quả trước sự tiến hóa của các cuộc tấn công bot xã hội.

Cai và cộng sự [9] giới thiệu một mô hình phát hiện bot sâu được tăng cường bằng hành vi Mô hình này nhằm nắm bắt các đặc trưng tiềm ẩn bằng cách kết hợp thông tin nội dung và hành vi. Đầu tiên, các tweet được biểu diễn dưới dạng ma trận và đưa vào một lớp CNN chung với phép tổng hợp cực đại (max-pooling) để trả về một vector duy nhất cho mỗi tweet Sau đó, mỗi vector này được ghép nối với thông tin về hành vi đăng bài trước khi được đưa vào lớp LSTM Kỹ thuật Network Embedding sử dụng DeepWalk được áp dụng để kết hợp với đầu ra của LSTM nhằm thu được biểu diễn người dùng Cuối cùng, hàm Softmax được sử dụng để phân loại một tài khoản là bot hay không dựa trên biểu diễn người dùng trên Ngoài việc sử dụng bộ phân loại Random Forest cho phát hiện bot theo cấp độ tài khoản, Kudugunta và Ferrara [32] cũng đề xuất một bộ phân loại cho phát hiện theo cấp độ tweet sử dụng các kỹ thuật học sâu Các kỹ thuật tiền xử lý được thực hiện cho mỗi tweet trước khi đưa vào bộ mã hóa ngữ nghĩa bao gồm việc tách từ, thay thế các thẻ đặc biệt cho hashtag, URL, số, đề cập người dùng, biểu tượng cảm xúc, từ viết hoa và chuyển đổi tweet thành vector sử dụng GloVe Tiếp theo, họ đề xuất kiến trúc LSTM ngữ cảnh (Contextual LSTM), được tạo ra bằng cách ghép nối biểu diễn tweet thu được từ đầu ra của LSTM với siêu dữ liệu của tweet (số lượt retweet, số lượt trả lời, số lượt yêu thích, số lượng hashtag và số lượng URL) Các đặc trưng kết hợp sau đó được xử lý qua một mạng nơ-ron 2 tầng với hàm kích hoạt ReLU để thu được đầu ra Kết quả cho thấy việc kết hợp tweet và siêu dữ liệu của tweet mang lại độ chính xác phân loại tốt hơn Hình 3.3 minh họa kiến trúc Contextual LSTM Farber và cộng sự [19] và Wei và Nguyen [53] chỉ sử dụng ngữ nghĩa tweet làm đầu vào để thực hiện phát hiện bot theo cấp độ tweet Mục tiêu của họ là loại bỏ nhu cầu về các đặc trưng do con người thiết kế và các giả định về hồ sơ, mạng lưới và hành vi của tài khoản trên mạng xã hội Trong khi Farber và cộng sự [19] sử dụng các lớp CNN, Wei và Nguyen [53] sử dụng nhúng GloVe và lớp LSTM hai chiều xếp chồng Feng và cộng sự đã trình bày hai công trình liên tiếp sử dụng phương pháp học sâu Trong công trình đầu tiên [21], họ đề xuất khungSATAR (Self-supervised Approach to Twitter Account Representation learning), bao gồm bốn thành phần: mạng phụ ngữ nghĩa tweet, mạng phụ thuộc tính hồ sơ, mạng phụ liên kết người theo dõi và mạng tổng hợp tương tác Mạng phụ ngữ nghĩa tweet, còn được gọi là bộ mã hóa ngữ nghĩa, sử dụng nhúng Word2Vec và cơ chế Attention để tạo ra vector biểu diễn ngữ nghĩa tweet của người dùng Mạng phụ thuộc tính hồ sơ là một mạng đa tầng đơn giản nhận đầu vào

Hình 3.3: Kiến trúc Contextual LSTM trong [32] là tập hợp đặc trưng thuộc tính𝑃 Mạng phụ liên kết người theo dõi mã hóa mối quan hệ láng giềng của người dùng Mạng tổng hợp tương tác sau đó lấy sự tương quan của ba thành phần cuối cùng làm đầu vào cho lớp softmax để đưa ra đầu ra cuối cùng Trong công trình thứ hai [23], họ đề xuất BotRGCN, sử dụng một Mạng nơ-ron tích chập đồ thị (Graph Convolutional Network - GCN) để xử lý biểu diễn người dùng thành một vector Vector này được tạo ra bằng cách kết hợp bốn tập hợp đặc trưng: mô tả người dùng, tweet của người dùng, thuộc tính số học của người dùng và thuộc tính hạng mục của người dùng Mô tả và tweet của người dùng được chuyển đổi bằng RoBERTa [35] Công trình [23] so sánh kiến trúc của họ với [21] và đạt được hiệu suất cao hơn một chút trên tập dữ liệu TwiBot-20 [22] - một tập dữ liệu chuẩn toàn diện cho việc phát hiện bot Twitter Hình 3.4 và 3.5 miêu tả các kiến trúc SATAR và BotRGCN.

Hình 3.4: Kiến trúc SATAR trong [21]

Guo và cộng sự [27] đề xuất BGSRD, xây dựng một đồ thị văn bản đa dạng và sử dụng các nút nhúng BERT được tiền huấn luyện làm các nút từ hoặc tài liệu để khởi tạo, sau đó sử dụng GCN để phân loại bot Các tác giả cho rằng BERT có thể học thông tin ngữ nghĩa của văn bản trước trên quy mô lớn, trong khi GCN có khả năng tốt trong việc nắm bắt và học các mối quan hệ lan truyền và đồng xuất hiện trên Twitter Trong đồ thị, từ và tài liệu (hoặc tweet) được coi là các nút Có hai loại cạnh trong đồ thị này: cạnh giữa các từ và cạnh giữa tài liệu và từ Trọng số của các cạnh giữa các từ được tính toán bằng cách sử dụng thông tin tương hỗ điểm (point-wise mutual information) Trọng số của các cạnh giữa tài liệu và từ là các giá trị TF–IDF Hình 3.6 minh họa kiến trúc BGSRD Nhìn chung, các công trình liên quan về phương pháp học sâu chủ yếu tập trung vào việc tìm kiếm kiến trúc và cấu hình tối ưu với các đặc trưng gốc Các đặc điểm nổi bật trong các công trình trước bao gồm:

• Ngữ nghĩa tweet và mạng lưới láng giềng của người dùng là các tập hợp đặc trưng được khai thác sâu hơn so với các công cụ phát hiện dựa trên học máy Nhờ đó, chúng đã vượt qua được giả định về tính độc lập của tài khoản và có tính tổng quát tốt hơn.

• Kiến trúc có thể được xây dựng bởi nhiều thành phần, trong đó mỗi thành phần có thể xử lý một tập hợp đặc trưng hoặc tạo ra một vector biểu diễn với ý nghĩa khác nhau.

• CNN và LSTM là các kiến trúc phổ biến được sử dụng trong thành phần mã hóa ngữ nghĩa.

• GCN là kiến trúc phổ biến để phân loại các tài khoản dựa trên thông tin mạng lưới láng

Hình 3.5: Kiến trúc BotRGCN trong [23]

Hình 3.6: Kiến trúc BGSRD trong [27] giềng.

• Độ chính xác, F1-score và hệ số tương quan Matthew (MCC) là các chỉ số đánh giá phổ biến nhất.

Một hạn chế chính của các mô hình học sâu trong phát hiện bot xã hội là thời gian huấn luyện lâu cho các đặc trưng ngữ nghĩa tweet và mạng lưới láng giềng Các kiến trúc phức tạp hơn dẫn đến việc tăng thời gian huấn luyện và yêu cầu cơ sở hạ tầng lớn hơn để triển khai Do đó, phương pháp này có xu hướng có tính tổng quát tốt hơn, nhưng khả năng mở rộng kém hơn so với các thuật toán học máy truyền thống.

Mô hình tham khảo

Khảo sát các tập dữ liệu thí nghiệm

• C-15 có tổng cộng 5,301 người dùng, với cơ cấu như sau:

– 1,950 người dùng thật, chiếm 36.8% tổng số người dùng.

– 3,351 bot, chiếm 63.2% tổng số người dùng.

– Tỷ lệ bot trên người dùng thật xấp xỉ 1.72:1.

• Tổng số tweet trong C-15 là 2,827,757, phân bố như sau:

– Tweet của người dùng thật: 2,631,730, chiếm 93.1% tổng số tweet.

– Tweet của bot: 196,027, chiếm 6.9% tổng số tweet.

– Trung bình, mỗi người dùng thật tạo ra khoảng 1,349 tweet.

– Trung bình, mỗi bot tạo ra khoảng 58 tweet.

• C-15 cung cấp thông tin phong phú về các mối quan hệ trong mạng xã hội:

– Mối quan hệ giữa các tweet:

* Reply: cho phép phân tích chuỗi hội thoại và tương tác giữa người dùng.

* Retweet: giúp theo dõi sự lan truyền thông tin và ảnh hưởng của các tweet.

– Mối quan hệ follow giữa các tài khoản:

* Followers edge: cho biết số lượng và danh tính người theo dõi của mỗi tài khoản.

* Followings edge: cho biết số lượng và danh tính người mà mỗi tài khoản đang theo dõi.

* Giúp xây dựng và phân tích cấu trúc mạng xã hội, xác định các tài khoản có ảnh hưởng.

• Đặc điểm nổi bật của C-15:

– Tỷ lệ bot cao (63.2%) giúp nghiên cứu các đặc tính và hành vi của bot.

– Sự chênh lệch lớn giữa số lượng tweet của người dùng thật và bot cho thấy sự khác biệt trong hành vi đăng bài.

– Thông tin về mối quan hệ giữa các tweet và tài khoản tạo điều kiện cho việc phân tích mạng xã hội sâu rộng.

Bảng 4.2: Thống kê về bộ dữ liệu Cresci-2015

Tập dữ liệu Số lượng tài khoản Tweets Người theo dõi Đang theo dõi

Tập dữ liệu đánh giá

Cresci-2015 được giới thiệu trong [13] Bảng 4.2 cung cấp tổng quan về tên của các tập dữ liệu, số lượng tài khoản và tweet mà chúng bao gồm Các tập dữ liệu này cũng bao gồm các mối quan hệ của tài khoản, bao gồm người theo dõi và bạn bè Dưới đây là mô tả chi tiết về từng tập dữ liệu:

• Tập dữ liệuThe Fake Project (TFP), được thu thập trong một dự án nghiên cứu thuộc sở hữu của các nhà nghiên cứu tại IIT-CNR ở Pisa, Ý Bao gồm 469 tài khoản tình nguyện viên đã được xác nhận là người thật bởi CAPTCHA.

• Tập dữ liệu elezioni2013 (E13), được sử dụng để hỗ trợ một sáng kiến nghiên cứu cho một nghiên cứu xã hội học phối hợp với Đại học Perugia và Đại học Sapienza ở Rome. Nghiên cứu này đã thêm một tập hợp 1481 tài khoản Twitter với các nền tảng chuyên môn khác nhau ngoại trừ các danh mục sau: chính trị, đảng phái, nhà báo, blogger Các tài khoản được chọn đó đã được gán nhãn thủ công là người thật bởi hai nhà xã hội học từ Đại học Perugia, Ý.

• Tập dữ liệufastfollowerz (FSF)bao gồm 1169 tài khoản giả được mua từfastfollow erz.combởi các tác giả.

• Tập dữ liệuintertwitter (INT)bao gồm 1337 tài khoản giả được mua từintertwitter combởi các tác giả.

• Tập dữ liệutwittertechnology (TWT)bao gồm 845 tài khoản giả được mua từtwitte rtechnology.combởi các tác giả.

Tiêu chuẩn đánh giá

• TP (True Positive): Số lượng tài khoản bot được dự đoán đúng.

• TN (True Negative): Số lượng tài khoản human được dự đoán đúng.

• FP (False Positive): Số lượng tài khoản human bị dự đoán nhầm thành bot.

• FN (False Negative): Số lượng tài khoản bot bị dự đoán nhầm thành human.

So sánh mối liên hệ followers/followings giữa tài khoản người thật và bot 47

Mối liên hệ followers/followings của tài khoản người thật

Hình 4.1: Mô phỏng mối quan hệ 500 edge của tài khoản người thật (elezioni2013)

Phân tích mạng lưới kết nối của tài khoản người thật cho thấy:

• Cấu trúc phức tạp: Mạng lưới tạo thành một cấu trúc dày đặc với nhiều kết nối chồng chéo.

• Ranh giới mờ nhạt: Khó phân biệt rõ ràng ranh giới giữa các nhóm kết nối.

• Mật độ kết nối cao: Thể hiện sự tương tác mạnh mẽ và đa dạng giữa các tài khoản.

Những đặc điểm này phản ánh chân thực bản chất phức tạp và đa dạng của mối quan hệ xã hội trong thực tế.

Mối liên hệ followers/followings của tài khoản bot Đối lập với mạng lưới tài khoản người thật, mạng lưới của tài khoản bot thể hiện:

• Cấu trúc đơn giản: Mạng lưới có cấu trúc rõ ràng và dễ phân biệt các nhóm kết nối riêng biệt.

• Mật độ kết nối thấp: So với tài khoản người thật, mật độ kết nối giữa các bot thấp hơn đáng kể.

Hình 4.2: Mô phỏng mối quan hệ 500 edge của tài khoản bot (fastfollowerz)

• Tính độc lập cao: Các node bot có xu hướng hoạt động độc lập và ít tạo kết nối với nhau.

Những đặc điểm này cho thấy mạng lưới bot thiếu sự tương tác xã hội sâu rộng như mạng lưới tài khoản người thật.

Sự khác biệt rõ rệt trong cấu trúc mạng lưới giữa tài khoản người thật và bot cung cấp một cơ sở quan trọng cho việc phân biệt hai loại tài khoản này Mạng lưới tài khoản người thật phản ánh sự phức tạp của tương tác xã hội thực, trong khi mạng lưới bot thể hiện tính chất máy móc và hạn chế trong kết nối Những đặc điểm này có thể được khai thác hiệu quả trong các thuật toán phát hiện bot trên mạng xã hội.

Tiền xử lý dữ liệu

Mục tiêu chính của bước này là chuẩn hóa và làm sạch dữ liệu, nhằm tạo ra một tập dữ liệu chất lượng cao và phù hợp với yêu cầu đầu vào của mô hình.

Một trong những kỹ thuật tiền xử lý được áp dụng là chuẩn hóa dữ liệu Do các đặc trưng người dùng có thể có quy mô và đơn vị đo lường khác nhau, việc sử dụng chúng trực tiếp trong mô hình có thể gây khó khăn cho quá trình học và làm chậm sự hội tụ của thuật toán Để giải quyết vấn đề này, các giá trị của mỗi đặc trưng được chuẩn hóa về cùng một miền giá trị thống nhất Cụ thể, với mỗi đặc trưng𝑖, giá trị𝑥của nó được chuẩn hóa thành giá trị𝑥 𝑠𝑐𝑎𝑙 𝑒 𝑑 bằng công thức sau:

Trong đó, 𝜇 𝑖 và𝜎 𝑖 lần lượt là giá trị trung bình và độ lệch chuẩn của tất cả các giá trị của đặc trưng𝑖tính trên tập dữ liệu huấn luyện Việc chuẩn hóa này giúp đưa các đặc trưng về cùng một tỉ lệ, tạo điều kiện thuận lợi cho việc so sánh và tính toán trong mô hình.

Bên cạnh việc chuẩn hóa các đặc trưng người dùng, Nguyen và cộng sự [38] cũng đề xuất một số kỹ thuật tiền xử lý đối với nội dung của các tweet Mục đích của các kỹ thuật này là giảm thiểu sự phức tạp và nhiễu trong dữ liệu văn bản, đồng thời tập trung vào các thông tin quan trọng và có ý nghĩa Các kỹ thuật tiền xử lý tweet bao gồm:

• Thay thế các hashtag (ví dụ: #twitter, #election, #trending) bằng một từ khóa thống nhất là hashtagtag Việc này giúp giảm số lượng từ khóa duy nhất xuất hiện trong dữ liệu, đồng thời tập trung vào ý nghĩa chung của hashtag, thay vì phân biệt từng hashtag cụ thể.

• Tương tự, các đề cập đến người dùng trong tweet (ví dụ: @user1) được thay thế bằng từ khóa usertag Điều này cũng giúp giảm số lượng từ khóa duy nhất và tập trung vào ý nghĩa của việc đề cập đến người dùng khác, thay vì phân biệt từng người dùng cụ thể.

• Các URL xuất hiện trong tweet cũng được thay thế bằng từ khóaurltag Bằng cách này, sự khác biệt giữa các URL cụ thể được loại bỏ, và mô hình chỉ tập trung vào sự hiện diện của URL trong tweet, không phân biệt nội dung của từng URL.

• Các khoảng trắng thừa trong nội dung tweet được loại bỏ để làm gọn và chuẩn hóa dữ liệu.

• Tất cả các ký tự trong tweet được chuyển về dạng chữ thường để đồng nhất hóa dữ liệu và tránh sự phân biệt không cần thiết giữa các từ có cùng ý nghĩa nhưng khác về kiểu chữ.

Sau khi áp dụng các bước tiền xử lý trên, các tweet được mã hóa thành các vector đặc trưng sử dụng kỹ thuật TF-IDF (Term Frequency-Inverse Document Frequency) TF-IDF giúp biểu diễn mỗi tweet dưới dạng một vector số, trong đó mỗi phần tử của vector tương ứng với một từ khóa và giá trị của nó thể hiện tầm quan trọng của từ khóa đó trong tweet Tuy nhiên, do số lượng từ khóa duy nhất có thể rất lớn và việc lưu trữ toàn bộ chúng trong các vector TF-IDF có thể gây ra sự quá tải cho hệ thống, chỉ𝑛từ khóa có tần số xuất hiện cao nhất được giữ lại Giá trị𝑛được chọn sao cho𝑛 𝑛 𝑡 , với𝑛 𝑡 là tổng số từ khóa hiện có trên toàn bộ tập dữ liệu huấn luyện Việc giới hạn số lượng từ khóa này giúp giảm thiểu số chiều của không gian đặc trưng, từ đó tiết kiệm tài nguyên tính toán và bộ nhớ.

Kết quả của quá trình tiền xử lý là với mỗi người dùng, ta thu được một vector đặc trưng người dùng và một ma trận đặc trưng tweet, đáp ứng các yêu cầu đầu vào cụ thể của mô hình SOBOG như đã mô tả trong mục 4.1 Vector đặc trưng người dùng chứa các giá trị đã được chuẩn hóa của các thuộc tính liên quan đến người dùng, trong khi ma trận đặc trưng tweet chứa các vector TF-IDF biểu diễn nội dung của các tweet liên quan đến người dùng đó.

Việc tiền xử lý dữ liệu một cách kỹ lưỡng và phù hợp như trên mang lại nhiều lợi ích cho quá trình xây dựng và huấn luyện mô hình SOBOG Thứ nhất, việc chuẩn hóa dữ liệu giúp loại bỏ sự khác biệt về quy mô và đơn vị giữa các đặc trưng, tạo điều kiện thuận lợi cho việc so sánh và tính toán trong mô hình Thứ hai, việc làm sạch và giảm nhiễu dữ liệu văn bản giúp tập trung vào các thông tin quan trọng và có ý nghĩa, đồng thời giảm thiểu sự phức tạp không cần thiết. Cuối cùng, việc giảm số chiều không gian đặc trưng giúp tiết kiệm tài nguyên tính toán và bộ nhớ, đồng thời giảm thiểu nguy cơ quá khớp (overfitting) trong quá trình huấn luyện mô hình.

Tất cả những yếu tố trên đóng góp vào việc tạo ra một tập dữ liệu chất lượng cao và phù hợp với yêu cầu của mô hình SOBOG Điều này tạo tiền đề thuận lợi cho việc huấn luyện mô hình hiệu quả và cải thiện độ chính xác của các dự đoán trong tương lai Việc đầu tư thời gian và công sức vào bước tiền xử lý dữ liệu như trên là một yếu tố quan trọng góp phần vào sự thành công của mô hình phát hiện bot xã hội SOBOG.

Lựa chọn và trích xuất đặc trưng

Mặc dù các mô hình mạng nơ-ron sâu được cho là có khả năng tự động học và trích xuất các đặc trưng ẩn, đồng thời loại bỏ những đặc trưng không có ảnh hưởng đáng kể đến hàm mất mát, việc sử dụng quá nhiều đặc trưng dư thừa vẫn có thể gây lãng phí tài nguyên bộ nhớ Để giải quyết vấn đề này, tác giả Nguyen và cộng sự [38] đã tiến hành một quá trình lựa chọn và trích xuất đặc trưng, trong đó 9 đặc trưng được lựa chọn trực tiếp từ các thuộc tính người dùng và 11 đặc trưng được trích xuất từ các thuộc tính này Các đặc trưng được lựa chọn trực tiếp từ thuộc tính người dùng bao gồm:

• statuses_count: Số lượng trạng thái (tweet) của người dùng.

• followers_count: Số lượng người theo dõi của người dùng.

• friends_count: Số lượng bạn bè (những người dùng mà người dùng đang theo dõi) của người dùng.

• favourites_count: Số lượng tweet mà người dùng đã thích.

• listed_count: Số lượng danh sách mà người dùng thuộc về.

• default_image: Cờ cho biết liệu người dùng có sử dụng ảnh đại diện mặc định hay không.

• default_profile_image: Cờ cho biết liệu người dùng có sử dụng ảnh hồ sơ mặc định hay không.

• protected: Cờ cho biết liệu tài khoản của người dùng có được bảo vệ hay không.

• verified: Cờ cho biết liệu tài khoản của người dùng đã được xác minh bởi Twitter hay chưa.

Các đặc trưng được trích xuất từ thuộc tính người dùng bao gồm:

• tweet_frequency: Tần suất đăng tweet của người dùng.

• followers_growth_rate: Tốc độ tăng trưởng số lượng người theo dõi của người dùng.

• friends_growth_rate: Tốc độ tăng trưởng số lượng bạn bè của người dùng.

• favourites_growth_rate: Tốc độ tăng trưởng số lượng tweet mà người dùng đã thích.

• listed_growth_rate: Tốc độ tăng trưởng số lượng danh sách mà người dùng thuộc về.

• screen_name_length: Độ dài của tên hiển thị của người dùng.

• num_digits_in_screen_name: Số lượng chữ số trong tên hiển thị của người dùng.

• name_length: Độ dài của tên đầy đủ của người dùng.

• num_digits_in_name: Số lượng chữ số trong tên đầy đủ của người dùng.

• description_length: Độ dài của phần mô tả hồ sơ của người dùng.

• followers_friends_ratio: Tỷ lệ giữa số lượng người theo dõi và số lượng bạn bè của người dùng.

Cụ thể kỹ thuật trích xuất đặc trưng được thực hiện như sau:

• Tần suất tweet được tính bằng:statuses_count / age

• Các đặc trưng tốc độ tăng trưởng

– Tốc độ tăng trưởng người theo dõi được tính bằng:followers_count / age

– Tốc độ tăng trưởng bạn bè được tính bằng:friends_count / age

– Tốc độ tăng trưởng yêu thích được tính bằng:favorites_count / age

– Tốc độ tăng trưởng danh sách được tính bằng:listed_count / age

• Độ dài tên màn hình được tính bằng: số ký tự trongscreen_name

• Số chữ số trong tên màn hình

• Khả năng của tên màn hình: khả năng của tên màn hình

• Danh tiếng: hoặc tỷ lệ người theo dõi–bạn bè,followers_count / friends_count Ngoài ra, các đặc trưng sau đây được lựa chọn từ nội dung của các tweet:

• text: Nội dung văn bản của tweet.

• in_reply_to_status_id: ID của tweet mà tweet hiện tại đang trả lời (nếu có).

• retweeted_status_id: ID của tweet gốc mà tweet hiện tại đã retweet (nếu có).

Việc lựa chọn và trích xuất đặc trưng một cách cẩn thận và có chọn lọc như trên giúp giảm thiểu số lượng đặc trưng không cần thiết, từ đó tối ưu hóa việc sử dụng tài nguyên tính toán và cải thiện hiệu suất của mô hình Đồng thời, việc kết hợp các đặc trưng từ cả thông tin người dùng và nội dung tweet cho phép mô hình SOBOG có một cái nhìn toàn diện hơn về các đối tượng cần phân loại, từ đó nâng cao độ chính xác trong việc phát hiện bot xã hội.

Xây dựng đồ thị

Trong mô hình SOBOG, các tweet không chỉ được xem xét như các đơn vị độc lập, mà còn được coi như các nút trong một đồ thị có cấu trúc phức tạp Việc xây dựng đồ thị này dựa trên sự phân loại và mối quan hệ giữa các tweet, như đã đề cập trong mục 2.1.3.

Cụ thể, các tweet có thể được chia thành ba loại chính: tweet gốc, tweet phản hồi và retweet. Các tweet gốc là những tweet độc lập, không liên quan trực tiếp đến bất kỳ tweet nào khác. Ngược lại, các tweet trả lời và retweet có mối liên hệ chặt chẽ với các tweet khác Một tweet trả lời là một phản hồi trực tiếp cho một tweet được đăng bởi một người dùng khác, thể hiện sự tương tác và trao đổi giữa các người dùng Trong khi đó, retweet là hành động chia sẻ lại một tweet của người khác cho những người theo dõi của bản thân, nhằm mở rộng phạm vi tiếp cận và lan truyền thông tin.

Dựa trên thông tin về retweet và trả lời được đính kèm trong các đối tượng tweet, mô hình SOBOG xây dựng một đồ thị có hướng𝐺 = (𝑉 , 𝐸)để mô hình hóa mối quan hệ giữa các tweet. Trong đồ thị này, tập đỉnh𝑉 đại diện cho tất cả các tweet, và tập cạnh 𝐸 thể hiện các mối liên kết giữa chúng Cụ thể, với mỗi cặp đỉnh𝑢, 𝑣 ∈ 𝑉, tồn tại một cạnh có hướng từ𝑢 đến𝑣 nếu tweet𝑢là một trả lời cho tweet𝑣 hoặc tweet𝑢 là một retweet của tweet𝑣 Điều này cho thấy sự phụ thuộc và kế thừa thông tin giữa các tweet Lưu ý rằng𝑢≠ 𝑣cho tất cả các cặp𝑢và𝑣, vì mỗi tweet được xác định duy nhất bởi một định danh riêng biệt, không tự trỏ về chính nó. Để biểu diễn đồ thị một cách toán học, SOBOG xây dựng một ma trận kề 𝐴 ∈R |𝑇 |×|𝑇 | , trong đó|𝑇|là tổng số tweet Ma trận kề này được xây dựng dựa trên hai thuộc tính gốc của tweet là in_reply_to_status_idvàretweeted_status_id, chứa thông tin về mối quan hệ trả lời và retweet giữa các tweet.

Cụ thể, nếu tweet 𝑢là một trả lời cho tweet 𝑣, giá trị tại vị trí (𝑢, 𝑣) trong ma trận kề 𝐴sẽ được gán bằng 1, tương ứng với sự tồn tại của một cạnh có hướng từ𝑢đến𝑣trong đồ thị Tương tự, nếu tweet𝑢là một retweet của tweet𝑣, giá trị tại vị trí(𝑢, 𝑣)trong ma trận kề𝐴cũng sẽ được gán bằng 1 Các vị trí còn lại trong ma trận kề𝐴sẽ có giá trị bằng 0, cho biết không có cạnh nối trực tiếp giữa các cặp tweet tương ứng.

Việc xây dựng ma trận kề 𝐴như trên cho phép mô hình SOBOG nắm bắt một cách chi tiết và chính xác cấu trúc và mối quan hệ giữa các tweet trong tập dữ liệu Thông tin này đóng vai trò quan trọng trong quá trình học và khai thác các đặc trưng và mối liên hệ tiềm ẩn giữa các tweet Bằng cách kết hợp thông tin về nội dung và mối quan hệ của các tweet, mô hình có thể học được các mẫu hình và đặc điểm đặc trưng của các tweet được tạo ra bởi các tài khoản bot, từ đó cải thiện đáng kể khả năng phát hiện và phân loại chúng. Đặc biệt, việc khai thác mối quan hệ giữa các tweet thông qua đồ thị là một điểm mạnh nổi bật của mô hình SOBOG so với các phương pháp truyền thống chỉ xem xét các tweet một cách độc lập Bằng cách xây dựng đồ thị, SOBOG có thể nắm bắt được các đặc điểm và hành vi đặc trưng của các tweet được tạo ra bởi bot, như xu hướng trả lời và chia sẻ lẫn nhau một cách có hệ thống và lặp lại Những hành vi này thường nhằm mục đích tạo ra ảo tưởng về mức độ tương tác và phổ biến của các nội dung được tạo ra bởi bot, từ đó thu hút sự chú ý và lan truyền thông tin sai lệch hoặc độc hại.

Tóm lại, việc xây dựng đồ thị trong mô hình SOBOG là một bước quan trọng và sáng tạo,cho phép khai thác tối đa thông tin về mối quan hệ giữa các tweet và tận dụng chúng để cải thiện khả năng phát hiện bot xã hội Thông qua việc xây dựng ma trận kề dựa trên các thuộc tính về trả lời và retweet, SOBOG có thể học và nắm bắt các đặc trưng và hành vi đặc thù của các tweet được tạo ra bởi bot, từ đó nâng cao hiệu quả và độ chính xác của việc phát hiện và phân loại chúng Đây là một đóng góp quan trọng của mô hình SOBOG trong lĩnh vực phát hiện bot xã hội, mở ra hướng tiếp cận mới và hiệu quả để giải quyết thách thức này.

Phân loại

Trong mô hình SOBOG, bộ phân loại đóng vai trò quan trọng trong việc thực hiện nhiệm vụ phát hiện bot xã hội Như minh họa trong Hình 4.7, bộ phân loại của SOBOG bao gồm hai mô-đun chính: mô-đun phân loại tweet và mô-đun phân loại tài khoản Hai mô-đun này hoạt động song song và bổ trợ cho nhau, tạo nên một cách tiếp cận tổng thể và toàn diện để giải quyết bài toán phát hiện bot.

Mô-đun phân loại tweet

Mô-đun phân loại tweet tập trung vào việc phát hiện bot ở cấp độ từng tweet riêng lẻ Nó sử dụng ma trận biểu diễn tweet và ma trận kề tweet làm đầu vào, và áp dụng một chuỗi các lớp mạng nơ-ron để học các đặc trưng phức tạp và đưa ra dự đoán về khả năng một tweet mang đặc điểm của bot.

Bước đầu tiên trong mô-đun phân loại tweet là sử dụng một lớp nhúng (embedding layer) để chuyển đổi các biểu diễn tweet từ không gian ban đầu có kích thước𝑚sang một không gian mới có kích thước𝑑 𝑡 Giá trị𝑑 𝑡 là một siêu tham số (hyperparameter) được người dùng lựa chọn, điều chỉnh độ phức tạp và khả năng biểu diễn của không gian mới Cụ thể, mỗi tweet𝑡 𝑖 được nhân với một ma trận trọng số có thể học được𝑊 𝑒𝑚 𝑏 ∈R 𝑑 𝑡 ×𝑚 để tạo ra một vector nhúng𝑒 𝑡

Kết quả của lớp nhúng là một ma trận đã được mã hóa𝑒𝑚 𝑏 𝑠𝑒 𝑡

∈R 𝑑 𝑡 ×| 𝑇 | , trong đó mỗi cột tương ứng với biểu diễn nhúng của một tweet.

Tiếp theo, các tweet, được coi như các nút trong đồ thị, sẽ được cập nhật thông qua một chuỗi các lớp GAT (Graph Attention Layer) Số lượng lớp GAT, ký hiệu là 𝐿, cũng là một

Hình 4.3: Kiến trúc SOBOG [38] siêu tham số của mô hình Các lớp GAT sử dụng cơ chế attention để tính toán và cập nhật biểu diễn của từng nút dựa trên thông tin từ các nút lân cận trong đồ thị Chi tiết về cách tính toán của GAT đã được trình bày trong mục 2.9.4 Đầu ra của các lớp GAT là một ma trận

∈R 𝑑 𝑡 ×| 𝑇 | , trong đó mỗi cộtℎ 𝑖 là biểu diễn đã được cập nhật của tweet thứ𝑖.

Các lớp ReLU và Sigmoid

Sau khi đi qua các lớp GAT, mỗi vectorℎ 𝑖 , 𝑖 =1, ,|𝑇|trong ma trận𝐻 được đưa qua hai lớp kích hoạt ReLU Hàm kích hoạt ReLU được định nghĩa là𝑅 𝑒 𝐿𝑈(𝑥) =max(𝑥 ,0), giúp đưa tính phi tuyến vào mô hình và tăng khả năng học các đặc trưng phức tạp Kết quả của các lớp ReLU là các vector đặc trưng𝑧 𝑖 ∈R 𝑘×1 , trong đó𝑘 là số lượng đơn vị ẩn trong lớp ReLU cuối cùng.

Cuối cùng, để ước lượng xác suất một tweet mang đặc điểm của bot, các vector đặc trưng𝑧 𝑖 được đưa qua một lớp kích hoạt Sigmoid:

𝑜 𝑖 =𝜎(𝑊 𝑠 𝑧 𝑖 +𝑏 𝑠 ) trong đó𝜎(𝑥) =1/(1+𝑒 − 𝑥 ) là hàm Sigmoid,𝑊 𝑠 ∈ R 1× 𝑘 và𝑏 𝑠 ∈ Rlà các tham số có thể học được Lớp Sigmoid giúp chuyển đổi giá trị đầu ra thành xác suất trong khoảng[0,1] Đầu ra cuối cùng của mô-đun phân loại tweet là một vector𝑂 = 𝑜 1 𝑜 2 𝑜 |𝑇 |

, trong đó mỗi giá trị𝑜 𝑖 , 𝑖 =1, ,|𝑇|biểu thị xác suất tweet tương ứng mang đặc điểm của bot.

Mô-đun phân loại tài khoản

Song song với mô-đun phân loại tweet, mô-đun phân loại tài khoản tập trung vào việc phát hiện bot ở cấp độ tài khoản người dùng Mô-đun này sử dụng vector biểu diễn người dùng và đầu ra của các lớp GAT từ mô-đun phân loại tweet làm đầu vào, nhằm kết hợp thông tin từ cả cấp độ tài khoản và cấp độ tweet để đưa ra dự đoán cuối cùng.

Tương tự như trong mô-đun phân loại tweet, một lớp nhúng được sử dụng để chuyển đổi vector biểu diễn người dùng𝑢thành một vector nhúng𝑒 𝑢 ∈ R 𝑑 𝑢 ×1 với kích thước mong muốn

𝑒 𝑢 =𝑊 𝑢 𝑠𝑒𝑟 𝑒𝑚 𝑏 𝑢 trong đó𝑊 𝑢 𝑠𝑒𝑟 𝑒𝑚 𝑏 là ma trận trọng số có thể học được trong quá trình huấn luyện.

Lớp Adaptive Max Pooling Để tổng hợp thông tin từ các biểu diễn tweet đã được cập nhật qua các lớp GAT, SOBOG sử dụng một lớp Adaptive Max Pooling Lớp này nhận đầu vào là ma trận𝐻 từ mô-đun phân loại tweet và chuyển đổi nó thành một vector duy nhất𝑐 ∈ R 𝑑 𝑡 ×1 Cụ thể, giá trị của mỗi phần tử trong vector𝑐được tính bằng cách lấy giá trị lớn nhất trên mỗi chiều đặc trưng𝑖 =1, , 𝑑 𝑡 của ma trận𝐻, tức làmax(𝐻 1 𝑖 , 𝐻 2 𝑖 , , 𝐻 |𝑇 |𝑖 ) Điều này giúp tổng hợp và nắm bắt thông tin quan trọng nhất từ các biểu diễn tweet.

Sau khi có được vector nhúng tài khoản𝑒 𝑢 và vector tổng hợp thông tin tweet𝑐, chúng được ghép nối (concatenate) thành một vector duy nhất có kích thước 𝑑 𝑢 + 𝑑 𝑡 Vector này đóng vai trò là biểu diễn tổng hợp của tài khoản, kết hợp cả thông tin từ cấp độ tài khoản và cấp độ tweet.

Các lớp ReLU và Sigmoid

Tương tự như trong mô-đun phân loại tweet, biểu diễn tổng hợp của tài khoản được đưa qua một chuỗi các lớp fully-connected và kích hoạt ReLU để trích xuất các đặc trưng phức tạp Cuối cùng, một lớp kích hoạt Sigmoid được sử dụng để đưa ra một giá trị duy nhất 𝑝 ∈ [0,1], biểu thị xác suất tài khoản đang xét là một bot.

Tóm lại, bộ phân loại của mô hình SOBOG là sự kết hợp của hai mô-đun phân loại tweet và phân loại tài khoản Mô-đun phân loại tweet tập trung vào việc học các đặc trưng và mối quan hệ ở cấp độ tweet thông qua việc sử dụng lớp nhúng, các lớp GAT và các lớp kích hoạt ReLU và Sigmoid Trong khi đó, mô-đun phân loại tài khoản kết hợp thông tin từ cấp độ tài khoản và cấp độ tweet, sử dụng lớp nhúng tài khoản, lớp Adaptive Max Pooling, ghép nối và các lớp fully-connected để đưa ra dự đoán cuối cùng về khả năng một tài khoản là bot.

Việc kết hợp hai mô-đun này cho phép SOBOG tận dụng tối đa thông tin từ cả cấp độ chi tiết (tweet) và cấp độ tổng quát (tài khoản), từ đó nâng cao độ chính xác và hiệu quả trong việc phát hiện bot xã hội Đồng thời, việc sử dụng các kỹ thuật học sâu như lớp nhúng, GAT và các lớp kích hoạt phi tuyến giúp mô hình có khả năng học và khai thác các đặc trưng phức tạp và tinh tế từ dữ liệu.

Với kiến trúc được thiết kế một cách thông minh và sáng tạo như trên, mô hình SOBOG đã đạt được những kết quả ấn tượng trong việc phát hiện bot xã hội, vượt trội so với các phương pháp truyền thống chỉ tập trung vào một cấp độ duy nhất Điều này cho thấy tiềm năng và tính hiệu quả của việc kết hợp học sâu và xử lý đồ thị trong lĩnh vực này.

Học và tối ưu hóa

Để huấn luyện mô hình SOBOG, một hàm mất mát (loss function) được thiết kế để đo lường sự khác biệt giữa dự đoán của mô hình và nhãn thực tế Hàm mất mát này kết hợp cả thông tin từ cấp độ tài khoản và cấp độ tweet, đảm bảo rằng mô hình học cách phát hiện bot một cách toàn diện.

Cụ thể, hàm mất mát được công thức hóa như sau: loss𝑖(.)= 𝑦 𝑖 log(ˆ𝑦 𝑖 ) + (1−𝑦 𝑖 )log(1−ˆ𝑦 𝑖 ) loss𝑢(.)= 𝑦 𝑢 log(ˆ𝑦 𝑢 ) + (1−𝑦 𝑢 )log(1−𝑦ˆ 𝑢 ) loss(.)=Õ

- loss𝑖(.)và loss𝑢(.)lần lượt là hàm mất mát cho tài khoản𝑖và tweet𝑢, được tính bằng hàm mất mát chéo entropy nhị phân (binary cross-entropy loss).

-𝑦 𝑖 và𝑦 𝑢 là nhãn thực tế (ground truth) cho tài khoản𝑖và tweet𝑢, với giá trị bằng 1 nếu đối tượng tương ứng là bot và bằng 0 nếu ngược lại.

- ˆ𝑦 𝑖 và ˆ𝑦 𝑢 là xác suất dự đoán của mô hình cho tài khoản𝑖và tweet𝑢.

- 𝛾 ∈ (0,1) là một siêu tham số (hyperparameter) để cân bằng giữa mất mát ở cấp độ tài khoản và cấp độ tweet.

-𝑌 là tập hợp tất cả các tài khoản người dùng.

-𝑃(𝑖) là danh sách các tweet được tạo bởi tài khoản𝑖, bao gồm cả các tweet gốc, retweet và trả lời.

Hàm mất mát tổng thể loss(.)là tổng trọng số của các mất mát ở cấp độ tài khoản và cấp độ tweet Trọng số𝛾được sử dụng để kiểm soát tầm quan trọng tương đối của việc dự đoán đúng ở mỗi cấp độ Giá trị của𝛾có thể được điều chỉnh như một siêu tham số của mô hình, tùy thuộc vào mục tiêu và ưu tiên của bài toán cụ thể.

Trong quá trình huấn luyện, các tham số của mô hình SOBOG, bao gồm các trọng số trong các lớp nhúng, các lớp GAT và các lớp fully-connected, được cập nhật dựa trên gradient của hàm mất mát Quá trình tối ưu hóa thường được thực hiện bằng các thuật toán Adam, với mục tiêu giảm thiểu giá trị của hàm mất mát trên tập dữ liệu huấn luyện.

Bằng cách sử dụng hàm mất mát tổng hợp và kết hợp thông tin từ cả cấp độ tài khoản và cấp độ tweet, mô hình SOBOG có thể học cách phát hiện bot xã hội một cách hiệu quả và toàn diện. Điều này giúp nâng cao độ chính xác và khả năng tổng quát hóa của mô hình trên dữ liệu mới.

Tóm lại, mô-đun phân loại tài khoản và quá trình học và tối ưu hóa là những thành phần quan trọng trong mô hình SOBOG Mô-đun phân loại tài khoản kết hợp thông tin từ cấp độ tài khoản và cấp độ tweet để đưa ra quyết định cuối cùng về khả năng một tài khoản là bot Quá trình học và tối ưu hóa sử dụng một hàm mất mát tổng hợp, cân bằng giữa mất mát ở cấp độ tài khoản và cấp độ tweet, giúp mô hình học cách phát hiện bot một cách toàn diện và hiệu quả.

Đề xuất 1: Sử dụng Sentence–BERT thay thế cho TF–IDF

Động lực và ý tưởng

Trong bài toán phát hiện bot trên mạng xã hội Twitter, việc biểu diễn và khai thác hiệu quả nội dung của các tweet đóng vai trò quan trọng Trong mô hình SOBOG được trình bày trong luận văn này, kỹ thuật TF-IDF (Term Frequency-Inverse Document Frequency) đã được sử dụng để mã hóa và trích xuất đặc trưng từ nội dung tweet Tuy nhiên, TF-IDF chỉ tập trung vào tần suất xuất hiện của các từ mà không xét đến ngữ nghĩa và mối quan hệ ngữ cảnh giữa các từ trong tweet Điều này dẫn đến một số hạn chế trong việc nắm bắt ý nghĩa sâu và mối liên hệ giữa các từ, từ đó ảnh hưởng đến khả năng phân biệt giữa các tweet thật và tweet được tạo ra bởi bot. Để giải quyết hạn chế này, học viên đề xuất sử dụng Sentence–BERT [44], một mô hình tiền huấn luyện (pre-trained model) đạt hiệu quả cao trong việc mã hóa câu và đoạn văn, thay thế cho TF-IDF trong quá trình biểu diễn nội dung tweet Sentence–BERT được xây dựng dựa trên kiến trúc transformer [50] và được huấn luyện trên một lượng lớn dữ liệu văn bản đa dạng,bao gồm các tập dữ liệu như Wikipedia, BookCorpus [57] và các tập dữ liệu ngôn ngữ tự nhiên khác Thông qua quá trình huấn luyện này, Sentence–BERT học được cách tạo ra các biểu diễn vector nhiều chiều cho câu và đoạn văn, trong đó mỗi chiều thể hiện một khía cạnh ngữ nghĩa khác nhau Điều này cho phép Sentence–BERT nắm bắt được ngữ nghĩa, mối quan hệ ngữ cảnh và sự tương đồng giữa các câu và đoạn văn một cách hiệu quả và tinh tế hơn so với các phương pháp truyền thống như TF-IDF.

Bằng cách sử dụng Sentence–BERT, học viên kỳ vọng mô hình sẽ có thể học và biểu diễn tốt hơn ngữ nghĩa và mối quan hệ ngữ cảnh giữa các từ trong tweet Thông qua việc nắm bắt ý nghĩa sâu và mối liên hệ giữa các từ, mô hình sẽ có khả năng phân biệt tốt hơn giữa các tweet thật và tweet được tạo ra bởi bot, từ đó cải thiện đáng kể hiệu quả của việc phát hiện bot trên Twitter Việc kết hợp biểu diễn ngữ nghĩa phong phú của Sentence–BERT với thông tin cấu trúc đồ thị và các đặc trưng khác trong mô hình SOBOG hứa hẹn sẽ tạo ra một mô hình mạnh mẽ và toàn diện hơn trong việc phát hiện và phân loại bot trên mạng xã hội.

Mô hình Sentence–BERT được sử dụng trong nghiên cứu này, cụ thể là "all-MiniLM-L6-v2" Đây là mô hình toàn diện được điều chỉnh cho nhiều trường hợp sử dụng, huấn luyện trên tập dữ liệu lớn gồm hơn 1 tỷ cặp dữ liệu Mô hình này dùng kiến trúc MiniLM làm nền tảng, một phiên bản thu nhỏ của BERT được thiết kế để giảm kích thước và tăng tốc độ suy luận mà vẫn đảm bảo hiệu suất cao trong xử lý ngôn ngữ tự nhiên Nhờ đó, nghiên cứu có thể tận dụng sức mạnh của Sentence–BERT trong biểu diễn ngữ nghĩa của tweet, đồng thời đảm bảo tính hiệu quả về tính toán và thời gian xử lý.

• Sentence-BERT (S-BERT) là một mô hình để tạo ra các vector nhúng cho câu văn, cải thiện độ tương đồng ngữ nghĩa giữa các câu so với phương pháp TF-IDF truyền thống.

• SBERT sử dụng mô hình BERT nhưng được tinh chỉnh để tạo ra các vector nhúng có ý nghĩa ngữ nghĩa tốt hơn.

1 Nhúng câu: uRT(sentence 1 ) (Nhúng câu thứ nhất,ulà vector nhúng của câu) (4.5) vRT(sentence 2 ) (Nhúng câu thứ hai,vlà vector nhúng của câu) (4.6)

2 Tính độ tương đồng cosine: cosine-similarity(u,v) = uãv kuk kvk (Tính độ tương đồng cosine giữauvàv) (4.7)

Lợi ích của SBERT so với TF-IDF:

• Tạo ra vector nhúng có tính ngữ nghĩa cao hơn, giúp phân biệt tốt hơn giữa các câu có nghĩa khác nhau nhưng từ vựng tương tự.

• Hiệu quả hơn trong các tác vụ như phân loại văn bản, tìm kiếm ngữ nghĩa và trả lời câu hỏi.

• Tạo mô hình nhúng câu nhỏ gọn, hiệu suất cao.

1 https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

• Sử dụng kỹ thuật Distillation để giảm kích thước mô hình BERT lớn hơn.

• Huấn luyện mô hình nhỏ hơn với sự trợ giúp của mô hình lớn đã huấn luyện trước đó.

1 Chọn mô hình BERT lớn (teacher model) đã huấn luyện tốt (1B+ training pairs).

2 Thiết kế kiến trúc mô hình nhỏ hơn (student model) với ít lớp và chiều ẩn nhỏ hơn.

3 Huấn luyện mô hình nhỏ hơn bằng cách tối ưu hóa để bắt chước các đầu ra của mô hình lớn.

4 Tinh chỉnh mô hình nhỏ trên các tác vụ cụ thể để đảm bảo chất lượng nhúng.

• all-MiniLM-L6-v2 có 6 lớp, 384 chiều ẩn, 22 triệu tham số So với BERT-base (12 lớp,

768 chiều ẩn, 110 triệu tham số).

• Hiệu suất cao với chi phí tính toán thấp, phù hợp cho các ứng dụng thời gian thực.

Hình 4.4: Khảo sát các mô hình Sentences-BERT

Trong đề xuất này, học viên sẽ thay thế bước mã hóa nội dung tweet bằng TF-IDF trong mô hình SOBOG bằng cách sử dụng Sentence–BERT “all-MiniLM-L6-v2” Cụ thể, quá trình biểu diễn nội dung tweet sẽ được thực hiện như sau:

Tiền xử lý dữ liệu

Tương tự như trong mô hình SOBOG gốc, các tweet sẽ được tiền xử lý bằng cách:

• Thay thế các thực thể đặc biệt như hashtag, mention và URL bằng các token tương ứng.

• Loại bỏ các ký tự thừa và khoảng trắng không cần thiết.

• Chuyển đổi văn bản thành chữ thường.

Tuy nhiên, khác với mô hình gốc, học viên sẽ không thực hiện bước mã hóa và lựa chọn𝑛token có tần suất xuất hiện cao nhất để tạo thành vector TF-IDF.

Mã hóa nội dung tweet bằng Sentence–BERT

Sau khi tiền xử lý, mỗi tweet sẽ được đưa vào mô hình Sentence–BERT “all-MiniLM-L6- v2” để tạo ra một vector biểu diễn ngữ nghĩa trong không gian 𝑑 𝑠 chiều Quá trình này được thực hiện như sau:

𝑖 =SentenceTransformer(𝑡 𝑖 ) trong đó𝑡 𝑖 là nội dung của tweet thứ𝑖sau khi đã được tiền xử lý, và𝑒 𝑡

𝑖 ∈R 𝑑 𝑠 là vector biểu diễn ngữ nghĩa của tweet đó Mô hình Sentence–BERT “all-MiniLM-L6-v2” sẽ thực hiện các bước sau để mã hóa nội dung tweet:

• Chia tweet thành các token và chuyển đổi chúng thành các vector embedding tương ứng bằng bộ mã hóa (encoder) của mô hình.

• Sử dụng kiến trúc transformer với cơ chế self-attention để học và nắm bắt mối quan hệ ngữ cảnh giữa các token trong tweet.

• Tổng hợp thông tin từ các lớp transformer để tạo ra một vector biểu diễn ngữ nghĩa cuối cùng cho tweet.

Kết quả của quá trình này là một ma trận emb𝑠 ∈R 𝑑 𝑠 ×| 𝑇 | , trong đó mỗi cột tương ứng với vector biểu diễn ngữ nghĩa của một tweet.

Sử dụng biểu diễn ngữ nghĩa trong mô hình SOBOG

Hình 4.5: Cải thiện vector embedding cho mỗi tweet được tạo ra sử dụng “all-MiniLM-L6-v2”.

Ma trận biểu diễn ngữ nghĩa của các tweet emb𝑠sẽ được sử dụng làm đầu vào cho các thành phần tiếp theo trong mô hình SOBOG, bao gồm:

• Tweet Embedding Layer: Thay vì sử dụng ma trận𝑃chứa các vector TF-IDF như trong mô hình gốc, lớp này sẽ nhận đầu vào là ma trận emb𝑠 và thực hiện một phép biến đổi tuyến tính để chuyển đổi các vector ngữ nghĩa về không gian có kích thước mong muốn

• GAT Layers: Tương tự như trong mô hình gốc, các vector tweet sau khi qua Tweet Em- bedding Layer sẽ được sử dụng cùng với ma trận kề để học biểu diễn và cập nhật thông tin trong các tầng GAT.

• ReLU và Sigmoid Layers: Các tầng này sẽ tiếp nhận đầu ra từ GAT Layers để tính toán xác suất mỗi tweet mang đặc trưng của bot.

Các thành phần còn lại trong mô hình SOBOG, bao gồm User Embedding Layer, Adaptive Max Pooling Layer, Concatenation, và các tầng ReLU và Sigmoid trong User Classification Module sẽ được giữ nguyên như trong mô hình gốc.

Trong đề xuất này, học viên sẽ thay thế bước trích xuất đặc trưng TF-IDF trong mô hình SOBOG bằng việc sử dụng Sentence–BERT “all-MiniLM-L6-v2” để mã hóa nội dung tweet của các người dùng Quá trình biểu diễn nội dung tweet sẽ được thực hiện như sau:

1 Tiền xử lý tweet: Áp dụng các phương pháp tiền xử lý tương tự như của SOBOG.

2 Mã hóa tweet bằng Sentence–BERT:

- Sử dụng mô hình Sentence–BERT “all-MiniLM-L6-v2” để mã hóa mỗi tweet thành một vector đặc trưng có kích thước cố định (384 chiều trong trường hợp của “all-MiniLM-L6-v2”).

- Quá trình mã hóa được thực hiện bằng cách đưa tweet đã được tiền xử lý qua các lớp transformer của mô hình “all-MiniLM-L6-v2” Mô hình sẽ học cách biểu diễn ngữ nghĩa của tweet dựa trên sự tương tác và mối quan hệ giữa các từ trong tweet.

- Kết quả của bước này là mỗi tweet sẽ được biểu diễn bởi một vector đặc trưng 384 chiều, mang thông tin ngữ nghĩa phong phú và đa dạng của tweet.

4.2.3 Tham số cấu hình của mô hình

Học viên đã thiết lập chiến lược huấn luyện với các tham số như bảng sau:

Bảng 4.3: Các tham số thiết lập ở Đề xuất 1

Tham số Mô tả Giá trị train-test Chia tập train – test 60–40 m Số lượng đặc trưng all-MiniLM-L6-v2 384 d_t Chiều nhúng của các vector tweet 256 d_u Chiều nhúng của các vector người dùng 20

𝛾 Đối số kiểm soát mất mát 0.3 epochs Số lượng epochs 100 batch_size Số lượng batch_size 8

Đề xuất 2: Xây dựng đồ thị mối quan hệ giữa các user (follower, following)

Trong mô hình SOBOG ban đầu, đồ thị được xây dựng dựa trên các mối quan hệ giữa các tweet, bao gồm các tweet gốc, tweet phản hồi và tweet được chia sẻ (retweet) Tuy nhiên, mối quan hệ giữa các user (người dùng) trên mạng xã hội Twitter cũng chứa đựng thông tin quan trọng và có thể đóng góp vào việc phát hiện các tài khoản bot Trong đề xuất này, học viên đề xuất mở rộng mô hình SOBOG bằng cách xây dựng thêm một đồ thị thể hiện mối quan hệ giữa các user dựa trên thông tin về follower và following Ý tưởng chính của đề xuất này là khai thác thông tin về mối quan hệ xã hội giữa các user để nâng cao khả năng phát hiện bot của mô hình. Các tài khoản bot thường có hành vi và mẫu kết nối khác biệt so với người dùng thật Ví dụ, các bot có xu hướng follow một số lượng lớn người dùng khác để thu hút sự chú ý, hoặc chúng có thể được follow bởi nhiều tài khoản bot khác để tạo ra một mạng lưới bot Bằng cách xây dựng đồ thị thể hiện mối quan hệ follower-following giữa các user, chúng ta có thể nắm bắt được cấu trúc cộng đồng và các mẫu kết nối đặc trưng của các tài khoản bot Việc kết hợp đồ thị user với đồ thị tweet trong mô hình SOBOG sẽ cung cấp một bức tranh toàn diện hơn về các mối quan hệ và tương tác trên mạng xã hội Twitter Thông qua việc học biểu diễn và khai thác cả hai loại đồ thị này, mô hình sẽ có thể nắm bắt được các đặc điểm và hành vi đặc trưng của các tài khoản bot ở nhiều khía cạnh khác nhau, từ nội dung tweet đến mối quan hệ xã hội Điều này hứa hẹn sẽ nâng cao đáng kể hiệu quả và độ chính xác của việc phát hiện bot so với chỉ sử dụng đơn thuần đồ thị tweet như trong mô hình SOBOG ban đầu.

Mô tả mô hình

Trong đề xuất này, học viên sẽ mở rộng mô hình SOBOG bằng cách xây dựng thêm một đồ thị thể hiện mối quan hệ giữa các user dựa trên thông tin về follower và following Đồ thị user này sẽ được sử dụng song song với đồ thị tweet trong quá trình học biểu diễn và phát hiện các tài khoản bot Cụ thể, mô hình mở rộng sẽ bao gồm các thành phần sau:

Xây dựng đồ thị user Đồ thị user sẽ được xây dựng dựa trên thông tin về mối quan hệ follower-following giữa các user Mỗi user sẽ được coi là một nút trong đồ thị, và các cạnh sẽ thể hiện mối quan hệ follow giữa các user Cụ thể:

• Mỗi user𝑢 𝑖 sẽ tương ứng với một nút trong đồ thị.

• Nếu user𝑢 𝑖 follow user𝑢 𝑗 , sẽ có một cạnh có hướng từ nút𝑢 𝑖 đến nút𝑢 𝑗

• Ma trận kề 𝐴 𝑢 ∈R |𝑈 |×|𝑈| sẽ được tạo ra, trong đó|𝑈|là số lượng user và 𝐴 𝑢 [𝑖, 𝑗] =1nếu user𝑢 𝑖 follow user𝑢 𝑗 , ngược lại 𝐴 𝑢 [𝑖, 𝑗] =0.

Graph Attention Networks (GAT) [51] được sử dụng để học biểu diễn của các user trong đồ thị dựa trên thông tin từ các user lân cận và mối quan hệ giữa chúng Tại mỗi lớp GAT, biểu diễn của user𝑢 𝑖 được cập nhật như sau:

𝑖 là biểu diễn của user𝑢 𝑖 tại lớp thứ𝑙,

• N (𝑖)là tập hợp các user lân cận của user𝑢 𝑖 (các user mà𝑢 𝑖 follow hoặc được follow),

𝑖 𝑗 là trọng số attention giữa user𝑢 𝑖 và user𝑢 𝑗 tại lớp thứ𝑙, được tính toán dựa trên tính tương đồng giữa biểu diễn của chúng,

• 𝑊 ( 𝑙 ) là ma trận trọng số học được tại lớp thứ𝑙,

• 𝜎(ã)là hàm phi tuyến tớnh ReLU.

Quá trình này được lặp lại qua nhiều lớp GAT để học biểu diễn cuối cùng của các user, ký hiệu làℎ (

𝑖 , trong đó𝐿 là số lớp GAT.

Mỗi nút user trong đồ thị sẽ được biểu diễn bằng một vector đặc trưng Việc này có thể được thực hiện bằng cách sử dụng các thông tin về thuộc tính của user, tương tự như trong mô hình SOBOG ban đầu Cụ thể:

• Các thuộc tính của user như số lượng follower, số lượng following, số lượng tweet, thời gian tạo tài khoản, v.v sẽ được trích xuất.

• Các thuộc tính này sẽ được chuẩn hóa và kết hợp để tạo thành một vector đặc trưng

𝑥 𝑢 ∈R 𝑑 𝑢 cho mỗi user, trong đó𝑑 𝑢 là số chiều của vector đặc trưng user.

Hình 4.6: Xây dựng mạng lưới thể hiện mối quan hệ giữa các user (followers/followings) giữa các users

Học biểu diễn user và tweet

Mô hình sẽ sử dụng các tầng Graph Attention (GAT) để học biểu diễn cho cả nút user và nút tweet trong đồ thị tương ứng Quá trình học biểu diễn sẽ được thực hiện độc lập trên hai đồ thị:

• Đối với đồ thị user, các tầng GAT sẽ tính toán biểu diễn mới cho mỗi nút user dựa trên thông tin của các nút user lân cận trong đồ thị và vector đặc trưng user ban đầu Kết quả là một ma trận𝐻 𝑢 ∈R 𝑑 𝑢 ×|𝑈 | chứa biểu diễn mới của các nút user.

• Đối với đồ thị tweet, quá trình học biểu diễn sẽ được thực hiện tương tự như trong mô hình SOBOG ban đầu, sử dụng các tầng GAT để tính toán biểu diễn mới cho mỗi nút tweet dựa trên thông tin của các nút tweet liên quan trong đồ thị và vector đặc trưng tweet ban đầu (được mã hóa bằng TF-IDF) Kết quả là một ma trận𝐻 𝑡 ∈R 𝑑 𝑡 ×|𝑇 | chứa biểu diễn mới của các nút tweet.

Kết hợp biểu diễn user và tweet Để tận dụng thông tin từ cả đồ thị user và đồ thị tweet, mô hình SOBOG mở rộng sẽ kết hợp biểu diễn của user và tweet tương ứng để tạo ra một biểu diễn tổng hợp cho mỗi user Quá trình này được thực hiện như sau:

• Từ các tầng GAT (Graph Attention) áp dụng trên đồ thị tweet, ta có ma trận𝐻 𝑡 ∈R 𝑑 𝑡 ×|𝑇 | chứa biểu diễn của các tweet sau khi đã được cập nhật thông tin từ đồ thị Mỗi cột của ma trận𝐻 𝑡 tương ứng với một vector biểu diễn tweetℎ 𝑡

• Áp dụng Adaptive Max Pooling lên ma trận 𝐻 𝑡 theo chiều thứ hai (tức là theo các cột tương ứng với các tweet) Kết quả là một vector 𝑐 ∈ R 𝑑 𝑡 chứa giá trị lớn nhất của mỗi hàng trong ma trận𝐻 𝑡 Cụ thể:

• Vector𝑐chứa thông tin tổng hợp từ tất cả các tweet liên quan đến user, bằng cách lấy giá trị lớn nhất của mỗi chiều trong không gian biểu diễn tweet.

• Kết hợp vector biểu diễn user ℎ 𝑢

𝑖 ∈ R 𝑑 𝑢 (lấy từ ma trận 𝐻 𝑢 - kết quả của việc áp dụng GAT trên đồ thị user) với vector tổng hợp tweet𝑐 ∈R 𝑑 𝑡 bằng phép nối (concatenation):

• Vector𝑟 𝑖 ∈ R 𝑑 𝑢 + 𝑑 𝑡 là biểu diễn tổng hợp của user, kết hợp thông tin từ các đặc trưng và mối quan hệ của user trên đồ thị user, cũng như thông tin từ các tweet liên quan đến user đó.

Bằng cách sử dụng Adaptive Max Pooling để tổng hợp thông tin từ các tweet, mô hình SOBOG mở rộng có thể nắm bắt các đặc trưng nổi bật nhất từ các tweet liên quan đến mỗi user, đồng thời giữ được kích thước của vector tổng hợp bằng với tổng kích thước của vector biểu diễn user và vector biểu diễn tweet Sau khi có được biểu diễn tổng hợp cho mỗi user, các vector𝑟 𝑖 sẽ được sử dụng trong quá trình phân loại để xác định xem user đó có phải là bot hay không, tương tự như trong kiến trúc SOBOG ban đầu.

Phân loại user và tweet

• Sử dụng các biểu diễn tổng hợp của user𝑟 𝑖 ∈R 𝑑 𝑢 +𝑑 𝑡 đã học được từ bước trước.

• Đưa các vector𝑟 𝑖 qua một tầng fully connected với hàm kích hoạt ReLU để thu được các vector𝑧 𝑖 ∈R 𝑘 (𝑘 là số lượng đơn vị ẩn trong tầng fully connected):

𝑧 𝑖 =ReLU(𝑊 𝑢 𝑟 𝑖 +𝑏 𝑢 ) trong đó 𝑊 𝑢 ∈ R 𝑘 ×( 𝑑 𝑢 + 𝑑 𝑡 ) và 𝑏 𝑢 ∈ R 𝑘 là các tham số có thể học được của tầng fully connected.

• Áp dụng một tầng fully connected khác với hàm kích hoạt sigmoid lên các vector 𝑧 𝑖 để tính xác suất user là bot:

𝑢𝑧 𝑖 +𝑏) trong đó 𝑤 𝑢 ∈ R 𝑘 và 𝑏 ∈ R là các tham số có thể học được, và 𝜎(𝑥) = 1+𝑒 1 −𝑥 là hàm sigmoid.

• Xác suất 𝑝 𝑖 ∈ [0,1] cho biết khả năng user𝑢 𝑖 là bot Nếu 𝑝 𝑖 > 0.5, ta dự đoán user𝑢 𝑖 là bot, ngược lại, ta dự đoán user𝑢 𝑖 là người dùng thật.

• Sử dụng các vector biểu diễn tweetℎ 𝑡

𝑗 ∈R 𝑑 𝑡 đã học được từ các tầng GAT áp dụng trên đồ thị tweet.

• Tương tự như phân loại user, đưa các vector ℎ 𝑡

𝑗 qua một tầng fully connected với hàm kích hoạt ReLU:

𝑗 +𝑏 𝑡 ) trong đó𝑊 𝑡 ∈R 𝑘×𝑑 𝑡 và𝑏 𝑡 ∈R 𝑘 là các tham số có thể học được.

• Áp dụng một tầng fully connected với hàm kích hoạt sigmoid lên các vector 𝑧 𝑡

𝑗 để tính xác suất tweet là được tạo bởi bot:

𝑗 +𝑏 0 ) trong đó𝑤 𝑡 ∈R 𝑘 và𝑏 0 ∈Rlà các tham số có thể học được.

𝑗 ∈ [0,1] cho biết khả năng tweet𝑡 𝑗 được tạo bởi bot Nếu 𝑝 𝑡

> 0.5, ta dự đoán tweet 𝑡 𝑗 được tạo bởi bot, ngược lại, ta dự đoán tweet𝑡 𝑗 được tạo bởi người dùng thật.

Quá trình phân loại user và tweet trong mô hình SOBOG mở rộng tương tự như trong kiến trúc SOBOG ban đầu, sử dụng các tầng fully connected và hàm kích hoạt sigmoid để tính xác suất Tuy nhiên, điểm khác biệt chính là trong đề xuất 2, việc phân loại user dựa trên các biểu diễn tổng hợp𝑟 𝑖 đã kết hợp thông tin từ cả đồ thị user và đồ thị tweet, trong khi đó, việc phân loại tweet chỉ dựa trên các biểu diễnℎ 𝑡

𝑗 học được từ đồ thị tweet Bằng cách mở rộng mô hình SOBOG với việc xây dựng và khai thác đồ thị user, đề xuất này cho phép mô hình học và sử dụng thông tin về mối quan hệ xã hội giữa các user để nâng cao khả năng phát hiện bot ở cấp độ user, đồng thời vẫn duy trì việc phát hiện bot ở cấp độ tweet như trong kiến trúc ban đầu.

Tham số cấu hình của mô hình

Tham số Mô tả Giá trị train-test Chia tập train – test 60–40 m Số lượng đặc trưng TF–IDF 20000 d_t Chiều nhúng của các vector tweet 128 d_u Chiều nhúng của các vector người dùng 20

- Số lớp GAT cho nhánh phân loại Tweet 3

- Số lớp GAT cho nhánh phân loại Account 2

Đề xuất 3: Kết hợp sử dụng Sentence–BERT và xây dựng đồ thị giữa các user 65

Trong các đề xuất trước, chúng ta đã thấy rằng việc sử dụng Sentence–BERT để biểu diễn ngữ nghĩa của các tweet và xây dựng đồ thị mối quan hệ giữa các user đều có thể nâng cao hiệu quả của mô hình SOBOG trong việc phát hiện các tài khoản bot trên mạng xã hội Twitter Tuy nhiên, mỗi đề xuất chỉ tập trung vào một khía cạnh cụ thể: Đề xuất 1 cải thiện việc khai thác thông tin ngữ nghĩa từ nội dung tweet, trong khi Đề xuất 2 tận dụng thông tin về mối quan hệ xã hội giữa các user Trong đề xuất này, học viên đề xuất kết hợp cả hai phương pháp trên để tạo ra một mô hình SOBOG mạnh mẽ và toàn diện hơn trong việc phát hiện các tài khoản bot. Ý tưởng chính là sử dụng Sentence–BERT để biểu diễn ngữ nghĩa của các tweet, đồng thời xây dựng đồ thị mối quan hệ giữa các user dựa trên thông tin follower và following Bằng cách kết hợp hai nguồn thông tin này, mô hình sẽ có thể học và khai thác cả thông tin ngữ nghĩa từ nội dung tweet và thông tin về cấu trúc mạng xã hội giữa các user Việc sử dụng Sentence–BERT sẽ giúp mô hình nắm bắt được ngữ nghĩa, mối quan hệ ngữ cảnh và sự tương đồng giữa các tweet một cách hiệu quả hơn so với phương pháp TF-IDF truyền thống Điều này sẽ giúp mô hình phân biệt tốt hơn giữa các tweet thật và tweet được tạo ra bởi bot Đồng thời, việc xây dựng đồ thị mối quan hệ giữa các user sẽ cho phép mô hình nắm bắt được cấu trúc cộng đồng và các mẫu kết nối đặc trưng của các tài khoản bot, từ đó nâng cao khả năng phát hiện bot ở cấp độ user. Bằng cách kết hợp cả hai phương pháp, mô hình SOBOG sẽ có thể khai thác đồng thời thông tin từ nội dung tweet và mối quan hệ xã hội giữa các user, tạo ra một biểu diễn phong phú và đa dạng hơn cho mỗi user Điều này hứa hẹn sẽ nâng cao đáng kể hiệu quả và độ chính xác của việc phát hiện bot so với việc chỉ sử dụng một trong hai phương pháp Trong quá trình huấn luyện, mô hình sẽ học cách tổng hợp thông tin từ cả hai nguồn, từ đó tạo ra các biểu diễn tổng hợp cho mỗi user và tweet Các biểu diễn này sẽ chứa đựng cả thông tin ngữ nghĩa từ nội dung tweet và thông tin về mối quan hệ và tương tác giữa các user trên mạng xã hội Từ đó, mô hình sẽ có thể đưa ra dự đoán chính xác hơn về khả năng một user hoặc tweet là bot Việc kết hợp sử dụng Sentence–BERT và xây dựng đồ thị giữa các user trong mô hình SOBOG hứa hẹn sẽ tạo ra một công cụ mạnh mẽ và hiệu quả trong việc phát hiện và phân loại bot trên mạng xã hộiTwitter Đây là một hướng nghiên cứu tiềm năng và đáng được khám phá để nâng cao hiệu quả của các hệ thống phát hiện bot trong tương lai.

Mô tả mô hình

Trong đề xuất này, học viên sẽ kết hợp việc sử dụng Sentence–BERT để biểu diễn ngữ nghĩa của các tweet (như trong Đề xuất 1) và xây dựng đồ thị mối quan hệ giữa các user dựa trên thông tin follower và following (như trong Đề xuất 2) Mô hình SOBOG mở rộng sẽ bao gồm các thành phần chính sau:

Hình 4.7: Sử dụng mô hình all-MiniLM-L6-v2 để mã hóa nội dung tweet kết hợp xây dựng mạng lưới thể hiện mối quan hệ giữa các user

Xây dựng đồ thị user và tweet Đồ thị user sẽ được xây dựng tương tự như trong Đề xuất 2, với mỗi user là một nút và các cạnh thể hiện mối quan hệ follow giữa các user Đồ thị tweet sẽ được xây dựng tương tự như trong mô hình SOBOG ban đầu, với mỗi tweet là một nút và các cạnh thể hiện mối quan hệ reply và retweet giữa các tweet.

Biểu diễn nút user và tweet

Mỗi nút user sẽ được biểu diễn bằng một vector đặc trưng dựa trên các thông tin về thuộc tính của user, tương tự như trong Đề xuất 2 Mỗi nút tweet sẽ được biểu diễn bằng một vector ngữ nghĩa được tạo ra bởi Sentence–BERT ”all-MiniLM-L6-v2”, tương tự như trong Đề xuất 1.

Học biểu diễn user và tweet

Sử dụng các tầng Graph Attention (GAT) để học biểu diễn cho cả nút user và nút tweet trong đồ thị tương ứng, tương tự như trong Đề xuất 2 Kết quả là các ma trận𝐻 𝑢 ∈ R 𝑑 𝑢 ×|𝑈 | và

𝐻 𝑡 ∈R 𝑑 𝑡 ×| 𝑇 | chứa biểu diễn mới của các nút user và tweet sau khi áp dụng GAT.

Kết hợp biểu diễn user và tweet Áp dụng Adaptive Max Pooling lên ma trận𝐻 𝑡 để tạo ra vector𝑐 ∈R 𝑑 𝑡 chứa thông tin tổng hợp từ các tweet liên quan đến mỗi user, tương tự như trong Đề xuất 2 Kết hợp vector biểu diễn userℎ 𝑢

𝑖 từ ma trận𝐻 𝑢 với vector tổng hợp tweet𝑐bằng phép nối (concatenation) để tạo ra biểu diễn tổng hợp𝑟 𝑖 ∈R 𝑑 𝑢 +𝑑 𝑡 cho mỗi user.

Phân loại user và tweet

Sử dụng các tầng fully connected và hàm kích hoạt sigmoid để tính xác suất một user là bot dựa trên biểu diễn tổng hợp𝑟 𝑖 , tương tự như trong Đề xuất 2 Sử dụng các tầng fully connected và hàm kích hoạt sigmoid để tính xác suất một tweet được tạo bởi bot dựa trên vector biểu diễn tweetℎ 𝑡

𝑗 từ ma trận𝐻 𝑡 , tương tự như trong mô hình SOBOG ban đầu.

Bằng cách kết hợp việc sử dụng Sentence–BERT để biểu diễn ngữ nghĩa của các tweet và xây dựng đồ thị mối quan hệ giữa các user, đề xuất này cho phép mô hình SOBOG học và khai thác đồng thời cả thông tin từ nội dung tweet và cấu trúc mạng xã hội giữa các user Điều này hứa hẹn sẽ nâng cao đáng kể hiệu quả và độ chính xác của việc phát hiện bot so với việc chỉ sử dụng một trong hai phương pháp.

Tham số cầu hình của mô hình

Tham số Mô tả Giá trị train-test Chia tập train – test 60–40 m Số lượng đặc trưng all-MiniLM-L6-v2 384 d_t Chiều nhúng của các vector tweet 256 d_u Chiều nhúng của các vector người dùng 20

- Số lớp GAT cho nhánh phân loại Tweet 3

- Số lớp GAT cho nhánh phân loại Account 2

THÍ NGHIỆM VÀ KẾT QUẢ Để đánh giá hiệu suất của các mô hình đề xuất, học viên tiến hành tất cả thí nghiệm trên môi trường Google Colaboratory với thông số được cấu hình như sau

• CPU: Intel(R) Xeon(R) CPU @2.20 GHz

Kết quả thí nghiệm đề xuất 1

Bảng 5.1: Kết quả thí nghiệm đề xuất 1 cho việc phân loại theo user

Mô hình Accuracy Precision Recall F1

Bảng 5.2: Kết quả thí nghiệm đề xuất 1 cho việc phân loại theo tweet

Dựa trên kết quả thí nghiệm được trình bày trong bảng trên, học viên có thể rút ra một số nhận xét và bài học kinh nghiệm cho đề xuất 1 như sau:

Phân loại theo user Đề xuất 1 đạt được sự cải thiện nhẹ nhưng nhất quán so với SOBOG:

• Accuracy tăng từ 98.77% lên 98.87%, cho thấy khả năng phân loại tổng thể tốt hơn.

• Recall tăng từ 97.35% lên 97.86%, thể hiện khả năng phát hiện tài khoản bot hiệu quả hơn.

• F1-score tăng từ 98.34% lên 98.48%, chứng tỏ sự cân bằng tốt hơn giữa Precision và Recall.

• Tuy nhiên, Precision giảm nhẹ từ 99.36% xuống 99.11%, cho thấy có thể có một số trường hợp phân loại sai tài khoản thật thành bot.

Phân loại theo tweet Đề xuất 1 thể hiện sự cải thiện vượt trội so với SOBOG:

• Accuracy tăng đáng kể từ 94.76% lên 98.82%, cho thấy khả năng phân loại tweet chính xác hơn rất nhiều.

• Recall tăng từ 96.51% lên 97.23%, thể hiện khả năng phát hiện tweet do bot tạo ra tốt hơn.

• Tuy nhiên, Precision giảm nhẹ từ 97.87% xuống 97.32%, cho thấy có thể có một số trường hợp phân loại sai tweet thật thành bot.

Nhận xét và bài học kinh nghiệm

• Việc sử dụng Sentence–BERT để biểu diễn ngữ nghĩa của tweet đã mang lại cải thiện đáng kể, đặc biệt trong việc phân loại theo tweet.

• Sự cải thiện về Accuracy và Recall cho thấy đề xuất 1 có khả năng phát hiện bot và tweet do bot tạo ra tốt hơn.

• Sự giảm nhẹ về Precision cho thấy cần có sự cân nhắc trong việc tinh chỉnh mô hình để giảm thiểu các trường hợp phân loại sai tài khoản hoặc tweet thật thành bot.

• Để cải thiện hơn nữa, có thể thử nghiệm với các mô hình Sentence–BERT khác nhau hoặc điều chỉnh các siêu tham số để tìm ra cấu hình tối ưu.

• Cần xem xét kỹ lưỡng các trường hợp được phân loại sai để hiểu rõ hơn về điểm mạnh và điểm yếu của đề xuất 1, từ đó có hướng cải tiến tiếp theo.

Kết quả thí nghiệm đề xuất 2

Phân loại theo user Đề xuất 2 thể hiện sự cải thiện đáng kể so với mô hình SOBOG gốc:

• Accuracy tăng từ 98.77% lên 98.95%, cho thấy khả năng phân loại tổng thể tốt hơn.

• Recall tăng đáng kể từ 97.35% lên 98.74%, thể hiện khả năng phát hiện tài khoản bot hiệu quả hơn rất nhiều.

• Tuy nhiên, Precision giảm từ 99.36% xuống 98.61%, cho thấy có thể có nhiều trường hợp phân loại sai tài khoản thật thành bot hơn.

Phân loại theo tweet Đề xuất 2 cho kết quả tương đương hoặc nhỉnh hơn một chút so với SOBOG:

• Accuracy tăng nhẹ từ 94.76% lên 94.87%, cho thấy khả năng phân loại tweet chính xác hơn một chút.

• Precision tăng không đáng kể từ 97.87% lên 97.88%, thể hiện tỷ lệ dự đoán chính xác các tweet do bot tạo ra tương đương.

• Tuy nhiên, Recall giảm từ 96.51% xuống 95.49%, cho thấy khả năng phát hiện tweet do bot tạo ra kém hơn một chút.

• F1-score giảm nhẹ từ 97.19% xuống 96.67%, phản ánh sự suy giảm về Recall.

• Việc sử dụng đồ thị mối quan hệ giữa các user (follower, following) trong đề xuất 2 đã mang lại cải thiện đáng kể trong việc phân loại theo user, đặc biệt là về Accuracy và Recall.

• Tuy nhiên, đề xuất này có tác động không đáng kể đối với việc phân loại theo tweet.

• Sự cải thiện về Recall trong phân loại user cho thấy đề xuất 2 có khả năng phát hiện tài khoản bot tốt hơn, nhưng sự giảm về Precision cũng đồng thời cho thấy có nhiều trường hợp phân loại sai tài khoản thật thành bot hơn.

• Đối với phân loại tweet, sự suy giảm về Recall cho thấy cần phải cải thiện khả năng phát hiện tweet do bot tạo ra.

• Để cải thiện hơn nữa, có thể thử nghiệm với các cách biểu diễn đồ thị khác nhau hoặc kết hợp thông tin từ đồ thị với các đặc trưng khác để tăng hiệu quả phân loại.

• Cần phân tích kỹ lưỡng các trường hợp được phân loại sai, đặc biệt là các trường hợp dương tính giả trong phân loại user và âm tính giả trong phân loại tweet, để hiểu rõ hơn về điểm mạnh và điểm yếu của đề xuất 2.

• Việc kết hợp ưu điểm của đề xuất 2 trong phân loại user với các phương pháp khác có thể là hướng nghiên cứu tiếp theo để cải thiện hiệu suất tổng thể của mô hình.

Kết quả thí nghiệm của đề xuất 3

Phân loại theo user Đề xuất 3, với việc kết hợp cả việc sử dụng Sentence–BERT và đồ thị mối quan hệ giữa các user, đã đạt được độ chính xác cao nhất (99.01%) so với mô hình SOBOG gốc (98.77%) và đề xuất 2 (98.95%) Kết quả này cho thấy sự kết hợp của cả hai phương pháp đã mang lại hiệu quả tối ưu trong việc phân loại các tài khoản Twitter Precision của đề xuất 3 (99.23%) cũng rất cao, chỉ thấp hơn một chút so với mô hình gốc (99.36%), cho thấy tỷ lệ dự đoán chính xác các tài khoản bot Đồng thời, Recall của đề xuất 3 (98.11%) cũng cao hơn đáng kể so với cả mô hình gốc (97.35%) và đề xuất 2 (98.74%), thể hiện khả năng phát hiện tốt hơn các tài khoản bot thực sự Chỉ số F1 của đề xuất 3 (98.67%) cũng đạt giá trị cao nhất, cho thấy sự cân bằng tốt nhất giữa Precision và Recall.

Phân loại theo tweet Đề xuất 3, với việc kết hợp cả việc sử dụng Sentence–BERT và đồ thị mối quan hệ giữa các user, đã đạt được độ chính xác vượt trội (98.29%) so với cả mô hình SOBOG gốc (94.76%) và đề xuất 2 (94.87%) Kết quả này cho thấy sự kết hợp của cả hai phương pháp đã mang lại hiệu quả tối ưu trong việc phân loại các tweet Precision của đề xuất 3 (97.85%) tương đương với mô hình gốc (97.87%) và đề xuất 2 (97.88%) Tuy nhiên, Recall của đề xuất 3 (96.86%) cao hơn đáng kể so với cả mô hình gốc (96.51%) và đề xuất 2 (95.49%), cho thấy khả năng phát hiện tốt hơn các tweet do bot tạo ra Chỉ số F1 của đề xuất 3 (97.35%) cũng đạt giá trị cao nhất, thể hiện sự cân bằng tốt nhất giữa Precision và Recall.

• Đề xuất 3, với việc kết hợp cả việc sử dụng Sentence–BERT và đồ thị mối quan hệ giữa các user, đã đạt được hiệu suất tốt nhất trong cả hai tác vụ phân loại theo account và phân loại theo tweet Điều này cho thấy tầm quan trọng của việc khai thác đa dạng các đặc trưng và thông tin trong dữ liệu để nâng cao hiệu suất của mô hình.

• Tuy nhiên, việc sử dụng nhiều đặc trưng và thông tin hơn cũng đồng nghĩa với việc tăng độ phức tạp của mô hình và thời gian huấn luyện Do đó, cần cân nhắc giữa hiệu suất và tính khả thi trong việc lựa chọn các đặc trưng và thông tin sử dụng trong mô hình.

• Việc thử nghiệm với các phương pháp kết hợp đặc trưng khác nhau, cũng như điều chỉnh các siêu tham số của mô hình, có thể giúp tìm ra cấu hình tối ưu cho từng tác vụ cụ thể.

Thảo luận kết quả

Thông tin User là người dùng thật nhưng có tweet giống bot

• Nội dung tweet: Người dùng thật đăng một tweet chứa liên kết đến một trang web bán hàng hoặc quảng cáo sản phẩm.

– Ví dụ cụ thể: Người dùng Alice, người dùng thật và có hoạt động thường xuyên trên mạng xã hội, đăng một tweet với nội dung ”Đặt mua ngay sản phẩm XYZ tại đây: [liên kết] #giảmgiá #quảngcáo”.

• Hành vi tweet: Người dùng thật đăng tweet một cách tần suất cao hoặc chỉ retweet các bài viết mà không có nội dung tự viết.

– Ví dụ: Người dùng Bob, một người tham gia hoạt động mạng xã hội tích cực, thường xuyên retweet các bài viết từ các tài khoản khác mà không thêm bất kỳ bình luận hay thông điệp cá nhân nào.

Thông tin User là bot nhưng có tweet giống người dùng thật

• Nội dung tweet: Bot được lập trình để tạo ra các tweet với ngôn ngữ tự nhiên, có cảm xúc như các người dùng thật.

– Ví dụ: Bot có tên là ”AIbot123”, được lập trình để tạo ra các tweet như ”Chúc mọi người cuối tuần vui vẻ! #weekendvibes”hoặc ”Tôi thích xem phim vào những ngày mưa như thế này #ngẫunhiên”.

• Hành vi tweet: Bot tinh vi sử dụng chiến thuật che giấu bằng cách xen kẽ các tweet giống người dùng thật và tweet có tính chất bot.

– Ví dụ: Bot có hành vi khai thác sự ngẫu nhiên trong cách lựa chọn thời gian và nội dung để tạo tweet Bot có thể đăng một loạt các tweet về thời tiết và cảm xúc như một người dùng thực, nhưng lại có thời điểm đăng các tweet quảng cáo hoặc spam.

Kết quả đạt được

Qua quá trình nghiên cứu và phân tích sâu rộng trong đề cương luận văn này, học viên có thể đi đến kết luận rằng việc ứng dụng các phương pháp học sâu, đặc biệt là mạng nơ-ron đồ thị (Graph Neural Networks - GNNs), trong lĩnh vực phát hiện bot trên nền tảng Twitter đã mang lại những kết quả đáng khích lệ và hiệu quả vượt trội so với các phương pháp truyền thống.

Các kỹ thuật học sâu tiên tiến, như mạng nơ-ron tích chập (Convolutional Neural Networks

- CNNs), mạng nơ-ron hồi quy (Recurrent Neural Networks - RNNs) và đặc biệt là GNNs, đã thể hiện rõ ưu thế trong việc xử lý và khai thác hiệu quả các dạng dữ liệu phức tạp và không cấu trúc trên mạng xã hội Twitter Bằng cách học và biểu diễn các đặc trưng phong phú từ nội dung tweet, thông tin người dùng và các mối tương tác đa chiều giữa các tài khoản, các mô hình học sâu có khả năng nắm bắt và mô hình hóa các mẫu hình và hành vi đặc trưng của các tài khoản bot một cách chính xác và hiệu quả hơn so với các phương pháp truyền thống dựa trên các đặc trưng thủ công. Đặc biệt, việc áp dụng GNNs trong bài toán phát hiện bot trên Twitter đã mở ra một hướng tiếp cận mới và đầy triển vọng Bằng cách khai thác cấu trúc đồ thị của các mối quan hệ và tương tác giữa các tài khoản, GNNs có khả năng học và biểu diễn các đặc trưng và mối liên hệ phức tạp một cách tự động và hiệu quả Điều này cho phép các mô hình GNNs nắm bắt được các mẫu hình và hành vi đặc thù của các tài khoản bot, như xu hướng kết nối và tương tác với nhau, sự lan truyền thông tin và ảnh hưởng của chúng trong mạng lưới xã hội Nhờ đó, GNNs đã đạt được kết quả vượt trội trong việc phát hiện và phân biệt các tài khoản bot so với các phương pháp truyền thống chỉ dựa trên các đặc trưng cục bộ và độc lập.

Tuy nhiên, việc áp dụng học sâu trong phát hiện bot trên Twitter cũng đối mặt với một số thách thức và hạn chế nhất định Một trong những thách thức lớn nhất là yêu cầu về lượng dữ liệu huấn luyện lớn và chất lượng cao Để huấn luyện hiệu quả các mô hình học sâu, đặc biệt là các mô hình GNNs phức tạp, cần có một lượng lớn dữ liệu được gán nhãn chính xác và đa dạng, bao gồm cả các tài khoản thật và tài khoản bot Việc thu thập, làm sạch và gán nhãn dữ liệu có thể tốn kém về thời gian và nguồn lực, đòi hỏi sự hợp tác chặt chẽ giữa các nhà nghiên cứu và các nền tảng mạng xã hội như Twitter.

Bên cạnh đó, việc triển khai và áp dụng các mô hình học sâu trong thực tế cũng gặp phải một số rào cản về tốc độ xử lý và thời gian tính toán Các mô hình học sâu, đặc biệt là GNNs, thường đòi hỏi khả năng tính toán và bộ nhớ lớn để xử lý các đồ thị lớn và phức tạp trên mạng xã hội Điều này có thể gây khó khăn trong việc triển khai và áp dụng các mô hình này trên quy mô lớn và thời gian thực.

Hạn chế và vấn đề tồn đọng

Mặc dù việc ứng dụng học sâu, đặc biệt là GNNs, trong phát hiện bot trên Twitter đã đạt được những kết quả đáng khích lệ, vẫn còn một số hạn chế và vấn đề tồn đọng cần được giải quyết để nâng cao hiệu quả và tính khả thi của các mô hình này trong thực tế.

• Việc thu thập và xây dựng tập dữ liệu huấn luyện chất lượng cao và đa dạng vẫn là một thách thức lớn Để huấn luyện hiệu quả các mô hình học sâu, đặc biệt là GNNs, cần có một lượng lớn dữ liệu được gán nhãn chính xác, bao gồm cả các tài khoản thật và tài khoản bot Tuy nhiên, việc thu thập và gán nhãn dữ liệu một cách thủ công có thể tốn kém về thời gian và công sức Hơn nữa, sự đa dạng và tính đại diện của tập dữ liệu cũng là một yếu tố quan trọng để đảm bảo khả năng tổng quát hóa của mô hình Việc xây dựng các tập dữ liệu chuẩn và đa dạng cho bài toán phát hiện bot trên Twitter vẫn còn là một hướng nghiên cứu cần được quan tâm và đầu tư.

• Việc triển khai và áp dụng các mô hình GNNs trong thực tế gặp phải những thách thức về hiệu suất tính toán và thời gian xử lý Các mô hình GNNs thường đòi hỏi khả năng tính toán và bộ nhớ lớn để xử lý các đồ thị lớn và phức tạp trên mạng xã hội Điều này gây khó khăn trong việc triển khai các mô hình này trên quy mô lớn và thời gian thực Việc nghiên cứu và phát triển các kỹ thuật tối ưu hóa và song song hóa để giảm thiểu yêu cầu tài nguyên tính toán và tăng tốc độ xử lý của các mô hình GNNs là một hướng đi cần thiết để đưa chúng vào ứng dụng thực tế.

• Sự thay đổi và tiến hóa không ngừng của các chiến thuật và hành vi của các tài khoản bot cũng đặt ra thách thức cho việc phát hiện và phân loại chúng Các tài khoản bot ngày càng trở nên tinh vi và giống với người dùng thật hơn, khiến cho việc phân biệt trở nên khó khăn hơn Do đó, các mô hình phát hiện bot cần có khả năng thích ứng và cập nhật liên tục để đối phó với sự thay đổi này Việc nghiên cứu và phát triển các phương pháp học sâu có khả năng tự động học và cập nhật từ dữ liệu mới là một hướng đi tiềm năng để giải quyết vấn đề này.

Hướng phát triển

Từ những hạn chế và vấn đề tồn đọng đã được chỉ ra, có thể đề xuất một số hướng phát triển quan trọng cho đề tài phát hiện bot trên Twitter sử dụng Graph Neural Networks (GNNs). Những hướng phát triển này không chỉ nhằm mục đích cải thiện hiệu suất của các mô hình hiện có mà còn hướng tới việc mở rộng phạm vi ứng dụng và tăng cường tính khả thi trong thực tế của công nghệ này.

• Tối ưu hóa và mở rộng bộ dữ liệu:Một trong những hướng phát triển quan trọng nhất là việc thử nghiệm các bộ dữ liệu lớn hơn và mang tính tổng quát hóa cao hơn như Twibot-

2022 [20] Bộ dữ liệu này không chỉ lớn hơn về quy mô mà còn đa dạng hơn về loại tài khoản, bao gồm cả bot, cyborg và tài khoản người thật Việc sử dụng bộ dữ liệu này có thể giúp:

– Tăng cường khả năng tổng quát hóa của mô hình, giúp nó có thể xử lý hiệu quả hơn trong các tình huống thực tế đa dạng.

– Cải thiện độ chính xác trong việc phân biệt giữa các loại tài khoản khác nhau, đặc biệt là trong việc nhận diện các loại bot phức tạp và tinh vi hơn.

– Tạo cơ sở để phát triển các phương pháp học không cân bằng (imbalanced learning) và học chuyển giao (transfer learning) trong lĩnh vực phát hiện bot.

• Cải tiến kiến trúc Graph Neural Network:Thử nghiệm và áp dụng các Graph Neural Network layer mạnh mẽ hơn Graph Attention Network như GATv2 [8] là một hướng phát triển đầy tiềm năng GATv2 khắc phục một số hạn chế của GAT truyền thống, cho phép mô hình học được các mối quan hệ phức tạp hơn trong dữ liệu Cụ thể:

– GATv2 có khả năng tính toán trọng số chú ý (attention weights) một cách linh hoạt hơn, không bị giới hạn bởi các hàm tuyến tính như trong GAT.

– Kiến trúc này có thể giúp cải thiện hiệu suất của mô hình trong việc học các đặc trưng phức tạp từ dữ liệu mạng xã hội, như các mẫu tương tác giữa các tài khoản, cấu trúc mạng lưới followers/followings, và các đặc điểm thời gian của hoạt động trên Twitter.

– Việc áp dụng GATv2 có thể dẫn đến sự cải thiện đáng kể trong việc phát hiện các loại bot tinh vi, như các bot bắt chước hành vi người dùng thật hoặc các mạng lưới bot phối hợp.

Tóm lại, việc giải quyết các hạn chế và vấn đề tồn đọng trong việc ứng dụng học sâu và GNNs để phát hiện bot trên Twitter đòi hỏi sự nỗ lực và hợp tác của cả cộng đồng nghiên cứu và ngành công nghiệp Bằng cách tập trung vào việc phát triển các phương pháp học sâu thích ứng, thử nghiệm các kiến trúc GNN tiên tiến, chúng ta có thể đưa công nghệ phát hiện bot tiên tiến hơn vào thực tế Điều này không chỉ góp phần vào sự phát triển bền vững và lành mạnh của môi trường mạng xã hội mà còn mở ra những hướng nghiên cứu mới trong lĩnh vực an ninh mạng và phân tích dữ liệu lớn Những tiến bộ trong lĩnh vực này có thể có tác động sâu rộng, từ việc cải thiện trải nghiệm người dùng trên các nền tảng mạng xã hội đến việc hỗ trợ các nỗ lực chống lại thông tin sai lệch và các chiến dịch ảnh hưởng có hại.

[1] Jaffar Abbas, Dake Wang, Zhaohui Su, and Arash Ziapour The role of social media in the advent of COVID-19 pandemic: Crisis management, mental health challenges and impli- cations Risk Manag Healthc Policy, 14:1917–1932, May 2021.

[2] Norah Abokhodair, Daisy Yoo, and David W McDonald Dissecting a social botnet: Growth, content and influence in twitter CoRR, abs/1604.03627, 2016.

[3] Abdulrahman Alarifi, Mansour Alsaleh, and AbdulMalik S Al-Salman Twitter turing test: Identifying social machines Inf Sci., 372:332–346, 2016.

[4] Afshine Amidi and Shervine Amidi Recurrent neural networks cheatsheet https://st anford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-net works.

[5] F Benamara, C Cesarano, A Picariello, D Reforgiato, and V.S Subrahmanian Sentiment analysis: Adjectives and adverbs are better than adjectives alone In Proceedings of the International Conference on Weblogs and Social Media (ICWSM), 2007/// 2007.

[6] Yoshua Bengio, Patrice Simard, and Paolo Frasconi Learning long-term dependencies with gradient descent is difficult IEEE transactions on neural networks, 5(2):157–166,

[7] David M Beskow and Kathleen M Carley Its all in a name: detecting and labeling bots by their name Computational and Mathematical Organization Theory, 25(1):24–35, 2019.

[8] Shaked Brody, Uri Alon, and Eran Yahav How attentive are graph attention networks? arXiv preprint arXiv:2105.14491, 2021.

[9] Chiyu Cai, Linjing Li, and Daniel Zengi Behavior enhanced deep bot detection in social media In 2017 IEEE International Conference on Intelligence and Security Informatics (ISI), pages 128–130 IEEE, 2017.

[10] Zi Chu, Steven Gianvecchio, Haining Wang, and Sushil Jajodia Detecting automation of twitter accounts: Are you a human, bot, or cyborg?IEEE Transactions on dependable and secure computing, 9(6):811–824, 2012.

[11] Stefano Cresci A decade of social bot detection Communications of the ACM,

[12] Stefano Cresci, Roberto Di Pietro, Marinella Petrocchi, Angelo Spognardi, and MaurizioTesconi Fame for sale: Efficient detection of fake twitter followers Decision SupportSystems, 80:56–71, 2015.

[14] Stefano Cresci, Roberto Di Pietro, Marinella Petrocchi, Angelo Spognardi, and Maurizio Tesconi The paradigm-shift of social spambots: Evidence, theories, and tools for the arms race InProceedings of the 26th international conference on world wide web companion, pages 963–972, 2017.

[15] Stefano Cresci, Fabrizio Lillo, Daniele Regoli, Serena Tardelli, and Maurizio Tesconi. Fake: Evidence of spam and bot activity in stock microblogs on twitter InProceedings of the International AAAI Conference on Web and Social Media, volume 12, 2018.

[16] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova Bert: Pre- training of deep bidirectional transformers for language understanding arXiv preprint arXiv:1810.04805, 2018.

[17] John P Dickerson, Vadim Kagan, and VS Subrahmanian Using sentiment to detect bots on twitter: Are humans more opinionated than bots? In 2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2014), pages

[18] Buket Erşahin, ệzlem Aktaş, Deniz Kılınỗ, and Ceyhun Akyol Twitter fake account detection In2017 International Conference on Computer Science and Engineering (UBMK), pages 388–392 IEEE, 2017.

[19] Michael Fọrber, Agon Qurdina, and Lule Ahmedi Identifying twitter bots using a convolutional neural network InCLEF (Working Notes), 2019.

[20] Shangbin Feng, Zhaoxuan Tan, Herun Wan, Ningnan Wang, Zilong Chen, Binchi Zhang, Qinghua Zheng, Wenqian Zhang, Zhenyu Lei, Shujie Yang, et al Twibot-22: Towards graph-based twitter bot detection arXiv preprint arXiv:2206.04564, 2022.

[21] Shangbin Feng, Herun Wan, Ningnan Wang, Jundong Li, and Minnan Luo Satar: A self- supervised approach to twitter account representation learning and its application in bot detection In Proceedings of the 30th ACM International Conference on Information & Knowledge Management, pages 3808–3817, 2021.

[22] Shangbin Feng, Herun Wan, Ningnan Wang, Jundong Li, Minnan Luo, and Minnan Luo. Twibot-20: A comprehensive twitter bot detection benchmark In Proceedings of the 30th ACM International Conference on Information & Knowledge Management, pages

[23] Shangbin Feng, Herun Wan, Ningnan Wang, and Minnan Luo Botrgcn: Twitter bot detection with relational graph convolutional networks arXiv preprint arXiv:2106.13092,

Tiêu đề	Cách tiếp cận học sâu cho việc phát hiện bot trên Twitter sử dụng mạng nơ-ron đồ thị
Tác giả	Đặng Hiếu Ân
Người hướng dẫn	PGS.TS. Bùi Hoài Thắng, PGS.TS. Quản Thành Thơ
Trường học	Trường Đại học Bách Khoa, Đại học Quốc Gia TP. HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	94
Dung lượng	3,35 MB